WO2014087506A1 - 語義推定装置、語義推定方法及び語義推定プログラム - Google Patents

語義推定装置、語義推定方法及び語義推定プログラム Download PDF

Info

Publication number
WO2014087506A1
WO2014087506A1 PCT/JP2012/081562 JP2012081562W WO2014087506A1 WO 2014087506 A1 WO2014087506 A1 WO 2014087506A1 JP 2012081562 W JP2012081562 W JP 2012081562W WO 2014087506 A1 WO2014087506 A1 WO 2014087506A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
meaning
bandwidth
concept
context
Prior art date
Application number
PCT/JP2012/081562
Other languages
English (en)
French (fr)
Inventor
谷垣 宏一
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2012/081562 priority Critical patent/WO2014087506A1/ja
Publication of WO2014087506A1 publication Critical patent/WO2014087506A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a word meaning estimation technique (word meaning ambiguity resolution technique) for estimating a word contained in a document and in which word meaning the word is registered in a dictionary.
  • Non-Patent Document 1 describes a method using a support vector machine.
  • Non-Patent Document 2 describes a method of applying the naive Bayes method.
  • Non-Patent Document 3 describes a method using a decision list, a method using a decision tree, a neural network, and a k nearest neighbor method.
  • Non-Patent Document 3 describes a semi-supervised learning technique that reduces the required amount of labeled learning data by using unlabeled learning data that is not given the correct meaning.
  • Patent Document 1 discloses the meaning of co-occurrence words appearing around words included in a document on a concept hierarchy, and more co-occurrence words, closer hierarchies and close meanings. A method is described in which the meaning candidate defined in the definition sentence is searched and the searched meaning candidate is adopted as the meaning of the word. That is, the meaning of a word is estimated on the assumption that the candidate having a large number of word meaning candidates for co-occurrence words is more likely among the word meaning candidates for the word of interest.
  • the method to which unsupervised learning described in Patent Document 1 is applied is a method in which only the ambiguity of the word of interest is to be resolved.
  • the word meaning candidates of the co-occurrence words are used as the basis of the word to be focused on without giving up the word meaning ambiguity of the co-occurrence words, with an emphasis on the erroneous meaning meanings. Therefore, this method has a problem that the estimation accuracy of the meaning is poor.
  • An object of the present invention is to estimate a meaning with high accuracy by unsupervised learning.
  • Meaning estimation apparatus It is a meaning estimation device that estimates the meaning of words included in input data using kernel density estimation, A word extraction unit for extracting a plurality of words included in input data; For each word extracted by the word extraction unit, a context analysis unit that extracts a feature of a context in which the word appears in the input data; A meaning candidate extraction unit that extracts each concept stored as a meaning for each word as a meaning candidate for the word from a concept dictionary in which one or more concepts are stored as the meaning of the word; For each word, the probability density when each meaning extracted by the meaning candidate extraction unit as a meaning candidate is defined as the meaning, the distance between the selected word and the context feature between the other word, the selected concept and the other A concept band that is a conceptual distance from a concept of a word meaning candidate, a context bandwidth that is a bandwidth for the context feature in the kernel density estimation, and a bandwidth for a distance of the concept in the kernel density estimation A calculation process that recalculates the context bandwidth, the conceptual bandwidth, and the semantic probability
  • the meaning estimation apparatus by optimizing the bandwidth, it is possible to increase the meaning estimation precision without causing a decrease in the meaning estimation precision due to the local mismatch of the bandwidth.
  • FIG. 1 is a configuration diagram of a meaning estimation apparatus 100 according to Embodiment 1.
  • the flowchart which shows the flow of the process which estimates meaning.
  • the figure which shows the correct meaning of the data used in this experiment The figure which shows the result which set the meaning bandwidth and the conceptual bandwidth according to dispersion
  • Embodiment 1 FIG.
  • the meaning estimation method will be described using an example in which table schemas of a plurality of databases are input text data 10 and the meaning of words constituting the table schema is estimated.
  • a specific application for estimating meaning of a table schema for example, there is data integration in a company. Companies have a need to integrate database data among multiple business applications that have been built and run in the past. In order to realize data integration, it is necessary to determine which item corresponds to which item among a plurality of databases. Conventionally, correspondence between items has been manually determined.
  • the meaning estimation method it is possible to support the work of determining the presence or absence of correspondence between items having different names, and to save labor.
  • the application target of the method of the present invention is not limited to the table schema, but can be applied to texts written in natural language in the same manner as conventional word sense ambiguity resolution techniques.
  • FIG. 1 is a configuration diagram of the meaning estimation apparatus 100 according to the first embodiment.
  • the word meaning estimation device 100 includes a word extraction unit 20, a context analysis unit 30, a word meaning candidate extraction unit 40, a concept dictionary 50, a word meaning estimation unit 60, and a bandwidth penalty setting unit 70.
  • the input text data 10 is a plurality of table schemas of a plurality of databases.
  • the word extraction unit 20 divides the table name and the column name defined in the table schema into word units by the processing device, and extracts the divided words as the meaning estimation target.
  • the context analysis unit 30 uses the processing device to extract the appearance context characteristics of each word extracted by the word extraction unit 20 from the table schema.
  • the word meaning candidate extraction unit 40 refers to the concept dictionary 50 and extracts word meaning candidates for each word extracted by the word extraction unit 20 by the processing device.
  • the concept dictionary 50 stores one or more concepts as word meanings in a storage device, and stores a hierarchical relationship between the concepts in the storage device.
  • the word meaning estimation unit 60 uses the kernel density estimation to estimate which word meaning extracted by the word meaning candidate extraction unit 40 is likely for each word extracted by the word extraction unit 20. Then, the word meaning estimation unit 60 outputs the word meaning estimated for each word as estimated word meaning data 80.
  • the bandwidth penalty setting unit 70 sets a limit on the bandwidth in the kernel density estimation used by the meaning estimation unit 60 by the processing device.
  • the word meaning estimation unit 60 includes a context bandwidth storage unit 61, a concept bandwidth storage unit 62, a word meaning probability storage unit 63, a hypothesis evaluation unit 64, an evaluation value storage unit 65, a parameter update unit 66, and an estimated word meaning output unit 67.
  • the context bandwidth storage unit 61 is a storage device that stores a context bandwidth that is a bandwidth for kernel density estimation and is a bandwidth for a context feature.
  • the conceptual bandwidth storage unit 62 is a storage device that stores a conceptual bandwidth, which is a bandwidth in kernel density estimation and is a bandwidth for a conceptual distance.
  • the word meaning probability storage unit 63 is a storage device that stores a word meaning probability that is a probability that the selected word becomes the selected word meaning.
  • the hypothesis evaluation unit 64 for each word, the distance of the context features extracted by the context analysis unit 30 for the word and other words, and the distance of the concept between the word meaning candidates of the word and other words.
  • the probability density is evaluated based on the context bandwidth stored in the context bandwidth storage unit 61, the concept bandwidth stored in the concept bandwidth storage unit 62, and the meaning probability stored in the meaning probability storage unit 63.
  • the evaluation value storage unit 65 is a storage device that stores the probability density calculated by the hypothesis evaluation unit 64.
  • the parameter update unit 66 considers the restriction set by the bandwidth penalty setting unit 70 based on the probability density stored in the evaluation value storage unit 65, and then the context bandwidth and conceptual band stored in the context bandwidth storage unit 61.
  • the concept bandwidth stored by the width storage unit 62 and the meaning probability stored by the meaning probability storage unit 63 are updated.
  • the estimated meaning output unit 67 repeats the calculation process of the probability density by the hypothesis evaluation unit 64 and the update of the context bandwidth, the concept bandwidth, and the meaning probability by the parameter update unit 66 a plurality of times, Estimated semantic data 80 in which the concept having a high probability density stored in the evaluation value storage unit 65 is used as the meaning of the word is output.
  • FIG. 2 is a diagram illustrating an overview of the meaning estimation method according to the first embodiment.
  • the input text data 10 is a schema that defines the table structure of the database.
  • FIG. 2 shows, as an example, a state in which a schema of a table “ORDER” including columns “SHIP_TO” and “DELIVER_TO” is input. A plurality of such table schemas are actually input.
  • the word extraction unit 20 extracts words from the input table schema.
  • word division is performed using the underscore “_” as a delimiter.
  • four types of words “ORDER”, “SHIP”, “TO”, and “DELIVER” are extracted. All the extracted words are treated as meaning objects (classification target words). However, since the preposition “TO” is not an entry in the concept dictionary, the extraction of the meaning candidate described later fails and is excluded from the target.
  • the context analysis unit 30 extracts features of appearance context of each classification target word, and generates a feature vector.
  • the feature of the word appearance context indicates how the word is used in the table schema.
  • the characteristics of the appearance context of words (1) the type of whether the appearance location is a table name or a column name, (2) the word that appears immediately before the classification target word, and (3) the classification target word The word that appears immediately after, (4) the word that appears in the parent table name (only when the classification target word appears in the column name), and (5) the word that appears in the child column name (the classification target word appears in the table) 5 only).
  • FIG. 3 is a diagram illustrating an example of the feature vector of the appearance context generated by the context analysis unit 30.
  • each row represents a classification target word
  • each column represents a feature constituting a feature.
  • the feature value is 1, the feature is present, and when the feature value is 0, the feature is not possessed. From FIG. 3, it can be seen that the appearance context vectors of the classification target words “SHIP” and “DELIVER” match and are used in a similar manner.
  • the word meaning candidate extraction unit 40 refers to each classification target word in the concept dictionary 50 and extracts all the concepts that are word meaning candidates.
  • WordNet is used as the concept dictionary 50.
  • WordNet a concept called “synset” is defined as one unit, and words corresponding to the concept and upper / lower relations between concepts are defined.
  • nouns, verbs, adjectives, and adverbs are registered.
  • the meaning of the preposition “TO” has not been registered, so that the meaning extraction fails and the processing is excluded from the subsequent processing targets.
  • the details of WordNet are described in Non-Patent Document 4, for example.
  • FIG. 4 and 5 are diagrams showing examples of the concept dictionary 50.
  • FIG. FIG. 4 is a diagram illustrating the relationship between concepts and words. That is, FIG. 4 is a diagram illustrating an example of definition of meaning.
  • the concept ID 0003 is a concept having the name of “ship” in Japanese, and it is defined that there are “ship”, “vessel”, and the like as corresponding words.
  • the word “ship” when viewed from the word “ship”, the three meanings of ID0003 “ship”, 0010 “title”, and 0017 “shipment” are registered as the meaning, which is ambiguous.
  • two concepts of ID0013 “childbirth” and 0019 “delivery” are registered as meanings and are ambiguous. That is, it is necessary to identify from which context the word “ship” or “deliver” is used.
  • FIG. 5 is an example of the relationship definition of the concept, and is a diagram showing the upper (abstract) / lower (specific) relationship of the concept.
  • Concepts that are close to each other in the hierarchical relationship have a similar meaning than concepts that are distant.
  • the concept “shipping” of ID 0017 is defined as having a sister relationship with the concept of “delivery” of ID 0019 and having a meaning similar to, for example, the concept “birth” of other ID 0013. Yes.
  • the meaning candidate extraction unit 40 extracts concepts registered as word meanings in the concept dictionary and converts the extracted concepts into meaning feature vectors. By converting to semantic feature vectors, the closeness between concepts can be handled by vector calculations as well as closeness between appearance contexts.
  • FIG. 6 is a diagram showing an example of a concept expressed by a vector in accordance with the hierarchy definition shown in FIG.
  • each row represents a vector of concept IDs displayed at the left end.
  • Each component of the vector is a concept constituting a concept hierarchy, and 1 is given when it corresponds to the concept of the concept ID of the vector or its superordinate concept, and 0 is given otherwise.
  • ID0017 has ID0001, ID0011, and ID0016 as superordinate concepts
  • 1 is given to a total of four components including its own ID0017 and these three concepts. From FIG. 6, it can be seen that the concept ID 0017 “shipping” and ID 0019 “delivery” are expressed as vectors similar to those of other concepts.
  • the word meaning estimation unit 60 estimates the word meaning of the classification target word based on the distance between contexts defined by the above-described context feature vectors and the distance between concepts defined by the concept feature vectors.
  • the feature vector, classifying target word x i, x i 'distance context of ⁇ X d x (x i, x i'), and, the concepts s j, s j 'distance ⁇ S d s Assume that (s j , s j ′ ) is defined.
  • the definition of the feature vector is not essential, and the context and the concept need only be expressed by the metric space (X, d x ) and (S, d s ), respectively.
  • the distance between the context and the concept can be obtained by Equation 21.
  • ⁇ ⁇ ⁇ 2 is the second-order norm of the vector.
  • the space defined by the above two vectors is schematically shown by a two-dimensional plane. Mapping the classification target word x i that appeared in certain contexts on this plane, the position of x i feature vectors phi x the context of (x i) is uniquely determined. However, except for the case where x i is a simple word, since the meaning of x i is ambiguous, the position of the feature vector ⁇ s (s j ) of the concept of x i is stochastically positioned at a plurality of locations. It will be a hypothesis. Hypotheses mapped on the plane are indicated by black dots in FIG. For example, the classification target word “SHIP” in FIG.
  • the probability of such a hypothesis (x i , s j ) is defined as a semantic probability ⁇ ij .
  • the word meaning disambiguation is to obtain an optimal solution of the word meaning probability ⁇ ij . In the following, this optimum solution search is formulated, and specific calculation formulas for the processes of the hypothesis evaluation unit 64 and the parameter update unit 66 are derived.
  • semantics of x i is s is j word meaning probability [pi ij and the parameter matrix whose elements [pi, parameters xi] ij later Gaussian kernel, respectively ⁇ parameters matrix with a zeta ij element, and Zeta
  • maximum A likelihood function L MAP by a posteriori probability estimation (MAP estimation) is defined as in Equation 22, and a parameter optimum solution is obtained by maximizing L MAP .
  • Equation 22 Define lnp (X
  • ⁇ , ⁇ , ⁇ ) is the likelihood for the set X.
  • ⁇ , ⁇ , ⁇ ) is the test data (x i , s j ) given by the semantic probability ⁇ ij with probability density Q (x i , s j ; ⁇ , ⁇ , ⁇ )
  • the likelihood of insertion is defined as in Equation 23.
  • the likelihood of hypotheses placed stochastically in this way is extrapolated between the hypotheses and evaluated, thereby determining a likely hypothesis for the entire set X.
  • the notation of probability density Q (x i , s j ; ⁇ , ⁇ , ⁇ ) is simplified and simply written as probability density Q (x i , s j ).
  • the probability density Q (x i , s j ) is the number of extrapolations of the hypothesis (x i , s j ) by the Gaussian kernel K i′j ′ centered on the hypothesis (x i ′ , s j ′ ). 24 is calculated.
  • N wi is, 'out of the word x i ignoring the appearance context' word x i that is included in the set X a, kind of classification target word x i 'type w i' of the word x i This represents the number of words x i ′ different from w i .
  • N wi
  • d x (x i ′ , x i ) and d s (s j ′ , s j ) are respectively the context distances of the hypothesis (x i ′ , s j ′ ) and the hypothesis (x i , s j ). Is the distance of the concept.
  • ⁇ i′j ′ and ⁇ i′j ′ are the context bandwidth and the conceptual bandwidth of the Gaussian kernel K i′j ′ , respectively.
  • Expressions 23 and 24 are cross-validation (cross-validation) likelihoods based on different types of words (different words). That is, in the equation of probability density Q (x i , s j ) in Expression 24, the hypothesis (x i , s j ) as test data is excluded by the constraint condition w i ′ ⁇ w i on the right side and is not test data
  • the parameters are optimized for the kernel.
  • the reason for introducing cross-validation in this way is that the parameters to be optimized include kernel bandwidths ⁇ and ⁇ , and in order to avoid over-learning of these bandwidths ⁇ and ⁇ . It is.
  • the meaning of meaning has the following properties (1) and (2).
  • the classification target word x i is the band width to each one split test Overfit is inevitable.
  • the likelihood for the classification target word x i is defined by cross-validation in units of different words.
  • Equation 22 Lnp ( ⁇ ), lnp ( ⁇ ), and lnp ( ⁇ ) in Equation 22 are defined. It is assumed that the parameter matrix ⁇ of the word meaning probability is given a no-information prior distribution (uniform distribution), and the optimal solution is determined only from the likelihood for the classification target word x i . Therefore, the prior probability lnp ( ⁇ ) of the parameter matrix ⁇ is defined as in Expression 25.
  • the prior probability lnp ( ⁇ ) of the parameter matrix ⁇ of the context bandwidth is defined as in Equation 27.
  • the prior probability lnp ( ⁇ ) of the parameter matrix ⁇ of the conceptual bandwidth is defined as Equation 28.
  • ⁇ 1 , ⁇ 2 , ⁇ 1 , and ⁇ 2 are hyperparameters (constants) that determine the shape of the gamma distribution, and are set by the bandwidth penalty setting unit 70.
  • the bandwidth penalty setting unit 70 does not directly set these values, but 2 ( ⁇ 1 ⁇ 1), ⁇ 1 / ( ⁇ 1 -1), 2 ( ⁇ 2 -1), ⁇ 2 / ( ⁇ 2 -1) may be set.
  • the reason why the prior probability is given to the bandwidth in this way is to avoid overlearning caused by the large number of parameters.
  • the bandwidth of all the kernels is variable, it is possible to estimate the meaning while adapting to the local distribution of the classification target word x i , but there are too many parameters as it is, and the classification target word Overfits xi . Therefore, a gentle restriction is imposed on the bandwidth, and a penalty is applied to a bandwidth that deviates greatly from the prior probability.
  • the variance of the gamma distribution is set to be extremely small, it corresponds to the case where the bandwidth is fixed uniformly.
  • it is set to be extremely large variance of the gamma distribution consistent when determining the bandwidth only likelihood classification target word x i in the maximum likelihood estimation.
  • the likelihood function L MAP of Formula 22 is defined.
  • the parameter optimal solution is given by Equation 29, where Lagrange multiplier is ⁇ i .
  • L ⁇ is differentiated by a semantic probability ⁇ ij , context bandwidth ⁇ ij , and conceptual bandwidth ⁇ ij , and arranged as 0, as a cyclic definition formula for the parameter optimal solution, Equation 30 is obtained.
  • C ⁇ 1, C ⁇ 2, C ⁇ 1, C ⁇ 2 is hyper parameter.
  • C ⁇ 1, C ⁇ 2, C ⁇ 1, C ⁇ 2 the parameter alpha 1 of the gamma distribution described above, alpha 2, beta 1, and beta 2, have a relationship shown in Expression 31, the bandwidth penalties setting unit 70 C ⁇ 1, C ⁇ 2, C ⁇ 1 , may set the C ?? 2.
  • r i'j 'ij is, hypothesis (x i', s j ' ) probability weighted probability density ⁇ i'j of' Q (x i ', s j') hypothesis as a percentage of (x i, s j ), which is defined by equation (32).
  • Q ij (x i ′ , s j ′ ) is the probability density of the hypothesis (x i ′ , s j ′ ) based on the hypothesis (x i , s j ) alone, and is defined by Equation 33.
  • Equation 30 the subscript * of the burden rate r indicates that the sum is taken for the subscript. Further, the subscript * ⁇ of the burden ratio r indicates that the sum is limited to x i and x i ′ of different word types. That is, Equation 34.
  • the semantic meaning probability ⁇ ij increases as the share rate r ij * ⁇ * increases. That is, the meaning probability ⁇ ij increases as the value of the hypothesis (x i , s j ) extrapolated from the other hypothesis (x * ⁇ , s * ) increases. Further, the word meaning probability ⁇ ij increases as the burden ratio r * ⁇ * ij increases. That is, the meaning probability ⁇ ij increases as the burden rate of (x i , s j ) on other hypotheses (x * ⁇ , s * ) increases.
  • the meaning probability ⁇ ij becomes larger as other possible hypotheses are concentrated in the vicinity of the hypothesis (x i , s j ).
  • the word meaning probability ⁇ ij can be estimated for the appearance context of the word x i .
  • the bandwidth square values ⁇ ij 2 and ⁇ ij 2 are the variance of the context distance and the concept distance obtained by weighting the burden ratio. Due to the above-mentioned characteristics of the Gaussian kernel, the burden rate tends to increase as the vicinity of the hypothesis to be calculated is targeted. Therefore, the bandwidth, which is the weighted variance of the burden rate, becomes narrower in the region where the hypothesis is concentrated in the vicinity. On the contrary, it becomes wide in the area where hypotheses exist only sparsely. By estimating the bandwidth in this way, it is possible to estimate the meaning while adapting to local variations in the distribution of the classification target word x i .
  • Equation 30 is for avoiding this.
  • C .xi.1, C .zeta.1 the total contribution rate of the virtual data (or stochastic frequency), C [xi] 2, C ?? 2 is the average of the square of the distance d x 2, d s 2 in their virtual data is there.
  • FIG. 7 is a diagram showing a flow of parameter update processing by the EM algorithm.
  • S10 Initialization step
  • the context bandwidth storage unit 61, the conceptual bandwidth storage unit 62, and the semantic meaning storage unit 63 store initial values of the parameter matrices ⁇ , ⁇ , and ⁇ .
  • the hypothesis evaluation unit 64 uses the parameter matrices ⁇ , ⁇ , and ⁇ stored in the context bandwidth storage unit 61, the concept bandwidth storage unit 62, and the semantic probability storage unit 63 to perform all hypotheses (x i ′ , s j ' ) Is extrapolated to calculate the burden ratio r i'j' ij for each hypothesis (x i , s j ).
  • the evaluation value storage unit 65 stores the calculated burden rate r i′j ′ ij and evaluates the probability density Q (x i , s j ) obtained when calculating the burden rate r i′j ′ ij. Store as a value.
  • the parameter update unit 66 is stored in the context bandwidth storage unit 61, the conceptual bandwidth storage unit 62, and the semantic meaning storage unit 63 using the burden rate r i′j ′ ij stored in the evaluation value storage unit 65. Update the parameter matrix ⁇ , ⁇ , ⁇ .
  • the hypothesis evaluation unit 64 determines whether or not the increment ⁇ L MAP of the value (likelihood) of the likelihood function L MAP is less than a predetermined threshold value ⁇ . When the increment ⁇ L MAP is less than the threshold ⁇ (less than S40), the hypothesis evaluation unit 64 ends the process. On the other hand, if that is not the case (above S40), the hypothesis evaluation unit 64 returns the process to S20.
  • the estimated meaning output unit 67 based on the probability density Q (x i , s j ) stored in the evaluation value storage unit 65, provides the maximum likelihood meaning for each classification target word x i.
  • s j argmax j Q (x i , s j ) is selected as the meaning of the classification target word x i and is output as the estimated meaning data 80.
  • FIG. 8 to FIG. 13 are diagrams for explaining the effect of the meaning estimation by the meaning estimation apparatus 100 according to the first embodiment.
  • FIG. 8 is a diagram showing the distribution of random number data used in this experiment
  • FIG. 9 is a diagram showing the correct meaning of the data used in this experiment.
  • the vertical axis indicates the context metric space
  • the horizontal axis indicates the conceptual metric space.
  • dots arranged in the horizontal direction are word meaning candidates of words appearing in each context, and one of them has a correct meaning.
  • the points indicated by ⁇ are the positions of the correct meaning
  • the points indicated by + are the positions of the other meaning candidates.
  • This evaluation data is pseudo data generated by sampling from a Gaussian distribution.
  • the correct word meaning distribution has a large spread at the lower left and the correct word meaning distribution has a small spread at the upper right.
  • the meanings other than the correct answer are generated based on the position on the vertical axis of the correct meaning, and the position on the horizontal axis is generated by competing the uniform distribution with the Gaussian distribution.
  • the total number of correct meanings was 100, and the number of meanings was determined by sampling from a Poisson distribution with an average of 3.0.
  • this evaluation data is pseudo data based on random numbers, the spread of the correct word meaning is often caused by actual text data and metric space design. Therefore, in order to improve accuracy, it is necessary to estimate the correct meaning while adapting to the locality of such distribution.
  • FIG. 10 to 12 are diagrams showing the meaning estimation results when the meaning bandwidth and the conceptual bandwidth are fixed with respect to the unlabeled data in FIG.
  • FIG. 13 is a diagram showing the meaning estimation result by the meaning estimation apparatus 100 for the unlabeled data in FIG. Since both are unsupervised learning methods, learning data other than the data in FIG. 8 is not used.
  • the position indicated by x in the figure is the point where the estimation is wrong, and the other points ( ⁇ or +) are the points estimated correctly.
  • the contour lines indicate the probability density estimated by the Gaussian kernel group.
  • FIG. 10 is a diagram illustrating a result of setting the meaning bandwidth and the conceptual bandwidth in accordance with the dispersion of the correct word meaning in the lower left shown in FIG. 9 (large bandwidth).
  • the correct meaning can be identified relatively well in the lower left area, but the accuracy has deteriorated due to oversmoothing in the upper right area.
  • the error rate was 21%.
  • FIG. 11 is a diagram illustrating a result of setting the semantic bandwidth and the conceptual bandwidth to optimum values (in the bandwidth). In this case, the error rate was improved to 13%. However, many errors still remained in the lower left and upper right areas.
  • FIG. 12 is a diagram illustrating a result of setting the semantic bandwidth and the conceptual bandwidth in accordance with the distribution of the right correct semantic meaning shown in FIG. 9 (small bandwidth).
  • the best accuracy is obtained in the upper right region, but overfitting is performed in the lower left region, and a correct meaning group cannot be found.
  • the error rate was 20%.
  • the meaning estimation by the meaning estimation apparatus 100 shown in FIG. 13 the bandwidth is widened in the lower left region and the bandwidth is narrowed in the upper right region to adapt to the locality of the data as can be seen from the interval between the contour lines. Estimated meaning.
  • the error rate was 7%, and high accuracy was obtained as compared with the results shown in FIGS.
  • the meaning estimation apparatus 100 finds a meaning assignment to a close concept among words whose appearance contexts are close. Therefore, the meaning of the meaning can be estimated from the data for which the correct meaning of the meaning is not given. Therefore, it is necessary to create labeled learning data in which the correct meaning is usually given manually to the text data of the target task, which is a problem in the method using supervised learning and the method using semi-supervised learning. The problem of being can be solved. As a result, it is possible to solve the problem that the learning data creation cost is high and the problem that this method cannot be applied in a situation where it is difficult to obtain the learning data in advance.
  • the meaning estimation apparatus 100 uses the proximity of concepts in the concept dictionary, and unsupervised learning that discovers plausible meanings from both the appearance context and the concepts in the concept dictionary. It is a method. Therefore, it is possible to solve the problem of the method using unsupervised learning, in which accuracy is not generally excellent because no prior knowledge is used.
  • the meaning estimation apparatus 100 estimates the likely meaning of each word by simultaneously optimizing the meaning probability and the variable bandwidth of the kernel for the input text data. That is, an appropriate bandwidth is automatically set for each kernel according to the input text data. Therefore, the problem that the accuracy deteriorates unless an appropriate bandwidth is set is solved.
  • the meaning estimation apparatus 100 according to Embodiment 1 solves the problem caused by the local mismatch of the bandwidth used for meaning estimation in the framework of unsupervised learning that does not require labeled learning data, and has high accuracy. This makes it possible to estimate the meaning.
  • Embodiment 2 the meaning is estimated independently for each classification target word. That is, in Embodiment 1, the meaning of the word is estimated independently for each occurrence instance of the word.
  • the meaning estimation method by the meaning estimation apparatus 100 is not limited to this, and the meaning may be estimated for each type of word.
  • Such a problem setting is known as a predominant word sense estimation problem, and is also described in Non-Patent Document 3. This problem setting is based on the heuristics that "one-sense-per-domain" means that the same word is rarely used in multiple meanings in a single domain, and is easily used consistently (one-sense-per-domain). The word meaning used predominantly in a specific domain is determined for each word. In this problem setting, a more stable accuracy may be obtained than when the meaning is independently estimated for each classification target word.
  • the parameters may be constrained to the same value between the classification target words having the same word type.
  • the context similarity is defined by the distance d x (x i , x i ′ ) between the classification target words x i and x i ′ .
  • the average appearance tendency of the word types w ⁇ and w ⁇ ′ in the large-scale corpus may be used as the context distance d x (w ⁇ , w ⁇ ′ ).
  • Such context distance is also disclosed in Non-Patent Document 3 as a distributional similarity of words.
  • Nw ⁇ is the number of words, such as the type of unique words in the set X is w ⁇
  • Nw - ⁇ is the number of different words are different words kind of the w ⁇ in the set X.
  • d x 2 (w ⁇ , w ⁇ ′ ) represents the distribution similarity between the words w ⁇ and w ⁇ ′ .
  • the definition of the burden ratio r i′j ′ ij is different from the classification target word unit and is the same as the expression 32 even if it is a word unit.
  • Equation 36 The parameter update formula in the EM algorithm shown in Equation 30 is as shown in Equation 36. Since the burden rate is different from the classification target word unit and becomes the word unit, 1 in the denominator of the expression of the meaning probability ⁇ ij in Expression 30 is changed to Nw ⁇ in Expression 36.
  • the classification target word is a word (registered word) registered in the concept dictionary 50 and a meaning candidate is obtained by referring to the concept dictionary 50.
  • the above method can also be applied when the classification target word is a word (unregistered word) that is not registered in the concept dictionary 50.
  • the abbreviation “DELIV” of the registered word “DELIVER” is an unregistered word.
  • the similarity between character strings is obtained based on a known edit distance or the like for the character string of the classification target word that is an unregistered word and the registered character string of the concept dictionary 50.
  • the likelihood may be calculated using a weight according to the similarity between character strings with the extracted registered word. For example, a concept in which the meaning s j of the appearance data x i which is an unregistered word (the word type ignoring the context is set to w i ) is registered as the meaning of the registered word w k similar to the word type w i Suppose that The weight corresponding to the similarity between character strings of the word type w i and the registered word w k is ⁇ ij .
  • the semantic probability ⁇ ij may be multiplied by the weight ⁇ ij to obtain ⁇ ij ⁇ ij . That is, the likelihood may be higher as the similarity between character strings between the target unregistered word and the extracted registered word is higher.
  • the meaning estimation method of the meaning estimation apparatus 100 is not limited to this, and can be applied to cases where correct meanings are determined in advance for some words included in the input text data 10, for example.
  • the word meaning probability ⁇ ij of the correct meaning s j may be fixed to 1 for a word given the correct meaning. In this way, it is possible to apply the above method in the framework of semi-supervised learning and to perform meaning estimation with higher accuracy than in the case where it is applied in complete unsupervised learning.
  • the meaning probability ⁇ ij is obtained as a continuous value between 0 and 1.
  • the meaning probability ⁇ ij is not limited to this.
  • the subject obtaining the sum in the equation 24, and the 'all semantic hypotheses s j' of all classification target word x i and all classification target word which different types of words x i.
  • the object for which the sum is obtained is not limited to this.
  • the object may be limited to a predetermined number K (K is an integer equal to or greater than 1) whose appearance context is close, and the sum may be obtained.
  • the feature vector of the appearance context is simply expressed by the presence or absence of co-occurrence words.
  • the feature vector of the appearance context is not limited to this, and for example, a co-occurrence word is extracted from a co-occurrence word by referring to a dictionary and a concept that is a semantic meaning candidate is extracted and expressed in an expression form or a heading form.
  • the feature vector of the appearance context may be expressed after rewriting the context by replacing the word with the extracted concept. Specifically, when the word “ship” is included in the co-occurrence word, the “ship” is replaced with the concepts “ship”, “title”, and “shipment”, and the context is rewritten. Represents a vector. Accordingly, for example, the feature vector of the appearance context of the context in which the word “ship” is included in the co-occurrence word and the context in which the word “vessel” is included in the co-occurrence word are close to each other.
  • the context and the closeness of meaning are modeled by the Gaussian kernel.
  • the closeness of context and meaning is not limited to this.
  • the closeness of meaning may be replaced by the number of links when the hierarchy of the concept dictionary is simply traced.
  • FIG. 14 is a diagram illustrating an example of a hardware configuration of the meaning estimation apparatus 100.
  • the meaning estimation apparatus 100 includes a CPU 911 (also referred to as a central processing unit, a central processing unit, a processing unit, an arithmetic unit, a microprocessor, a microcomputer, and a processor) that executes a program.
  • the CPU 911 is connected to the ROM 913, the RAM 914, the LCD 901 (Liquid Crystal Display), the keyboard 902 (K / B), the communication board 915, and the magnetic disk device 920 via the bus 912, and controls these hardware devices.
  • the magnetic disk device 920 fixed disk device
  • a storage device such as an optical disk device or a memory card read / write device may be used.
  • the magnetic disk device 920 is connected via a predetermined fixed disk interface.
  • an operating system 921 OS
  • a window system 922 a program group 923
  • a file group 924 are stored in the magnetic disk device 920 or the ROM 913.
  • the programs in the program group 923 are executed by the CPU 911, the operating system 921, and the window system 922.
  • the program group 923 includes “word extraction unit 20”, “context analysis unit 30”, “meaning candidate extraction unit 40”, “meaning estimation unit 60”, “hypothesis evaluation unit 64”, “parameter update unit” in the above description. 66 ”,“ estimated meaning output unit 67 ”,“ bandwidth penalty setting unit 70 ”, and the like are stored.
  • the program is read and executed by the CPU 911.
  • the file group 924 includes information such as “input text data 10”, “concept dictionary 50”, and “estimated semantic data 70”, data, signal values, variable values, parameters, “context bandwidth storage unit 61” in the above description.
  • the “file” and “database” are stored in a recording medium such as a disk or a memory.
  • Information, data, signal values, variable values, and parameters stored in a storage medium such as a disk or memory are read out to the main memory or cache memory by the CPU 911 via a read / write circuit, and extracted, searched, referenced, compared, and calculated. Used for the operation of the CPU 911 such as calculation / processing / output / printing / display.
  • Information, data, signal values, variable values, and parameters are temporarily stored in the main memory, cache memory, and buffer memory during the operation of the CPU 911 for extraction, search, reference, comparison, calculation, calculation, processing, output, printing, and display. Is remembered.
  • the arrows in the flowchart mainly indicate input / output of data and signals, and the data and signal values are recorded in a memory of the RAM 914, other recording media such as an optical disk, and an IC chip.
  • Data and signals are transmitted online by a bus 912, signal lines, cables, other transmission media, and radio waves.
  • what is described as “to part” in the above description may be “to circuit”, “to device”, “to device”, “to means”, and “to function”. It may be “step”, “ ⁇ procedure”, “ ⁇ processing”.
  • ⁇ device may be “ ⁇ circuit”, “ ⁇ equipment”, “ ⁇ means”, “ ⁇ function”, and “ ⁇ step”, “ ⁇ procedure”, “ May be “processing”.
  • to process may be “to step”. That is, what is described as “ ⁇ unit” may be realized by firmware stored in the ROM 913. Alternatively, it may be implemented only by software, or only by hardware such as elements, devices, substrates, and wirings, by a combination of software and hardware, or by a combination of firmware.
  • Firmware and software are stored in a recording medium such as ROM 913 as a program. The program is read by the CPU 911 and executed by the CPU 911. That is, the program causes a computer or the like to function as the “ ⁇ unit” described above. Alternatively, the procedure or method of “unit” described above is executed by a computer or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 教師なし学習により、語義を高い精度で推定することを目的とする。語義推定装置100は、各単語について、語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義との距離と、文脈の特徴についてのバンド幅である文脈バンド幅と、概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる語義確率とから計算し、計算した確率密度に基づき前記文脈バンド幅と前記概念バンド幅と前記確率とを再計算する計算処理を複数回実行して、各単語について、計算した確率密度が高い概念をその単語の語義と推定する。

Description

語義推定装置、語義推定方法及び語義推定プログラム
 この発明は、文書に含まれる単語について、その単語が辞書に登録された何れの語義で使われているかを推定する語義推定技術(語義の曖昧性解消技術)に関する。
 語義の推定は、機械翻訳、情報検索をはじめとする各種自然言語処理の基礎技術として多くの研究がなされており、その方式としては大きく分類して2つのアプローチがある。
 1つは、教師あり学習(あるいは半教師あり学習)を適用する方式であり、もう1つは、教師なし学習を適用する方式である。
 教師あり学習を適用する方式では、予め対象とするタスク、又はそれに類する文書データに対し、正しい語義を(通常人手で)付与したラベル付き学習データを作成しておく。そして、尤度最大化、マージン最大化などの基準により、単語の出現文脈から語義を識別する規則をモデルに学習させる。
 教師あり学習を適用する方式として、非特許文献1には、サポートベクターマシンを用いる方式が記載されている。非特許文献2には、ナイーブベイズ法を適用する方式が記載されている。非特許文献3には、決定リストを用いる方法や、決定木、ニューラルネットワーク、k最近傍法を用いる方法が記載されている。また、非特許文献3には、正しい語義が付与されていないラベルなし学習データを併用することでラベル付き学習データの必要量を削減する半教師あり学習の技術が記載されている。
 教師なし学習を適用する方式では、人手で正解を付与したラベルあり学習データを用いず、ラベルなし学習データのみから語義を識別する。
 教師なし学習を適用する方式として、特許文献1には、文書に含まれる単語の周辺に出現する共起語の語義を概念階層上で調べ、より多くの共起語と、近い階層・近い語義定義文で定義されている語義候補を探し、探した語義候補を単語の語義として採択する方式が記載されている。つまり、注目する単語の語義候補の中で、共起語の語義候補が近くに数多くある候補ほど尤もらしいとして単語の語義を推定している。
特開2010-225135号公報 特開2012-43221号公報 特開2010-134632号公報
Leacock, C., Miller, G. A. and Chodorow, M.: Using corpus statistics and wordnet relations for sense identification, Computational Linguistics, Vol. 24, No. 1, pp. 147--165 (1998) 電子情報通信学会 言語理解とコミュニケーション研究会 (NLC), "SENSEVAL-2 日本語タスク", 黒橋禎夫, 白井清昭, 2001 R. Navigli, "Word Sense Disambiguation: a Survey", ACM Computing Surveys,41(2), ACM Press, pp. 1-69 (2009) 小嵜耕平,新保仁,小町守,松本裕治,"ハブを作らないグラフ構築法を用いた半教師あり語義曖昧性解消",情報処理学会第199回自然言語処理研究会.Vol.2010-NL199,No.19 (2010)
 しかし、非特許文献1,2に記載された教師あり学習を適用した方式や、非特許文献3に記載された半教師あり学習を適用した方式を適用するためには、文書データに対し、正しい語義を付与したラベル付き学習データを作成しておく必要がある。そのため、この方式には、学習データの作成にコストがかかる、あるいは、事前に学習データを入手できない状況では適用できないという課題がある。
 また、特許文献1に記載された教師なし学習を適用した方式は、注目する語の曖昧性だけを解消しようとする方式である。つまり、共起語の語義曖昧性を解消することなく、実際には誤った語義候補にも等しく重きを置いて、共起語の語義候補を注目する語の根拠として利用している。そのため、この方式には、語義の推定精度が悪いという課題がある。
 この発明は、教師なし学習により、語義を高い精度で推定することを目的とする。
 この発明に係る語義推定装置は、
 カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定装置であり、
 入力データに含まれる複数の単語を抽出する単語抽出部と、
 前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
 単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
 前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定部と
を備えることを特徴とする。
 この発明に係る語義推定装置では、バンド幅を最適化することにより、バンド幅の局所的不一致による語義の推定精度の低下を起こすことなく、語義の推定精度を高くすることができる。
実施の形態1に係る語義推定装置100の構成図。 実施の形態1に係る語義推定方式の概要を示す図。 文脈解析部30により生成された出現文脈の特徴ベクトルの例を示す図。 概念と単語との関係を示す図。 概念の関係定義の一例であり、概念の上位(抽象)/下位(具体)関係を示す図。 図5に示す階層定義に従い、ベクトルで表現した概念の例を示す図。 語義を推定する処理の流れを示すフローチャート。 本実験で用いた乱数データの分布を示す図。 本実験で用いたデータの正解語義を示す図。 語義バンド幅及び概念バンド幅を図9に示す左下の正解語義の分散に合わせて設定した結果を示す図。 語義バンド幅及び概念バンド幅を最適値に設定した結果を示す図 語義バンド幅及び概念バンド幅を図9に示す右上の正解語義の分散に合わせて設定した結果を示す図。 語義推定装置100による語義推定結果を示す図。 語義推定装置100のハードウェア構成の一例を示す図。
 実施の形態1.
 実施の形態1では、複数のデータベースのテーブルスキーマを入力テキストデータ10とし、テーブルスキーマを構成する単語の語義を推定する例を用いて、語義推定方式について説明する。
 テーブルスキーマを対象に語義を推定する具体的な用途としては、例えば、企業におけるデータ統合がある。企業には、過去個別に構築され稼働している複数の業務アプリケーションの間で、データベースのデータを統合したいというニーズがある。データの統合を実現するためには、複数のデータベースの間でどの項目がどの項目に対応するかを判別する必要がある。従来、項目間の対応判別は人手で行われてきた。ここに語義推定方式を用いることにより、異なった名称の項目間の対応関係の有無を判定する作業を支援し、作業の省力化を図ることが可能である。
 但し、本発明方式の適用対象はテーブルスキーマに限定するものではなく、従来の語義曖昧性解消技術と同様、自然言語で記述されたテキスト一般に適用可能である。
 図1は、実施の形態1に係る語義推定装置100の構成図である。
 語義推定装置100は、単語抽出部20、文脈解析部30、語義候補抽出部40、概念辞書50、語義推定部60、バンド幅罰則設定部70を備える。
 入力テキストデータ10は、複数のデータベースの複数のテーブルスキーマである。
 単語抽出部20は、処理装置により、テーブルスキーマに定義されたテーブル名やカラム名を単語単位に分割し、分割した単語を語義推定対象として抽出する。
 文脈解析部30は、処理装置により、単語抽出部20が抽出した各単語の出現文脈の特徴を、テーブルスキーマから抽出する。
 語義候補抽出部40は、処理装置により、単語抽出部20が抽出した各単語に対し、概念辞書50を参照して語義候補を抽出する。
 概念辞書50は、単語の語義として1つ以上の概念を記憶装置に記憶するとともに、概念間の階層的な関係を記憶装置に記憶している。
 語義推定部60は、処理装置により、カーネル密度推定を用いて、単語抽出部20が抽出した各単語について、語義候補抽出部40が抽出した語義のいずれが尤もらしいか推定する。そして、語義推定部60は、各単語について推定した語義を、推定語義データ80として出力する。
 バンド幅罰則設定部70は、処理装置により、語義推定部60が用いるカーネル密度推定におけるバンド幅に制限を設定する。
 語義推定部60は、文脈バンド幅記憶部61、概念バンド幅記憶部62、語義確率記憶部63、仮説評価部64、評価値記憶部65、パラメータ更新部66、推定語義出力部67を備える。
 文脈バンド幅記憶部61は、カーネル密度推定におけるバンド幅であって、文脈の特徴についてのバンド幅である文脈バンド幅を記憶する記憶装置である。概念バンド幅記憶部62は、カーネル密度推定におけるバンド幅であって、概念の距離についてのバンド幅である概念バンド幅を記憶する記憶装置である。語義確率記憶部63は、選択した単語が選択した語義となる確率である語義確率を記憶する記憶装置である。
 仮説評価部64は、各単語について、その単語と他の単語とについて文脈解析部30が抽出した文脈の特徴の距離と、その単語の語義候補と他の単語の語義候補とについての概念の距離と、文脈バンド幅記憶部61が記憶した文脈バンド幅と、概念バンド幅記憶部62が記憶した概念バンド幅と、語義確率記憶部63が記憶した語義確率とに基づいて、確率密度を評価値として計算する。
 評価値記憶部65は、仮説評価部64が計算した確率密度を記憶する記憶装置である。
 パラメータ更新部66は、評価値記憶部65が記憶した確率密度に基づき、バンド幅罰則設定部70が設定した制限を考慮した上で、文脈バンド幅記憶部61が記憶した文脈バンド幅、概念バンド幅記憶部62が記憶した概念バンド幅、語義確率記憶部63が記憶した語義確率を更新する。
 推定語義出力部67は、仮説評価部64による確率密度の計算とパラメータ更新部66による文脈バンド幅、概念バンド幅、語義確率の更新との計算処理が複数回繰り返された後、各単語について、評価値記憶部65に記憶された確率密度が高い概念をその単語の語義とした推定語義データ80を出力する。
 図2は、実施の形態1に係る語義推定方式の概要を示す図である。
 入力テキストデータ10は、ここではデータベースのテーブル構造を定義したスキーマである。図2では、一例として、“SHIP_TO”,“DELIVER_TO”というカラムを含む、“ORDER”というテーブルのスキーマが入力された状態を示している。このようなテーブルスキーマが、実際には複数入力される。
 単語抽出部20は、入力されたテーブルスキーマから、単語を抽出する。ここでは、アンダースコア“_”を区切り文字として単語分割を行う。その結果、図2では“ORDER”,“SHIP”,“TO”,“DELIVER”の4種類の単語が抽出される。抽出された単語を全て、語義の推定対象(分類対象語)として扱う。但し,前置詞“TO”は、概念辞書のエントリにはなっていないため後述する語義候補の抽出で失敗し、対象から除外されることになる。
 文脈解析部30は、単語抽出部20による単語分割の結果に基づき、各分類対象語の出現文脈の特徴を抽出し、特徴ベクトルを生成する。
 単語の出現文脈の特徴とは、その単語がテーブルスキーマにおいてどのような使われ方をしているかを表すものである。ここでは、単語の出現文脈の特徴として、(1)出現箇所がテーブル名であるかカラム名であるかの種別、(2)分類対象語の直前に出現する単語、(3)分類対象語の直後に出現する単語、(4)親テーブル名に出現する単語(分類対象語の出現箇所がカラム名の場合のみ)、(5)子カラム名に出現する語(分類対象語の出現箇所がテーブル名の場合のみ)の5つを用いることとする。
 図3は、文脈解析部30により生成された出現文脈の特徴ベクトルの例を示す図である。
 図3では、各行は分類対象語を表しており、各列は特徴を構成する素性を表している。また、図3では、素性の値が1のときはその特徴を有しており、0のときはその特徴を有していないことを表す。図3から、分類対象語“SHIP”と“DELIVER”の出現文脈ベクトルは一致しており、互いに良く似た使われ方をしていることが分かる。
 語義候補抽出部40は、各分類対象語を概念辞書50で参照し、語義の候補となる概念を全て抽出する。
 概念辞書50としては、例えば、WordNetを用いる。WordNetではsynsetと呼ぶ概念を1つの単位として、その概念に相当する単語や、概念間の上位/下位関係などが定義されている。単語は、名詞、動詞、形容詞、副詞が登録されている。なお、前記単語抽出部で抽出した単語のうち、前置詞“TO”については語義が登録されていないために語義抽出に失敗し、以降の処理対象から外れる。WordNetの詳細については例えば非特許文献4に記載されている。
 図4、図5は、概念辞書50の例を示す図である。
 図4は、概念と単語との関係を示す図である。つまり、図4は、語義の定義例を示す図である。
 例えば、概念ID0003は日本語の「船」の名称を持つ概念であり、対応する単語として、“ship”,“vessel”などがあることが定義されている。逆に単語“ship”から見た場合には、語義としてはID0003「船」、0010「肩書き」、0017「出荷」の3つの概念が登録されており、曖昧である。同様にして単語“deliver”に対しても、語義としてID0013「出産」、0019「配達」の2つの概念が登録されており、曖昧である。つまり、単語“ship”や“deliver”が、何れの語義で用いられているかは文脈から識別する必要がある。
 図5は、概念の関係定義の一例であり、概念の上位(抽象)/下位(具体)関係を示す図である。
 階層関係を辿って近い距離にある概念どうしは、離れた概念よりも類似した意味を有している。例えば、図5では、ID0017の概念「出荷」はID0019の概念「配達」と姉妹関係の階層にあり、例えば他のID0013の概念「出産」よりも類似した意味を有していると定義されている。
 語義候補抽出部40は、概念辞書で単語の語義として登録されている概念を抽出するとともに、抽出した概念を語義の特徴ベクトルに変換する。語義の特徴ベクトルに変換することで、概念間の近さを、出現文脈の間の近さと同様にベクトル計算で扱えるようになる。
 図6は、図5に示す階層定義に従い、ベクトルで表現した概念の例を示す図である。
 図6では、各行が、左端に表示した概念IDのベクトルを表している。ベクトルの各成分は概念階層を構成する概念であり、そのベクトルの概念IDの概念またはその上位概念に相当するときは1、そうでない場合は0が与えられる。例えば、ID0017の概念は、上位概念としてID0001,ID0011,ID0016を持つから、自身のID0017とそれら3つの概念とを含む、合計4つの成分に1が与えられている。
 図6から、概念ID0017「出荷」とID0019「配達」が、他の概念と比べて類似したベクトルとして表現されていることが分かる。
 語義推定部60は、上述した文脈の特徴ベクトルによって規定される文脈間の距離と、概念の特徴ベクトルによって規定される概念間の距離とに基づき、分類対象語の語義を推定する。
 なお、ここでは、特徴ベクトルによって、分類対象語x,xi’∈Xの文脈の距離d(x,xi’)、および、概念s,sj’∈Sの距離d(s,sj’)が規定されることを仮定する。しかし、特徴ベクトルの定義は必須ではなく、文脈および概念がそれぞれ距離空間(X,d)、(S,d)で表せさえすればよい。特徴ベクトルで構成された特徴空間では、文脈および概念の距離を数21によって求めることができる。ここで、∥・∥はベクトルの2次のノルムである。
Figure JPOXMLDOC01-appb-M000014
 図2では、上記2つのベクトルで規定される空間を、模式的に2次元の平面によって示している。ある文脈で出現した分類対象語xをこの平面上にマッピングすると、xの文脈の特徴ベクトルφ(x)の位置は一意に定まる。しかし、xが単義語である場合を除き、xの語義には曖昧性があるから、xの概念の特徴ベクトルφ(s)の位置は、複数箇所に確率的に位置付けられる仮説となる。平面上にマッピングされた仮説を図2では黒点で示した。例えば、図2の分類対象語“SHIP”は、語義の曖昧性により3箇所の点に仮説が置かれている。このような仮説(x,s)の確率を語義確率πijとする。語義確率πijは、確率としての制約条件0≦πij≦1、および、Σπij=1を満足する。語義の曖昧性解消とは、語義確率πijの最適解を求めることである。以下では、この最適解探索を定式化し、仮説評価部64およびパラメータ更新部66の処理の具体的な計算式を導出する。
 分類対象語xの集合をX={x}とし、概念辞書に含まれる概念の集合をS={s}とする。xの語義がsである語義確率πijを要素とするパラメータ行列をΠとし、後述するガウスカーネルのパラメータξij,ζijを要素とするパラメータ行列をそれぞれΞ,Ζとするとき、最大事後確率推定(MAP推定)による尤度関数LMAPを数22のように定義し、LMAPの最大化によってパラメータ最適解を得る。
Figure JPOXMLDOC01-appb-M000015
 数22におけるlnp(X|Π,Ξ,Ζ)を定義する。
 lnp(X|Π,Ξ,Ζ)は、集合Xに対する尤度である。ここでは、p(X|Π,Ξ,Ζ)は、語義確率πijで与えられるテストデータ(x,s)を確率密度Q(x,s;Π,Ξ,Ζ)で外挿する尤度として、数23のように定義される。
Figure JPOXMLDOC01-appb-M000016
 このように確率的に置いた仮説の尤もらしさを仮説間で互いに外挿して評価し合うことにより、集合X全体として尤もらしい仮説が決定される。以下では、確率密度Q(x,s;Π,Ξ,Ζ)の表記を簡略化して単に確率密度Q(x,s)と書く。
 確率密度Q(x,s)は、仮説(xi’,sj’)を中心としたガウスカーネルKi’j’による仮説(x,s)の外挿の総和として、数24で計算される。
Figure JPOXMLDOC01-appb-M000017
 ここで、Nwiは、集合Xに含まれる単語xi’のうち、出現文脈を無視した単語xi’であって、その単語xi’の種類wi’が分類対象語xの種類wと異なる単語xi’の数を表す。すなわち、Nwi=|{xi’|xi’∈X,wi’≠w}|である。また、d(xi’,x),d(sj’,s)は、それぞれ、仮説(xi’,sj’)と仮説(x,s)の文脈の距離、概念の距離である。ξi’j’,ζi’j’は、それぞれ、ガウスカーネルKi’j’の文脈バンド幅、概念バンド幅である。
 数23、数24における定義は、種類の異なる単語(異なり語)を単位とする交差検定(クロスバリデーション)尤度になっている。すなわち、数24の確率密度Q(x,s)の式において、テストデータとする仮説(x,s)は、右辺では制約条件wi’≠wによって除外され、テストデータ以外のカーネルに対してパラメータが最適化される。このように交差検定を導入するのは、最適化対象とするパラメータの中にカーネルのバンド幅Ξ,Ζが含まれているからであり、これらのバンド幅Ξ,Ζの過学習を回避するためである。
 特に、語義推定においては、以下の(1)(2)の性質がある。(1)同種の語は常に同じ語義の候補を持ち、それら語義候補の間では概念の最短距離が常に0となることから、分類対象語xを1つずつ分割検定してもバンド幅がオーバーフィットすることは避けられない。(2)同じ種類の単語の語義候補に基づいた外挿では曖昧性を解消することができないため、そもそも尤度に含めるべきではない。そこで、異なり語単位の交差検定によって分類対象語xに対する尤度が定義された。
 数22におけるlnp(Π)と、lnp(Ξ)と、lnp(Ζ)とについて定義する。
 語義確率のパラメータ行列Πに対しては、無情報事前分布(一様分布)が与えられ、最適解は分類対象語xに対する尤度のみから決定されるとする。そこで、パラメータ行列Πの事前確率lnp(Π)は、数25のように定義される。
Figure JPOXMLDOC01-appb-M000018
 文脈バンド幅および概念バンド幅については逆ガンマ分布を用い、各パラメータの逆数の分布が数26に示すガンマ分布に従うと仮定する。
Figure JPOXMLDOC01-appb-M000019
 そこで、文脈バンド幅のパラメータ行列Ξの事前確率lnp(Ξ)は、数27のように定義される。
Figure JPOXMLDOC01-appb-M000020
 同様に、概念バンド幅のパラメータ行列Ζの事前確率lnp(Ζ)は、数28のように定義される。
Figure JPOXMLDOC01-appb-M000021
 ここでα,α,β,βは、ガンマ分布の形状を決定するハイパーパラメータ(定数)であり、バンド幅罰則設定部70により設定される。但し、後述するように、バンド幅罰則設定部70は、これらの値を直接設定するのではなく、より直観的な解釈が可能な値である2(α-1),β/(α-1),2(α-1),β/(α-1)を設定してもよい。
 このようにしてバンド幅に事前確率を与えるのは、パラメータの多さによって生じる過学習を回避するためである。ここでは、全てのカーネルのバンド幅を可変とするため、局所的な分類対象語xの分布に適応しながら語義を推定することが可能であるが、そのままではパラメータが多過ぎて分類対象語xにオーバーフィットしてしまう。そこで、バンド幅に対し緩やかな制約を与え、事前確率から大きく逸脱するバンド幅に対してはペナルティをかける。
 なお、ガンマ分布の分散を極めて小さく設定した場合は、バンド幅を一律固定とする場合に一致する。一方、ガンマ分布の分散を極めて大きく設定した場合は、最尤推定で分類対象語xの尤度のみからバンド幅を決定する場合に一致する。
 以上によって数22の尤度関数LMAPが定義された。
 次に、尤度関数LMAPを最大化するパラメータを求める方法について説明する。最適パラメータの探索は、EM(Expectation Maximizationアルゴリズム(期待値最大化法)を適用して効率的に実現可能である。そこで、以下
にEMアルゴリズムのためのパラメータ更新式を導出する。
 語義確率πijに関する制約条件Σπij=1の下で尤度関数LMAPの極値を求めるため、ラグランジュの未定乗数法を用いる。ラグランジュ乗数をλとして、パラメータ最適解は、数29によって与えられる。
Figure JPOXMLDOC01-appb-M000022
 極値を求めるため,L^を語義確率πij,文脈バンド幅ξij,概念バンド幅ζijでそれぞれ微分し、0と置いた式を整理することにより、パラメータ最適解に関する循環定義式として、数30が得られる。
Figure JPOXMLDOC01-appb-M000023
 ここで、Cξ1,Cξ2,Cζ1,Cζ2は、ハイパーパラメータである。なお、Cξ1,Cξ2,Cζ1,Cζ2は、上述したガンマ分布のパラメータα,α,β,βとは、数31に示す関係にあり、バンド幅罰則設定部70はCξ1,Cξ2,Cζ1,Cζ2を設定してもよい。
Figure JPOXMLDOC01-appb-M000024
 また、ri’j’ ijは、仮説(xi’,sj’)の確率重み付きの確率密度πi’j’Q(xi’,sj’)に占める仮説(x,s)の負担率であり、数32によって定義される。
Figure JPOXMLDOC01-appb-M000025
 ここで、Qij(xi’,sj’)は、仮説(x,s)単体による仮説(xi’,sj’)の確率密度であり、数33で定義される。
Figure JPOXMLDOC01-appb-M000026
 数30において、負担率rの添え字*は、その添字について総和を取ることを表す。また、負担率rの添字*^は、単語の種類が異なるx,xi’に限定して総和を取ることを表す。すなわち、数34である。
Figure JPOXMLDOC01-appb-M000027
 数30に示すように、語義確率πijは、負担率rij *^*が大きいほど、大きくなる。すなわち、語義確率πijは、他の仮説(x*^,s)から外挿した仮説(x,s)の値が大きいほど、大きくなる。また、語義確率πijは、負担率r*^* ijが大きいほど、大きくなる。すなわち、語義確率πijは、他の仮説(x*^,s)に対する(x,s)の負担率が大きいほど大きくなる。
 ガウスカーネルは距離が近いほど大きな値を取る関数であるから、語義確率πijは、仮説(x,s)の近傍に尤もらしい他の仮説が集中しているほど大きくなる。このようにして語義確率πijを推定することにより、単語xの出現文脈に対し、尤もらしい語義sを推定することができる。
 また、数30に示すように、バンド幅の二乗値ξij ,ζij は、負担率の重み付きで求めた文脈の距離、および、概念の距離の分散である。
 上述したガウスカーネルの性質より、負担率は計算する仮説の近傍を対象にするほど大きくなる傾向があるから、負担率の重み付き分散であるバンド幅は、近傍に仮説が集中する領域では狭くなり、逆に、疎らにしか仮説が存在しない領域では広くなる。このようにしてバンド幅を推定することで、分類対象語xの分布の局所的なばらつきに適応しながら、語義を推定することができる。
 但し、このような局所データへの適応は、学習に用いるデータが相対的に少なくなることから過学習を起こしやすく、不安定になりやすい。数30におけるハイパーパラメータはこれを回避するためのものである。
 Cξ1,Cζ1は、仮想的なデータの負担率の合計(ないしは確率的な頻度)、Cξ2,Cζ2は、それら仮想的なデータにおける2乗距離d ,d の平均である。このように仮想的なデータとの平均によってバンド幅を決定することで、局所データへの適応を安定して行うことができる。
 図7は、EMアルゴリズムによるパラメータ更新処理の流れを示す図である。
 (S10:初期化ステップ)
 文脈バンド幅記憶部61、概念バンド幅記憶部62、語義確率記憶部63は、パラメータ行列Π,Ξ,Ζの初期値を記憶する。
 (S20:Eステップ)
 仮説評価部64は、文脈バンド幅記憶部61、概念バンド幅記憶部62、語義確率記憶部63に記憶されたパラメータ行列Π,Ξ,Ζを用いて、全ての仮説(xi’,sj’)を外挿し、各仮説(x,s)の負担率ri’j’ ijを計算する。
 評価値記憶部65は、計算された負担率ri’j’ ijを記憶するとともに、負担率ri’j’ ijを計算する際得られた確率密度Q(x,s)を評価値として記憶する。
 (S30:Mステップ)
 パラメータ更新部66は、評価値記憶部65に記憶された負担率ri’j’ ijを用いて、文脈バンド幅記憶部61、概念バンド幅記憶部62、語義確率記憶部63に記憶されたパラメータ行列Π,Ξ,Ζを更新する。
 (S40:収束判定ステップ)
 仮説評価部64は、尤度関数LMAPの値(尤度)の増分ΔLMAPが所定の閾値θ未満か否かを判定する。増分ΔLMAPが閾値θ未満の場合(S40で未満)、仮説評価部64は処理を終了する。一方、そうでない場合(S40で以上)、仮説評価部64は処理をS20へ戻す。
 そして、パラメータ更新処理が終了すると、推定語義出力部67は、評価値記憶部65に記憶された確率密度Q(x,s)に基づき、各分類対象語xについて、最尤の語義s=argmaxQ(x,s)を、その分類対象語xの語義として選択して、推定語義データ80として出力する。
 図8から図13は、実施の形態1に係る語義推定装置100による語義推定の効果を説明するための図である。
 図8は、本実験で用いた乱数データの分布を示す図であり、図9は、本実験で用いたデータの正解語義を示す図である。図8、図9において、縦軸は文脈の距離空間、横軸は概念の距離空間を示す。図8で水平方向に並ぶ点が、各文脈で出現した語の語義候補であり、そのうちのいずれかが正しい語義になっている。図9において○で示した点が正しい語義の位置、+で示した点がそれ以外の語義候補の位置である。
 本評価データは、ガウス分布からのサンプリングによって生成した疑似データであり、左下に広がりの大きい正解語義の分布があり、右上に広がりの小さい正解語義の分布がある。正解以外の語義は、正解語義の縦軸上の位置を元に生成され、横軸の位置は一様分布を前記ガウス分布と競合させて生成された。正解語義の数は合計100個であり、語義の候補数は平均3.0のポアソン分布からサンプリングして決定された。本評価データは乱数による疑似データではあるが、このように正解語義の広がりがばらつくことは、実際のテキストデータや距離空間の設計によってしばしば起こることである。そのため、高精度化にはこのような分布の局所性に適応しながら正しい語義を推定する必要がある。
 図10から図12は、図8のラベル無しデータに対し、語義バンド幅及び概念バンド幅を固定にした場合の語義推定結果を示す図である。図13は、図8のラベル無しデータに対し、語義推定装置100による語義推定結果を示す図である。いずれも教師無し学習方式であるため、図8のデータ以外の学習データは利用していない。図中×で示す位置が推定を誤った点であり、それ以外の点(○または+)は正しく推定された点である。等高線はガウスカーネル群により推定した確率密度を示す。
 図10は、語義バンド幅及び概念バンド幅を図9に示す左下の正解語義の分散に合わせて設定した結果を示す図である(バンド幅大)。この場合、左下の領域で比較的良く正しい語義を識別できるが、右上の領域においてオーバースムーズとなるため精度が劣化した。その結果、誤り率は21%となった。
 図11は、語義バンド幅及び概念バンド幅を最適値に設定した結果を示す図である(バンド幅中)。この場合、誤り率は13%まで改善した。しかし、左下領域、右上領域とも誤りがまだ多く残った。
 図12は、語義バンド幅及び概念バンド幅を図9に示す右上の正解語義の分散に合わせて設定した結果を示す図である(バンド幅小)。この場合、右上の領域で最も良い精度が得られるが、左下領域でオーバーフィットしてしまい、正解語義のまとまりを見つけることができない。その結果、誤り率は20%となった。
 これに対して、図13に示す語義推定装置100による語義推定では、等高線の間隔から分かるように、左下領域ではバンド幅が広がり、右上領域ではバンド幅が狭まってデータの局所性に適応しながら語義を推定している。その結果、誤り率は7%となり、図10から図12に示す結果と比較して高い精度が得られた。
 以上のように、実施の形態1に係る語義推定装置100は、出現文脈が近い単語の間で近い概念への語義割り当てを発見する。そのため、語義の正解が与えられないデータから、語義を推定することができる。
 したがって、教師あり学習を用いる方法や半教師あり学習を用いる方式における課題である、対象とするタスクのテキストデータに対し、正しい語義を通常人手で付与したラベル付き学習データを作成しておく必要があるという課題を解決することができる。その結果、学習データ作成コストがかかるという課題や、事前に学習データを入手することが困難な状況ではこの方式を適用できないという課題を解決することが可能である。
 また、実施の形態1に係る語義推定装置100は、概念辞書における概念の近さを利用し、出現文脈の近さと概念辞書上の概念の近さの両面から尤もらしい語義を発見する教師なし学習方式である。そのため、教師なし学習を用いる方式における課題である、先見的知識を一切利用しないため一般に精度が優れないという課題を解決することが可能である。
 また、実施の形態1に係る語義推定装置100は、入力テキストデータに対して語義確率とカーネルの可変バンド幅を同時最適化することにより、各語の尤もらしい語義を推定する。すなわち、適切なバンド幅が入力テキストデータに合わせてカーネル毎に自動設定される。したがって、適切なバンド幅を設定しないと精度が劣化するという課題が解決される。また、データの分布にばらつきがあるデータにおいて、局所的にバンド幅が広過ぎて識別性能が得られない領域が発生することや、逆に局所的にバンド幅が狭過ぎるために、データ間を関連付けて語義の曖昧性を解消することができない領域が発生するという課題が解決される。
 そのため、実施の形態1に係る語義推定装置100は、ラベル付き学習データを必要としない教師なし学習の枠組みにおいて、語義の推定に用いるバンド幅の局所的不一致に起因する課題が解消され、高い精度で語義を推定することが可能となる。
 実施の形態2.
 実施の形態1では、分類対象語毎に独立して語義を推定した。つまり、実施の形態1では、単語の出現インスタンスそれぞれに対して独立に語義を推定した。しかし、語義推定装置100による語義推定方法は、これに限定するものではなく、単語の種類毎に語義を推定するようにしてもよい。
 このような問題設定はPredominant Word Sense推定問題として知られており、非特許文献3にも記載されている。この問題設定は、「ひとつのドメインで同じ語が複数の語義で使い分けられることは少なく、単一の語義が一貫して用いられやすい(one-sense-per-domain)」とのヒューリスティクスに基づき、特定ドメインで支配的に使われる語義を異なり語毎に決定するものである。この問題設定では、分類対象語毎に語義を独立推定するよりも安定した精度を得られることがある。
 この問題設定に実施の形態1で説明した語義推定技術を適用するには、単語の種類が同じ分類対象語の間ではパラメータを同一の値に拘束(tying)すればよい。
 また、実施の形態1では文脈の類似度を分類対象語x,xi’間の距離d(x,xi’)で定義した。しかし、この問題設定においては、大規模コーパスにおける単語の種類wι,wι’の平均的な出現傾向を文脈の距離d(wι,wι’)として用いれば良い。このような文脈の距離は、単語の分布類似度(distributional similarity)として非特許文献3にも開示されている。
 全てのパラメータ行列Π,Ξ,Ζを単語の種類wι∈Vに対して拘束し、出現文脈に依らず共通とする。
 このとき、数32のQijおよびQは、数35に示すようにすればよい。
Figure JPOXMLDOC01-appb-M000028
 但し、Nwιは、集合Xにおいて異なり語の種類がwιであるような単語の個数であり、Nw ιは、集合Xにおいて異なり語の種類がwιとは異なる単語の個数である。したがって、∀ιについて、Nwι+Nw ι=Nである。d (wι,wι’)は単語wιとwι’との分布類似度を表す。
 負担率ri’j’ ijの定義は、分類対象語単位から異なり語単位となっても見た目には数32と同じである。
 数30に示したEMアルゴリズムおけるパラメータ更新式は数36のようになる。
Figure JPOXMLDOC01-appb-M000029
 負担率が分類対象語単位から異なり語単位となったことで、数30における語義確率πijの式の分母に入っていた1が、数36ではNwιに変わっている。
 以上のようにして、分類対象語単位ではなく、異なり語(単語の種類)単位で語義を推定することが可能である。
 なお、上記説明では、分類対象語が概念辞書50に登録された単語(登録語)であり、概念辞書50を参照して語義の候補が得られることを前提としていた。しかし、分類対象語が概念辞書50に登録されていない単語(未登録語)であった場合にも、上記方式を適用することが可能である。例えば、登録語“DELIVER”の短縮表記“DELIV”は未登録語である。この場合には、未登録語である分類対象語の表記文字列と、概念辞書50の登録語の文字列とに対し、公知の編集距離等に基づき文字列間類似度を求める。そして、予め定めた閾値よりも高い類似度を持つ全ての登録語を抽出し、抽出した登録語の語義として記憶された概念を語義候補とすればよい。
 この際、抽出した登録語との文字列間類似度に応じた重みを用いて尤度を計算するようにしてもよい。例えば、未登録語である出現データx(文脈を無視した単語の種類をwとする)の語義sが、単語の種類wと類似する登録語wの語義として登録された概念であったとする。そして、単語の種類wと登録語wとの文字列間類似度に応じた重みがσijであるとする。この場合、数23において、語義確率πijに対し重みσijを乗じてπijσijにすればよい。つまり、対象とする未登録語と抽出した登録語との文字列間類似度が高いほど、尤度が高くなるようにしてもよい。
 また、上記説明では、入力テキストデータ10に含まれる全ての単語について語義を推定する動作について説明した。しかし、語義推定装置100の語義推定方法は、これに限定されるものではなく、例えば、入力テキストデータ10に含まれる一部の単語について正しい語義が予め定まっている場合にも適用することができる。
 この場合には、上述した動作において、正しい語義が与えられている単語については、正しい語義sの語義確率πijを1に固定すればよい。そのようにして、上記方式を半教師あり学習の枠組みで適用し、完全な教師なし学習で適用する場合に比べて高精度な語義推定を行うことも可能である。
 また、上記説明では、語義確率πijを0から1の間の連続値として求めた。しかし、語義確率πijは、これに限定されるものではなく、例えば、数30における語義確率πijの代わりに、数30によって計算されたπijの最大値を与えるj^のみ確率πij^=1とし、それ以外のjに対してはπij=0としてもよい。
 また、上記説明では、数24において総和を求める対象を、全ての分類対象語xと単語の種類が異なる全ての分類対象語xi’の全ての語義仮説sj’とした。しかし、総和を求める対象は、これに限定されるものではなく、例えば、出現文脈が近い所定のK個(Kは1以上の整数)に対象を限定して総和を取ってもよい。
 また、上記説明では、出現文脈の特徴ベクトルを共起語の有無によって単純に表現した。しかし、出現文脈の特徴ベクトルは、これに限定されるものではなく、例えば、共起語について辞書を参照してその語義候補となる概念を抽出し、表現形や見出し形で記述された共起語を抽出した概念に置き換えて文脈を記述し直した上で、出現文脈の特徴ベクトルを表現してもよい。具体的には、共起語に“ship”という単語があった場合、“ship”を「船」、「肩書」、「出荷」という各概念に置き換えて文脈を記述し直し、出現文脈の特徴ベクトルを表現する。これにより、例えば、共起語に“ship”という単語があった文脈と、共起語に“vessel”という単語があった文脈との出現文脈の特徴ベクトルが近いベクトルになる。
 また、上記説明では、文脈および語義の近さをガウシアンカーネルによりモデル化した。しかし、文脈および語義の近さは、これに限定されるものではなく、例えば、語義の近さを単純に概念辞書の階層を辿ったときのリンクの数により代用してもよい。
 図14は、語義推定装置100のハードウェア構成の一例を示す図である。
 図14に示すように、語義推定装置100は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、LCD901(Liquid Crystal Display)、キーボード902(K/B)、通信ボード915、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920(固定ディスク装置)の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。磁気ディスク装置920は、所定の固定ディスクインタフェースを介して接続される。
 磁気ディスク装置920又はROM913などには、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
 プログラム群923には、上記の説明において「単語抽出部20」、「文脈解析部30」、「語義候補抽出部40」、「語義推定部60」、「仮説評価部64」、「パラメータ更新部66」、「推定語義出力部67」、「バンド幅罰則設定部70」等として説明した機能を実行するソフトウェアやプログラムやその他のプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
 ファイル群924には、上記の説明において「入力テキストデータ10」、「概念辞書50」、「推定語義データ70」等の情報やデータや信号値や変数値やパラメータ、「文脈バンド幅記憶部61」、「概念バンド幅記憶部62」、「語義確率記憶部63」、「評価値記憶部65」が記憶する情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPU911の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPU911の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
 また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、その他光ディスク等の記録媒体やICチップに記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体や電波によりオンライン伝送される。
 また、上記の説明において「~部」として説明するものは、「~回路」、「~装置」、「~機器」、「~手段」、「~機能」であってもよく、また、「~ステップ」、「~手順」、「~処理」であってもよい。また、「~装置」として説明するものは、「~回路」、「~機器」、「~手段」、「~機能」であってもよく、また、「~ステップ」、「~手順」、「~処理」であってもよい。さらに、「~処理」として説明するものは「~ステップ」であっても構わない。すなわち、「~部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ROM913等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、上記で述べた「~部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「~部」の手順や方法をコンピュータ等に実行させるものである。
 10 入力テキストデータ、20 単語抽出部、30 文脈解析部、40 語義候補抽出部、50 概念辞書、60 語義推定部、61 文脈バンド幅記憶部、62 概念バンド幅記憶部、63 語義確率記憶部、64 仮説評価部、65 評価値記憶部、66 パラメータ更新部、67 推定語義出力部、70 バンド幅罰則設定部、100 語義推定装置。

Claims (11)

  1.  カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定装置であり、
     入力データに含まれる複数の単語を抽出する単語抽出部と、
     前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
     単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
     前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定部と
    を備えることを特徴とする語義推定装置。
  2.  前記語義推定部は、文脈の特徴が近いほど前記確率密度が高くなるように、選択した概念と他の単語の語義とが近いほど前記確率密度が高くなるように、前記語義確率が高いほど前記確率密度が高くなるように、前記確率密度を計算する
    ことを特徴とする請求項1に記載の語義推定装置。
  3.  前記語義推定部は、選択した単語x、選択した概念sの仮説(x,s)の確率密度Q(x,s)を数1により計算する
    ことを特徴とする請求項2に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000001
    ここで、Σi’ s.t.i’≠iは単語x以外の単語x’に関する総和である。NはΣi’s.t.i’≠iが表す総和における単語x’の数である。Σj’は単語x’の語義候補の概念sj’に関する総和である。πi’j’は単語xi’の語義がsj’となる仮説(xi’,sj’)の語義確率であり、Σj’πi’j’=1である。Ki’j’(x,s)は数2である。
    Figure JPOXMLDOC01-appb-M000002
    ここで、d(x,xi’)は単語xと単語xi’との文脈の特徴の距離である。d(s,sj’)は概念sと概念sj’との概念の距離である。ξi’j’は文脈バンド幅である。ζi’j’は概念バンド幅である。添え字の付されていないπは円周率である。
  4.  前記語義推定部は、確率密度Q(x,s)を数3により計算する
    ことを特徴とする請求項3に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000003
    ここで、wi’,wはそれぞれ単語xi’,単語xの種類である。Σi’ s.t.wi’≠wiは単語xと種類が異なる単語xi’に関する総和である。NwiはΣi’ s.t.wi’≠wiが表す総和における単語xi’の数である。
  5.  前記語義推定部は、計算した確率密度に基づき、数4に示す尤度関数Lの値が大きくなるように、前記文脈バンド幅と前記概念バンド幅と前記語義確率を再計算する
    ことを特徴とする請求項3又は4に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000004
    ここで、Πは全ての単語xについての総乗である。
  6.  前記語義推定装置は、さらに、
     前記文脈バンド幅についての標準値である文脈標準値及びばらつきの大きさである文脈ばらつきと、前記概念バンド幅についての標準値である概念標準値及びばらつきの大きさである概念ばらつきとを設定するバンド幅罰則設定部
    を備え、
     前記語義推定部は、前記尤度関数Lの値が大きくなるように、かつ、前記文脈ばらつきと比べて、前記文脈バンド幅と前記文脈標準値との差が小さくなるように、かつ、前記概念ばらつきと比べて、前記概念バンド幅と前記概念標準値との差が小さくなるように、前記文脈バンド幅と前記概念バンド幅と前記語義確率を再計算する
    ことを特徴とする請求項5に記載の語義推定装置。
  7.  前記バンド幅罰則設定部は、数5における値α,β,α,βを設定することにより、前記文脈標準値及び前記文脈分散と、前記概念標準値及び前記概念分散とを設定し、
     前記語義推定部は、数5に示す尤度LMAPが大きくなるように、前記文脈バンド幅と前記概念バンド幅と前記語義確率を再計算する
    ことを特徴とする請求項6に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000005
    ここで、Gamはガンマ分布であり、数6である。α,β,α,βはガンマ分布の形状を決めるハイパーパラメータである。
    Figure JPOXMLDOC01-appb-M000006
    ここで、Γ(α)は数7である。
    Figure JPOXMLDOC01-appb-M000007
  8.  前記語義推定部は、仮説(xi’,sj’)の確率重み付きの確率密度πi’j’Q(xi’,sj’)に占める仮説(x,s)の負担率ri’j’ ijを数8により計算し、前記文脈バンド幅ξijと前記概念バンド幅ζijと前記語義確率πijとを数9により再計算する
    ことを特徴とする請求項7に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000008
    Figure JPOXMLDOC01-appb-M000009
    ここで、Qij(xi’,sj’)は数10である。各添え字の付された負担率rは数11である。
    Figure JPOXMLDOC01-appb-M000010
    Figure JPOXMLDOC01-appb-M000011
  9.  前記語義推定部は、前記文脈バンド幅ξijと前記概念バンド幅ζijとを数12により再計算する
    ことを特徴とする請求項8に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000012
    ここで、Cξ1,Cξ2,Cζ1,Cζ2は数13である。
    Figure JPOXMLDOC01-appb-M000013
  10.  カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定方法であり、
     処理装置が、入力データに含まれる複数の単語を抽出する単語抽出ステップと、
     処理装置が、前記単語抽出ステップで抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析ステップと、
     処理装置が、単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出ステップと、
     処理装置が、前記各単語について、前記語義候補抽出ステップで語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定ステップと
    を備えることを特徴とする語義推定方法。
  11.  カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定プログラムであり、
     入力データに含まれる複数の単語を抽出する単語抽出処理と、
     前記単語抽出処理で抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析処理と、
     単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出処理と、
     前記各単語について、前記語義候補抽出処理で語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定処理と
    をコンピュータに実行させることを特徴とする語義推定プログラム。
PCT/JP2012/081562 2012-12-05 2012-12-05 語義推定装置、語義推定方法及び語義推定プログラム WO2014087506A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/081562 WO2014087506A1 (ja) 2012-12-05 2012-12-05 語義推定装置、語義推定方法及び語義推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/081562 WO2014087506A1 (ja) 2012-12-05 2012-12-05 語義推定装置、語義推定方法及び語義推定プログラム

Publications (1)

Publication Number Publication Date
WO2014087506A1 true WO2014087506A1 (ja) 2014-06-12

Family

ID=50882956

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/081562 WO2014087506A1 (ja) 2012-12-05 2012-12-05 語義推定装置、語義推定方法及び語義推定プログラム

Country Status (1)

Country Link
WO (1) WO2014087506A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统
US20220005464A1 (en) * 2020-07-06 2022-01-06 Samsung Electronics Co., Ltd. System and method for learning new concepts from input utterances
US20220180546A1 (en) * 2019-03-28 2022-06-09 Aisin Corporation Image processing device and image processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338263A (ja) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
JP2012181579A (ja) * 2011-02-28 2012-09-20 National Institute Of Information & Communication Technology パターン分類の学習装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338263A (ja) * 2005-06-01 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
JP2012181579A (ja) * 2011-02-28 2012-09-20 National Institute Of Information & Communication Technology パターン分類の学習装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOICHI TANIGAKI: "Thesaurus Bunmyaku Tokucho Kukan no Hanpuku Kernel Mitsudo Suitei ni yoru Kyoshi Nashi Gogi Aimaisei Kaisho", THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING DAI 18 KAI NENJI TAIKAI HAPPYO RONBUNSHU TUTORIAL HONKAIGI, 13 March 2012 (2012-03-13), pages 1296 - 1299 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729309A (zh) * 2016-08-11 2018-02-23 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN107729309B (zh) * 2016-08-11 2022-11-08 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和系统
CN109359303B (zh) * 2018-12-10 2023-04-07 枣庄学院 一种基于图模型的词义消歧方法和系统
US20220180546A1 (en) * 2019-03-28 2022-06-09 Aisin Corporation Image processing device and image processing program
US20220005464A1 (en) * 2020-07-06 2022-01-06 Samsung Electronics Co., Ltd. System and method for learning new concepts from input utterances
US11741307B2 (en) * 2020-07-06 2023-08-29 Samsung Electronics Co., Ltd. System and method for learning new concepts from input utterances

Similar Documents

Publication Publication Date Title
JP5734503B2 (ja) 語義推定装置、方法及びプログラム
JP7360497B2 (ja) クロスモーダルな特徴の抽出方法、抽出装置、ならびに、プログラム
US7720773B2 (en) Partitioning data elements of a visual display of a tree using weights obtained during the training state and a maximum a posteriori solution for optimum labeling and probability
US8781916B1 (en) Providing nuanced product recommendations based on similarity channels
US8190537B1 (en) Feature selection for large scale models
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
JP7342242B2 (ja) 学習を転移させるための学習のためのフレームワーク
US11403490B2 (en) Reinforcement learning based locally interpretable models
Huang et al. Large-scale heterogeneous feature embedding
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
WO2014087506A1 (ja) 語義推定装置、語義推定方法及び語義推定プログラム
US20230401426A1 (en) Prediction method, prediction apparatus and program
WO2020026646A1 (ja) 解析装置、解析方法及びプログラム
Ma et al. Discriminative multi-label feature selection with adaptive graph diffusion
Li et al. Sentiment based multi-index integrated scoring method to improve the accuracy of recommender system
Kazi et al. Towards a new perspective on context based citation index of research articles
Bao et al. Asymmetry label correlation for multi-label learning
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
Athukorala et al. An effective short-text topic modelling with neighbourhood assistance-driven NMF in Twitter
Komninos et al. Structured generative models of continuous features for word sense induction
JP2008276344A (ja) 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム
Huang et al. Prompt-based self-training framework for few-shot named entity recognition
Yue et al. Improved FunkSVD algorithm based on RMSProp
Fakhfakh et al. Bayesian optimization for sparse artificial neural networks: Application to change detection in remote sensing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12889602

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12889602

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP