WO2013132614A1 - 語義推定装置、方法及びプログラム - Google Patents

語義推定装置、方法及びプログラム Download PDF

Info

Publication number
WO2013132614A1
WO2013132614A1 PCT/JP2012/055818 JP2012055818W WO2013132614A1 WO 2013132614 A1 WO2013132614 A1 WO 2013132614A1 JP 2012055818 W JP2012055818 W JP 2012055818W WO 2013132614 A1 WO2013132614 A1 WO 2013132614A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
meaning
concept
probability
candidate
Prior art date
Application number
PCT/JP2012/055818
Other languages
English (en)
French (fr)
Inventor
谷垣 宏一
光輝 柴
高山 茂伸
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to US14/366,066 priority Critical patent/US20150006155A1/en
Priority to CN201280071188.8A priority patent/CN104160392B/zh
Priority to PCT/JP2012/055818 priority patent/WO2013132614A1/ja
Priority to JP2014503363A priority patent/JP5734503B2/ja
Priority to DE112012005998.0T priority patent/DE112012005998T5/de
Publication of WO2013132614A1 publication Critical patent/WO2013132614A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Definitions

  • the present invention relates to a word meaning estimation technique (word meaning ambiguity resolution technique) for estimating a word contained in a document and in which word meaning the word is registered in a dictionary.
  • Non-Patent Document 1 describes a method using a support vector machine
  • Non-Patent Document 2 describes a method of applying a naive Bayes method
  • Non-Patent Document 3 describes a semi-supervised learning technique that reduces the required amount of labeled learning data by using unlabeled learning data that is not given the correct meaning.
  • Patent Document 1 discloses the meaning of co-occurrence words appearing around words included in a document on a concept hierarchy, and more co-occurrence words, closer hierarchies and close meanings. A method is described in which the meaning candidate defined in the definition sentence is searched and the searched meaning candidate is adopted as the meaning of the word. That is, the meaning of a word is estimated on the assumption that the candidate having a large number of word meaning candidates for co-occurrence words is more likely among the word meaning candidates for the word of interest.
  • the method to which unsupervised learning described in Patent Document 1 is applied is a method that attempts to resolve only the ambiguity of the word of interest.
  • the word meaning candidates of the co-occurrence words are used as the basis of the word to be focused on without giving up the word meaning ambiguity of the co-occurrence words, with an emphasis on the erroneous meaning meanings. Therefore, this method has a problem that the estimation accuracy of the meaning is poor.
  • An object of the present invention is to estimate a meaning with high accuracy by unsupervised learning.
  • a word extraction unit for extracting a plurality of words included in input data; For each word extracted by the word extraction unit, a context analysis unit that extracts a feature of a context in which the word appears in the input data; A meaning candidate extraction unit that extracts each concept stored as a meaning for each word as a meaning candidate for the word from a concept dictionary in which one or more concepts are stored as the meaning of the word; For each word, the evaluation value when each concept extracted as a word meaning candidate by the word meaning candidate extraction unit is defined as the meaning of the context characteristics of the selected word and other words, the selected concept and other Calculate from the proximity of the word meaning and the probability that the selected word will be the selected meaning, and execute a probability calculation process that recalculates the probability based on the calculated evaluation value, for each word, It is provided with the meaning estimation part which estimates the concept with the high probability calculated as the meaning of the word.
  • the word meaning estimation device it is possible to realize high word meaning estimation accuracy even when correct word meaning is not given or when only a small amount of correct word meaning is given by simultaneously estimating the word meaning for a plurality of words. .
  • FIG. 1 is a configuration diagram of a meaning estimation apparatus 100 according to Embodiment 1.
  • the processing device is a CPU 911 or the like which will be described later.
  • the storage device is a ROM 913, a RAM 914, a magnetic disk device 920, etc., which will be described later. That is, the processing device and the storage device are hardware.
  • wi is described as superscript or subscript, the wi means w i.
  • Embodiment 1 FIG.
  • the meaning estimation method will be described using an example in which table schemas of a plurality of databases are input text data 10 and the meaning of words constituting the table schema is estimated.
  • a specific application for estimating meaning of a table schema for example, there is data integration in a company. Companies have a need to integrate database data among multiple business applications that have been built and run in the past. In order to realize data integration, it is necessary to determine which item corresponds to which item among a plurality of databases. Conventionally, correspondence between items has been manually determined. By using the meaning estimation method here, it is possible to support the work of determining the presence or absence of correspondence between items having different names, and to save labor.
  • FIG. 1 is a configuration diagram of the meaning estimation apparatus 100 according to the first embodiment.
  • the input text data 10 is a plurality of table schemas of a plurality of databases.
  • the word extraction unit 20 divides the table name and the column name defined in the table schema into word units by the processing device, and extracts the divided words as the meaning estimation target.
  • the context analysis unit 30 uses the processing device to extract the appearance context characteristics of each word extracted by the word extraction unit 20 from the table schema.
  • the word meaning candidate extraction unit 40 refers to the concept dictionary 50 and extracts word meaning candidates for each word extracted by the word extraction unit 20 by the processing device.
  • the concept dictionary 50 stores one or more concepts as word meanings in a storage device, and stores a hierarchical relationship between the concepts in the storage device.
  • the word meaning estimation unit 60 estimates, for each word extracted by the word extraction unit 20, which of the word meanings extracted by the word meaning candidate extraction unit 40 is likely. At this time, for each word, the meaning estimation unit 60 determines the proximity of the context features extracted by the context analysis unit 30 for the word and other words, and the meaning candidate for the word and the meaning candidates for other words. Estimate meaning based on closeness of concept. Then, the word meaning estimation unit 60 outputs the word meaning estimated for each word as estimated word meaning data 70.
  • FIG. 2 is a diagram illustrating an overview of the meaning estimation method according to the first embodiment.
  • the input text data 10 is a schema that defines the table structure of the database.
  • FIG. 2 shows, as an example, a state in which a schema of a table “ORDER” including columns “SHIP_TO” and “DELIVER_TO” is input. A plurality of such table schemas are actually input.
  • the word extraction unit 20 extracts words from the input table schema.
  • word division is performed using the underscore “_” as a delimiter by the simplest method.
  • FIG. 2 four types of words “ORDER”, “SHIP”, “TO”, and “DELIVER” are extracted. All the extracted words are treated as meaning objects (classification target words).
  • the context analysis unit 30 extracts features of appearance context of each classification target word, and generates a feature vector.
  • the feature of the word appearance context indicates how the word is used in the table schema.
  • the characteristics of the appearance context of words (1) the type of whether the appearance location is a table name or a column name, (2) the word that appears immediately before the classification target word, and (3) the classification target word The word that appears immediately after, (4) the word that appears in the parent table name (only when the classification target word appears in the column name), and (5) the word that appears in the child column name (the classification target word appears in the table) 5 only).
  • FIG. 3 is a diagram illustrating an example of the feature vector of the appearance context generated by the context analysis unit 30.
  • each row represents a classification target word
  • each column represents a feature constituting a feature.
  • the feature value is 1, the feature is present, and when the feature value is 0, the feature is not possessed. From FIG. 3, it can be seen that the appearance context vectors of the classification target words “SHIP” and “DELIVER” match and are used in a similar manner.
  • the word meaning candidate extraction unit 40 refers to each classification target word in the concept dictionary 50 and extracts all the concepts that are word meaning candidates.
  • WordNet is used as the concept dictionary 50.
  • WordNet a concept called “synset” is defined as one unit, and words corresponding to the concept and upper / lower relations between concepts are defined.
  • the details of WordNet are described in Non-Patent Document 4, for example.
  • FIG. 4 and 5 are diagrams showing examples of the concept dictionary 50.
  • FIG. FIG. 4 is a diagram illustrating the relationship between concepts and words. That is, FIG. 4 is a diagram illustrating an example of definition of meaning.
  • the concept ID 0003 is a concept having the name of “ship” in Japanese, and it is defined that there are “ship”, “vessel”, and the like as corresponding words.
  • the word “ship” when viewed from the word “ship”, the three meanings of ID0003 “ship”, 0010 “title”, and 0017 “shipment” are registered as the meaning, which is ambiguous.
  • two concepts of ID0013 “childbirth” and 0019 “delivery” are registered as meanings and are ambiguous. That is, it is necessary to identify from which context the word “ship” or “deliver” is used.
  • FIG. 5 is an example of the relationship definition of the concept, and is a diagram showing the upper (abstract) / lower (specific) relationship of the concept.
  • Concepts that are close to each other in the hierarchical relationship have a similar meaning than concepts that are distant.
  • the concept “shipping” of ID 0017 is defined as having a sister relationship with the concept of “delivery” of ID 0019 and having a meaning similar to, for example, the concept “birth” of other ID 0013. Yes.
  • the meaning candidate extraction unit 40 extracts concepts registered as word meanings in the concept dictionary and converts the extracted concepts into meaning feature vectors. By converting to semantic feature vectors, the closeness between concepts can be handled by vector calculations as well as closeness between appearance contexts.
  • FIG. 6 is a diagram showing an example of a concept expressed by a vector in accordance with the hierarchy definition shown in FIG.
  • each row represents a vector of concept IDs displayed at the left end.
  • Each component of the vector is a concept constituting a concept hierarchy, and 1 is given when corresponding to the concept or its superordinate concept, and 0 is given otherwise.
  • ID0017 has ID0001, ID0011, and ID0016 as superordinate concepts
  • 1 is given to a total of four components including its own ID0017 and these three concepts. From FIG. 6, it can be seen that the concept ID 0017 “shipping” and ID 0019 “delivery” are expressed as vectors similar to those of other concepts.
  • the word meaning estimation unit 60 estimates the meaning of the classification target word based on the appearance context feature vector ⁇ c and the word meaning feature vector ⁇ t described above.
  • the feature space composed of the two vectors is schematically shown as a two-dimensional plane.
  • the coordinates of the feature vector ⁇ c (x) of the appearance context of the classification target word x are uniquely determined.
  • the coordinates of the characteristic vector ⁇ t (x) of the semantic meaning of the classification target word x are hypotheses that are probabilistically positioned at a plurality of locations.
  • the hypothesis mapped on the plane is indicated by black dots in FIG.
  • the classification target word “SHIP” in FIG. 2 has ambiguity on the side of the semantic feature vector ⁇ t , and hypotheses are placed at three points.
  • Equation 11 the simultaneous probability p (x, s) of the meaning hypothesis (x, s) that assigns the meaning s to the classification target word x is obtained by Equation 11.
  • Z is a value for normalization, and is a value set so that the sum of the joint probabilities p (x, s) for all classification target words x and all meanings s is 1.
  • N is the number of classification target words x included in the input data.
  • x i is the i-th classification target word.
  • w i is the classification target word x i ignoring the context in which it appears.
  • S wi is a set of semantic meaning candidates for the word w i .
  • s j is a concept included in the set S wi .
  • ⁇ wi j is a probability (meaning assignment probability) that the meaning of the word w i is s j .
  • ⁇ c and ⁇ t are respectively the variance of the feature space of the appearance context and the variance of the semantic feature space, and predetermined values are given as setting values.
  • exp ( ⁇ ) is a Gaussian kernel and ⁇ ⁇ ⁇ 2 is a second-order norm (of the difference vector).
  • the meaning assignment probability ⁇ wi j does not depend on the appearance context.
  • the word w i represents, for example, the word “SHIP”, and the meaning s j in this case represents “ship”, “title”, and “shipment”.
  • FIG. 7 is a flowchart showing the flow of processing (probability calculation processing) for estimating the meaning assignment probability ⁇ wi j .
  • the semantic meaning estimation unit 60 calculates the value of the Gaussian kernel exp (•) that is irrelevant to the update of the semantic meaning probability ⁇ wi j in Equation 11 in order to improve the calculation in the iterations after S30, and stores it in the storage device. Keep it.
  • ⁇ S40 E step>
  • the meaning estimation unit 60 obtains the simultaneous probability p (x, s) based on the current meaning assignment probability (old) ⁇ w j with respect to all meaning candidates s of all the classification target words x using Equation 11.
  • the value stored in the storage device in S10 is used as the value of the Gaussian kernel exp (•).
  • the meaning-of-meaning estimation unit 60 calculates a new meaning-of-meaning assignment probability (new) ⁇ w j using Equation 14 and returns the process to S30.
  • Xw is a set of classification target words x included in the input text data 10.
  • FIG. 8 is a diagram showing the update of the meaning assignment probability ⁇ w j by applying the EM algorithm and the state of the meaning ambiguity resolution associated therewith.
  • FIG. 8 shows a simulation result of the operation that is changed from the left to the right state in FIG. 2 by repeating the ⁇ w j update step of the EM algorithm.
  • the graph shown on the left of FIG. 2 corresponds to the position of the EM algorithm iteration number 0 shown in the lower left of FIG. 8 (before ambiguity resolution), and the graph shown on the right of FIG. 2 shows on the upper right of FIG. This corresponds to a position of 40 EM algorithm iterations (after ambiguity resolution).
  • FIG. 8 shows a simulation result of the operation that is changed from the left to the right state in FIG. 2 by repeating the ⁇ w j update step of the EM algorithm.
  • the graph shown on the left of FIG. 2 corresponds to the position of the EM algorithm iteration number 0 shown in the lower left of FIG. 8 (
  • the Gaussian distribution shows only three peaks indicating “SHIP” meaning candidates and two peaks indicating “DELIVER” meaning candidates whose appearance contexts are close to each other. From FIG. 8, in the initial state, the three meanings of the word “SHIP” (ship, title, and shipment) are equally accurate, and the two meanings of the word “DELIVER” (childbirth and delivery) are also the same. I'm sure. However, since the meaning of “SHIP” and “delivery” of “SHIVE” and “DELIVER” are close to each other, the likelihood bases of Gaussian kernels overlap each other, so it is estimated that they are more likely than other meanings. Can do.
  • the expected meaning value of each word is estimated based on the overall probability density predicted based on the similarity with other meanings of other words with similar appearance context, and the estimated meaning value of each word Repeat the update of the meaning assignment probability ⁇ w j of each word to match. Thereby, the value of the meaning allocation probability ⁇ w j of each word changes as shown in FIG. 8, and finally the probability of the meaning of each word is increased.
  • the meaning determination unit 60 selects the maximum likelihood meaning s j * for each classification target word w according to Equation 15 and outputs it as the estimated meaning data 70.
  • the meaning estimation apparatus 100 finds close meaning assignments between words having similar appearance context features. Therefore, the meaning of the meaning can be estimated from the data for which the correct meaning of the meaning is not given. Therefore, it is necessary to create labeled learning data in which the correct meaning is usually given manually to the text data of the target task, which is a problem in the method using supervised learning and the method using semi-supervised learning. The problem of being can be solved. As a result, it is possible to solve the problem that the learning data creation cost is high and the problem that this method cannot be applied in a situation where learning data is obtained in advance.
  • the meaning estimation apparatus 100 uses the EM algorithm to recursively update the meaning assignment probabilities of all the words to be classified, thereby eliminating all word ambiguities simultaneously and gradually. That is, the meaning of one's own word is estimated based on the likely meaning of other words. Therefore, in order to use the word meaning candidate of the co-occurrence word as the basis of the word to be paid attention to even the erroneous word meaning candidate in practice, which is a problem in the method described in Patent Document 1, estimation of the meaning of meaning It is possible to solve the problem of poor accuracy.
  • the meaning estimation apparatus 100 it is possible to solve the problem of the conventional meaning estimation technique and estimate the meaning with high accuracy by unsupervised learning even under conditions where labeled learning data cannot be obtained. .
  • the classification target word is a word (registered word) registered in the concept dictionary 50 and a meaning candidate is obtained by referring to the concept dictionary 50.
  • the above method can also be applied when the classification target word is a word (unregistered word) that is not registered in the concept dictionary 50.
  • the abbreviation “DELIV” of the registered word “DELIVER” is an unregistered word.
  • the similarity between character strings is obtained based on a known edit distance or the like for the character string of the classification target word that is an unregistered word and the registered character string of the concept dictionary 50.
  • the joint probability p (x, s) may be calculated using a weight corresponding to the similarity between character strings with the extracted registered word.
  • the meaning s j of the classification target word w i is an unregistered word, was a registered concept as the meaning of a registered word w ⁇ i that is similar to the classification target word w i.
  • the weight corresponding to the similarity between character strings of the classification target word w i and the registered word w i is assumed to be ⁇ i j .
  • the meaning assignment probability ⁇ wi j may be set to ⁇ wi j ⁇ i j multiplied by the weight ⁇ i j . That is, the higher the similarity between character strings with the extracted registered word, the higher the meaning assignment probability ⁇ w j may be.
  • the present invention is not limited to this.
  • the present invention can also be applied to cases where correct meanings are predetermined for some words included in the input text data 10.
  • the meaning assignment probability ⁇ w j of the correct meaning s j may be fixed to 1. In this way, it is possible to apply the above method in the framework of semi-supervised learning and to perform meaning estimation with higher accuracy than in the case where it is applied in complete unsupervised learning.
  • the meaning assignment probability ⁇ w j is obtained as a continuous value between 0 and 1.
  • the present invention is not limited to this.
  • the target for which the sum is calculated in Equation 1 is all the semantic meaning hypotheses of all the classification target words.
  • the present invention is not limited to this.
  • the target may be limited to a predetermined number K (K is an integer equal to or greater than 1) having a close meaning feature vector, and the sum may be obtained.
  • the feature vector of the appearance context is simply expressed by the presence or absence of co-occurrence words.
  • the present invention is not limited to this.
  • a concept that is a semantic meaning is extracted, and the co-occurrence word described in an expression form or a heading form is replaced with the extracted concept.
  • the feature vector of the appearance context may be expressed.
  • the word “ship” is included in the co-occurrence word
  • the “ship” is replaced with the concepts “ship”, “title”, and “shipment”
  • the context is rewritten.
  • the context and the closeness of meaning are modeled by the Gaussian kernel.
  • the present invention is not limited to this.
  • the closeness of meaning may be replaced by the number of links when the hierarchy of the concept dictionary is simply traced.
  • FIG. 9 is a diagram illustrating an example of a hardware configuration of the meaning estimation apparatus 100.
  • the meaning estimation apparatus 100 includes a CPU 911 (also referred to as a central processing unit, a central processing unit, a processing unit, an arithmetic unit, a microprocessor, a microcomputer, and a processor) that executes a program.
  • the CPU 911 is connected to the ROM 913, the RAM 914, the LCD 901 (Liquid Crystal Display), the keyboard 902 (K / B), the communication board 915, and the magnetic disk device 920 via the bus 912, and controls these hardware devices.
  • the magnetic disk device 920 fixed disk device
  • a storage device such as an optical disk device or a memory card read / write device may be used.
  • the magnetic disk device 920 is connected via a predetermined fixed disk interface.
  • an operating system 921 OS
  • a window system 922 a program group 923
  • a file group 924 are stored in the magnetic disk device 920 or the ROM 913.
  • the programs in the program group 923 are executed by the CPU 911, the operating system 921, and the window system 922.
  • the program group 923 includes software and programs that execute the functions described as “word extraction unit 20”, “context analysis unit 30”, “meaning candidate extraction unit 40”, “meaning estimation unit 60”, etc. Other programs are stored.
  • the program is read and executed by the CPU 911.
  • information, data, signal values, variable values, and parameters such as “input text data 10”, “concept dictionary 50”, and “estimated semantic data 70” in the above description are stored in “file” and “database”. Is stored as each item.
  • the “file” and “database” are stored in a recording medium such as a disk or a memory.
  • Information, data, signal values, variable values, and parameters stored in a storage medium such as a disk or memory are read out to the main memory or cache memory by the CPU 911 via a read / write circuit, and extracted, searched, referenced, compared, and calculated. Used for the operation of the CPU 911 such as calculation / processing / output / printing / display. Information, data, signal values, variable values, and parameters are temporarily stored in the main memory, cache memory, and buffer memory during the operation of the CPU 911 for extraction, search, reference, comparison, calculation, calculation, processing, output, printing, and display. Is remembered.
  • the arrows in the flowchart mainly indicate input / output of data and signals, and the data and signal values are recorded in a memory of the RAM 914, other recording media such as an optical disk, and an IC chip.
  • Data and signals are transmitted online by a bus 912, signal lines, cables, other transmission media, and radio waves.
  • what is described as “to part” in the above description may be “to circuit”, “to device”, “to device”, “to means”, and “to function”. It may be “step”, “ ⁇ procedure”, “ ⁇ processing”.
  • ⁇ device may be “ ⁇ circuit”, “ ⁇ equipment”, “ ⁇ means”, “ ⁇ function”, and “ ⁇ step”, “ ⁇ procedure”, “ May be “processing”.
  • to process may be “to step”. That is, what is described as “ ⁇ unit” may be realized by firmware stored in the ROM 913. Alternatively, it may be implemented only by software, or only by hardware such as elements, devices, substrates, and wirings, by a combination of software and hardware, or by a combination of firmware.
  • Firmware and software are stored in a recording medium such as ROM 913 as a program. The program is read by the CPU 911 and executed by the CPU 911. That is, the program causes a computer or the like to function as the “ ⁇ unit” described above. Alternatively, the procedure or method of “unit” described above is executed by a computer or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Complex Calculations (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 教師なし学習により、語義を高い精度で推定することを目的とする。語義推定装置100は、各単語について、語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、各単語について、計算した確率が高い概念をその単語の語義と推定する。

Description

[規則37.2に基づきISAが決定した発明の名称] 語義推定装置、方法及びプログラム
 この発明は、文書に含まれる単語について、その単語が辞書に登録された何れの語義で使われているかを推定する語義推定技術(語義の曖昧性解消技術)に関する。
 語義の推定は、機械翻訳、情報検索をはじめとする各種自然言語処理の基礎技術として多くの研究がなされており、その方式としては大きく分類して2つのアプローチがある。
 1つは、教師あり学習(あるいは半教師あり学習)を適用する方式であり、もう1つは、教師なし学習を適用する方式である。
 教師あり学習を適用する方式では、予め対象とするタスク、又はそれに類する文書データに対し、正しい語義を(通常人手で)付与したラベル付き学習データを作成しておく。そして、何らかの基準(尤度最大化、マージン最大化など)により、単語の出現文脈から語義を識別する規則をモデルに学習させる。
 教師あり学習を適用する方式として、非特許文献1には、サポートベクターマシンを用いる方式が記載されており、非特許文献2には、ナイーブベイズ法を適用する方式が記載されている。また、非特許文献3には、正しい語義が付与されていないラベルなし学習データを併用することでラベル付き学習データの必要量を削減する半教師あり学習の技術が記載されている。
 教師なし学習を適用する方式では、人手で正解を付与したラベルあり学習データを用いず、ラベルなし学習データのみから語義を識別する。
 教師なし学習を適用する方式として、特許文献1には、文書に含まれる単語の周辺に出現する共起語の語義を概念階層上で調べ、より多くの共起語と、近い階層・近い語義定義文で定義されている語義候補を探し、探した語義候補を単語の語義として採択する方式が記載されている。つまり、注目する単語の語義候補の中で、共起語の語義候補が近くに数多くある候補ほど尤もらしいとして単語の語義を推定している。
特開2010-225135号公報
Leacock, C., Miller, G. A. and Chodorow, M.: Using corpus statistics and wordnet relations for sense identification, Computational Linguistics, Vol. 24, No. 1, pp. 147--165 (1998) 電子情報通信学会 言語理解とコミュニケーション研究会 (NLC), "SENSEVAL-2 日本語タスク", 黒橋禎夫, 白井清昭, 2001 Yarowsky, D.: Unsupervised word sense discrimination, Computational Linguistics, Vol. 24, No. 1, pp. 97--123 (1998) 栗林孝之, Bond, F., 黒田航, 内元清貴, 井佐原均, 神崎享子, 鳥澤健太郎: 日本語ワードネット1.0, 言語処理学会 第16回年次大会発表論文集 (2010)
 しかし、非特許文献1,2に記載された教師あり学習を適用した方式や、非特許文献3に記載された半教師あり学習を適用した方式を適用するためには、文書データに対し、正しい語義を付与したラベル付き学習データを作成しておく必要がある。そのため、この方式には、学習データの作成にコストがかかる、あるいは、事前に学習データを入手できない状況では適用できないという課題がある。
 また、特許文献1に記載された教師なし学習を適用した方式は、注目する語の曖昧性だけを解消しようとする方式である。つまり、共起語の語義曖昧性を解消することなく、実際には誤った語義候補にも等しく重きを置いて、共起語の語義候補を注目する語の根拠として利用している。そのため、この方式には、語義の推定精度が悪いという課題がある。
 この発明は、教師なし学習により、語義を高い精度で推定することを目的とする。
 この発明に係る語義推定装置は、
 入力データに含まれる複数の単語を抽出する単語抽出部と、
 前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
 単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
 前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定部と
を備えることを特徴とする。
 この発明に係る語義推定装置では、複数の単語について語義を同時推定することにより、正解語義が与えられない場合や、正解語義が少量しか与えられない場合でも高い語義推定精度を実現することができる。
実施の形態1に係る語義推定装置100の構成図。 実施の形態1に係る語義推定方式の概要を示す図。 文脈解析部30により生成された出現文脈の特徴ベクトルの例を示す図。 概念と単語との関係を示す図。 概念の関係定義の一例であり、概念の上位(抽象)/下位(具体)関係を示す図。 図5に示す階層定義に従い、ベクトルで表現した概念の例を示す図。 語義割り当て確率πwi を推定する処理の流れを示すフローチャート。 EMアルゴリズムを適用したことによる語義割り当て確率π の更新と、それに伴う語義曖昧性解消の様子を示す図。 語義推定装置100のハードウェア構成の一例を示す図。
 以下、図に基づき発明の実施の形態を説明する。
 なお、以下の説明において、処理装置は後述するCPU911等である。記憶装置は後述するROM913,RAM914,磁気ディスク装置920等である。つまり、処理装置や記憶装置はハードウェアである。
 また、以下の説明において、wiが上付き文字や下付き文字として記載されている場合、このwiはwを意味する。
 実施の形態1.
 実施の形態1では、複数のデータベースのテーブルスキーマを入力テキストデータ10とし、テーブルスキーマを構成する単語の語義を推定する例を用いて、語義推定方式について説明する。
 テーブルスキーマを対象に語義を推定する具体的な用途としては、例えば、企業におけるデータ統合がある。企業には、過去個別に構築され稼働している複数の業務アプリケーションの間で、データベースのデータを統合したいというニーズがある。データの統合を実現するためには、複数のデータベースの間でどの項目がどの項目に対応するかを判別する必要がある。従来、項目間の対応判別は人手で行われてきた。ここに語義推定方式を用いることにより、異なった名称の項目間の対応関係の有無を判定する作業を支援し、作業の省力化を図ることが可能である。
 図1は、実施の形態1に係る語義推定装置100の構成図である。
 入力テキストデータ10は、複数のデータベースの複数のテーブルスキーマである。
 単語抽出部20は、処理装置により、テーブルスキーマに定義されたテーブル名やカラム名を単語単位に分割し、分割した単語を語義推定対象として抽出する。
 文脈解析部30は、処理装置により、単語抽出部20が抽出した各単語の出現文脈の特徴を、テーブルスキーマから抽出する。
 語義候補抽出部40は、処理装置により、単語抽出部20が抽出した各単語に対し、概念辞書50を参照して語義候補を抽出する。
 概念辞書50は、単語の語義として1つ以上の概念を記憶装置に記憶するとともに、概念間の階層的な関係を記憶装置に記憶している。
 語義推定部60は、単語抽出部20が抽出した各単語について、語義候補抽出部40が抽出した語義のいずれが尤もらしいか推定する。この際、語義推定部60は、各単語について、その単語と他の単語とについて文脈解析部30が抽出した文脈の特徴の近さと、その単語の語義候補と他の単語の語義候補とについての概念の近さとに基づいて、語義を推定する。そして、語義推定部60は、各単語について推定した語義を、推定語義データ70として出力する。
 図2は、実施の形態1に係る語義推定方式の概要を示す図である。
 入力テキストデータ10は、ここではデータベースのテーブル構造を定義したスキーマである。図2では、一例として、“SHIP_TO”,“DELIVER_TO”というカラムを含む、“ORDER”というテーブルのスキーマが入力された状態を示している。このようなテーブルスキーマが、実際には複数入力される。
 単語抽出部20は、入力されたテーブルスキーマから、単語を抽出する。ここでは最も単純な方法により、アンダースコア“_”を区切り文字として単語分割を行う。その結果、図2では“ORDER”,“SHIP”,“TO”,“DELIVER”の4種類の単語が抽出される。抽出された単語を全て、語義の推定対象(分類対象語)として扱う。
 文脈解析部30は、単語抽出部20による単語分割の結果に基づき、各分類対象語の出現文脈の特徴を抽出し、特徴ベクトルを生成する。
 単語の出現文脈の特徴とは、その単語がテーブルスキーマにおいてどのような使われ方をしているかを表すものである。ここでは、単語の出現文脈の特徴として、(1)出現箇所がテーブル名であるかカラム名であるかの種別、(2)分類対象語の直前に出現する単語、(3)分類対象語の直後に出現する単語、(4)親テーブル名に出現する単語(分類対象語の出現箇所がカラム名の場合のみ)、(5)子カラム名に出現する語(分類対象語の出現箇所がテーブル名の場合のみ)の5つを用いることとする。
 図3は、文脈解析部30により生成された出現文脈の特徴ベクトルの例を示す図である。
 図3では、各行は分類対象語を表しており、各列は特徴を構成する素性を表している。また、図3では、素性の値が1のときはその特徴を有しており、0のときはその特徴を有していないことを表す。図3から、分類対象語“SHIP”と“DELIVER”の出現文脈ベクトルは一致しており、互いに良く似た使われ方をしていることが分かる。
 語義候補抽出部40は、各分類対象語を概念辞書50で参照し、語義の候補となる概念を全て抽出する。
 概念辞書50としては、例えば、WordNetを用いる。WordNetではsynsetと呼ぶ概念を1つの単位として、その概念に相当する単語や、概念間の上位/下位関係などが定義されている。WordNetの詳細については例えば非特許文献4に記載されている。
 図4、図5は、概念辞書50の例を示す図である。
 図4は、概念と単語との関係を示す図である。つまり、図4は、語義の定義例を示す図である。
 例えば、概念ID0003は日本語の「船」の名称を持つ概念であり、対応する単語として、“ship”,“vessel”などがあることが定義されている。逆に単語“ship”から見た場合には、語義としてはID0003「船」、0010「肩書き」、0017「出荷」の3つの概念が登録されており、曖昧である。同様にして単語“deliver”に対しても、語義としてID0013「出産」、0019「配達」の2つの概念が登録されており、曖昧である。つまり、単語“ship”や“deliver”が、何れの語義で用いられているかは文脈から識別する必要がある。
 図5は、概念の関係定義の一例であり、概念の上位(抽象)/下位(具体)関係を示す図である。
 階層関係を辿って近い距離にある概念どうしは、離れた概念よりも類似した意味を有している。例えば、図5では、ID0017の概念「出荷」はID0019の概念「配達」と姉妹関係の階層にあり、例えば他のID0013の概念「出産」よりも類似した意味を有していると定義されている。
 語義候補抽出部40は、概念辞書で単語の語義として登録されている概念を抽出するとともに、抽出した概念を語義の特徴ベクトルに変換する。語義の特徴ベクトルに変換することで、概念間の近さを、出現文脈の間の近さと同様にベクトル計算で扱えるようになる。
 図6は、図5に示す階層定義に従い、ベクトルで表現した概念の例を示す図である。
 図6では、各行が、左端に表示した概念IDのベクトルを表している。ベクトルの各成分は概念階層を構成する概念であり、その概念またはその上位概念に相当するときは1、そうでない場合は0が与えられる。例えば、ID0017の概念は、上位概念としてID0001,ID0011,ID0016を持つから、自身のID0017とそれら3つの概念とを含む、合計4つの成分に1が与えられている。
 図6から、概念ID0017「出荷」とID0019「配達」が、他の概念と比べて類似したベクトルとして表現されていることが分かる。
 語義推定部60は、上述した出現文脈の特徴ベクトルφと、語義の特徴ベクトルφとに基づき、分類対象語の語義を推定する。
 図2では、上記2つのベクトルで構成される特徴空間を、模式的に2次元の平面で示している。分類対象語xをこの平面上にマッピングすると、分類対象語xの出現文脈の特徴ベクトルφ(x)の座標は一意に定まる。しかし、分類対象語xの語義は曖昧性があることから、分類対象語xの語義の特徴ベクトルφ(x)の座標は複数箇所に確率的に位置付けられる仮説となる。平面上にマッピングされた仮説を図2では黒い点で示した。例えば、図2の分類対象語“SHIP”は、語義の特徴ベクトルφ側に曖昧性があり、3箇所の点に仮説が置かれている。
 このような各語の語義の曖昧性を教師なし学習により解消するため、ここでは、以下の2つの仮定を置く。
<仮定1>1つの見出し語は出現文脈に関わらず同じ語義で用いられる。
<仮定2>出現文脈が近い単語の語義に近い語義ほど尤もらしい。
 仮定1は、限定されたタスクドメインのスキーマを扱う場合においては単語の多義性が発生せず、単語に一貫した語義を割り当てることができるとするものである。
 仮定2は、仮定1における各語に閉じた一貫性の仮定が、さらに出現文脈の類似した語群まで対象を広げた場合においても、ゆるやかな連続性を持って成立することを期待するものである。
 上記2つの仮定に基づき、ここでは、分類対象語xに語義sを割り当てる語義仮説(x,s)の同時確率p(x,s)を数11により求める。
Figure JPOXMLDOC01-appb-M000004
 ここで、Zは正規化のための値であり、全ての分類対象語xと全ての語義sについての同時確率p(x,s)の合計が1になるように設定された値である。Nは前記入力データに含まれる分類対象語xの数である。xはi番目の分類対象語である。wは出現する文脈を無視した分類対象語xである。Swiは単語wの語義候補の集合である。sは、集合Swiに含まれる概念である。πwi は単語wの語義がsである確率(語義割り当て確率)である。σ,σはそれぞれ、出現文脈の特徴空間の分散、語義の特徴空間の分散であり、所定の値が設定値として与えられる。また、数11において、exp(・)はガウシアンカーネルであり、∥・∥は(差分ベクトルの)2次のノルムである。
 仮定1により、語義割り当て確率πwi は出現文脈に依存しない。なお、単語wとは、例えば単語“SHIP”を表しており、この場合の語義sとは「船」「肩書き」「出荷」を表している。語義割り当て確率πwi は、単語wの語義候補に対する割り当て確率なので、単語wの語義候補の集合をSwiとするとき、集合Swiの全ての要素s∈Swiについての総和は1である(数12)。
Figure JPOXMLDOC01-appb-M000005
 つまり、ここでは、同時確率p(x,s)を、全ての分類対象語x(i=1,...,N)の全ての語義仮説s(∈Swi)に基づき、語義の割り当て確率πwi で重み付けしたカーネル密度推定によって求める。
 図7は、語義割り当て確率πwi を推定する処理(確率計算処理)の流れを示すフローチャートである。
 EMアルゴリズムを適用することにより、語義割り当て確率πwi を全ての分類対象語に対し同時に推定することができる。
 <S10:準備ステップ>
 語義推定部60は、S30以降の反復における計算を効率化するため、数11において、語義割り当て確率πwi の更新に無関係なガウシアンカーネルexp(・)の値を計算し、記憶装置に記憶しておく。
 <S20:初期化ステップ>
 語義推定部60は、全ての単語wに対し、語義割り当て確率π に初期値1/|S|を設定する。ここで、|S|は集合Sの要素数を表す。
 <S30:収束判定ステップ>
 語義推定部60は、全ての分類対象語xに対する語義尤度の合計Lを数13で求める。
Figure JPOXMLDOC01-appb-M000006
 そして、語義推定部60は、前回反復時からの語義尤度の合計Lの増分が予め与えた閾値θ未満なら収束と判定して学習を終了する。一方、語義推定部60は、未収束なら処理をS40へ進めて、語義割り当て確率π の再計算と更新を反復する。
 <S40:Eステップ>
 語義推定部60は、現在の語義割り当て確率(old)π による同時確率p(x,s)を、数11により全ての分類対象語xの全ての語義候補sに対して求める。ガウシアンカーネルexp(・)の値はS10で記憶装置に記憶しておいた値を利用する。
 <S50:Mステップ>
 語義推定部60は、数14により新しい語義割り当て確率(new)π を計算し、S30に処理を戻す。
Figure JPOXMLDOC01-appb-M000007
 ここで、Xは入力テキストデータ10に含まれる分類対象語xの集合である。
 図8は、EMアルゴリズムを適用したことによる語義割り当て確率π の更新と、それに伴う語義曖昧性解消の様子を示す図である。
 図8は、図2において左から右の状態へとEMアルゴリズムのπ 更新ステップの反復により移り変わる動作のシミュレーション結果を示している。図2の左に示すグラフが、図8の左下に示すEMアルゴリズム反復回数0回の位置(曖昧性解消前)に対応しており、図2の右に示すグラフが、図8の右上に示すEMアルゴリズム反復回数40回の位置(曖昧性解消後)に対応している。但し、図8では、簡単のため、ガウス分布は出現文脈が互いに近い、“SHIP”の語義候補を示す3つの山と、“DELIVER”の語義候補を示す2つの山のみを示している。
 図8から、初期状態においては、単語“SHIP”の3つの語義(船、肩書き、出荷)はそれぞれ同程度に確からしく、単語“DELIVER”の2つの語義(出産、配達)もそれぞれ同程度に確からしい。しかし、互いに近い位置にある“SHIP”の語義「出荷」と、“DELIVER”の語義「配達」は互いにガウシアンカーネルによる尤度の裾が重なり合うため、他の語義に比べて尤もらしいと推定することができる。このように、出現文脈が類似した他の単語の他の語義との類似性に基づいて予測した全体の確率密度により、各単語の語義期待値を推定し、推定した各単語の語義期待値と整合するよう各語の語義割り当て確率π の更新を繰り返す。これにより、各語の語義割り当て確率π の値は、図8のように変化していき、最終的にそれぞれの単語の尤もらしい語義の確率が高くなる。
 語義推定部60は、語義割り当て確率π の推定が完了したら、各分類対象語wについて最尤の語義sj*を数15により選択し、推定語義データ70として出力する。
Figure JPOXMLDOC01-appb-M000008
 以上のように、語義推定装置100は、出現文脈の特徴が近い単語の間で近い語義割り当てを発見する。そのため、語義の正解が与えられないデータから、語義を推定することができる。
 したがって、教師あり学習を用いる方法や半教師あり学習を用いる方式における課題である、対象とするタスクのテキストデータに対し、正しい語義を通常人手で付与したラベル付き学習データを作成しておく必要があるという課題を解決することができる。その結果、学習データ作成コストがかかるという課題や、事前に学習データを入手することが状況ではこの方式を適用できないという課題を解決することが可能である。
 また、語義推定装置100は、EMアルゴリズムを用いることにより、分類対象となる全ての単語の語義割り当て確率を反復更新することによって、全ての単語の曖昧性を同時・漸進的に解消する。つまり、他の単語の尤もらしい語義に基づいて、自身の語義を推定する。
 したがって、特許文献1に記載された方式における課題である、実際には誤った語義候補にも等しく重きを置いて、共起語の語義候補を注目する語の根拠として利用するため、語義の推定精度が悪いという課題を解決することが可能である。
 よって、語義推定装置100によれば、従来の語義推定技術の課題を解決し、ラベル付き学習データが得られない条件においても、教師なし学習により、語義を高い精度で推定することが可能である。
 なお、上記説明では、分類対象語が概念辞書50に登録された単語(登録語)であり、概念辞書50を参照して語義の候補が得られることを前提としていた。しかし、分類対象語が概念辞書50に登録されていない単語(未登録語)であった場合にも、上記方式を適用することが可能である。
 例えば、登録語“DELIVER”の短縮表記“DELIV”は未登録語である。この場合には、未登録語である分類対象語の表記文字列と、概念辞書50の登録語の文字列とに対し、公知の編集距離等に基づき文字列間類似度を求める。そして、予め定めた閾値よりも高い類似度を持つ全ての登録語を抽出し、抽出した登録語の語義として記憶された概念を語義候補とすればよい。
 この際、抽出した登録語との文字列間類似度に応じた重みを用いて同時確率p(x,s)を計算するようにしてもよい。例えば、未登録語である分類対象語wの語義sが、分類対象語wと類似する登録語w^の語義として登録された概念であったとする。そして、分類対象語wと登録語w^との文字列間類似度に応じた重みがω であるとする。この場合、数1において、語義割り当て確率πwi を重みω を乗じたπwi ω にすればよい。つまり、抽出した登録語との文字列間類似度が高いほど、語義割り当て確率π が高くなるようにしてもよい。
 また、上記説明では、入力テキストデータ10に含まれる全ての単語について語義を推定する動作について説明した。しかし、これに限定されるものではなく、例えば、入力テキストデータ10に含まれる一部の単語について正しい語義が予め定まっている場合にも適用することができる。
 この場合には、上述した動作において、正しい語義が与えられている単語については、正しい語義sの語義割り当て確率π を1に固定すればよい。そのようにして、上記方式を半教師あり学習の枠組みで適用し、完全な教師なし学習で適用する場合に比べて高精度な語義推定を行うことも可能である。
 また、上記説明では、語義割り当て確率π を0から1の間の連続値として求めた。しかし、これに限定されるものではなく、例えば、数4の代わりに、数4によって計算されたπ の最大値を与えるj^のみ確率π j^=1とし、それ以外のjに対してはπ =0としてもよい。
 また、上記説明では、数1において総和を求める対象を全ての分類対象語の全ての語義仮説とした。しかし、これに限定されるものではなく、例えば、語義の特徴ベクトルが近い所定のK個(Kは1以上の整数)に対象を限定して総和を取ってもよい。
 また、上記説明では、出現文脈の特徴ベクトルを共起語の有無によって単純に表現した。しかし、これに限定されるものではなく、例えば、共起語について辞書を参照してその語義候補となる概念を抽出し、表現形や見出し形で記述された共起語を抽出した概念に置き換えて文脈を記述し直した上で、出現文脈の特徴ベクトルを表現してもよい。具体的には、共起語に“ship”という単語があった場合、“ship”を「船」、「肩書」、「出荷」という各概念に置き換えて文脈を記述し直し、出現文脈の特徴ベクトルを表現する。これにより、例えば、共起語に“ship”という単語があった文脈と、共起語に“vessel”という単語があった文脈との出現文脈の特徴ベクトルが近いベクトルになる。
 また、上記説明では、文脈および語義の近さをガウシアンカーネルによりモデル化した。しかし、これに限定されるものではなく、例えば、語義の近さを単純に概念辞書の階層を辿ったときのリンクの数により代用してもよい。
 図9は、語義推定装置100のハードウェア構成の一例を示す図である。
 図9に示すように、語義推定装置100は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、LCD901(Liquid Crystal Display)、キーボード902(K/B)、通信ボード915、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920(固定ディスク装置)の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。磁気ディスク装置920は、所定の固定ディスクインタフェースを介して接続される。
 磁気ディスク装置920又はROM913などには、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
 プログラム群923には、上記の説明において「単語抽出部20」、「文脈解析部30」、「語義候補抽出部40」、「語義推定部60」等として説明した機能を実行するソフトウェアやプログラムやその他のプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
 ファイル群924には、上記の説明において「入力テキストデータ10」、「概念辞書50」、「推定語義データ70」等の情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPU911の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPU911の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
 また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、その他光ディスク等の記録媒体やICチップに記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体や電波によりオンライン伝送される。
 また、上記の説明において「~部」として説明するものは、「~回路」、「~装置」、「~機器」、「~手段」、「~機能」であってもよく、また、「~ステップ」、「~手順」、「~処理」であってもよい。また、「~装置」として説明するものは、「~回路」、「~機器」、「~手段」、「~機能」であってもよく、また、「~ステップ」、「~手順」、「~処理」であってもよい。さらに、「~処理」として説明するものは「~ステップ」であっても構わない。すなわち、「~部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ROM913等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、上記で述べた「~部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「~部」の手順や方法をコンピュータ等に実行させるものである。
 10 入力テキストデータ、20 単語抽出部、30 文脈解析部、40 語義候補抽出部、50 概念辞書、60 語義推定部、70 推定語義データ、100 語義推定装置。
 

Claims (13)

  1.  入力データに含まれる複数の単語を抽出する単語抽出部と、
     前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
     単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
     前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義候補の概念との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定部と
    を備えることを特徴とする語義推定装置。
  2.  前記語義推定部は、文脈の特徴が近いほど前記評価値が高くなるように、選択した概念と他の単語の語義とが近いほど前記評価値が高くなるように、前記確率が高いほど前記評価値が高くなるように、前記評価値を計算し、計算した評価値が高いほど前記確率が高くなるように、前記確率を再計算する
    ことを特徴とする請求項1に記載の語義推定装置。
  3.  前記語義推定部は、選択した単語x、選択した概念sとした場合の評価値として同時確率p(x,s)を数1により計算する
    ことを特徴とする請求項2に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000001
    ここで、Zは所定の値である。Nは前記入力データに含まれる単語数である。xはi番目の単語である。wは出現する文脈を無視した単語xである。Swiは単語wの語義候補の集合である。sは、集合Swに含まれる概念である。πwi は単語wの語義がsである確率である。φは文脈の特徴を表すベクトルである。φは概念を表すベクトルである。σ,σはそれぞれ所定の値である。
  4.  前記語義推定部は、単語xが概念sとなる確率π を数2により計算する
    ことを特徴とする請求項3に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000002
    ここで、Xは前記入力データに含まれる単語の集合である。
  5.  前記語義推定部は、前記確率計算処理において合計尤度Lを数3により計算し、n回目(nは1以上の整数)の前記確率計算処理で計算された合計尤度Lに対する、n+1回目の前記確率計算処理で計算された合計尤度Lの増分が、所定の閾値θ未満になるまで、前記確率計算処理を繰り返す
    ことを特徴とする請求項4に記載の語義推定装置。
    Figure JPOXMLDOC01-appb-M000003
  6.  前記語義推定部は、前記各単語について、数2によって計算された前記確率π が最も高い語義候補の前記確率π を1に置き換え、他の語義候補の前記確率π を0に置き換えて、前記合計尤度Lの計算と、前記評価値の再計算とを行う
    ことを特徴とする請求項5に記載の語義推定装置。
  7.  前記文脈の特徴は、選択した単語の周辺の単語と、選択した単語を含む文字列に関連付けられた他の文字列に含まれる単語との少なくともいずれかを含む
    ことを特徴とする請求項1から6までのいずれかに記載の語義推定装置。
  8.  前記文脈の特徴は、選択した単語の周辺の単語の語義と、選択した単語を含む文字列に関連付けられた他の文字列に含まれる単語の語義との少なくともいずれかを含む
    ことを特徴とする請求項1から7までのいずれかに記載の語義推定装置。
  9.  前記概念辞書に単語の語義として記憶された概念にはグラフ構造により表される階層関係が設定されており、2つの概念間の近さはその概念間のリンクの数に基づき決定される
    ことを特徴とする請求項1から8までのいずれかに記載の語義推定装置。
  10.  前記語義候補抽出部は、前記単語抽出部が抽出した単語が前記概念辞書に登録されていない場合、その単語を構成する文字列との類似度が所定以上の単語を前記概念辞書から特定して、特定した単語について語義として記憶された各概念を前記単語抽出部が抽出した単語の語義候補として抽出する
    ことを特徴とする請求項1から9までのいずれかに記載の語義推定装置。
  11.  前記語義推定部は、一部の単語の語義が予め与えられた場合、その単語について、語義候補のうち与えられた語義に対応する語義候補の前記確率を1に固定し、他の語義候補の前記確率を0に固定する
    ことを特徴とする請求項1から10までのいずれかに記載の語義推定装置。
  12.  処理装置が、入力データに含まれる複数の単語を抽出する単語抽出ステップと、
     処理装置が、前記単語抽出ステップで抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析ステップと、
     処理装置が、単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出ステップと、
     処理装置が、前記各単語について、前記語義候補抽出ステップで語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義候補の概念との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定ステップと
    を備えることを特徴とする語義推定方法。
  13.  入力データに含まれる複数の単語を抽出する単語抽出処理と、
     前記単語抽出処理で抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析処理と、
     単語の語義として1つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出処理と、
     前記各単語について、前記語義候補抽出処理で語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義候補の概念との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定処理と
    をコンピュータに実行させることを特徴とする語義推定プログラム。
     
PCT/JP2012/055818 2012-03-07 2012-03-07 語義推定装置、方法及びプログラム WO2013132614A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US14/366,066 US20150006155A1 (en) 2012-03-07 2012-03-07 Device, method, and program for word sense estimation
CN201280071188.8A CN104160392B (zh) 2012-03-07 2012-03-07 语义推测装置、方法
PCT/JP2012/055818 WO2013132614A1 (ja) 2012-03-07 2012-03-07 語義推定装置、方法及びプログラム
JP2014503363A JP5734503B2 (ja) 2012-03-07 2012-03-07 語義推定装置、方法及びプログラム
DE112012005998.0T DE112012005998T5 (de) 2012-03-07 2012-03-07 Vorrichtung, Verfahren und Programm zur Wortsinnschätzung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/055818 WO2013132614A1 (ja) 2012-03-07 2012-03-07 語義推定装置、方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2013132614A1 true WO2013132614A1 (ja) 2013-09-12

Family

ID=49116130

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/055818 WO2013132614A1 (ja) 2012-03-07 2012-03-07 語義推定装置、方法及びプログラム

Country Status (5)

Country Link
US (1) US20150006155A1 (ja)
JP (1) JP5734503B2 (ja)
CN (1) CN104160392B (ja)
DE (1) DE112012005998T5 (ja)
WO (1) WO2013132614A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021523A (ja) * 2015-07-09 2017-01-26 日本電信電話株式会社 用語意味コード判定装置、方法、及びプログラム
WO2019171538A1 (ja) * 2018-03-08 2019-09-12 日本電気株式会社 意味推定システム、方法およびプログラム
WO2019171537A1 (ja) * 2018-03-08 2019-09-12 日本電気株式会社 意味推定システム、方法およびプログラム
JP6976482B1 (ja) * 2020-09-02 2021-12-08 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672207B2 (en) * 2015-10-19 2017-06-06 International Business Machines Corporation System, method, and recording medium for determining and discerning items with multiple meanings
US10460229B1 (en) * 2016-03-18 2019-10-29 Google Llc Determining word senses using neural networks
CN106128454A (zh) * 2016-07-08 2016-11-16 成都之达科技有限公司 基于车联网的语音信号匹配方法
JP6727610B2 (ja) * 2016-09-05 2020-07-22 国立研究開発法人情報通信研究機構 文脈解析装置及びそのためのコンピュータプログラム
US10984026B2 (en) * 2017-04-25 2021-04-20 Panasonic Intellectual Property Management Co., Ltd. Search method for performing search based on an obtained search word and an associated search word
CN108520760B (zh) * 2018-03-27 2020-07-24 维沃移动通信有限公司 一种语音信号处理方法及终端
US11263407B1 (en) * 2020-09-01 2022-03-01 Rammer Technologies, Inc. Determining topics and action items from conversations
US11093718B1 (en) * 2020-12-01 2021-08-17 Rammer Technologies, Inc. Determining conversational structure from speech
CN113076749A (zh) * 2021-04-19 2021-07-06 上海云绅智能科技有限公司 一种文本识别方法和系统
CA3220310A1 (en) * 2021-05-17 2022-11-24 Verantos, Inc. System and method for term disambiguation
US11302314B1 (en) 2021-11-10 2022-04-12 Rammer Technologies, Inc. Tracking specialized concepts, topics, and activities in conversations
US11599713B1 (en) 2022-07-26 2023-03-07 Rammer Technologies, Inc. Summarizing conversational speech

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2009181408A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
AU2001286689A1 (en) * 2000-08-24 2002-03-04 Science Applications International Corporation Word sense disambiguation
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
WO2005020091A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. System and method for processing text utilizing a suite of disambiguation techniques
JP2006163953A (ja) * 2004-12-08 2006-06-22 Nippon Telegr & Teleph Corp <Ntt> 単語ベクトル推定方法、単語ベクトル推定装置、プログラムおよび記録媒体
US20070214125A1 (en) * 2006-03-09 2007-09-13 Williams Frank J Method for identifying a meaning of a word capable of identifying a plurality of meanings
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US9317589B2 (en) * 2008-08-07 2016-04-19 International Business Machines Corporation Semantic search by means of word sense disambiguation using a lexicon
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
CN101901210A (zh) * 2009-05-25 2010-12-01 日电(中国)有限公司 词义消歧系统和方法
US8060497B1 (en) * 2009-07-23 2011-11-15 Google Inc. Framework for evaluating web search scoring functions
CN102306144B (zh) * 2011-07-18 2013-05-08 南京邮电大学 一种基于语义词典的词语消歧方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2009181408A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIROYUKI SHINNO ET AL.: "Unsupervised Learning of Word Sense Disambiguation Rules by Estimating an Optimum Iteration Number in the EM Algorithm", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 44, no. 12, 15 December 2003 (2003-12-15), pages 3211 - 3220 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021523A (ja) * 2015-07-09 2017-01-26 日本電信電話株式会社 用語意味コード判定装置、方法、及びプログラム
WO2019171538A1 (ja) * 2018-03-08 2019-09-12 日本電気株式会社 意味推定システム、方法およびプログラム
WO2019171537A1 (ja) * 2018-03-08 2019-09-12 日本電気株式会社 意味推定システム、方法およびプログラム
JPWO2019171537A1 (ja) * 2018-03-08 2021-02-12 日本電気株式会社 意味推定システム、方法およびプログラム
JPWO2019171538A1 (ja) * 2018-03-08 2021-03-04 日本電気株式会社 意味推定システム、方法およびプログラム
US11948098B2 (en) 2018-03-08 2024-04-02 Nec Corporation Meaning inference system, method, and program
JP6976482B1 (ja) * 2020-09-02 2021-12-08 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム
WO2022049668A1 (ja) * 2020-09-02 2022-03-10 三菱電機株式会社 情報処理装置、生成方法、及び生成プログラム

Also Published As

Publication number Publication date
JP5734503B2 (ja) 2015-06-17
CN104160392B (zh) 2017-03-08
JPWO2013132614A1 (ja) 2015-07-30
DE112012005998T5 (de) 2014-12-04
CN104160392A (zh) 2014-11-19
US20150006155A1 (en) 2015-01-01

Similar Documents

Publication Publication Date Title
JP5734503B2 (ja) 語義推定装置、方法及びプログラム
JP6643555B2 (ja) 曖昧なエンティティワードに基づくテキスト処理方法及び装置
US20190354878A1 (en) Concept Analysis Operations Utilizing Accelerators
WO2020244065A1 (zh) 基于人工智能的字向量定义方法、装置、设备及存储介质
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN112368697A (zh) 经由对偶分解评估损失函数或损失函数的梯度的系统和方法
GB2572239A (en) Online dictionary extension of word vectors
CN106778878B (zh) 一种人物关系分类方法及装置
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
WO2019154411A1 (zh) 词向量更新方法和装置
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
US20240054345A1 (en) Framework for Learning to Transfer Learn
Chen et al. JarKA: Modeling attribute interactions for cross-lingual knowledge alignment
CN112749300B (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
US10796107B2 (en) Unified embeddings for translation
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
EP3769240A1 (en) Machine translation locking using sequence-based lock/unlock classification
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
WO2014087506A1 (ja) 語義推定装置、語義推定方法及び語義推定プログラム
Yazici et al. Color naming for multi-color fashion items
CN111241273A (zh) 文本数据分类方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12870699

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014503363

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14366066

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1120120059980

Country of ref document: DE

Ref document number: 112012005998

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12870699

Country of ref document: EP

Kind code of ref document: A1