WO2013132614A1

WO2013132614A1 - 語義推定装置、方法及びプログラム

Info

Publication number: WO2013132614A1
Application number: PCT/JP2012/055818
Authority: WO
Inventors: 谷垣　宏一; 光輝柴; 高山　茂伸
Original assignee: 三菱電機株式会社
Priority date: 2012-03-07
Filing date: 2012-03-07
Publication date: 2013-09-12
Also published as: JP5734503B2; CN104160392B; JPWO2013132614A1; DE112012005998T5; CN104160392A; US20150006155A1

Abstract

　教師なし学習により、語義を高い精度で推定することを目的とする。語義推定装置１００は、各単語について、語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、各単語について、計算した確率が高い概念をその単語の語義と推定する。

Description

[規則37.2に基づきISAが決定した発明の名称]　語義推定装置、方法及びプログラム

　この発明は、文書に含まれる単語について、その単語が辞書に登録された何れの語義で使われているかを推定する語義推定技術（語義の曖昧性解消技術）に関する。

　語義の推定は、機械翻訳、情報検索をはじめとする各種自然言語処理の基礎技術として多くの研究がなされており、その方式としては大きく分類して２つのアプローチがある。
　１つは、教師あり学習（あるいは半教師あり学習）を適用する方式であり、もう１つは、教師なし学習を適用する方式である。

　教師あり学習を適用する方式では、予め対象とするタスク、又はそれに類する文書データに対し、正しい語義を（通常人手で）付与したラベル付き学習データを作成しておく。そして、何らかの基準（尤度最大化、マージン最大化など）により、単語の出現文脈から語義を識別する規則をモデルに学習させる。
　教師あり学習を適用する方式として、非特許文献１には、サポートベクターマシンを用いる方式が記載されており、非特許文献２には、ナイーブベイズ法を適用する方式が記載されている。また、非特許文献３には、正しい語義が付与されていないラベルなし学習データを併用することでラベル付き学習データの必要量を削減する半教師あり学習の技術が記載されている。

　教師なし学習を適用する方式では、人手で正解を付与したラベルあり学習データを用いず、ラベルなし学習データのみから語義を識別する。
　教師なし学習を適用する方式として、特許文献１には、文書に含まれる単語の周辺に出現する共起語の語義を概念階層上で調べ、より多くの共起語と、近い階層・近い語義定義文で定義されている語義候補を探し、探した語義候補を単語の語義として採択する方式が記載されている。つまり、注目する単語の語義候補の中で、共起語の語義候補が近くに数多くある候補ほど尤もらしいとして単語の語義を推定している。

特開２０１０－２２５１３５号公報

Ｌｅａｃｏｃｋ，　Ｃ．，　Ｍｉｌｌｅｒ，　Ｇ．　Ａ．　ａｎｄ　Ｃｈｏｄｏｒｏｗ，　Ｍ．：　Ｕｓｉｎｇ　ｃｏｒｐｕｓ　ｓｔａｔｉｓｔｉｃｓ　ａｎｄ　ｗｏｒｄｎｅｔ　ｒｅｌａｔｉｏｎｓ　ｆｏｒ　ｓｅｎｓｅ　ｉｄｅｎｔｉｆｉｃａｔｉｏｎ，　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，　Ｖｏｌ．　２４，　Ｎｏ．　１，　ｐｐ．　１４７－－１６５　（１９９８）電子情報通信学会　言語理解とコミュニケーション研究会　（ＮＬＣ），　"ＳＥＮＳＥＶＡＬ－２　日本語タスク"，　黒橋禎夫，　白井清昭，　２００１Ｙａｒｏｗｓｋｙ，　Ｄ．：　Ｕｎｓｕｐｅｒｖｉｓｅｄ　ｗｏｒｄ　ｓｅｎｓｅ　ｄｉｓｃｒｉｍｉｎａｔｉｏｎ，　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，　Ｖｏｌ．　２４，　Ｎｏ．　１，　ｐｐ．　９７－－１２３　（１９９８）栗林孝之，　Ｂｏｎｄ，　Ｆ．，　黒田航，　内元清貴，　井佐原均，　神崎享子，　鳥澤健太郎：　日本語ワードネット１．０，　言語処理学会　第１６回年次大会発表論文集　（２０１０）

　しかし、非特許文献１，２に記載された教師あり学習を適用した方式や、非特許文献３に記載された半教師あり学習を適用した方式を適用するためには、文書データに対し、正しい語義を付与したラベル付き学習データを作成しておく必要がある。そのため、この方式には、学習データの作成にコストがかかる、あるいは、事前に学習データを入手できない状況では適用できないという課題がある。
　また、特許文献１に記載された教師なし学習を適用した方式は、注目する語の曖昧性だけを解消しようとする方式である。つまり、共起語の語義曖昧性を解消することなく、実際には誤った語義候補にも等しく重きを置いて、共起語の語義候補を注目する語の根拠として利用している。そのため、この方式には、語義の推定精度が悪いという課題がある。
　この発明は、教師なし学習により、語義を高い精度で推定することを目的とする。

　この発明に係る語義推定装置は、
　入力データに含まれる複数の単語を抽出する単語抽出部と、
　前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
　単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
　前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定部と
を備えることを特徴とする。

　この発明に係る語義推定装置では、複数の単語について語義を同時推定することにより、正解語義が与えられない場合や、正解語義が少量しか与えられない場合でも高い語義推定精度を実現することができる。

実施の形態１に係る語義推定装置１００の構成図。実施の形態１に係る語義推定方式の概要を示す図。文脈解析部３０により生成された出現文脈の特徴ベクトルの例を示す図。概念と単語との関係を示す図。概念の関係定義の一例であり、概念の上位（抽象）／下位（具体）関係を示す図。図５に示す階層定義に従い、ベクトルで表現した概念の例を示す図。語義割り当て確率π^ｗｉ _ｊを推定する処理の流れを示すフローチャート。ＥＭアルゴリズムを適用したことによる語義割り当て確率π^ｗ _ｊの更新と、それに伴う語義曖昧性解消の様子を示す図。語義推定装置１００のハードウェア構成の一例を示す図。

　以下、図に基づき発明の実施の形態を説明する。
　なお、以下の説明において、処理装置は後述するＣＰＵ９１１等である。記憶装置は後述するＲＯＭ９１３，ＲＡＭ９１４，磁気ディスク装置９２０等である。つまり、処理装置や記憶装置はハードウェアである。
　また、以下の説明において、ｗｉが上付き文字や下付き文字として記載されている場合、このｗｉはｗ_ｉを意味する。

　実施の形態１．
　実施の形態１では、複数のデータベースのテーブルスキーマを入力テキストデータ１０とし、テーブルスキーマを構成する単語の語義を推定する例を用いて、語義推定方式について説明する。
　テーブルスキーマを対象に語義を推定する具体的な用途としては、例えば、企業におけるデータ統合がある。企業には、過去個別に構築され稼働している複数の業務アプリケーションの間で、データベースのデータを統合したいというニーズがある。データの統合を実現するためには、複数のデータベースの間でどの項目がどの項目に対応するかを判別する必要がある。従来、項目間の対応判別は人手で行われてきた。ここに語義推定方式を用いることにより、異なった名称の項目間の対応関係の有無を判定する作業を支援し、作業の省力化を図ることが可能である。

　図１は、実施の形態１に係る語義推定装置１００の構成図である。
　入力テキストデータ１０は、複数のデータベースの複数のテーブルスキーマである。
　単語抽出部２０は、処理装置により、テーブルスキーマに定義されたテーブル名やカラム名を単語単位に分割し、分割した単語を語義推定対象として抽出する。
　文脈解析部３０は、処理装置により、単語抽出部２０が抽出した各単語の出現文脈の特徴を、テーブルスキーマから抽出する。
　語義候補抽出部４０は、処理装置により、単語抽出部２０が抽出した各単語に対し、概念辞書５０を参照して語義候補を抽出する。
　概念辞書５０は、単語の語義として１つ以上の概念を記憶装置に記憶するとともに、概念間の階層的な関係を記憶装置に記憶している。
　語義推定部６０は、単語抽出部２０が抽出した各単語について、語義候補抽出部４０が抽出した語義のいずれが尤もらしいか推定する。この際、語義推定部６０は、各単語について、その単語と他の単語とについて文脈解析部３０が抽出した文脈の特徴の近さと、その単語の語義候補と他の単語の語義候補とについての概念の近さとに基づいて、語義を推定する。そして、語義推定部６０は、各単語について推定した語義を、推定語義データ７０として出力する。

　図２は、実施の形態１に係る語義推定方式の概要を示す図である。
　入力テキストデータ１０は、ここではデータベースのテーブル構造を定義したスキーマである。図２では、一例として、“ＳＨＩＰ＿ＴＯ”，“ＤＥＬＩＶＥＲ＿ＴＯ”というカラムを含む、“ＯＲＤＥＲ”というテーブルのスキーマが入力された状態を示している。このようなテーブルスキーマが、実際には複数入力される。

　単語抽出部２０は、入力されたテーブルスキーマから、単語を抽出する。ここでは最も単純な方法により、アンダースコア“＿”を区切り文字として単語分割を行う。その結果、図２では“ＯＲＤＥＲ”，“ＳＨＩＰ”，“ＴＯ”，“ＤＥＬＩＶＥＲ”の４種類の単語が抽出される。抽出された単語を全て、語義の推定対象（分類対象語）として扱う。

　文脈解析部３０は、単語抽出部２０による単語分割の結果に基づき、各分類対象語の出現文脈の特徴を抽出し、特徴ベクトルを生成する。
　単語の出現文脈の特徴とは、その単語がテーブルスキーマにおいてどのような使われ方をしているかを表すものである。ここでは、単語の出現文脈の特徴として、（１）出現箇所がテーブル名であるかカラム名であるかの種別、（２）分類対象語の直前に出現する単語、（３）分類対象語の直後に出現する単語、（４）親テーブル名に出現する単語（分類対象語の出現箇所がカラム名の場合のみ）、（５）子カラム名に出現する語（分類対象語の出現箇所がテーブル名の場合のみ）の５つを用いることとする。

　図３は、文脈解析部３０により生成された出現文脈の特徴ベクトルの例を示す図である。
　図３では、各行は分類対象語を表しており、各列は特徴を構成する素性を表している。また、図３では、素性の値が１のときはその特徴を有しており、０のときはその特徴を有していないことを表す。図３から、分類対象語“ＳＨＩＰ”と“ＤＥＬＩＶＥＲ”の出現文脈ベクトルは一致しており、互いに良く似た使われ方をしていることが分かる。

　語義候補抽出部４０は、各分類対象語を概念辞書５０で参照し、語義の候補となる概念を全て抽出する。
　概念辞書５０としては、例えば、ＷｏｒｄＮｅｔを用いる。ＷｏｒｄＮｅｔではｓｙｎｓｅｔと呼ぶ概念を１つの単位として、その概念に相当する単語や、概念間の上位／下位関係などが定義されている。ＷｏｒｄＮｅｔの詳細については例えば非特許文献４に記載されている。

　図４、図５は、概念辞書５０の例を示す図である。
　図４は、概念と単語との関係を示す図である。つまり、図４は、語義の定義例を示す図である。
　例えば、概念ＩＤ０００３は日本語の「船」の名称を持つ概念であり、対応する単語として、“ｓｈｉｐ”，“ｖｅｓｓｅｌ”などがあることが定義されている。逆に単語“ｓｈｉｐ”から見た場合には、語義としてはＩＤ０００３「船」、００１０「肩書き」、００１７「出荷」の３つの概念が登録されており、曖昧である。同様にして単語“ｄｅｌｉｖｅｒ”に対しても、語義としてＩＤ００１３「出産」、００１９「配達」の２つの概念が登録されており、曖昧である。つまり、単語“ｓｈｉｐ”や“ｄｅｌｉｖｅｒ”が、何れの語義で用いられているかは文脈から識別する必要がある。

　図５は、概念の関係定義の一例であり、概念の上位（抽象）／下位（具体）関係を示す図である。
　階層関係を辿って近い距離にある概念どうしは、離れた概念よりも類似した意味を有している。例えば、図５では、ＩＤ００１７の概念「出荷」はＩＤ００１９の概念「配達」と姉妹関係の階層にあり、例えば他のＩＤ００１３の概念「出産」よりも類似した意味を有していると定義されている。

　語義候補抽出部４０は、概念辞書で単語の語義として登録されている概念を抽出するとともに、抽出した概念を語義の特徴ベクトルに変換する。語義の特徴ベクトルに変換することで、概念間の近さを、出現文脈の間の近さと同様にベクトル計算で扱えるようになる。

　図６は、図５に示す階層定義に従い、ベクトルで表現した概念の例を示す図である。
　図６では、各行が、左端に表示した概念ＩＤのベクトルを表している。ベクトルの各成分は概念階層を構成する概念であり、その概念またはその上位概念に相当するときは１、そうでない場合は０が与えられる。例えば、ＩＤ００１７の概念は、上位概念としてＩＤ０００１，ＩＤ００１１，ＩＤ００１６を持つから、自身のＩＤ００１７とそれら３つの概念とを含む、合計４つの成分に１が与えられている。
　図６から、概念ＩＤ００１７「出荷」とＩＤ００１９「配達」が、他の概念と比べて類似したベクトルとして表現されていることが分かる。

　語義推定部６０は、上述した出現文脈の特徴ベクトルφ_ｃと、語義の特徴ベクトルφ_ｔとに基づき、分類対象語の語義を推定する。
　図２では、上記２つのベクトルで構成される特徴空間を、模式的に２次元の平面で示している。分類対象語ｘをこの平面上にマッピングすると、分類対象語ｘの出現文脈の特徴ベクトルφ_ｃ（ｘ）の座標は一意に定まる。しかし、分類対象語ｘの語義は曖昧性があることから、分類対象語ｘの語義の特徴ベクトルφ_ｔ（ｘ）の座標は複数箇所に確率的に位置付けられる仮説となる。平面上にマッピングされた仮説を図２では黒い点で示した。例えば、図２の分類対象語“ＳＨＩＰ”は、語義の特徴ベクトルφ_ｔ側に曖昧性があり、３箇所の点に仮説が置かれている。

　このような各語の語義の曖昧性を教師なし学習により解消するため、ここでは、以下の２つの仮定を置く。
＜仮定１＞１つの見出し語は出現文脈に関わらず同じ語義で用いられる。
＜仮定２＞出現文脈が近い単語の語義に近い語義ほど尤もらしい。
　仮定１は、限定されたタスクドメインのスキーマを扱う場合においては単語の多義性が発生せず、単語に一貫した語義を割り当てることができるとするものである。
　仮定２は、仮定１における各語に閉じた一貫性の仮定が、さらに出現文脈の類似した語群まで対象を広げた場合においても、ゆるやかな連続性を持って成立することを期待するものである。

　上記２つの仮定に基づき、ここでは、分類対象語ｘに語義ｓを割り当てる語義仮説（ｘ，ｓ）の同時確率ｐ（ｘ，ｓ）を数１１により求める。

　ここで、Ｚは正規化のための値であり、全ての分類対象語ｘと全ての語義ｓについての同時確率ｐ（ｘ，ｓ）の合計が１になるように設定された値である。Ｎは前記入力データに含まれる分類対象語ｘの数である。ｘ_ｉはｉ番目の分類対象語である。ｗ_ｉは出現する文脈を無視した分類対象語ｘ_ｉである。Ｓ_ｗｉは単語ｗ_ｉの語義候補の集合である。ｓ_ｊは、集合Ｓ_ｗｉに含まれる概念である。π^ｗｉ _ｊは単語ｗ_ｉの語義がｓ_ｊである確率（語義割り当て確率）である。σ_ｃ，σ_ｔはそれぞれ、出現文脈の特徴空間の分散、語義の特徴空間の分散であり、所定の値が設定値として与えられる。また、数１１において、ｅｘｐ（・）はガウシアンカーネルであり、∥・∥^２は（差分ベクトルの）２次のノルムである。
　仮定１により、語義割り当て確率π^ｗｉ _ｊは出現文脈に依存しない。なお、単語ｗ_ｉとは、例えば単語“ＳＨＩＰ”を表しており、この場合の語義ｓ_ｊとは「船」「肩書き」「出荷」を表している。語義割り当て確率π^ｗｉ _ｊは、単語ｗ_ｉの語義候補に対する割り当て確率なので、単語ｗ_ｉの語義候補の集合をＳ_ｗｉとするとき、集合Ｓ_ｗｉの全ての要素ｓ_ｊ∈Ｓ_ｗｉについての総和は１である（数１２）。

　つまり、ここでは、同時確率ｐ（ｘ，ｓ）を、全ての分類対象語ｘ_ｉ（ｉ＝１，．．．，Ｎ）の全ての語義仮説ｓ_ｊ（∈Ｓ_ｗｉ）に基づき、語義の割り当て確率π^ｗｉ _ｊで重み付けしたカーネル密度推定によって求める。

　図７は、語義割り当て確率π^ｗｉ _ｊを推定する処理（確率計算処理）の流れを示すフローチャートである。
　ＥＭアルゴリズムを適用することにより、語義割り当て確率π^ｗｉ _ｊを全ての分類対象語に対し同時に推定することができる。
　＜Ｓ１０：準備ステップ＞
　語義推定部６０は、Ｓ３０以降の反復における計算を効率化するため、数１１において、語義割り当て確率π^ｗｉ _ｊの更新に無関係なガウシアンカーネルｅｘｐ（・）の値を計算し、記憶装置に記憶しておく。
　＜Ｓ２０：初期化ステップ＞
　語義推定部６０は、全ての単語ｗに対し、語義割り当て確率π^ｗ _ｊに初期値１／｜Ｓ_ｗ｜を設定する。ここで、｜Ｓ_ｗ｜は集合Ｓ_ｗの要素数を表す。
　＜Ｓ３０：収束判定ステップ＞
　語義推定部６０は、全ての分類対象語ｘに対する語義尤度の合計Ｌを数１３で求める。

　そして、語義推定部６０は、前回反復時からの語義尤度の合計Ｌの増分が予め与えた閾値θ未満なら収束と判定して学習を終了する。一方、語義推定部６０は、未収束なら処理をＳ４０へ進めて、語義割り当て確率π^ｗ _ｊの再計算と更新を反復する。
　＜Ｓ４０：Ｅステップ＞
　語義推定部６０は、現在の語義割り当て確率^{（ｏｌｄ）}π^ｗ _ｊによる同時確率ｐ（ｘ，ｓ）を、数１１により全ての分類対象語ｘの全ての語義候補ｓに対して求める。ガウシアンカーネルｅｘｐ（・）の値はＳ１０で記憶装置に記憶しておいた値を利用する。
　＜Ｓ５０：Ｍステップ＞
　語義推定部６０は、数１４により新しい語義割り当て確率^{（ｎｅｗ）}π^ｗ _ｊを計算し、Ｓ３０に処理を戻す。

　ここで、Ｘ_ｗは入力テキストデータ１０に含まれる分類対象語ｘの集合である。

　図８は、ＥＭアルゴリズムを適用したことによる語義割り当て確率π^ｗ _ｊの更新と、それに伴う語義曖昧性解消の様子を示す図である。
　図８は、図２において左から右の状態へとＥＭアルゴリズムのπ^ｗ _ｊ更新ステップの反復により移り変わる動作のシミュレーション結果を示している。図２の左に示すグラフが、図８の左下に示すＥＭアルゴリズム反復回数０回の位置（曖昧性解消前）に対応しており、図２の右に示すグラフが、図８の右上に示すＥＭアルゴリズム反復回数４０回の位置（曖昧性解消後）に対応している。但し、図８では、簡単のため、ガウス分布は出現文脈が互いに近い、“ＳＨＩＰ”の語義候補を示す３つの山と、“ＤＥＬＩＶＥＲ”の語義候補を示す２つの山のみを示している。
　図８から、初期状態においては、単語“ＳＨＩＰ”の３つの語義（船、肩書き、出荷）はそれぞれ同程度に確からしく、単語“ＤＥＬＩＶＥＲ”の２つの語義（出産、配達）もそれぞれ同程度に確からしい。しかし、互いに近い位置にある“ＳＨＩＰ”の語義「出荷」と、“ＤＥＬＩＶＥＲ”の語義「配達」は互いにガウシアンカーネルによる尤度の裾が重なり合うため、他の語義に比べて尤もらしいと推定することができる。このように、出現文脈が類似した他の単語の他の語義との類似性に基づいて予測した全体の確率密度により、各単語の語義期待値を推定し、推定した各単語の語義期待値と整合するよう各語の語義割り当て確率π^ｗ _ｊの更新を繰り返す。これにより、各語の語義割り当て確率π^ｗ _ｊの値は、図８のように変化していき、最終的にそれぞれの単語の尤もらしい語義の確率が高くなる。

　語義推定部６０は、語義割り当て確率π^ｗ _ｊの推定が完了したら、各分類対象語ｗについて最尤の語義ｓ_ｊ＊を数１５により選択し、推定語義データ７０として出力する。

　以上のように、語義推定装置１００は、出現文脈の特徴が近い単語の間で近い語義割り当てを発見する。そのため、語義の正解が与えられないデータから、語義を推定することができる。
　したがって、教師あり学習を用いる方法や半教師あり学習を用いる方式における課題である、対象とするタスクのテキストデータに対し、正しい語義を通常人手で付与したラベル付き学習データを作成しておく必要があるという課題を解決することができる。その結果、学習データ作成コストがかかるという課題や、事前に学習データを入手することが状況ではこの方式を適用できないという課題を解決することが可能である。

　また、語義推定装置１００は、ＥＭアルゴリズムを用いることにより、分類対象となる全ての単語の語義割り当て確率を反復更新することによって、全ての単語の曖昧性を同時・漸進的に解消する。つまり、他の単語の尤もらしい語義に基づいて、自身の語義を推定する。
　したがって、特許文献１に記載された方式における課題である、実際には誤った語義候補にも等しく重きを置いて、共起語の語義候補を注目する語の根拠として利用するため、語義の推定精度が悪いという課題を解決することが可能である。

　よって、語義推定装置１００によれば、従来の語義推定技術の課題を解決し、ラベル付き学習データが得られない条件においても、教師なし学習により、語義を高い精度で推定することが可能である。

　なお、上記説明では、分類対象語が概念辞書５０に登録された単語（登録語）であり、概念辞書５０を参照して語義の候補が得られることを前提としていた。しかし、分類対象語が概念辞書５０に登録されていない単語（未登録語）であった場合にも、上記方式を適用することが可能である。
　例えば、登録語“ＤＥＬＩＶＥＲ”の短縮表記“ＤＥＬＩＶ”は未登録語である。この場合には、未登録語である分類対象語の表記文字列と、概念辞書５０の登録語の文字列とに対し、公知の編集距離等に基づき文字列間類似度を求める。そして、予め定めた閾値よりも高い類似度を持つ全ての登録語を抽出し、抽出した登録語の語義として記憶された概念を語義候補とすればよい。
　この際、抽出した登録語との文字列間類似度に応じた重みを用いて同時確率ｐ（ｘ，ｓ）を計算するようにしてもよい。例えば、未登録語である分類対象語ｗ_ｉの語義ｓ_ｊが、分類対象語ｗ_ｉと類似する登録語ｗ＾_ｉの語義として登録された概念であったとする。そして、分類対象語ｗ_ｉと登録語ｗ＾_ｉとの文字列間類似度に応じた重みがω^ｉ _ｊであるとする。この場合、数１において、語義割り当て確率π^ｗｉ _ｊを重みω^ｉ _ｊを乗じたπ^ｗｉ _ｊω^ｉ _ｊにすればよい。つまり、抽出した登録語との文字列間類似度が高いほど、語義割り当て確率π^ｗ _ｊが高くなるようにしてもよい。

　また、上記説明では、入力テキストデータ１０に含まれる全ての単語について語義を推定する動作について説明した。しかし、これに限定されるものではなく、例えば、入力テキストデータ１０に含まれる一部の単語について正しい語義が予め定まっている場合にも適用することができる。
　この場合には、上述した動作において、正しい語義が与えられている単語については、正しい語義ｓ_ｊの語義割り当て確率π^ｗ _ｊを１に固定すればよい。そのようにして、上記方式を半教師あり学習の枠組みで適用し、完全な教師なし学習で適用する場合に比べて高精度な語義推定を行うことも可能である。

　また、上記説明では、語義割り当て確率π^ｗ _ｊを０から１の間の連続値として求めた。しかし、これに限定されるものではなく、例えば、数４の代わりに、数４によって計算されたπ^ｗ _ｊの最大値を与えるｊ＾のみ確率π^ｗ _ｊ＾＝１とし、それ以外のｊに対してはπ^ｗ _ｊ＝０としてもよい。

　また、上記説明では、数１において総和を求める対象を全ての分類対象語の全ての語義仮説とした。しかし、これに限定されるものではなく、例えば、語義の特徴ベクトルが近い所定のＫ個（Ｋは１以上の整数）に対象を限定して総和を取ってもよい。

　また、上記説明では、出現文脈の特徴ベクトルを共起語の有無によって単純に表現した。しかし、これに限定されるものではなく、例えば、共起語について辞書を参照してその語義候補となる概念を抽出し、表現形や見出し形で記述された共起語を抽出した概念に置き換えて文脈を記述し直した上で、出現文脈の特徴ベクトルを表現してもよい。具体的には、共起語に“ｓｈｉｐ”という単語があった場合、“ｓｈｉｐ”を「船」、「肩書」、「出荷」という各概念に置き換えて文脈を記述し直し、出現文脈の特徴ベクトルを表現する。これにより、例えば、共起語に“ｓｈｉｐ”という単語があった文脈と、共起語に“ｖｅｓｓｅｌ”という単語があった文脈との出現文脈の特徴ベクトルが近いベクトルになる。

　また、上記説明では、文脈および語義の近さをガウシアンカーネルによりモデル化した。しかし、これに限定されるものではなく、例えば、語義の近さを単純に概念辞書の階層を辿ったときのリンクの数により代用してもよい。

　図９は、語義推定装置１００のハードウェア構成の一例を示す図である。
　図９に示すように、語義推定装置１００は、プログラムを実行するＣＰＵ９１１（Ｃｅｎｔｒａｌ・Ｐｒｏｃｅｓｓｉｎｇ・Ｕｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。ＣＰＵ９１１は、バス９１２を介してＲＯＭ９１３、ＲＡＭ９１４、ＬＣＤ９０１（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、キーボード９０２（Ｋ／Ｂ）、通信ボード９１５、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置９２０（固定ディスク装置）の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。磁気ディスク装置９２０は、所定の固定ディスクインタフェースを介して接続される。

　磁気ディスク装置９２０又はＲＯＭ９１３などには、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。プログラム群９２３のプログラムは、ＣＰＵ９１１、オペレーティングシステム９２１、ウィンドウシステム９２２により実行される。

　プログラム群９２３には、上記の説明において「単語抽出部２０」、「文脈解析部３０」、「語義候補抽出部４０」、「語義推定部６０」等として説明した機能を実行するソフトウェアやプログラムやその他のプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。
　ファイル群９２４には、上記の説明において「入力テキストデータ１０」、「概念辞書５０」、「推定語義データ７０」等の情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵ９１１の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵ９１１の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。

　また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、その他光ディスク等の記録媒体やＩＣチップに記録される。また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体や電波によりオンライン伝送される。
　また、上記の説明において「～部」として説明するものは、「～回路」、「～装置」、「～機器」、「～手段」、「～機能」であってもよく、また、「～ステップ」、「～手順」、「～処理」であってもよい。また、「～装置」として説明するものは、「～回路」、「～機器」、「～手段」、「～機能」であってもよく、また、「～ステップ」、「～手順」、「～処理」であってもよい。さらに、「～処理」として説明するものは「～ステップ」であっても構わない。すなわち、「～部」として説明するものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ＲＯＭ９１３等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、プログラムは、上記で述べた「～部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「～部」の手順や方法をコンピュータ等に実行させるものである。

　１０　入力テキストデータ、２０　単語抽出部、３０　文脈解析部、４０　語義候補抽出部、５０　概念辞書、６０　語義推定部、７０　推定語義データ、１００　語義推定装置。

Claims

　入力データに含まれる複数の単語を抽出する単語抽出部と、
　前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
　単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
　前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義候補の概念との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定部と
を備えることを特徴とする語義推定装置。
　前記語義推定部は、文脈の特徴が近いほど前記評価値が高くなるように、選択した概念と他の単語の語義とが近いほど前記評価値が高くなるように、前記確率が高いほど前記評価値が高くなるように、前記評価値を計算し、計算した評価値が高いほど前記確率が高くなるように、前記確率を再計算する
ことを特徴とする請求項１に記載の語義推定装置。
　前記語義推定部は、選択した単語ｘ、選択した概念ｓとした場合の評価値として同時確率ｐ（ｘ，ｓ）を数１により計算する
ことを特徴とする請求項２に記載の語義推定装置。

ここで、Ｚは所定の値である。Ｎは前記入力データに含まれる単語数である。ｘ_ｉはｉ番目の単語である。ｗ_ｉは出現する文脈を無視した単語ｘ_ｉである。Ｓ_ｗｉは単語ｗ_ｉの語義候補の集合である。ｓ_ｊは、集合Ｓｗ_ｉに含まれる概念である。π^ｗｉ _ｊは単語ｗ_ｉの語義がｓ_ｊである確率である。φ_ｃは文脈の特徴を表すベクトルである。φ_ｔは概念を表すベクトルである。σ_ｃ，σ_ｔはそれぞれ所定の値である。
　前記語義推定部は、単語ｘが概念ｓとなる確率π^ｗ _ｓを数２により計算する
ことを特徴とする請求項３に記載の語義推定装置。

ここで、Ｘ_ｗは前記入力データに含まれる単語の集合である。
　前記語義推定部は、前記確率計算処理において合計尤度Ｌを数３により計算し、ｎ回目（ｎは１以上の整数）の前記確率計算処理で計算された合計尤度Ｌに対する、ｎ＋１回目の前記確率計算処理で計算された合計尤度Ｌの増分が、所定の閾値θ未満になるまで、前記確率計算処理を繰り返す
ことを特徴とする請求項４に記載の語義推定装置。
　前記語義推定部は、前記各単語について、数２によって計算された前記確率π^ｗ _ｓが最も高い語義候補の前記確率π^ｗ _ｓを１に置き換え、他の語義候補の前記確率π^ｗ _ｓを０に置き換えて、前記合計尤度Ｌの計算と、前記評価値の再計算とを行う
ことを特徴とする請求項５に記載の語義推定装置。
　前記文脈の特徴は、選択した単語の周辺の単語と、選択した単語を含む文字列に関連付けられた他の文字列に含まれる単語との少なくともいずれかを含む
ことを特徴とする請求項１から６までのいずれかに記載の語義推定装置。
　前記文脈の特徴は、選択した単語の周辺の単語の語義と、選択した単語を含む文字列に関連付けられた他の文字列に含まれる単語の語義との少なくともいずれかを含む
ことを特徴とする請求項１から７までのいずれかに記載の語義推定装置。
　前記概念辞書に単語の語義として記憶された概念にはグラフ構造により表される階層関係が設定されており、２つの概念間の近さはその概念間のリンクの数に基づき決定される
ことを特徴とする請求項１から８までのいずれかに記載の語義推定装置。
　前記語義候補抽出部は、前記単語抽出部が抽出した単語が前記概念辞書に登録されていない場合、その単語を構成する文字列との類似度が所定以上の単語を前記概念辞書から特定して、特定した単語について語義として記憶された各概念を前記単語抽出部が抽出した単語の語義候補として抽出する
ことを特徴とする請求項１から９までのいずれかに記載の語義推定装置。
　前記語義推定部は、一部の単語の語義が予め与えられた場合、その単語について、語義候補のうち与えられた語義に対応する語義候補の前記確率を１に固定し、他の語義候補の前記確率を０に固定する
ことを特徴とする請求項１から１０までのいずれかに記載の語義推定装置。
　処理装置が、入力データに含まれる複数の単語を抽出する単語抽出ステップと、
　処理装置が、前記単語抽出ステップで抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析ステップと、
　処理装置が、単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出ステップと、
　処理装置が、前記各単語について、前記語義候補抽出ステップで語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義候補の概念との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定ステップと
を備えることを特徴とする語義推定方法。
　入力データに含まれる複数の単語を抽出する単語抽出処理と、
　前記単語抽出処理で抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析処理と、
　単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出処理と、
　前記各単語について、前記語義候補抽出処理で語義候補として抽出した各概念を語義とした場合の評価値を、選択した単語と他の単語との文脈の特徴の近さと、選択した概念と他の単語の語義候補の概念との近さと、選択した単語が選択した語義となる確率とから計算し、計算した評価値に基づき前記確率を再計算する確率計算処理を複数回実行して、前記各単語について、計算した確率が高い概念をその単語の語義と推定する語義推定処理と
をコンピュータに実行させることを特徴とする語義推定プログラム。