WO2014087506A1

WO2014087506A1 - 語義推定装置、語義推定方法及び語義推定プログラム

Info

Publication number: WO2014087506A1
Application number: PCT/JP2012/081562
Authority: WO
Inventors: 谷垣　宏一
Original assignee: 三菱電機株式会社
Priority date: 2012-12-05
Filing date: 2012-12-05
Publication date: 2014-06-12

Abstract

　教師なし学習により、語義を高い精度で推定することを目的とする。語義推定装置１００は、各単語について、語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義との距離と、文脈の特徴についてのバンド幅である文脈バンド幅と、概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる語義確率とから計算し、計算した確率密度に基づき前記文脈バンド幅と前記概念バンド幅と前記確率とを再計算する計算処理を複数回実行して、各単語について、計算した確率密度が高い概念をその単語の語義と推定する。

Description

語義推定装置、語義推定方法及び語義推定プログラム

　この発明は、文書に含まれる単語について、その単語が辞書に登録された何れの語義で使われているかを推定する語義推定技術（語義の曖昧性解消技術）に関する。

　語義の推定は、機械翻訳、情報検索をはじめとする各種自然言語処理の基礎技術として多くの研究がなされており、その方式としては大きく分類して２つのアプローチがある。
　１つは、教師あり学習（あるいは半教師あり学習）を適用する方式であり、もう１つは、教師なし学習を適用する方式である。

　教師あり学習を適用する方式では、予め対象とするタスク、又はそれに類する文書データに対し、正しい語義を（通常人手で）付与したラベル付き学習データを作成しておく。そして、尤度最大化、マージン最大化などの基準により、単語の出現文脈から語義を識別する規則をモデルに学習させる。
　教師あり学習を適用する方式として、非特許文献１には、サポートベクターマシンを用いる方式が記載されている。非特許文献２には、ナイーブベイズ法を適用する方式が記載されている。非特許文献３には、決定リストを用いる方法や、決定木、ニューラルネットワーク、ｋ最近傍法を用いる方法が記載されている。また、非特許文献３には、正しい語義が付与されていないラベルなし学習データを併用することでラベル付き学習データの必要量を削減する半教師あり学習の技術が記載されている。

　教師なし学習を適用する方式では、人手で正解を付与したラベルあり学習データを用いず、ラベルなし学習データのみから語義を識別する。
　教師なし学習を適用する方式として、特許文献１には、文書に含まれる単語の周辺に出現する共起語の語義を概念階層上で調べ、より多くの共起語と、近い階層・近い語義定義文で定義されている語義候補を探し、探した語義候補を単語の語義として採択する方式が記載されている。つまり、注目する単語の語義候補の中で、共起語の語義候補が近くに数多くある候補ほど尤もらしいとして単語の語義を推定している。

特開２０１０－２２５１３５号公報特開２０１２－４３２２１号公報特開２０１０－１３４６３２号公報

Ｌｅａｃｏｃｋ，　Ｃ．，　Ｍｉｌｌｅｒ，　Ｇ．　Ａ．　ａｎｄ　Ｃｈｏｄｏｒｏｗ，　Ｍ．：　Ｕｓｉｎｇ　ｃｏｒｐｕｓ　ｓｔａｔｉｓｔｉｃｓ　ａｎｄ　ｗｏｒｄｎｅｔ　ｒｅｌａｔｉｏｎｓ　ｆｏｒ　ｓｅｎｓｅ　ｉｄｅｎｔｉｆｉｃａｔｉｏｎ，　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，　Ｖｏｌ．　２４，　Ｎｏ．　１，　ｐｐ．　１４７－－１６５　（１９９８）電子情報通信学会　言語理解とコミュニケーション研究会　（ＮＬＣ），　"ＳＥＮＳＥＶＡＬ－２　日本語タスク"，　黒橋禎夫，　白井清昭，　２００１Ｒ．　Ｎａｖｉｇｌｉ，　"Ｗｏｒｄ　Ｓｅｎｓｅ　Ｄｉｓａｍｂｉｇｕａｔｉｏｎ：　ａ　Ｓｕｒｖｅｙ"，　ＡＣＭ　Ｃｏｍｐｕｔｉｎｇ　Ｓｕｒｖｅｙｓ，４１（２），　ＡＣＭ　Ｐｒｅｓｓ，　ｐｐ．　１－６９　（２００９）小嵜耕平，新保仁，小町守，松本裕治，"ハブを作らないグラフ構築法を用いた半教師あり語義曖昧性解消"，情報処理学会第１９９回自然言語処理研究会．Ｖｏｌ．２０１０－ＮＬ１９９，Ｎｏ．１９　（２０１０）

　しかし、非特許文献１，２に記載された教師あり学習を適用した方式や、非特許文献３に記載された半教師あり学習を適用した方式を適用するためには、文書データに対し、正しい語義を付与したラベル付き学習データを作成しておく必要がある。そのため、この方式には、学習データの作成にコストがかかる、あるいは、事前に学習データを入手できない状況では適用できないという課題がある。
　また、特許文献１に記載された教師なし学習を適用した方式は、注目する語の曖昧性だけを解消しようとする方式である。つまり、共起語の語義曖昧性を解消することなく、実際には誤った語義候補にも等しく重きを置いて、共起語の語義候補を注目する語の根拠として利用している。そのため、この方式には、語義の推定精度が悪いという課題がある。
　この発明は、教師なし学習により、語義を高い精度で推定することを目的とする。

　この発明に係る語義推定装置は、
　カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定装置であり、
　入力データに含まれる複数の単語を抽出する単語抽出部と、
　前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
　単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
　前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定部と
を備えることを特徴とする。

　この発明に係る語義推定装置では、バンド幅を最適化することにより、バンド幅の局所的不一致による語義の推定精度の低下を起こすことなく、語義の推定精度を高くすることができる。

実施の形態１に係る語義推定装置１００の構成図。実施の形態１に係る語義推定方式の概要を示す図。文脈解析部３０により生成された出現文脈の特徴ベクトルの例を示す図。概念と単語との関係を示す図。概念の関係定義の一例であり、概念の上位（抽象）／下位（具体）関係を示す図。図５に示す階層定義に従い、ベクトルで表現した概念の例を示す図。語義を推定する処理の流れを示すフローチャート。本実験で用いた乱数データの分布を示す図。本実験で用いたデータの正解語義を示す図。語義バンド幅及び概念バンド幅を図９に示す左下の正解語義の分散に合わせて設定した結果を示す図。語義バンド幅及び概念バンド幅を最適値に設定した結果を示す図語義バンド幅及び概念バンド幅を図９に示す右上の正解語義の分散に合わせて設定した結果を示す図。語義推定装置１００による語義推定結果を示す図。語義推定装置１００のハードウェア構成の一例を示す図。

　実施の形態１．
　実施の形態１では、複数のデータベースのテーブルスキーマを入力テキストデータ１０とし、テーブルスキーマを構成する単語の語義を推定する例を用いて、語義推定方式について説明する。
　テーブルスキーマを対象に語義を推定する具体的な用途としては、例えば、企業におけるデータ統合がある。企業には、過去個別に構築され稼働している複数の業務アプリケーションの間で、データベースのデータを統合したいというニーズがある。データの統合を実現するためには、複数のデータベースの間でどの項目がどの項目に対応するかを判別する必要がある。従来、項目間の対応判別は人手で行われてきた。ここに語義推定方式を用いることにより、異なった名称の項目間の対応関係の有無を判定する作業を支援し、作業の省力化を図ることが可能である。
　但し、本発明方式の適用対象はテーブルスキーマに限定するものではなく、従来の語義曖昧性解消技術と同様、自然言語で記述されたテキスト一般に適用可能である。

　図１は、実施の形態１に係る語義推定装置１００の構成図である。
　語義推定装置１００は、単語抽出部２０、文脈解析部３０、語義候補抽出部４０、概念辞書５０、語義推定部６０、バンド幅罰則設定部７０を備える。
　入力テキストデータ１０は、複数のデータベースの複数のテーブルスキーマである。
　単語抽出部２０は、処理装置により、テーブルスキーマに定義されたテーブル名やカラム名を単語単位に分割し、分割した単語を語義推定対象として抽出する。
　文脈解析部３０は、処理装置により、単語抽出部２０が抽出した各単語の出現文脈の特徴を、テーブルスキーマから抽出する。
　語義候補抽出部４０は、処理装置により、単語抽出部２０が抽出した各単語に対し、概念辞書５０を参照して語義候補を抽出する。
　概念辞書５０は、単語の語義として１つ以上の概念を記憶装置に記憶するとともに、概念間の階層的な関係を記憶装置に記憶している。
　語義推定部６０は、処理装置により、カーネル密度推定を用いて、単語抽出部２０が抽出した各単語について、語義候補抽出部４０が抽出した語義のいずれが尤もらしいか推定する。そして、語義推定部６０は、各単語について推定した語義を、推定語義データ８０として出力する。
　バンド幅罰則設定部７０は、処理装置により、語義推定部６０が用いるカーネル密度推定におけるバンド幅に制限を設定する。

　語義推定部６０は、文脈バンド幅記憶部６１、概念バンド幅記憶部６２、語義確率記憶部６３、仮説評価部６４、評価値記憶部６５、パラメータ更新部６６、推定語義出力部６７を備える。
　文脈バンド幅記憶部６１は、カーネル密度推定におけるバンド幅であって、文脈の特徴についてのバンド幅である文脈バンド幅を記憶する記憶装置である。概念バンド幅記憶部６２は、カーネル密度推定におけるバンド幅であって、概念の距離についてのバンド幅である概念バンド幅を記憶する記憶装置である。語義確率記憶部６３は、選択した単語が選択した語義となる確率である語義確率を記憶する記憶装置である。
　仮説評価部６４は、各単語について、その単語と他の単語とについて文脈解析部３０が抽出した文脈の特徴の距離と、その単語の語義候補と他の単語の語義候補とについての概念の距離と、文脈バンド幅記憶部６１が記憶した文脈バンド幅と、概念バンド幅記憶部６２が記憶した概念バンド幅と、語義確率記憶部６３が記憶した語義確率とに基づいて、確率密度を評価値として計算する。
　評価値記憶部６５は、仮説評価部６４が計算した確率密度を記憶する記憶装置である。
　パラメータ更新部６６は、評価値記憶部６５が記憶した確率密度に基づき、バンド幅罰則設定部７０が設定した制限を考慮した上で、文脈バンド幅記憶部６１が記憶した文脈バンド幅、概念バンド幅記憶部６２が記憶した概念バンド幅、語義確率記憶部６３が記憶した語義確率を更新する。
　推定語義出力部６７は、仮説評価部６４による確率密度の計算とパラメータ更新部６６による文脈バンド幅、概念バンド幅、語義確率の更新との計算処理が複数回繰り返された後、各単語について、評価値記憶部６５に記憶された確率密度が高い概念をその単語の語義とした推定語義データ８０を出力する。

　図２は、実施の形態１に係る語義推定方式の概要を示す図である。
　入力テキストデータ１０は、ここではデータベースのテーブル構造を定義したスキーマである。図２では、一例として、“ＳＨＩＰ＿ＴＯ”，“ＤＥＬＩＶＥＲ＿ＴＯ”というカラムを含む、“ＯＲＤＥＲ”というテーブルのスキーマが入力された状態を示している。このようなテーブルスキーマが、実際には複数入力される。

　単語抽出部２０は、入力されたテーブルスキーマから、単語を抽出する。ここでは、アンダースコア“＿”を区切り文字として単語分割を行う。その結果、図２では“ＯＲＤＥＲ”，“ＳＨＩＰ”，“ＴＯ”，“ＤＥＬＩＶＥＲ”の４種類の単語が抽出される。抽出された単語を全て、語義の推定対象（分類対象語）として扱う。但し，前置詞“ＴＯ”は、概念辞書のエントリにはなっていないため後述する語義候補の抽出で失敗し、対象から除外されることになる。

　文脈解析部３０は、単語抽出部２０による単語分割の結果に基づき、各分類対象語の出現文脈の特徴を抽出し、特徴ベクトルを生成する。
　単語の出現文脈の特徴とは、その単語がテーブルスキーマにおいてどのような使われ方をしているかを表すものである。ここでは、単語の出現文脈の特徴として、（１）出現箇所がテーブル名であるかカラム名であるかの種別、（２）分類対象語の直前に出現する単語、（３）分類対象語の直後に出現する単語、（４）親テーブル名に出現する単語（分類対象語の出現箇所がカラム名の場合のみ）、（５）子カラム名に出現する語（分類対象語の出現箇所がテーブル名の場合のみ）の５つを用いることとする。

　図３は、文脈解析部３０により生成された出現文脈の特徴ベクトルの例を示す図である。
　図３では、各行は分類対象語を表しており、各列は特徴を構成する素性を表している。また、図３では、素性の値が１のときはその特徴を有しており、０のときはその特徴を有していないことを表す。図３から、分類対象語“ＳＨＩＰ”と“ＤＥＬＩＶＥＲ”の出現文脈ベクトルは一致しており、互いに良く似た使われ方をしていることが分かる。

　語義候補抽出部４０は、各分類対象語を概念辞書５０で参照し、語義の候補となる概念を全て抽出する。
　概念辞書５０としては、例えば、ＷｏｒｄＮｅｔを用いる。ＷｏｒｄＮｅｔではｓｙｎｓｅｔと呼ぶ概念を１つの単位として、その概念に相当する単語や、概念間の上位／下位関係などが定義されている。単語は、名詞、動詞、形容詞、副詞が登録されている。なお、前記単語抽出部で抽出した単語のうち、前置詞“ＴＯ”については語義が登録されていないために語義抽出に失敗し、以降の処理対象から外れる。ＷｏｒｄＮｅｔの詳細については例えば非特許文献４に記載されている。

　図４、図５は、概念辞書５０の例を示す図である。
　図４は、概念と単語との関係を示す図である。つまり、図４は、語義の定義例を示す図である。
　例えば、概念ＩＤ０００３は日本語の「船」の名称を持つ概念であり、対応する単語として、“ｓｈｉｐ”，“ｖｅｓｓｅｌ”などがあることが定義されている。逆に単語“ｓｈｉｐ”から見た場合には、語義としてはＩＤ０００３「船」、００１０「肩書き」、００１７「出荷」の３つの概念が登録されており、曖昧である。同様にして単語“ｄｅｌｉｖｅｒ”に対しても、語義としてＩＤ００１３「出産」、００１９「配達」の２つの概念が登録されており、曖昧である。つまり、単語“ｓｈｉｐ”や“ｄｅｌｉｖｅｒ”が、何れの語義で用いられているかは文脈から識別する必要がある。

　図５は、概念の関係定義の一例であり、概念の上位（抽象）／下位（具体）関係を示す図である。
　階層関係を辿って近い距離にある概念どうしは、離れた概念よりも類似した意味を有している。例えば、図５では、ＩＤ００１７の概念「出荷」はＩＤ００１９の概念「配達」と姉妹関係の階層にあり、例えば他のＩＤ００１３の概念「出産」よりも類似した意味を有していると定義されている。

　語義候補抽出部４０は、概念辞書で単語の語義として登録されている概念を抽出するとともに、抽出した概念を語義の特徴ベクトルに変換する。語義の特徴ベクトルに変換することで、概念間の近さを、出現文脈の間の近さと同様にベクトル計算で扱えるようになる。

　図６は、図５に示す階層定義に従い、ベクトルで表現した概念の例を示す図である。
　図６では、各行が、左端に表示した概念ＩＤのベクトルを表している。ベクトルの各成分は概念階層を構成する概念であり、そのベクトルの概念ＩＤの概念またはその上位概念に相当するときは１、そうでない場合は０が与えられる。例えば、ＩＤ００１７の概念は、上位概念としてＩＤ０００１，ＩＤ００１１，ＩＤ００１６を持つから、自身のＩＤ００１７とそれら３つの概念とを含む、合計４つの成分に１が与えられている。
　図６から、概念ＩＤ００１７「出荷」とＩＤ００１９「配達」が、他の概念と比べて類似したベクトルとして表現されていることが分かる。

　語義推定部６０は、上述した文脈の特徴ベクトルによって規定される文脈間の距離と、概念の特徴ベクトルによって規定される概念間の距離とに基づき、分類対象語の語義を推定する。
　なお、ここでは、特徴ベクトルによって、分類対象語ｘ_ｉ，ｘ_ｉ’∈Ｘの文脈の距離ｄ_ｘ（ｘ_ｉ，ｘ_ｉ’）、および、概念ｓ_ｊ，ｓ_ｊ’∈Ｓの距離ｄ_ｓ（ｓ_ｊ，ｓ_ｊ’）が規定されることを仮定する。しかし、特徴ベクトルの定義は必須ではなく、文脈および概念がそれぞれ距離空間（Ｘ，ｄ_ｘ）、（Ｓ，ｄ_ｓ）で表せさえすればよい。特徴ベクトルで構成された特徴空間では、文脈および概念の距離を数２１によって求めることができる。ここで、∥・∥^２はベクトルの２次のノルムである。

　図２では、上記２つのベクトルで規定される空間を、模式的に２次元の平面によって示している。ある文脈で出現した分類対象語ｘ_ｉをこの平面上にマッピングすると、ｘ_ｉの文脈の特徴ベクトルφ_ｘ（ｘ_ｉ）の位置は一意に定まる。しかし、ｘ_ｉが単義語である場合を除き、ｘ_ｉの語義には曖昧性があるから、ｘ_ｉの概念の特徴ベクトルφ_ｓ（ｓ_ｊ）の位置は、複数箇所に確率的に位置付けられる仮説となる。平面上にマッピングされた仮説を図２では黒点で示した。例えば、図２の分類対象語“ＳＨＩＰ”は、語義の曖昧性により３箇所の点に仮説が置かれている。このような仮説（ｘ_ｉ，ｓ_ｊ）の確率を語義確率π_ｉｊとする。語義確率π_ｉｊは、確率としての制約条件０≦π_ｉｊ≦１、および、Σ_ｊπ_ｉｊ＝１を満足する。語義の曖昧性解消とは、語義確率π_ｉｊの最適解を求めることである。以下では、この最適解探索を定式化し、仮説評価部６４およびパラメータ更新部６６の処理の具体的な計算式を導出する。

　分類対象語ｘ_ｉの集合をＸ＝｛ｘ_ｉ｝とし、概念辞書に含まれる概念の集合をＳ＝｛ｓ_ｊ｝とする。ｘ_ｉの語義がｓ_ｊである語義確率π_ｉｊを要素とするパラメータ行列をΠとし、後述するガウスカーネルのパラメータξ_ｉｊ，ζ_ｉｊを要素とするパラメータ行列をそれぞれΞ，Ζとするとき、最大事後確率推定（ＭＡＰ推定）による尤度関数Ｌ_ＭＡＰを数２２のように定義し、Ｌ_ＭＡＰの最大化によってパラメータ最適解を得る。

　数２２におけるｌｎｐ（Ｘ｜Π，Ξ，Ζ）を定義する。
　ｌｎｐ（Ｘ｜Π，Ξ，Ζ）は、集合Ｘに対する尤度である。ここでは、ｐ（Ｘ｜Π，Ξ，Ζ）は、語義確率π_ｉｊで与えられるテストデータ（ｘ_ｉ，ｓ_ｊ）を確率密度Ｑ（ｘ_ｉ，ｓ_ｊ；Π，Ξ，Ζ）で外挿する尤度として、数２３のように定義される。

　このように確率的に置いた仮説の尤もらしさを仮説間で互いに外挿して評価し合うことにより、集合Ｘ全体として尤もらしい仮説が決定される。以下では、確率密度Ｑ（ｘ_ｉ，ｓ_ｊ；Π，Ξ，Ζ）の表記を簡略化して単に確率密度Ｑ（ｘ_ｉ，ｓ_ｊ）と書く。

　確率密度Ｑ（ｘ_ｉ，ｓ_ｊ）は、仮説（ｘ_ｉ’，ｓ_ｊ’）を中心としたガウスカーネルＫ_ｉ’ｊ’による仮説（ｘ_ｉ，ｓ_ｊ）の外挿の総和として、数２４で計算される。

　ここで、Ｎ_ｗｉは、集合Ｘに含まれる単語ｘ_ｉ’のうち、出現文脈を無視した単語ｘ_ｉ’であって、その単語ｘ_ｉ’の種類ｗ_ｉ’が分類対象語ｘ_ｉの種類ｗ_ｉと異なる単語ｘ_ｉ’の数を表す。すなわち、Ｎ_ｗｉ＝｜｛ｘ_ｉ’｜ｘ_ｉ’∈Ｘ，ｗ_ｉ’≠ｗ_ｉ｝｜である。また、ｄ_ｘ（ｘ_ｉ’，ｘ_ｉ），ｄ_ｓ（ｓ_ｊ’，ｓ_ｊ）は、それぞれ、仮説（ｘ_ｉ’，ｓ_ｊ’）と仮説（ｘ_ｉ，ｓ_ｊ）の文脈の距離、概念の距離である。ξ_ｉ’ｊ’，ζ_ｉ’ｊ’は、それぞれ、ガウスカーネルＫ_ｉ’ｊ’の文脈バンド幅、概念バンド幅である。

　数２３、数２４における定義は、種類の異なる単語（異なり語）を単位とする交差検定（クロスバリデーション）尤度になっている。すなわち、数２４の確率密度Ｑ（ｘ_ｉ，ｓ_ｊ）の式において、テストデータとする仮説（ｘ_ｉ，ｓ_ｊ）は、右辺では制約条件ｗ_ｉ’≠ｗ_ｉによって除外され、テストデータ以外のカーネルに対してパラメータが最適化される。このように交差検定を導入するのは、最適化対象とするパラメータの中にカーネルのバンド幅Ξ，Ζが含まれているからであり、これらのバンド幅Ξ，Ζの過学習を回避するためである。
　特に、語義推定においては、以下の（１）（２）の性質がある。（１）同種の語は常に同じ語義の候補を持ち、それら語義候補の間では概念の最短距離が常に０となることから、分類対象語ｘ_ｉを１つずつ分割検定してもバンド幅がオーバーフィットすることは避けられない。（２）同じ種類の単語の語義候補に基づいた外挿では曖昧性を解消することができないため、そもそも尤度に含めるべきではない。そこで、異なり語単位の交差検定によって分類対象語ｘ_ｉに対する尤度が定義された。

　数２２におけるｌｎｐ（Π）と、ｌｎｐ（Ξ）と、ｌｎｐ（Ζ）とについて定義する。
　語義確率のパラメータ行列Πに対しては、無情報事前分布（一様分布）が与えられ、最適解は分類対象語ｘ_ｉに対する尤度のみから決定されるとする。そこで、パラメータ行列Πの事前確率ｌｎｐ（Π）は、数２５のように定義される。

　文脈バンド幅および概念バンド幅については逆ガンマ分布を用い、各パラメータの逆数の分布が数２６に示すガンマ分布に従うと仮定する。

　そこで、文脈バンド幅のパラメータ行列Ξの事前確率ｌｎｐ（Ξ）は、数２７のように定義される。

　同様に、概念バンド幅のパラメータ行列Ζの事前確率ｌｎｐ（Ζ）は、数２８のように定義される。

　ここでα_１，α_２，β_１，β_２は、ガンマ分布の形状を決定するハイパーパラメータ（定数）であり、バンド幅罰則設定部７０により設定される。但し、後述するように、バンド幅罰則設定部７０は、これらの値を直接設定するのではなく、より直観的な解釈が可能な値である２（α_１－１），β_１／（α_１－１），２（α_２－１），β_２／（α_２－１）を設定してもよい。

　このようにしてバンド幅に事前確率を与えるのは、パラメータの多さによって生じる過学習を回避するためである。ここでは、全てのカーネルのバンド幅を可変とするため、局所的な分類対象語ｘ_ｉの分布に適応しながら語義を推定することが可能であるが、そのままではパラメータが多過ぎて分類対象語ｘ_ｉにオーバーフィットしてしまう。そこで、バンド幅に対し緩やかな制約を与え、事前確率から大きく逸脱するバンド幅に対してはペナルティをかける。
　なお、ガンマ分布の分散を極めて小さく設定した場合は、バンド幅を一律固定とする場合に一致する。一方、ガンマ分布の分散を極めて大きく設定した場合は、最尤推定で分類対象語ｘ_ｉの尤度のみからバンド幅を決定する場合に一致する。
　以上によって数２２の尤度関数Ｌ_ＭＡＰが定義された。

　次に、尤度関数Ｌ_ＭＡＰを最大化するパラメータを求める方法について説明する。最適パラメータの探索は、ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ　Ｍａｘｉｍｉｚａｔｉｏｎアルゴリズム（期待値最大化法）を適用して効率的に実現可能である。そこで、以下
にＥＭアルゴリズムのためのパラメータ更新式を導出する。

　語義確率π_ｉｊに関する制約条件Σ_ｊπ_ｉｊ＝１の下で尤度関数Ｌ_ＭＡＰの極値を求めるため、ラグランジュの未定乗数法を用いる。ラグランジュ乗数をλ_ｉとして、パラメータ最適解は、数２９によって与えられる。

　極値を求めるため，Ｌ＾を語義確率π_ｉｊ，文脈バンド幅ξ_ｉｊ，概念バンド幅ζ_ｉｊでそれぞれ微分し、０と置いた式を整理することにより、パラメータ最適解に関する循環定義式として、数３０が得られる。

　ここで、Ｃ_ξ１，Ｃ_ξ２，Ｃ_ζ１，Ｃ_ζ２は、ハイパーパラメータである。なお、Ｃ_ξ１，Ｃ_ξ２，Ｃ_ζ１，Ｃ_ζ２は、上述したガンマ分布のパラメータα_１，α_２，β_１，β_２とは、数３１に示す関係にあり、バンド幅罰則設定部７０はＣ_ξ１，Ｃ_ξ２，Ｃ_ζ１，Ｃ_ζ２を設定してもよい。

　また、ｒ^ｉ’ｊ’ _ｉｊは、仮説（ｘ_ｉ’，ｓ_ｊ’）の確率重み付きの確率密度π_ｉ’ｊ’Ｑ（ｘ_ｉ’，ｓ_ｊ’）に占める仮説（ｘ_ｉ，ｓ_ｊ）の負担率であり、数３２によって定義される。

　ここで、Ｑ_ｉｊ（ｘ_ｉ’，ｓ_ｊ’）は、仮説（ｘ_ｉ，ｓ_ｊ）単体による仮説（ｘ_ｉ’，ｓ_ｊ’）の確率密度であり、数３３で定義される。

　数３０において、負担率ｒの添え字＊は、その添字について総和を取ることを表す。また、負担率ｒの添字＊＾は、単語の種類が異なるｘ_ｉ,ｘ_ｉ’に限定して総和を取ることを表す。すなわち、数３４である。

　数３０に示すように、語義確率π_ｉｊは、負担率ｒ^ｉｊ _＊＾＊が大きいほど、大きくなる。すなわち、語義確率π_ｉｊは、他の仮説（ｘ_＊＾，ｓ_＊）から外挿した仮説（ｘ_ｉ，ｓ_ｊ）の値が大きいほど、大きくなる。また、語義確率π_ｉｊは、負担率ｒ^＊＾＊ _ｉｊが大きいほど、大きくなる。すなわち、語義確率π_ｉｊは、他の仮説（ｘ_＊＾，ｓ_＊）に対する（ｘ_ｉ，ｓ_ｊ）の負担率が大きいほど大きくなる。
　ガウスカーネルは距離が近いほど大きな値を取る関数であるから、語義確率π_ｉｊは、仮説（ｘ_ｉ，ｓ_ｊ）の近傍に尤もらしい他の仮説が集中しているほど大きくなる。このようにして語義確率π_ｉｊを推定することにより、単語ｘ_ｉの出現文脈に対し、尤もらしい語義ｓ_ｊを推定することができる。

　また、数３０に示すように、バンド幅の二乗値ξ_ｉｊ ^２，ζ_ｉｊ ^２は、負担率の重み付きで求めた文脈の距離、および、概念の距離の分散である。
　上述したガウスカーネルの性質より、負担率は計算する仮説の近傍を対象にするほど大きくなる傾向があるから、負担率の重み付き分散であるバンド幅は、近傍に仮説が集中する領域では狭くなり、逆に、疎らにしか仮説が存在しない領域では広くなる。このようにしてバンド幅を推定することで、分類対象語ｘ_ｉの分布の局所的なばらつきに適応しながら、語義を推定することができる。

　但し、このような局所データへの適応は、学習に用いるデータが相対的に少なくなることから過学習を起こしやすく、不安定になりやすい。数３０におけるハイパーパラメータはこれを回避するためのものである。
　Ｃ_ξ１，Ｃ_ζ１は、仮想的なデータの負担率の合計（ないしは確率的な頻度）、Ｃ_ξ２，Ｃ_ζ２は、それら仮想的なデータにおける２乗距離ｄ_ｘ ^２，ｄ_ｓ ^２の平均である。このように仮想的なデータとの平均によってバンド幅を決定することで、局所データへの適応を安定して行うことができる。

　図７は、ＥＭアルゴリズムによるパラメータ更新処理の流れを示す図である。
　（Ｓ１０：初期化ステップ）
　文脈バンド幅記憶部６１、概念バンド幅記憶部６２、語義確率記憶部６３は、パラメータ行列Π，Ξ，Ζの初期値を記憶する。

　（Ｓ２０：Ｅステップ）
　仮説評価部６４は、文脈バンド幅記憶部６１、概念バンド幅記憶部６２、語義確率記憶部６３に記憶されたパラメータ行列Π，Ξ，Ζを用いて、全ての仮説（ｘ_ｉ’，ｓ_ｊ’）を外挿し、各仮説（ｘ_ｉ，ｓ_ｊ）の負担率ｒ^ｉ’ｊ’ _ｉｊを計算する。
　評価値記憶部６５は、計算された負担率ｒ^ｉ’ｊ’ _ｉｊを記憶するとともに、負担率ｒ^ｉ’ｊ’ _ｉｊを計算する際得られた確率密度Ｑ（ｘ_ｉ，ｓ_ｊ）を評価値として記憶する。

　（Ｓ３０：Ｍステップ）
　パラメータ更新部６６は、評価値記憶部６５に記憶された負担率ｒ^ｉ’ｊ’ _ｉｊを用いて、文脈バンド幅記憶部６１、概念バンド幅記憶部６２、語義確率記憶部６３に記憶されたパラメータ行列Π，Ξ，Ζを更新する。

　（Ｓ４０：収束判定ステップ）
　仮説評価部６４は、尤度関数Ｌ_ＭＡＰの値（尤度）の増分ΔＬ_ＭＡＰが所定の閾値θ未満か否かを判定する。増分ΔＬ_ＭＡＰが閾値θ未満の場合（Ｓ４０で未満）、仮説評価部６４は処理を終了する。一方、そうでない場合（Ｓ４０で以上）、仮説評価部６４は処理をＳ２０へ戻す。

　そして、パラメータ更新処理が終了すると、推定語義出力部６７は、評価値記憶部６５に記憶された確率密度Ｑ（ｘ_ｉ，ｓ_ｊ）に基づき、各分類対象語ｘ_ｉについて、最尤の語義ｓ_ｊ＝ａｒｇｍａｘ_ｊＱ（ｘ_ｉ，ｓ_ｊ）を、その分類対象語ｘ_ｉの語義として選択して、推定語義データ８０として出力する。

　図８から図１３は、実施の形態１に係る語義推定装置１００による語義推定の効果を説明するための図である。
　図８は、本実験で用いた乱数データの分布を示す図であり、図９は、本実験で用いたデータの正解語義を示す図である。図８、図９において、縦軸は文脈の距離空間、横軸は概念の距離空間を示す。図８で水平方向に並ぶ点が、各文脈で出現した語の語義候補であり、そのうちのいずれかが正しい語義になっている。図９において○で示した点が正しい語義の位置、＋で示した点がそれ以外の語義候補の位置である。
　本評価データは、ガウス分布からのサンプリングによって生成した疑似データであり、左下に広がりの大きい正解語義の分布があり、右上に広がりの小さい正解語義の分布がある。正解以外の語義は、正解語義の縦軸上の位置を元に生成され、横軸の位置は一様分布を前記ガウス分布と競合させて生成された。正解語義の数は合計１００個であり、語義の候補数は平均３．０のポアソン分布からサンプリングして決定された。本評価データは乱数による疑似データではあるが、このように正解語義の広がりがばらつくことは、実際のテキストデータや距離空間の設計によってしばしば起こることである。そのため、高精度化にはこのような分布の局所性に適応しながら正しい語義を推定する必要がある。

　図１０から図１２は、図８のラベル無しデータに対し、語義バンド幅及び概念バンド幅を固定にした場合の語義推定結果を示す図である。図１３は、図８のラベル無しデータに対し、語義推定装置１００による語義推定結果を示す図である。いずれも教師無し学習方式であるため、図８のデータ以外の学習データは利用していない。図中×で示す位置が推定を誤った点であり、それ以外の点（○または＋）は正しく推定された点である。等高線はガウスカーネル群により推定した確率密度を示す。

　図１０は、語義バンド幅及び概念バンド幅を図９に示す左下の正解語義の分散に合わせて設定した結果を示す図である（バンド幅大）。この場合、左下の領域で比較的良く正しい語義を識別できるが、右上の領域においてオーバースムーズとなるため精度が劣化した。その結果、誤り率は２１％となった。
　図１１は、語義バンド幅及び概念バンド幅を最適値に設定した結果を示す図である（バンド幅中）。この場合、誤り率は１３％まで改善した。しかし、左下領域、右上領域とも誤りがまだ多く残った。
　図１２は、語義バンド幅及び概念バンド幅を図９に示す右上の正解語義の分散に合わせて設定した結果を示す図である（バンド幅小）。この場合、右上の領域で最も良い精度が得られるが、左下領域でオーバーフィットしてしまい、正解語義のまとまりを見つけることができない。その結果、誤り率は２０％となった。
　これに対して、図１３に示す語義推定装置１００による語義推定では、等高線の間隔から分かるように、左下領域ではバンド幅が広がり、右上領域ではバンド幅が狭まってデータの局所性に適応しながら語義を推定している。その結果、誤り率は７％となり、図１０から図１２に示す結果と比較して高い精度が得られた。

　以上のように、実施の形態１に係る語義推定装置１００は、出現文脈が近い単語の間で近い概念への語義割り当てを発見する。そのため、語義の正解が与えられないデータから、語義を推定することができる。
　したがって、教師あり学習を用いる方法や半教師あり学習を用いる方式における課題である、対象とするタスクのテキストデータに対し、正しい語義を通常人手で付与したラベル付き学習データを作成しておく必要があるという課題を解決することができる。その結果、学習データ作成コストがかかるという課題や、事前に学習データを入手することが困難な状況ではこの方式を適用できないという課題を解決することが可能である。

　また、実施の形態１に係る語義推定装置１００は、概念辞書における概念の近さを利用し、出現文脈の近さと概念辞書上の概念の近さの両面から尤もらしい語義を発見する教師なし学習方式である。そのため、教師なし学習を用いる方式における課題である、先見的知識を一切利用しないため一般に精度が優れないという課題を解決することが可能である。

　また、実施の形態１に係る語義推定装置１００は、入力テキストデータに対して語義確率とカーネルの可変バンド幅を同時最適化することにより、各語の尤もらしい語義を推定する。すなわち、適切なバンド幅が入力テキストデータに合わせてカーネル毎に自動設定される。したがって、適切なバンド幅を設定しないと精度が劣化するという課題が解決される。また、データの分布にばらつきがあるデータにおいて、局所的にバンド幅が広過ぎて識別性能が得られない領域が発生することや、逆に局所的にバンド幅が狭過ぎるために、データ間を関連付けて語義の曖昧性を解消することができない領域が発生するという課題が解決される。
　そのため、実施の形態１に係る語義推定装置１００は、ラベル付き学習データを必要としない教師なし学習の枠組みにおいて、語義の推定に用いるバンド幅の局所的不一致に起因する課題が解消され、高い精度で語義を推定することが可能となる。

　実施の形態２．
　実施の形態１では、分類対象語毎に独立して語義を推定した。つまり、実施の形態１では、単語の出現インスタンスそれぞれに対して独立に語義を推定した。しかし、語義推定装置１００による語義推定方法は、これに限定するものではなく、単語の種類毎に語義を推定するようにしてもよい。
　このような問題設定はＰｒｅｄｏｍｉｎａｎｔ　Ｗｏｒｄ　Ｓｅｎｓｅ推定問題として知られており、非特許文献３にも記載されている。この問題設定は、「ひとつのドメインで同じ語が複数の語義で使い分けられることは少なく、単一の語義が一貫して用いられやすい（ｏｎｅ－ｓｅｎｓｅ－ｐｅｒ－ｄｏｍａｉｎ）」とのヒューリスティクスに基づき、特定ドメインで支配的に使われる語義を異なり語毎に決定するものである。この問題設定では、分類対象語毎に語義を独立推定するよりも安定した精度を得られることがある。

　この問題設定に実施の形態１で説明した語義推定技術を適用するには、単語の種類が同じ分類対象語の間ではパラメータを同一の値に拘束（ｔｙｉｎｇ）すればよい。
　また、実施の形態１では文脈の類似度を分類対象語ｘ_ｉ，ｘ_ｉ’間の距離ｄ_ｘ（ｘ_ｉ，ｘ_ｉ’）で定義した。しかし、この問題設定においては、大規模コーパスにおける単語の種類ｗ_ι，ｗ_ι’の平均的な出現傾向を文脈の距離ｄ_ｘ（ｗ_ι，ｗ_ι’）として用いれば良い。このような文脈の距離は、単語の分布類似度（ｄｉｓｔｒｉｂｕｔｉｏｎａｌ　ｓｉｍｉｌａｒｉｔｙ）として非特許文献３にも開示されている。

　全てのパラメータ行列Π，Ξ，Ζを単語の種類ｗ_ι∈Ｖに対して拘束し、出現文脈に依らず共通とする。
　このとき、数３２のＱ_ｉｊおよびＱは、数３５に示すようにすればよい。

　但し、Ｎｗ_ιは、集合Ｘにおいて異なり語の種類がｗ_ιであるような単語の個数であり、Ｎｗ^－ _ιは、集合Ｘにおいて異なり語の種類がｗ_ιとは異なる単語の個数である。したがって、∀ιについて、Ｎｗ_ι＋Ｎｗ^－ _ι＝Ｎである。ｄ_ｘ ^２（ｗ_ι，ｗ_ι’）は単語ｗ_ιとｗ_ι’との分布類似度を表す。

　負担率ｒ^ｉ’ｊ’ _ｉｊの定義は、分類対象語単位から異なり語単位となっても見た目には数３２と同じである。

　数３０に示したＥＭアルゴリズムおけるパラメータ更新式は数３６のようになる。

　負担率が分類対象語単位から異なり語単位となったことで、数３０における語義確率π_ｉｊの式の分母に入っていた１が、数３６ではＮｗ_ιに変わっている。

　以上のようにして、分類対象語単位ではなく、異なり語（単語の種類）単位で語義を推定することが可能である。

　なお、上記説明では、分類対象語が概念辞書５０に登録された単語（登録語）であり、概念辞書５０を参照して語義の候補が得られることを前提としていた。しかし、分類対象語が概念辞書５０に登録されていない単語（未登録語）であった場合にも、上記方式を適用することが可能である。例えば、登録語“ＤＥＬＩＶＥＲ”の短縮表記“ＤＥＬＩＶ”は未登録語である。この場合には、未登録語である分類対象語の表記文字列と、概念辞書５０の登録語の文字列とに対し、公知の編集距離等に基づき文字列間類似度を求める。そして、予め定めた閾値よりも高い類似度を持つ全ての登録語を抽出し、抽出した登録語の語義として記憶された概念を語義候補とすればよい。
　この際、抽出した登録語との文字列間類似度に応じた重みを用いて尤度を計算するようにしてもよい。例えば、未登録語である出現データｘ_ｉ（文脈を無視した単語の種類をｗ_ｉとする）の語義ｓ_ｊが、単語の種類ｗ_ｉと類似する登録語ｗ_ｋの語義として登録された概念であったとする。そして、単語の種類ｗ_ｉと登録語ｗ_ｋとの文字列間類似度に応じた重みがσ_ｉｊであるとする。この場合、数２３において、語義確率π_ｉｊに対し重みσ_ｉｊを乗じてπ_ｉｊσ_ｉｊにすればよい。つまり、対象とする未登録語と抽出した登録語との文字列間類似度が高いほど、尤度が高くなるようにしてもよい。

　また、上記説明では、入力テキストデータ１０に含まれる全ての単語について語義を推定する動作について説明した。しかし、語義推定装置１００の語義推定方法は、これに限定されるものではなく、例えば、入力テキストデータ１０に含まれる一部の単語について正しい語義が予め定まっている場合にも適用することができる。
　この場合には、上述した動作において、正しい語義が与えられている単語については、正しい語義ｓ_ｊの語義確率π_ｉｊを１に固定すればよい。そのようにして、上記方式を半教師あり学習の枠組みで適用し、完全な教師なし学習で適用する場合に比べて高精度な語義推定を行うことも可能である。

　また、上記説明では、語義確率π_ｉｊを０から１の間の連続値として求めた。しかし、語義確率π_ｉｊは、これに限定されるものではなく、例えば、数３０における語義確率π_ｉｊの代わりに、数３０によって計算されたπ_ｉｊの最大値を与えるｊ＾のみ確率π_ｉｊ＾＝１とし、それ以外のｊに対してはπ_ｉｊ＝０としてもよい。

　また、上記説明では、数２４において総和を求める対象を、全ての分類対象語ｘ_ｉと単語の種類が異なる全ての分類対象語ｘ_ｉ’の全ての語義仮説ｓ_ｊ’とした。しかし、総和を求める対象は、これに限定されるものではなく、例えば、出現文脈が近い所定のＫ個（Ｋは１以上の整数）に対象を限定して総和を取ってもよい。

　また、上記説明では、出現文脈の特徴ベクトルを共起語の有無によって単純に表現した。しかし、出現文脈の特徴ベクトルは、これに限定されるものではなく、例えば、共起語について辞書を参照してその語義候補となる概念を抽出し、表現形や見出し形で記述された共起語を抽出した概念に置き換えて文脈を記述し直した上で、出現文脈の特徴ベクトルを表現してもよい。具体的には、共起語に“ｓｈｉｐ”という単語があった場合、“ｓｈｉｐ”を「船」、「肩書」、「出荷」という各概念に置き換えて文脈を記述し直し、出現文脈の特徴ベクトルを表現する。これにより、例えば、共起語に“ｓｈｉｐ”という単語があった文脈と、共起語に“ｖｅｓｓｅｌ”という単語があった文脈との出現文脈の特徴ベクトルが近いベクトルになる。

　また、上記説明では、文脈および語義の近さをガウシアンカーネルによりモデル化した。しかし、文脈および語義の近さは、これに限定されるものではなく、例えば、語義の近さを単純に概念辞書の階層を辿ったときのリンクの数により代用してもよい。

　図１４は、語義推定装置１００のハードウェア構成の一例を示す図である。
　図１４に示すように、語義推定装置１００は、プログラムを実行するＣＰＵ９１１（Ｃｅｎｔｒａｌ・Ｐｒｏｃｅｓｓｉｎｇ・Ｕｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。ＣＰＵ９１１は、バス９１２を介してＲＯＭ９１３、ＲＡＭ９１４、ＬＣＤ９０１（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、キーボード９０２（Ｋ／Ｂ）、通信ボード９１５、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置９２０（固定ディスク装置）の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。磁気ディスク装置９２０は、所定の固定ディスクインタフェースを介して接続される。

　磁気ディスク装置９２０又はＲＯＭ９１３などには、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。プログラム群９２３のプログラムは、ＣＰＵ９１１、オペレーティングシステム９２１、ウィンドウシステム９２２により実行される。

　プログラム群９２３には、上記の説明において「単語抽出部２０」、「文脈解析部３０」、「語義候補抽出部４０」、「語義推定部６０」、「仮説評価部６４」、「パラメータ更新部６６」、「推定語義出力部６７」、「バンド幅罰則設定部７０」等として説明した機能を実行するソフトウェアやプログラムやその他のプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。
　ファイル群９２４には、上記の説明において「入力テキストデータ１０」、「概念辞書５０」、「推定語義データ７０」等の情報やデータや信号値や変数値やパラメータ、「文脈バンド幅記憶部６１」、「概念バンド幅記憶部６２」、「語義確率記憶部６３」、「評価値記憶部６５」が記憶する情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵ９１１の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵ９１１の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。

　また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、その他光ディスク等の記録媒体やＩＣチップに記録される。また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体や電波によりオンライン伝送される。
　また、上記の説明において「～部」として説明するものは、「～回路」、「～装置」、「～機器」、「～手段」、「～機能」であってもよく、また、「～ステップ」、「～手順」、「～処理」であってもよい。また、「～装置」として説明するものは、「～回路」、「～機器」、「～手段」、「～機能」であってもよく、また、「～ステップ」、「～手順」、「～処理」であってもよい。さらに、「～処理」として説明するものは「～ステップ」であっても構わない。すなわち、「～部」として説明するものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ＲＯＭ９１３等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、プログラムは、上記で述べた「～部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「～部」の手順や方法をコンピュータ等に実行させるものである。

　１０　入力テキストデータ、２０　単語抽出部、３０　文脈解析部、４０　語義候補抽出部、５０　概念辞書、６０　語義推定部、６１　文脈バンド幅記憶部、６２　概念バンド幅記憶部、６３　語義確率記憶部、６４　仮説評価部、６５　評価値記憶部、６６　パラメータ更新部、６７　推定語義出力部、７０　バンド幅罰則設定部、１００　語義推定装置。

Claims

　カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定装置であり、
　入力データに含まれる複数の単語を抽出する単語抽出部と、
　前記単語抽出部が抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析部と、
　単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出部と、
　前記各単語について、前記語義候補抽出部が語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定部と
を備えることを特徴とする語義推定装置。
　前記語義推定部は、文脈の特徴が近いほど前記確率密度が高くなるように、選択した概念と他の単語の語義とが近いほど前記確率密度が高くなるように、前記語義確率が高いほど前記確率密度が高くなるように、前記確率密度を計算する
ことを特徴とする請求項１に記載の語義推定装置。
　前記語義推定部は、選択した単語ｘ_ｉ、選択した概念ｓ_ｊの仮説（ｘ_ｉ，ｓ_ｊ）の確率密度Ｑ（ｘ_ｉ，ｓ_ｊ）を数１により計算する
ことを特徴とする請求項２に記載の語義推定装置。

ここで、Σ_{ｉ’　ｓ．ｔ．ｉ’≠ｉ}は単語ｘ_ｉ以外の単語ｘ_ｉ’に関する総和である。Ｎ_ｉはΣ_{ｉ’ｓ．ｔ．ｉ’≠ｉ}が表す総和における単語ｘ_ｉ’の数である。Σ_ｊ’は単語ｘ_ｉ’の語義候補の概念ｓ_ｊ’に関する総和である。π_ｉ’ｊ’は単語ｘ_ｉ’の語義がｓ_ｊ’となる仮説（ｘ_ｉ’，ｓ_ｊ’）の語義確率であり、Σ_ｊ’π_ｉ’ｊ’＝１である。Ｋ_ｉ’ｊ’（ｘ_ｉ，ｓ_ｊ）は数２である。

ここで、ｄ_ｘ（ｘ_ｉ，ｘ_ｉ’）は単語ｘ_ｉと単語ｘ_ｉ’との文脈の特徴の距離である。ｄ_ｓ（ｓ_ｊ，ｓ_ｊ’）は概念ｓ_ｊと概念ｓ_ｊ’との概念の距離である。ξ_ｉ’ｊ’は文脈バンド幅である。ζ_ｉ’ｊ’は概念バンド幅である。添え字の付されていないπは円周率である。
　前記語義推定部は、確率密度Ｑ（ｘ_ｉ，ｓ_ｊ）を数３により計算する
ことを特徴とする請求項３に記載の語義推定装置。

ここで、ｗ_ｉ’，ｗ_ｉはそれぞれ単語ｘ_ｉ’，単語ｘ_ｉの種類である。Σ_{ｉ’　ｓ．ｔ．ｗｉ’≠ｗｉ}は単語ｘ_ｉと種類が異なる単語ｘ_ｉ’に関する総和である。Ｎ_ｗｉはΣ_{ｉ’　ｓ．ｔ．ｗｉ’≠ｗｉ}が表す総和における単語ｘ_ｉ’の数である。
　前記語義推定部は、計算した確率密度に基づき、数４に示す尤度関数Ｌ_０の値が大きくなるように、前記文脈バンド幅と前記概念バンド幅と前記語義確率を再計算する
ことを特徴とする請求項３又は４に記載の語義推定装置。

ここで、Π_ｉは全ての単語ｘ_ｉについての総乗である。
　前記語義推定装置は、さらに、
　前記文脈バンド幅についての標準値である文脈標準値及びばらつきの大きさである文脈ばらつきと、前記概念バンド幅についての標準値である概念標準値及びばらつきの大きさである概念ばらつきとを設定するバンド幅罰則設定部
を備え、
　前記語義推定部は、前記尤度関数Ｌ_０の値が大きくなるように、かつ、前記文脈ばらつきと比べて、前記文脈バンド幅と前記文脈標準値との差が小さくなるように、かつ、前記概念ばらつきと比べて、前記概念バンド幅と前記概念標準値との差が小さくなるように、前記文脈バンド幅と前記概念バンド幅と前記語義確率を再計算する
ことを特徴とする請求項５に記載の語義推定装置。
　前記バンド幅罰則設定部は、数５における値α_１，β_１，α_２，β_２を設定することにより、前記文脈標準値及び前記文脈分散と、前記概念標準値及び前記概念分散とを設定し、
　前記語義推定部は、数５に示す尤度Ｌ_ＭＡＰが大きくなるように、前記文脈バンド幅と前記概念バンド幅と前記語義確率を再計算する
ことを特徴とする請求項６に記載の語義推定装置。

ここで、Ｇａｍはガンマ分布であり、数６である。α_１，β_１，α_２，β_２はガンマ分布の形状を決めるハイパーパラメータである。

ここで、Γ（α）は数７である。
　前記語義推定部は、仮説（ｘ_ｉ’，ｓ_ｊ’）の確率重み付きの確率密度π_ｉ’ｊ’Ｑ（ｘ_ｉ’，ｓ_ｊ’）に占める仮説（ｘ_ｉ，ｓ_ｊ）の負担率ｒ^ｉ’ｊ’ _ｉｊを数８により計算し、前記文脈バンド幅ξ_ｉｊと前記概念バンド幅ζ_ｉｊと前記語義確率π_ｉｊとを数９により再計算する
ことを特徴とする請求項７に記載の語義推定装置。

ここで、Ｑ_ｉｊ（ｘ_ｉ’，ｓ_ｊ’）は数１０である。各添え字の付された負担率ｒは数１１である。
　前記語義推定部は、前記文脈バンド幅ξ_ｉｊと前記概念バンド幅ζ_ｉｊとを数１２により再計算する
ことを特徴とする請求項８に記載の語義推定装置。

ここで、Ｃξ１，Ｃξ２，Ｃζ１，Ｃζ２は数１３である。
　カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定方法であり、
　処理装置が、入力データに含まれる複数の単語を抽出する単語抽出ステップと、
　処理装置が、前記単語抽出ステップで抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析ステップと、
　処理装置が、単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出ステップと、
　処理装置が、前記各単語について、前記語義候補抽出ステップで語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定ステップと
を備えることを特徴とする語義推定方法。
　カーネル密度推定を用いて入力データに含まれる単語の語義を推定する語義推定プログラムであり、
　入力データに含まれる複数の単語を抽出する単語抽出処理と、
　前記単語抽出処理で抽出した各単語について、前記入力データにおいてその単語が出現する文脈の特徴を抽出する文脈解析処理と、
　単語の語義として１つ以上の概念が記憶された概念辞書から、前記各単語について語義として記憶された各概念をその単語の語義候補として抽出する語義候補抽出処理と、
　前記各単語について、前記語義候補抽出処理で語義候補として抽出した各概念を語義とした場合の確率密度を、選択した単語と他の単語との文脈の特徴の距離と、選択した概念と他の単語の語義候補の概念との概念の距離と、前記カーネル密度推定における前記文脈の特徴についてのバンド幅である文脈バンド幅と、前記カーネル密度推定における前記概念の距離についてのバンド幅である概念バンド幅と、選択した単語が選択した語義となる確率である語義確率とから計算し、計算した確率密度に基づき、前記文脈バンド幅と前記概念バンド幅と前記語義確率とを再計算する計算処理を複数回実行して、前記各単語について、計算した確率密度が高い概念をその単語の語義と推定する語義推定処理と
をコンピュータに実行させることを特徴とする語義推定プログラム。