JPWO2012153524A1 - 同義表現判定装置、方法及びプログラム - Google Patents
同義表現判定装置、方法及びプログラム Download PDFInfo
- Publication number
- JPWO2012153524A1 JPWO2012153524A1 JP2012548252A JP2012548252A JPWO2012153524A1 JP WO2012153524 A1 JPWO2012153524 A1 JP WO2012153524A1 JP 2012548252 A JP2012548252 A JP 2012548252A JP 2012548252 A JP2012548252 A JP 2012548252A JP WO2012153524 A1 JPWO2012153524 A1 JP WO2012153524A1
- Authority
- JP
- Japan
- Prior art keywords
- input
- similarity
- word
- distribution
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段とを備えている。
Description
本発明は、同義表現であるか否かを判定する同義表現判定装置、同義表現判定方法及び同義表現判定プログラムに関する。
同義表現辞書は、自然文のような構文構造が複雑な問い合わせに対する正確な検索を実現するために必要な言語リソースの一つである。同義表現は通常、検索対象とする文書の分野毎に構築する必要がある。しかし、専門知識のある担当者を長時間確保するためには、多くの人的コストを必要とするため、同義表現辞書を自動構築する技術が求められている。
ここでは、特に体言と用言との組で表現される二項関係の同義表現の自動抽出に着目する。体言と用言との組で表現される二項関係の同義表現として、例えば、「電源を入れる」と「電源スイッチを投入する」とがある。以下、入力された二項関係を構成する用言を入力用言、入力された二項関係を構成する体言を入力体言と記述する。
二項関係の同義表現を抽出する技術として、非特許文献1に記載されているように、二項関係の周辺の文脈を特徴量として文書集合から収集し、特徴量が類似する二項関係を同義表現として抽出する方法がある。周辺の文脈として、文書集合における入力用言の係り先の用言や、入力用言の格関係にある入力体言以外の体言を用いる。例えば、「大学を主席で卒業し、会社に就職する」という文からは、二項関係「大学を卒業する」の特徴量として、「主席で」「就職する」が得られる。
また、二項関係の同義表現の抽出する別の技術として、入力用言組と入力体言組とを個別に同義関係か否かを判定し、両者が同義と判定された場合には同義表現として抽出する方法がある。これは、非特許文献2に記載されている体言の同義表現を抽出する技術を単純に適用すればよい。非特許文献2では、入力体言と文書集合で二項関係にある用言の出現頻度の分布を入力体言の特徴量として収集し、特徴量が類似する入力体言を同義表現として抽出する技術が記載されている。
柴田知秀, 黒橋禎夫, 文脈に依存した述語の同義関係獲得, 情報処理学会研究報告 2010-NL-199 No.13, 2010
Masato Hagiwara, Yasuhiro Ogawa, Katsuhiko Takeyama, "Supervised Synonym Acquisition Using Distributional Features and Syntactic Patterns", 自然言語処理 Vol.16, No.2, pp.59-83, 2009.
しかしながら、非特許文献1に記載された方法では、二項関係の同義表現を抽出するための特徴量を十分に得ることが難しい。二項関係が単独で出現する文からは特徴量を取得できないからである。
また、非特許文献2に記載された方法では、入力用言と入力体言とが多義性を持つ場合には特徴量が類似しないため、同義となる二項関係を判定できない。
例えば、「電源スイッチを投入する」と「電源を入れる」との同義判定では、「電源スイッチ」と「電源」とが同義であるかを判定する必要がある。このとき、「電源を入れる」と「電源スイッチを投入する」とで決定される「投入する」と「入れる」との語義を語義Aとする。「投入する」と「入れる」とが語義Aで使われる際の特徴量(入力用言と二項関係にある体現の出現頻度の分布)は類似する。しかし「投入する」と「入れる」とが語義A以外の語義で使われる場合の特徴量は必ずしも類似しない。したがって、「投入する」と「入れる」との特徴量は類似しないこととなる。「電源スイッチ」と「電源」とについても同様の問題がある。
そこで、本発明は、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定することができる同義表現判定装置、同義表現判定方法及び同義表現判定プログラムを提供することを目的とする。
本発明による同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段とを備えたことを特徴とする。
本発明による同義表現判定方法は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定し、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算することを特徴とする。
本発明による同義表現判定プログラムは、コンピュータに、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定処理と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算処理とを実行させることを特徴とする。
本発明によれば、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定することができる。
次に、本発明の実施形態について図面を参照して説明する。図1は、本発明による同義表現判定装置の構成例を示す図である。図1を参照すると、本発明による同義表現判定装置は、プログラム制御により動作するデータ処理装置1と、情報を記憶する記憶装置2と、キーボード等の入力装置3と、ディスプレイ装置等の出力装置4とを含む。
入力装置3は、ユーザの操作等に従って、2組の二項関係を示すデータをデータ処理装置1に入力する機能を備えている。二項関係とは、用言とその格関係にある体言との組を表す。入力装置3は、2組の二項関係として、例えば「電源‐入れる」を示すデータと、「電源スイッチ‐投入する」を示すデータとをデータ処理装置1に入力する。なお、本実施形態では、入力装置3が2組の二項関係をデータ処理装置1入力する例について説明するが、2組に限らず、3組以上であってもよい。
出力装置4は、データ処理装置1による処理結果を出力する機能を備えている。例えば、出力装置4は、ディスプレイ装置等の表示装置によって実現され、データ処理装置1による処理結果を表示部に表示する。
データ処理装置1は、出現頻度計算手段10と、出現頻度補正手段11と、用言間類似度計算手段12と、体言間類似度計算手段13と、同義判定手段14とを含む。データ処理装置1は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。
出現頻度計算手段10は、文書記憶部20に格納された文書データ(以下、単に文書と記述する)から二項関係を抽出し、それぞれの出現頻度を計算する機能を備えている。出現頻度計算手段10は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
出現頻度補正手段11は、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを、概念クラス記憶部22を参照して求める機能を備えている。また、出現頻度補正手段11は、求めた度合いに応じて、文書集合に含まれる二項関係の出現頻度を補正する機能を備えている。出現頻度補正手段11は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
用言間類似度計算手段12は、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定め、入力用言間の特徴量が類似する度合いを計算する機能を備えている。用言間類似度計算手段12は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
体言間類似度計算手段13は、入力体言と文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、入力体言の特徴量として定め、入力体言間の特徴量が類似する度合いを計算する機能を備えている。体言間類似度計算手段13は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
同義判定手段14は、用言間の類似度と体言間の類似度とがあらかじめ指定した条件を満たす場合に、入力された2組の二項関係を同義表現として判定し、判定結果を出力装置4に出力する機能を備えている。同義判定手段14は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。
記憶装置2は、文書記憶部20と、出現頻度記憶部21と、同一クラス所属確率記憶部22と、補正出現頻度記憶部23とを含む。記憶装置2は、具体的には、光ディスク装置や磁気ディスク装置等によって実現される。
文書記憶部20は、文書集合を格納する。出現頻度記憶部21は、文書集合に含まれる二項関係の出現頻度を示すデータを格納する。出現頻度を示すデータは、例えば出現頻度計算手段10によって出現頻度記憶部21に登録される。
概念クラス記憶部22は、用言または体言が所属する概念クラスの種類を示すデータを格納する。これらのデータは、例えば予め人手で定めて概念クラス記憶部22に登録される。また例えば、統計値等に基づく計算により自動的に概念クラス記憶部22に登録される。
補正出現頻度記憶部23は、二項関係の補正後の出現頻度を示すデータを格納する。これらのデータは、例えば出現頻度補正手段11によって補正出現頻度記憶部23に登録される。
次に、図2を参照して本実施形態の動作について説明する。図2は、同義表現判定装置が実行する処理例を示す流れ図である。ここでは、入力装置3から2組の二項関係として、「電源‐入れる」を示すデータと、「電源スイッチ‐投入する」を示すデータとがデータ処理装置1に入力された場合を例として説明する。
上記の2組の二項関係を示すデータが入力装置3から入力されると、出現頻度計算手段10は、文書記憶部20に格納された文書から二項関係を抽出し、それぞれの出現頻度を計算する(図2のステップS1)。二項関係とは、用言とその格関係にある体言との組を表す。
ステップS1において出現頻度計算手段10は、文書に含まれる二項関係を、例えば、CaboChaのような形態素解析/構文解析ツールを用いて抽出する。CaboChaについては、文献(http://chasen.org/~taku/software/cabocha/)に記載されている。
出現頻度計算手段10は、形態素解析ツールを用いて、文を単語に分割し、各単語に品詞を付与する。例えば、「電源スイッチを投入する」という文を形態素解析すると、「電源[名詞-一般]/スイッチ[名詞-一般]/を[助詞-格助詞]/投入[名詞-サ変接続/する[動詞-自立]」を形態素解析結果として出力する。次いで出現頻度計算手段10は、構文解析ツールを用いて、形態素解析結果を文節に纏め上げ、文節間の係り受け関係を付与する。上記の形態素解析結果は、(1){電源/スイッチ/を}(2){投入/する}という二つの文節に纏め上げられ、(1)の文節と(2)の文節との間に、(1)を係り元とし、(2)を係り先とする係り受け関係が付与される。
この形態素解析/構文解析の結果を用いて、出現頻度計算手段10は、二項関係を次のような方法で抽出する。まず、出現頻度計算手段10は、用言の文節を検出する。用言の文節は、文節の先頭の形態素が「動詞-自立」「名詞-形容動詞語幹」「名詞-サ変接続」である文節とする。
次に、出現頻度計算手段10は、用言の文節の係り元の文節が、用言の文節と格関係にある体言の文節かを判定する。体言の文節は、文節の先頭の形態素が「名詞-一般」「名詞-サ変接続」「名詞-形容動詞語幹」である文節とする。用言の文節と格関係にあるかは、体言の文節の最後の形態素が「助詞-格助詞」「助詞-係助詞」であるかで判断する。
最後に、出現頻度計算手段10は、体言の文節の単語連続から用言と格関係にある助詞を取り除いたものを体言、用言の文節の単語連続を用言として認定する。上記の例では「電源スイッチ-投入する」が得られる。
なお、用言と格関係にある助詞を体言に含めても良い。この場合「電源スイッチを-投入する」が得られる。助詞を含めることで、助詞の違いによる二項関係の意味の違いを区別できるようになる。その一方で、出現頻度が分散するというデメリットもある。
出現頻度計算手段10は、抽出した二項関係の出現頻度を計算し、計算結果を出現頻度記憶部21に格納する。図3に出現頻度記憶部に格納するデータの一例を示す。図3に示す例では、縦軸が体言を、横軸が用言を、表の値が二項関係の出現頻度を表す。例えば、「電源スイッチ-投入する」の出現頻度は10である。
次に、出現頻度補正手段11は、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを、概念クラス記憶部22を参照して求める。そして、出現頻度補正手段11は、求めた度合いに応じて文書集合に含まれる二項関係の出現頻度を補正する(図2のステップS2)。
概念クラス記憶部22は、用言または体言が所属する概念クラスの種類を示すデータを格納する。これらの値は事前に格納しておく。確率の値は人手で定めても良いし、または、計算により自動的に定めても良い。以下、自動的に定める一つの方法を説明する。
体言が所属する概念クラスの種類は、例えばGMM(多次元正規分布)のような確率的クラスタリングを用いて決定する。GMMについては、例えば文献(http://convexbrain.sourceforge.jp/cgi-bin/wifky.pl?p=GMM)に記載されている。なお、確率的クラスタリングにはGMM以外も様々な方式があり、例えばPLSI(Thomas Hofmann,Probabilistic latent semantic indexing,Proceedings of the 22nd annual international ACM SIGIR conference on Reserch and development in information retrieval (SIGIR1999),pp.50-57,1999.)を用いてもよい。
GMMを用いた確率的クラスタリングでは、事前に概念クラスの数Kを指定することを前提とし、各概念クラスa(1<=a<=K)は一つの多次元正規分布を持つ。体言Nは、用言の種類数を次元数とするベクトルデータで表現し、各次元の値には、体言Nのその係り先の用言の出現頻度を与える。したがって、多次元正規分布の次元も用言Vの種類数となる。
体言Nがaに所属する確率P(a|N)は、EMアルゴリズムを用いて求める。まず、初期状態として任意のP(a|N)を与える。次に、P(a|N)を基にaの多次元正規分布の平均と分散とを更新する。この新しい多次元正規分布を基にP(a|N)を更新する。これを有限回数繰り返すことにより、P(a|N)を決定する。
図4の(a)は概念クラス記憶部22における体言が所属する概念クラスの格納例を示す。概念クラスは、a1-a5の5つとしている。体言が所属する概念クラスは確率P(a|N)で与えられている。
用言が所属する概念クラスの種類についても、同様の計算方法で求められる。図4の(b)に概念クラス記憶部22における用言が所属する概念クラスの格納例を示す。概念クラスは、b1-b5の5つとしている。用言が所属する概念クラスは確率で与えられている。
出現頻度補正手段11は、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを、概念クラス記憶部22を参照して求める。まず、出現頻度補正手段11は、文書集合に含まれる体言Nが入力体言INと同一概念で使用される度合いCS(N,IN)を、下記の式(1)を用いて求める。
CS(N,IN) = Σa min{ P(a|N), P(a|IN) } 式(1)
ここでは、aは概念クラスを表す。また、P(a|N)はNがaに所属する確率を表す。ここで、入力体言がIN1とIN2との2つ存在するため、出現頻度補正手段11は、文書集合に含まれる体言Nが入力体言IN1,IN2と同一概念で使用される度合いCS(N,IN1,IN2)を、下記の式(2)を用いて求める。
CS(N, IN1, IN2) = Max{ CN(N,IN1), CN(N,IN2) } 式(2)
今回の例では、入力体言は「電源」「電源スイッチ」である。また、文書集合に含まれる体言は、図3から「電源」「電源スイッチ」「ボタン」「学校」「大学」である。これらからCSを求めると、以下に示すようになる。
CS(電源,電源,電源スイッチ) = Max{CN(電源,電源), CN(電源,電源スイッチ) }=1.0
CS(電源スイッチ,電源スイッチ) = 1.0
CS(ボタン,電源,電源スイッチ) = 0.6
CS(学校,電源,電源スイッチ) = 0.1
CS(大学,電源,電源スイッチ) = 0.1
CS(電源スイッチ,電源スイッチ) = 1.0
CS(ボタン,電源,電源スイッチ) = 0.6
CS(学校,電源,電源スイッチ) = 0.1
CS(大学,電源,電源スイッチ) = 0.1
同様に、出現頻度補正手段11は、文書集合に含まれる用言Pが入力用言IP1,IP2と同一概念で使用される度合いも、下記の式(3)(4)を用いて求める。
CS(P, IP1, IP2) = Max{ CN(P,IP1), CN(P,IP2) } 式(3)
CS(P, IP) = Σb min{ P(P,b), P(IP,b) } 式(4)
CS(P, IP) = Σb min{ P(P,b), P(IP,b) } 式(4)
今回の例では、入力用言は「入れる」「投入する」である。また、文書集合に含まれる用言は、図3から「投入する」「入れる」「付ける」「落ちる」「安定する」である。これらからCSを求めると、以下に示すようになる。
CS(投入する, 入れる, 投入する) = 1.0
CS(入れる, 入れる, 投入する) = 1.0
CS(付ける, 入れる, 投入する) = 0.7
CS(落ちる, 入れる, 投入する) = 0.2
CS(安定する, 入れる, 投入する) = 0.2
CS(入れる, 入れる, 投入する) = 1.0
CS(付ける, 入れる, 投入する) = 0.7
CS(落ちる, 入れる, 投入する) = 0.2
CS(安定する, 入れる, 投入する) = 0.2
なお、CSの計算方法は上記に限定されるものではない。例えば、2つの体言または用言で共通する概念クラスの数をCSとする方法もあれば、2つの体言または用言で最も確率値の高い概念クラスが共通する場合にはCS=1とし、それ以外の場合にはCS=0とする方法もある。
次に、出現頻度補正手段11は、出現頻度記憶部21に格納されたそれぞれの二項関係の出現頻度を上記で求めたCSを用いて補正する。二項関係の用言に着目した補正と体言に着目した補正とがあり、前者には上記のCS(P, IP1, IP2)を用い、後者にはCS(N, NP1, NP2)を用いる。補正の方法としては、例えば、CSの値があらかじめ設定した閾値未満であれば0にする方法がある。図5の(a)は二項関係の体言に着目して閾値を0.6に設定し出現頻度を補正した補正出現頻度記憶部23の格納例を示す。同様に、図5の(b)は二項関係の用言に注目して閾値を0.6に設定し出現頻度を補正した結果を示す。なお、補正の方法としては、CSの値を出現頻度に乗ずる方法もある。
次に、用言間類似度計算手段12は、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定め、入力用言間の特徴量が類似する度合いを計算する。また、体言間類似度計算手段13は、入力体言と文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、入力体言の特徴量として定め、入力体言間の特徴量が類似する度合いを計算する(図2のステップS3)。なお、用言間類似度計算手段12と、体言間類似度計算手段13とが実行する処理の順序はどちらが先でも良い。
用言間類似度計算手段12は、まず、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定める。例えば、入力用言をV1とV2としたとき、用言間類似度計算手段12は、入力用言の特徴量として、例えば、{P(V1|n)|n∈N}、及び、{P(n|V2)|n∈N}として定める。ここで、P(V1|n)とP(n|V2)とは、V1またはV2と二項関係にある体言の補正した出現頻度を正規化した値(ここでは確率)を表す。また、nは全体集合Nから選択した任意の体言を表す。補正した出現頻度とは、出現頻度補正手段11において体言に着目して補正した出現頻度を表す。
次いで用言間類似度計算手段12は、用言間の特徴量が類似する度合いScore(V1,V2)を計算する。具体的には、下記の式(5)を用いて計算する。
Score(V1,V2) = P(V1|V2) = Σn∈N P(V1|n)×P(n|V2) 式(5)
Scoreの計算方法は上記の式(5)を用いる方法に限られない。例えば、入力された二項関係の用言の特徴量を{f(V1,n)|n∈N}、及び、{f(V2,n)|n∈N}を用いて、Cosine類似度を用いてScoreを計算しても良い。ここでf(V1,n)とf(V2,n)とは、V1またはV2が一致する二項関係の補正後の出現頻度を表す。
図6の提案方式の列は、補正後の出現頻度を用いて、Score(V1,V2)=P(投入する|入れる)を計算した結果を示す。図6に示す例では、Score(V1,V2)=0.263となる。
体言間類似度計算手段13も、用言間類似度計算手段12と同様の方式で入力体言間の特徴量が類似する度合いを求める。二項関係を構成する体言をN1とN2としたとき、P(N1|v)とP(v|N2)とは、N1またはN2と二項関係にある用言の補正した出現頻度を正規化した値(ここでは確率)を表す。また、vは全体集合Vから選択した任意の用言を表す。
体言間類似度計算手段13は、用言間の特徴量が類似する度合いScore(N1,N2)を計算する。具体的には、下記の式(6)を用いて計算する。
Score(N1,N2) = P(N1|N2) = Σv∈V P(N1|v)×P(v|N2) 式(6)
図7の提案方式の列は、補正後の出現頻度を用いて、Score(N1,N2)=P(電源スイッチ|電源)を計算した結果を示す。図7に示す例では、Score(N1,N2)=0.276となる。
次に同義判定手段14は、用言間の類似度と体言間の類似度とがあらかじめ指定した条件を満たす場合に、2組の入力された二項関係を同義表現として判定し、判定結果を出力装置4に出力する(図2のステップS4)。
あらかじめ指定した条件とは、例えば用言間の類似度と体言間の類似度との積が指定した値以上であるとする。この場合、Score(V1,V2)×Score(N1,N2) = 0.263×0.274 = 0.072になる。その他として、類似度の積とする代わりに類似度の和や平均とする方法、用言間の類似度と体言間の類似度とのどちらもが指定した値以上であることを条件とする方法、があり、適用する方法は限定されない。
なお、本実施の形態では、入力装置3と出力装置4とは、人間とコンピュータとのインターフェースとして用いられているが、他の装置やシステムから入力を受け取り、その装置等へ判定結果を出力するという使い方でも良い。この場合、同義判定手段14は類似度の積等をそのまま出力しても良い。また例えば、同義判定手段14を用いずに、用言間類似度計算手段12と体言間類似度計算手段13との計算結果をそのまま出力してもよい。
次に、本実施形態の効果について説明する。本実施形態では、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定できる。これは、入力用言間の類似度を計算する際に入力体言と同種の概念で用いられている用言のみの出現頻度の分布を特徴量として用いるためである。また、入力体言間の類似度を計算する際に入力用言と同種の概念で用いられている用言のみの出現頻度の分布を特徴量として用いるためである。
入力体言との関係で決定される入力用言の語義を語義Aとする。入力体言と同種の概念を持つ体言のみの出現頻度の分布を特徴量として用いることは、語義Aで使われる入力用言と二項関係にある体言の出現頻度の分布を特徴量として用いることを意味する。そのため、同義表現となる入力用言間の特徴量は類似することになる。
例えば、「電源を入れる」と「電源スイッチを投入する」とで決定される「投入する」と「入れる」との語義を語義Aとする。入力体言と同種の概念を持つ体言のみの出現頻度を特徴量として用いることは、語義Aで使われる「投入する」と「入れる」と二項関係にある体言の出現頻度の分布を特徴量として用いることを意味する。「[電源or電源スイッチと同種の概念を持つ体言]を投入する」と「[電源or電源スイッチと同種の概念を持つ体言]を入れる」とで決定される「投入する」と「入れる」との語義も語義Aであると考えられるためである。その結果、「投入する」と「入れる」との特徴量は類似することになる。
同様に、入力用言との関係で決定される入力体言の語義を語義Bとする。入力用言と同種の概念を持つ用言のみの出現頻度の分布を特徴量として用いることは、語義Bで使われる入力体言と二項関係にある用言の出現頻度の分布を特徴量として用いることを意味する。そのため、同義表現となる入力体言間の特徴量は類似することになる。
図6と図7とは、それぞれ入力体言間の類似度と入力用言間の類似度とを、非特許文献2に記載された方式で計算した値と提案方式で計算した値(すなわち、本実施形態で計算した値)との比較である。非特許文献2に記載された方式を用いた場合には、入力体言間の類似度が0.192、入力用言間の類似度が0.2、両者の積が0.038である。一方、提案方式を用いた場合には、入力体言間の類似度が0.263、入力用言間の類似度が0.276、両者の積が0.072である。このことからも、多義性を持つ入力用言または入力体言においても、提案方式は正しく同義判定できることがわかる。
以上に説明したように、本発明による同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、それらが同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義表現判定装置に関し、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いること、及び、入力体言間の類似度を、入力体言と文書集合において二項関係にある用言の出現頻度の分布に基づいて計算する際に、入力用言と同種の概念で用いられている用言のみの分布を用いることを特徴とする。
次に、本発明による同義表現判定装置の最小構成について説明する。図8は、同義表現判定装置の最小の構成例を示すブロック図である。図8に示すように、同義表現判定装置は、最小の構成要素として、同義判定手段14と、用言間類似度計算手段12とを含む。
図8に示す最小構成の同義表現判定装置では、同義判定手段14は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する。また、用言間類似度計算手段12は、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いる。
従って、最小構成の同義表現判定装置によれば、入力用言または入力体言が多義性を持つ場合でも、二項関係の同義表現を正しく判定できる。
なお、本実施形態では、以下の(1)〜(5)に示すような同義表現判定装置の特徴的構成が示されている。
(1)同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段(例えば、同義判定手段14によって実現される)と、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段(例えば、用言間類似度計算手段12によって実現される)とを備えたことを特徴とする。
(2)同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と(例えば、同義判定手段14によって実現される)、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段(例えば、用言間類似度計算手段12によって実現される)と、入力体言間の類似度を、入力体言と文書集合において二項関係にある用言の出現頻度の分布に基づいて計算する際に、入力用言と同種の概念で用いられている用言のみの分布を用いて計算する体言間類似度計算手段(例えば、体言間類似度計算手段13によって実現される)とを備えたことを特徴とする。
(3)同義表現判定装置は、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段(例えば、同義判定手段14によって実現される)と、用言または体言が所属する概念クラスの種類を格納した概念クラス記憶手段(例えば、概念クラス記憶部22によって実現される)と、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを概念クラス記憶手段が格納する概念クラスの種類を参照して求め、文書集合に含まれる二項関係の出現頻度を度合いに応じて補正する出現頻度補正手段(例えば、出現頻度補正手段11によって実現される)と、入力用言と文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、入力用言の特徴量として定め、入力用言間の特徴量が類似する度合いを計算する用言間類似度計算手段(例えば、用言間類似度計算手段12によって実現される)と、入力体言と文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、入力体言の特徴量として定め、入力体言間の特徴量が類似する度合いを計算する体言間類似度計算手段(例えば、体言間類似度計算手段13によって実現される)とを備えたことを特徴とする。
(4)同義表現判定装置において、二項関係を構成する体言に、用言と格関係にある助詞も含めるように構成されていてもよい。
(5)同義表現判定装置において、同義判定手段は、入力体言間の類似度と入力用言間の類似度とがあらかじめ定められた条件を満たす場合に、入力した二項関係の組が同義であると判定するように構成されていてもよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、実施形態に示した全構成要素から一部の構成要素を削除してもよい。また、他の構成要素を組み合わせてもよい。
この出願は、2011年5月10日に出願された日本特許出願2011−105589を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、例えば、自然文のような構文構造が複雑な問い合わせに対する正確な検索を実現する用途に適用可能である。
1 データ処理装置
2 記憶装置
3 入力装置
4 出力装置
10 出現頻度計算手段
11 出現頻度補正手段
12 用言間類似度計算手段
13 体言間類似度計算手段
14 同義判定手段
20 文書記憶部
21 出現頻度記憶部
22 概念クラス記憶部
23 補正出現頻度記憶部
2 記憶装置
3 入力装置
4 出力装置
10 出現頻度計算手段
11 出現頻度補正手段
12 用言間類似度計算手段
13 体言間類似度計算手段
14 同義判定手段
20 文書記憶部
21 出現頻度記憶部
22 概念クラス記憶部
23 補正出現頻度記憶部
本発明による同義表現判定方法は、同義判定手段と用言間類似度計算手段とを備える同義表現判定装置で実行される同義表現判定方法であって、同義判定手段が、体言と用言とから構成される二項関係の組を入力し、入力した二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定し、用言間類似度計算手段が、入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、入力体言と同種の概念で用いられている体言のみの分布を用いて計算することを特徴とする。
出現頻度補正手段11は、文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを、概念クラス記憶部22を参照して求める。まず、出現頻度補正手段11は、文書集合に含まれる体言Nが入力体言INと同一概念で使用される度合いCN(N,IN)を、下記の式(1)を用いて求める。
CN(N,IN) = Σa min{ P(a|N), P(a|IN) } 式(1)
CS(電源,電源,電源スイッチ) = Max{CN(電源,電源), CN(電源,電源スイッチ) }=1.0
CS(電源スイッチ,電源,電源スイッチ) = 1.0
CS(ボタン,電源,電源スイッチ) = 0.6
CS(学校,電源,電源スイッチ) = 0.1
CS(大学,電源,電源スイッチ) = 0.1
CS(電源スイッチ,電源,電源スイッチ) = 1.0
CS(ボタン,電源,電源スイッチ) = 0.6
CS(学校,電源,電源スイッチ) = 0.1
CS(大学,電源,電源スイッチ) = 0.1
Claims (7)
- 体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、
前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段とを
備えたことを特徴とする同義表現判定装置。 - 体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、
前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算手段と、
前記入力体言間の類似度を、入力体言と文書集合において二項関係にある用言の出現頻度の分布に基づいて計算する際に、前記入力用言と同種の概念で用いられている用言のみの分布を用いて計算する体言間類似度計算手段とを
備えたことを特徴とする同義表現判定装置。 - 体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定手段と、
用言または体言が所属する概念クラスの種類を格納した概念クラス記憶手段と、
文書集合に含まれる用言または体言が、入力用言または入力体言と同一の概念で使用される度合いを前記概念クラス記憶手段が格納する概念クラスの種類を参照して求め、前記文書集合に含まれる二項関係の出現頻度を前記度合いに応じて補正する出現頻度補正手段と、
前記入力用言と前記文書集合で二項関係にある体言の補正した出現頻度または出現頻度の分布を、前記入力用言の特徴量として定め、前記入力用言間の特徴量が類似する度合いを計算する用言間類似度計算手段と、
前記入力体言と前記文書集合で二項関係にある用言の補正した出現頻度または出現頻度の分布を、前記入力体言の特徴量として定め、前記入力体言間の特徴量が類似する度合いを計算する体言間類似度計算手段とを
備えたことを特徴とする同義表現判定装置。 - 二項関係を構成する体言に、用言と格関係にある助詞も含める
請求項1から請求項3のうちのいずれか1項に記載の同義表現判定装置。 - 同義判定手段は、入力体言間の類似度と入力用言間の類似度とがあらかじめ定められた条件を満たす場合に、入力した二項関係の組が同義であると判定する
請求項1から請求項4のうちのいずれか1項に記載の同義表現判定装置。 - 体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定し、
前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する
ことを特徴とする同義表現判定方法。 - コンピュータに、
体言と用言とから構成される二項関係の組を入力し、入力した前記二項関係の組が同義であるか否かを入力体言間と入力用言間とのそれぞれの類似度を用いて判定する同義判定処理と、
前記入力用言間の類似度を、入力用言と文書集合において二項関係にある体言の出現頻度の分布に基づいて計算する際に、前記入力体言と同種の概念で用いられている体言のみの分布を用いて計算する用言間類似度計算処理とを
実行させるための同義表現判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012548252A JP5234232B2 (ja) | 2011-05-10 | 2012-05-09 | 同義表現判定装置、方法及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011105589 | 2011-05-10 | ||
JP2011105589 | 2011-05-10 | ||
PCT/JP2012/003023 WO2012153524A1 (ja) | 2011-05-10 | 2012-05-09 | 同義表現判定装置、方法及びプログラム |
JP2012548252A JP5234232B2 (ja) | 2011-05-10 | 2012-05-09 | 同義表現判定装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5234232B2 JP5234232B2 (ja) | 2013-07-10 |
JPWO2012153524A1 true JPWO2012153524A1 (ja) | 2014-07-31 |
Family
ID=47139012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012548252A Active JP5234232B2 (ja) | 2011-05-10 | 2012-05-09 | 同義表現判定装置、方法及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9262402B2 (ja) |
JP (1) | JP5234232B2 (ja) |
CN (1) | CN103562907B (ja) |
SG (1) | SG194709A1 (ja) |
WO (1) | WO2012153524A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5916016B2 (ja) * | 2012-12-17 | 2016-05-11 | 日本電信電話株式会社 | 同義判定装置、同義学習装置、及びプログラム |
JP2016021136A (ja) * | 2014-07-14 | 2016-02-04 | 株式会社東芝 | 類義語辞書作成装置 |
JP6312942B2 (ja) * | 2015-10-09 | 2018-04-18 | 三菱電機株式会社 | 言語モデル生成装置、言語モデル生成方法とそのプログラム |
CN106777283B (zh) * | 2016-12-29 | 2021-02-26 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN107818081A (zh) * | 2017-09-25 | 2018-03-20 | 沈阳航空航天大学 | 基于深度语义模型与语义角色标注的句子相似度评估方法 |
CN110442760B (zh) * | 2019-07-24 | 2022-02-15 | 银江技术股份有限公司 | 一种问答检索系统的同义词挖掘方法及装置 |
CN111241124B (zh) * | 2020-01-07 | 2023-10-03 | 百度在线网络技术(北京)有限公司 | 一种需求模型构建方法、装置、电子设备和介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418716A (en) * | 1990-07-26 | 1995-05-23 | Nec Corporation | System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases |
US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
CA2487739A1 (en) * | 2002-05-28 | 2003-12-04 | Vladimir Vladimirovich Nasypny | Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems |
EP1665092A4 (en) * | 2003-08-21 | 2006-11-22 | Idilia Inc | INTERNET SEARCH USING SEMANTIC DISAMBIGUING AND EXPANSION |
WO2006119578A1 (en) * | 2005-05-13 | 2006-11-16 | Curtin University Of Technology | Comparing text based documents |
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
US8600736B2 (en) | 2007-01-04 | 2013-12-03 | Thinking Solutions Pty Ltd | Linguistic analysis |
US8374844B2 (en) * | 2007-06-22 | 2013-02-12 | Xerox Corporation | Hybrid system for named entity resolution |
US8674462B2 (en) | 2007-07-25 | 2014-03-18 | Infineon Technologies Ag | Sensor package |
WO2009026140A2 (en) * | 2007-08-16 | 2009-02-26 | Hollingsworth William A | Automatic text skimming using lexical chains |
US8868562B2 (en) * | 2007-08-31 | 2014-10-21 | Microsoft Corporation | Identification of semantic relationships within reported speech |
US8594996B2 (en) * | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
WO2009051068A1 (ja) * | 2007-10-19 | 2009-04-23 | Nec Corporation | 文書分析方法、文書分析システム及び文書分析用プログラム |
US20090326924A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Projecting Semantic Information from a Language Independent Syntactic Model |
US20090326925A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Projecting syntactic information using a bottom-up pattern matching algorithm |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
-
2012
- 2012-05-09 CN CN201280022780.9A patent/CN103562907B/zh active Active
- 2012-05-09 JP JP2012548252A patent/JP5234232B2/ja active Active
- 2012-05-09 US US14/117,297 patent/US9262402B2/en active Active
- 2012-05-09 SG SG2013080577A patent/SG194709A1/en unknown
- 2012-05-09 WO PCT/JP2012/003023 patent/WO2012153524A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN103562907B (zh) | 2016-12-07 |
US20140343922A1 (en) | 2014-11-20 |
JP5234232B2 (ja) | 2013-07-10 |
SG194709A1 (en) | 2013-12-30 |
WO2012153524A1 (ja) | 2012-11-15 |
CN103562907A (zh) | 2014-02-05 |
US9262402B2 (en) | 2016-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5234232B2 (ja) | 同義表現判定装置、方法及びプログラム | |
US10262062B2 (en) | Natural language system question classifier, semantic representations, and logical form templates | |
Rashel et al. | Building an Indonesian rule-based part-of-speech tagger | |
EP3179384A1 (en) | Method and device for parsing interrogative sentence in knowledge base | |
KR101573854B1 (ko) | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 | |
KR101627428B1 (ko) | 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치 | |
US10394961B2 (en) | Foreign language sentence creation support apparatus, method, and program | |
EP3598436A1 (en) | Structuring and grouping of voice queries | |
US20220245353A1 (en) | System and method for entity labeling in a natural language understanding (nlu) framework | |
US20240028650A1 (en) | Method, apparatus, and computer-readable medium for determining a data domain associated with data | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
Yuwana et al. | On part of speech tagger for Indonesian language | |
JP5426292B2 (ja) | 意見分類装置およびプログラム | |
Rasooli et al. | Unsupervised morphology-based vocabulary expansion | |
WO2022100071A1 (zh) | 语音文本聚类方法和装置 | |
US20210133394A1 (en) | Experiential parser | |
US20220229986A1 (en) | System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework | |
US20220245352A1 (en) | Ensemble scoring system for a natural language understanding (nlu) framework | |
US20220229990A1 (en) | System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework | |
US20220229998A1 (en) | Lookup source framework for a natural language understanding (nlu) framework | |
US20220229987A1 (en) | System and method for repository-aware natural language understanding (nlu) using a lookup source framework | |
Behera | An Experiment with the CRF++ Parts of Speech (POS) Tagger for Odia. | |
WO2018025317A1 (ja) | 自然言語処理装置及び自然言語処理方法 | |
KR101612629B1 (ko) | 사용자의 문법 이해 정도에 기반한 문법 오류 피드백 제공 방법 및 이를 수행하는 장치 | |
Ariaratnam et al. | A shallow parser for Tamil |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5234232 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |