WO2021084631A1

WO2021084631A1 - 情報処理装置、抽出方法および抽出プログラム

Info

Publication number: WO2021084631A1
Application number: PCT/JP2019/042437
Authority: WO
Inventors: 菜那長谷川; 宮尾　浩
Original assignee: 日本電信電話株式会社
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2021-05-06

Abstract

情報処理装置（１０）は、文書データから一般名詞とサ変接続名詞とからなる複合語を抽出し、抽出した複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、キーワードと一般名詞が同一の複合語を第２のグループにグルーピングする。そして、情報処理装置（１０）は、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語について、各複合語とキーワードとの類似度をそれぞれ計算する。続いて、情報処理装置（１０）は、計算した類似度に基づいて、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語のなかからキーワードの類義語候補を提示する。

Description

情報処理装置、抽出方法および抽出プログラム

　本発明は、情報処理装置、抽出方法および抽出プログラムに関する。

　従来、要件定義書等の開発文書作成時において、単語の統一性を保ち記載することは、後工程における文書レビュー時の稼働削減や仕様誤認による不具合盛り込みの防止のためにも重要である。従来の複合語の類義語抽出技術においては、複合語の周辺に共起する語の出現回数をベクトル成分として、その共起ベクトルの類似度で類似性を算出する手法が知られている（例えば、特許文献１参照）。

特開２０００－１３７７１８号公報

　しかしながら、従来の複合語の類義語抽出技術では、精度良く類義語の抽出を行うことができなかったという課題があった。例えば、上記した従来の複合語の類義語抽出技術では、複合語の周辺に共起する語の出現回数をベクトル成分として、その共起ベクトルの類似度で類似性を算出するので、出現回数の低い複合語では類似度の計算精度が低下し、精度良く類義語を抽出できないという課題があった。

　上述した課題を解決し、目的を達成するために、本発明の情報処理装置は、文書データから一般名詞とサ変接続名詞とからなる複合語を抽出する抽出部と、前記抽出部によって抽出された複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、前記キーワードと一般名詞が同一の複合語を第２のグループにグルーピングするグルーピング部と、前記グルーピング部によって前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語について、各複合語と前記キーワードとの類似度をそれぞれ計算する計算部と、前記計算部によって計算された類似度に基づいて、前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語のなかから前記キーワードの類義語候補を提示する提示部とを有することを特徴とする。

　本発明によれば、精度良く類義語の抽出を行うことができるという効果を奏する。

図１は、第１の実施形態に係る情報処理装置の構成の一例を示す図である。図２は、サ変接続名詞が同一の複合語のグループの一例を示す図である。図３は、一般名詞が同一の複合語のグループの一例を示す図である。図４は、サ変接続名詞が同一の複合語のグループについての類似度の計算例について説明する図である。図５は、一般名詞が同一の複合語のグループについての類似度の計算例について説明する図である。図６は、類義語候補の出力例を示す図である。図７は、第１の実施形態に係る情報処理装置における処理の概要を説明する図である。図８は、第１の実施形態に係る情報処理装置における類義語抽出処理の流れの一例を示すフローチャートである。図９は、抽出プログラムを実行するコンピュータを示す図である。

　以下に、本願に係る情報処理装置、抽出方法および抽出プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る情報処理装置、抽出方法および抽出プログラムが限定されるものではない。

［第１の実施形態］
　以下の実施の形態では、第１の実施形態に係る情報処理装置１０の構成、情報処理装置１０の処理の流れを順に説明し、最後に第１の実施形態による効果を説明する。

［情報処理装置の構成］
　まず、図１を用いて、情報処理装置１０の構成について説明する。図１は、第１の実施形態に係る表示制御装置の構成の一例を示す図である。情報処理装置１０は、開発文書等の文書データを作成する開発者（ユーザ）が入力した複合語の類義語を提示することで、開発文書における複合語の記載ゆれを防止するための装置である。

　図１に示すように、情報処理装置１０は、通信部１１、入力部１２、出力部１３、制御部１４及び記憶部１５を有する。以下では、各部について説明する。

　通信部１１は、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部１１は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した他の装置と制御部１４との間の通信を行う。例えば、通信部１１は、端末装置（図示せず）などを介して入力されたキーワードを、制御部１４に入力する。

　入力部１２は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１４に対して処理開始などの各種指示情報を入力する。出力部１３、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部１３は、入力されたキーワードについての文書データ内の類義語の候補を出力する。

　記憶部１５は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現され、情報処理装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが記憶される。例えば、記憶部１５は、文書データ記憶部１５ａを有する。

　文書データ記憶部１５ａは、文書データを記憶する。例えば、文書データ記憶部１５ａは、文書データとして、開発文書のテキストデータを記憶する。なお、文書データは、開発文書のテキストデータに限定されるものではなく、例えば、校閲対象のテキストデータなどであってもよい。

　制御部１４は、各種の処理手順などを規定したプログラム及び所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部１４は、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）などの電子回路である。制御部１４は、抽出部１４ａ、グルーピング部１４ｂ、計算部１４ｃおよび提示部１４ｄを有する。

　抽出部１４ａは、文書データから一般名詞とサ変接続名詞とからなる複合語を抽出する。例えば、抽出部１４ａは、ユーザからキーワードを受け付けると、文書データ記憶部１５ａから文書データを取得する。なお、文書データ記憶部１５ａから文書データに複数種類の文書データが記憶されている場合には、ユーザが対象となる文書データを指定するようにしてもよい。

　そして、例えば、抽出部１４ａは、取得した文書データのコーパスを形態素解析し、名詞の細分類が「一般名詞」＋「サ変接続名詞」で連続したものを連結して、複合語として抽出する。なお、抽出部１ａは、一般名詞とサ変接続名詞の順番が逆の場合も抽出するものとする。具体例を挙げて説明すると、抽出部１４ａは、「一般名詞」＋「サ変接続名詞」で連続したものとして、「ミドルウェア」（一般名詞）と「再開」（サ変接続名詞）が連続した「ミドルウェア再開」を抽出する。なお、「ミドルウェア再開」は、「ミドルウェア（名詞）を再開する（動詞）」というように、目的語（名詞）＋述語（動詞）の関係となっている。

　グルーピング部１４ｂは、抽出部１４ａによって抽出された複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、キーワードと一般名詞が同一の複合語を第２のグループにグルーピングする。

　例えば、グルーピング部１４ｂは、キーワードが「ミドルウェア再開」である場合に、図２に例示するように、サ変接続名詞部の「再開」が同一である複合語として、「ミドルウェア再開」、「ミドル再開」、「ＯＳ再開」および「アプリ再開」を同一グループにグルーピングする。図２は、サ変接続名詞が同一の複合語のグループの一例を示す図である。

　また、例えば、グルーピング部１４ｂは、キーワードが「ミドルウェア再開」である場合に、図３に例示するように、一般名詞部の「ミドルウェア」が同一である複合語として、「ミドルウェア再開」、「ミドルウェア構築」、「ミドルウェア再起動」および「ミドルウェア停止」を同一グループにグルーピングする。図３は、一般名詞が同一の複合語のグループの一例を示す図である。

　計算部１４ｃは、グルーピング部によって第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語について、各複合語とキーワードとの類似度をそれぞれ計算する。

　例えば、計算部１４ｃは、各複合語とキーワードとのレーベンシュタイン距離を用いて類似度を計算する。ここで、レーベンシュタイン距離とは、二つの文字列がどの程度異なっているかを示す距離のことをいう。また、レーベンシュタイン距離とは、１文字の挿入、削除、置換を行うことによって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最少回数である。なお、以降では、この最小回数について、適宜「コスト」と記載する。

　具体例を挙げて説明すると、「ｋｉｔｔｅｎ」を「ｓｉｔｔｉｎｇ」に変形する場合には、例えば、ｋｉｔｔｅｎ→ｓｉｔｔｅｎ（ｋをｓに置換）→ｓｉｔｔｉｎ（ｅをｉに置換）→ｓｉｔｔｉｎｇ（ｇを追加）という手順となるため、最低でも３回の手順が必要となる。このため、「ｋｉｔｔｅｎ」と「ｓｉｔｔｉｎｇ」の２単語間のレーベンシュタイン距離は、「３」となる。

　また、計算部１４ｃは、文字列の長さを考慮して、レーベンシュタイン距離を標準化するための処理を行ってもよい。例えば、計算部１４ｃは、文字列Ａと文字列Ｂのレーベンシュタイン距離を計算した後、計算したレーベンシュタイン距離を文字列Ａと文字列Ｂのうち長い方の文字列の長さで除算し、標準化されたレーベンシュタイン距離をもとめる。標準化されたレーベンシュタイン距離は、０から１までの間の距離をもつ。

　また、計算部１４ｃは、第１のグループの複合語が第２のグループの複合語よりも類似度が高くなるように重み付して類似度を計算するようにしてもよい。例えば、計算部１４ｃは、重み補正値が「１／２」である場合には、第１のグループのレーベンシュタイン距離の値に１／２を乗算する。なお、レーベンシュタイン距離の値が小さいほど、文字列同士の類似度が高いものとする。

　ここで、図４の例を用いて、サ変接続名詞が同一の複合語のグループについての類似度の計算例について説明する。図４は、サ変接続名詞が同一の複合語のグループについての類似度の計算例について説明する図である。なお、図４の例では、重み補正値が「１／２」であるものとする。図４に例示するように、計算部１４ｃは、サ変接続名詞が同一の複合語のグループのなかの各一般名詞部とキーワードの一般名詞部とのレーベンシュタイン距離をそれぞれ計算する。

　図４の一例を挙げて説明すると、計算部１４ｃは、キーワードが「ミドルウェア再開」である場合に、キーワードの一般名詞部「ミドルウェア」と文書データ内の複合語の一般名詞部「ミドル」とのレーベンシュタイン距離を計算する。この場合、計算部１４ｃは、一般名詞部「ミドルウェア」が文書データ内の複合語の一般名詞部「ミドル」に変形するのに必要な手順の最少回数が「３」であり、文字列が長い方の一般名詞「ミドルウェア」の文字数が「６」であるため、コスト「３」と重み「１／２」を乗算し、乗算した値を文字数「６」で除算する。この結果、計算部１４ｃは、類似度（図４の例では、「補正後コスト」と記載）として「１／４」を得る。

　続いて、図５の例を用いて、一般名詞が同一の複合語のグループについての類似度の計算例について説明する。図５は、一般名詞が同一の複合語のグループについての類似度の計算例について説明する図である。図５に例示するように、計算部１４ｃは、一般名詞が同一の複合語のグループのなかの各サ変接続名詞部とキーワードのサ変接続名詞部とのレーベンシュタイン距離をそれぞれ計算する。

　図５の一例を挙げて説明すると、計算部１４ｃは、キーワードが「ミドルウェア再開」である場合に、キーワードのサ変接続名詞部「再開」と文書データ内の複合語のサ変接続名詞部「構築」とのレーベンシュタイン距離を計算する。この場合、計算部１４ｃは、サ変接続名詞部「再開」が文書データ内の複合語のサ変接続名詞部「構築」に変形するのに必要な手順の最少回数が「２」であり、文字列が長い方のサ変接続名詞の文字数が「２」であるため（この例では、「再開」と「構築」の文字数が同じ「２」）、コスト「２」を文字数「２」で除算する。この結果、計算部１４ｃは、類似度（図５の例では、「コスト」と記載）として「１」を得る。

　提示部１４ｄは、計算部１４ｃによって計算された類似度に基づいて、複合語のなかからキーワードの類義語候補を提示する。例えば、提示部１４ｄは、計算部１４ｃによって計算された各複合語の類似度の順位を決定し、該順位に応じて、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語のなかからキーワードの類義語候補を提示する。

　また、例えば、提示部１４ｄは、計算部１４ｃによって計算された各複合語の類似度の順位を決定し、該順位に応じて、複合語のなかからキーワードの類義語候補を提示するようにしてもよい。図６に例示するように、提示部１４ｄは、計算部１４ｃによって計算されたコストの値もしくは補正後のコストの値が最も小さい複合語、つまり、キーワードとの類似度が最も高い複合語の順位を「１」と設定し、次いでコストの値もしくは補正後のコストの値が最も小さい複合語の順位を「２」と設定し、その後、順位「３」以降についても同様に設定していく。

　そして、提示部１４ｄは、設定した順位のうち、最上位の複合語を類義語の候補として提示してもよいし、上位の複合語のうちの所定順位の複合語を類義語として提示してもよい。つまり、図６の例では、例えば、提示部１４ｄは、最上位の複合語を類義語の候補として提示する場合には、「ミドル再開」を類義語の候補として提示する。また、図６の例では、例えば、提示部１４ｄは、上位の複合語のうちの１～３位までの複合語を類義語の候補として提示する場合には、「ミドル再開」、「ＯＳ再開」、「アプリ再開」を類義語の候補として提示する。なお、提示部１４ｄは、キーワードと同じ複合語については提示しないものとする。

　このように、情報処理装置１０は、文書データから一般名詞とサ変接続名詞とからなる複合語を抽出し、抽出した複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、キーワードと一般名詞が同一の複合語を第２のグループにグルーピングする。そして、情報処理装置１０は、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語について、各複合語とキーワードとの類似度をそれぞれ計算する。続いて、情報処理装置１０は、計算した類似度に基づいて、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語のなかからキーワードの類義語候補を提示する。

　ここで、図７を用いて、情報処理装置１０における処理の概要を説明する。図７は、第１の実施形態に係る情報処理装置における処理の概要を説明する図である。図７に例示するように、ユーザからキーワードとして「ミドルウェア再開」の入力を受け付けると、文書データから一般名詞とサ変接続名詞とからなる複合語を抽出し、抽出した複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、キーワードと一般名詞が同一の複合語を第２のグループにグルーピングする。

　そして、情報処理装置１０は、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語について、各複合語とキーワードとの類似度をそれぞれ計算する。この結果、情報処理装置１０は、計算した類似度が最も高い複合語が「ミドル再開」である場合には、図７に例示するように、「ミドルウェア再開」に同義語がある旨と、同義語の候補として「ミドル再開」を提示する。

［情報処理装置の処理手順］
　次に、図８を用いて、第１の実施形態に係る情報処理装置１０による処理手順の例を説明する。図８は、第１の実施形態に係る情報処理装置における類義語抽出処理の流れの一例を示すフローチャートである。

　図８に例示するように、情報処理装置１０の抽出部１４ａは、ユーザからキーワードを受け付けると（ステップＳ１０１肯定）、文書データから複合語を抽出する（ステップＳ１０２）。例えば、抽出部１４ａは、文書データのコーパスを形態素解析し、名詞の細分類が「一般名詞」＋「サ変接続名詞」で連続したものを連結して、複合語として抽出する。

　続いて、グルーピング部１４ｂは、抽出部１４ａによって抽出された複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語でグルーピングし（ステップＳ１０３）、キーワードと一般名詞が同一の複合語でグルーピングする（ステップＳ１０４）。

　そして、計算部１４ｃは、グルーピングされた複合語について、各複合語とキーワードとの類似度をそれぞれ計算する（ステップＳ１０５）。例えば、計算部１４ｃは、各複合語とキーワードとのレーベンシュタイン距離を用いて類似度を計算する。

　提示部１４ｄは、計算部１４ｃによって計算された類似度に基づいて、複合語のなかからキーワードの類義語候補を提示する（ステップＳ１０６）。例えば、提示部１４ｄは、計算部１４ｃによって計算された各複合語の類似度の順位を決定し、該順位に応じて、グルーピングされた複合語のなかからキーワードの類義語候補を提示する。

［第１の実施形態の効果］
　このように、情報処理装置１０は、文書データから一般名詞とサ変接続名詞とからなる複合語を抽出し、抽出した複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、キーワードと一般名詞が同一の複合語を第２のグループにグルーピングする。そして、情報処理装置１０は、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語について、各複合語とキーワードとの類似度をそれぞれ計算する。続いて、情報処理装置１０は、計算した類似度に基づいて、第１のグループにグルーピングされた複合語、および、第２のグループにグルーピングされた複合語のなかからキーワードの類義語候補を提示する。

　このため、情報処理装置１０は、精度良く類義語の抽出を行うことが可能である。つまり、第１の実施形態に係る情報処理装置１０は、出現回数の低い複合語であっても、類似度の計算精度が低下せず、精度良く類義語の抽出を行うことが可能である。

　また、本実施形態では、開発文書においては、一般名詞＋サ変接続名詞の複合語（例では、ミドルウェア＋再開）がキーワードして多く用いられることに着目し、情報処理装置１０は、一般名詞部が同一なもの、サ変接続名詞が同一なものをグルーピングしてそれぞれ類似度（例えばレーベンシュタイン距離）を算出することで、精度良く類似度を計算することができる。

　また、本実施形態では、当該複合語においては、一般名詞部(目的語)が言い換えられたものの方が、サ変接続名詞部が言い換えられたものより類似性が高いと考えられることから、情報処理装置１０は、上記の一般名詞部が言い換えられたグループの類似度を高くなるように重み補正を行って類似度の計算を行う。例えば、情報処理装置１０は、「ミドルウェア再開」のキーワードに対し、「ミドル再開」の方が「ミドルウェア再起動」より類似性が高くなるように重み補正を行って類似度の計算を行う。これにより、情報処理装置１０は、出現回数の低い複合語に対しても、より精度良く類義語の抽出を可能とする。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　図９は、抽出プログラムを実行するコンピュータを示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、情報処理装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク、ＷＡＮを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　情報処理装置
　１１　通信部
　１２　入力部
　１３　出力部
　１４　制御部
　１４ａ　抽出部
　１４ｂ　グルーピング部
　１４ｃ　計算部
　１４ｄ　提示部
　１５　記憶部
　１５ａ　文書データ記憶部

Claims

　文書データから一般名詞とサ変接続名詞とからなる複合語を抽出する抽出部と、
　前記抽出部によって抽出された複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、前記キーワードと一般名詞が同一の複合語を第２のグループにグルーピングするグルーピング部と、
　前記グルーピング部によって前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語について、各複合語と前記キーワードとの類似度をそれぞれ計算する計算部と、
　前記計算部によって計算された類似度に基づいて、前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語のなかから前記キーワードの類義語候補を提示する提示部と
　を有することを特徴とする情報処理装置。
　前記計算部は、前記各複合語と前記キーワードとのレーベンシュタイン距離を用いて前記類似度を計算することを特徴とする請求項１に記載の情報処理装置。
　前記計算部は、前記第１のグループの複合語が前記第２のグループの複合語よりも類似度が高くなるように重み付して前記類似度を計算することを特徴とする請求項１に記載の情報処理装置。
　前記提示部は、前記計算部によって計算された各複合語の類似度の順位を決定し、該順位に応じて、前記複合語のなかから前記キーワードの類義語候補を提示することを特徴とする請求項１に記載の情報処理装置。
　情報処理装置によって実行される抽出方法であって、
　文書データから一般名詞とサ変接続名詞とからなる複合語を抽出する抽出工程と、
　前記抽出工程によって抽出された複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、前記キーワードと一般名詞が同一の複合語を第２のグループにグルーピングするグルーピング工程と、
　前記グルーピング工程によって前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語について、各複合語と前記キーワードとの類似度をそれぞれ計算する計算工程と、
　前記計算工程によって計算された類似度に基づいて、前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語のなかから前記キーワードの類義語候補を提示する提示工程と
　を含むことを特徴とする抽出方法。
　文書データから一般名詞とサ変接続名詞とからなる複合語を抽出する抽出ステップと、
　前記抽出ステップによって抽出された複合語のうち、入力されたキーワードとサ変接続名詞が同一の複合語を第１のグループにグルーピングし、前記キーワードと一般名詞が同一の複合語を第２のグループにグルーピングするグルーピングステップと、
　前記グルーピングステップによって前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語について、各複合語と前記キーワードとの類似度をそれぞれ計算する計算ステップと、
　前記計算ステップによって計算された類似度に基づいて、前記第１のグループにグルーピングされた複合語、および、前記第２のグループにグルーピングされた複合語のなかから前記キーワードの類義語候補を提示する提示ステップと
　をコンピュータに実行させることを特徴とする抽出プログラム。