WO2020170804A1

WO2020170804A1 - 同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム

Info

Publication number: WO2020170804A1
Application number: PCT/JP2020/004114
Authority: WO
Inventors: 鎮成齋藤; 宮尾　浩; 須永　聡
Original assignee: 日本電信電話株式会社
Priority date: 2019-02-21
Filing date: 2020-02-04
Publication date: 2020-08-27
Also published as: JP7147625B2; US11900055B2; JP2020135567A; US20220138417A1

Abstract

同義語抽出装置は、文書に含まれる複合語それぞれについて、複合語を構成する名詞の種類がサ変名詞かサ変名詞以外の名詞かを判定し、複合語を構成する名詞の種類の並びのパターンを判断する。そして、同義語抽出装置は、文書から上記の名詞の種類の並びのパターンが同じ複合語群を抽出し、さらにその中から、先頭または末尾の単語が同じ複合語を抽出する。次に、同義語抽出装置は、名詞の並びのパターンが同じ、かつ、先頭または末尾の単語が同じ複合語群について、当該複合語と同じ文に登場する名詞を成分とする共起ベクトルを作成し、複合語の共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する。

Description

同義語抽出装置、同義語抽出方法、および、同義語抽出プログラム

　本発明は、同義語抽出装置、同義語抽出方法、および、同義語抽出プログラムに関する。

　例えば、要件定義書等の開発文書を作成する際、文書内の単語の統一性を保持して記載することは、後工程における文書レビュー時の稼働軽減や仕様の誤認の防止のため重要である。ここで、既存の文書校正ツールでは、内部辞書により一般的な単体語の不統一（例えば、「監督」と「管理」等）を発見可能である。しかし、主に複合語で構成される専門用語に関しては内部辞書に登録されておらず、上記のような単語の不統一を発見しにくい。

　そこで、文書内で複合語についても不統一となっている単語を発見するため、複合語の単語同士の類似度を用いて、同義語となる複合語を抽出する手法がある。ここでの複合語の単語同士の類似度の算出には、複合語の周辺に共起する語をベクトル成分とした共起ベクトルを用いる。つまり、各複合語の共起ベクトルを作成すると、各複合語の共起ベクトル同士の類似度を算出し、算出した類似度が所定値以上の複合語を同義語として抽出する。

特許第５７５４０１９号公報

宮崎正弘、「係り受け解析を用いた複合語の自動分割法」、情報処理学会文誌、Vol.25　No.6　Nov.1984 佐藤雅彦他、「助詞で結合された名詞句の意味的な類似判別法」、The　18th　Annual　Conference　of　the　Japanese　Society　for　Artificial　Intelligence、2004

　しかし、従来技術において、複合語の共起ベクトルのみで複合語同士の類似度を算出すると、類似度の算出精度が必ずしも高くないため、文書から複合語の同義語を精度よく抽出できないという問題がある。そこで、本発明は、前記した問題を解決し、複合語の同義語を精度よく抽出することを課題とする。

　前記した課題を解決するため、本発明は、文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定部と、前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第１の抽出部と、前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第２の抽出部と、前記第２の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成部と、前記第２の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出部と、前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力部と、を備えることを特徴とする。

　本発明によれば、複合語の同義語を精度よく抽出することができる。

図１は、第１の実施形態の概要を説明するための図である。図２は、第１の実施形態の同義語抽出装置の構成例を示す図である。図３は、図２の同義語抽出装置の処理手順の例を示すフローチャートである。図４は、第２の同義語抽出装置における共起ベクトルの作成例を説明するための図である。図５は、同義語抽出プログラムを実行するコンピュータの例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）を第１の実施形態および第２の実施形態に分けて説明する。本発明は、各実施形態に限定されない。

［第１の実施形態］
　まず、図１を用いて第１の実施形態の同義語抽出装置の概要を説明する。同義語抽出装置は、所定の文書から複合語の同義語を抽出する。ここでの複合語とは、複数の名詞から構成される語であり、例えば、「ファイル更新」や「課金方式」といった語である。

　同義語抽出装置は、まず、同義語の抽出対象の文書から複合語を抽出する。そして、同義語抽出装置は、抽出した複合語について、以下の（Ａ）および（Ｂ）の処理により抽出した複合語を同義語の第一候補とする。

　すなわち、同義語抽出装置は、まず、複合語を構成する名詞の細分類パターンが同じ複合語を抽出する（（Ａ））。名詞の細分類パターンとは、複合語を構成する名詞の種類（サ変名詞か一般名詞（サ変名詞以外の名詞）か）の並びのパターンである。なお、以下の説明におけるサ変名詞とは、動詞「する」に接続してサ行変格活用の動詞となりうる名詞である。例えば、上記の「ファイル更新」に含まれる「更新」はサ変名詞である。

　まず、同義語抽出装置は、複合語を構成する名詞それぞれの種類がサ変名詞か一般名詞（サ変名詞以外の名詞）かを判定する。そして、同義語抽出装置は、上記の判定結果に基づき各複合語を、図１の（１）～（４）に示すいずれかの細分類パターンに分類する。

　例えば、同義語抽出装置は、「ファイル更新」や「データベース更新」という複合語は、一般名詞＋サ変名詞なので、一般名詞＋サ変名詞（＋サ変名詞）のパターン（（１））に分類する。また、同義語抽出装置は、「課金方式」や「保留状態」という複合語は、サ変名詞＋一般名詞なので、サ変名詞（＋サ変名詞）＋一般名詞のパターン（（２））に分類する。

　さらに、同義語抽出装置は、「トラヒック条件」や「データフォーマット」という複合語は、一般名詞＋一般名詞なので、一般名詞＋一般名詞（＋一般名詞）のパターン（（３））に分類する。また、同義語抽出装置は、「再開制御」という複合語は、サ変名詞＋サ変名詞なので、サ変名詞＋サ変名詞（＋サ変名詞）のパターン（（４））に分類する。

　次に、同義語抽出装置は、上記の（Ａ）で抽出した同じパターン（細分類パターン）の複合語の中で、複合語を構成する名詞の先頭または最終の名詞が同じ複合語を抽出する（（Ｂ））。

　例えば、「データベース更新」という語は、一般名詞＋サ変名詞なので、上記の細分類パターンの（１）に該当する。よって、同義語抽出装置は、上記の細分類パターンの（１）に該当する複合語群から、「データベース更新」と先頭の語（「データベース」）が共通する、「データベース変更」と「データベース構築」とを抽出する。

　また、同義語抽出装置は、上記の細分類パターンの（１）に該当する複合語群から、「データベース更新」と最後の語（「更新」）が共通する、「ファイル更新」と「メモリ更新」と「ＤＢ更新」とを抽出する。そして、同義語抽出装置は、抽出したこれらの複合語を、「データベース更新」の同義語の第一候補として抽出する。

　次に、同義語抽出装置は、抽出した第一候補の各複合語に関して、当該複合語と同じ文に共起する名詞の共起ベクトルを抽出し、各複合語の共起ベクトル同士の類似度を算出し、類似度が閾値以上の複合語をユーザに提示する。

　例えば、「データベース更新」に対する、「データベース変更」、「データベース構築」、「ファイル更新」、「メモリ更新」および「ＤＢ更新」の類似度がそれぞれ符号１０１に示す値であった場合を考える。この場合、同義語抽出装置は、「データベース更新」との類似度が閾値以上の複合語である「データベース変更」と「ＤＢ更新」とを、「データベース更新」の同義語としてユーザに提示する。このようにすることで同義語抽出装置は、複合語の同義語を精度よく抽出することができる。

　次に、同義語抽出装置の構成例を説明する。同義語抽出装置１０は、例えば、図２に示すように、入出力部１１と、記憶部１２と、制御部１３とを備える。

　入出力部１１は、各種データの入出力を司る。例えば、入出力部１１は、同義語の抽出対象となる文書データ（例えば、対象文書コーパス）の入力を受け付けたり、同義語と判断された複合語群を出力したりする。

　記憶部１２は、同義語の抽出処理に用いる各種データを記憶する。記憶部１２は、例えば、入出力部１１経由で入力された、同義語の抽出対象となる文書データである対象文書コーパスを記憶する。

　制御部１３は、同義語抽出装置１０全体の制御を司る。この制御部１３は、例えば、複合語抽出部１３１と、名詞判定部（判定部）１３２と、第１の抽出部１３３と、第２の抽出部１３４と、共起ベクトル作成部１３５と、類似度算出部１３６と、同義語出力部１３７とを備える。

　複合語抽出部１３１は、同義語の抽出対象の文書（例えば、対象文書コーパス）から複合語を抽出する。例えば、複合語抽出部１３１は、対象文書のコーパスの形態素解析を行い、名詞が連続したものを連結し、複合語として抽出する。

　名詞判定部１３２は、複合語抽出部１３１により抽出された複合語それぞれについて、当該複合語を構成する名詞の種類がサ変名詞か一般名詞かを判定する。

　第１の抽出部１３３は、複合語それぞれについて当該複合語を構成する名詞の種類の並びのパターン（細分類パターン）が、前記した（１）～（４）に示すどのパターンに該当するかを判定する。そして、第１の抽出部１３３は、同じ細分類パターンに該当する複合語群を抽出する。

　第２の抽出部１３４は、第１の抽出部１３３により抽出された細分類パターンが同じ複合語群から、先頭または末尾の単語が同じ複合語を抽出する。

　例えば、第２の抽出部１３４は、細分類パターンが、（１）一般名詞＋サ変名詞（＋サ変名詞）に該当する「データベース更新」について、同じ細分類パターン（１）に属する複合語群から、先頭の語が「データベース」である複合語と、末尾（最終）の語が「更新」である複合語とを抽出する。

　なお、複合語が３以上の語から構成される場合も考えられる。この場合、第２の抽出部１３４は、複合語の末尾の語より前の語群を先頭の語として抽出する。例えば、「データベース更新規制」という複合語について、第２の抽出部１３４は末尾の語「規制」より前の「データベース更新」を先頭の語として抽出する。

　共起ベクトル作成部１３５は、第２の抽出部１３４により抽出された複合語それぞれの共起ベクトルを作成する。具体的には、共起ベクトル作成部１３５は、第２の抽出部１３４により抽出された複合語（つまり、同じ細分類パターンに該当し、かつ、先頭または末尾の語が同じ複合語）それぞれについて、当該複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する。例えば、共起ベクトル作成部１３５は、上記の「データベース更新」、「データベース変更」、「データベース構築」、「ファイル更新」、「メモリ更新」および「ＤＢ更新」それぞれの共起ベクトルを作成する。

　例えば、共起ベクトル作成部１３５が「ファイル更新」の共起ベクトルを作成する場合を考える。この場合、「ファイル更新」が含まれる文と同じ文に共起する名詞が「転送」、「系切替え」、「再開」、「異世代」、「サービス中断」であり、当該文における各名詞の登場回数がそれぞれ「２」、「５」、「３」、「２」、「３」であるとき、共起ベクトル作成部１３５は、図４の符号４０１に示す共起ベクトルを作成する。

　なお、共起ベクトル作成部１３５は、複合語の共起ベクトルを作成する際、共起する名詞を抽出する範囲は、当該複合語が含まれる文と同じ文でもよいし、当該複合語が含まれる段落と同じ段落でもよいし、当該複合語が含まれる文書と同じ文書でもよい。

　図２の説明に戻る。類似度算出部１３６は、第２の抽出部１３４により抽出された複合語それぞれの共起ベクトル同士の類似度を算出する。つまり、類似度算出部１３６は、同じ細分類パターンに該当し、かつ、先頭または末尾の語が同じ複合語それぞれについて、当該複合語の共起ベクトルを用いて複合語同士の類似度を算出する。

　同義語出力部１３７は、類似度算出部１３６により算出された類似度が所定の閾値以上の複合語群を同義語として出力する。例えば、同義語出力部１３７は、「データベース更新」との類似度が閾値以上の複合語が「データベース変更」と「ＤＢ更新」であった場合、「データベース変更」と「ＤＢ更新」とを「データベース更新」の同義語として出力する。

　このような同義語抽出装置によれば、複合語の同義語を精度よく抽出することができる。

［処理手順の例］
　次に、図３を用いて、同義語抽出装置１０の処理手順の例を説明する。まず、同義語抽出装置１０の複合語抽出部１３１は、対象文書コーパスの形態素解析等を行うことにより、対象文書コーパスから複合語を抽出する（Ｓ１）。そして、名詞判定部１３２は、Ｓ１で抽出された複合語を構成する名詞の種類（サ変名詞か一般名詞か）を判定する（Ｓ２）。

　Ｓ２の後、第１の抽出部１３３は、Ｓ２における名詞の種類の判定結果に基づき、Ｓ１で抽出された複合語の中から、複合語を構成する名詞の細分類パターンが同じ複合語を抽出する（Ｓ３）。そして、第２の抽出部１３４は、Ｓ３で抽出された細分類パターンが同じ複合語の中で、複合語を構成する先頭または最終の名詞が同じ複合語を抽出する（Ｓ４）。

　Ｓ４の後、共起ベクトル作成部１３５は、Ｓ４で抽出された複合語それぞれについて、当該複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する（Ｓ５：複合語の共起ベクトルを作成）。

　Ｓ５の後、類似度算出部１３６は、Ｓ４で抽出された複合語の共起ベクトル同士の類似度を算出する（Ｓ６）。そして、同義語出力部１３７は、Ｓ６で算出された類似度が所定の閾値以上の複合語を同義語として出力する（Ｓ７）。

　このようにすることで、同義語抽出装置１０は、複合語の同義語を精度よく抽出することができる。

［第２の実施形態］
　なお、同義語抽出装置１０が、複合語の共起ベクトルを作成する際、複合語（例えば、「ファイル更新」）のみならず当該複合語を構成する名詞の間に格助詞（例えば、「の」や「を」）を加えた文字列（例えば、「ファイルを更新」および「ファイルの更新」）についても共起ベクトルを作成し、これらの共起ベクトルを重ね合わせた（加算した）共起ベクトルに基づき、複合語同士の類似度を算出してもよい。このようにすることで、同義語抽出装置１０は、複合語の同義語をより精度よく抽出できる。

　以下、第２の実施形態の同義語抽出装置１０の共起ベクトル作成部１３５が、上記の文字列の共起ベクトルを重ね合わせた共起ベクトル（重ね合わせ共起ベクトル）を作成する手順を説明する。まず、共起ベクトル作成部１３５が、図１の（１）に示す細分類パターン（一般名詞＋サ変名詞（＋サ変名詞））に該当する複合語の重ね合わせ共起ベクトルを作成する場合について考える。

　図１の（１）に示す細分類パターンに該当する複合語の場合、複合語を構成する名詞の関係は、目的語と述語の関係になっていることが多い。よって、共起ベクトル作成部１３５は、複合語の「名詞」の間に「の」や「を」を加えた文字列を作成し、当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する。

　例えば、共起ベクトル作成部１３５は、「ファイル更新」について、まず「ファイル更新」に含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル４０１を作成する。

　また、共起ベクトル作成部１３５は「ファイル更新」を構成する「ファイル」と「更新」との間に格助詞「を」を加えた「ファイルを更新」という文字列を作成する。そして、共起ベクトル作成部１３５は、この「ファイルを更新」が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル４０２を作成する。

　さらに、共起ベクトル作成部１３５は、「ファイル」と「更新」との間に格助詞「の」を加えた「ファイルの更新」という文字列を作成する。そして、共起ベクトル作成部１３５は、この「ファイルの更新」が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトル４０３を作成する。そして、共起ベクトル作成部１３５は、上記の共起ベクトル４０１～４０３を重ね合わせた共起ベクトル４０４を作成する。

　その後、類似度算出部１３６は、複合語「ファイル更新」の共起ベクトルとして、上記の重ね合わせを行った共起ベクトル４０４を用いて、複合語同士の類似度算出を行う。

　また、図１の（２）に示す細分類パターン（サ変名詞（＋サ変名詞）＋一般名詞）に該当する複合語の場合、複合語を構成する名詞の関係は、修飾語と被修飾語の関係になっていることが多い。よって、同義語抽出装置１０の共起ベクトル作成部１３５は、複合語の「名詞」の間に「の」、「に関する」を加えた文字列を作成する。

　例えば、共起ベクトル作成部１３５は、「課金方式」について、「課金」と「方式」との間に、「の」を加えた「課金の方式」という文字列と、「に関する」を加えた「課金に関する方式」という文字列とを作成する。そして、共起ベクトル作成部１３５は、上記の文字列それぞれについて当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成し、「課金方式」の共起ベクトルに、上記の２つの文字列の共起ベクトルを重ね合わせた共起ベクトルを作成する。

　また、図１の（３）に示す細分類パターン（一般名詞＋一般名詞（＋一般名詞））に該当する複合語の場合、複合語を構成する名詞の関係は、修飾語と被修飾語の関係になっていることが多い。よって、共起ベクトル作成部１３５は、図１の（２）に示す細分類パターンに該当する複合語の場合と同様に、重ね合わせ共起ベクトルを作成する。

　また、図１の（４）に示す細分類パターン（サ変名詞＋サ変名詞（＋サ変名詞））に該当する複合語の場合、複合語を構成する名詞の関係は、目的語と述語の関係になっていることが多い。よって、共起ベクトル作成部１３５は、前記した図１の（１）に示す細分類パターンに該当する複合語の場合と同様に重ね合わせ共起ベクトルを作成する。

　このようにすることで、同義語抽出装置１０は、複合語の同義語をより精度よく抽出することができる。

［プログラム］
　また、上記の実施形態で述べた同義語抽出装置１０の機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を同義語抽出装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistants）等がその範疇に含まれる。また、同義語抽出装置１０を、クラウドサーバに実装してもよい。

　図５を用いて、上記のプログラム（同義語抽出プログラム）を実行するコンピュータの一例を説明する。図５に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

　ここで、図５に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

　そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、上記の同義語抽出プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　同義語抽出装置
　１１　入出力部
　１２　記憶部
　１３　制御部
　１３１　複合語抽出部
　１３２　名詞判定部
　１３３　第１の抽出部
　１３４　第２の抽出部
　１３５　共起ベクトル作成部
　１３６　類似度算出部
　１３７　同義語出力部

Claims

　文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定部と、
　前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第１の抽出部と、
　前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第２の抽出部と、
　前記第２の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成部と、
　前記第２の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出部と、
　前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力部と、
　を備えることを特徴とする同義語抽出装置。
　前記共起ベクトル作成部は、さらに、
　前記第２の抽出部により抽出された複合語群の複合語それぞれについて、前記複合語を構成する名詞の間に格助詞を加えた文字列について、当該文字列が含まれる文と同じ文に共起する名詞をベクトル成分とした当該複合語の第１の共起ベクトルを作成し、作成した当該複合語の第１の共起ベクトルを、当該複合語の共起ベクトルに加算することにより、当該複合語の第２の共起ベクトルを作成し、
　前記類似度算出部は、
　前記複合語の共起ベクトル同士の類似度として、当該複合語の第２の共起ベクトル同士の類似度を算出する
　ことを特徴とする請求項１に記載の同義語抽出装置。
　同義語抽出装置が実行する同義語抽出方法であって、
　文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定ステップと、
　前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第１の抽出ステップと、
　前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第２の抽出ステップと、
　前記第２の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成ステップと、
　前記第２の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出ステップと、
　前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力ステップと、
　を含むことを特徴とする同義語抽出方法。
　文書に含まれる複合語それぞれについて、前記複合語を構成する名詞それぞれの種類が、サ変名詞かサ変名詞以外の名詞かを判定する判定ステップと、
　前記複合語を構成する名詞それぞれの種類の判定結果に基づき、前記文書に含まれる複合語の中から、前記複合語を構成する名詞の種類の並びのパターンが同じ複合語群を抽出する第１の抽出ステップと、
　前記名詞の種類の並びのパターンが同じ複合語群の中から、先頭または末尾の単語が同じ複合語群を抽出する第２の抽出ステップと、
　前記第２の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語が含まれる文と同じ文に共起する名詞をベクトル成分とした共起ベクトルを作成する共起ベクトル作成ステップと、
　前記第２の抽出ステップにより抽出された複合語群の複合語それぞれについて、前記複合語の共起ベクトル同士の類似度を算出する類似度算出ステップと、
　前記共起ベクトル同士の類似度が所定の閾値以上の複合語群を同義語として出力する出力ステップと、
　をコンピュータに実行させることを特徴とする同義語抽出プログラム。