JPWO2012081386A1

JPWO2012081386A1 - 自然言語処理装置、方法、及びプログラム

Info

Publication number: JPWO2012081386A1
Application number: JP2012530022A
Authority: JP
Inventors: 関根　聡; 聡関根; 基若原
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2010-12-17
Filing date: 2011-11-28
Publication date: 2014-05-22
Anticipated expiration: 2031-11-28
Also published as: CN103038762B; CN103038762A; EP2653981A4; KR20120123122A; JP5314195B2; WO2012081386A1; EP2653981A1; US8880391B2; KR101364321B1; US20130262085A1

Abstract

自然言語処理装置１０は、共通の一以上の文を複数種類の形態素解析器Ａ１、Ａ２，Ａ３のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得部１１と、複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得部１２と、取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶部１３と、出現回数が所定の閾値以下である品詞異なりパターンを記憶部１３から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定部１４とを備える。

Description

本発明の一形態は自然言語処理装置、自然言語処理方法、自然言語処理プログラム、及び自然言語処理プログラムを記憶したコンピュータ読取可能な記録媒体に関する。

従来から様々な目的で、テキストデータに対する自然言語処理（自然言語解析）が行われている。例えば、一般ユーザにより記述されウェブサービス上に登録されたレビューやブログなどの記事に対して、自然言語処理が行われることがある。

自然言語処理の一手法として形態素解析がある。形態素解析に関し、下記特許文献１には、辞書に登録されている単語と重複しない形態素を未知語として抜き出すための方法が記載されている。

特開２００２−２９７５８９号公報

しかしながら、上記特許文献１に記載の方法のように、単に、辞書に重複する語がない単語をすべて未知語と判断していたのでは、効率的に未知語を発見することができない。

そこで、効率的に未知語を発見することが要請されている。

本発明の一形態に係る自然言語処理装置は、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、結果取得手段により取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定手段とを備える。

本発明の一形態に係る自然言語処理方法は、自然言語処理装置により実行される自然言語処理方法であって、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得ステップと、結果取得ステップにおいて取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得ステップと、パターン取得ステップにおいて取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶手段に記憶する記憶ステップと、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定ステップとを含むことを特徴とする。

本発明の一形態に係る自然言語処理プログラムは、コンピュータを、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、結果取得手段により取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定手段として機能させる。

本発明の一形態に係るコンピュータ読取可能な記録媒体は、コンピュータを、共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、結果取得手段により取得された複数の解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、出現回数が所定の閾値以下である品詞異なりパターンを記憶手段から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する候補特定手段として機能させる自然言語処理プログラムを記憶する。

発明者等は、形態素解析の対象となる文が未知語を含むときには、複数種類の形態素解析器がそれぞれ、未知語の周辺において異なる解析結果を示す、という仮定に基づき鋭意検討した。この仮定に基づいて、発明者等は大量の文を複数種類の形態素解析器にかけて大量の品詞異なりパターンを抽出し、得られた品詞異なりパターンをその頻度に基づいて分析した。そして、発明者等は、頻度が低い品詞異なりパターンに対応する文字列に未知語が含まれる傾向があるという知見を得た。

上記の形態によれば、共通の一以上の文に対する複数種類の形態素解析器の解析結果に基づいて、共通の位置で区切られた文字列の品詞異なりパターン（複数の形態素解析器で得られた、当該文字列に対する品詞の集合）が得られる。この品詞異なりパターンは、その出現回数とともに記憶される。そして、出現回数が所定の閾値以下である品詞異なりパターンに対応する文字列が、未知語の候補を含むものとして特定される。このように、未知語の存在確率が高いと推定される文字列を自動的に抽出することで、未知語の探索範囲を限定して、その分、効率的に未知語を発見することが可能になる。

別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、各形態素解析器に格納されている辞書の内容が異なってもよい。

このように、辞書の内容が互いに異なる複数の形態素解析器を用いることで、未知語を実際に含んでいる文字列をより効率的に抽出することが可能になるので、その分、効率的に未知語を発見することができる。

さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、辞書に収録されている単語の個数が異なってもよい。

さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、辞書に収録されている品詞の体系が異なってもよい。

さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、各形態素解析器に格納されている単語間の接続ルールが異なってもよい。

このように、単語間の接続ルールが互いに異なる複数の形態素解析器を用いることで、未知語を実際に含んでいる文字列をより効率的に抽出することが可能になるので、その分、効率的に未知語を発見することができる。

さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、単語間の接続に対して設定されるスコアが異なってもよい。

さらに別の形態に係る自然言語処理装置では、複数種類の形態素解析器の間で、単語間の接続に関するスコア適用のルールが異なってもよい。

本発明の一側面によれば、未知語の存在確率が高いと推定される文字列を自動的に抽出することで未知語の探索範囲が限定されるので、その分、効率的に未知語を発見することが可能になる。

実施形態に係る自然言語処理装置の機能構成を示すブロック図である。品詞異なりパターンの取得を説明するための図である。頻度データの集計結果の例を示す図である。頻度データに基づく品詞異なりパターンの分析結果の例を示す図である。図１に示す自然言語処理装置の動作を示すフローチャートである。

以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。

まず、図１〜４を用いて、実施形態に係る自然言語処理装置１０の機能及び構成を説明する。自然言語処理装置１０は自然言語処理を実行するコンピュータであり、有線あるいは無線のネットワークを介して３台の形態素解析器と接続されている。なお、形態素解析器の台数は、複数であれば何台でもよい。

まず、形態素解析器について説明する。第１形態素解析器Ａ１、第２形態素解析器Ａ２、及び第３形態素解析器Ａ３は、一以上の文に対して形態素解析を実行するコンピュータである。形態素解析の対象は、一つの文であってもよいし、一以上の文を含む一つの文章であってもよいし、複数の文章であってもよい。

形態素とは、言語において意味を持つ最小の単位である。形態素解析とは、辞書を用いて文を形態素に分割し、その文法的属性を同定する処理である。既存の主な形態素解析器では形態素と品詞情報とが収録された辞書を備えている。この辞書に含まれない語については、形態素解析器は字種（日本語であれば漢字、ひらがな、カタカナ、数字、英字など）による推定を行うが、すべての形態素を辞書なしで正確に同定することは困難である。このような、形態素解析のための辞書に載っていない語を、本明細書では未知語と呼ぶ。

未知語を辞書に追加して形態素解析器の精度を上げることが重要であるが、未知語を発見する方法は十分に開発されているとは言えない。根本的に、未知語というものは絶えず新しく現れるものであり、形態素解析器の未知語処理研究においては、未知語を発見する手法が非常に重要である。

本実施形態の基本的なアイデアは、「形態素解析の対象となる文が未知語を含むときには、異なる複数の形態素解析器がそれぞれ、未知語の周辺において異なる解析結果を示す」という仮定に基づいている。しかし、各形態素解析器の出力が異なっていれば必ず未知語が存在するというわけではなく、単に各形態素解析器で定義されている単語定義や品詞定義の違いに過ぎない場合がある。

本実施形態では、異なる複数の形態素解析器により得られた解析結果を比較することで得られた、品詞の異なりパターンの出現頻度に注目する。これは、以下のような背景に基づいている。
・単語の表記をそのまま使って異なり部分を見ることは、ほぼすべての解析データを見ることに等しく効率的ではない。
・未知語があった場合には、異なる種類の形態素解析器においてそれぞれ特殊な品詞パターンができるものと考えられる。
・形態素解析器では、出現頻度が高い語は辞書に登録されているはずであり、未知語は低頻度のパターンに含まれることが多いと考えられるので、頻度を基準に考えることは理にかなっている。

ここで、異なる複数の形態素解析器（複数種類の形態素解析器）とは、保持している辞書の内容及び単語間の接続ルールの双方または何れか一方が互いに異なる形態素解析器のことである。辞書の内容が異なる例としては、収録されている単語の個数や、収録されている品詞の体系が形態素解析器ごとに異なる場合が挙げられる。単語間の接続ルールが異なる例としては、単語間の接続に対して設定されるスコアや、当該スコアの適用のルール（例えば、コスト最小法、形態素数最小法、確率モデルなど）が形態素解析器ごとに異なる場合が挙げられる。

本実施形態では、大量の文章を第１〜第３形態素解析器Ａ１、Ａ２，Ａ３のそれぞれが解析する。続いて、自然言語処理装置１０がその解析結果を用いて大量の品詞異なりパターンを抽出し、各品詞異なりパターンの出現回数（出現頻度）をカウントする。そして、自然言語処理装置１０はその出現回数に基づいて、未知語の候補を含む文字列を特定する。

この処理を行うために、自然言語処理装置１０は機能的構成要素として結果取得部（結果取得手段）１１、パターン取得部（パターン取得手段）１２、記憶部（記憶手段）１３、候補特定部（候補特定手段）１４、及び結果出力部１５を備えている。

この自然言語処理装置１０は、オペレーティングシステムやアプリケーション・プログラムなどを実行するＣＰＵと、ＲＯＭ及びＲＡＭで構成される主記憶部と、ハードディスクなどで構成される補助記憶部と、ネットワークカードなどで構成される通信制御部と、キーボードやマウスなどの入力部と、モニタなどの出力部とで構成される。自然言語処理装置１０の各機能は、ＣＰＵや主記憶部の上に所定のソフトウェアを読み込ませ、ＣＰＵの制御の下で通信制御部や入力部、出力部などを動作させ、主記憶部や補助記憶部におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部や補助記憶部内に格納される。

結果取得部１１は、共通の一以上の文（以下では「テキスト」ともいう）を第１〜第３形態素解析器Ａ１、Ａ２，Ａ３のそれぞれに解析させることで得られた解析結果を取得する手段である。解析結果は、テキストに含まれる一以上の形態素と各形態素の品詞とを示すデータである。結果取得部１１は、各形態素解析器から解析結果を受信してもよいし、各形態素解析器から解析結果を読み出してもよい。結果取得部１１は、取得した複数の解析結果（３台の形態素解析器から得られた結果）をパターン取得部１２に出力する。

パターン取得部１２は、複数の解析結果における共通の区切り位置を検出し、その位置で区切られている文字列に対応する一以上の品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得する手段である。

パターン取得部１２は、入力された複数の解析結果のそれぞれについて、形態素の区切り位置を文頭から順に検出し、すべての解析結果で共通する区切り位置（共通区切り位置）を特定する。続いて、パターン取得部１２は共通区切り位置で区切られる各文字列に対応する一以上の品詞を各解析結果から抽出し、抽出されたすべての品詞から成る集合を品詞異なりパターンとして取得する。

このようなパターン取得部１２の処理例を図２を用いて説明する。図２は、「私はうっとろりんとした。」（watashi-ha-uttororin-to-shita）という日本語の一文に対する第１〜第３形態素解析器Ａ１、Ａ２，Ａ３（図２では、ａｎａｌｙｚｅｒ＿１，ａｎａｌｙｚｅｒ＿２，ａｎａｌｙｚｅｒ＿３と表示されている）の解析結果である。なお、上記の和文は、英語では「I was fascinated」と訳すことができる。「うっとろりん」（uttororin）という語句は、日本語の「うっとり」（uttori）（英語の「fascinated」）に相当する未知語である。図２では、分解された各語に対して、「名詞＿代名詞」や「助詞＿係助詞」などの品詞が対応付けられている。なお、図２の例では、品詞が「代名詞」などのように１段階で定義されたり、「助詞＿係助詞」などのように２段階で定義されたりしているが、品詞階層は各形態素解析器で任意に定義されてよい。

上記の和文は、「私／は／うっとろりん／と／した」（watashi／ha／uttororin／to／shita）というように解析（分解）されるのが望ましい。しかし、語句「うっとろりん」（uttororin）がすべての形態素解析器Ａ１、Ａ２，Ａ３において未知語であるため、図２に示すように、語句「うっとろりん」（uttororin）及びその周辺の語句についての解析結果が各形態素解析器で異なっている。

図２における「＝＝＝ｃｈｕｎｋｅｄ＝＝＝」という線は共通区切り位置である。したがって、この場合にパターン取得部１２は、共通区切り位置により区切られた、「私」（watashi）、「はうっとろりんと」（hauttororinto）、及び「した」（shita）という三つの文字列を取得する。このうち、文字列「はうっとろりんと」（hauttororinto）に関して、第１形態素解析器Ａ１は「は／うっ／とろりん／と」（ha／ut／tororin／to）と解析し、第２形態素解析器Ａ２は「はう／っと／ろ／りんと」（hau／tto／ro／rinto）と解析し、第３形態素解析器Ａ３は「は／うっ／とろり／ん／と」（ha／ut／torori／n／to）と解析している。また、文字列「私」（watashi）及び「した」（shita）についても、形態素の区切り方や品詞の設定が形態素解析器間で異なっている。このように、文に未知語が含まれていると、過分割や断片化などの解析誤りが起きやすくなる。また、品詞の同定も正しく行われない可能性が高い。

続いて、パターン取得部１２は、複数の形態素解析器間で品詞の同定結果が異なる部分を品詞異なりパターンとして取得する。具体的には、パターン取得部１２は文字列「私」（watashi）に対して解析された品詞「名詞＿代名詞」「名詞＿普通名詞」「代名詞」の集合を、品詞異なりパターン「名詞＿代名詞｜名詞＿普通名詞｜代名詞」として取得する。同様に、パターン取得部１２は文字列「はうっとろりんと」（hauttororinto）に対応する品詞異なりパターン「助詞＿係助詞、動詞＿自立、名詞＿固有名詞、助詞＿格助詞｜動詞、助詞＿格助詞、名詞＿普通名詞、形容詞｜助詞＿係助詞、感動詞＿フィラー、副詞、感動詞＿フィラー、助詞＿格助詞」を取得する。また、パターン取得部１２は文字列「した」（shita）に対応する品詞異なりパターン「動詞＿自立、助動詞｜接尾辞＿動詞性接尾辞｜動詞＿非自立可能、助動詞」を取得する。ここで、記号「｜」は形態素解析器間の区切りを示している。

このように品詞異なりパターンを取得すると、パターン取得部１２はそのパターンのこれまでの出現回数をカウントし、品詞異なりパターン及びその出現回数を示す頻度データを記憶部１３に格納する。あるいは、パターン取得部１２は取得した品詞異なりパターンに対応する出現回数を１だけ増分することで、記憶部１３内の頻度データを更新する。また、パターン取得部１２は、品詞異なりパターン及び当該パターンに対応する文字列を示す文字列データも記憶部１３に格納する。例えば、パターン取得部１２は文字列「はうっとろりんと」（hauttororinto）と品詞異なりパターン「助詞＿係助詞、動詞＿自立、名詞＿固有名詞、助詞＿格助詞｜動詞、助詞＿格助詞、名詞＿普通名詞、形容詞｜助詞＿係助詞、感動詞＿フィラー、副詞、感動詞＿フィラー、助詞＿格助詞」とが互いに関連付けられた文字列データを記憶部１３に格納する。

記憶部１３は、上記頻度データ及び文字列データを記憶する手段である。すなわち、記憶部１３は、品詞異なりパターンをその出現回数とともに記憶し、更に、品詞異なりパターンに対応する文字列も記憶する。

候補特定部１４は、出現回数が所定の閾値以下である品詞異なりパターンを記憶部１３から抽出し、抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として特定する手段である。

用いる閾値は任意に定めてよいが、閾値決定の一つの指針をここで説明する。一例として、ある特定のウェブサイトから１万件の記事を取得し、これらの記事を構成する約４万５千文（１文あたりの平均文字数は約３０．９文字）を４台の形態素解析器で処理して頻度データを取得した。そして、これらの頻度データに基づいて品詞異なりパターンの種類数を出現回数毎に集計したところ、図３に示すような結果が得られた。図３の例において、品詞異なりパターンの総数は５８２９個であった。

これらの品詞異なりパターンから出現頻度毎に２０個のパターンをランダムに抽出し、未知語の有無を調べたところ、図４に示すような結果が得られた。図４の結果から、出現回数が低い（例えば１，２など）品詞異なりパターンには多くの未知語が含まれている一方で、出現回数が２０より高い品詞異なりパターンに未知語が含まれる確率は非常に低いことが分かる。このことから、出現頻度が低い品詞異なりパターンに対応する文字列を調べれば効率的に未知語を発見できると言え、したがって、閾値を２０に設定することが考えられる。もっとも、図４の結果に基づいて別の値（例えば２，３，１０など）を閾値としてもよい。

図３，４の例に従って閾値が２０に設定されている場合には、候補特定部１４は記憶部１３を参照して、出現回数が２０以下である５２００個の品詞異なりパターンに対応する文字列を抽出する。これにより、未知語の候補を含む文字列（未知語を含む可能性がある文字列）が特定される。候補特定部１４は、抽出（特定）した文字列を結果出力部１５に出力する。

結果出力部１５は、未知語の候補を含む文字列を所定の方法で出力する手段である。例えば、結果出力部１５はその文字列をモニタに表示したり、データベースなどの記録媒体に格納したりしてもよい。また、結果出力部１５はその文字列をプリンタに印刷したり、ネットワーク経由で他の装置に送信したりしてもよい。

ユーザは、このようにして絞り込まれた文字列（調査対象文字列）を分析して未知語を得ることができる。一手法として、ユーザは調査対象文字列を、単に未知語が含まれるか否かに分類するのではなく、まず以下の６通りに分類する。
（基準１）品詞の同定のみ誤っているもの
（基準２）形態素の過分割であると判断されるもの
（基準３）未知語が含まれていると判断できるもの
（基準４）未知語が含まれていないと判断できるもの
（基準５）出力された差異検出部分の周辺を含めて未知語と判断されるもの
（基準６）表記誤り・文区切り誤りなどの、入力に依存した結果であるもの

基準１は、単語分割の態様が各形態素解析器で共通しているものの、品詞の同定に誤りが確認される場合である。基準２は、複数の語から構成される複合語を構成単位にまで分割しているために単語分割と品詞同定が一見正しいように見えるが、複合語としての意味が失われていると判断できるものである。基準３は、基準１，２以外のケースで、辞書から全く異なる項目を形態素として採用しているために、解析結果が意味の最小単位としてふさわしくないと判断できる場合である。基準４は、どの単語分割・品詞同定についても誤りがなく、解析結果が意味の最小単位としてふさわしいと判断できる場合である。基準５は、本来ひとつの未知語として取り扱うべき文字列の一部のみが品詞異なりパターンに対応する箇所として抽出されたが、その周辺の文字列も考慮する必要がある場合である。例えば、期待する未知語「うっとろりん」（uttororin）のうち「うっと」（utto）に対応する部分だけが品詞異なりパターンに対応する文字列として抽出される場合である。基準６は、未知語として抽出する意義が薄く、分析対象外とする場合である。

ユーザは、上記６基準のうち基準３，５に相当する文字列を、未知語を含むものとして評価すればよい。なお、結果出力部１５により出力された調査対象文字列は、更にコンピュータで処理されてもよいし、人手により処理されてもよい。上記６基準に基づく評価も任意の手段で行ってよい。

次に、図５を用いて、図１に示す自然言語処理装置の動作（自然言語処理方法）を説明する。まず、結果取得部１１が各形態素解析器Ａ１、Ａ２，Ａ３から解析結果を取得する（ステップＳ１１、結果取得ステップ）。続いて、パターン取得部１２がそれらの解析結果に基づいて品詞異なりパターンを取得し（ステップＳ１２、パターン取得ステップ）、当該パターンの出現回数を示す頻度データと、当該パターンに対応する文字列を示す文字列データとを記憶部１３に格納する（ステップＳ１３、記憶ステップ）。

一定数以上の頻度データ及び文字列データが得られると、候補特定部１４が、出現回数が所定の閾値以下の品詞異なりパターンを記憶部１３から抽出する（ステップＳ１４、候補特定ステップ）。そして、候補特定部１４は抽出された品詞異なりパターンに対応する文字列を、未知語の候補を含む文字列として抽出する（ステップＳ１５、候補特定ステップ）。最後に、結果出力部１５が抽出された文字列を出力する（ステップＳ１６）。

上述した自然言語処理装置１０の一連の処理をコンピュータに実行させるためのプログラム（自然言語処理プログラム）は、例えば、ＣＤ−ＲＯＭやＤＶＤ、ＲＯＭ、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供される。また、そのプログラムは、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

自然言語処理プログラムは、上述した自然言語処理装置１０の機能に対応するモジュールを備えており、それらのモジュールがコンピュータに読み込まれて実行されることにより、上述した機能が実現される。なお、自然言語処理プログラムの各モジュールは、一台のコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって、上述した一連の処理が行われる。

以上説明したように、本実施形態によれば、共通の一以上の文に対する複数種類の形態素解析器Ａ１、Ａ２，Ａ３の解析結果に基づいて、共通の位置で区切られた文字列の品詞異なりパターンが得られる。この品詞異なりパターンは、その出現回数とともに記憶される。そして、出現回数が所定の閾値以下である品詞異なりパターンに対応する文字列が、未知語の候補を含むものとして特定される。このように、未知語の存在確率が高いと推定される文字列を自動的に抽出することで、未知語の探索範囲を限定して、その分、効率的に未知語を発見することが可能になる。本実施形態の形態素解析は、日本語のように分かち書きを行わない言語で書かれた文を解析する際に、当該解析の最初の段階において、単語を認識するのに利用することができる。したがって、本発明は、日本語に限らず、分かち書きを行わない他の言語（例えば中国語や韓国語など）の処理にも適用可能である。

本実施形態において、辞書の内容が互いに異なる複数の形態素解析器Ａ１、Ａ２，Ａ３を用いれば、未知語を実際に含んでいる文字列をより効率的に抽出することが可能になるので、その分、効率的に未知語を発見することができる。このような効果は、単語間の接続ルールが互いに異なる複数の形態素解析器Ａ１、Ａ２，Ａ３を用いた場合にも同様に得られる。

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

Ａ１，Ａ２，Ａ３…形態素解析器、１０…自然言語処理装置、１１…結果取得部（結果取得手段）、１２…パターン取得部（パターン取得手段）、１３…記憶部（記憶手段）、１４…候補特定部（候補特定手段）、１５…結果出力部。

Claims

共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
を備える自然言語処理装置。
前記複数種類の形態素解析器の間で、各形態素解析器に格納されている辞書の内容が異なる、
請求項１に記載の自然言語処理装置。
前記複数種類の形態素解析器の間で、前記辞書に収録されている単語の個数が異なる、請求項２に記載の自然言語処理装置。
前記複数種類の形態素解析器の間で、前記辞書に収録されている前記品詞の体系が異なる、
請求項２又は３に記載の自然言語処理装置。
前記複数種類の形態素解析器の間で、各形態素解析器に格納されている単語間の接続ルールが異なる、
請求項１〜４の何れか一項に記載の自然言語処理装置。
前記複数種類の形態素解析器の間で、前記単語間の接続に対して設定されるスコアが異なる、
請求項５に記載の自然言語処理装置。
前記複数種類の形態素解析器の間で、前記単語間の接続に関するスコア適用のルールが異なる、
請求項５又は６に記載の自然言語処理装置。
自然言語処理装置により実行される自然言語処理方法であって、
共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得ステップと、
前記結果取得ステップにおいて取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得ステップと、
前記パターン取得ステップにおいて取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶手段に記憶する記憶ステップと、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定ステップと
を含むことを特徴とする自然言語処理方法。
コンピュータを、
共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
して機能させる自然言語処理プログラム。
コンピュータを、
共通の一以上の文を複数種類の形態素解析器のそれぞれに解析させることで得られた、該一以上の文に含まれる各形態素の品詞を示す解析結果を取得する結果取得手段と、
前記結果取得手段により取得された複数の前記解析結果における共通の区切り位置を検出し、該共通の区切り位置で区切られている文字列に対応する一以上の前記品詞を各解析結果から抽出し、抽出された該一以上の品詞の集合を品詞異なりパターンとして取得するパターン取得手段と、
前記パターン取得手段により取得された品詞異なりパターンを、該品詞異なりパターンの出現回数とともに記憶する記憶手段と、
前記出現回数が所定の閾値以下である前記品詞異なりパターンを前記記憶手段から抽出し、抽出された品詞異なりパターンに対応する前記文字列を、未知語の候補を含む文字列として特定する候補特定手段と
して機能させる自然言語処理プログラムを記憶したコンピュータ読取可能な記録媒体。