JPWO2014030258A1

JPWO2014030258A1 - 形態素解析装置、テキスト分析方法、及びそのプログラム

Info

Publication number: JPWO2014030258A1
Application number: JP2014531472A
Authority: JP
Inventors: 要小島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2012-08-24
Filing date: 2012-08-24
Publication date: 2016-07-28
Also published as: WO2014030258A1

Abstract

形態素解析装置であって、プロセッサと、メモリと、入力装置とを備え、前記学習用テキストを分析する形態素解析器学習部と、前記解析用テキストを分析し、前記解析用テキストを単語に分割し、前記分割された単語へ品詞を付与する形態素解析部と、を備え、前記形態素解析器学習部は、前記学習用テキストに含まれる単語の品詞から次の単語の発生確率と、当該学習用テキストに含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築し、前記形態素解析部は、前記構築された品詞モデルを参照して、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定する。

Description

本発明は、形態素解析装置に関する。

言語処理において、単語は文書の分析を行う上で重要な要素である。例えば、異なる文書間の内容の類似度や、文書内のトピックを抽出する際に、文書内における単語の出現頻度を示すＴＦＩＤＦが広く用いられている。

このため、日本語、中国語、タイ語等の文章が単語に分かれて記述されていない言語で記述された文章を解析する場合、文章を単語毎に分割する必要がある。各言語において単語分割のためのソフトウェアが開発されており、例えば、日本語では、Ｃｈａｓｅｎ、ＭｅＣａｂ等のソフトウェアが広く使用されている。これらのソフトウェアは、予め単語と品詞の情報が登録された辞書を必要とし、高品質な辞書の整備が必要である。また、インターネット掲示板やＴｗｉｔｔｅｒなどのソーシャルメディアのデータは、固有名詞、顔文字、スラングなど、通常用いられない単語を多く含む。このため、辞書を用いたソフトウェアでは単語を正しく分割することが難しいという問題がある。

そこで、近年、辞書を用いずに単語を分割するために、教師無し単語分割方法が注目されている。

特開２０１０−１７０２５２号公報特開２００９−３８１８号公報

Sharon Goldwater, Thomas L. Griffiths, Mark Johnson, Contextual Dependencies in Unsupervised Word Segmentation, In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, 2006 Yee.Whye. Teh, A hierarchical Bayesian language model based on Pitman-Yor processes, In Proceedings of the 21st International Conference on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics, 985-992, 2006 Stiven L. Scott, Bayesian methods for hidden Markov models, Journal of the American Statistical Association, 97:337-351, 2002. Frank Wood and Yee Whye The, A hierarchical, hierarchical Pitman-Yor process language model, ICML 2008 Workshop on Nonparametric Bayes, 2008

教師無し単語分割方法は、データ圧縮指標（ＭＤＬ）に基づいて、文書の圧縮率が良くなる単語分割を求める方法と、文字の並びから得られる単語の発生確率及び単語のつなぎにおける確率に基づいた確率モデルから、モデルの確率が大きくなるように単語を分割する確率モデルによる方法との二つに大別される。

前者のＭＤＬによる方法は、後者の確率モデルによる方法と同等の単語分割精度を維持し、かつ、高速に処理できる特徴を有するが、人手によって単語分割がされた正解データを与えることによる単語分割精度の向上が困難であるという問題がある。

一方、特許文献１及び非特許文献１に記載されるような、後者の確率モデルによる方法では、単語分割の精度を上げるため、日本語を対象とした場合、ひらがな、カタカナ、漢字、記号などの文字種の違いの情報を予め与える方法が考案されている。しかし、この情報は言語に依存するという問題がある。特に、未知の言語の場合、文字種の区別が困難であるため、この方法を未知の言語に適用することは困難である。

さらに、確率モデルによる方法では、単語の並びから得られる単語間のつなぎが確率モデル内に考慮されているが、品詞の情報が考慮されていない。このため、品詞を考慮すると単語のつなぎが不適切な場合にも、単語が不適切に分割される問題がある。

そこで、品詞の情報を用いて単語分割精度を向上させることが求められている。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、入力されたテキストデータに含まれる単語の品詞を決定する形態素解析装置であって、プログラムを実行する少なくとも一つのプロセッサと、前記プログラムが格納されるメモリと、前記テキストデータが入力される入力装置とを備え、前記入力装置は、学習用テキスト及び解析用テキストの入力を受け付け、前記形態素解析装置は、前記学習用テキストを分析する形態素解析器学習部と、前記解析用テキストを分析し、前記解析用テキストを単語に分割し、前記分割された単語へ品詞を付与する形態素解析部と、を備え、前記形態素解析器学習部は、前記学習用テキストに含まれる単語の品詞から次の単語の発生確率と、当該学習用テキストに含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築し、前記形態素解析部は、前記構築された品詞モデルを参照して、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定することを特徴とする。

本発明の一側面によれば、品詞の情報を用いることによって、正確に単語を分割することができ、高精度な形態素解析をすることができる。

本発明の第１の実施例に係る形態素解析装置の構成例を示すブロック図である。本発明の第１の実施例の品詞モデルの一例を説明する図である。本発明の第１の実施例に係る形態素解析器学習部が実行する処理のフローチャートである。本発明の第１の実施例に係る形態素解析器学習部が実行する処理のフローチャートである。本発明の第１の実施例に係る単語・品詞サンプリング部が実行する処理のフローチャートである。本発明の第１の実施例に係る単語・品詞サンプリング部が実行する処理のフローチャートである。本発明の第１の実施例に係る形態素解析部が実行する処理のフローチャートである。本発明の第１の実施例に係る形態素解析部が実行する処理のフローチャートである。本発明の第１の実施例に係る形態素解析装置の学習処理の流れを示すシーケンス図である。本発明の第１の実施例に係る形態素解析装置が形態素解析によって単語を分割し、品詞を付与をする処理の流れを示すシーケンス図である。

以下、添付図面に基づいて本発明の実施の形態を説明する。なお、本発明は、後述する実施例に限定されるものではなく、その技術思想の範囲において、種々の変形が可能である。

［第１の実施例］
本実施例に係る形態素解析装置は、テキスト文書を単語で分け、各単語の品詞を決定する。

＜装置構成＞
図１は、本発明の第１の実施例に係る形態素解析装置４００の構成例を示すブロック図である。

形態素解析装置４００は、ＣＰＵ（Central Processing Unit）４０１、主記憶装置（メモリ）４０２、補助記憶装置４０３及びユーザインターフェース部４０７を有する計算機である。形態素解析装置４００は、物理的に一つの計算機上に構築されても、物理的には一つ又は複数の計算機上に構成された論理区画上に構築されてもよい。形態素解析装置４００は、ＬＡＮ（Local Area Network）等のネットワーク４０６を介して外部のネットワークに接続される。

ＣＰＵ４０１は、主記憶装置４０２に格納されたプログラムを実行する中央演算装置である。なお、形態素解析器学習部４０８、形態素解析部４０９、単語・品詞削除部４１０、単語・品詞追加部４１１、単語・品詞サンプリング部４１２及びパラメータサンプリング部４１３は、ＣＰＵ４０１が所定のプログラムを実行することによって実装される。

主記憶装置４０２は、ＣＰＵ４０１が実行するプログラム及び前記プログラムの実行時に用いるデータ（品詞モデル４１４など）を記憶するＲＡＭ（Random Access Memory）等の記憶装置である。主記憶装置４０２は、必要に応じて、学習用テキストデータ４２３を一時的に記憶する。

補助記憶装置４０３及び外部記憶装置４０４は、テキストデータ及び前記プログラム等を格納する磁気ディスクドライブ、フラッシュメモリ等の記憶装置又は記憶媒体である。補助記憶装置４０３は、品詞モデル４１４、初期状態確率モデル４１５、遷移確率モデル４１６、単語出力確率モデル４１７、文字Ｎ−ｇｒａｍモデル４１８、初期状態カウントＣ０（４１９）、遷移状態カウントＣ（４２０）、ハイパーパラメータＡ（４２１）及び単語・品詞リスト４２２を格納する。

リムーバブルメディア４０５は、テキストデータ等を記録したＣＤ−ＲＯＭや、ＤＶＤ等の不揮発性の記録媒体であり、所定の読出装置（光ディスクドライブ、ＵＳＢインターフェースなど）によってデータが読み出される。補助記憶装置４０３、外部記憶装置４０４及びリムーバブルメディア４０５に記録されたデータは、形態素解析装置４００の起動時に、必要に応じて読み出され、主記憶装置４０２に格納される。

ＣＰＵ４０１によって実行されるプログラムは、リムーバブルメディア４０５又はネットワークを介して計算機に提供され、非一時的記憶媒体である補助記憶装置４０３に格納される。すなわち、ＣＰＵ４０１が実行するプログラムは、補助記憶装置４０３から読み出されて、主記憶装置４０２にロードされて、ＣＰＵ４０１によって実行される。

ユーザインターフェース部４０７は、ユーザインターフェースを提供する入出力装置（例えば、キーボード、マウス、ディスプレイ）である。

ＣＰＵ４０１は、主記憶装置４０２、補助記憶装置４０３、リムーバブルメディア４０５、又は、ネットワーク４０６を介した外部記憶装置４０４から、必要に応じてテキストデータを取得する。その後、ＣＰＵ４０１は、形態素解析器学習部４０８を起動し、取得したテキストデータに基づいて、品詞モデル４１４を学習する。

図１において、テキストデータは、主記憶装置４０２、補助記憶装置４０３、リムーバブルメディア４０５、ネットワーク４０６上の装置に格納される例を示したが、ＣＰＵ４０１が読み書き可能な装置に格納すればよい。

前述したように、ＣＰＵ４０１は、各部を実装するためのプログラムを実行することによって、所定の機能を実現する機能部として動作する。例えば、ＣＰＵ４０１は、形態素解析器学習プログラムを実行することによって、形態素解析器学習部４０８として機能する。他のプログラムについても同様であり、ＣＰＵ４０１は、単語・品詞削除プログラムを実行することによって、単語・品詞削除部４１０として機能し、単語・品詞追加プログラムを実行することによって、単語・品詞追加部４１１として機能し、単語・品詞サンプリングプログラムを実行することによって、単語・品詞サンプリング部４１２として機能し、パラメータサンプリングプログラムを実行することによって、パラメータサンプリング部４１３として機能し、形態素解析プログラムを実行することによって、形態素解析部４０９として機能する。

形態素解析器学習部４０８などの各機能を実現するプログラム及びテーブル等のデータは、補助記憶装置４０３、リムーバブルメディア４０５、不揮発性半導体メモリ、磁気ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機が読み取り可能な非一時的なデータ記憶媒体に格納することができる。

＜文字Ｎ−ｇｒａｍと単語Ｎ−ｇｒａｍ＞
文字Ｎ−ｇｒａｍとは、Ｎ−１文字の文字列に続く文字が発生する確率を与えるモデルである。例えば、「わたし」という単語において、２文字の文字列「わた」の後に文字「し」が来る確率Ｐ（し｜わた）は３−ｇｒａｍ確率と呼ばれる。文字Ｎ−ｇｒａｍによる確率は、それぞれ文書中における文字又は単語の並びの出現頻度から計算される。例えば、文書中に文字列「わた」がｘ回出現し、「わた」の後に文字「し」が来る回数がｙ回である場合、３−ｇｒａｍ確率Ｐ（し｜わた）はｙ／ｘとなる。文字Ｎ−ｇｒａｍは、ある文字列の後に出現する文字の予測に用いられる。同様に、単語Ｎ−ｇｒａｍとは単語列に続く単語が発生する確率を与えるモデルである。

＜Ｎ−ｇｒａｍ確率のスムージング＞
文字Ｎ−ｇｒａｍ確率は、テキスト中の出現頻度によって計算が可能であるが、テキスト量が有限であることから、言語として不自然ではないが、学習のためのデータ中には存在しない場合が有り得る。例えば、Ｐ（い｜楽し）という文字３−ｇｒａｍを考えた場合、「楽しい」という文字の並びが、与えられたテキスト中にたまたま存在しない場合、この確率は０となるが、「〜しい」という言い方は日本語として不自然ではないため、確率が０となるのは正しくない。そこで、一つ短いＰ（い｜し）という文字２−ｇｒａｍの確率と加重平均を計算し、Ｎ−ｇｒａｍ確率が極端な値となることを避けること方法をスムージングという。より正確には、本来のＮ−ｇｒａｍ確率と（Ｎ−１）−ｇｒａｍの確率と加重平均を計算することによって、Ｎ−ｇｒａｍ確率のスムージングが行われる。また（Ｎ−１）−ｇｒａｍの確率についても、（Ｎ−２）−ｇｒａｍとの加重平均によりスムージングすることで、階層的にスムージングが行われる。本発明では、加重平均の取り方として非特許文献２に記載されたＰｉｔｍａｎ−Ｙｏｒ過程に基づいたベイズ型統計モデルを用いる方法を採用することができる。

＜文字Ｎ−ｇｒａｍモデル４１８＞
文字Ｎ−ｇｒａｍモデル４１８は、文字列ｓと文字ｃを与えた時、ｓに続いてｃが出現する確率を与えるモデルである。文字Ｎ−ｇｒａｍモデルは、単語の追加、削除によって学習される。文字Ｎ−ｇｒａｍモデル４１８は特許文献２及び非特許文献２に記載された方法などによって構築することができる。文字Ｎ−ｇｒａｍモデル４１８からは、単語ｗが長さＫの文字列ｄ［１］，．．．，ｄ［Ｋ］からなる時、単語０−ｇｒａｍ確率と称される、文字の特徴からの単語の確率Ｐ（ｄ［１］，．．．ｄ［Ｋ］，＄）が計算可能である。なお、＄は単語の終わりを表す特殊文字である。具体的には、Ｐ（ｄ［１］，．．．ｄ［Ｋ］，＄）は、連鎖公式を用いると、Ｐ（ｄ［１］）×Ｐ（ｄ［２］｜ｄ［１］）×・・・×Ｐ（ｄ［Ｋ］｜ｄ［１］，．．．，ｄ［Ｋ−１］）×Ｐ（＄｜ｄ［１］，．．．，ｄ［Ｋ］）と書き換えることができる。このため、Ｐ（ｄ［１］，．．．ｄ［Ｋ］，＄）は、文字Ｎ−ｇｒａｍモデルから得られる文字Ｎ−ｇｒａｍ確率Ｐ（ｄ［ｋ］｜ｄ［１］，．．．，ｄ［ｋ−１］）を用いて計算することができる。また、非特許文献２に記載された方法で文字Ｎ−ｇｒａｍモデル４１８が構築された場合、Ｎ−ｇｒａｍの長さは、例えば４−ｇｒａｍなどに制限されるため、文字Ｎ−ｇｒａｍ確率Ｐ（ｄ［ｋ］｜ｄ［１］，．．．，ｄ「ｋ−１」）は、文字４−ｇｒａｍ確率Ｐ（ｄ［ｋ］｜ｄ［ｋ−４］，．．．ｄ［ｋ−１］）で近似した値が与えられる。

＜品詞モデル４１４＞
品詞モデル４１４は、隠れマルコフモデルに基づいた確率モデルとなっている。隠れマルコフモデルでは、観測された系列データの各状態が、実際には観測されない隠れた状態から出力されており、隠れた状態間における状態遷移が考慮された確率モデルである。品詞モデル４１４では、隠れた状態が品詞に相当し、観測された系列データの各状態が単語に相当する。

図２は、品詞モデル４１４の一例を説明する図である。

図２に示す品詞モデル４１４は、「お待ち」、「し」、「て」、「おり」、「ます」、「。」などの単語及び当該単語に対応する品詞を含む。文の終わりを表す「文末」という特殊な品詞以外の未観測の品詞の間で状態遷移が考慮され、各単語は品詞から出力されるようにモデル化されている。図２に示す例では、品詞は「名詞」、「動詞」、「文末」などの言葉が当てられるが、実際には、品詞は予め与えられた品詞数をＭとする時、０，．．．，Ｍ−１と文末を表すＭを合わせた、Ｍ＋１個の数字で表わされる。品詞モデルでは、文がＴ個の単語列ｗ［１］，・・・，ｗ［Ｔ］によって構成され、ｔ番目の単語ｗ［ｔ］の品詞が、ｍ［ｔ］で与えられる場合、品詞ｍ［１］が発生する初期状態確率Ｐ（ｍ［１］）、一つ前の品詞ｍ［ｔ−１］から次の品詞ｍ［ｔ］への遷移確率Ｐ（ｍ［ｔ−１］｜ｍ［ｔ］）、及び品詞ｍ［ｔ］からの単語ｗ［ｔ］の出力確率Ｐ（ｗ［ｔ］｜ｍ［ｔ］）によって確率分布が構成される。このため、モデル全体の確率Ｐ（ｗ［１］，・・・ｗ［Ｔ］，ｍ［０］，・・・ｍ［Ｔ］）は、Ｐ（ｗ［１］｜ｍ［１］）×Ｐ（ｗ［２］｜ｍ［２］）×・・・×Ｐ（ｗ［Ｔ］｜ｍ［Ｔ］）×Ｐ（ｍ［１］）×Ｐ（ｍ［２］｜ｍ［１］）×Ｐ（ｍ［３］｜ｍ［２］）×・・・×Ｐ（ｍ［Ｔ］｜ｍ［Ｔ−１］）×Ｐ（Ｍ｜ｍ［Ｔ］）で計算することができる。品詞の初期状態確率Ｐ（ｍ［１］）、遷移確率Ｐ（ｍ［ｔ］｜ｍ［ｔ−１］）、単語出力確率Ｐ（ｗ［ｔ］｜ｍ［ｔ］）は、それぞれ後述の初期状態確率モデル４１５、遷移確率モデル４１６、単語出力確率モデル４１７として計算することができる。

＜初期状態確率モデル４１５と遷移確率モデル４１６＞
品詞数をＭとする場合、初期状態確率モデル４１５は、０からＭまでの値をとる多項分布で定義することができる。また、各品詞ｐについてｐから次の品詞への遷移確率モデル４１６は０からＭまでの値をとる多項分布で定義することができる。初期確率モデル４１５と遷移確率モデル４１６に対しては、多項分布の共役事前分布であるディリクレ分布のパラメータＡ４２１が与えられる。

＜単語出力確率モデル４１７＞
品詞モデル４１４における各品詞ｍからの単語ｗの出力確率Ｐ（ｗ｜ｍ）は、単語１−ｇｒａｍ確率Ｐ（ｗ）をスムージングして得らる。また、単語１−ｇｒａｍ確率は、文字Ｎ−ｇｒａｍモデル４１８より得られる単語０−ｇｒａｍ確率をスムージングして得られる。スムージングの方法は、本発明では、非特許文献１に記載されるＰｉｔｍａｎ−Ｙｏｒ過程を用いることができる。文章中では、単語ｗが品詞ｍに属する事象が複数回存在する場合がある。Ｐｉｔｍａｎ−Ｙｏｒ過程によるスムージングでは、Ｐｉｔｍａｎ−Ｙｏｒ過程と称される確率過程に従い、その一部は単語１−ｇｒａｍ確率Ｐ（ｗ）の計算に用いられる。また、更にその一部は、単語ｗを構成する文字列の形で文字Ｎ−ｇｒａｍモデルを計算するためのデータとして登録される。品詞モデル４１４をテキストデータから学習する際には、各単語が品詞へ動的に割り当てられる。その際、単語の品詞への登録及び削除はＰｉｔｍａｎ−Ｙｏｒ過程に従って、前述のように階層的に行われる。

＜形態素解析器学習部４０８＞
図３Ａ及び図３Ｂは、第１の実施例に係る形態素解析器学習部４０８が実行する処理のフローチャートである。

まず、文のリストＳ及び繰り返し数Ｎの入力を受け付ける（ステップＳ３０１）。その後、一次元配列である初期状態カウントＣ０（４１９）及び二次元配列である遷移状態カウントＣ（４２０）の要素を０に初期化し（ステップ３０２）、変数ｉを１に初期化する（ステップＳ３０３）。

その後、変数ｉがＮを越えるまで、以下のステップＳ３０５〜Ｓ３１６の処理を繰り返す（ステップＳ３０４）。

次に、文のリストＳの要素を空のリストＴにコピーし（ステップＳ３０５）、文のリストＴの要素をランダムに並べ替える（ステップＳ３０６）。

その後、リストＴの要素が空になるまで、以下のステップＳ３０９〜Ｓ３１６の処理を繰り返す（ステップＳ３０７）。そして、リストＴの要素が空になれば、変数ｉを１増やし、ステップＳ３０４へ戻る（ステップＳ３０７、Ｓ３０８）。

次に、リストＴの先頭の要素を削除し、これを文ｓとする（ステップＳ３０９）。文ｓに該当する単語列及び品詞列が単語・品詞リスト４２２にある場合、この単語列及び品詞列を単語・品詞リスト４２２から削除する（ステップＳ３１０、Ｓ３１１）。そして、単語・品詞削除部４１０が、文ｓの単語列及び品詞列を品詞モデル４１４から削除する（ステップＳ３１２）。また、単語・品詞サンプリング部４１２が、文ｓから単語列及び品詞列をサンプリングする（ステップＳ３１３）。単語・品詞リスト４２２は、サンプリングした単語列と品詞列を、文ｓに該当する単語列と品詞列として追加する（ステップＳ３１４）。その後、単語・品詞追加部４１１が、サンプリングした単語列と品詞列を品詞モデル４１４に追加し（ステップＳ３１５）、パラメータサンプリング部４１３が品詞モデル４１４のパラメータをサンプリングし、ステップＳ２０７へ戻る（ステップＳ３１６）。

次に、単語・品詞削除部４１０、単語・品詞追加部４１１など、各部の動作について説明する。

＜単語・品詞削除部４１０＞
単語・品詞削除部４１０は、単語列ｗ［１］，．．．，ｗ［Ｔ］と品詞列ｍ［１］，．．．，ｍ［Ｔ］の入力を受ける。単語・品詞削除部４１０は、品詞ｍ［１］の値がｐである場合、一次元整数配列である初期状態カウントＣ０（４１９）のｐ番目の要素を１減じる。単語・品詞削除部４１０は、ｔが２以上の各品詞ｍ［ｔ］について、品詞ｍ［ｔ］及びｍ［ｔ−１］の値が、それぞれｐ及びｑである場合、二次元整数配列である遷移状態カウントＣ（４２０）のｑ行ｐ列目の要素を１減じる。

また、単語・品詞削除部４１０は、品詞ｍ［ｔ］に対応した単語出力確率モデル４１７から、Ｐｉｔｍａｎ−Ｙｏｒ過程に従って、例えば非特許文献２に記載された方法によって、単語ｗ［ｔ］を削除する。

＜単語・品詞追加部４１１＞
単語・品詞追加部４１１は、単語列ｗ［１］，．．．，ｗ［Ｔ］と品詞列ｍ［１］，．．．，ｍ［Ｔ］の入力を受ける。単語・品詞追加部４１１は、品詞ｍ［１］の値がｐである場合、一次元整数配列である初期状態カウントＣ０（４１９）のｐ番目の要素を１増やす。単語・品詞追加部４１１は、ｔが２以上の各品詞ｍ［ｔ］について、品詞ｍ［ｔ］及びｍ［ｔ−１］の値が、それぞれｐ及びｑである場合、二次元整数配列である遷移状態カウントＣ（４２０）のｑ行ｐ列目の要素を１増やす。

また、単語・品詞追加部４１１は、品詞ｍ［ｔ］に対応した単語出力確率モデル４１７から、Ｐｉｔｍａｎ−Ｙｏｒ過程に従って、例えば非特許文献２に記載された方法によって、単語ｗ［ｔ］を追加する。

＜パラメータサンプリング部４１３＞
パラメータサンプリング部４１３は、初期状態カウントＣ０［ｐ］（４１９）とハイパーパラメータＡ［ｐ］（４２１）との和をパラメータとしたディリクレ分布よりサンプリングすることによって、初期状態確率モデル４１５の多項分布のパラメータを与える。また、パラメータサンプリング部４１３は、遷移状態カウントＣ［ｐ］［ｑ］（４２０）とハイパーパラメータＡ［ｑ］（４２１）の和をパラメータとしたディリクレ分布よりサンプリングすることによって、品詞ｐに対応した遷移確率モデル４１６を与える。

＜単語・品詞サンプリング部４１２＞
単語・品詞サンプリング部４１２は、非特許文献３に記載されるforward-filtering backward sampling法を用いて、品詞モデル４１４の確率構造に従って、各文の単語分割及び分割された単語の品詞をサンプリングする。

図４Ａ及び図４Ｂは、第１の実施例に係る単語・品詞サンプリング部４１２が実行する処理のフローチャートである。

まず、文ｓと品詞数Ｍ及び最大単語長Ｌの入力を受け付ける（ステップＳ４０１）。また、ｓの文字数をＮとし、単語長リストＷＬ及び品詞リストＰＬを空に初期化し（ステップＳ４０２）、変数ｉを１に初期化する（ステップＳ４０３）。

その後、変数ｉがＮ＋１より大きくなるまで、ステップＳ４０５〜Ｓ４１２の処理を繰り返す（ステップＳ４０４）。

次に、Ｎ−ｉ＋１がＬより大きいかを判定し、Ｎ−ｉ＋１がＬより大きい場合、変数ＫにＬを設定し、Ｎ−ｉ＋１がＬ以下である場合、変数ＫにＮ−ｉ＋１を設定する（ステップＳ４０５、Ｓ４０６、Ｓ４０７）。

また、ｉ−１がＬより大きいかを判定し、ｉ−１がＬより大きい場合、変数ＪにＬを設定し、ｉ−１がＬ以下である場合、変数Ｊにｉ−１を設定する（ステップＳ４０８、Ｓ４０９、Ｓ４１０）。

また、Ｊが０であるかを判定し、Ｊが０である場合、各品詞ｍについて、Ｐ（ｍ）をＧ［ｍ］に設定する（ステップＳ４１１、Ｓ４１２）。一方、Ｊが０より大きい場合、各品詞ｍについて、変数ｊ＝１〜ＪのＥ［ｉ］［ｊ］［ｍ］の和を計算し、計算された和をＦ［ｍ］に設定する（ステップＳ４１３）。また、各品詞ｍについて、品詞ｎを１からＭまで変化させた際のＰ（ｍ｜ｎ）×Ｆ［ｎ］の和を計算し、計算された和をＧ［ｍ］に設定する（ステップＳ４１４）。

また、変数ｋを１からＫまで変化させ、品詞ｍを１からＭまで変化させた際の、文字列ｃ［ｔ］，．．．，ｃ［ｔ＋ｋ−１］からなる単語をｗとし、Ｐ（ｗ｜ｍ）×Ｇ［ｍ］をＥ［ｉ＋ｋ］［ｋ］［ｍ］に設定する（ステップＳ４１５）。

その後、変数ｉを１増やし、ステップＳ４０４へ戻る（ステップＳ４１６）。

一方、変数ｉがＮ＋１より大きい場合（ステップＳ４０４でＹＥＳ）、変数ｉにＮ＋２を設定し、変数ｋに１を設定し、文の終端を表すＭ＋１を品詞ｍに設定する（ステップＳ４１７）。その後、ｋがｉ以下になるまで、ステップＳ４１９〜Ｓ４２４の処理を繰り返す（ステップＳ４１８）。

その後、ｉからｋを減じ（ステップＳ４１９）、ｉとＮ＋１とを比較する（ステップＳ４２０）。ｉがＮ＋１より大きい場合、変数ＪにＬを設定し、ｉがＮ＋１以下である場合、変数ＪにＮ−１を設定する（ステップＳ４２０、Ｓ４２１、Ｓ４２２）。

その後、変数ｊを１からＪまで変化させ、品詞ｎを１からＭまで変化させた際のＰ（ｎ｜ｍ）×Ｅ［ｉ］［ｊ］［ｎ］に比例するように、ｊ及びｎをサンプリングし、それぞれをｋ及びｍに設定する（ステップＳ４２３）。

そして、ｋを単語長リストＷＬに追加し、ｍを品詞リストＰＬの先頭に追加し、ステップＳ４１８へ戻る（ステップＳ４２４）。

単語・品詞サンプリング部４１２が実行する処理によって得られた単語長リストＷＬには、サンプリングされた単語の長さが、先頭から順に保持されているため、文ｓの文字列に合わせて、単語を取得できる。また、品詞リストＰＬには、得られた単語に対応した品詞が先頭から順に保持されている。

＜形態素解析部４０９＞
形態素解析部４０９は、各文について、品詞モデル４１４にある確率構造における確率が最大となる単語分割及び各単語に対応した系列を、Ｖｉｔｅｒｂｉアルゴリズムによって取得する。

図５Ａ及び図５Ｂは、第１の実施例に係る形態素解析部４０９が実行する処理のフローチャートである。

まず、文ｓと品詞数Ｍ及び最大単語長Ｌの入力を受け付ける（ステップＳ５０１）。また、ｓの文字数をＮとし、単語長リストＷＬ及び品詞リストＰＬを空に初期化し（ステップＳ５０２）、変数ｉに１を初期化する（ステップＳ５０３）。

その後、変数ｉがＮ＋１より大きくなるまで、ステップＳ５０５〜Ｓ５１２の処理を繰り返す（ステップＳ５０４）。

次に、Ｎ−ｉ＋１がＬより大きいかを判定し、Ｎ−ｉ＋１がＬより大きい場合、変数ＫにＬを設定し、Ｎ−ｉ＋１がＬ以下である場合、変数ＫにＮ−ｉ＋１を設定する（ステップＳ５０５、Ｓ５０６、Ｓ５０７）。

また、ｉ−１がＬより大きいかを判定し、ｉ−１がＬより大きい場合、変数ＪにＬを設定し、ｉ−１がＬ以下である場合、変数Ｊにｉ−１を設定する（ステップＳ５０８、Ｓ５０９、Ｓ５１０）。

また、Ｊが０であるかを判定し、Ｊが０である場合、各品詞ｍについて、Ｘ［ｍ］に０を設定し、Ｐ（ｍ）をＦ［ｍ］に設定する（ステップＳ５１１、Ｓ５１２）。一方、Ｊが０より大きい場合、各品詞ｍについて、変数ｊ＝１〜ＪのＥ［ｉ］［ｊ］［ｍ］を最大にするｊをＸ［ｍ］に設定し、Ｘ［ｍ］の最大値をＦ［ｍ］に設定する（ステップＳ５１３）。

また、各品詞ｍについて、品詞ｎを１からＭまで変化させた際の、Ｐ（ｍ｜ｎ）×Ｆ［ｎ］を最大にするｎをＹ［ｍ］に設定し、Ｙ［ｍ］の最大値をＧ［ｍ］に設定する（ステップＳ５１４）。

また、変数ｋを１からＫまで変化させ、品詞ｍを１からＭまで変化させた際の、文字列ｃ［ｔ］，．．．，ｃ［ｔ＋ｋ−１］からなる単語をｗとし、Ｐ（ｗ｜ｍ）×Ｇ［ｍ］をＥ［ｉ＋ｋ］［ｋ］［ｍ］に設定する（ステップＳ５１５）。

その後、変数ｉを１増やし、ステップＳ５０４へ戻る（ステップＳ５１６）。

一方、変数ｉがＮ＋１より大きい場合（ステップＳ４０４でＹＥＳ）、変数ｉにＮ＋２を設定し、変数ｋに１を設定し、品詞ｍに文の終端を表すＭ＋１を設定する（ステップＳ５１７）。その後、ｋがｉ以下になるまで、ステップＳ５１９〜Ｓ５２４の処理を繰り返す（ステップＳ５１８）。

その後、ｉからｋを減じ（ステップＳ５１９）、ｉとＮ＋１とを比較する（ステップＳ５２０）。ｉがＮ＋１より大きい場合、変数ＪにＬを設定し、ｉがＮ＋１以下である場合、変数ＪにＮ−１を設定する（ステップＳ５２０、Ｓ５２１、Ｓ５２２）。

その後、変数ｊを１からＪまで変化させ、品詞ｎを１からＭまで変化させた際のＰ（ｎ｜ｍ）×Ｅ［ｉ−ｋ］［ｊ］［ｎ］に最大にするｊとｎのペアを取り出し、それぞれをｋとｍに設定する（ステップＳ５２３）。

そして、ｋを単語長リストＷＬに追加し、ｍを品詞リストＰＬの先頭に追加し、ステップＳ５１８へ戻る（ステップＳ５２４）。

形態素解析部４０９が実行する処理によって得られた単語長リストＷＬには、サンプリングされた単語の長さが、先頭から順に保持されているため、文ｓの文字列に合わせて、単語を取得できる。また、品詞リストＰＬには、得られた単語に対応した品詞が先頭から順に保持されている。

＜第１の実施例における形態素解析器学習処理の詳細＞
図６は、第１の実施例に係る形態素解析装置４００の学習処理の流れを示すシーケンス図である。

形態素解析装置４００が、ユーザインターフェースから処理の開始の指示を受けると（ステップＳ６０１）、ＣＰＵ４０１は、学習用テキストデータの入力を待つ。学習用テキストデータが入力されると（ステップＳ６０２）、ＣＰＵ４０１は、形態素解析器学習部４０８による学習処理を実行する（ステップＳ６０３）。なお、入力される学習用テキストデータは、単語を区切って分かち書きなどがされていない通常のテキストデータである。形態素解析器学習部４０８は、品詞モデル４１４を用いて、学習用テキストデータの各文から単語及び品詞をサンプリングし、得られた単語及び品詞によって品詞モデル４１４を反復学習する。

予め与えられた反復回数の学習処理が終了すると、ＣＰＵ４０１は、品詞モデル４１４を、補助記憶装置４０３に出力する（ステップＳ６０４）。

＜単語分割と品詞付与動作の詳細＞
図７は、第１の実施例に係る形態素解析装置４００が形態素解析によって単語を分割し、品詞を付与をする処理の流れを示すシーケンス図である。

ＣＰＵ４０１は、本図に示すシーケンスが実行される前に、単語分割と品詞付与を行うテキスト文を、補助記憶装置４０３から読み出し、主記憶装置４０２に格納している。

まず、ＣＰＵ４０１は、補助記憶装置４０３から品詞モデル４１４を読み出し、主記憶装置４０２に格納する（ステップＳ７０１）、その後、ユーザは、ユーザインターフェース４０７を通じ、テキスト文を形態素解析装置４００に入力する（ステップＳ７０２）。その後、形態素解析部４０９は、テキスト文の各文を単語分割し、得られた各単語に品詞付与する（ステップＳ７０３）。最後に、ＣＰＵ４０１は、得られた結果を出力する（ステップＳ７０４）。

以上に説明したように、第１の実施例では、文章を分割して得られた単語について品詞を推定し、各単語における品詞間のつなぎを確率モデルに含めることによって、単語及び品詞の情報を持つ辞書を用いることなく、単語に分かれて記述されていない言語のテキストデータの単語を高精度に分割することができ、品詞間のつなぎが不適切となる単語分割を避けることができる。また、分割された単語の品詞を高精度に決定することができる。すなわち、言語や未知語に依存することなく、単語分割と分割された単語の品詞を得ることができる。

［第２の実施例］
品詞モデルにおいて、品詞からの単語の出力確率を計算する際に、品詞からの単語の出力確率は、単語の出力確率と文字Ｎ−ｇｒａｍモデルから得られる単語の出力確率から階層的にスムージングされる。このため、品詞からの単語の出力確率は、文字Ｎ−ｇｒａｍモデルから得られる単語の出力確率の影響を受ける。

同じ品詞に属する単語の文字数は似ている傾向があるので、文字Ｎ−ｇｒａｍモデルからの単語自身の出力確率に対し、品詞ごとの単語の文字数の情報を入力して、品詞ごとの単語発生確率を単語長により変えることによって、より高精度な形態素解析が可能となる。

そこで、第２の実施例では、第１の実施例における単語出力モデル４１７を変更する。具体的には、まず、ｋを長さとする時、文字Ｎ−ｇｒａｍモデル４１８に登録された単語の長さの分布より、単語長の確率Ｐ（ｋ）を計算することができる。また、文字Ｎ−ｇｒａｍモデル４１８に登録された品詞ｍに属する単語の長さの分布より、品詞ｍ固有の単語長の確率Ｐ（ｋ｜ｍ）を計算することができる。これにより、文字Ｎ−ｇｒａｍモデル４１８から得られた単語０−ｇｒａｍ確率にＰ（ｋ｜ｍ）／Ｐ（ｋ）を乗じて、品詞ｍ固有の単語０−ｇｒａｍ確率を得ることができる。

品詞ｍからの単語ｗの出力確率Ｐ（ｗ｜ｍ）は、非特許文献４に記載されているＧｒａｐｈｉｃａｌＰｉｔｍａｎ−Ｙｏｒ過程を用いて、単語ｗの１グラム確率と品詞ｍ固有の単語０−ｇｒａｍ確率の混合分布をスムージングしたものとなっている。また、単語ｗの１グラム確率は文字Ｎ−ｇｒａｍモデル４１８から直接得られる単語０−ｇｒａｍ確率をスムージングしたものになっている。

第１の実施例と具体的な違いは、単語・品詞サンプリング部４１２の処理のステップＳ４１５及び形態素解析部４０９の処理のステップＳ５１５における出力確率Ｐ（ｗ｜ｍ）の計算が異なる。また、単語・品詞削除部４１０及び単語・品詞追加部４１１による単語出力確率モデル４１７への単語の追加及び削除が、Ｐｉｔｍａｎ−Ｙｏｒ過程に従う処理から、ＧｒａｐｈｉｃａｌＰｉｔｍａｎ−Ｙｏｒ過程に従う処理へ変更される。

以上に説明したように、第２の実施形態では、品詞によって単語長が異なる性質を用いることによって、高精度な形態素解析をすることができる。

［第３の実施例］
品詞モデルにおいて、単語数が増えるにつれて、品詞からの各単語の発生確率は減少する傾向がある。品詞からの各単語の発生確率が減少すると、単語が多いほど文全体における確率が低下するため、単語数が増えるほど、単語分割が減少する。このため、単語及び品詞のサンプリング過程の初期の段階において、データ数が多い場合、ランダムに発生する単語が増えるため、単語数が増加し、単語分割が起こりにくい問題ある。これより、単語分割が過度に少ない状態となり、形態素解析の精度が低くなる問題がある。

そこで、第３の実施例では、品詞からの単語発生確率に１より大きな値を乗じることによって、単語発生確率を大きくし、単語分割の減少を緩和し、分割数が過度に減少する問題を避けることができる。単語発生確率に乗じる値は、最終的な品詞モデルにおける確率モデル全体の確率を最大化する値を選択すればよい。

［第４の実施例］
形態素解析器学習部４１１は、品詞モデルから単語及び品詞の削除、単語及び品詞サンプリング、及び、単語及び品詞の品詞モデルへの追加によって、学習用テキストの各文に対して順に、品詞モデルからの単語及び品詞の削除、文からの単語及び品詞のサンプリング、及び、サンプリングした単語及び品詞の品詞モデルへの追加が行われる。

第４の実施例では、これらの処理を各文について順に行うのではなく、複数のＣＰＵを用いて、各文を独立に処理することによって、高効率な並列化を行い、処理を高速化することができる。

［第５の実施例］
形態素解析器学習部４０８において、入力された学習用テキストから品詞モデルが既に構築されている場合、文書表現等が大きく異なる解析用テキストの形態素解析の精度が低下する問題がある。解析用テキストのみによって作成された品詞モデルを用いて形態素解析を行うことも可能であるが、解析用テキストが小さい場合、精度が低くなる問題がある。

このため、学習用テキストによって既に得られている品詞モデルを用いて、解析用テキストから新たに品詞モデルを取得する。具体的には、単語・品詞サンプリング部４１２が、単一の品詞モデルを用いて行っていた計算を、既に得られている品詞モデルと新たに取得した品詞モデルとの混合分布を用いて計算する。そして、得られた単語列及び品詞列について、新規に用意した品詞モデルが寄与した確率に従って、新規に取得した品詞モデルへの登録及び削除を行う。

学習後に形態素解析を行う場合、形態素解析部４０９は、一つの品詞モデルではなく、既に得られている品詞モデルと新たに得た品詞モデルとの混合分布を用いて計算し、単語列及び品詞列を取得する。前述の方法によって、既に得られている品詞モデルが、新しく入力された解析用テキストに適合しない部分について、新たに取得した品詞モデルが補完することによって、高精度な形態素解析を行うことができる。

以上に説明した第２から第５の実施例は、単独で又は他の実施例と組み合わせて、第１の実施例に適用することができる。

以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

Claims

入力されたテキストデータに含まれる単語の品詞を決定する形態素解析装置であって、
プログラムを実行する少なくとも一つのプロセッサと、前記プログラムが格納されるメモリと、前記テキストデータが入力される入力装置とを備え、
前記入力装置は、学習用テキスト及び解析用テキストの入力を受け付け、
前記形態素解析装置は、
前記学習用テキストを分析する形態素解析器学習部と、
前記解析用テキストを分析し、前記解析用テキストを単語に分割し、前記分割された単語へ品詞を付与する形態素解析部と、を備え、
前記形態素解析器学習部は、前記学習用テキストに含まれる単語の品詞から次の単語の発生確率と、当該学習用テキストに含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築し、
前記形態素解析部は、前記構築された品詞モデルを参照して、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定することを特徴とする形態素解析装置。
請求項１に記載の形態素解析装置であって、
前記品詞モデルに含まれる前記品詞から次の単語の発生確率は、前記品詞に含まれる単語の長さによって異なることを特徴とする形態素解析装置。
請求項１又は２に記載の形態素解析装置であって、
前記形態素解析器学習部は、前記品詞モデルに含まれる品詞から次の単語の発生確率に１より大きい数を乗じることによって、前記発生確率を増加することを特徴とする形態素解析装置。
請求項１又は２に記載の形態素解析装置であって、
前記形態素解析装置は、複数のプロセッサを含み、
前記形態素解析器学習部は、前記学習用テキストに含まれる複数の文の各々について、前記複数のプロセッサを用いて、前記各文に含まれる単語の品詞から次の単語の発生確率と、当該各文に含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築することを特徴とする形態素解析装置。
請求項１又は２に記載の形態素解析装置であって、
前記形態素解析器学習部は、前記学習用テキストの解析によって第１の品詞モデルを構築し、前記第１の品詞モデルを用いた別の学習用テキストの解析によって、第２の品詞モデルを構築し、
前記形態素解析部は、前記第１の品詞モデル及び前記第２の品詞モデルを用いて、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定することを特徴とする形態素解析装置。
形態素解析装置が、入力されたテキストデータに含まれる単語の品詞を決定するためのテキスト分析方法であって、
前記形態素解析装置は、プログラムを実行する少なくとも一つのプロセッサと、前記プログラムが格納されるメモリと、前記テキストデータが入力される入力装置とを有し、
前記入力装置は、学習用テキスト及び解析用テキストの入力を受け付け、
前記形態素解析装置は、前記学習用テキストを分析する形態素解析器学習部と、前記解析用テキストを分析し、前記解析用テキストを単語に分割し、前記分割された単語へ品詞を付与する形態素解析部と、を有し、
前記方法は、
前記形態素解析器学習部が、前記学習用テキストに含まれる単語の品詞から次の単語の発生確率と、当該学習用テキストに含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築する学習ステップと、
前記形態素解析部が、前記構築された品詞モデルを参照して、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定する解析ステップとを含むことを特徴とするテキスト分析方法。
請求項６に記載のテキスト分析方法であって、
前記品詞モデルに含まれる前記品詞から次の単語の発生確率は、前記品詞に含まれる単語の長さによって異なることを特徴とするテキスト分析方法。
請求項６又は７に記載のテキスト分析方法であって、
前記形態素解析器学習部が、前記品詞モデルに含まれる品詞から次の単語の発生確率に１より大きい数を乗じることによって、前記発生確率を増加するステップを含むことを特徴とするテキスト分析方法。
請求項６又は７に記載のテキスト分析方法であって、
前記形態素解析装置は、複数のプロセッサを含み、
前記学習ステップでは、前記形態素解析器学習部が、前記学習用テキストに含まれる複数の文の各々について、前記複数のプロセッサを用いて、前記各文に含まれる単語の品詞から次の単語の発生確率と、当該各文に含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築するステップを含むことを特徴とするテキスト分析方法。
請求項６又は７に記載のテキスト分析方法であって、
前記学習ステップでは、前記形態素解析器学習部が、前記学習用テキストの解析によって第１の品詞モデルを構築し、前記第１の品詞モデルを用いた別の学習用テキストの解析によって、第２の品詞モデルを構築し、
前記解析ステップでは、前記形態素解析部が、前記第１の品詞モデル及び前記第２の品詞モデルを用いて、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定することを特徴とするテキスト分析方法。
形態素解析装置に以下の手順を実行させるためのプログラムであって、
前記形態素解析装置は、前記プログラムを実行する少なくとも一つのプロセッサと、前記プログラムが格納されるメモリと、前記テキストデータが入力される入力装置とを有し、
前記入力装置は、学習用テキスト及び解析用テキストの入力を受け付け、
前記形態素解析装置は、前記学習用テキストを分析する形態素解析器学習部と、前記解析用テキストを分析し、前記解析用テキストを単語に分割し、前記分割された単語へ品詞を付与する形態素解析部と、を有し、
前記プログラムは、
前記形態素解析器学習部が、前記学習用テキストに含まれる単語の品詞から次の単語の発生確率と、当該学習用テキストに含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築する学習手順と、
前記形態素解析部が、前記構築された品詞モデルを参照して、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定する解析手順とを実行させることを特徴とするプログラム。
請求項１１に記載のプログラムであって、
前記品詞モデルに含まれる前記品詞から次の単語の発生確率は、前記品詞に含まれる単語の長さによって異なることを特徴とするプログラム。
請求項１１又は１２に記載のプログラムであって、
前記学習手順は、前記形態素解析器学習部が、前記単語の候補の増加に伴う分割数の低下を抑制するために、前記品詞モデルに含まれる品詞から次の単語の発生確率に１より大きい数を乗じることによって、前記発生確率を増加する手順を実行させることを特徴とするプログラム。
請求項１１又は１２に記載のプログラムであって、
前記形態素解析装置は、複数のプロセッサを含み、
前記学習手順は、前記形態素解析器学習部が、前記学習用テキストに含まれる複数の文の各々について、前記複数のプロセッサを用いて、前記各文に含まれる単語の品詞から次の単語の発生確率と、当該各文に含まれる単語の品詞から次の単語の品詞の発生確率とを取得し、当該取得した発生確率を含む品詞モデルを構築する手順を含むことを特徴とするプログラム。
請求項１１又は１２に記載のプログラムであって、
前記学習手順は、前記形態素解析器学習部が、前記学習用テキストの解析によって第１の品詞モデルを構築し、前記第１の品詞モデルを用いた別の学習用テキストの解析によって、第２の品詞モデルを構築する手順を含み、
前記解析手順は、前記形態素解析部が、前記第１の品詞モデル及び前記第２の品詞モデルを用いて、前記解析用テキストを単語に分割し、前記分割された単語の品詞を決定する手順を含むことを特徴とするプログラム。