WO2013128684A1

WO2013128684A1 - 辞書生成装置、方法、及びプログラム

Info

Publication number: WO2013128684A1
Application number: PCT/JP2012/072350
Authority: WO
Inventors: 正人萩原
Original assignee: 楽天株式会社
Priority date: 2012-02-28
Filing date: 2012-09-03
Publication date: 2013-09-06
Also published as: CN103608805A; TWI452475B; KR20130137048A; JPWO2013128684A1; TW201335776A; KR101379128B1; JP5373998B1; CN103608805B

Abstract

　辞書生成装置は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とを備える。コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている。

Description

[規則37.2に基づきISAが決定した発明の名称]　辞書生成装置、方法、及びプログラム

　本発明の一形態は、単語辞書を生成するための装置、方法、プログラム、及びコンピュータ読取可能な記録媒体に関する。

　従来から、単語辞書を用いて文章を分割することで複数の単語を得る技術（単語分割）が知られている。これに関連して下記特許文献１には、入力テキストの部分文字列と照合する単語を単語辞書から検索して単語候補として生成し、その単語辞書と照合しない入力テキストの部分文字列から未知語である可能性があるものを未知語候補として選択し、未知語モデルを用いて未知語候補の品詞別単語出現確率を推定し、動的計画法を用いて同時確率が最大となる単語列を求める技術が記載されている。

特開２００１－０５１９９６号公報

　テキストを正しく分割するためには、語彙的な知識を充実させるために辞書内に大量の単語を用意しておくことが望ましい。しかし、大規模な辞書を人手により構築するのは容易ではない。そこで、大規模な単語辞書を容易に構築することが要請されている。

　本発明の一形態に係る辞書生成装置は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とを備える。

　本発明の一形態に係る辞書生成方法は、辞書生成装置により実行される辞書生成方法であって、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成ステップであって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成ステップと、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析ステップと、解析ステップにおいて境界情報が付与されたテキストから辞書に登録する単語を選択する選択ステップと、選択ステップにおいて選択された単語を辞書に登録する登録ステップとを含む。

　本発明の一形態に係る辞書生成プログラムは、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とをコンピュータに実行させる。

　本発明の一形態に係るコンピュータ読取可能な記録媒体は、予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、収集されたテキストの集合に対して、単語分割モデルが組み込まれた単語分割を実行して、各テキストに境界情報を付与する解析部と、解析部により境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、選択部により選択された単語を辞書に登録する登録部とをコンピュータに実行させる辞書生成プログラムを記憶する。

　このような形態によれば、境界情報が付与されているコーパスと、単語群とを用いて単語分割モデルが生成され、そのモデルが組み込まれた単語分割がテキスト集合に適用される。そして、この適用により境界情報が付与されたテキスト集合から単語が選択されて辞書に登録される。このように、境界情報付きのコーパスを用いた解析によりテキスト集合にも境界情報を付与した上で、そのテキスト集合から抽出された単語を登録することで、大規模な単語辞書を容易に構築することができる。

　別の形態に係る辞書生成装置では、選択部が、解析部により付与された境界情報から算出される各単語の出現頻度に基づいて、辞書に登録する単語を選択してもよい。このように算出される出現頻度を考慮することで辞書の精度を上げることができる。

　さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が所定の閾値以上である単語を選択してもよい。一定の回数以上出現した単語のみを辞書に登録することで、辞書の精度を上げることができる。

　さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が閾値以上である単語を登録候補として抽出し、出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、登録部が、選択部により選択された単語を単語群が記録されている辞書に追加してもよい。出現頻度が相対的に高い単語のみを辞書に登録することで、辞書の精度を上げることができる。また、予め用意されている単語群の辞書に単語を追加することで、辞書の構成を簡単にすることができる。

　さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が閾値以上である単語を登録候補として抽出し、出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、登録部が、選択部により選択された単語を、単語群が記録されている辞書とは別の辞書に登録してもよい。出現頻度が相対的に高い単語のみを辞書に登録することで、辞書の精度を上げることができる。また、予め用意されている単語群の辞書（既存辞書）とは別の辞書に単語を追加することで、既存辞書とは異なる特性の辞書を生成することができる。

　さらに別の形態に係る辞書生成装置では、登録部が、選択部により選択された単語を、単語群が記録されている辞書とは別の辞書に登録してもよい。予め用意されている単語群の辞書（既存辞書）とは別の辞書に単語を追加することで、既存辞書とは異なる特性の辞書を生成することができる。

　さらに別の形態に係る辞書生成装置では、選択部が、出現頻度が閾値以上である単語を登録候補として抽出し、出現頻度の高さに応じて該登録候補の単語をグループ化し、登録部が、選択部により生成された複数のグループを、単語群が記録されている辞書とは別の複数の辞書に個別に登録してもよい。出現頻度の高さに応じて単語をグループ化し、生成された各グループを別々の辞書に登録することで、出現頻度に起因して特性が互いに異なる複数の辞書を生成することができる。

　さらに別の形態に係る辞書生成装置では、収集されたテキストのそれぞれには、該テキストの分野を示す情報が関連付けられており、登録部が、選択部により選択された単語を、該単語が含まれていたテキストの分野に基づいて、分野毎に用意された辞書に個別に登録してもよい。分野毎に辞書を生成することで、特性が互いに異なる複数の辞書を生成することができる。

　さらに別の形態に係る辞書生成装置では、境界情報が、文字間位置に境界が存在しないことを示す第１の情報と、文字間位置に境界が存在することを示す第２の情報と、文字間位置に境界が確率的に存在することを示す第３の情報とを含み、各単語の出現頻度が第１、第２、及び第３の情報に基づいて算出されてもよい。単に境界が存在するかしないかという二択ではなく、その中間の概念を示す第３の情報を導入することで、より適切にテキストを複数の単語に分割することができる。

　さらに別の形態に係る辞書生成装置では、解析部が、第１の二値分類器及び第２の二値分類器を備え、第１の二値分類器が、各文字間位置について、第１の情報を割り当てるか第１の情報以外の情報を割り当てるかを判定し、第２の二値分類器が、第１の二値分類器により第１の情報以外の情報を割り当てると判定された文字間位置について、第２の情報を割り当てるか第３の情報を割り当てるかを判定してもよい。二値分類器を複数用いて段階的に境界情報を確定することで、高速且つ効率的にテキストに境界情報を付与することができる。

　さらに別の形態に係る辞書生成装置では、収集されたテキストの集合が複数のグループに分割され、解析部、選択部、及び登録部が複数のグループのうちの一つに基づく処理を実行した後に、モデル生成部がコーパス、単語群、及び登録部により登録された単語を用いて単語分割モデルを生成し、続いて、解析部、選択部、及び登録部が複数のグループのうちの別の一つに基づく処理を実行してもよい。

　本発明の一側面によれば、大規模な単語辞書を容易に構築することができる。

実施形態に係る辞書生成装置のハードウェア構成を示す図である。図１に示す辞書生成装置の機能構成を示すブロック図である。境界情報（単語境界タグ）の設定を説明するための図である。図１に示す辞書生成装置の動作を示すフローチャートである。実施形態に係る辞書生成プログラムの構成を示す図である。

　以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。

　まず、図１～３を用いて、実施形態に係る辞書生成装置１０の機能構成を説明する。辞書生成装置１０は、収集された大量のテキストから成る集合（以下では「大規模テキスト」ともいう）を解析することでそのテキスト集合から単語を抽出し、抽出された単語を辞書に追加するコンピュータである。

　図１に示すように、辞書生成装置１０は、オペレーティングシステムやアプリケーション・プログラムなどを実行するＣＰＵ１０１と、ＲＯＭ及びＲＡＭで構成される主記憶部１０２と、ハードディスクなどで構成される補助記憶部１０３と、ネットワークカードなどで構成される通信制御部１０４と、キーボードやマウスなどの入力装置１０５と、ディスプレイなどの出力装置１０６とを備えている。

　後述する辞書生成装置１０の各機能的構成要素は、ＣＰＵ１０１や主記憶部１０２の上に所定のソフトウェアを読み込ませ、ＣＰＵ１０１の制御の下で通信制御部１０４や入力装置１０５、出力装置１０６などを動作させ、主記憶部１０２や補助記憶部１０３におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部１０２や補助記憶部１０３内に格納される。なお、図１では辞書生成装置１０が１台のコンピュータで構成されているように示しているが、辞書生成装置１０の機能を複数台のコンピュータに分散させてもよい。

　図２に示すように、辞書生成装置１０は機能的構成要素としてモデル生成部１１、解析部１２、選択部１３、及び登録部１４を備えている。辞書生成装置１０は、単語抽出処理を実行する際に、予め用意されている学習コーパス２０、既存辞書３１、及び大規模テキスト４０を参照し、抽出された単語を単語辞書３０に格納する。なお、単語辞書３０は少なくとも既存辞書３１を含んでおり、１以上の追加辞書３２を更に含んでいてもよい。辞書生成装置１０について詳細に説明する前に、これらのデータについて説明する。

　学習コーパス２０は、単語の境界（文を単語に分割した際の分割位置）を示す境界情報（アノテーション）が付与された（関連付けられた）テキストの集合であり、データベースとして予め用意されている。テキストは複数の単語から成る文や文字列である。本実施形態では、仮想商店街のウェブサイト内に蓄積されている商品のタイトル及び説明文からランダムに抽出した所定数のテキストを学習コーパス２０の材料とする。

　抽出した各テキストには、評価者の人手により境界情報が付与される。境界情報の設定は、点推定による単語分割と３段階単語分割コーパスという二つの技術に基づいて実施される。

　［点推定による単語分割］
　テキスト（文字列）ｘ＝ｘ_１ｘ_２…ｘ_ｎ（ｘ_１，ｘ_２，…，ｘ_ｎは文字）には、単語境界タグｂ＝ｂ_１ｂ_２…ｂ_ｎが割り当てられる。ここで、ｂ_ｉは文字ｘ_ｉとｘ_ｉ＋１との間（文字間位置）に単語境界が存在するか否かを表すタグであり、ｂ_ｉ＝１は分割を、ｂ_ｉ＝０は非分割を、それぞれ意味する。ここで、このタグｂ_ｉで示される値は分割の強度であるとも言える。

　図３に、「ボールペンを買った。」（bo-rupen wo katta）という日本語の文（英語では「(I) bought a ballpoint pen.」）において「ん（ｎ）」と「を（ｗｏ）」との間のタグを決定する例を示す。単語境界タグの値は，その周辺に存在する文字から得られる素性（feature）を参照して決定される。例えば、文字素性、文字種素性、及び辞書素性という３種類の素性を用いて単語境界タグの値が設定される。

　文字素性は、境界ｂ_ｉに接する、もしくは境界ｂ_ｉを内包する長さｎ以下のすべての文字（ｎ－ｇｒａｍ）と、その位置ｂ_ｉに対する相対位置との組合せで示される素性である。例えば図３においてｎ＝３とした場合には、「ん（ｎ）」と「を（ｗｏ）」との間の境界ｂ_ｉに対して、「－１／ン（ｎ）」「１／を（ｗｏ）」「－２／ペン（ｐｅｎ）」「－１／ンを（ｎ　ｗｏ）」「１／を買（ｗｏ　ｋａ）」「－３／ルペン（ｒｕｐｅｎ）」「－２／ペンを（ｐｅｎ　ｗｏ）」「－１／ンを買（ｎ　ｗｏ　ｋａ）」「１／を買っ（ｗｏ　ｋａｔ）」という９個の素性が得られる。

　文字種素性は、文字の代わりに文字種を扱うという点以外は、上記の文字素性と同様である。文字種として、ひらがな、カタカナ、漢字、アルファベット大文字、アルファベット小文字、アラビア数字、漢数字、及び中黒（・）の８種類を考慮した。なお、用いる文字種及びその種類数は何ら限定されない。

　辞書素性は、境界の周辺に位置する長さｊ（１≦ｊ≦ｋ）の単語が辞書に存在するか否かを表す素性である。辞書素性は、境界ｂ_ｉが単語の終点に位置しているのか（Ｌ）、その始点に位置しているのか（Ｒ）、それともその単語に内包されているのか（Ｍ）を示すフラグと、その単語の長さｊとの組合せで示される。もし、辞書に「ペン（ｐｅｎ）」「を（ｗｏ）」という単語が登録されていれば、図３における境界ｂｉに対してＬ２及びＲ１という辞書素性が作成される。なお、後述するように複数の辞書を用いる場合には、辞書素性には辞書の識別子が付与される。例えば、識別子がＤＩＣ１である辞書Ａに「ペン（ｐｅｎ）」が登録されており、識別子がＤＩＣ２である辞書Ｂに「を（ｗｏ）」が登録されていれば、辞書素性はＤＩＣ１－Ｌ２、ＤＩＣ２－Ｒ１等のように表される。

　なお、本実施形態では、文字素性及び文字種素性におけるｎ－ｇｒａｍの最大長ｎを３とし、辞書素性における単語の最大長ｋを８としたが、これらの値は任意に定めてよい。

　［３段階単語分割コーパス］
　日本語には、単語境界を一意に決めるのが難しい単語が存在し、適切な単語分割の態様が場面によって異なるという問題がある。一例として、「ボールペン（ｂｏ－ｒｕｐｅｎ）」（英語では「ballpoint pen」）という単語を含んだテキスト集合に対してキーワード検索を行う場合を想定する。もし「ボールペン（ｂｏ－ｒｕｐｅｎ）」を分割しない場合には、「ペン（ｐｅｎ）」（英語では「pen」）というキーワードで検索してもテキストが抽出されないことになる（再現率の低下）。一方、「ボールペン（ｂｏ－ｒｕｐｅｎ）」を「ボール（ｂｏ－ｒｕ）」（英語では「ball」）と「ペン（ｐｅｎ）」とに分割した場合には、スポーツ用品である「ボール（ｂｏ－ｒｕ）」をキーワードとした検索により、「ボールペン（ｂｏ－ｒｕｐｅｎ）」を含むテキストが抽出されてしまう（精度の低下）。

　そこで、上記のように「分割」「非分割」の２値だけでなく「半分割」という概念を導入した３段階単語分割コーパスを用いる。３段階単語分割コーパスは、確率的な値で分割の態様を示す確率的単語分割を発展させた手法である。人間が実際に認識できる単語分割の強さは多くても数段階に過ぎず、連続的な確率値で分割の態様を示す必要性は低いという理由から、この３段階単語分割コーパスが用いられる。半分割を含む単語については、その単語全体と、その単語の構成要素との両方が抽出されるので、人間にとって分割か非分割かの判断が難しい単語をとりあえず半分割として記録することが可能になると共に、境界情報の付与が容易になる。「半分割」は、文字間位置に境界が確率的に（０より大きく１より小さい確率の範囲で）存在することを示す一態様である。

　３段階単語分割コーパスは、「分割」（ｂ_ｉ＝１）及び「非分割」（ｂ_ｉ＝０）に「半分割」（ｂ_ｉ＝０．５）を加えた３段階の離散確率的単語分割により生成されるコーパスである。例えば、「ボール／ペン（ｂｏ－ｒｕ／ｐｅｎ）」のような複合名詞や、「折り／たたむ（ｏｒｉ／ｔａｔａｍｕ）」（英語では「fold」）のような複合動詞、「お／すすめ（ｏ／ｓｕｓｕｍｅ）」（英語では「recommendation」）のような、接辞も含めて語彙化しているような単語の中の分割（これらの例では”／”で示している）は、半分割として定義するのが自然である。また、「充電池（ｊｕｕｄｅｎｃｈｉ）」（英語では「rechargeable battery」）は、「充電（ｊｕｕｄｅｎ）」（英語では「recharge」）と「電池（ｄｅｎｃｈｉ）」（英語では「battery」）のような「ＡＢ＋ＢＣ→ＡＢＣ」型の複合語といえるが、このような単語は「充／電／池（ｊｕｕ／ｄｅｎ／ｃｈｉ）」というように半分割される。

　「ボールペンを買った。」（bo-rupen
wo katta）というテキストは、上記の点推定による単語分割と３段階単語分割コーパスとを用いて例えば図３に示すように分割される。図３の例では、「分割」（ｂ_ｉ＝１）の単語境界タグは、テキストの先頭や、「ン（ｎ）」と「を（ｗｏ）」の間などに付与されている。「半分割」（ｂ_ｉ＝０．５）の単語境界タグは「ル（ｒｕ）」と「ペ（ｐｅ）」の間に付与されている。図３では「非分割」（ｂ_ｉ＝０）の単語境界タグを省略しているが、文字間に境界が表されていない箇所（例えば「ペ（ｐｅ）」と「ン（ｎ）」の間）には当該タグが付与される。

　各テキストには単語境界タグが境界情報として付与されて、学習コーパス２０としてデータベースに格納される。境界情報をテキストに付与する方法は任意である。一例として、「分割」をスペースで示し、「半分割」をハイフンで示し、「非分割」の表示を省略するように各テキストに境界情報を埋め込んでもよい。この場合には、境界情報が付与されたテキストを文字列のまま記録することができる。

　既存辞書３１は、所定数の単語の集合であり、データベースとして予め用意されている。既存辞書３１は一般に用いられている電子化辞書でもよく、例えばＵｎｉＤｉｃという形態素解析辞書であってもよい。

　大規模テキスト４０は、収集されたテキストの集合であり、データベースとして予め用意されている。大規模テキスト４０には、抽出しようとする単語やその単語の分野などに応じて、任意の文や文字列を含めてよい。例えば、仮想商店街のウェブサイトから商品のタイトル及び説明文を大量に収集し、これらの生データから大規模テキスト４０を構築してもよい。大規模テキスト４０として用意されるテキストの数は、学習コーパス２０に含まれるテキストの数よりも圧倒的に多い。

　以上を前提として辞書生成装置１０の機能的構成要素を説明する。

　モデル生成部１１は、学習コーパス２０及び単語辞書３０を用いて単語分割モデルを生成する手段である。モデル生成部１１は、サポート・ベクトル・マシン（ＳＶＭ：Support vector machine）を備えており、学習コーパス２０及び単語辞書３０をこのマシンに入力して学習処理を実行させることで、単語分割モデルを生成する。この単語分割モデルは、テキストをどのように区切るべきかというルールを示しており、単語分割に用いられるパラメータ群として出力される。なお、機械学習に用いるアルゴリズムはＳＶＭに限定されず、決定木やロジスティック回帰などであってもよい。

　大規模テキスト４０を解析するために、モデル生成部１１は学習コーパス２０及び既存辞書３１に基づく学習をＳＶＭに実行させることで、最初の単語分割モデル（ベースライン・モデル）を生成する。そして、モデル生成部１１はこの単語分割モデルを解析部１２に出力する。

　その後、後述する解析部１２、選択部１３、及び登録部１４の処理により単語辞書３０に単語が追加されると、モデル生成部１１は学習コーパス２０と単語辞書３０の全体とに基づく学習（再学習）処理をＳＶＭに実行させることで、修正された単語分割モデルを生成する。ここで、単語辞書３０の全体とは、既存辞書３１に最初から記憶されていた単語、及び大規模テキスト４０から得られた単語のすべてを意味する。

　解析部１２は、単語分割モデルが組み込まれた解析（単語分割）を大規模テキスト４０に対して実行して、各テキストに境界情報を付与する（関連付ける）手段である。この結果、図３に示すようなテキストが大量に得られる。解析部１２は大規模テキスト４０を成している各テキストについてそのような単語分割を実行することで、上記「分割」（第２の情報）、「半分割」（第３の情報）、及び「非分割」（第１の情報）を示す境界情報を各テキストに付与し、処理されたすべてのテキストを選択部１３に出力する。

　解析部１２は二つの二値分類器を備えており、これらの分類器を順に用いて３種類の境界情報を各テキストに付与する。第１の分類器は、文字間位置が「非分割」かそれ以外かを判定する手段であり、第２の分類器は、「非分割」ではないと判定された境界が「分割」か「半分割」かを判定する手段である。現実には文字間位置の過半数が「非分割」であることから、まず文字間位置が「非分割」であるか否かを判定し、続いて「非分割」ではない以外と判定された箇所について分割の態様を判定することで、効率的に境界情報を大量のテキストに付与することができる。また、二値分類器を組み合わせることで、解析部１２の構造を単純化することができる。

　選択部１３は、解析部１２により境界情報が付与されたテキストから、単語辞書３０に登録する単語を選択する手段である。

　まず、選択部１３は入力されたテキスト群に含まれている各単語ｗの合計出現頻度ｆ_ｒ（ｗ）を下記式（１）により求める。この計算は、各文字間位置に付与された境界情報ｂ_ｉから出現頻度が得られることを意味する。

ここで、Ｏ_１は単語ｗの表記の出現を示しており、下記の通りに定義される。

　図３に示す「ボールペンを買った。」（bo-rupen wo katta）という一つの文における単語「ボールペン（ｂｏ－ｒｕｐｅｎ）」の出現頻度は、１．０＊１．０＊１．０＊０．５＊１．０＊１．０＝０．５となり、その文における単語「ペン（ｐｅｎ）」の出現頻度は、０．５＊１．０＊１．０＝０．５となる。これらは、その文の中に「ボールペン（ｂｏ－ｒｕｐｅｎ）」及び「ペン（ｐｅｎ）」という単語がそれぞれ０．５回ずつ出現したものとみなされることを意味する。選択部１３は、各テキストに含まれている各単語の出現頻度を求めて、単語毎にその出現頻度を集計することで、各単語の合計出現頻度を得る。

　続いて、選択部１３は大規模テキスト４０内の単語群から、合計出現頻度が第１の閾値ＴＨａ以上である単語のみを登録候補Ｖとして選択する（頻度による単語の足切り）。そして、選択部１３は最終的に単語辞書３０に登録する単語をその登録候補Ｖの中から選択し、必要に応じてその単語を格納する辞書（データベース）を決定する。最終的に登録する単語及び格納先の辞書の決定方法は一つに限定されるものではなく、下記の通り様々な手法を用いうる。

　選択部１３は、登録候補Ｖのうち合計出現頻度が所定の閾値以上である単語のみを既存辞書３１に追加すると決定してもよい。この場合に、選択部１３は合計出現頻度が第２の閾値ＴＨｂ（ただしＴＨｂ＞ＴＨａ）である単語のみを選んでもよいし、合計出現頻度が上位ｎ位までの単語のみを選んでもよい。以下では、このような処理を「ＡＰＰＥＮＤ」ともいう。

　あるいは、選択部１３は、登録候補Ｖのうち合計出現頻度が所定の閾値以上である単語のみを追加辞書３２に登録すると決定してもよい。この場合にも、選択部１３は合計出現頻度が第２の閾値ＴＨｂ（ただしＴＨｂ＞ＴＨａ）である単語のみを選んでもよいし、合計出現頻度が上位ｎ位までの単語のみを選んでもよい。以下では、このような処理を「ＴＯＰ」ともいう。

　あるいは、選択部１３は、登録候補Ｖのすべてを追加辞書３２に登録すると決定してもよい。以下では、このような処理を「ＡＬＬ」ともいう。

　あるいは、選択部１３は登録候補Ｖを合計出現頻度に応じて複数の部分集合に分け、各部分集合を個別の追加辞書３２に登録すると決定してもよい。登録候補Ｖのうち、合計出現頻度が上位ｎ位までの部分集合をＶ_ｎと表すとする。この場合に選択部１３は、例えば、上位１０００位までの単語から成る部分集合Ｖ₁₀₀₀と、上位２０００位までの単語から成る部分集合Ｖ₂₀₀₀と、上位３０００位までの単語から成る部分集合Ｖ₃₀₀₀とを生成する。そして、選択部１３は部分集合Ｖ₁₀₀₀、Ｖ₂₀₀₀、及びＶ₃₀₀₀を第１の追加辞書３２、第２の追加辞書３２、及び第３の追加辞書３２に登録すると決定する。なお、生成する部分集合の個数や、各部分集合の大きさは任意に定めてよい。以下では、このような処理を「ＭＵＬＴＩ」という。

　最終的に登録する単語を選択するとともに格納先の辞書を決定すると、選択部１３はその選択結果を登録部１４に出力する。

　登録部１４は、選択部１３により選択された単語を単語辞書３０に登録する手段である。単語辞書３０のうちどの辞書に単語を登録するかは選択部１３での処理に依存するので、登録部１４は既存辞書３１にのみ単語を登録するかもしれないし、一つの追加辞書３２にのみ単語を登録するかもしれない。上記の「ＭＵＬＴＩ」処理の場合には、登録部１４は選択された単語を複数の追加辞書３２に分けて登録する。

　上述したように、単語辞書３０に追加された単語は単語分割モデルの修正に用いられるが、単語辞書３０を単語分割以外の目的で用いてもよい。例えば、形態素解析や、自動入力機能を備える入力ボックスにおける入力候補語句の表示や、固有名詞を抽出するための知識データベースなどのために単語辞書３０を用いてもよい。

　次に、図４を用いて、辞書生成装置１０の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。

　まず、モデル生成部１１が、学習コーパス２０及び既存辞書３１に基づく学習をＳＶＭに実行させることで最初の単語分割モデル（ベースライン・モデル）を生成する（ステップＳ１１、モデル生成ステップ）。続いて、解析部１２がそのベースライン・モデルが組み込まれた解析（単語分割）を大規模テキスト４０に対して実行して、「分割」、「半分割」、又は「非分割」を示す境界情報を各テキストに付与する（関連付ける）（ステップＳ１２、解析ステップ）。

　続いて、選択部１３が、辞書に登録する単語を選択する（選択ステップ）。具体的には、選択部１３は境界情報付きのテキストに基づいて各単語の合計出現頻度を算出し（ステップＳ１３）、その頻度が所定の閾値以上である単語を登録候補として選択する（ステップＳ１４）。そして、選択部１３は最終的に辞書に登録する単語を登録候補から選択すると共に、単語を登録する辞書を決定する（ステップＳ１５）。選択部１３は上記のＡＰＰＥＮＤ，ＴＯＰ，ＡＬＬ，ＭＵＬＴＩなどの手法を用いて、単語を選択し辞書を指定することができる。

　続いて、登録部１４が選択部１３での処理に基づいて、選択した単語を指定の辞書に登録する（ステップＳ１６、登録ステップ）。

　以上の処理により、単語辞書３０への単語の追加が完了する。本実施形態では、拡張された単語辞書３０を用いて単語分割モデルが修正される。すなわち、モデル生成部１１が、学習コーパス２０と単語辞書３０の全体とに基づく再学習により、修正された単語分割モデルを生成する（ステップＳ１７）。

　次に、図５を用いて、コンピュータを辞書生成装置１０として機能させるための辞書生成プログラムＰ１を説明する。

　辞書生成プログラムＰ１は、メインモジュールＰ１０、モデル生成モジュールＰ１１、解析モジュールＰ１２、選択モジュールＰ１３、及び登録モジュールＰ１４を備えている。

　メインモジュールＰ１０は、辞書生成機能を統括的に制御する部分である。モデル生成モジュールＰ１１、解析モジュールＰ１２、選択モジュールＰ１３、及び登録モジュールＰ１４を実行することにより実現される機能はそれぞれ、上記のモデル生成部１１、解析部１２、選択部１３、及び登録部１４の機能と同様である。

　辞書生成プログラムＰ１は、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭ、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供される。また、辞書生成プログラムＰ１は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。

　以上説明したように、本実施形態によれば、境界情報が付与されている学習コーパス２０と、既存辞書３１とを用いて単語分割モデルが生成され、そのモデルが組み込まれた単語分割が大規模テキスト４０に適用される。そして、この適用により境界情報が付与されたテキスト集合から単語が選択されて単語辞書３０に登録される。このように、学習コーパス２０を用いた解析によりテキスト集合にも境界情報を付与した上で、そのテキスト集合から抽出された単語を登録することで、大規模な単語辞書３０を容易に構築することができる。

　例えば「スマホケース」（sumahoke-su）（英語では「smartphone case」）が「スマホ」（sumaho）と「ケース」（ke-su）とに分けられて、それまで未知語であった「スマホ」（sumaho）が辞書に登録され得る。なお、「スマホ」（sumaho）は、日本語の「スマートフォン」（suma-tofon）の略語である。また、「うっとろりん」（uttororin）という語句（日本語の「うっとり」（uttori）（英語では「fascinated」）に相当する未知語）も辞書に登録され得る。そして、構築された辞書を用いてテキスト解析を行うことで、登録された単語を含む文（例えば「スマホ」（sumaho）又は「うっとろりん」（uttororin）を含む文）の単語分割がより精度良く実行される。

　次に、本実施形態における辞書生成装置１０による単語分割性能の評価の一例を示す。単語分割性能の評価の指標には、精度(Ｐｒｅｃ)、再現率(Ｒｅｃ)、及びＦ値を用いた．正解コーパスに含まれる延べ単語数をＮ_ＲＥＦ、解析結果に含まれる延べ単語数をＮ_ＳＹＳ、解析結果及び正解コーパスの両者に含まれる延べ単語数をＮ_ＣＯＲとすると、上記の３指標は下記のように定義される。
Ｐｒｅｃ＝Ｎ_ＣＯＲ／Ｎ_ＳＹＳ
Ｒｅｃ＝Ｎ_ＣＯＲ=Ｎ_ＲＥＦ
Ｆ＝２Ｐｒｅｃ・Ｒｅｃ／（Ｐｒｅｃ＋Ｒｅｃ）

　既存辞書としてＵｎｉＤｉｃの見出し語リスト（異なり３０４，２６７語）を用い、サポート・ベクトル・マシンとしてＬＩＢＬＩＮＥＡＲをデフォルトパラメータで使用した。学習コーパスおよび大規模テキスト内の半角文字はすべて全角に統一したが、それ以上の正規化は行わなかった。

　まず、学習コーパス及び大規模テキストが同じ分野である場合（同一分野の学習）の有効性について説明する。ここで、分野とは、文体、内容（ジャンル）などに基づいて文及び単語をグループ化するための概念である。同一分野の学習では、仮想商店街Ａのウェブサイトからジャンルの偏り無くランダムに抽出した５９０商品のタイトルおよび説明文と、仮想商店街Ｂのウェブサイトからランダムに抽出した５０商品の説明文とから３段階単語分割の学習コーパスを作成した。この学習コーパスの単語数は約１１万であり、文字数は約３４万であった。この学習コーパスを用いて性能を評価した。

　大規模テキストとして、上記仮想商店街Ａ内の全商品データのタイトルおよび説明文を用いた。商品数は約２７００万であり、文字数は約１６０億であった。

　この大規模テキストをベースライン・モデルにより解析して２段階単語分割を実行した場合には、異なり５７６，９５４語が抽出され、当該解析後に３段階単語分割を実行した場合には、異なり６０３，１８７語が抽出された。ここで、単語の足切りのために用いた頻度の閾値は２０とした。上記「ＭＵＬＴＩ」を採用した際には、合計出現頻度の上位１０万語、上位２０万語、上位３０万語、上位４０万語、及び全体を別々の辞書として追加した。上記「ＴＯＰ」を採用した際には上位１０万語のみを用いた。

　ベースライン・モデルによる学習結果、２段階単語分割により得られた単語辞書を用いた再学習の結果、及び３段階単語分割により得られた単語辞書を用いた再学習の結果を表１に示す。表１中の数値はすべて百分率（％）である。

　２段階単語分割を使って再学習した場合には、どの手法（ＡＰＰＥＮＤ／ＴＯＰ／ＡＬＬ／ＭＵＬＴＩ）を用いて単語を追加してもＦ値が向上し、このことは、提案する大規模テキストを用いた学習が有効であることを示している。Ｆ値の増加幅は、ＡＰＰＥＮＤ＜ＴＯＰ＜ＡＬＬ＜ＭＵＬＴＩの順で大きかった。この結果から、単語を追加する際には、既存辞書に追加するよりも別の辞書に追加した方がより効果的であり、更には、追加する単語を一つの追加辞書に登録するよりも出現頻度に応じて別々の辞書に追加した方がより効果的であることが分かった。

　表１より、分類器が単語の出現頻度に応じて異なる貢献度及び重みを自動的に学習していると考えられる。さらに、３段階単語分割を使って再学習した場合には、すべての場合においてベースライン・モデルおよび２段階単語分割よりも性能が向上した。具体的には、半分割を考慮することにより、接辞を伴う単語を正確に獲得するなどの改善が得られた。

　次に、学習コーパスと大規模テキストとが異なる分野である場合の有効性について説明する。用いた学習コーパスは、上記同一分野の学習におけるものと同じとした。一方、大規模テキストは、旅行予約サイトＣ内のユーザレビュー、宿泊施設名、宿泊プラン名、及び宿泊施設からの返答を用いた。テキスト数は３４８，５６４であり、その文字数は約１億２６００万であった。この大規模テキストのうち、１５０件及び５０件のレビューをランダムに抽出して人手による単語分割を行い、それぞれテストコーパス及び能動学習用コーパス（学習コーパスに対する追加分）として用いた。

　まず、上記の商品分野の学習コーパスから学習したベースライン・モデルを用いて旅行分野の大規模テキストを解析した。この解析性能が下記表２の「ベースライン」である。

　次に、商品分野の学習コーパスに分野適応用のコーパスを加えて単語分割モデルを学習した後、それを用いて大規模テキストを解析した。この解析性能が下記表２の「分野適応」である．大規模テキストを解析した後に２段階単語分割を用いると異なり４１，６７１語が抽出され、３段階単語分割を用いると異なり４４，２４７語が抽出された。いずれの場合も、合計出現頻度が５以上の単語のみを用いた。

　これらの得られた単語を辞書に追加し、学習コーパスおよび分野適応用コーパスを用いてモデルを再学習した結果を表２に示す。表２中の数値はすべて百分率（％）である。

　この表から分かるように、学習コーパスと大規模テキストで分野が異なる場合には、３段階単語分割の場合において性能の向上が見られた。

　以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。

　上記実施形態では選択部１３が出現頻度に基づいて単語を選択したが、選択部１３は、この出現頻度を参照することなく、すべての単語を既存辞書３１又は追加辞書３２に登録してもよい。また、単語の足切りは必須の処理ではない。

　上記実施形態では解析部１２が大規模テキスト４０の全体を解析した後に選択部１３及び登録部１４による処理が行われたが、解析部１２は収集された大量のテキストを複数回に分けて解析してもよい。この場合には、モデル生成ステップ、解析ステップ、選択ステップ、及び登録ステップから成る一連の処理が複数回繰り返される。例えば、大規模テキスト４０をグループ１～３に分けた場合には、１ループ目の処理でグループ１が解析されて単語が登録され、２ループ目の処理でグループ２が解析されて単語が更に登録され、３ループ目の処理でグループ３が解析されて単語が更に登録される。２ループ目以降の処理では、モデル生成部１１は単語辞書３０の全体を参照して、修正された単語分割モデルを生成する。

　上記実施形態では３段階分割の手法を用いたので境界情報は３種類であったが、境界情報の態様はこの例に限定されない。例えば、「分割」「非分割」という２種類の境界情報のみを用いて２段階の単語分割を行ってもよい。また、「分割」「非分割」と、複数種類の確率的分割とを用いて、４段階以上の単語分割を行ってもよい。例えば、ｂ_ｉ＝０．３３とｂ_ｉ＝０．６７という確率的分割（第３の情報）を用いた４段階の単語分割を行ってもよい。いずれにしても、第３の情報に相当する分割の強度は、境界情報が「非分割」の場合の強度（例えばｂ_ｉ＝０）より大きく、境界情報が「分割」の場合の強度（例えばｂ_ｉ＝１）より小さい。

　本実施形態によれば、大規模な単語辞書を容易に構築することができる。

　１０…辞書生成装置、１１…モデル生成部、１２…解析部、１３…選択部、１４…登録部、２０…学習コーパス、３０…単語辞書、３１…既存辞書（単語群）、３２…追加辞書、４０…大規模テキスト（収集されたテキストの集合）、Ｐ１…辞書生成プログラム、Ｐ１０…メインモジュール、Ｐ１１…モデル生成モジュール、Ｐ１２…解析モジュール、Ｐ１３…選択モジュール、Ｐ１４…登録モジュール。

Claims

　予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
　収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
　前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
　前記選択部により選択された単語を前記辞書に登録する登録部と
を備える辞書生成装置。
　前記選択部が、前記解析部により付与された前記境界情報から算出される各単語の出現頻度に基づいて、前記辞書に登録する単語を選択する、
請求項１に記載の辞書生成装置。
　前記選択部が、前記出現頻度が所定の閾値以上である単語を選択する、
請求項２に記載の辞書生成装置。
　前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、
　前記登録部が、前記選択部により選択された単語を前記単語群が記録されている辞書に追加する、
請求項３に記載の辞書生成装置。
　前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度が高い単語から順に該登録候補から所定数の単語を選択し、
　前記登録部が、前記選択部により選択された単語を、前記単語群が記録されている辞書とは別の辞書に登録する、
請求項３に記載の辞書生成装置。
　前記登録部が、前記選択部により選択された単語を、前記単語群が記録されている辞書とは別の辞書に登録する、
請求項３に記載の辞書生成装置。
　前記選択部が、前記出現頻度が前記閾値以上である単語を登録候補として抽出し、前記出現頻度の高さに応じて該登録候補の単語をグループ化し、
　前記登録部が、前記選択部により生成された複数のグループを、前記単語群が記録されている辞書とは別の複数の辞書に個別に登録する、
請求項３に記載の辞書生成装置。
　前記収集されたテキストのそれぞれには、該テキストの分野を示す情報が関連付けられており、
　前記登録部が、前記選択部により選択された単語を、該単語が含まれていたテキストの分野に基づいて、前記分野毎に用意された辞書に個別に登録する、
請求項３に記載の辞書生成装置。
　前記境界情報が、文字間位置に前記境界が存在しないことを示す第１の情報と、文字間位置に前記境界が存在することを示す第２の情報と、文字間位置に前記境界が確率的に存在することを示す第３の情報とを含み、
　各単語の出現頻度が前記第１、第２、及び第３の情報に基づいて算出される、
請求項２～８のいずれか一項に記載の辞書生成装置。
　前記解析部が、第１の二値分類器及び第２の二値分類器を備え、
　前記第１の二値分類器が、各文字間位置について、前記第１の情報を割り当てるか前記第１の情報以外の情報を割り当てるかを判定し、
　前記第２の二値分類器が、前記第１の二値分類器により前記第１の情報以外の情報を割り当てると判定された文字間位置について、前記第２の情報を割り当てるか前記第３の情報を割り当てるかを判定する、
請求項９に記載の辞書生成装置。
　前記収集されたテキストの集合が複数のグループに分割され、
　前記解析部、前記選択部、及び前記登録部が前記複数のグループのうちの一つに基づく処理を実行した後に、前記モデル生成部が前記コーパス、前記単語群、及び前記登録部により登録された単語を用いて前記単語分割モデルを生成し、続いて、前記解析部、前記選択部、及び前記登録部が前記複数のグループのうちの別の一つに基づく処理を実行する、
請求項１～１０のいずれか一項に記載の辞書生成装置。
　辞書生成装置により実行される辞書生成方法であって、
　予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成ステップであって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成ステップと、
　収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析ステップと、
　前記解析ステップにおいて前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択ステップと、
　前記選択ステップにおいて選択された単語を前記辞書に登録する登録ステップと
を含む辞書生成方法。
　予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
　収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
　前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
　前記選択部により選択された単語を前記辞書に登録する登録部と
をコンピュータに実行させる辞書生成プログラム。
　予め用意されたコーパス及び単語群を用いて単語分割モデルを生成するモデル生成部であって、前記コーパスに含まれる各テキストには、単語の境界を示す境界情報が付与されている、該モデル生成部と、
　収集されたテキストの集合に対して、前記単語分割モデルが組み込まれた単語分割を実行して、各テキストに前記境界情報を付与する解析部と、
　前記解析部により前記境界情報が付与されたテキストから辞書に登録する単語を選択する選択部と、
　前記選択部により選択された単語を前記辞書に登録する登録部と
をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。