JPWO2015040860A1

JPWO2015040860A1 - 分類辞書生成装置、分類辞書生成方法及びプログラム

Info

Publication number: JPWO2015040860A1
Application number: JP2015537559A
Authority: JP
Inventors: 正明土田; 石川　開; 開石川; 貴士大西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-09-18
Filing date: 2014-09-17
Publication date: 2017-03-02
Anticipated expiration: 2034-09-17
Also published as: US20160224654A1; WO2015040860A1; JP6436086B2

Abstract

目標カテゴリの情報を含む文書を目標カテゴリに分類するための辞書を生成する場合に、当該カテゴリの情報がそれ以外の情報と比較して少ないと当該カテゴリらしさを表すスコアを低く計算する分類辞書を生成する。本発明の分類辞書生成装置は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶手段と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御手段と、を備え、前記制御手段は、前記下限値記憶手段に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。

Description

本発明は、文書を適切に分類するための辞書を生成する分類辞書生成装置、分類辞書生成方法、及び記録媒体に関する。

情報セキュリティガバナンスの重要性が高まってきている。情報管理はその基本となるが、日々の作成される文書データは増加の一途をたどっているため、人手で全ての文書を読み、適切に管理することは困難である。

文書を適切に管理するためには、各文書を管理対象の情報か否か（目標のカテゴリか否か）に分類することが基本的な処理となる。文書の分類は、分類用の辞書（以下、分類辞書と記載する）を作成しておくことで、計算機による自動化が可能である。一方、精度よく分類するための辞書の作成には、多大な人手とコストがかかる。そのため、計算機によって分類辞書を自動作成するシステムが求められている。

計算機によって分類辞書を自動生成するシステムの一例が、非特許文献１に記載されている。非特許文献１に記載のシステムは、予め分類カテゴリが付与されている文書集合を用いて、未分類の文書を目標のカテゴリと、それ以外のカテゴリとに分けるための識別関数（分類辞書）を学習する。具体的には、そのシステムは、予め分類カテゴリが付与されている文書集合に含まれる文書から、特定の品詞に属する単語を抽出して、抽出した各単語をベクトルの各次元に対応させ、単語が出現する場合は対応する次元の値を１と、出現しない場合は０とするベクトルを作成する。次に、そのシステムは、各文書から作成したベクトルからなる集合を用いて、サポートベクトルマシンによって、目標のカテゴリを正例集合に、それ以外のカテゴリを負例集合に分けるための識別関数を学習する。なお、サポートベクトルマシンは、与えられたデータを超空間上で正例集合と負例集合へと分離する際、マージンを最大にすることによって最適な分離超平面を得る学習手法である。

また、特許文献１には、識別関数の一例として、特定の品詞等に基づいて各々の単語（すなわちベクトルの各次元）に付与された重みから構成される重みベクトルについて開示されている。なお、重みは、正又は負の値をとる。特許文献１に記載されるシステムは、分類時に、対象文書から単語を抽出し、抽出された単語に対する目標カテゴリ用の分類辞書の重みの和を当該カテゴリのスコアとして計算する。さらに、そのシステムは、そのスコアが閾値以上ならば、抽出された単語を当該カテゴリに分類する。すなわち、重みの値が正の単語の出現は目標カテゴリのスコアが加点され、逆に負の単語の出現は目標カテゴリのスコアが減点される。

特開２０１０−１２５２１号公報

平博順、春野雅彦、「ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅによるテキスト分類における属性選択」、情報処理学会論文誌、２０００年４月、Ｖｏｌ．４１、Ｎｏ．４、ｐｐ．１１１３−１１２３

しかし、上述の特許文献１及び非特許文献１に記載のシステムでは、あるカテゴリ（目標カテゴリ）の情報を含む文書を目標カテゴリに分類する時において、文書内に目標カテゴリ以外の情報（単語）が多く存在する場合には、出現単語の重みの和であるスコアが低くなりやすい。なぜならば、上記の場合、負の重みを持つ単語が多数あるからである。したがって、目標カテゴリの情報がそれ以外の情報と比較して少ないと、特許文献１及び非特許文献１のシステムでは、当該カテゴリらしさを表すスコアを低く計算する分類辞書を生成するという課題がある。

その結果、特許文献１及び非特許文献１のシステムは、当該システムは正例であることを予測するための識別関数を学習できない。さらに、非特許文献１のシステムは、上記の場合に識別関数（分類辞書）のスコアが低くなりやすくなっていることを検出できない。

本発明の目的は、上記問題を解決することにより、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成する辞書作成装置、分類辞書生成方法及び記録媒体を提供することである。

本発明の一態様に係る分類辞書生成装置は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶手段と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御手段と、を備え、前記制御手段は、前記下限値記憶手段に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。

本発明の一態様に係る分類辞書生成方法は文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶し、前記カテゴリが既知である学習データと、前記記憶された下限情報とに基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。

本発明の一態様に係るコンピュータで読み取り可能な記録媒体は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する処理と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する処理と、をコンピュータに実行させ、該分類辞書を生成する処理は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する処理である、プログラムを記録する。

本発明は、目標カテゴリに該当する情報が、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアがより高く計算される分類辞書を作成できるという効果がある。

本発明の第１の実施形態に係る分類辞書生成装置の例を示す図である。本発明の第１の実施形態に係る分類辞書生成装置の構成を実現するコンピュータの一例を示すブロック図である。本発明の第１の実施形態に係る分類辞書生成装置の動作例を示すフローチャートである。本発明の第１の実施形態に係る分類辞書生成装置の識別関数算出部の動作例を示すフローチャートである。本発明の第１の実施形態における学習データの構成例を示す図である。本発明の第１の実施形態における特徴ベクトルの構成例を示す図である。本発明の第１の実施形態における下限情報の構成例を示す図である。本発明の第１の実施形態における識別関数と分類辞書との構成例を示す図である。本発明の第２の実施形態に係る分類辞書生成装置の例を示す図である。本発明の第３の実施形態に係る分類辞書生成装置の例を示す図である。

＜第１の実施形態＞
本発明の第１の実施形態における分類辞書作成装置は、カテゴリが既知である学習データから識別関数を算出し、算出した識別関数における下限値を修正して、文書をカテゴリに分類するための分類辞書を作成する。

はじめに、図１を用いて、本発明の第１の実施形態について説明する。なお、図１に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、なんらの限定を意図するものではない。

図１は、本発明の第１の実施形態における分類辞書生成装置１０の例を示す図である。図１に示すように、本発明の第１の実施形態における分類辞書生成装置１０は、制御部１１と、下限値記憶部１５と、学習データ記憶部１６と、分類辞書記憶部１７とを含む。制御部１１は、識別関数算出部１２と、分類辞書生成部１３と、インターフェース部１４とを含む。

インターフェース部１４は、学習データ記憶部１６が記憶する学習データを読み取り、識別関数算出部１２に出力する。また、インターフェース部１４は、算出された分類辞書を分類辞書記憶部１７に書き込む。識別関数算出部１２は、学習データを用いて識別関数を算出する。ここで、学習データとは、例えば、カテゴリ情報が付与された文書の集合である。また、識別関数とは、予め分類カテゴリが付与されている文書集合を用いて、各文書を目標のカテゴリと、それ以外のカテゴリとに分ける関数を示す。識別関数の一例としては、例えば、重みベクトルである。分類辞書生成部１３は、目標カテゴリに関する分類辞書を生成する。分類辞書生成部１３は、例えば、下限情報に基づいて、識別関数を使って分類辞書を生成する。

下限値記憶部１５は、下限値を含む下限情報を記憶する。下限情報の詳細については、図７を用いて後述する。学習データ記憶部１６は、学習データを記憶する。分類辞書記憶部１７は、分類辞書生成部１３によって生成される分類辞書を記憶する。

図５は、学習データ記憶部１６が記憶する学習データの構成例を示す図である。図５に示すように、学習データは、学習データの文書のＩＤである「ＤＩＤ」と、学習データの文書本体である「学習データの文書」と、学習データの文書のカテゴリ情報である「カテゴリ」とを対応づけしたデータである。図５に示すように、学習データ記憶部１６は、例えば、ＤＩＤ「２」と、学習データの文書「○○の田中です。お世話になっております。見積もりを受領しました。ありがとうございました。」と、カテゴリ「依頼なし」とを対応づけて記憶する。なお、図５に示す依頼の意味については後述する。

図２を用いて、本発明の第１の実施形態の分類辞書生成装置１０を実現するコンピュータについて説明する。

図２は、本発明の第１の実施形態の分類辞書生成装置１０の代表的なハードウェア構成図である。図２に示すように、分類辞書生成装置１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１、ＲＡＭ（ＲａｍｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２、記憶装置３、通信インターフェース４、入力装置５、出力装置６などを含む。

識別関数算出部１２と、分類辞書生成部１３とは、ＲＡＭ２などの主記憶に展開したプログラムを実行するＣＰＵ１によって実現される。インターフェース部１４は、例えばＣＰＵ１のＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）が提供する機能を使ってＣＰＵ１がアプリケーションプログラムを実行することで実現される。記憶装置３は、例えば、ハードディスクや、フラッシュメモリである。記憶装置３は、下限値記憶部１５、学習データ記憶部１６、分類辞書記憶部１７として機能する。また、記憶装置３は、上記のアプリケーションプログラムを記憶する。

通信インターフェース４は、ＣＰＵ１に接続され、ネットワーク或いは外部記憶媒体に接続される。外部データが通信インターフェース４を介してＣＰＵ１に取り込まれても良い。入力装置５は、例えばキーボードやマウス、タッチパネルである。出力装置６は、例えばディスプレイである。なお、図２に示すハードウェア構成は、一例にすぎず、図１に示す分類辞書生成装置１０の各部のそれぞれが独立した論理回路で構成されていても良い。

次に、図３、図４、図６、図７、図８を用いて、本発明の第１の実施形態における分類辞書生成装置１０の動作を説明する。本例では、相手に対して何かをしてほしいことを示す依頼、即ちメールでの返信や質問に対する回答のお願い等、が入っている文書を検知するための分類を考えるため、目標カテゴリを「依頼あり」とし、非目標カテゴリを「依頼なし」とする。

ここで、分類辞書生成装置１０は、上記分類に限定されず、ある文書がスポーツ新聞か否かを検知するための分類を考えるために、目標カテゴリを「スポーツ新聞」とし、非目標カテゴリを「スポーツ新聞以外」としても良い。本発明の分類辞書生成装置１０は、分類を行うための目標となるカテゴリ（目標カテゴリ）と、それ以外の分類となる非目標カテゴリを基に分類する辞書を生成する。

図３は、本発明の第１の実施形態の分類辞書生成装置１０の動作を示すフローチャートである。図３において、Ｓ１０１乃至Ｓ１０４は、それぞれ動作例の処理のステップを示す。

インターフェース部１４は、学習データ記憶部１６が記憶する学習データを読み取り、識別関数算出部１２に出力する（Ｓ１０１）。次に、識別関数算出部１２は、インターフェース部１４で読み取られた学習データを基に、識別関数を算出する（Ｓ１０２）。識別関数算出部１２の詳細な動作の説明は、図４のフロー図の説明時に行う。

次に、分類辞書生成部１３は、算出された識別関数（重みベクトル）の中で、下限値記憶部１５が記憶する下限情報を基に設定した下限値を下回る識別関数（重みベクトル）を、当該設定した下限値に変換し、それを分類辞書として出力する（Ｓ１０３）。ここで、分類辞書生成部１３の詳細な動作の説明は、図７、８を参照して行う。

次に、インターフェース部１４は、分類辞書生成部１３が生成した分類辞書を分類辞書記憶部１７に書き込む（Ｓ１０４）。

次に、図４は、本発明の第１の実施形態の識別関数算出部１２の動作を示すフローチャートである。図４において、Ｓ２０１乃至Ｓ２０２は、それぞれ動作例の処理のステップを示す。

識別関数算出部１２は、インターフェース部１４が読み取った学習データの中の各文書に対して、内容を反映した特徴、本例では文書中の全ての名詞、動詞、助動詞、を抽出し、特徴ベクトルを生成する（Ｓ２０１）。ここで、図６を用いて特徴ベクトルの詳細な構成についての説明を行う。

図６は、識別関数算出部１２が図５に示す学習データから算出する特徴ベクトルの構成例を示す図である。図６に示す例での特徴ベクトルは、識別関数算出部１２が学習データに対して形態素解析を行い抽出した名詞、動詞、助動詞の各単語と、当該各単語に対する次元の値である「１」とを対応づけしたデータ列である。具体的には、ＤＩＤが１（ＤＩＤ＝１）の特徴ベクトルは、「（△△，山田，例，見積もり，確認，・・・）＝（１，１，１，１，１，・・・）」である。

即ち、本例において、特徴ベクトルを算出するときに抽出される特徴が名詞、動詞、助動詞の単語である。そして、識別関数算出部１２は、学習データに対して形態素解析を行い、特徴（名詞、動詞、助動詞）の単語の次元の値を「１」、特徴以外の単語、例えば助詞、形容詞、副詞等の単語、の次元の値を「０」と算出する。

ここで、図６に示す特徴ベクトルでは、簡略化のために、次元の値が「０」、即ち学習データ内で名詞、動詞、助動詞以外の単語の特徴ベクトルを記載（表記）していない。具体的には、図６に示すように、例えば、ＤＩＤ＝２の特徴ベクトルには、「（の，に，を，・・・）＝（０，０，０，・・・）」の記載を省略している。しかし、実際には、「０」の次元を含む特徴ベクトルは存在している。

識別関数算出部１２は、インターフェース部１４が入力した学習データ、即ちカテゴリ情報が付与された各文書から、各文書の内容に反映した特徴（以下、特徴と記載する）を抽出して、特徴ベクトルを算出（生成）する。特徴は、図６に示す、名詞、動詞、助動詞のような文書中に出現する決められた条件の単語の他に、複数単語から構成されるフレーズ、文節、部分文字列、２つ以上の単語や文節の係り受け関係、でも良いが、これらに限定されない。

次に、識別関数算出部１２は、生成した特徴ベクトルとカテゴリ情報（目標カテゴリか否かの情報）とから、目標カテゴリの文書を正例、非目標カテゴリの文書を負例として機械学習を用いて識別関数を算出する（Ｓ２０２）。この具体的な算出方法については、例えば、非特許文献１に記載の算出方法を用いてもよい。例えば、非特許文献１に記載の算出方法では、正例の値を＋１、負例の値を−１として識別関数を算出している。また、機械学習としては、カテゴリ付きのベクトルの集合を入力に、ベクトルの次元毎の重みを学習する任意の方法が利用できる。

機械学習の代表的な例としては、例えば、ロジスティック回帰、サポートベクトルマシンが挙げられる。本例では、識別関数算出部１２は、機械学習としてサポートベクトルマシンを用いて識別関数を算出する。ここで、識別関数算出部１２が識別関数を算出する方法は既知であるため、動作の詳細を省略する。また、識別関数算出部１２が算出した識別関数は、図８に示される。

次に、図７、図８を用いて、分類辞書生成部１３の詳細な動作の説明を行う。まず、図７、図８のデータ構造について説明を行う。

図７は、下限値記憶部１５が記憶する下限情報の構成例を示す図である。図７に示すように、下限情報は、下限情報のＩＤと、下限値を決める方法（パターン）と、下限値とを対応づけしたデータである。具体的には、下限情報のＩＤが「（ａ）」の下限値を決めるパターンは「識別関数（学習された重みベクトル）の下限値を特定の値に決める」であり、当該パターンによって決められた下限値は「−１．０」である。

図８は、識別関数算出部１２が算出する識別関数のデータと、当該識別関数に基づいて分類辞書生成部１３が生成する分類辞書のデータとを表す図である。具体的には、下限情報のＩＤが「（ａ）」、即ち下限値を決めるパターンが「識別関数（学習された重みベクトル）の下限値を特定の値に決める」の時に、識別関数のデータが「確認２．０、ください１．５、田中−０．５、山田−２．０、願い−３．０、・・・」であった場合、分類辞書のデータは、「確認２．０、ください１．５、田中−０．５、山田−１．０、願い−１．０、・・・」である。

図７、図８が示すように、分類辞書生成部１３は、識別関数算出部１２が算出した識別関数の次元のうち、非目標カテゴリに対応する次元の値（本例ではマイナスの重み）が、下限値記憶部１５が記憶する下限情報の定められた下限値以上になる分類辞書を生成する。ここで、識別関数の次元とは、ベクトルの次元のことである。

図７、図８に示すように、分類辞書生成部１３は、例えば、下限情報のＩＤが（ａ）、即ち「識別関数の下限値を特定の値に決める」という下限値を決めるパターンを用いて分類辞書を生成する。この方法は、先に下限値を定めておき、識別関数算出部１２が機械学習によって得られた識別関数（重みベクトル）を基に、下限値を下回る識別関数の値（重みベクトルの重み）を下限値に変換する方法である。本例では、下限値を−１．０とするため、図７に示すように、下限値は−１．０となる。そして、分類辞書生成部１３は、図８に示すように、下限情報のＩＤが（ａ）の識別関数が「確認」２．０、「ください」１．５、「田中」−０．５、「山田」−２．０、「願い」−３．０、・・・であるので、下限値が−１．０よりも低い値のものを全て−１．０に変換する。具体的には、図８に示すように、例えば分類辞書生成部１３は、識別関数の「山田−２．０」を「山田−１．０」と変換する。その結果、分類辞書生成部１３は、下限情報のＩＤが（ａ）の時に、「確認２．０、ください１．５、田中−０．５、山田−１．０、願い−１．０、・・・」という分類辞書を生成する。

次に、図７が示すように、分類辞書生成部１３は、下限情報のＩＤが（ｂ）、即ち「下限値を、識別関数の最小値の３０％にする」という下限値を決めるパターンを用いて、分類辞書を生成する。この方法は、識別関数算出部１２が機械学習によって得られた各識別関数の中で最小の値（以下、最小値と記載する）に対して、０より大きく１未満である割合を定め、最小値と割合の掛け算から下限値を決め、下限値を下回る識別関数の値を下限値に変換する方法である。本例では、識別関数の最小値に対しての３０％を下限値と設定する。

具体的には、図８に示すように、例えば分類辞書生成部１３は、下限情報のＩＤが（ｂ）の識別関数である「確認２．０、ください１．５、田中−０．５、山田−２．０、願い−３．０、・・・」のうち、最小値、本例では「願い−３．０」を選択し、当該最小値の３０％、即ち−３．０×０．３＝−０．９を下限値と算出する。そして、下限値が−０．９よりも低い値のものを全て−０．９に変換する。その結果、分類辞書生成部１３は、下限情報のＩＤが（ｂ）の時に、「確認２．０、ください１．５、田中−０．５、山田−０．９、願い−０．９、・・・」という分類辞書を生成する。

ここで、下限情報の下限値を決めるパターンは、図７に限定されない。具体的には、下限情報のＩＤ（ａ）の下限値は−０．９でも良いし、下限情報のＩＤ（ｂ）の下限値の決定方法は「識別関数の最小値の３３％」であっても良い。

ここで、図７に示すように、下限情報のＩＤが（ｃ）、即ち「重みに下限を設定する」という下限値を決めるパターンを用いた分類辞書の動作（生成方法）は、本発明の第１の実施形態の変形例で説明する。

また、分類辞書生成部１３は、図７に示す下限情報の下限値を決めるパターン（下限情報のＩＤ（ａ）〜（ｃ））を自動で選択して分類辞書を生成しても良いし、ユーザによって予め決められた状態で分類辞書を生成しても良い。

以上で、本発明の第１の実施形態における分類辞書生成装置１０の動作が終了する。

本発明の第１の実施形態における分類辞書生成装置１０において、学習データ記憶部１６は、学習データを記憶する。インターフェース部１４は学習データ記憶部１６が記憶する学習データを読み取り、識別関数算出部１２に出力する。識別関数算出部１２はインターフェース部１４で読み取られる学習データを基に識別関数を算出する。そして、分類辞書生成部１３は、識別関数算出部１２が算出する識別関数と下限値記憶部１５が記憶する下限情報を基に、分類辞書を生成する。インターフェース部１４は、分類辞書生成部１３が生成する分類辞書を分類辞書記憶部１７に書き込む。分類辞書記憶部１７は、出力された分類辞書を記憶する。したがって、当該分類辞書生成装置１０は、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成することができる。
＜第２の実施形態＞
本発明の第２の実施形態について説明する。図９は、本発明の第２の実施形態における分類辞書生成装置１０’の構成例を示す図である。なお、本発明の第２の実施形態において、本発明の第１の実施形態と同様の構成については、説明を省略する。

本発明の第２の形態における分類辞書生成装置１０’では、制御部１１’が有する分類辞書生成部１３’が図７に示す下限情報を基に分類辞書を生成する。

具体的には、分類辞書生成部１３’は、機械学習時に制約付き最適化問題として、図７に示す下限情報のＩＤ（ｃ）、即ち重みに下限を設定する方法である。

本例では機械学習として、ロジスティック回帰を例に説明するが、これに限定されない。基本的なロジスティック回帰では、分類辞書、本例では重みベクトルｗに対して以下の数式（１）を最小化する。数式（１）において、ｉはｉ番目の文書を表し、ｙ_ｉは目標カテゴリの場合に１、非目標カテゴリの場合には−１を取る変数で、ｘ_ｉは特徴ベクトルである。ｗ・ｘ_ｉは、ｗとｘ_ｉとの内積を示す。

ここで、以下の数式（２）に示すように、重みベクトルの各次元に下限を設定した制約付き最適化問題の場合は、ロジスティック回帰に下限を導入できる。ｗ_ｊは重みベクトルｗのｊ番目の次元の値を表す。αは下限値を表す。
∀ｊ α＜ｗ_ｊ（α＜０）（２）
数式（１）の最小化を数式（２）の制約で最適化するためには、例えば、Ｌ−ＢＦＧＳ−Ｂなど、ｂｏｘｃｏｎｓｔｒａｉｎｔｏｐｔｉｍｉｚａｔｉｏｎを扱える最適化のアルゴリズムを用いることができる。図７に示す下限情報のＩＤ（ｃ）のように、数式（２）のαを−１．０（下限値）とした場合、分類辞書生成部１３’は、図８の（ｃ）が示す分類辞書、即ち「確認１．５，ください１．２５，田中−０．２，山田−１．０，願い−１．０，・・・」を生成する。つまり、分類辞書生成部１３’は、重みベクトルの各次元の値の下限値を制約とする制約付き最適化問題として最適化することで重みベクトルを算出し、算出した重みベクトルから分類辞書を生成する。

したがって、本発明の第２の実施形態における分類辞書生成装置１０’は、本発明の第１の実施形態における分類辞書生成装置１０が行う、学習された識別関数（重みベクトル）を後処理（分類辞書生成部１３）で調整する分類辞書の生成ではなく、学習時に最適な分類辞書を生成する。これにより、分類辞書生成装置１０’は、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成することができる。また、本発明の第２の実施形態における分類辞書生成装置１０’は、本発明の第１の実施形態における分類辞書生成装置１０に比べて、処理工数を少なくできる。
＜第３の実施形態＞
本発明の第３の実施形態について説明する。図１０は、本発明の第３の実施形態における、分類辞書生成装置１００の構成例を示す図である。なお、本発明の第３の実施形態において、上記各実施形態と同様の構成については、説明を省略する。

本発明の第３の形態における分類辞書生成装置１００は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶部１５と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御部１１０とを備える。

また、前記制御部１１０は、前記下限値記憶部１５に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。

上記構成を有する分類辞書生成装置１００は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶し、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する。このとき、分類辞書生成装置１００は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。これにより、分類辞書生成装置１００は、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成することができる。

第３の実施形態において、分類辞書生成装置１００の制御部１１０はコンピュータであり、そのコンピュータのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）（例えば、図２のＣＰＵ１）又はＭＰＵ（Ｍｉｃｒｏ−ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）は、上述した各実施形態の機能を実現するソフトウェア（プログラム）を実行しても良い。

本発明の第３の実施形態において、分類辞書生成装置１００の制御部１１０は、例えば、図２の記憶装置３に上述のプログラムを記憶する。この記憶装置３は、例えば、ハードディスク装置等のコンピュータ読み取り可能な記憶デバイスや、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｃＲｅｃｏｒｄａｂｌｅ）等の各種記憶媒体を含む。コンピュータは、ネットワークを介して、前述した各実施形態の機能を実現するソフトウェア（プログラム）を取得しても良い。

分類辞書生成装置１００の上述のプログラムは、少なくとも（１）文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する処理と、（２）前記カテゴリが既知の学習データに基づいて、前記分類辞書を生成する処理と、をコンピュータに実行させる。なお、上記分類辞書を生成する処理は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する処理である。

分類辞書生成装置１００のコンピュータは、取得したソフトウェア（プログラム）のプログラムコードを読み出して実行する。したがって、当該、分類辞書生成装置１００は、上述した各実施形態における分類辞書生成装置の処理と同一の処理を実行しても良い。

以上、実施形態を用いて本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。

この出願は、２０１３年９月１８日に出願された日本出願特願２０１３−１９２６７４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１ＣＰＵ
２ＲＡＭ
３記憶装置
４通信インターフェース
５入力装置
６出力装置
１０分類辞書生成装置
１０’ 分類辞書生成装置
１１制御部
１１’ 制御部
１２識別関数算出部
１３分類辞書生成部
１３’ 分類辞書生成部
１４インターフェース部
１５下限値記憶部
１６学習データ記憶部
１７分類辞書記憶部
１００分類辞書生成装置
１１０制御部

Claims

文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶手段と、
前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御手段と、を備え、
前記制御手段は、前記下限値記憶手段に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する分類辞書生成装置。
前記学習データは、カテゴリ情報が付与された文書の集合を含み、
前記制御手段は、前記文書の集合の各文書に対して、前記各文書の内容を反映した特徴を抽出して特徴ベクトルを算出し、前記分類辞書の次元の値のうち、非目標カテゴリに対応する前記次元の値が前記下限値以上となる分類辞書を生成する請求項１に記載の分類辞書生成装置。
前記学習データから識別関数を算出する識別関数算出手段をさらに備え、
前記制御手段は、前記識別関数算出手段が算出した識別関数と、前記下限値記憶手段に記憶される下限情報とに基づいて、前記分類辞書を生成する請求項１又は２に記載の分類辞書生成装置。
前記下限値記憶手段は、前記識別関数の次元の値のうち、予め定められた前記下限値よりも小さい前記次元の値を前記下限値とする下限情報を記憶する請求項３に記載の分類辞書生成装置。
前記下限情報記憶手段は、前記識別関数の次元の値の最小値と０より大きく１未満の予め定められた割合との積により下限値を定め、当該下限値を前記識別関数の値とする下限情報を記憶する請求項３に記載の分類辞書生成装置。
前記学習データを記憶する学習データ記憶手段と前記分類辞書を記憶する分類辞書記憶手段をさらに備え、
前記制御手段は、前記分類辞書を前記分類辞書記憶手段に書き込む請求項１から５のいずれか１項に記載の分類辞書生成装置。
前記制御手段は、重みベクトルの各次元の値の下限値を制約とする制約付き最適化問題として最適化することで重みベクトルを算出し、算出した重みベクトルから前記分類辞書を生成する請求項１又は２に記載の分類辞書生成装置。
前記識別関数算出手段は、前記特徴として、文書中に出現する単語、複数単語から構成されるフレーズ、文節、部分文字列、２つ以上の単語や文節の係り受け関係、及び部分文字列、のうち少なくとも１つを用いて前記識別関数を算出する請求項３に記載の分類辞書生成装置。
文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶し、
前記カテゴリが既知である学習データと、前記記憶された下限情報とに基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する分類辞書生成方法。
文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する処理と、
前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する処理と、をコンピュータに実行させ、
該分類辞書を生成する処理は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する処理である、プログラムを記録するコンピュータで読み取り可能な記録媒体。