JPWO2015040860A1 - 分類辞書生成装置、分類辞書生成方法及びプログラム - Google Patents

分類辞書生成装置、分類辞書生成方法及びプログラム Download PDF

Info

Publication number
JPWO2015040860A1
JPWO2015040860A1 JP2015537559A JP2015537559A JPWO2015040860A1 JP WO2015040860 A1 JPWO2015040860 A1 JP WO2015040860A1 JP 2015537559 A JP2015537559 A JP 2015537559A JP 2015537559 A JP2015537559 A JP 2015537559A JP WO2015040860 A1 JPWO2015040860 A1 JP WO2015040860A1
Authority
JP
Japan
Prior art keywords
lower limit
classification dictionary
value
classification
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015537559A
Other languages
English (en)
Other versions
JP6436086B2 (ja
Inventor
正明 土田
正明 土田
石川 開
開 石川
貴士 大西
貴士 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2015040860A1 publication Critical patent/JPWO2015040860A1/ja
Application granted granted Critical
Publication of JP6436086B2 publication Critical patent/JP6436086B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

目標カテゴリの情報を含む文書を目標カテゴリに分類するための辞書を生成する場合に、当該カテゴリの情報がそれ以外の情報と比較して少ないと当該カテゴリらしさを表すスコアを低く計算する分類辞書を生成する。本発明の分類辞書生成装置は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶手段と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御手段と、を備え、前記制御手段は、前記下限値記憶手段に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。

Description

本発明は、文書を適切に分類するための辞書を生成する分類辞書生成装置、分類辞書生成方法、及び記録媒体に関する。
情報セキュリティガバナンスの重要性が高まってきている。情報管理はその基本となるが、日々の作成される文書データは増加の一途をたどっているため、人手で全ての文書を読み、適切に管理することは困難である。
文書を適切に管理するためには、各文書を管理対象の情報か否か(目標のカテゴリか否か)に分類することが基本的な処理となる。文書の分類は、分類用の辞書(以下、分類辞書と記載する)を作成しておくことで、計算機による自動化が可能である。一方、精度よく分類するための辞書の作成には、多大な人手とコストがかかる。そのため、計算機によって分類辞書を自動作成するシステムが求められている。
計算機によって分類辞書を自動生成するシステムの一例が、非特許文献1に記載されている。非特許文献1に記載のシステムは、予め分類カテゴリが付与されている文書集合を用いて、未分類の文書を目標のカテゴリと、それ以外のカテゴリとに分けるための識別関数(分類辞書)を学習する。具体的には、そのシステムは、予め分類カテゴリが付与されている文書集合に含まれる文書から、特定の品詞に属する単語を抽出して、抽出した各単語をベクトルの各次元に対応させ、単語が出現する場合は対応する次元の値を1と、出現しない場合は0とするベクトルを作成する。次に、そのシステムは、各文書から作成したベクトルからなる集合を用いて、サポートベクトルマシンによって、目標のカテゴリを正例集合に、それ以外のカテゴリを負例集合に分けるための識別関数を学習する。なお、サポートベクトルマシンは、与えられたデータを超空間上で正例集合と負例集合へと分離する際、マージンを最大にすることによって最適な分離超平面を得る学習手法である。
また、特許文献1には、識別関数の一例として、特定の品詞等に基づいて各々の単語(すなわちベクトルの各次元)に付与された重みから構成される重みベクトルについて開示されている。なお、重みは、正又は負の値をとる。特許文献1に記載されるシステムは、分類時に、対象文書から単語を抽出し、抽出された単語に対する目標カテゴリ用の分類辞書の重みの和を当該カテゴリのスコアとして計算する。さらに、そのシステムは、そのスコアが閾値以上ならば、抽出された単語を当該カテゴリに分類する。すなわち、重みの値が正の単語の出現は目標カテゴリのスコアが加点され、逆に負の単語の出現は目標カテゴリのスコアが減点される。
特開2010−12521号公報
平博順、春野雅彦、「Support Vector Machineによるテキスト分類における属性選択」、情報処理学会論文誌、2000年4月、Vol.41、No.4、pp.1113−1123
しかし、上述の特許文献1及び非特許文献1に記載のシステムでは、あるカテゴリ(目標カテゴリ)の情報を含む文書を目標カテゴリに分類する時において、文書内に目標カテゴリ以外の情報(単語)が多く存在する場合には、出現単語の重みの和であるスコアが低くなりやすい。なぜならば、上記の場合、負の重みを持つ単語が多数あるからである。したがって、目標カテゴリの情報がそれ以外の情報と比較して少ないと、特許文献1及び非特許文献1のシステムでは、当該カテゴリらしさを表すスコアを低く計算する分類辞書を生成するという課題がある。
その結果、特許文献1及び非特許文献1のシステムは、当該システムは正例であることを予測するための識別関数を学習できない。さらに、非特許文献1のシステムは、上記の場合に識別関数(分類辞書)のスコアが低くなりやすくなっていることを検出できない。
本発明の目的は、上記問題を解決することにより、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成する辞書作成装置、分類辞書生成方法及び記録媒体を提供することである。
本発明の一態様に係る分類辞書生成装置は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶手段と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御手段と、を備え、前記制御手段は、前記下限値記憶手段に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。
本発明の一態様に係る分類辞書生成方法は文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶し、前記カテゴリが既知である学習データと、前記記憶された下限情報とに基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。
本発明の一態様に係るコンピュータで読み取り可能な記録媒体は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する処理と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する処理と、をコンピュータに実行させ、該分類辞書を生成する処理は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する処理である、プログラムを記録する。
本発明は、目標カテゴリに該当する情報が、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアがより高く計算される分類辞書を作成できるという効果がある。
本発明の第1の実施形態に係る分類辞書生成装置の例を示す図である。 本発明の第1の実施形態に係る分類辞書生成装置の構成を実現するコンピュータの一例を示すブロック図である。 本発明の第1の実施形態に係る分類辞書生成装置の動作例を示すフローチャートである。 本発明の第1の実施形態に係る分類辞書生成装置の識別関数算出部の動作例を示すフローチャートである。 本発明の第1の実施形態における学習データの構成例を示す図である。 本発明の第1の実施形態における特徴ベクトルの構成例を示す図である。 本発明の第1の実施形態における下限情報の構成例を示す図である。 本発明の第1の実施形態における識別関数と分類辞書との構成例を示す図である。 本発明の第2の実施形態に係る分類辞書生成装置の例を示す図である。 本発明の第3の実施形態に係る分類辞書生成装置の例を示す図である。
<第1の実施形態>
本発明の第1の実施形態における分類辞書作成装置は、カテゴリが既知である学習データから識別関数を算出し、算出した識別関数における下限値を修正して、文書をカテゴリに分類するための分類辞書を作成する。
はじめに、図1を用いて、本発明の第1の実施形態について説明する。なお、図1に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、なんらの限定を意図するものではない。
図1は、本発明の第1の実施形態における分類辞書生成装置10の例を示す図である。図1に示すように、本発明の第1の実施形態における分類辞書生成装置10は、制御部11と、下限値記憶部15と、学習データ記憶部16と、分類辞書記憶部17とを含む。制御部11は、識別関数算出部12と、分類辞書生成部13と、インターフェース部14とを含む。
インターフェース部14は、学習データ記憶部16が記憶する学習データを読み取り、識別関数算出部12に出力する。また、インターフェース部14は、算出された分類辞書を分類辞書記憶部17に書き込む。識別関数算出部12は、学習データを用いて識別関数を算出する。ここで、学習データとは、例えば、カテゴリ情報が付与された文書の集合である。また、識別関数とは、予め分類カテゴリが付与されている文書集合を用いて、各文書を目標のカテゴリと、それ以外のカテゴリとに分ける関数を示す。識別関数の一例としては、例えば、重みベクトルである。分類辞書生成部13は、目標カテゴリに関する分類辞書を生成する。分類辞書生成部13は、例えば、下限情報に基づいて、識別関数を使って分類辞書を生成する。
下限値記憶部15は、下限値を含む下限情報を記憶する。下限情報の詳細については、図7を用いて後述する。学習データ記憶部16は、学習データを記憶する。分類辞書記憶部17は、分類辞書生成部13によって生成される分類辞書を記憶する。
図5は、学習データ記憶部16が記憶する学習データの構成例を示す図である。図5に示すように、学習データは、学習データの文書のIDである「DID」と、学習データの文書本体である「学習データの文書」と、学習データの文書のカテゴリ情報である「カテゴリ」とを対応づけしたデータである。図5に示すように、学習データ記憶部16は、例えば、DID「2」と、学習データの文書「○○の田中です。お世話になっております。見積もりを受領しました。ありがとうございました。」と、カテゴリ「依頼なし」とを対応づけて記憶する。なお、図5に示す依頼の意味については後述する。
図2を用いて、本発明の第1の実施形態の分類辞書生成装置10を実現するコンピュータについて説明する。
図2は、本発明の第1の実施形態の分類辞書生成装置10の代表的なハードウェア構成図である。図2に示すように、分類辞書生成装置10は、例えばCPU(Central Processing Unit)1、RAM(Ramdom Access Memory)2、記憶装置3、通信インターフェース4、入力装置5、出力装置6などを含む。
識別関数算出部12と、分類辞書生成部13とは、RAM2などの主記憶に展開したプログラムを実行するCPU1によって実現される。インターフェース部14は、例えばCPU1のOS(Operating System)が提供する機能を使ってCPU1がアプリケーションプログラムを実行することで実現される。記憶装置3は、例えば、ハードディスクや、フラッシュメモリである。記憶装置3は、下限値記憶部15、学習データ記憶部16、分類辞書記憶部17として機能する。また、記憶装置3は、上記のアプリケーションプログラムを記憶する。
通信インターフェース4は、CPU1に接続され、ネットワーク或いは外部記憶媒体に接続される。外部データが通信インターフェース4を介してCPU1に取り込まれても良い。入力装置5は、例えばキーボードやマウス、タッチパネルである。出力装置6は、例えばディスプレイである。なお、図2に示すハードウェア構成は、一例にすぎず、図1に示す分類辞書生成装置10の各部のそれぞれが独立した論理回路で構成されていても良い。
次に、図3、図4、図6、図7、図8を用いて、本発明の第1の実施形態における分類辞書生成装置10の動作を説明する。本例では、相手に対して何かをしてほしいことを示す依頼、即ちメールでの返信や質問に対する回答のお願い等、が入っている文書を検知するための分類を考えるため、目標カテゴリを「依頼あり」とし、非目標カテゴリを「依頼なし」とする。
ここで、分類辞書生成装置10は、上記分類に限定されず、ある文書がスポーツ新聞か否かを検知するための分類を考えるために、目標カテゴリを「スポーツ新聞」とし、非目標カテゴリを「スポーツ新聞以外」としても良い。本発明の分類辞書生成装置10は、分類を行うための目標となるカテゴリ(目標カテゴリ)と、それ以外の分類となる非目標カテゴリを基に分類する辞書を生成する。
図3は、本発明の第1の実施形態の分類辞書生成装置10の動作を示すフローチャートである。図3において、S101乃至S104は、それぞれ動作例の処理のステップを示す。
インターフェース部14は、学習データ記憶部16が記憶する学習データを読み取り、識別関数算出部12に出力する(S101)。次に、識別関数算出部12は、インターフェース部14で読み取られた学習データを基に、識別関数を算出する(S102)。識別関数算出部12の詳細な動作の説明は、図4のフロー図の説明時に行う。
次に、分類辞書生成部13は、算出された識別関数(重みベクトル)の中で、下限値記憶部15が記憶する下限情報を基に設定した下限値を下回る識別関数(重みベクトル)を、当該設定した下限値に変換し、それを分類辞書として出力する(S103)。ここで、分類辞書生成部13の詳細な動作の説明は、図7、8を参照して行う。
次に、インターフェース部14は、分類辞書生成部13が生成した分類辞書を分類辞書記憶部17に書き込む(S104)。
次に、図4は、本発明の第1の実施形態の識別関数算出部12の動作を示すフローチャートである。図4において、S201乃至S202は、それぞれ動作例の処理のステップを示す。
識別関数算出部12は、インターフェース部14が読み取った学習データの中の各文書に対して、内容を反映した特徴、本例では文書中の全ての名詞、動詞、助動詞、を抽出し、特徴ベクトルを生成する(S201)。ここで、図6を用いて特徴ベクトルの詳細な構成についての説明を行う。
図6は、識別関数算出部12が図5に示す学習データから算出する特徴ベクトルの構成例を示す図である。図6に示す例での特徴ベクトルは、識別関数算出部12が学習データに対して形態素解析を行い抽出した名詞、動詞、助動詞の各単語と、当該各単語に対する次元の値である「1」とを対応づけしたデータ列である。具体的には、DIDが1(DID=1)の特徴ベクトルは、「(△△,山田,例,見積もり,確認,・・・)=(1,1,1,1,1,・・・)」である。
即ち、本例において、特徴ベクトルを算出するときに抽出される特徴が名詞、動詞、助動詞の単語である。そして、識別関数算出部12は、学習データに対して形態素解析を行い、特徴(名詞、動詞、助動詞)の単語の次元の値を「1」、特徴以外の単語、例えば助詞、形容詞、副詞等の単語、の次元の値を「0」と算出する。
ここで、図6に示す特徴ベクトルでは、簡略化のために、次元の値が「0」、即ち学習データ内で名詞、動詞、助動詞以外の単語の特徴ベクトルを記載(表記)していない。具体的には、図6に示すように、例えば、DID=2の特徴ベクトルには、「(の,に,を,・・・)=(0,0,0,・・・)」の記載を省略している。しかし、実際には、「0」の次元を含む特徴ベクトルは存在している。
識別関数算出部12は、インターフェース部14が入力した学習データ、即ちカテゴリ情報が付与された各文書から、各文書の内容に反映した特徴(以下、特徴と記載する)を抽出して、特徴ベクトルを算出(生成)する。特徴は、図6に示す、名詞、動詞、助動詞のような文書中に出現する決められた条件の単語の他に、複数単語から構成されるフレーズ、文節、部分文字列、2つ以上の単語や文節の係り受け関係、でも良いが、これらに限定されない。
次に、識別関数算出部12は、生成した特徴ベクトルとカテゴリ情報(目標カテゴリか否かの情報)とから、目標カテゴリの文書を正例、非目標カテゴリの文書を負例として機械学習を用いて識別関数を算出する(S202)。この具体的な算出方法については、例えば、非特許文献1に記載の算出方法を用いてもよい。例えば、非特許文献1に記載の算出方法では、正例の値を+1、負例の値を−1として識別関数を算出している。また、機械学習としては、カテゴリ付きのベクトルの集合を入力に、ベクトルの次元毎の重みを学習する任意の方法が利用できる。
機械学習の代表的な例としては、例えば、ロジスティック回帰、サポートベクトルマシンが挙げられる。本例では、識別関数算出部12は、機械学習としてサポートベクトルマシンを用いて識別関数を算出する。ここで、識別関数算出部12が識別関数を算出する方法は既知であるため、動作の詳細を省略する。また、識別関数算出部12が算出した識別関数は、図8に示される。
次に、図7、図8を用いて、分類辞書生成部13の詳細な動作の説明を行う。まず、図7、図8のデータ構造について説明を行う。
図7は、下限値記憶部15が記憶する下限情報の構成例を示す図である。図7に示すように、下限情報は、下限情報のIDと、下限値を決める方法(パターン)と、下限値とを対応づけしたデータである。具体的には、下限情報のIDが「(a)」の下限値を決めるパターンは「識別関数(学習された重みベクトル)の下限値を特定の値に決める」であり、当該パターンによって決められた下限値は「−1.0」である。
図8は、識別関数算出部12が算出する識別関数のデータと、当該識別関数に基づいて分類辞書生成部13が生成する分類辞書のデータとを表す図である。具体的には、下限情報のIDが「(a)」、即ち下限値を決めるパターンが「識別関数(学習された重みベクトル)の下限値を特定の値に決める」の時に、識別関数のデータが「確認2.0、ください1.5、田中−0.5、山田−2.0、願い−3.0、・・・」であった場合、分類辞書のデータは、「確認2.0、ください1.5、田中−0.5、山田−1.0、願い−1.0、・・・」である。
図7、図8が示すように、分類辞書生成部13は、識別関数算出部12が算出した識別関数の次元のうち、非目標カテゴリに対応する次元の値(本例ではマイナスの重み)が、下限値記憶部15が記憶する下限情報の定められた下限値以上になる分類辞書を生成する。ここで、識別関数の次元とは、ベクトルの次元のことである。
図7、図8に示すように、分類辞書生成部13は、例えば、下限情報のIDが(a)、即ち「識別関数の下限値を特定の値に決める」という下限値を決めるパターンを用いて分類辞書を生成する。この方法は、先に下限値を定めておき、識別関数算出部12が機械学習によって得られた識別関数(重みベクトル)を基に、下限値を下回る識別関数の値(重みベクトルの重み)を下限値に変換する方法である。本例では、下限値を−1.0とするため、図7に示すように、下限値は−1.0となる。そして、分類辞書生成部13は、図8に示すように、下限情報のIDが(a)の識別関数が「確認」2.0、「ください」1.5、「田中」−0.5、「山田」−2.0、「願い」−3.0、・・・であるので、下限値が−1.0よりも低い値のものを全て−1.0に変換する。具体的には、図8に示すように、例えば分類辞書生成部13は、識別関数の「山田−2.0」を「山田−1.0」と変換する。その結果、分類辞書生成部13は、下限情報のIDが(a)の時に、「確認2.0、ください1.5、田中−0.5、山田−1.0、願い−1.0、・・・」という分類辞書を生成する。
次に、図7が示すように、分類辞書生成部13は、下限情報のIDが(b)、即ち「下限値を、識別関数の最小値の30%にする」という下限値を決めるパターンを用いて、分類辞書を生成する。この方法は、識別関数算出部12が機械学習によって得られた各識別関数の中で最小の値(以下、最小値と記載する)に対して、0より大きく1未満である割合を定め、最小値と割合の掛け算から下限値を決め、下限値を下回る識別関数の値を下限値に変換する方法である。本例では、識別関数の最小値に対しての30%を下限値と設定する。
具体的には、図8に示すように、例えば分類辞書生成部13は、下限情報のIDが(b)の識別関数である「確認2.0、ください1.5、田中−0.5、山田−2.0、願い−3.0、・・・」のうち、最小値、本例では「願い−3.0」を選択し、当該最小値の30%、即ち−3.0×0.3=−0.9を下限値と算出する。そして、下限値が−0.9よりも低い値のものを全て−0.9に変換する。その結果、分類辞書生成部13は、下限情報のIDが(b)の時に、「確認2.0、ください1.5、田中−0.5、山田−0.9、願い−0.9、・・・」という分類辞書を生成する。
ここで、下限情報の下限値を決めるパターンは、図7に限定されない。具体的には、下限情報のID(a)の下限値は−0.9でも良いし、下限情報のID(b)の下限値の決定方法は「識別関数の最小値の33%」であっても良い。
ここで、図7に示すように、下限情報のIDが(c)、即ち「重みに下限を設定する」という下限値を決めるパターンを用いた分類辞書の動作(生成方法)は、本発明の第1の実施形態の変形例で説明する。
また、分類辞書生成部13は、図7に示す下限情報の下限値を決めるパターン(下限情報のID(a)〜(c))を自動で選択して分類辞書を生成しても良いし、ユーザによって予め決められた状態で分類辞書を生成しても良い。
以上で、本発明の第1の実施形態における分類辞書生成装置10の動作が終了する。
本発明の第1の実施形態における分類辞書生成装置10において、学習データ記憶部16は、学習データを記憶する。インターフェース部14は学習データ記憶部16が記憶する学習データを読み取り、識別関数算出部12に出力する。識別関数算出部12はインターフェース部14で読み取られる学習データを基に識別関数を算出する。そして、分類辞書生成部13は、識別関数算出部12が算出する識別関数と下限値記憶部15が記憶する下限情報を基に、分類辞書を生成する。インターフェース部14は、分類辞書生成部13が生成する分類辞書を分類辞書記憶部17に書き込む。分類辞書記憶部17は、出力された分類辞書を記憶する。したがって、当該分類辞書生成装置10は、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成することができる。
<第2の実施形態>
本発明の第2の実施形態について説明する。図9は、本発明の第2の実施形態における分類辞書生成装置10’の構成例を示す図である。なお、本発明の第2の実施形態において、本発明の第1の実施形態と同様の構成については、説明を省略する。
本発明の第2の形態における分類辞書生成装置10’では、制御部11’が有する分類辞書生成部13’が図7に示す下限情報を基に分類辞書を生成する。
具体的には、分類辞書生成部13’は、機械学習時に制約付き最適化問題として、図7に示す下限情報のID(c)、即ち重みに下限を設定する方法である。
本例では機械学習として、ロジスティック回帰を例に説明するが、これに限定されない。基本的なロジスティック回帰では、分類辞書、本例では重みベクトルwに対して以下の数式(1)を最小化する。数式(1)において、iはi番目の文書を表し、yは目標カテゴリの場合に1、非目標カテゴリの場合には−1を取る変数で、xは特徴ベクトルである。w・xは、wとxとの内積を示す。
Figure 2015040860
ここで、以下の数式(2)に示すように、重みベクトルの各次元に下限を設定した制約付き最適化問題の場合は、ロジスティック回帰に下限を導入できる。wは重みベクトルwのj番目の次元の値を表す。αは下限値を表す。
∀j α<w (α<0) (2)
数式(1)の最小化を数式(2)の制約で最適化するためには、例えば、L−BFGS−Bなど、box constraint optimizationを扱える最適化のアルゴリズムを用いることができる。図7に示す下限情報のID(c)のように、数式(2)のαを−1.0(下限値)とした場合、分類辞書生成部13’は、図8の(c)が示す分類辞書、即ち「確認1.5,ください1.25,田中−0.2,山田−1.0,願い−1.0,・・・」を生成する。つまり、分類辞書生成部13’は、重みベクトルの各次元の値の下限値を制約とする制約付き最適化問題として最適化することで重みベクトルを算出し、算出した重みベクトルから分類辞書を生成する。
したがって、本発明の第2の実施形態における分類辞書生成装置10’は、本発明の第1の実施形態における分類辞書生成装置10が行う、学習された識別関数(重みベクトル)を後処理(分類辞書生成部13)で調整する分類辞書の生成ではなく、学習時に最適な分類辞書を生成する。これにより、分類辞書生成装置10’は、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成することができる。また、本発明の第2の実施形態における分類辞書生成装置10’は、本発明の第1の実施形態における分類辞書生成装置10に比べて、処理工数を少なくできる。
<第3の実施形態>
本発明の第3の実施形態について説明する。図10は、本発明の第3の実施形態における、分類辞書生成装置100の構成例を示す図である。なお、本発明の第3の実施形態において、上記各実施形態と同様の構成については、説明を省略する。
本発明の第3の形態における分類辞書生成装置100は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶部15と、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御部110とを備える。
また、前記制御部110は、前記下限値記憶部15に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。
上記構成を有する分類辞書生成装置100は、文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶し、前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する。このとき、分類辞書生成装置100は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する。これにより、分類辞書生成装置100は、目標カテゴリに該当する情報が非目標カテゴリの情報と比べて少ない場合でも、目標カテゴリの情報を含まない文書と比較して、目標カテゴリのスコアをより高く計算する分類辞書を作成することができる。
第3の実施形態において、分類辞書生成装置100の制御部110はコンピュータであり、そのコンピュータのCPU(Central Processing Unit)(例えば、図2のCPU1)又はMPU(Micro−Processing Unit)は、上述した各実施形態の機能を実現するソフトウェア(プログラム)を実行しても良い。
本発明の第3の実施形態において、分類辞書生成装置100の制御部110は、例えば、図2の記憶装置3に上述のプログラムを記憶する。この記憶装置3は、例えば、ハードディスク装置等のコンピュータ読み取り可能な記憶デバイスや、CD−R(Compact Disc Recordable)等の各種記憶媒体を含む。コンピュータは、ネットワークを介して、前述した各実施形態の機能を実現するソフトウェア(プログラム)を取得しても良い。
分類辞書生成装置100の上述のプログラムは、少なくとも(1)文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する処理と、(2)前記カテゴリが既知の学習データに基づいて、前記分類辞書を生成する処理と、をコンピュータに実行させる。なお、上記分類辞書を生成する処理は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する処理である。
分類辞書生成装置100のコンピュータは、取得したソフトウェア(プログラム)のプログラムコードを読み出して実行する。したがって、当該、分類辞書生成装置100は、上述した各実施形態における分類辞書生成装置の処理と同一の処理を実行しても良い。
以上、実施形態を用いて本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、2013年9月18日に出願された日本出願特願2013−192674を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 CPU
2 RAM
3 記憶装置
4 通信インターフェース
5 入力装置
6 出力装置
10 分類辞書生成装置
10’ 分類辞書生成装置
11 制御部
11’ 制御部
12 識別関数算出部
13 分類辞書生成部
13’ 分類辞書生成部
14 インターフェース部
15 下限値記憶部
16 学習データ記憶部
17 分類辞書記憶部
100 分類辞書生成装置
110 制御部

Claims (10)

  1. 文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する下限値記憶手段と、
    前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する制御手段と、を備え、
    前記制御手段は、前記下限値記憶手段に記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する分類辞書生成装置。
  2. 前記学習データは、カテゴリ情報が付与された文書の集合を含み、
    前記制御手段は、前記文書の集合の各文書に対して、前記各文書の内容を反映した特徴を抽出して特徴ベクトルを算出し、前記分類辞書の次元の値のうち、非目標カテゴリに対応する前記次元の値が前記下限値以上となる分類辞書を生成する請求項1に記載の分類辞書生成装置。
  3. 前記学習データから識別関数を算出する識別関数算出手段をさらに備え、
    前記制御手段は、前記識別関数算出手段が算出した識別関数と、前記下限値記憶手段に記憶される下限情報とに基づいて、前記分類辞書を生成する請求項1又は2に記載の分類辞書生成装置。
  4. 前記下限値記憶手段は、前記識別関数の次元の値のうち、予め定められた前記下限値よりも小さい前記次元の値を前記下限値とする下限情報を記憶する請求項3に記載の分類辞書生成装置。
  5. 前記下限情報記憶手段は、前記識別関数の次元の値の最小値と0より大きく1未満の予め定められた割合との積により下限値を定め、当該下限値を前記識別関数の値とする下限情報を記憶する請求項3に記載の分類辞書生成装置。
  6. 前記学習データを記憶する学習データ記憶手段と前記分類辞書を記憶する分類辞書記憶手段をさらに備え、
    前記制御手段は、前記分類辞書を前記分類辞書記憶手段に書き込む請求項1から5のいずれか1項に記載の分類辞書生成装置。
  7. 前記制御手段は、重みベクトルの各次元の値の下限値を制約とする制約付き最適化問題として最適化することで重みベクトルを算出し、算出した重みベクトルから前記分類辞書を生成する請求項1又は2に記載の分類辞書生成装置。
  8. 前記識別関数算出手段は、前記特徴として、文書中に出現する単語、複数単語から構成されるフレーズ、文節、部分文字列、2つ以上の単語や文節の係り受け関係、及び部分文字列、のうち少なくとも1つを用いて前記識別関数を算出する請求項3に記載の分類辞書生成装置。
  9. 文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶し、
    前記カテゴリが既知である学習データと、前記記憶された下限情報とに基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する分類辞書生成方法。
  10. 文書のカテゴリを分類するための分類辞書の次元の値の下限値を決定する下限情報を記憶する処理と、
    前記カテゴリが既知である学習データに基づいて、前記分類辞書を生成する処理と、をコンピュータに実行させ、
    該分類辞書を生成する処理は、前記記憶された下限情報に基づいて、全ての前記次元の値が前記下限値以上となる分類辞書を生成する処理である、プログラムを記録するコンピュータで読み取り可能な記録媒体。
JP2015537559A 2013-09-18 2014-09-17 分類辞書生成装置、分類辞書生成方法及びプログラム Active JP6436086B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013192674 2013-09-18
JP2013192674 2013-09-18
PCT/JP2014/004776 WO2015040860A1 (ja) 2013-09-18 2014-09-17 分類辞書生成装置、分類辞書生成方法及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2015040860A1 true JPWO2015040860A1 (ja) 2017-03-02
JP6436086B2 JP6436086B2 (ja) 2018-12-12

Family

ID=52688524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015537559A Active JP6436086B2 (ja) 2013-09-18 2014-09-17 分類辞書生成装置、分類辞書生成方法及びプログラム

Country Status (3)

Country Link
US (1) US20160224654A1 (ja)
JP (1) JP6436086B2 (ja)
WO (1) WO2015040860A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082282A1 (en) * 2018-09-10 2020-03-12 Purdue Research Foundation Methods for inducing a covert misclassification
CN110717040A (zh) * 2019-09-18 2020-01-21 平安科技(深圳)有限公司 词典扩充方法及装置、电子设备、存储介质
US20230196034A1 (en) * 2021-12-21 2023-06-22 International Business Machines Corporation Automatically integrating user translation feedback

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010009577A (ja) * 2008-05-28 2010-01-14 Ricoh Co Ltd 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
US20120209853A1 (en) * 2006-01-23 2012-08-16 Clearwell Systems, Inc. Methods and systems to efficiently find similar and near-duplicate emails and files
JP2013061718A (ja) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> サポートベクタ選択装置、方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US20140105447A1 (en) * 2012-10-15 2014-04-17 Juked, Inc. Efficient data fingerprinting

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209853A1 (en) * 2006-01-23 2012-08-16 Clearwell Systems, Inc. Methods and systems to efficiently find similar and near-duplicate emails and files
JP2010009577A (ja) * 2008-05-28 2010-01-14 Ricoh Co Ltd 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP2010271800A (ja) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> 回答文書分類装置、回答文書分類方法及びプログラム
JP2013061718A (ja) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> サポートベクタ選択装置、方法、及びプログラム

Also Published As

Publication number Publication date
US20160224654A1 (en) 2016-08-04
WO2015040860A1 (ja) 2015-03-26
JP6436086B2 (ja) 2018-12-12

Similar Documents

Publication Publication Date Title
GB2547068B (en) Semantic natural language vector space
EP3549069B1 (en) Neural network data entry system
AU2016256764B2 (en) Semantic natural language vector space for image captioning
US9542477B2 (en) Method of automated discovery of topics relatedness
WO2019174423A1 (zh) 实体情感分析方法及相关装置
AU2016256753A1 (en) Image captioning using weak supervision and semantic natural language vector space
RU2583716C2 (ru) Метод построения и обнаружения тематической структуры корпуса
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
GB2544857A (en) Multimedia document summarization
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
US11669687B1 (en) Systems and methods for natural language processing (NLP) model robustness determination
Varghese et al. Supervised clustering for automated document classification and prioritization: A case study using toxicological abstracts
WO2016175785A1 (en) Topic identification based on functional summarization
US20210133390A1 (en) Conceptual graph processing apparatus and non-transitory computer readable medium
JP6436086B2 (ja) 分類辞書生成装置、分類辞書生成方法及びプログラム
WO2023033942A1 (en) Efficient index lookup using language-agnostic vectors and context vectors
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP7175244B2 (ja) 分類装置、学習装置、分類方法及びプログラム
US20090319505A1 (en) Techniques for extracting authorship dates of documents
KR102019752B1 (ko) 컴퓨터 수행 가능한 ui/ux 전략제공방법 및 이를 수행하는 ui/ux 전략제공장치
Doan et al. Algorithm selection using performance and run time behavior
JP2014238626A (ja) 文書分類装置
WO2021065058A1 (ja) 概念構造抽出装置、記憶媒体及び方法
JP7323669B1 (ja) オントロジー生成方法及び学習方法
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181029

R150 Certificate of patent or registration of utility model

Ref document number: 6436086

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150