WO2020111074A1

WO2020111074A1 - メール分類装置、メール分類方法、およびコンピュータプログラム

Info

Publication number: WO2020111074A1
Application number: PCT/JP2019/046215
Authority: WO
Inventors: 宏一千葉; 孝治　吉春
Original assignee: 株式会社エー・アンド・ビー・コンピュータ
Priority date: 2018-11-26
Filing date: 2019-11-26
Publication date: 2020-06-04
Also published as: US20220253603A1; JPWO2020111074A1; JP6715487B1

Abstract

メール分類装置は、分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する分類判定部とを備える。

Description

メール分類装置、メール分類方法、およびコンピュータプログラム

　本発明は、メールを自動的に仕分けするためのメール分類装置に関する。

　従来、毎日大量に届く電子メールを所望の目的に応じて適切に分類するために、様々な技術が提案されている。例えば、特許文献１（特開２０１３－１０５２２６号公報）には、送信メールに含まれる質問文に対する回答が行われた受信メールを自動的に分類する受信メール分類装置が開示されている。この分類装置では、送信メールに含まれる文からキーワード（質問文）を特定し、受信メールにおいて引用符に続く文を抽出し、抽出した文にキーワード（質問文）が含まれているか否かを判断することにより、回答メールを抽出する。

　また、件名や本文に特定のキーワードが含まれているか否かに応じてメールを分類する技術は、特に迷惑メールの検出等において、従来広く用いられている。

　しかし、キーワードに応じた分類は、キーワードをうまく設定しなければ適切な分類結果を得ることが難しいという問題がある。また、最近は、人工知能（ＡＩ）の利用が現実的に可能になりつつあり、ニューラルネットワークを利用した学習済みモデルを用いてメールに含まれる単語に応じてメールを分類することも、ＡＩの適用分野として想定される。

　本発明は、ニューラルネットワークを利用した学習済みモデルを用いて、メールを複数のカテゴリに適切に分類することが可能なメール分類装置、メール分類方法およびコンピュータプログラム等を提供することを目的とする。

　上記の目的を達成するために、本発明のメール分類装置は、
　分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
　前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、
　前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデル（学習済みモデル）に基づいて、分類対象メールのカテゴリを判定する分類判定部とを備える。

　本発明によれば、ニューラルネットワークを利用した学習済みモデルを用いて、メールを複数のカテゴリに適切に分類することが可能なメール分類装置、メール分類方法およびコンピュータプログラム等を提供することができる。

本発明の一実施形態に係るメール分類システムの概略構成を示すブロック図である。分類学習用データの一例である。図２の分類学習用データを形態素解析部で解析した結果の一例である。特徴データによって構成された判別データテーブルの一例である。特徴データによって構成された判別データテーブルの一例であって、図４Ａの続きである。分類対象メールの一例である。判別データテーブル（修正前）の一例である。判別データテーブル（修正後）の一例である。

　以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一または相当部分には同一符号を付してその説明は繰り返さない。

　図１は、本実施形態に係るメール分類システム１００の概略構成を示すブロック図である。メール分類システム１００は、分類対象メールの件名および本文のテキストデータを入力し、分類対象メールを所定の目的に応じて分類する。ただし、メール分類システム１００は、従来のメール分類システムのように、単純に、件名や本文のテキストデータに所定の単語が含まれるか否かによって分類を行うものではなく、大量の学習用データに基づいて生成された学習済みモデルを用いて分類を行う。

　なお、メール分類システム１００による分類カテゴリは、特に限定されない。例えば、メールの緊急度、重要度、宛先（部署または担当者）、用件（見積もり依頼、注文、修理依頼、問い合わせ、クレーム等）等の任意のカテゴリにメールを分類することも可能である。また、分類基準を２次元または３次元以上に設定することも可能である。すなわち、宛先によってメールを分類すると共に、その分類結果をさらに緊急度、重要度、または用件等でさらに多段階に分類する、といった分類方法も可能である。

　図１に示すように、メール分類システム１００は、分類器１と学習器２とを備えている。分類器１は、例えば、クラウドシステムとして構成することができる。分類器１と学習器２とは、常時接続されている必要はない。

　分類器１は、ファイル格納部１１、文書解析部１２、データ変換部１３、分類判定部１４、および分類結果格納部１５を備えている。学習器２は、形態素解析部２１、特徴データ抽出部２２、画像変換部２３、ラベル付与部２４、ＤＮＮ（ディープニューラルネットワーク）２５、判別データ格納部２６、およびモデルデータ格納部２７を備えている。

　分類器１の文書解析部１２は、判別データテーブル１２ａを備えている。判別データテーブル１２ａは、学習器２で生成され判別データ格納部２６に格納された判別データテーブル２６ａのコピーを保持している。判別データの生成については、後に詳しく説明する。

　分類器１の分類判定部１４は、モデルデータ１４ａを保持している。モデルデータ１４ａは、学習器２においてＤＮＮ２５によって生成される学習済みモデルのパラメータである。モデルデータ１４ａの生成についても、後に詳しく説明する。

　ここで、まず学習器２の各部の動作について説明する。学習器２は、図１に示すように分類学習用データ（教師データ）を入力し、ＤＮＮ２５に学習させることにより、モデルデータを生成する。すなわち、形態素解析部２１、特徴データ抽出部２２、画像変換部２３、およびラベル付与部２４は、ＤＮＮ２５の学習に適したデータを生成するためのブロックである。

　分類学習用データは、様々なメールのテキストデータである。形態素解析部２１は、分類学習用データのテキストデータに対して形態素解析を行うことにより、テキストデータに含まれる形態素を切り出すと共に、その品詞を特定する。例えば、図２に示す分類学習用データを入力した場合、形態素解析部２１による解析結果は、図３に示すとおりとなる。なお、図２および図３に示した例では、電子メールの件名および本文のテキストデータを結合し、解析の対象としている。このように、電子メールの本文だけではなく、件名も解析の対象に含めることは必須ではないが、望ましい。なぜならば、重要な案件や緊急の案件に関するメールを送信する際には、メールの件名に重要度や緊急性を表す単語を含めることが多いからである。

　なお、図２および図３並びに図４Ａおよび図４Ｂは、日本語による処理例を示したものである。言語によって、形態素解析の手法は異なる可能性がある。例えば、英語の文章は、単語間が空白文字で明確に区切られ、活用形のバリエーションも比較的少ないので、テキストデータから形態素を切り出すことは比較的容易である。一方で、日本語や中国語等の場合、テキストデータの中で分節や単語の区切りは明確に示されないので、辞書とのマッチングを行いながら単語の境界を判別することが必要となる。ただし、形態素解析の手法としては、言語毎に適した公知の任意の手法を用いることができるため、ここでは詳細な説明は省略する。

　特徴データ抽出部２２は、形態素解析部２１による解析結果から特徴データを抽出し、抽出した特徴データを、判別データ格納部２６の判別データテーブル２６ａに格納する。ここで、図４Ａおよび図４Ｂに、特徴データによって構成された判別データテーブル２６ａの一例を示す。なお、図４Ｂは、図４Ａの続きである。また、図４Ａおよび図４Ｂに示したものは、判別データテーブルのごく一部である。特徴データ抽出部２２は、所定のルール（例えば、分類学習用データにおける出現頻度等）にしたがって、形態素解析部２１による解析結果（形態素）の一部を特徴データとして抽出し、図４Ａおよび図４Ｂに示すように、品詞毎に分類して判別データテーブル２６ａへ格納する。なお、ここでは、形態素の一部を特徴データとして抽出するものとしているが、形態素の全てを判別データテーブルに格納するようにしても良い。

　図４Ａおよび図４Ｂに示すように、判別データテーブル２６ａは、分類学習用データから抽出された形態素を、品詞毎に分類して並べたものである。図４Ａおよび図４Ｂに示した判別データテーブル２６ａの場合、個々の見出し列の先頭が「0_」で表されている。見出し列は、上記の先頭記号「0_」の後に品詞種別の表記を含み、その後に、その品詞種別に該当する形態素（特徴データ）が続く。一つの見出し列に、複数の形態素が含まれる場合、形態素の間は空白記号で区切られている。なお、区切り記号として、空白記号以外の記号を用いても良い。例えば、図４Ａにおいて上から３つ目の「感動詞-*-*-*」という品詞種別の見出し列には、「ありがとう」、「はじめまして」、および「お疲れさま」という３つの形態素（特徴データ）が格納されている。なお、図４Ａおよび図４Ｂの例は、判別データテーブルに格納されている形態素のごく一部のみを示したものである。実際には、他の品詞（例えば固有名詞等）も判別データテーブル２６ａに多数格納される。

　画像変換部２３は、分類学習用データのそれぞれについての形態素解析部２１による解析結果を、判別データ格納部２６の判別データテーブル２６ａに基づいて、２値画像（学習用画像）に変換する。ここで、画像変換部２３は、判別データテーブル２６ａに基づき、ｍ行×ｎ列のマス目を有する学習用画像を生成する。なお、ｍおよびｎはいずれも自然数である。ｍ×ｎ個のマス目のそれぞれは、判別データテーブル２６ａにおける一つの見出し列に対応する。ｍおよびｎの値は、ｍ×ｎの値が、想定される見出し列の数よりも大きくなるように設定される。学習用画像のそれぞれのマス目と、判別データテーブル２６ａの見出し列との対応関係は、一つの見出し列に対して一つのマス目が割り当てられることを条件として、任意である。

　画像変換部２３は、ある一つの分類学習用データに含まれる形態素を含む見出し列に該当するマス目を、白黒のいずれか一方の色（例えば「白」）で表し、それ以外のマス目を他方の色（例えば「黒」）で表す。例えば、ある分類学習用データに「ありがとう」という形態素が含まれている場合、学習用画像のマス目のうち、前述の「感動詞-*-*-*」という品詞種別の見出し列が対応するマス目が白色で表される。同様にして、その分類学習用データに含まれている形態素を含む見出し列が対応するマス目の全てが、白色で表される。このようにして、画像変換部２３は、ある分類学習用データを、２値画像としての学習用画像に変換する。画像変換部２３は、この変換処理を、全ての分類学習用データに対して行い、分類学習用データと同数の学習用画像を生成する。画像変換部２３はさらに、生成された学習用画像のマス目の一部を変更することによって、派生的に、大量の学習用画像を生成するようにしても良い。例えば、分類学習用データのｍ行×ｎ列のマス目において白で表されているマス目のうちの１個ないし数個を黒に置き換えることにより、派生的な学習用画像を生成する。なお、ここで派生的に生成された学習用画像については、派生元の学習用画像と同じラベル（後述）を付ける。これにより、限られた数の分類学習用データに基づいて、大量の学習用画像を容易に生成することができる。

　なお、上記においては、分類学習用データから抽出された形態素を含む見出し列に対応するマス目を白色とし、それ以外のマス目を黒色とするものとした。しかし、学習用画像の表示態様は、このような２値による表示に限定されない。例えば、一つの見出し列に含まれる形態素の、分類学習用データにおける出現頻度に基づいて、対応するマス目の色を、３段階以上のグレースケールや、ＲＧＢ等の複数色で表しても良い。

　ラベル付与部２４は、分類学習用データから生成された学習用画像のそれぞれに、元の分類学習用データの分類種別（カテゴリ）を表すラベルを、例えばメタデータとして付与する。カテゴリ種別は、所望の仕分け結果に応じて任意に設定することができる。例えば、メールの緊急度に応じて、「至急」、「期限あり」、「期限なし」等のカテゴリを設けても良い。あるいは、メールの内容（用件）に応じて、「見積もり依頼」、「注文」、「引き合い」、「クレーム」、「修理依頼」、「広告宣伝」、「問い合わせ」等のカテゴリを設けても良い。または、メールの重要度に応じて、「重要」、「通常」等のカテゴリを設けても良い。

　ＤＮＮ（ディープニューラルネットワーク）２５は、ラベルが付与された学習用画像を読み込んで学習を行う。すなわち、本実施形態においては、ＤＮＮ２５における学習は、いわゆる教師付き学習である。ＤＮＮ２５は、多数の学習用画像を与えられ、学習用画像の特徴と分類結果（ラベル）との関連性を学習することにより、学習済みモデルを生成する。学習が完了すると、生成された学習済みモデルを定義するパラメータが、モデルデータ格納部２７に格納される。

　以上のとおり、学習器２は、分類学習用データに基づいて、判別データテーブルとモデルデータとを生成する。判別データテーブルは、分類学習用データの形態素解析結果から特徴データを抽出するだけで学習を伴わずに生成されるので、モデルデータよりも容易に生成することができる。

　次に、分類器１の構成と機能について説明する。分類器１は、学習器２によって生成された判別データテーブルおよびモデルデータを用いて、メールの分類を行う。

　分類器１において、ファイル格納部１１は、分類対象メールの件名および本文のテキストデータを入力して、少なくとも一時的に格納する。分類器１がクラウドシステムとして構成されている場合、ファイル格納部１１は、ユーザ側のシステムからアップロードされる分類対象メールを受け付けて格納する。分類対象メールのアップロードのタイミング（頻度）は任意である。一般的には、ユーザ側のシステム（メールサーバ等）において、メールのテキストデータファイルをローカル保存し、適宜のタイミングにて、ローカル保存されたテキストデータファイルをファイル格納部１１へアップロードすれば良い。分類器１は、入力された分類対象メールがファイル格納部１１に格納された後、リアルタイム処理で１件ずつ分類処理を行っても良いし、分類対象メールが所定数または所定時間だけファイル格納部１１に格納された後に、バッチ処理的に分類処理を行うようにしても良い。

　文書解析部１２には、学習器２の判別データ格納部２６から読み出された判別データテーブル２６ａのコピーが、判別データテーブル１２ａとして格納される。なお、学習器２と分類器１とは、前述したように、常時接続されている必要はなく、判別データテーブル１２ａは一旦格納されると、そのまま使い続けることができる。ただし、何らかの理由によって判別データテーブル１２ａの更新が必要となった場合は、学習器２において、判別データ格納部２６において判別データテーブル２６ａの修正を行い、修正後の判別データテーブル２６ａを、分類器１の文書解析部１２における判別データテーブル１２ａに上書きすれば良い。この修正処理の具体例については後述する。あるいは、分類器１の文書解析部１２における判別データテーブル１２ａのみを修正するようにしても良い。

　文書解析部１２は、判別データテーブル１２ａを参照し、判別データテーブル１２ａに含まれる単語（形態素）のうち、分類対象メールに含まれる単語（形態素）を特定する。データ変換部１３は、学習器２の画像変換部２３と同様の処理を行って、分類対象メールを２値画像（判定用画像）に変換する。すなわち、画像変換部２３は、ｍ行×ｎ列のマス目を有する判定用画像において、判別データテーブル１２ａの見出し列のうち、分類対象メールに含まれる単語（形態素）を含む見出し列に対応するマス目を白色で表し、それ以外のマス目を黒色で表す。

　分類判定部１４は、モデルデータ１４ａを用いて、データ変換部１３で得られた判定用画像がどのカテゴリに対応するかを判定する。判定結果は、分類結果格納部１５に少なくとも一時的に格納される。分類結果格納部１５に格納された判定結果は、図１の例では、ｗｅｂブラウザを介してユーザに提示される。分類器１のユーザは、コンピュータ、タブレット、またはスマートホン等の任意の端末からｗｅｂブラウザを介して、カテゴリ別に分類されたメールを確認することができる。なお、ｗｅｂブラウザにおける分類結果の表示方法は任意であるが、カテゴリ別にメールがグループ分けされており、例えば、緊急度や重要度が高いメールについては目立つようにタグを付したり色を変えたりすることが望ましい。なお、図１の例では、ｗｅｂブラウザを介して分類結果を表示するものとしているが、ユーザに対する判定結果の提示方法はこれに限定されない。

　ここで、分類器１における判別データテーブル１２ａの修正の具体例を説明する。例えば、分類器１の使用中に、分類器１から出力されてｗｅｂブラウザで表示される分類結果がユーザの所望の結果ではなかった場合に、分類器１において、判別データテーブル１２ａに新しい形態素を追加することができる。例えば、図５Ａに示すようなメールが、所望のカテゴリに分類されなかった場合（例えば「重要」というカテゴリに分類されるべきであったところが、「その他」に分類された場合）、図５Ｂに示すように、「名詞-固有名詞-人名-姓」の見出し列に、「千葉」という形態素が格納されていなかったことが原因である場合がある。すなわち、学習器２において学習を行った際に、この「千葉」という形態素がどの分類用学習データにも含まれていなかった場合（つまり、分類対象メールに「千葉」という初見の形態素が含まれている場合）、データ変換部１３において生成される判定用画像は、「千葉」という形態素の存在を正しく反映していない２値画像となり、結果として、意図した分類結果が得られないこととなる。この場合に、図５Ｃにおいて矢印を付して示すように、判別データテーブル１２ａの「名詞-固有名詞-人名-姓」の見出し列に「千葉」を追加することにより、データ変換部１３において分類対象メール中の「千葉」という形態素の存在を反映した正しい判定用画像が生成されるようになり、結果として、図５Ａに示したメールが正しいカテゴリ（「重要」）に分類されるようになる。

　なお、この場合、判別データテーブル１２ａに「千葉」を追加する処理は、学習器２の形態素解析部２１および特徴データ抽出部２２によって自動的に行っても良いが、必ずしも、学習器２の形態素解析部２１および特徴データ抽出部２２による処理を経なくても良い。例えば、図５Ｃに示したように、単純に、判別データテーブル１２ａに「千葉」というテキストデータを人手によって挿入するだけでも良い。

　また、判別データテーブル１２ａを修正した後に、学習器２によるモデルデータ１４ａの再生成（修正）を行うことは必須ではない。むしろ、本実施形態におけるメール分類システム１００は、モデルデータ１４ａの再生成（修正）を行わなくても、判別データテーブル１２ａを修正するだけで判別精度を改善することができる、という点に特徴がある。

　すなわち、判別データテーブル１２ａを修正することにより、修正後は、分類対象メールからデータ変換部１３において生成される２値画像が、正しいものとなる。上述のように、判別データテーブル１２ａの修正は、テキストデータの挿入や削除によって比較的容易に行うことができる。それに対して、モデルデータ１４ａを再生成する場合は、分類学習用データを大量に読み込ませて処理を行う必要があるため、簡易な修正作業には留まらない。すなわち、モデルデータ１４ａの再生成は、頻繁に行い得るものではないのに対して、判別データテーブル１２ａの修正は簡単なカスタマイズ作業で良いので、ユーザから誤分類のフィードバックがある都度等に、必要に応じて適宜実施することができる。したがって、本実施形態のメール分類システム１００によれば、学習済みモデル（モデルデータ１４ａ）を用いた高度な分類処理を行えることに加えて、判別データテーブル１２ａの簡単な修正のみによって誤分類を修正できるという、優れた効果を奏する。

　なお、上記の説明においては、判別データテーブル１２ａに形態素を追加する例を示したが、判別データテーブル１２ａから不要な形態素を削除したり、格納済みの形態素を書き換えたりすることも、修正の一態様である。

　以上のとおり、本発明の具体的な実施形態を一つ説明したが、上述した実施形態は例示であって、本発明を限定するものではない。例えば、上記の実施形態では、教師あり学習による学習済みモデルの生成を例示したが、教師なし学習によって学習済みモデルを生成するようにしても良い。その場合は、ラベル付与部２４は省略される。

　また、上記実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）、マイクロプロセッサ、プロセッサ等により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

　また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらに、メール分類システム１００を、ソフトウェアおよびハードウェアの混在処理により実現しても良い。

　また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。また、上記実施形態における処理方法において、発明の要旨を逸脱しない範囲で、一部のステップが、他のステップと並列に実行されるものであってもよい。

　前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体の種類は任意である。また、上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

　なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

　また、本発明は、以下のように説明することもできる。

　本発明の第１の構成にかかるメール分類装置は、
　分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
　前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、
　前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデル（学習済みモデル）に基づいて、分類対象メールのカテゴリを判定する分類判定部とを備える。

　この第１の構成では、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを備え、この判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成する。そして、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。これにより、従来のように、単純に所定の単語や文章を含むか否かによってメールの分類を行う場合よりも、学習モデルを用いることによる複雑かつ網羅的な判定基準によって、メールのカテゴリ判定を適切に行うことができる。

　本発明の第２の構成にかかるメール分類装置は、第１の構成のメール分類装置において、前記判別データテーブルが、新たな形態素の追加、格納されている形態素の削除、または格納されている形態素の書き換えが可能であることを、追加的な特徴とする。

　この第２の構成によれば、メールの誤分類があった場合に、例えば誤分類されたメールのテキストデータに含まれる形態素を判別データテーブルに新たに追加すること等により、判別データテーブルを更新することができる。これにより、学習モデルを再生成することなく、判別データテーブルの更新という比較的容易な作業のみによって、誤分類を修正することができる。

　本発明の第３の構成にかかるメール分類装置は、第１または第２の構成のメール分類装置において、前記分類対象メールのカテゴリが、メールの緊急度、重要度、宛先、および用件の少なくとも一つを含む。

　本発明にかかるメール分類方法は、
　コンピュータによって実行されるメール分類方法であって、
　分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
　前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。

　このメール分類方法によれば、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、この判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成する。そして、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。これにより、従来のように、単純に所定の単語や文章を含むか否かによってメールの分類を行う場合よりも、学習モデルを用いることによる複雑かつ網羅的な判定基準によって、メールのカテゴリ判定を適切に行うことができる。

　本発明にかかるプログラムは、
　分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
　前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する処理を、コンピュータに実行させるためのプログラムである。

　このプログラムによって動作するコンピュータは、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、この判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成する。そして、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。これにより、従来のように、単純に所定の単語や文章を含むか否かによってメールの分類を行う場合よりも、学習モデルを用いることによる複雑かつ網羅的な判定基準によって、メールのカテゴリ判定を適切に行うことができる。

　また、上記のプログラムを記録した記録媒体も、本発明の一つの態様である。

　本発明にかかる学習モデル生成装置は、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
　学習用テキストデータに対して形態素解析を行う形態素解析部と、
　形態素解析部の解析結果から、前記判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を前記判別データテーブルへ格納する特徴データ抽出部と、
　前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成する画像変換部と、
　前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する学習部とを備える。

　この学習モデル生成装置では、学習データとして、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を用いる。これにより、メールのテキストデータをそのまま学習させる場合に比較して、多種多様な形態素を含む学習データを効率的に大量に学習させることができる。この結果、メールのテキストデータとその分類結果との相関関係について信頼性の高い判定結果を出力できる学習済みモデルを生成することが可能となる。

　本発明にかかる学習モデル生成方法は、
　学習用テキストデータに対して形態素解析を行い、
　前記形態素解析の結果から、判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を品詞毎に判別データテーブルへ格納し、
　前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成し、
　前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する、学習モデル生成方法。

　この学習モデル生成方法では、学習データとして、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を用いる。これにより、メールのテキストデータをそのまま学習させる場合に比較して、多種多様な形態素を含む学習データを効率的に大量に学習させることができる。この結果、メールのテキストデータとその分類結果との相関関係について信頼性の高い判定結果を出力できる学習済みモデルを生成することが可能となる。

　１００…メール分類システム、１…分類器、２…学習器、１１…ファイル格納部、１２…文書解析部、１３…データ変換部、１４…分類判定部、１５…分類結果格納部、２１…形態素解析部、２２…特徴データ抽出部、２３…画像変換部、２４…ラベル付与部、２５…ＤＮＮ（ディープニューラルネットワーク）、２６…判別データ格納部、２７…モデルデータ格納部

Claims

　分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
　前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、
　前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する分類判定部とを備えた、メール分類装置。
　前記判別データテーブルは、新たな形態素の追加、格納されている形態素の削除、または、格納されている形態素の書き換えが可能である、請求項１に記載のメール分類装置。
　前記分類対象メールのカテゴリは、メールの緊急度、重要度、宛先、および用件の少なくとも一つを含む、請求項１または２に記載のメール分類装置。
　コンピュータによって実行されるメール分類方法であって、
　分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
　前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する、メール分類方法。
　分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
　前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する処理を、コンピュータに実行させるためのプログラム。
　分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
　前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
　判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する処理を、コンピュータに実行させるためのプログラムを記録した記録媒体。
　メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
　学習用テキストデータに対して形態素解析を行う形態素解析部と、
　形態素解析部の解析結果から、前記判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を前記判別データテーブルへ格納する特徴データ抽出部と、
　前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成する画像変換部と、
　前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する学習部とを備えた、学習モデル生成装置。
　学習用テキストデータに対して形態素解析を行い、
　前記形態素解析の結果から、判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を品詞毎に判別データテーブルへ格納し、
　前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成し、
　前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する、学習モデル生成方法。