WO2017094202A1

WO2017094202A1 - 画像処理を応用した文書構造解析装置

Info

Publication number: WO2017094202A1
Application number: PCT/JP2015/085603
Authority: WO
Inventors: 美津夫小島; 横山　淳; 竜生鈴木; 翔平沼田
Original assignee: アイマトリックス株式会社
Priority date: 2015-12-01
Filing date: 2015-12-21
Publication date: 2017-06-08
Also published as: EP3385851A4; JPWO2017094202A1; EP3385851A1; JP6267830B2; US10163005B2; HK1252247A1; US20180276459A1; CN108369559B; CN108369559A

Abstract

【課題】　スパムメールの判定を容易に精度よくかつ高速に行うことができる文書構造解析装置を提供する。【解決手段】　メール処理装置１００は、ネットワークＮＷからサンプルデータや電子メールを取得するデータ取得部１１２、データ取得部１１２で取得したサンプルデータ等をｎ値化する信号化部１１４、信号化部１１４でｎ値化されたデータを記憶するサンプル記憶部１２０、サンプル記憶部１２０に記憶されたｎ値化されたサンプルデータと入力された電子メールとを比較し、その類似度から電子メールがスパムメールか否かを判定する信号処理部１３０、判定結果に基づきスパムメールを格納するスパム格納部１４０を含んで構成される。　

Description

画像処理を応用した文書構造解析装置

　本発明は、電子メール、文書データ等のデータの画像処理を応用した文書構造解析装置に関し、特に、電子メールがスパムメール（迷惑メール）か否か等を判定する方法に関する。

　スパムメールを排除する方法として、電子メールを受信者に配信するメールサーバ側で、スパムメールか否かを判定するための判定情報、例えば、キーワード、送信者のアドレス、ＵＲＬなどを予め登録しておき、受信した電子メールに判定情報が含まれる場合には、受信した電子メールをスパムメールに分類し、これを破棄したり、ユーザーへの配信を停止している。また、ユーザー側の端末において、ユーザー自身が設定したフィルタルールにより、特定のアドレスやキーワードを含む電子メールをスパムメールとしてフィルタリングしている。

　例えば、特許文献１では、電子メールの本文、送信者および送信アドレス、受信者および受信アドレスを除く外観情報（例えば、電子メールの行数、添付ファイル、電子メールの形式、および電子メールの言語等）を電子メールの外観的特徴を示すアウトライン情報として抽出し、抽出したアウトライン情報に基づきスパムメールを検出するためのスパム検出情報の送信を外部の管理センタに要求し、電子メールの内容が対応するスパム検出情報に該当するとき、当該電子メールをスパムメールであると判定し、電子メールがスパムメールでないと判定されたとき、外部の管理センタに対しアウトライン情報を送信することにより更新されたスパム検出情報を要求する電子メール処理装置を開示している。

　また、特許文献２では、スパムメールを排除するための処理負荷を軽減し、かつユーザーの操作負荷を軽減する電子メール分類装置を開示している。具体的には、電子メールのヘッダ情報に基づいて電子メールの特徴を示す特徴ベクトルを取得し、特徴ベクトルを学習データとして、スパムメールか否かを分類する分類ルールを作成するものである。

特許第５１２１８２８号公報特開２０１１－９０４４２号公報

　従来、スパムメールの検出や分類をする方法が種々検討されているが、スパムメールの内容は遅々刻々と変化し、かつネットワークに接続された不特定の端末から大量にかつ無差別に送信され得るため、このようなスパムメールを完全にかつリアルタイムで排除することは困難な状況である。一方、スパムメールの検出や分類の精度を高めるには、多くのスパムメールを処理し、その中からスパムメールを判定するための判定情報を抽出し、判定情報を迅速に更新していなかければならない。故に、スパムメールを判定するための判定方法を高速にかつ精度良く抽出する方法が望まれる。さらには、スパムメールの送信元の情報を収集し、これを判定情報に活用することも望まれる。

　本発明は、サンプルデータとの比較処理を簡単に精度良くかつ高速に行うことができる文書構造解析装置を提供することを目的とする。

　本発明に係る文書構造解析装置は、文字列等が記載されたサンプルデータを取得する取得手段と、取得されたサンプルデータをｎ値化（ｎは、２以上の自然数）する信号化手段と、前記信号化手段によりｎ値化されたサンプルデータを記憶する記憶手段と、ｎ値化された入力データと前記記憶手段に記憶されたｎ値化されたサンプルデータとを比較し、サンプルデータと入力データとの類似度を算出する算出手段と、算出された類似度に基づき入力データの分類する分類手段とを有する。

　好ましくは前記信号化手段は、取得されたサンプルデータをｎ次元化し、ｎ次元化されたデータをｎ値化する。好ましくは前記信号化手段は、取得されたサンプルデータをｎ値化し、ｎ値化されたデータをｎ次元化する。好ましくは前記算出手段は、同一次元のｎ値化されたデータの類似度を算出する。好ましくは前記信号化手段は、文字等が記載された領域と文字等が記載されていない空白領域とを２値化する。好ましくは前記信号化手段は、特徴的な表現が記載された領域とそれ以外の領域を異なるデータ値に変換する。好ましくは前記信号化手段は、文字等の属性に基づきサンプルデータをｎ次元化する。好ましくは前記入力データは、電子メールであり、前記分類手段は、電子メールをスパムメールに分類する。好ましくは前記分類手段は、入力データと共通の文書構造を有するサンプルデータに分類する。好ましくは文書構造解析装置はさらに、前記記憶手段に記憶されたｎ値化されたサンプルデータをクラスタリングする手段を含む。

　本発明によれば、ｎ値化されたサンプルデータとｎ値化された入力データとを比較し、両者の類似度を算出するようにしたので、従来と比較して、類似度の判定が容易であり、かつ高速に行うことができる。特に、２値化されたサンプルデータと入力データとを比較する場合には、データ変換が容易であるとともに、２値化画像の比較になるため処理も高速になる。さらにサンプルデータをｎ次元化し、各次元毎の類似度を算出することで、サンプルデータと入力データの類似度の精度をさらに高めることができる。また、ｎ値化したサンプルデータを画像伸縮することにより、サイズが異なるスパムメール同士の比較が可能になる。さらに、ｎ値化されたサンプルデータ間の差分を抽出することにより、構造の異なる部分のみを抽出することが可能になる。

本発明の第１の実施例に係るメール処理装置の機能的な構成を示すブロック図である。本発明の第１の実施例に係るメール処理装置の変形例を示す図である。本実施例により２値化された文書データの一例を示す図である。本実施例のサンプル記憶部の管理テーブルの一例を示す図である。本実施例のサンプル／電子メール取得部の動作を説明するフローチャートである。本実施例の２値化処理の動作を説明するフローチャートである。第１の実施例に係る信号処理部の動作を説明するフローチャートである。図４のパターンマッチングの詳細を説明するフローチャートである。本発明の第１の実施例の変形例による信号処理部の動作を説明するフローチャートである。本発明の第１の実施例の変形例による信号化部の動作を説明するフローチャートである。本発明の第２の実施例に係る信号化部の処理を説明する図である。本発明の第２の実施例によるサンプル／電子メール取得部の動作を説明するフローチャートである。本発明の第２の実施例による信号処理部のパターンマッチングを説明するフローチャートである。内容が同一である言語の異なるスパムメールの例であり、図８（Ａ）は、ポルトガル語で記載された例、図８（Ｂ）は、英語で記載された例である。図８（Ａ）、（Ｂ）のスパムメールを３次元×２値化した例である。各次元同士の類似度の算出例である。特徴点が少ない文書データを例示する図である。図１１に示す文書データの２次元×２値化の例である。図１１に示す文書データのパターンマッチングの例である。本発明の第３の実施例によるサンプル／電子メール取得部の動作を説明するフローチャートである。第３の実施例の具体的な処理例を説明する図である。本発明の第４の実施例に係るサンプル／電子メール取得部の動作を説明するフローチャートである。第４の実施例に係る類似度の算出およびクラスタリング解析を説明する図である。類似文書構造のクラスタの用途を説明する図である。本発明の実施例によるＨＴＭＬメールの信号化を説明する図である。

　次に、本発明の実施の形態について、図面を参照して詳細に説明する。本発明の画像処理を応用した文書構造解析装置は、１つの好ましい形態ではメール処理装置として実施される。メール処理装置は、インターネットまたはイントラネット等のネットワークに接続可能であり、ネットワークを介して電子メールを受信し、受信した電子メールを解析することによりスパムメールか否かの判定を行う。メール処理装置は、少なくともメールを処理する機能や画像処理する機能を備えていれば良く、ハードウエアまたはソフトウエアによって実行される他の機能を備えることもできる。メール処理装置は、例えば、サーバ、コンピュータ、電子装置、端末装置、メール配信サーバ、その他電子装置であることができる。なお、本発明の実施の形態における、ｎ値化、ｎ次元化という表現は、学術的に、多値化、多次元化と同義である。

　図１は、本発明の第１の実施例に係るメール処理装置の機能的な構成を示すブロック図である。メール処理装置１００は、サンプル／電子メール取得部１１０、サンプル記憶部１２０、信号処理部１３０およびスパムメール格納部１４０を含む。メール処理装置１００は、例えば、コンピュータ、あるいは中央処理プロセッサ（ＣＰＵ）などがプログラムに従い演算を行うことによって所望の機能を実行する電子装置であることができる。例えば、サンプル／電子メール取得部１１０および信号処理部１３０の各機能は、ソフトウェアプログラムを実行することによって実現することが可能であり、サンプル記憶部１２０およびスパムメール格納部１４０の各機能は、ＲＡＭ／ＲＯＭ等のメモリを利用することによって実現することが可能である。

　サンプル／電子メール取得部１１０は、サンプルデータや電子メールのデータを取得するデータ取得部１１２と、取得したデータを信号化する信号化部１１４とを有する。サンプル／電子メール取得部１１０は、１つの態様では、スパムメール等に代表される不正なサンプルデータを取得する。すなわち、ハニーポットの技術を用いて、非公開のアドレスに送信されてきた電子メールをスパムメールとみなし、当該スパムメールをサンプルデータとして取得する。この態様で取得されたサンプルデータは、スパムメールか否かを判定するための判定材料に利用される。もう１つの態様では、受信者のアドレスを含む電子メールのデータを取得する。この電子メールは、スパムメールかもしれないし、そうでないかもしれない。サンプル／電子メール取得部１１０は、ネットワークＮＷからデータを取得するものに限らず、他の経路からデータを取得するものであってもよい。例えば、大量の文書データを含む記録媒体（半導体メモリ、ＤＶＤディスク、あるいは他のコンピュータ装置）からサンプルやデータを取得するものであってもよい。

　信号化部１１４は、データ取得部１１２で取得されたデータの信号化処理を行う。初めに、ハニーポットにより収集されたスパムメール（サンプルデータ）の信号化について説明する。信号化とは、データに表された自然言語である文字、数字、記号、図形等（以下、文字等という）とそのような文字等が表されていない空白領域とをｎ値のデータ（ｎは、２以上の自然数）に変換することをいう。本実施例では、データを２値データに変換する例を説明する。

　信号化部１１４は、取得したデータのフォーマット等からデータのサイズを解析する。具体的には、データの１ページがｎ行×ｍ列であること解析し、１つ１つの文字等が表されている領域をデータ「１」に、空白領域をデータ「０」に変換する。ｎ行×ｍ列のデータフォーマットは、送信者側のユーザーが作成した編集ソフトのフォーマット、あるは受信者側のメーラー（メールソフト）が規定するフォーマットのいずれかである。また、文字等は、１バイト、２バイト、３バイト等のコードで表されており（例えば、ＡＳＣＩＩやシフトＪＩＳなど）、そのようなコードが存在する領域は、データ「１」に、存在しない領域は、データ「０」に変換される。もし、全角文字と半角文字との識別をする場合には、例えば、半角文字の領域を「１」で表す場合には、全角文字の領域は「１１」のように信号化しても良い。図２は、信号化部によるデータの信号化の一例を示している。すなわち、図２（Ａ）に示すスパムメールがデータ取得部１１２によって取得されたとき、信号化部１１４は、そのスパムメールを、図２（Ｂ）に示すように２値画像化する。２値画像化されたデータは、サンプル記憶部１２０に保存される。

　サンプル記憶部１２０は、信号化部１１４によって信号化されたサンプルデータ（スパムメール）を逐次保存する。サンプル記憶部１２０は、例えば、図２Ａに示すように、サンプルデータを管理するための管理テーブルを含む。管理テーブルは、各サンプルデータを識別するための識別情報、各サンプルデータの属性情報として、フォーマット情報（ｎ行×ｍ列を含む）、信号化の日時情報、サンプルデータおよび信号化されたデータの格納場所などを含む。

　信号処理部１３０は、サンプル記憶部１２０に記憶された２値化データに基づき様々な信号処理を行うことができる。本実施例では、信号処理部１３０は、受信した電子メールを入力データとし、電子メールの２値化データとサンプル記憶部１２０に記憶された２値化データとを比較し、電子メールがスパムメールか否かを判定する。また、後述するように変形例では、信号処理部１３０は、入力された電子メール等のデータと類似するサンプルデータの抽出を行う。信号処理部１３０によってスパムメールと判定された電子メールは、スパムメール格納部１４０に格納される。

　次に、本実施例のメール処理装置の詳細な動作について説明する。図３Ａは、サンプル／電子メール取得部１１０の動作を説明するフローチャートである。データ取得部１１２０は、取得したデータが、サンプルデータか電子メールかを判別する（Ｓ１００）。１つの判別方法は、例えば、非公開のアドレスで受信された電子メールをサンプルデータと識別し、それ以外のアドレスで受信された電子メールは、サンプルデータでないと識別する。他の判別方法として、サンプルデータを受信する専用の端末と、電子メールを受信する専用の端末とをそれぞれ用意し、各端末を識別することでサンプルデータまたは電子メールの判別を行うようにしてもよい。上記以外の判別方法を用いることも可能である。

　データ取得部１１２は、サンプルデータを取得すると、そのサンプルデータを信号化部１１４へ提供する。信号化部１１４は、取得されたサンプルデータを２値化処理し（Ｓ１１０）、２値化したサンプルデータをサンプル格納部１２０に保存する（Ｓ１２０）。サンプルデータが保存されるとき、図２Ａに示すような管理データが作成、更新される。このような処理を実行することで、サンプル記憶部１２０に種々の２値化されたサンプルデータが蓄積されていく。

　図３Ｂは、信号化部１１４の２値化処理（Ｓ１１０に相当）を説明するフローチャートである。信号化部１１４は、取得されたサンプルデータのフォーマット情報を識別し、すなわち、サンプルデータのページサイズ（ｎ行×ｍ列）を識別する（Ｓ２００）。次に、信号化部１１４は、サンプルデータに表された文字等が存在する領域と空白領域とを識別し（Ｓ２１０）、文字等を表すコードが存在するとき、そのコードをデータ「１」に変換し（Ｓ２２０）、コードが存在しないとき、そのコードをデータ「０」に変換する（Ｓ２３０）。このような２値化処理は、ページサイズによって規定されるｎ行×ｍ列の全範囲について実行される（Ｓ２４０）。２値化処理の実行により、例えば、図２に示すように、サンプルデータの文字等が記載されている領域は、データ「１」に変換され、文字等が記載されていない空白領域は、データ「０」に変換される。

　図４は、本実施例に係る信号処理部１３０の動作を説明するフローチャートである。上記したようにデータ取得部１１２は、サンプルデータか電子メールかを判別し、この判別結果により電子メールが取得されると（Ｓ３００）、取得された電子メールは、サンプルデータのときと同様に、信号化部１１４によって２値化処理される（Ｓ３１０）。信号化部１１４によって２値化された電子メールＴｘは、信号処理部１３０へ入力される。信号処理部１３０は、２値化された電子メールＴｘと、スパム記憶部１２０に記憶された２値化されたサンプルデータとをパターンマッチングにより比較し（Ｓ３２０）、両者の類似度に基づき電子メールがスパムメールか否かを判定する（Ｓ３３０）。

　図５は、パターンマッチング（Ｓ３２０に相当）の詳細を説明するフローチャートである。信号処理部１３０は、２値化された電子メールＴｘと、サンプル記憶部１２０から読み出された２値化されたサンプルデータＳｉ（ｉ＝1,2,3…n、ｎは、サンプルデータの個数）とを比較し（Ｓ４００）、電子メールＴｘとサンプルデータＳｉとの類似度を算出する（Ｓ４１０）。ここで、電子メールＴｘとサンプルデータＳｉとのページサイズが異なる場合には、両者のページサイズが一致するようにいずれかの２値化データの正規化を行う。類似度の算出方法は、特に限定されないが、例えば、データ「１」の領域またはデータ「０」の領域の重複度合を算出する。次に、信号処理部１３０は、類似度が閾値以上か否かを判定し（Ｓ４２０）、閾値以上であれば、そのサンプルデータＳｉを保持する（Ｓ４３０）。閾値は、任意に設定することができ、閾値が高ければ高いほど、サンプルデータのヒット率は低くなるが、より高い精度でスパムメールの判定を行うことができる。反対に、閾値が低ければ低いほど、サンプルデータのヒット率は高くなるが、同時に、スパムメールの判定精度は低下する。信号処理部１３０は、ｉ＝ｎとなるまで、すなわち電子メールを全てのサンプルデータと比較する（Ｓ４４０）。

　信号処理部１３０は、パターンマッチングの結果に基づき電子メールがスパムメールか否かを判定する。判定方法は任意であるが、例えば、閾値を高く設定することで、閾値以上のサンプルデータが１つでも存在すれば、電子メールがスパムメールであると判定したり、閾値を比較的低く設定することで、閾値以上のサンプルデータが一定数よりも多く存在する場合には、電子メールがスパムメールである判定することができる。

　本実施例によれば、サンプルデータおよび電子メールをｎ値化処理し、ｎ値化された両データの類似度からスパムメールの判定を行うようにしたので、複雑なアルゴリズム等を用いることなく迅速にスパム判定を行うことができる。特に、サンプルデータおよび電子メールを２値化した場合には、データの信号化が容易であり、かつ２値化画像の類似度の判定も高速に行うことができる。

　次に、本発明の第１の実施例の変形例について説明する。上記では、電子メールがスパムメールか否かを判定する例を説明したが、変形例では、入力した文書データに類似する構造文書を抽出する例を説明する。図５Ａは、変形例の動作フローである。サンプル／電子メール取得部１１０は、入力された任意の文書データを取得し（Ｓ３０２）、信号化部１１４は、取得した文書データの２値化処理を行い（Ｓ３１２）、２値化処理された文書データを信号処理部１３０へ提供する。

　信号処理部１３０は、２値化された文書データと、サンプル記憶部１２０から読み出された２値化されたサンプルデータとをパターンマッチングにより比較する（Ｓ３２２）。変形例では、サンプル記憶部１２０に格納されるサンプルデータは、必ずしもスパムメールまたは不正な文書データに限るものではなく、種々の文書構造をもつサンプルデータであることができる。パターンマッチングは、図５に示す方法と同様に行うことができる。

　信号処理部１３０は、パターンマッチングの結果に基づき、入力された文書データに類似する文書構造を有するサンプルデータを取得する（Ｓ３３２）。図５に示すように、閾値以上のサンプルデータが保持された結果から、信号処理部１３０は、図２Ａに示す管理テーブルを参照し、２値化処理される前のサンプルデータを出力させたり、あるいは格納部に格納する。これにより、ユーザーは、入力された文書データに類似する文書構造を有するサンプルデータを認識することができる。

　さらに第１の実施例の変形例として、信号化部１１４は、サンプルデータや電子メール等のデータを２値化する以外にも、３値化、４値化のように多値化処理することもできる。サンプルデータ等を多値化することでデータの重み付けまたはフィルタリングすることが可能になる。図６に、サンプルデータを３値化する場合の動作を説明するフローチャートである。信号化部１１４は、取得されたサンプルデータのフォーマットを識別し（Ｓ２００）、１文字毎の信号化を行う前に、キーワード、特定の表現、ＵＲＬ、メールアドレス、特殊記号、電話番号、規則性のある文字列を含む特徴的な表現をデータ「２」に変換する（Ｓ２０２）。これらの特徴的な表現は、文字列として認識されるため、１文字毎の信号化を行う前に処理を行う。次に、サンプルデータに表されたそれぞれの文字等を識別し（Ｓ２１０）、既にデータ「２」に変換された文字以外（特徴的な表現以外）の文字等は、データ「１」に変換される。このような処理を行うことにより、サンプルデータが「０」、「１」、「２」のデータに３値化される。３値化されたサンプルデータは、サンプル記憶部１２０に格納される。また、当然ながら、このような３値化されたサンプルデータを用いてスパムメールの判定、あるいは類似文書構造の抽出を行う場合には、電子メールや文書データも３値化される。

　なお、図１に示すメール処理装置１００は、図１に示す構成に限定されるものではなく、種々の態様に変更することが可能である。例えば、図１Ａの（Ａ）に示すように、メール処理装置１００Ａは、サンプル記憶部１２０と信号処理部１３０とが入れ替わるような構成であってもよい。この場合、信号処理部１３０は、電子メール取得部１１０によって電子メールが取得されたことをトリガーに信号処理を開始することができる。また、図1に示すメール処理装置１００は、サンプル／電子メール取得部１１０、サンプル記憶部１２０、信号処理部１３０およびスパム格納部１４０を一体的に包含する例を示しているが、同一の機能を保持できるのであれば、各機能を物理的に一体に備える必要はなく、各機能が有機的に結合される構成であってもよい。例えば、図１Ａの（Ｂ）に示すように、メール処理装置１００Ｂは、ネットワークによって結合されたゲートウエイ、データセンター、サーバ等を含んで構成され、すなわち、サンプル／電子メール取得部１１０は、ネットワークを介してサンプル記憶部１２０および信号処理部１３０に接続され、信号処理部１３０は、ネットワークを介してスパム格納部１４０に接続されるものであってもよい。

　次に、本発明の第２の実施例について図を用いて詳細に説明する。第１の実施例では、１つの文書データをｎ値化することで信号化し、スパムメールか否かを判定する例を示したが、第２の実施例ではさらに、１つの文書データをｎ次元のデータに分割し、同一の次元ごとにｎ値化を行うものである。図７は、第２の実施例の信号化を説明する図である。第１の実施例は、図中のＡに示すように、データをｎ値化することで、データの階層的な重み付けを可能にしたが、第２の実施例は、図中のＢに示すように、さらにデータを複数の次元に分類し、分類したデータのｎ値化を可能にする（ｎは、２以上の自然数）。なお、特段の記載がない限り、メール処理装置１００の構成および機能等は、第１の実施例で説明したものと同様である。

　図７Ａは、第２の実施例によるサンプル／電子メール取得部１１０の動作を説明するフローチャートである。ここでは、サンプルデータをｎ次元化し、ｎ次元化されたデータをｎ値化する例を説明する。データ取得部１１２によってサンプルデータが取得されると（５００）、信号化部１１４は、サンプルデータを予め決められたルールに従いｎ次元化する（Ｓ５１０）。予め決められたルールとは、１つの例として、サンプルデータの外観的な特徴からサンプルデータをｎ次元に分類する。例えば、データに表されている文字等の種類、配列に基づきデータをｎ次元に分類したり、あるいは、データのヘッダ部分（Htmlメール等の会社情報等が記載されている文章のヘッダ）、フッタ部分、メール差出人の部分（例えば、メール文面のシグニチャーなどに記載）、メール受信者の部分（例えば、メール文面の冒頭などに記載されている○○会社、○○様など）、署名部分などの領域に基づきデータをｎ次元に分類する。次に、信号化部１１４は、第１の実施例のときと同様に、ｎ次元化されたデータをｎ値化処理する（Ｓ５２０）。このような処理により信号化されたデータがサンプル記憶部１２０に保存される（Ｓ５３０）。

　図７Ｂは、第２の実施例によるサンプルデータと電子メールとのパターンマッチングを説明するフローチャートである。データ取得部１１２によって電子メールが取得されると、当該電子メールは、信号化部１１４によってｎ次元×ｎ値化の処理が行われ、この処理されたデータが信号処理部１３０へ提供される。信号処理部１３０は、電子メールＴｘとサンプル記憶部１２０から読み出されたサンプルデータＳｉとの比較を行うが、ここで留意すべきは、同一次元のデータ同士がパターンマッチングにより比較される（Ｓ６００）。次に、信号処理部１３０は、各次元の類似度を算出し（Ｓ６１０）、次いで、各次元の類似度の合計を算出する（Ｓ６２０）。そして、合計の類似度、あるいは類似度の平均が閾値以上か否かを判定し、閾値以上であれば、そのサンプルデータを保持する（Ｓ６３０）。電子メールは、全てのサンプルデータと対比され、その結果、閾値以上の類似度を有するサンプルデータのみが保持される。

　第２の実施例によれば、データをｎ次元化することで、データに偏在するような特徴を抽出し、その特徴同士の比較を行うことができる。また、上記実施例では、各次元の類似度をそのまま合計したが、各次元に重み付けを行うようにしてもよい。例えば、サンプルデータのヘッダ部分の類似度を、他の部分よりも大きくなるような重み付けをするようにしてもよい。これにより、データに偏在する特徴を類似度の判定に大きく反映させ、スパムメールの判定、あるいは類似文書構造の抽出をより高精度にすることができる。

　次に、第２の実施例による具体的なスパムメールの判定例について説明する。図８（Ａ）、（Ｂ）は、内容は同一であるが、異なる言語（ポルトガル語と英語）で記載されたスパムメールである。この場合、コンテンツによるフィルタリングは効果的でなくなる可能性がある。図９（Ａ）は、図８（Ａ）のポルトガル語のスパムメールを３次元化×２値化したもの、図９（Ｂ）は、図８（Ｂ）の英語のスパムメールを３次元×２値化したものである。ここで、ポルトガル語のスパムメールがサンプルデータとし、英語のスパムメールが入力された電子メールであるとする。

　信号化部１１４は、予め決められたルールに従い、サンプルデータを、文字列が記述された次元（Ａ－１）、ＵＲＬが記述された次元（Ａ－２）、電話番号が記述された次元（Ａ－３）の３つの次元に分類し、各次元のデータの２値化を行う。各次元の分類は、そこに表されたデータの属性によって行われても良いし、文字列、ＵＲＬ、電話番号を記述した領域を特定することができるならば、領域に基づき分類してもよい。（Ａ－１）では、文字列が表された領域がデータ「１」、空白領域がデータ「０」に２値化され、（Ａ－２）では、ＵＲＬが表された領域がデータ「１」、それ以外の空白領域がデータ「０」に２値化され、（Ａ－３）では、電話番号が表されたデータ「１」、それ以外の空白領域がデータ「０」に２値化される。なお、図中、データ「０」は省略してある。このように信号化されたサンプルデータは、サンプル記憶部１２０に記憶される。一方、信号化部１１４は、電子メールが取得されたとき、電子メールを、文字列が記述された次元（Ｂ－１）、ＵＲＬが記述された次元（Ｂ－２）、電話番号が記述された次元（Ｂ－３）の３つの次元に分類し、各次元のデータの２値化する。そして、信号処理部１３０によって、電子メールとサンプルデータとを比較し、スパム判定が行われる。

　図１０は、パターンマッチングの例である。パターンマッチングでは、同一次元の２値化画像が対比される。すなわち、サンプルデータの次元（Ａ－１）と電子メールの次元（Ｂ－１）との類似度が算出され、同様に、（Ａ－２）と（Ｂ－２）の次元、（Ａ－３）と（Ｂ－３）の次元の各類似度が算出される。この例では、（Ａ－１）と（Ｂ－１）の次元の類似度が８０、（Ａ－２）と（Ｂ－２）の次元の類似度が９８、（Ａ－３）と（Ｂ－３）の次元の類似度が１００であり、これらの平均値９２．６が閾値９０を越えるので、電子メールはスパムメールであると判定される。

　このように、データを多次元に分類し、各次元毎の類似度を算出するため、文書構造を異にする言語が相違するスパムメールの判定に有効である。スパムメールは、ＵＲＬや電話番号の構造をほとんど変えずに、言語だけを変更して送信されるものもある。第１の実施例のような単純な多値化画像の比較だけでは、文書構造の相違により、判定精度が低下するおそれがある。現に、図１０の「文字列」の次元の類似度は、他の次元よりも相対的に低く、閾値９０よりも小さくなってしまう。第２の実施例では、スパムメールの特徴的な次元の類似度を比較することにより、スパムメールの判定精度を向上させることができる。

　図８に示すスパムメールは、ＵＲＬや電話番号などの特徴点を多く含むため、スパム判定が比較的容易であるが、ＵＲＬや電話番号等の特徴点が少ない構造のメールであると、スパム判定が難しくなる。特徴点が少ないスパムメールは、メール内の数字等を微妙に変更をしており、特徴抽出を上手に避けている。図１１は、こうした特徴点が少ない文書データの例である。図１１（Ａ）は、サンプル記憶部１２０に記憶されたサンプルデータであり、図１１（Ｂ）は、図１１（Ａ）のサンプルデータの数字等を微妙に変更した例である。

　図１２（Ａ）、（Ｂ）は、図１１（Ａ）、（Ｂ）を２次元×２値化した例である。すなわち、文字列（Ａ－１）と（Ｂ－１）の次元と、数字（Ａ－２）と（Ｂ－２）の次元に分類される。数字と文字列の区分けは、データの属性によって区分けしても良いし、数字と文字列が記述された領域を特定することができるならば、領域によって区分けしてもよい。図１１（Ａ）に示す文書データをサンプルデータとし、図１１（Ｂ）に示す文書データを電子メールとしたとき、両者のパターンマッチングは、図１３に示すようになる。「数字」の次元で信号化された（Ａ－１）と（Ｂ－１）、「文字列」の次元で信号化された（Ａ－２）と（Ｂ－２）それぞれの類似度が算出され、各次元の類似度の合計値を次元数で除算することにより、平均の類似度を算出し、当該平均の類似度が閾値を越える場合に、信号処理部１３０は、電子メールがスパムメールであると判定する。図１３に示す例では、各次元の平均の類似度が９７であり、閾値９０を越えるため、図１１（Ｂ）に示す電子メールはスパムメールであると判定される。このように、ＵＲＬや電話番号等の特徴点が少ないスパムメールの判定も可能になる。

　次に、本発明の第３の実施例について説明する。第２の実施例は、サンプルデータ等をｎ次元化し、ｎ次元化されたデータをｎ値化するものであるが、第３の実施例は、データをｎ値化し、ｎ値に基づきデータの領域を分割し、分割されたデータの中から特徴的な表記を抽出し、この特徴的な表記を利用してスパムメールの判定や類似構造文書の判定を行う。言い方を変えれば、第３の実施例は、データをｎ値化し、ｎ値化されたデータをｎ次元化するものであり、第２の実施例とは、ｎ値化とｎ次元化の処理の順序を反対である。

　図１４は、第３の実施例のサンプル／電子メール取得部１１０の動作を説明するフローチャートである。先ず、データ取得部１１２によってサンプルデータが取得され（Ｓ７００）、次に、信号化部１１４によってサンプルデータのｎ値化処理が行われる（Ｓ７１０）。信号化部１１４はさらに、ｎ値に基づきサンプルデータの領域を分割する（Ｓ７２０）。例えば、特定の値を境界にサンプルデータの領域を分割したり、特定の値によって囲まれている領域を分割したり、特定の値と特定の値によって挟まれている領域を分割する。分割する領域の数は、ｎ値に応じて適宜選択される。次に、信号化部１１４は、分割された領域の中から特徴的な表記を含む領域を選択し（Ｓ７３０）、選択された特徴的な表記を含む領域のｎ値化データをサンプル記憶部１２０に保存する（Ｓ７４０）。

　次に、第３の実施例の具体的な処理について図１５を参照して説明する。まず、図１５（Ａ）に示すようなサンプルデータが取得される。この例では、サンプルデータの後段に記載された署名（シグナチャー）が特徴的な表記として扱われる。信号化部１１４は、図１５（Ｂ）に示すように、署名欄に記述された規律性のある特殊文字をデータ「２」に変換し、それ以外の文字等をデータ「１」に信号化し、空白領域をデータ「０」に変換する（但し、図中、「０」は省略してある）。すなわち、信号化部１１４は、サンプルデータを３値化する。

　次に、３値化されたサンプルデータの領域分割を行う。ここでは、図１５（Ｃ）に示すように、サンプルデータは、署名を記載した領域Ｒ１と、本文を記載した領域Ｒ２とに分割される。ここでは、データ「２」が特徴的な表記の境界を表すものとし、データ「２」によって挟まれた領域Ｒ１と、それ以外の領域Ｒ２とに分割される。信号化部１１４は、領域Ｒ１、Ｒ２の中から、特徴的な表記を含む領域Ｒ２を選択する。この選択は、例えば図１５（Ｄ）に示すように、領域Ｒ１をマスクし、領域Ｒ２のデータ「１」をデータ「０」に変換することにより行われる。次に、信号化部１１４は、領域Ｒ１の２値化されたデータをサンプル記憶部１２０へ保存する。なお、領域Ｒ１が特徴的な表記を含むものであるか否かを確認するため、図１５（Ｅ）に示すように、領域Ｒ１に記述された特徴的な表記を、ディスプレイ等に出力し、ユーザーが最終確認を行し、その最終確認後に、サンプル記憶部１２０へ保存をするようにしてもよい。

　こうして、サンプル記憶部１２０に記憶された特徴的な表記のみを含むサンプルデータを利用して、電子メールのスパム判定を行ったり、類似構造文書の抽出を行うことができる。本例の場合、特徴的な表記は、署名であり、これと同一の署名を有する電子メールは、スパムメールと判定され、あるいは、同一の署名を有する多数のサンプルデータの中から抽出することができる。

　次に、本発明の第４の実施例について説明する。第４の実施例は、信号化したデータを用いてスパムメールをクラスタリング（部分集合に分割）し、スパムメールを送信する送信者（以下、スパマーと称する）の特徴を抽出する。第４の実施例においても、第１の実施例で示した図１に示すメール処理装置の機能に従い、信号化処理されたサンプルデータがサンプル記憶部１２０に格納されているものとする。

　図１６は、第４の実施例に係る信号処理部１３０の動作を説明するフローチャートである。本実施例に係る信号処理部１３０は、第１の実施例で説明したように電子メールがスパムメールか否かを判定する機能等の他に、サンプル記憶部１２０に記憶されたサンプルデータをクラスタリング解析する機能を有する。クラスタリング解析は、任意のタイミングで実行することができ、例えば、予め決められた周期毎に実行しても良いし、ユーザーの指示に応答して実行されるものであっても良い。

　信号処理部１３０は、まず、サンプル記憶部１２０に格納されている信号化されたサンプルデータＳ１・・・Ｔｎ（スパムメール）を取得する（Ｓ８００）。つまり、ｎ個のサンプルデータがサンプル記憶部１２０に格納されている場合、信号処理部１３０は、ｎ個のサンプルデータを取得する。次に、信号処理部１３０は、取得したサンプルデータＳ１・・・Ｓｎ間の類似度を算出し（Ｓ８１０）、算出された類似度を予め決められた閾値と比較し、サンプルデータのクラスタリング解析を行う（Ｓ８２０）。次に、信号処理部１３０は、クラスタリングされたサンプルデータを類似文書構造としてメモリ等の保存する（Ｓ８３０）。

　図１７は、類似度の算出およびクラスタリング解析を説明する図である。図１７（Ａ）は、サンプルデータが７つ（ｎ＝７）あるときのサンプルデータ相互間の類似度をマトリックスで表している。サンプルデータ相互間の類似度が算出されると、次に、類似度に基づきサンプルデータのクラスタリングが行われる。図１７（Ｂ）は、図１７（Ａ）の類似度に基づきクラスタリングを実行した例である。例えば、閾値を９０％としたとき、クラスタＣ１には、Ｓ１、Ｓ３、Ｓ６が分類され、クラスタＣ２には、Ｓ２、Ｓ４が分類され、クラスタＣ３には、Ｓ５、Ｓ７が分類される。１つのクラスタに含まれるサンプルデータは相互に類似するため、１つのクラスタは、サンプルデータの類似文書構造の集合である。

　図１８は、類似文書構造クラスタの用途を説明する図である。例えば、図１８（Ａ）に示すように、スパマー（Ａ）が、サンプルデータＳ１、Ｓ３、Ｓ６を送信しているものとする。このような場合、クラスタＣ１の特徴、例えば、メールの送信時間、送信元ＩＰアドレス、文書内のＵＲＬやドメイン等を抽出することで、スパマー（Ａ）の送信パターン、所有ＩＰ、所有ＵＲＬ、ドメインを把握することができる。スパマー（Ｂ）、（Ｃ）についても同様に、スパマー（Ｂ）、（Ｃ）が送信するサンプルデータのクラスタリングにより、スパマー（Ｂ）、（Ｃ）の送信パターンを把握することができる。こうした送信パターンは、スパムメールの判定に利用され、判定精度が向上される。

　上記実施例では、電子メールまたは文書データがテキストデータで記述される例を示したが、本発明のメール処理装置は、そのようなテキストデータに限定されるものではない。例えば、図１９に示すような、画像データと文書データを混合したＨＴＭＬメール３００にも適用することができる。データ取得部１１２によってＨＴＭＬメール３００が取得されると、信号化部１１４は、ＨＴＭＬメールを、文字列の次元（Ａ－１）と画像の次元（Ａ－２）に分類し、それぞれを２値化し、これらの２値化されたサンプルデータをサンプル記憶部１２０に格納する。この格納されたサンプルデータを用いて、各次元毎の類似度を算出し、ＨＴＭＬ形式で受信した電子メールがスパムメールか否かを判定することができる。

　以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。

１００：メール処理装置
１１０：サンプル／電子メール取得部
１１２：データ取得部
１１４：信号化部
１２０：サンプル記憶部
１３０：信号処理部
１４０：スパム格納部
　ＮＷ：ネットワーク
　

Claims

文字列等が記載されたサンプルデータを取得する取得手段と、
　取得されたサンプルデータをｎ値化（ｎは、２以上の自然数）する信号化手段と、
　前記信号化手段によりｎ値化されたサンプルデータを記憶する記憶手段と、
　ｎ値化された入力データと前記記憶手段に記憶されたｎ値化されたサンプルデータとを比較し、サンプルデータと入力データとの類似度を算出する算出手段と、
　算出された類似度に基づき入力データの分類する分類手段と、
　を有する文書構造解析装置。
前記信号化手段は、取得されたサンプルデータをｎ次元化し、ｎ次元化されたデータをｎ値化する、請求項１に記載の文書構造解析装置。
前記信号化手段は、取得されたサンプルデータをｎ値化し、ｎ値化されたデータをｎ次元化する、請求項１に記載の文書構造解析装置。
前記算出手段は、同一次元のｎ値化されたデータの類似度を算出する、請求項２または３に記載の文書構造解析装置。
前記信号化手段は、文字等が記載された領域と文字等が記載されていない空白領域とを２値化する、請求項１ないし４いずれか１つに記載の文書構造解析装置。
前記信号化手段は、特徴的な表現が記載された領域とそれ以外の領域を異なるデータ値に変換する、請求項１ないし５いずれか１つに記載の文書構造解析装置。
前記信号化手段は、文字等の属性に基づきサンプルデータをｎ次元化する、請求項１ないし３いずれか１つに記載の文書構造解析装置。
前記信号化手段は、予め決められたルールに従いサンプルデータをｎ次元化に分割する、請求項１ないし７いずれか１つに記載の文書構造解析装置。
前記信号化手段は、サンプルデータの外観的な特徴に基づきサンプルデータをｎ次元化に分割する、請求項８に記載の文書構造解析装置。
前記信号化手段は、文字の種類に基づきサンプルデータをｎ次元化に分割する、請求項８に記載の文書構造解析装置。
前記信号化手段は、文字の配列に基づきサンプルデータをｎ次元化に分割する、請求項８に記載の文書構造解析装置。
前記信号化手段は、署名部分の領域に基づきサンプルデータをｎ次元化に分割する、請求項８に記載の文書構造解析装置。
前記入力データは、電子メールであり、前記分類手段は、電子メールをスパムメールに分類する、請求項１ないし１２いずれか１つに記載の文書構造解析装置。
前記分類手段は、入力データと共通の文書構造を有するサンプルデータに分類する、請求項１ないし１３いずれか１つに記載の文書構造解析装置。
文書構造解析装置はさらに、前記記憶手段に記憶されたｎ値化されたサンプルデータをクラスタリングする手段を含む、請求項１に記載の文書構造解析装置。
前記クラスタリングする手段は、取得されたサンプルデータ間の類似度を算出し、算出された類似度を予め決められた閾値と比較することによりクラスタリングする、請求項１５に記載の文書構造解析装置。