JPWO2017094202A1 - 画像処理を応用した文書構造解析装置 - Google Patents

画像処理を応用した文書構造解析装置 Download PDF

Info

Publication number
JPWO2017094202A1
JPWO2017094202A1 JP2017510601A JP2017510601A JPWO2017094202A1 JP WO2017094202 A1 JPWO2017094202 A1 JP WO2017094202A1 JP 2017510601 A JP2017510601 A JP 2017510601A JP 2017510601 A JP2017510601 A JP 2017510601A JP WO2017094202 A1 JPWO2017094202 A1 JP WO2017094202A1
Authority
JP
Japan
Prior art keywords
data
sample data
mail
document structure
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017510601A
Other languages
English (en)
Other versions
JP6267830B2 (ja
Inventor
美津夫 小島
美津夫 小島
横山 淳
淳 横山
竜生 鈴木
竜生 鈴木
翔平 沼田
翔平 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMATRIX Corp
Original Assignee
IMATRIX Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMATRIX Corp filed Critical IMATRIX Corp
Publication of JPWO2017094202A1 publication Critical patent/JPWO2017094202A1/ja
Application granted granted Critical
Publication of JP6267830B2 publication Critical patent/JP6267830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 スパムメールの判定を容易に精度よくかつ高速に行うことができる文書構造解析装置を提供する。【解決手段】 メール処理装置100は、ネットワークNWからサンプルデータや電子メールを取得するデータ取得部112、データ取得部112で取得したサンプルデータ等をn値化する信号化部114、信号化部114でn値化されたデータを記憶するサンプル記憶部120、サンプル記憶部120に記憶されたn値化されたサンプルデータと入力された電子メールとを比較し、その類似度から電子メールがスパムメールか否かを判定する信号処理部130、判定結果に基づきスパムメールを格納するスパム格納部140を含んで構成される。【選択図】 図1

Description

本発明は、電子メール、文書データ等のデータの画像処理を応用した文書構造解析装置に関し、特に、電子メールがスパムメール(迷惑メール)か否か等を判定する方法に関する。
スパムメールを排除する方法として、電子メールを受信者に配信するメールサーバ側で、スパムメールか否かを判定するための判定情報、例えば、キーワード、送信者のアドレス、URLなどを予め登録しておき、受信した電子メールに判定情報が含まれる場合には、受信した電子メールをスパムメールに分類し、これを破棄したり、ユーザーへの配信を停止している。また、ユーザー側の端末において、ユーザー自身が設定したフィルタルールにより、特定のアドレスやキーワードを含む電子メールをスパムメールとしてフィルタリングしている。
例えば、特許文献1では、電子メールの本文、送信者および送信アドレス、受信者および受信アドレスを除く外観情報(例えば、電子メールの行数、添付ファイル、電子メールの形式、および電子メールの言語等)を電子メールの外観的特徴を示すアウトライン情報として抽出し、抽出したアウトライン情報に基づきスパムメールを検出するためのスパム検出情報の送信を外部の管理センタに要求し、電子メールの内容が対応するスパム検出情報に該当するとき、当該電子メールをスパムメールであると判定し、電子メールがスパムメールでないと判定されたとき、外部の管理センタに対しアウトライン情報を送信することにより更新されたスパム検出情報を要求する電子メール処理装置を開示している。
また、特許文献2では、スパムメールを排除するための処理負荷を軽減し、かつユーザーの操作負荷を軽減する電子メール分類装置を開示している。具体的には、電子メールのヘッダ情報に基づいて電子メールの特徴を示す特徴ベクトルを取得し、特徴ベクトルを学習データとして、スパムメールか否かを分類する分類ルールを作成するものである。
特許第5121828号公報 特開2011−90442号公報
従来、スパムメールの検出や分類をする方法が種々検討されているが、スパムメールの内容は遅々刻々と変化し、かつネットワークに接続された不特定の端末から大量にかつ無差別に送信され得るため、このようなスパムメールを完全にかつリアルタイムで排除することは困難な状況である。一方、スパムメールの検出や分類の精度を高めるには、多くのスパムメールを処理し、その中からスパムメールを判定するための判定情報を抽出し、判定情報を迅速に更新していなかければならない。故に、スパムメールを判定するための判定方法を高速にかつ精度良く抽出する方法が望まれる。さらには、スパムメールの送信元の情報を収集し、これを判定情報に活用することも望まれる。
本発明は、サンプルデータとの比較処理を簡単に精度良くかつ高速に行うことができる文書構造解析装置を提供することを目的とする。
本発明に係る文書構造解析装置は、文字列等が記載されたサンプルデータを取得する取得手段と、取得されたサンプルデータをn値化(nは、2以上の自然数)する信号化手段と、前記信号化手段によりn値化されたサンプルデータを記憶する記憶手段と、n値化された入力データと前記記憶手段に記憶されたn値化されたサンプルデータとを比較し、サンプルデータと入力データとの類似度を算出する算出手段と、算出された類似度に基づき入力データの分類する分類手段とを有する。
好ましくは前記信号化手段は、取得されたサンプルデータをn次元化し、n次元化されたデータをn値化する。好ましくは前記信号化手段は、取得されたサンプルデータをn値化し、n値化されたデータをn次元化する。好ましくは前記算出手段は、同一次元のn値化されたデータの類似度を算出する。好ましくは前記信号化手段は、文字等が記載された領域と文字等が記載されていない空白領域とを2値化する。好ましくは前記信号化手段は、特徴的な表現が記載された領域とそれ以外の領域を異なるデータ値に変換する。好ましくは前記信号化手段は、文字等の属性に基づきサンプルデータをn次元化する。好ましくは前記入力データは、電子メールであり、前記分類手段は、電子メールをスパムメールに分類する。好ましくは前記分類手段は、入力データと共通の文書構造を有するサンプルデータに分類する。好ましくは文書構造解析装置はさらに、前記記憶手段に記憶されたn値化されたサンプルデータをクラスタリングする手段を含む。
本発明によれば、n値化されたサンプルデータとn値化された入力データとを比較し、両者の類似度を算出するようにしたので、従来と比較して、類似度の判定が容易であり、かつ高速に行うことができる。特に、2値化されたサンプルデータと入力データとを比較する場合には、データ変換が容易であるとともに、2値化画像の比較になるため処理も高速になる。さらにサンプルデータをn次元化し、各次元毎の類似度を算出することで、サンプルデータと入力データの類似度の精度をさらに高めることができる。また、n値化したサンプルデータを画像伸縮することにより、サイズが異なるスパムメール同士の比較が可能になる。さらに、n値化されたサンプルデータ間の差分を抽出することにより、構造の異なる部分のみを抽出することが可能になる。
本発明の第1の実施例に係るメール処理装置の機能的な構成を示すブロック図である。 本発明の第1の実施例に係るメール処理装置の変形例を示す図である。 本実施例により2値化された文書データの一例を示す図である。 本実施例のサンプル記憶部の管理テーブルの一例を示す図である。 本実施例のサンプル/電子メール取得部の動作を説明するフローチャートである。 本実施例の2値化処理の動作を説明するフローチャートである。 第1の実施例に係る信号処理部の動作を説明するフローチャートである。 図4のパターンマッチングの詳細を説明するフローチャートである。 本発明の第1の実施例の変形例による信号処理部の動作を説明するフローチャートである。 本発明の第1の実施例の変形例による信号化部の動作を説明するフローチャートである。 本発明の第2の実施例に係る信号化部の処理を説明する図である。 本発明の第2の実施例によるサンプル/電子メール取得部の動作を説明するフローチャートである。 本発明の第2の実施例による信号処理部のパターンマッチングを説明するフローチャートである。 内容が同一である言語の異なるスパムメールの例であり、図8(A)は、ポルトガル語で記載された例、図8(B)は、英語で記載された例である。 図8(A)、(B)のスパムメールを3次元×2値化した例である。 各次元同士の類似度の算出例である。 特徴点が少ない文書データを例示する図である。 図11に示す文書データの2次元×2値化の例である。 図11に示す文書データのパターンマッチングの例である。 本発明の第3の実施例によるサンプル/電子メール取得部の動作を説明するフローチャートである。 第3の実施例の具体的な処理例を説明する図である。 本発明の第4の実施例に係るサンプル/電子メール取得部の動作を説明するフローチャートである。 第4の実施例に係る類似度の算出およびクラスタリング解析を説明する図である。 類似文書構造のクラスタの用途を説明する図である。 本発明の実施例によるHTMLメールの信号化を説明する図である。
次に、本発明の実施の形態について、図面を参照して詳細に説明する。本発明の画像処理を応用した文書構造解析装置は、1つの好ましい形態ではメール処理装置として実施される。メール処理装置は、インターネットまたはイントラネット等のネットワークに接続可能であり、ネットワークを介して電子メールを受信し、受信した電子メールを解析することによりスパムメールか否かの判定を行う。メール処理装置は、少なくともメールを処理する機能や画像処理する機能を備えていれば良く、ハードウエアまたはソフトウエアによって実行される他の機能を備えることもできる。メール処理装置は、例えば、サーバ、コンピュータ、電子装置、端末装置、メール配信サーバ、その他電子装置であることができる。なお、本発明の実施の形態における、n値化、n次元化という表現は、学術的に、多値化、多次元化と同義である。
図1は、本発明の第1の実施例に係るメール処理装置の機能的な構成を示すブロック図である。メール処理装置100は、サンプル/電子メール取得部110、サンプル記憶部120、信号処理部130およびスパムメール格納部140を含む。メール処理装置100は、例えば、コンピュータ、あるいは中央処理プロセッサ(CPU)などがプログラムに従い演算を行うことによって所望の機能を実行する電子装置であることができる。例えば、サンプル/電子メール取得部110および信号処理部130の各機能は、ソフトウェアプログラムを実行することによって実現することが可能であり、サンプル記憶部120およびスパムメール格納部140の各機能は、RAM/ROM等のメモリを利用することによって実現することが可能である。
サンプル/電子メール取得部110は、サンプルデータや電子メールのデータを取得するデータ取得部112と、取得したデータを信号化する信号化部114とを有する。サンプル/電子メール取得部110は、1つの態様では、スパムメール等に代表される不正なサンプルデータを取得する。すなわち、ハニーポットの技術を用いて、非公開のアドレスに送信されてきた電子メールをスパムメールとみなし、当該スパムメールをサンプルデータとして取得する。この態様で取得されたサンプルデータは、スパムメールか否かを判定するための判定材料に利用される。もう1つの態様では、受信者のアドレスを含む電子メールのデータを取得する。この電子メールは、スパムメールかもしれないし、そうでないかもしれない。サンプル/電子メール取得部110は、ネットワークNWからデータを取得するものに限らず、他の経路からデータを取得するものであってもよい。例えば、大量の文書データを含む記録媒体(半導体メモリ、DVDディスク、あるいは他のコンピュータ装置)からサンプルやデータを取得するものであってもよい。
信号化部114は、データ取得部112で取得されたデータの信号化処理を行う。初めに、ハニーポットにより収集されたスパムメール(サンプルデータ)の信号化について説明する。信号化とは、データに表された自然言語である文字、数字、記号、図形等(以下、文字等という)とそのような文字等が表されていない空白領域とをn値のデータ(nは、2以上の自然数)に変換することをいう。本実施例では、データを2値データに変換する例を説明する。
信号化部114は、取得したデータのフォーマット等からデータのサイズを解析する。具体的には、データの1ページがn行×m列であること解析し、1つ1つの文字等が表されている領域をデータ「1」に、空白領域をデータ「0」に変換する。n行×m列のデータフォーマットは、送信者側のユーザーが作成した編集ソフトのフォーマット、あるは受信者側のメーラー(メールソフト)が規定するフォーマットのいずれかである。また、文字等は、1バイト、2バイト、3バイト等のコードで表されており(例えば、ASCIIやシフトJISなど)、そのようなコードが存在する領域は、データ「1」に、存在しない領域は、データ「0」に変換される。もし、全角文字と半角文字との識別をする場合には、例えば、半角文字の領域を「1」で表す場合には、全角文字の領域は「11」のように信号化しても良い。図2は、信号化部によるデータの信号化の一例を示している。すなわち、図2(A)に示すスパムメールがデータ取得部112によって取得されたとき、信号化部114は、そのスパムメールを、図2(B)に示すように2値画像化する。2値画像化されたデータは、サンプル記憶部120に保存される。
サンプル記憶部120は、信号化部114によって信号化されたサンプルデータ(スパムメール)を逐次保存する。サンプル記憶部120は、例えば、図2Aに示すように、サンプルデータを管理するための管理テーブルを含む。管理テーブルは、各サンプルデータを識別するための識別情報、各サンプルデータの属性情報として、フォーマット情報(n行×m列を含む)、信号化の日時情報、サンプルデータおよび信号化されたデータの格納場所などを含む。
信号処理部130は、サンプル記憶部120に記憶された2値化データに基づき様々な信号処理を行うことができる。本実施例では、信号処理部130は、受信した電子メールを入力データとし、電子メールの2値化データとサンプル記憶部120に記憶された2値化データとを比較し、電子メールがスパムメールか否かを判定する。また、後述するように変形例では、信号処理部130は、入力された電子メール等のデータと類似するサンプルデータの抽出を行う。信号処理部130によってスパムメールと判定された電子メールは、スパムメール格納部140に格納される。
次に、本実施例のメール処理装置の詳細な動作について説明する。図3Aは、サンプル/電子メール取得部110の動作を説明するフローチャートである。データ取得部1120は、取得したデータが、サンプルデータか電子メールかを判別する(S100)。1つの判別方法は、例えば、非公開のアドレスで受信された電子メールをサンプルデータと識別し、それ以外のアドレスで受信された電子メールは、サンプルデータでないと識別する。他の判別方法として、サンプルデータを受信する専用の端末と、電子メールを受信する専用の端末とをそれぞれ用意し、各端末を識別することでサンプルデータまたは電子メールの判別を行うようにしてもよい。上記以外の判別方法を用いることも可能である。
データ取得部112は、サンプルデータを取得すると、そのサンプルデータを信号化部114へ提供する。信号化部114は、取得されたサンプルデータを2値化処理し(S110)、2値化したサンプルデータをサンプル格納部120に保存する(S120)。サンプルデータが保存されるとき、図2Aに示すような管理データが作成、更新される。このような処理を実行することで、サンプル記憶部120に種々の2値化されたサンプルデータが蓄積されていく。
図3Bは、信号化部114の2値化処理(S110に相当)を説明するフローチャートである。信号化部114は、取得されたサンプルデータのフォーマット情報を識別し、すなわち、サンプルデータのページサイズ(n行×m列)を識別する(S200)。次に、信号化部114は、サンプルデータに表された文字等が存在する領域と空白領域とを識別し(S210)、文字等を表すコードが存在するとき、そのコードをデータ「1」に変換し(S220)、コードが存在しないとき、そのコードをデータ「0」に変換する(S230)。このような2値化処理は、ページサイズによって規定されるn行×m列の全範囲について実行される(S240)。2値化処理の実行により、例えば、図2に示すように、サンプルデータの文字等が記載されている領域は、データ「1」に変換され、文字等が記載されていない空白領域は、データ「0」に変換される。
図4は、本実施例に係る信号処理部130の動作を説明するフローチャートである。上記したようにデータ取得部112は、サンプルデータか電子メールかを判別し、この判別結果により電子メールが取得されると(S300)、取得された電子メールは、サンプルデータのときと同様に、信号化部114によって2値化処理される(S310)。信号化部114によって2値化された電子メールTxは、信号処理部130へ入力される。信号処理部130は、2値化された電子メールTxと、スパム記憶部120に記憶された2値化されたサンプルデータとをパターンマッチングにより比較し(S320)、両者の類似度に基づき電子メールがスパムメールか否かを判定する(S330)。
図5は、パターンマッチング(S320に相当)の詳細を説明するフローチャートである。信号処理部130は、2値化された電子メールTxと、サンプル記憶部120から読み出された2値化されたサンプルデータSi(i=1,2,3…n、nは、サンプルデータの個数)とを比較し(S400)、電子メールTxとサンプルデータSiとの類似度を算出する(S410)。ここで、電子メールTxとサンプルデータSiとのページサイズが異なる場合には、両者のページサイズが一致するようにいずれかの2値化データの正規化を行う。類似度の算出方法は、特に限定されないが、例えば、データ「1」の領域またはデータ「0」の領域の重複度合を算出する。次に、信号処理部130は、類似度が閾値以上か否かを判定し(S420)、閾値以上であれば、そのサンプルデータSiを保持する(S430)。閾値は、任意に設定することができ、閾値が高ければ高いほど、サンプルデータのヒット率は低くなるが、より高い精度でスパムメールの判定を行うことができる。反対に、閾値が低ければ低いほど、サンプルデータのヒット率は高くなるが、同時に、スパムメールの判定精度は低下する。信号処理部130は、i=nとなるまで、すなわち電子メールを全てのサンプルデータと比較する(S440)。
信号処理部130は、パターンマッチングの結果に基づき電子メールがスパムメールか否かを判定する。判定方法は任意であるが、例えば、閾値を高く設定することで、閾値以上のサンプルデータが1つでも存在すれば、電子メールがスパムメールであると判定したり、閾値を比較的低く設定することで、閾値以上のサンプルデータが一定数よりも多く存在する場合には、電子メールがスパムメールである判定することができる。
本実施例によれば、サンプルデータおよび電子メールをn値化処理し、n値化された両データの類似度からスパムメールの判定を行うようにしたので、複雑なアルゴリズム等を用いることなく迅速にスパム判定を行うことができる。特に、サンプルデータおよび電子メールを2値化した場合には、データの信号化が容易であり、かつ2値化画像の類似度の判定も高速に行うことができる。
次に、本発明の第1の実施例の変形例について説明する。上記では、電子メールがスパムメールか否かを判定する例を説明したが、変形例では、入力した文書データに類似する構造文書を抽出する例を説明する。図5Aは、変形例の動作フローである。サンプル/電子メール取得部110は、入力された任意の文書データを取得し(S302)、信号化部114は、取得した文書データの2値化処理を行い(S312)、2値化処理された文書データを信号処理部130へ提供する。
信号処理部130は、2値化された文書データと、サンプル記憶部120から読み出された2値化されたサンプルデータとをパターンマッチングにより比較する(S322)。変形例では、サンプル記憶部120に格納されるサンプルデータは、必ずしもスパムメールまたは不正な文書データに限るものではなく、種々の文書構造をもつサンプルデータであることができる。パターンマッチングは、図5に示す方法と同様に行うことができる。
信号処理部130は、パターンマッチングの結果に基づき、入力された文書データに類似する文書構造を有するサンプルデータを取得する(S332)。図5に示すように、閾値以上のサンプルデータが保持された結果から、信号処理部130は、図2Aに示す管理テーブルを参照し、2値化処理される前のサンプルデータを出力させたり、あるいは格納部に格納する。これにより、ユーザーは、入力された文書データに類似する文書構造を有するサンプルデータを認識することができる。
さらに第1の実施例の変形例として、信号化部114は、サンプルデータや電子メール等のデータを2値化する以外にも、3値化、4値化のように多値化処理することもできる。サンプルデータ等を多値化することでデータの重み付けまたはフィルタリングすることが可能になる。図6に、サンプルデータを3値化する場合の動作を説明するフローチャートである。信号化部114は、取得されたサンプルデータのフォーマットを識別し(S200)、1文字毎の信号化を行う前に、キーワード、特定の表現、URL、メールアドレス、特殊記号、電話番号、規則性のある文字列を含む特徴的な表現をデータ「2」に変換する(S202)。これらの特徴的な表現は、文字列として認識されるため、1文字毎の信号化を行う前に処理を行う。次に、サンプルデータに表されたそれぞれの文字等を識別し(S210)、既にデータ「2」に変換された文字以外(特徴的な表現以外)の文字等は、データ「1」に変換される。このような処理を行うことにより、サンプルデータが「0」、「1」、「2」のデータに3値化される。3値化されたサンプルデータは、サンプル記憶部120に格納される。また、当然ながら、このような3値化されたサンプルデータを用いてスパムメールの判定、あるいは類似文書構造の抽出を行う場合には、電子メールや文書データも3値化される。
なお、図1に示すメール処理装置100は、図1に示す構成に限定されるものではなく、種々の態様に変更することが可能である。例えば、図1Aの(A)に示すように、メール処理装置100Aは、サンプル記憶部120と信号処理部130とが入れ替わるような構成であってもよい。この場合、信号処理部130は、電子メール取得部110によって電子メールが取得されたことをトリガーに信号処理を開始することができる。また、図1に示すメール処理装置100は、サンプル/電子メール取得部110、サンプル記憶部120、信号処理部130およびスパム格納部140を一体的に包含する例を示しているが、同一の機能を保持できるのであれば、各機能を物理的に一体に備える必要はなく、各機能が有機的に結合される構成であってもよい。例えば、図1Aの(B)に示すように、メール処理装置100Bは、ネットワークによって結合されたゲートウエイ、データセンター、サーバ等を含んで構成され、すなわち、サンプル/電子メール取得部110は、ネットワークを介してサンプル記憶部120および信号処理部130に接続され、信号処理部130は、ネットワークを介してスパム格納部140に接続されるものであってもよい。
次に、本発明の第2の実施例について図を用いて詳細に説明する。第1の実施例では、1つの文書データをn値化することで信号化し、スパムメールか否かを判定する例を示したが、第2の実施例ではさらに、1つの文書データをn次元のデータに分割し、同一の次元ごとにn値化を行うものである。図7は、第2の実施例の信号化を説明する図である。第1の実施例は、図中のAに示すように、データをn値化することで、データの階層的な重み付けを可能にしたが、第2の実施例は、図中のBに示すように、さらにデータを複数の次元に分類し、分類したデータのn値化を可能にする(nは、2以上の自然数)。なお、特段の記載がない限り、メール処理装置100の構成および機能等は、第1の実施例で説明したものと同様である。
図7Aは、第2の実施例によるサンプル/電子メール取得部110の動作を説明するフローチャートである。ここでは、サンプルデータをn次元化し、n次元化されたデータをn値化する例を説明する。データ取得部112によってサンプルデータが取得されると(500)、信号化部114は、サンプルデータを予め決められたルールに従いn次元化する(S510)。予め決められたルールとは、1つの例として、サンプルデータの外観的な特徴からサンプルデータをn次元に分類する。例えば、データに表されている文字等の種類、配列に基づきデータをn次元に分類したり、あるいは、データのヘッダ部分(Htmlメール等の会社情報等が記載されている文章のヘッダ)、フッタ部分、メール差出人の部分(例えば、メール文面のシグニチャーなどに記載)、メール受信者の部分(例えば、メール文面の冒頭などに記載されている○○会社、○○様など)、署名部分などの領域に基づきデータをn次元に分類する。次に、信号化部114は、第1の実施例のときと同様に、n次元化されたデータをn値化処理する(S520)。このような処理により信号化されたデータがサンプル記憶部120に保存される(S530)。
図7Bは、第2の実施例によるサンプルデータと電子メールとのパターンマッチングを説明するフローチャートである。データ取得部112によって電子メールが取得されると、当該電子メールは、信号化部114によってn次元×n値化の処理が行われ、この処理されたデータが信号処理部130へ提供される。信号処理部130は、電子メールTxとサンプル記憶部120から読み出されたサンプルデータSiとの比較を行うが、ここで留意すべきは、同一次元のデータ同士がパターンマッチングにより比較される(S600)。次に、信号処理部130は、各次元の類似度を算出し(S610)、次いで、各次元の類似度の合計を算出する(S620)。そして、合計の類似度、あるいは類似度の平均が閾値以上か否かを判定し、閾値以上であれば、そのサンプルデータを保持する(S630)。電子メールは、全てのサンプルデータと対比され、その結果、閾値以上の類似度を有するサンプルデータのみが保持される。
第2の実施例によれば、データをn次元化することで、データに偏在するような特徴を抽出し、その特徴同士の比較を行うことができる。また、上記実施例では、各次元の類似度をそのまま合計したが、各次元に重み付けを行うようにしてもよい。例えば、サンプルデータのヘッダ部分の類似度を、他の部分よりも大きくなるような重み付けをするようにしてもよい。これにより、データに偏在する特徴を類似度の判定に大きく反映させ、スパムメールの判定、あるいは類似文書構造の抽出をより高精度にすることができる。
次に、第2の実施例による具体的なスパムメールの判定例について説明する。図8(A)、(B)は、内容は同一であるが、異なる言語(ポルトガル語と英語)で記載されたスパムメールである。この場合、コンテンツによるフィルタリングは効果的でなくなる可能性がある。図9(A)は、図8(A)のポルトガル語のスパムメールを3次元化×2値化したもの、図9(B)は、図8(B)の英語のスパムメールを3次元×2値化したものである。ここで、ポルトガル語のスパムメールがサンプルデータとし、英語のスパムメールが入力された電子メールであるとする。
信号化部114は、予め決められたルールに従い、サンプルデータを、文字列が記述された次元(A−1)、URLが記述された次元(A−2)、電話番号が記述された次元(A−3)の3つの次元に分類し、各次元のデータの2値化を行う。各次元の分類は、そこに表されたデータの属性によって行われても良いし、文字列、URL、電話番号を記述した領域を特定することができるならば、領域に基づき分類してもよい。(A−1)では、文字列が表された領域がデータ「1」、空白領域がデータ「0」に2値化され、(A−2)では、URLが表された領域がデータ「1」、それ以外の空白領域がデータ「0」に2値化され、(A−3)では、電話番号が表されたデータ「1」、それ以外の空白領域がデータ「0」に2値化される。なお、図中、データ「0」は省略してある。このように信号化されたサンプルデータは、サンプル記憶部120に記憶される。一方、信号化部114は、電子メールが取得されたとき、電子メールを、文字列が記述された次元(B−1)、URLが記述された次元(B−2)、電話番号が記述された次元(B−3)の3つの次元に分類し、各次元のデータの2値化する。そして、信号処理部130によって、電子メールとサンプルデータとを比較し、スパム判定が行われる。
図10は、パターンマッチングの例である。パターンマッチングでは、同一次元の2値化画像が対比される。すなわち、サンプルデータの次元(A−1)と電子メールの次元(B−1)との類似度が算出され、同様に、(A−2)と(B−2)の次元、(A−3)と(B−3)の次元の各類似度が算出される。この例では、(A−1)と(B−1)の次元の類似度が80、(A−2)と(B−2)の次元の類似度が98、(A−3)と(B−3)の次元の類似度が100であり、これらの平均値92.6が閾値90を越えるので、電子メールはスパムメールであると判定される。
このように、データを多次元に分類し、各次元毎の類似度を算出するため、文書構造を異にする言語が相違するスパムメールの判定に有効である。スパムメールは、URLや電話番号の構造をほとんど変えずに、言語だけを変更して送信されるものもある。第1の実施例のような単純な多値化画像の比較だけでは、文書構造の相違により、判定精度が低下するおそれがある。現に、図10の「文字列」の次元の類似度は、他の次元よりも相対的に低く、閾値90よりも小さくなってしまう。第2の実施例では、スパムメールの特徴的な次元の類似度を比較することにより、スパムメールの判定精度を向上させることができる。
図8に示すスパムメールは、URLや電話番号などの特徴点を多く含むため、スパム判定が比較的容易であるが、URLや電話番号等の特徴点が少ない構造のメールであると、スパム判定が難しくなる。特徴点が少ないスパムメールは、メール内の数字等を微妙に変更をしており、特徴抽出を上手に避けている。図11は、こうした特徴点が少ない文書データの例である。図11(A)は、サンプル記憶部120に記憶されたサンプルデータであり、図11(B)は、図11(A)のサンプルデータの数字等を微妙に変更した例である。
図12(A)、(B)は、図11(A)、(B)を2次元×2値化した例である。すなわち、文字列(A−1)と(B−1)の次元と、数字(A−2)と(B−2)の次元に分類される。数字と文字列の区分けは、データの属性によって区分けしても良いし、数字と文字列が記述された領域を特定することができるならば、領域によって区分けしてもよい。図11(A)に示す文書データをサンプルデータとし、図11(B)に示す文書データを電子メールとしたとき、両者のパターンマッチングは、図13に示すようになる。「数字」の次元で信号化された(A−1)と(B−1)、「文字列」の次元で信号化された(A−2)と(B−2)それぞれの類似度が算出され、各次元の類似度の合計値を次元数で除算することにより、平均の類似度を算出し、当該平均の類似度が閾値を越える場合に、信号処理部130は、電子メールがスパムメールであると判定する。図13に示す例では、各次元の平均の類似度が97であり、閾値90を越えるため、図11(B)に示す電子メールはスパムメールであると判定される。このように、URLや電話番号等の特徴点が少ないスパムメールの判定も可能になる。
次に、本発明の第3の実施例について説明する。第2の実施例は、サンプルデータ等をn次元化し、n次元化されたデータをn値化するものであるが、第3の実施例は、データをn値化し、n値に基づきデータの領域を分割し、分割されたデータの中から特徴的な表記を抽出し、この特徴的な表記を利用してスパムメールの判定や類似構造文書の判定を行う。言い方を変えれば、第3の実施例は、データをn値化し、n値化されたデータをn次元化するものであり、第2の実施例とは、n値化とn次元化の処理の順序を反対である。
図14は、第3の実施例のサンプル/電子メール取得部110の動作を説明するフローチャートである。先ず、データ取得部112によってサンプルデータが取得され(S700)、次に、信号化部114によってサンプルデータのn値化処理が行われる(S710)。信号化部114はさらに、n値に基づきサンプルデータの領域を分割する(S720)。例えば、特定の値を境界にサンプルデータの領域を分割したり、特定の値によって囲まれている領域を分割したり、特定の値と特定の値によって挟まれている領域を分割する。分割する領域の数は、n値に応じて適宜選択される。次に、信号化部114は、分割された領域の中から特徴的な表記を含む領域を選択し(S730)、選択された特徴的な表記を含む領域のn値化データをサンプル記憶部120に保存する(S740)。
次に、第3の実施例の具体的な処理について図15を参照して説明する。まず、図15(A)に示すようなサンプルデータが取得される。この例では、サンプルデータの後段に記載された署名(シグナチャー)が特徴的な表記として扱われる。信号化部114は、図15(B)に示すように、署名欄に記述された規律性のある特殊文字をデータ「2」に変換し、それ以外の文字等をデータ「1」に信号化し、空白領域をデータ「0」に変換する(但し、図中、「0」は省略してある)。すなわち、信号化部114は、サンプルデータを3値化する。
次に、3値化されたサンプルデータの領域分割を行う。ここでは、図15(C)に示すように、サンプルデータは、署名を記載した領域R1と、本文を記載した領域R2とに分割される。ここでは、データ「2」が特徴的な表記の境界を表すものとし、データ「2」によって挟まれた領域R1と、それ以外の領域R2とに分割される。信号化部114は、領域R1、R2の中から、特徴的な表記を含む領域R2を選択する。この選択は、例えば図15(D)に示すように、領域R1をマスクし、領域R2のデータ「1」をデータ「0」に変換することにより行われる。次に、信号化部114は、領域R1の2値化されたデータをサンプル記憶部120へ保存する。なお、領域R1が特徴的な表記を含むものであるか否かを確認するため、図15(E)に示すように、領域R1に記述された特徴的な表記を、ディスプレイ等に出力し、ユーザーが最終確認を行し、その最終確認後に、サンプル記憶部120へ保存をするようにしてもよい。
こうして、サンプル記憶部120に記憶された特徴的な表記のみを含むサンプルデータを利用して、電子メールのスパム判定を行ったり、類似構造文書の抽出を行うことができる。本例の場合、特徴的な表記は、署名であり、これと同一の署名を有する電子メールは、スパムメールと判定され、あるいは、同一の署名を有する多数のサンプルデータの中から抽出することができる。
次に、本発明の第4の実施例について説明する。第4の実施例は、信号化したデータを用いてスパムメールをクラスタリング(部分集合に分割)し、スパムメールを送信する送信者(以下、スパマーと称する)の特徴を抽出する。第4の実施例においても、第1の実施例で示した図1に示すメール処理装置の機能に従い、信号化処理されたサンプルデータがサンプル記憶部120に格納されているものとする。
図16は、第4の実施例に係る信号処理部130の動作を説明するフローチャートである。本実施例に係る信号処理部130は、第1の実施例で説明したように電子メールがスパムメールか否かを判定する機能等の他に、サンプル記憶部120に記憶されたサンプルデータをクラスタリング解析する機能を有する。クラスタリング解析は、任意のタイミングで実行することができ、例えば、予め決められた周期毎に実行しても良いし、ユーザーの指示に応答して実行されるものであっても良い。
信号処理部130は、まず、サンプル記憶部120に格納されている信号化されたサンプルデータS1・・・Tn(スパムメール)を取得する(S800)。つまり、n個のサンプルデータがサンプル記憶部120に格納されている場合、信号処理部130は、n個のサンプルデータを取得する。次に、信号処理部130は、取得したサンプルデータS1・・・Sn間の類似度を算出し(S810)、算出された類似度を予め決められた閾値と比較し、サンプルデータのクラスタリング解析を行う(S820)。次に、信号処理部130は、クラスタリングされたサンプルデータを類似文書構造としてメモリ等の保存する(S830)。
図17は、類似度の算出およびクラスタリング解析を説明する図である。図17(A)は、サンプルデータが7つ(n=7)あるときのサンプルデータ相互間の類似度をマトリックスで表している。サンプルデータ相互間の類似度が算出されると、次に、類似度に基づきサンプルデータのクラスタリングが行われる。図17(B)は、図17(A)の類似度に基づきクラスタリングを実行した例である。例えば、閾値を90%としたとき、クラスタC1には、S1、S3、S6が分類され、クラスタC2には、S2、S4が分類され、クラスタC3には、S5、S7が分類される。1つのクラスタに含まれるサンプルデータは相互に類似するため、1つのクラスタは、サンプルデータの類似文書構造の集合である。
図18は、類似文書構造クラスタの用途を説明する図である。例えば、図18(A)に示すように、スパマー(A)が、サンプルデータS1、S3、S6を送信しているものとする。このような場合、クラスタC1の特徴、例えば、メールの送信時間、送信元IPアドレス、文書内のURLやドメイン等を抽出することで、スパマー(A)の送信パターン、所有IP、所有URL、ドメインを把握することができる。スパマー(B)、(C)についても同様に、スパマー(B)、(C)が送信するサンプルデータのクラスタリングにより、スパマー(B)、(C)の送信パターンを把握することができる。こうした送信パターンは、スパムメールの判定に利用され、判定精度が向上される。
上記実施例では、電子メールまたは文書データがテキストデータで記述される例を示したが、本発明のメール処理装置は、そのようなテキストデータに限定されるものではない。例えば、図19に示すような、画像データと文書データを混合したHTMLメール300にも適用することができる。データ取得部112によってHTMLメール300が取得されると、信号化部114は、HTMLメールを、文字列の次元(A−1)と画像の次元(A−2)に分類し、それぞれを2値化し、これらの2値化されたサンプルデータをサンプル記憶部120に格納する。この格納されたサンプルデータを用いて、各次元毎の類似度を算出し、HTML形式で受信した電子メールがスパムメールか否かを判定することができる。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。
100:メール処理装置
110:サンプル/電子メール取得部
112:データ取得部
114:信号化部
120:サンプル記憶部
130:信号処理部
140:スパム格納部
NW:ネットワーク

Claims (16)

  1. 文字列等が記載されたサンプルデータを取得する取得手段と、
    取得されたサンプルデータをn値化(nは、2以上の自然数)する信号化手段と、
    前記信号化手段によりn値化されたサンプルデータを記憶する記憶手段と、
    n値化された入力データと前記記憶手段に記憶されたn値化されたサンプルデータとを比較し、サンプルデータと入力データとの類似度を算出する算出手段と、
    算出された類似度に基づき入力データの分類する分類手段と、
    を有する文書構造解析装置。
  2. 前記信号化手段は、取得されたサンプルデータをn次元化し、n次元化されたデータをn値化する、請求項1に記載の文書構造解析装置。
  3. 前記信号化手段は、取得されたサンプルデータをn値化し、n値化されたデータをn次元化する、請求項1に記載の文書構造解析装置。
  4. 前記算出手段は、同一次元のn値化されたデータの類似度を算出する、請求項2または3に記載の文書構造解析装置。
  5. 前記信号化手段は、文字等が記載された領域と文字等が記載されていない空白領域とを2値化する、請求項1ないし4いずれか1つに記載の文書構造解析装置。
  6. 前記信号化手段は、特徴的な表現が記載された領域とそれ以外の領域を異なるデータ値に変換する、請求項1ないし5いずれか1つに記載の文書構造解析装置。
  7. 前記信号化手段は、文字等の属性に基づきサンプルデータをn次元化する、請求項1ないし3いずれか1つに記載の文書構造解析装置。
  8. 前記信号化手段は、予め決められたルールに従いサンプルデータをn次元化に分割する、請求項1ないし7いずれか1つに記載の文書構造解析装置。
  9. 前記信号化手段は、サンプルデータの外観的な特徴に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  10. 前記信号化手段は、文字の種類に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  11. 前記信号化手段は、文字の配列に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  12. 前記信号化手段は、署名部分の領域に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  13. 前記入力データは、電子メールであり、前記分類手段は、電子メールをスパムメールに分類する、請求項1ないし12いずれか1つに記載の文書構造解析装置。
  14. 前記分類手段は、入力データと共通の文書構造を有するサンプルデータに分類する、請求項1ないし13いずれか1つに記載の文書構造解析装置。
  15. 文書構造解析装置はさらに、前記記憶手段に記憶されたn値化されたサンプルデータをクラスタリングする手段を含む、請求項1に記載の文書構造解析装置。
  16. 前記クラスタリングする手段は、取得されたサンプルデータ間の類似度を算出し、算出された類似度を予め決められた閾値と比較することによりクラスタリングする、請求項15に記載の文書構造解析装置。
JP2017510601A 2015-12-01 2015-12-21 画像処理を応用した文書構造解析装置 Active JP6267830B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015234408 2015-12-01
JP2015234408 2015-12-01
PCT/JP2015/085603 WO2017094202A1 (ja) 2015-12-01 2015-12-21 画像処理を応用した文書構造解析装置

Publications (2)

Publication Number Publication Date
JPWO2017094202A1 true JPWO2017094202A1 (ja) 2017-11-30
JP6267830B2 JP6267830B2 (ja) 2018-01-24

Family

ID=58796760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017510601A Active JP6267830B2 (ja) 2015-12-01 2015-12-21 画像処理を応用した文書構造解析装置

Country Status (6)

Country Link
US (1) US10163005B2 (ja)
EP (1) EP3385851A4 (ja)
JP (1) JP6267830B2 (ja)
CN (1) CN108369559B (ja)
HK (1) HK1252247A1 (ja)
WO (1) WO2017094202A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11075930B1 (en) * 2018-06-27 2021-07-27 Fireeye, Inc. System and method for detecting repetitive cybersecurity attacks constituting an email campaign
WO2021044475A1 (ja) 2019-09-02 2021-03-11 アイマトリックスホールディングス株式会社 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS612583A (ja) * 1984-05-12 1986-01-08 Fujitsu Ltd 日本語電子タイプライタのレイアウト表示方式
JP2008242543A (ja) * 2007-03-26 2008-10-09 Canon Inc 画像検索装置、画像検索装置の画像検索方法、及び画像検索装置の制御プログラム
JP2009251864A (ja) * 2008-04-04 2009-10-29 Yahoo Japan Corp スパムメール判定サーバ、スパムメール判定プログラム及びスパムメール判定方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5121828B2 (ja) 1973-04-11 1976-07-05
JP2002049632A (ja) * 2000-08-03 2002-02-15 Nec Corp 要約システムとその要約方法、及び要約プログラムを記録した記録媒体
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
JP4859054B2 (ja) * 2007-02-20 2012-01-18 株式会社リコー 画像処理装置、画像処理方法、プログラムおよび記録媒体
WO2009004724A1 (ja) 2007-07-04 2009-01-08 Imatrix Corp. 電子メール処理装置、電子メール処理方法、電子メール処理プログラムおよび電子メール処理システム
CN101594314B (zh) * 2008-05-30 2012-12-26 电子科技大学 一种基于高阶自相关特征的垃圾邮件图像识别方法
CN101944091A (zh) * 2009-07-07 2011-01-12 夏普株式会社 图像检索装置
JP2011090442A (ja) 2009-10-21 2011-05-06 Kddi Corp 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム
US8762302B1 (en) * 2013-02-22 2014-06-24 Bottlenose, Inc. System and method for revealing correlations between data streams
CN104636708A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种局部文档图像的比对方法及系统
US20150381533A1 (en) * 2014-06-29 2015-12-31 Avaya Inc. System and Method for Email Management Through Detection and Analysis of Dynamically Variable Behavior and Activity Patterns
US9565209B1 (en) * 2015-03-31 2017-02-07 Symantec Corporation Detecting electronic messaging threats by using metric trees and similarity hashes
US10374995B2 (en) * 2015-06-30 2019-08-06 Oath Inc. Method and apparatus for predicting unwanted electronic messages for a user

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS612583A (ja) * 1984-05-12 1986-01-08 Fujitsu Ltd 日本語電子タイプライタのレイアウト表示方式
JP2008242543A (ja) * 2007-03-26 2008-10-09 Canon Inc 画像検索装置、画像検索装置の画像検索方法、及び画像検索装置の制御プログラム
JP2009251864A (ja) * 2008-04-04 2009-10-29 Yahoo Japan Corp スパムメール判定サーバ、スパムメール判定プログラム及びスパムメール判定方法

Also Published As

Publication number Publication date
EP3385851A4 (en) 2019-06-19
EP3385851A1 (en) 2018-10-10
JP6267830B2 (ja) 2018-01-24
WO2017094202A1 (ja) 2017-06-08
US10163005B2 (en) 2018-12-25
HK1252247A1 (zh) 2019-05-24
US20180276459A1 (en) 2018-09-27
CN108369559B (zh) 2019-10-22
CN108369559A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
US8010614B1 (en) Systems and methods for generating signatures for electronic communication classification
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN107291780B (zh) 一种用户评论信息展示方法和装置
CN110149266B (zh) 垃圾邮件识别方法及装置
CN110245557B (zh) 图片处理方法、装置、计算机设备及存储介质
US20170289082A1 (en) Method and device for identifying spam mail
CN103136266A (zh) 邮件分类的方法及装置
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
JP2006293573A (ja) 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
JP6267830B2 (ja) 画像処理を応用した文書構造解析装置
CN114036264B (zh) 一种基于小样本学习的电子邮件作者身份归属识别方法
Sitorus et al. Sensing trending topics in twitter for greater Jakarta area
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
Moutafis et al. Spam Email Detection Using Machine Learning Techniques
KR102005420B1 (ko) 전자메일 저자 분류 방법 및 장치
JP4686724B2 (ja) 迷惑メールのフィルタ機能を有する電子メールシステム
JP5324824B2 (ja) ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム
CN109983447B (zh) 评价装置、评价方法、评价程序和评价系统
CN111831885B (zh) 一种互联网信息检索系统与方法
CN103778210A (zh) 一种待分析文件的文件具体类型的判断方法及装置
CN113746814A (zh) 邮件处理方法、装置、电子设备及存储介质
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN108182191B (zh) 一种热点数据处理方法及其设备
Manek et al. ReP-ETD: A Repetitive Preprocessing technique for Embedded Text Detection from images in spam emails

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171128

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20171204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

R150 Certificate of patent or registration of utility model

Ref document number: 6267830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250