WO2021044475A1

WO2021044475A1 - 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム

Info

Publication number: WO2021044475A1
Application number: PCT/JP2019/034402
Authority: WO
Inventors: 響岡; 美津夫小島; 彬中橋
Original assignee: アイマトリックスホールディングス株式会社
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2021-03-11
Also published as: JPWO2021044475A1; CN114341822B; US20220343067A1; CN114341822A; JP7007693B2; EP4027247A1; EP4027247A4; US20230237258A1

Abstract

【課題】　低コストでありかつ表現的特徴または構造的特徴の文章を検出することができる文章解析システムを提供することを目的とする。【解決手段】　本発明に係る文章解析システム１００は、文章データを取得する文章取得部１１０と、文章取得部１１０で取得された文章データを時系列信号に変換し、変換された時系列信号から特徴を抽出する特徴抽出部１２０と、特徴抽出部１２０により抽出された特徴を記憶する特徴記憶部１３０と、特徴記憶部１３０の特徴に基づき特異文章を検出する特異文章検出部１４０とを備えて構成される。

Description

文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム

　本発明は、文章解析システムおよびこれを用いたメッセージ交換における特徴評価システムに関する。

　人間が情報伝達に用いる自然言語を計算機に理解させる試みを自然言語理解という。自然言語理解を用いる情報処理システムは文章の自動翻訳や音声応答システム、ロボティクス、セキュリティなどの分野で広く用いられている。インターネット技術の発達により、多国間の文化やビジネスの交流が容易になり、多種多様な言語あるいは混用された多国語をリアルタイムで扱わなければならない。多国語を扱う例として、インターネット上でのメッセージ交換の一種である電子メールシステムにおいては、スパムやウィルス等の不正なメッセージを検出するためのフィルタリング機能に、あらかじめ用意した多種多様な言語による定義ファイルとの効率的なマッチングシステム搭載したサーバーや端末装置が実用化されている。例えば、特許文献１は、文字列等が記載されたサンプルデータをｎ値化（ｎは、２以上の自然数）のサンプルデータに信号化し、ｎ値化されたサンプルデータとｎ値化された入力データとの類似度を算出し、算出された類似度に基づき入力データをスパムメールか否かを識別する技術を開示している。

特許第６２６７８３０号公報

　インターネット技術の発展に伴って多国間の文化やビジネスの交流が活発となり、情報処理システムは多種多様な言語の処理への対応が求められる。さらに、インターネット上のメッセージ交換システムの一種である電子メールシステムでは、多種多様な言語の扱いに加えて大量のトラフィックを実時間で処理するパフォーマンスが必要となる。しかし、自然言語理解には単純なマッチングテーブルだけではない膨大なデータと、構文論や意味論に基づく複雑な解析を要する。

自然言語で書かれたメッセージを処理する目的は、内容の理解だけでなく、メッセージ作成者の特徴の取得も考えられる。メッセージ作成者の特徴は情報セキュリティの分野でも活用されている。メッセージを利用したコンピュータ装置や電子機器の動作の阻害、情報の詐取、利用者への詐欺行為等による情報漏洩は大きな問題であり、メッセージ解析による情報漏洩防止の需要は高く、加えて、高速な処理も求められる。メッセージによる情報流出には、大きく２種ある。１つは、悪意のあるユーザーによる意図的な流出である。例えば、不正への協力者がメッセージツールなどで情報を外部に送信したり、コンピュータにマルウエアなどの不正プログラムを感染させ、外部のコンピュータに情報を外部に漏洩させたりする。もう１つは、ユーザーによる誤送信である。例えば、未知の宛先にメッセージを送信したり、普段は扱わない話題や用語を用いたり、通常は添付しないファイルを添付したりする。これらに共通する特徴として普段とは異なった行動が伴うことが挙げられる。それ故、メッセージに存在する特異性を高速に検出し、送信前に注意することによって、メッセージ交換による情報流出を防止することが可能である。

　本発明は、上記の実情に鑑み、従来よりも低コストで高速に特異な表現的特徴および構造的特徴を持つ文章を検出することができる文章解析システムの提供を目的とする。
　さらに本発明は、メッセージ交換における本文の特異性を検出するメッセージの特徴評価システムの提供を目的とする。

　本発明は、多種多様な言語を、単一のアルゴリズムによって処理できるシステムを実現する。本発明である文章解析システムは、話し言葉や文章の持つ特徴や例外の検出への適用が可能である。本発明によって、文言の誤謬や不規則性に起因する趣旨の相違、誤解、不正やそれらの兆候の発見をはじめ、凡庸なアイデアの中に埋もれる非凡なアイデアや、多数における少数の意思を検出可能となる。話し言葉や文章の持つ表現的特徴および構造的特徴を抽出し、それらと異なる特徴の話し言葉や文章を比較検出する、もしくはその反対の手法を用いることで、本発明の文章解析システムの使途は多岐に渡る。

　話し言葉や文章が持つ表現的特徴や構造的特徴の比較により発生を検知できるものの具体例として電子メールシステムにおける情報漏洩を考える。スパムメールやウィルスメール等不正メッセージを識別する方法の多くは、メッセージ本文の形態素解析による結果や、ＵＲＬ、送信アドレスを含むヘッダ情報の特徴を検出し、あらかじめ定義した不正メッセージの判断基準（不正用語、アドレス、URL、通過経路、送信量等）や、普段当事者間で交わされるメールの特徴との相違点を比較することにより識別するものである。ＵＲＬやヘッダは形式的な情報を持つため、判断基準の定義はメッセージ本文と比較して容易であるが、これら特徴は遅々刻々と変更され、高精度のフィルタリングが難しい側面がある。そのため、ＵＲＬ、ヘッダ情報に併せて、メッセージ本文の解析に基づく検出も求められるが、不正メッセージ内に含まれる言語は多か国語にわたり、形態素解析や分かち書き処理を多言語に対応するには、各言語に対応した辞書が必要となる。言語の多様性により、拡張性の低下や、実時間処理を要求されるシステムの処理速度が著しく低下する懸念がある。それらを回避するためにはシステム装置が膨大になりコストが増加してしまう。それ故、低コストで、多種多様な言語への拡張性を持つ本発明の文章解析手法での解決が見込める。

　本発明に係る文章を解析する文章解析システムは、文章データを取得する取得手段と、取得された文章データの文字を数値化することにより文章データを時系列信号に変換する変換手段と、変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納する特徴抽出手段と、前記特徴情報を用いて新たに取得された文章データの同一性を判定する判定手段とを有する。

　ある実施態様では、文章解析システムはさらに、前記判定手段の判定結果に基づき前記特徴情報と異なる特異文章を検出する検出手段を有する。ある実施態様では、前記変換手段は、予め用意された変換テーブルに基づき文字を数値データに変換する。ある実施態様では、前記変換手段は、前記時系列信号を最小値０と最大値１の範囲内に収まるように正規化する。ある実施態様では、前記変換手段は、設定された閾値を超える前記時系列信号の値を減衰し、減衰した時系列信号を正規化する。ある実施態様では、前記特徴抽出手段は、通常の表現的特徴や構造的特徴で記載された文章データの正規化された時系列信号から特徴を抽出し、抽出した特徴を用いて前記時系列信号の入力波形を再現する出力波形が得られるように特徴を学習する。ある実施態様では、前記特徴抽出手段は、オートエンコーダにより前記特徴情報を符号化する。ある実施態様では、前記特徴抽出手段は、ニューラルネットワークにより前記特徴情報を学習する。

　本発明に係るメッセージ交換における特徴評価システムは、上記記載の文章解析システムを含み、前記検出手段は、前記判定手段の判定結果に基づきメッセージの特異性を検出する。ある実施態様では、メッセージ交換における特徴評価システムは、送信メールの特異性が検出された場合、当該送信メールの送信を停止する送信制御手段を含む。ある実施態様では、メッセージ交換における特徴評価システムはさらに、前記送信制御手段により送信メールの送信が停止されたとき、送信メールの送信停止を通知する通知手段を含む。

　本発明に係るコンピュータ端末が実行する文章解析プログラムは、文章データを取得するステップと、取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップとを有する。ある実施態様では、前記同一性を判定するステップは、前記特徴情報と異なる特異な表現的特徴または構造的特徴で記載された送信メールを識別する。

　本発明に係るコンピュータ端末における文章解析方法は、文章データを取得するステップと、取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップとを有する。ある実施態様では、前記同一性を判定するステップは、前記特徴情報と異なる表現的特徴や構造的特徴で記載された送信メールを識別する。

　本発明によれば、文章データを時系列信号に変換するようにしたので、文章の形態素解析や、そのための辞書データを必要とせず、低コスト化を図ることができる。さらに時系列信号から抽出した特徴情報に基づき文章データの同一性を判定することで、本人の文章か否かの判定を容易に行うことができる。さらに、本発明によれば、送信メールの特異性を検出することで、異常な送信メールの送信を停止させることで情報漏洩を未然に防止することができる。

本発明の第１の実施例に係る文章解析システムの構成を示すブロック図である。図１に示す特徴抽出部の内部構成を示すブロック図である。ユニコードの一部の例示である。文章データとして電子メールが取得され、その電子メールの時系列信号が正規化された例を示す図である。本発明の実施例による信号正規化の動作例を説明するフローチャートである。本発明の実施例による信号分類部による入力からの特徴抽出を説明する図である。本発明の実施例によるオートエンコーダの概要を説明する図である。信号分類部による閾値による分類の例を示す図である。本発明の第２の実施例に係る送信メール監視システムの構成を示すブロック図である。本発明の第２の実施例に係る送信メール監視システムの動作を説明するフローチャートである。本発明の実施例による実験結果を示すグラフである。本発明の実施例による実験結果を示すグラフである。

　次に、本発明に係る文章解析システムは、文章を電子的に処理する機能を備えたあらゆる電子装置（例えば、コンピュータ装置、メールサーバー、クライアント端末、スマートフォンなど）に適用することができる。

　図１は、本発明の実施例に係る文章解析システムの構成例を示す図である。本実施例に係る文章解析システム１００は、文章データを取得する文章取得部１１０と、文章取得部１１０で取得された文章データの特徴を抽出する特徴抽出部１２０と、特徴抽出部１２０により抽出された特徴を記憶する特徴記憶部１３０と、特徴抽出部１２０または特徴記憶部１３０の特徴に基づき特異文章を検出する特異文章検出部１４０とを備えて構成される。

　文章解析システム１００は、メールサーバーやクライアント端末等のソフトウエア、ハードウエアあるいはソフトウエアとハードウエアとの組合せにより実施される。文章取得部１１０は、ユーザーによって作成された文章データ（例えば、電子メールなど）を取得する。文章データが電子メールである場合には、例えば、クライアント端末に搭載されたメールソフトによって作成されたＨＴＭＬ形式の電子メール、あるいはインターネットを介してクライアント端末からメールサーバーへ送信された電子メール、あるいはメッセージ交換システムにおける電子メールが取得される。

　文章取得部１１０は、複数のユーザーによって作成された文章データを取得することが可能である。また、文章解析システム１００に事前に学習機能を持たせるため、文章取得部１１０によって取得される文章データは、ユーザーが通常の振る舞いすなわち通常の表現的特徴または構造的特徴によって作成された正常な文章データであり、特徴抽出部１２０は、ユーザーの通常の表現的特徴または構造的特徴によって作成された正常な文章データに含まれる特徴を抽出し、ユーザーの文章の特徴を学習する。文章解析システム１００に学習させた後、文章取得部１１０は、任意の文章データを取得し、文章解析システム１００は、当該任意の文章データの特徴が通常の表現的特徴または構造的特徴によって作成された文章の特徴に一致するか否かを識別する。例えば、本人が作成した文章であっても、それが通常の表現的特徴または構造的特徴によって作成されたものか否かを識別したり、あるいは、本人以外の者によって作成された文章か否かを識別する。

　図２に、特徴抽出部１２０の内部構成を示す。特徴抽出部１２０は、文章取得部１１０で取得された文章データを受け取り、文章に記載された文字を時系列信号に信号化する文字信号化部１２２と、文字信号化部１２２で信号化された時系列信号の正規化を行う正規化部１２４と、正規化された信号を分類する信号分類部１２６とを有する。

　文字信号化部１２２は、文章に記載された文字の連続を一次元的な時系列信号に変換する。１つの好ましい例では、文字信号化部１２２は、ユニコード（Unicode）に基づき文章の１文字、１文字を数値データに変換する。ユニコードは、文字コードの国際的な標準の一つであり、世界中の様々な言語の文字、数字、記号等がコードに割り当てられている。図３にユニコードの一部抜粋を例示する。ユニコードは、ＡＳＣＩＩ、漢字、アラビア語、ギリシャ記号などを１６ビットまたはそれ以上のビット数で２値データに符号化している。文字信号化部１２２は、１文字を変換した１数値当たりのビット数×文字数のデータ量を持つことになる。また、文字信号化部１２２は、固定長のデータを切れ目のない１つの連続データに変換してもよいし、可変長のデータに変換してもよい。

　他の方法として、文字、熟語、句などと数値データとの関係を一義的に規定した変換テーブルを予め用意しておき、文字信号化部１２２は、そのような変転テーブルを用いて文章の各文字や熟語等を数値データに変換するようにしてもよい。

　文字信号化部１２２は、文章の先頭の文字から末尾の文字までを数値データに変換する。例えば、Ｐ行×Ｑ列（Ｐ、Ｑは、任意の整数）のサイズの文章であれば、Ｐ×Ｑの文字数に対応する２値データを含む時系列信号が生成される。ここでの文字は、自然言語である文字、数字、記号、図形、そのような文字等が表されていない空白（スペース）を含む概念である。例えば、横書きの文章であれば、先頭行から最終行まで左から右へあるいは右から左へ文字を順次走査し、あるいは縦書きの文章であれば、先頭行から最終行まで上から下にあるいは下から上に文字を順次走査し、先頭文字から最終文字まで数値データに変換する。走査する方向は任意に決定することができる。もし、文章データを構成するページ情報（行数、１行の文字数など）が必要であれば、同時にページ情報を取得し、ページ情報を参照して先頭文字から最終文字までを識別するようにしてもよい。

　こうして文字信号化部１２２によって生成された文章の時系列信号は、文章の文字が作る非周期波形とみなすことができ、文章に含まれる単語や熟語は、そこに波形パターンとして表れる。例えば、ユーザーが、「○○」という単語や熟語を頻繁に使用する場合には、時系列信号には、「○○」に対応する波形パターンが含まれることになる。あるいは、通常の表現的特徴または構造的特徴において、ユーザーが、丁寧語で文章を記載したり、句読点を多用したり、特定の接続詞を多用する場合等にも、それらを表す波形パターンが含まれることになる。このような波形パターンは、ユーザーを識別するための１つの特徴である。

　本実施例による文字信号化部１２２は、ユニコードもしくは変換テーブルに基づき文字を信号化するため、特定の言語に依存せず、多言語に適用可能であり、言語の違いを、時系列信号の波形の違いで表わすことができる。さらに文字信号化部１２２は、文章の形態素解析や構文解析を行わないため、コーパス等の辞書が不要であり、コストを削減することができる。

　信号正規化部１２４は、文字信号化部１２２によって生成された時系列信号を正規化する。ユニコードにより文字を数値化した際、時系列信号を生成する各数値は離散的な値を表し、その値の範囲が非常に大きくなる場合があり得る。そこで、信号正規化部１２４は、時系列信号の外れ値を抑え込む処理と、値域の正規化処理とを行う。

　外れ値抑え込み処理は、設定された閾値を越える数値を減衰させる。例えば、次式により処理を行う。「ａｖｇ」は平均、「ｓｔｄ」は標準偏差、「ｘ」は対象となる値（ここでは、時系列信号の数値）、「ｒａｔｅ」は減衰率、「ｄ」は値全体を底上げする目的で加算する数値に乗じる係数である。

　閾値（threshold）は、上記のように平均値からσ離れた地点から微小量ｄの分内側に設定される（｜標準偏差－平均値｜×（１－ｄ））。つまり、平均値からの離れ具合を基準にするため、目的の値に対しても平均値との離れ具合｜ｘ－ａｖｇ｜で場合分けされる。

　次に、外れ値抑え込み処理された信号について、値域の正規化処理が成される。値域の正規化処理では、（分散(std)１、平均（avg）０に正規化し、その後、最小値０、最大値１に再び正規化し、時系列信号を０～１の範囲に収める。図４は、文章データとして電子メールが取得されたとき、電子メールのメール本文の文字が時系列信号に変換され、さらに時系列信号が０～１の範囲に収束するように正規化された例を示している。

　本実施例の信号正規化部１２４の１つの動作例を図５のフローチャートに示す。先ず、文字信号化部１２２によって取得された文章の各文字がユニコードに基づき数値化される（Ｓ１００）。次に、信号正規化部１２４は、時系列信号の数値を整数倍し、波形を拡張する（Ｓ１０２）。これは、言語によって文字同士が隣接するため、これを是正する。次に、信号正規化部１２４は、上記したように外れ値の抑え込み処理を行う（Ｓ１０４）。外れ値の抑え込み処理では、閾値を越える数値が減衰されるが、この減衰を複数回に分けて行うようにしてもよい（Ｓ１０６）。また、減衰の回数は、データによって調整されるようにしてもよい。次に、信号正規化部１２４は、分散と平均を正規化した後、最小値０、最大値１に正規化する。分散の値が一定閾値を下回っていなければ、ステップＳ１０４～Ｓ１０８の処理が繰り返される。この繰り返しの処理回数には、上限を設定するようにしてもよい。

　次に、信号分類部１２６について説明する。信号分類部１２６は、信号正規化部１２４から正規化された時系列信号を受け取り、時系列信号に含まれる特徴を抽出する。抽出した特徴は、入力を再現することができるものであり、信号分類部１２６は、この特徴を学習する。但し、学習するのは、通常の表現的特徴または構造的特徴で記載された文章データのみである。例えば、図６に示すような正規化された入力波形から特徴を抽出し、この抽出した特徴を用いて、入力波形をほぼ再現する出力波形が得られるように、特徴を学習する。

　１つの好ましい態様では、信号分類部２１６は、ニューラルネットワークを利用したオートエンコーダにより、特徴の次元を削減し情報量を抑える。図７に、ニューラルネットワークを利用したオートエンコーダの概念を示す。好ましい態様では、オートエンコーダは、全結合層のみを用いて構成され、エンコーダ４層とデコーダ４層とを含み、ニューラルネットの各層の幅が文字列を変換した信号の長さに合わせて可変である。エンコーダは、入力の不要な次元を削減することで特徴を圧縮し、デコーダは、圧縮された特徴から入力を再現する。ニューラルネットワークは、学習機能により、エンコーダおよびデコーダのそれぞれの重みを調整する。本例では、ニューラルネットワークは、対称な構成で入力を再現し、入力は、固定長である。

　また、信号分類部１２６は、出力波形の再現度を検査する機能を備える。具体的には、図６に示すような入力波形と出力波形の２つの時系列の各点の距離を総当たりで比較し、２つの時系列同士の距離が最短となるパスを検出する。このパスが、ＤＴＷ距離（Dynamic Time Warping）となる。再現波形では、多少の誤差がでるが、この検査は、位相のずれなどに強い。このＤＴＷ距離は、学習モデルを確定した後、新規データの再現度を測るために用いられる。ここでの新規データは、新規な文章データであり、本文章解析システム１００によりユニークな文章か否かを判定されるものである。新規な文章データをオートエンコーダで処理し、入出力波形のＤＴＷ距離が閾値（後述する）を超える場合、再現度が低いとして、文章データをユニークなデータ（通常の表現的特徴や構造的特徴ではない）と判定される。この判定結果は、特異文章検出部１４０へ提供される。

　信号分類部２１６は、波形の分類を行うための閾値を算出する。具体的には、評価データ、すなわち、通常の表現的特徴や構造的特徴で記載された文章から抽出された、オートエンコーダによって圧縮された特徴（これは、オートエンコーダの重みとして、例えば、ニューロン１つ１つが内部に持つ数式の係数として表れる）を評価して同一性を算出し、同一性の中央値と標準偏差を求め、次式から閾値を算出する。この閾値は、波形が概ね正規化分布になる場合、中央値から標準変化×２の範囲内に概ね９５％の波形が含まれことを意味する。
（数２）
　閾値＝中央値－標準偏差×２

　なお、閾値は、上記式に限定されることなく、波形がより正規分布に近ければ、閾値＝平均値－標準偏差×２（２σ）としてもよいし、他の計算式により波形の類似度を計算する場合には、当該計算式に基づく閾値とすることも可能である。

　図８に、閾値による分類例を示す。同図において、破線のグラフは、学習済みユーザーの文章であり、実線は、他者の文章である。本例では、特徴の閾値が５．８であり、これ以上の特徴をもつ文章が他者の文章として検知される。

　特徴記憶部１３０は、特徴抽出部１２０により特徴やその閾値を記憶する。文章データが学習された場合には、その都度、特徴や閾値を更新する。

　特異文章検出部１４０は、特徴抽出部１２０による事前学習が終了した後、その学習結果を利用して特異文章の検出を行う。つまり、文章取得部１１０によって任意の文章Ａが取得され、特徴抽出部１２０は、文章Ａの特徴を抽出する。信号分類部１２６は、文章Ａから抽出された特徴と特徴記憶部１３０に記憶された閾値とを比較し、特徴が閾値以上であれば、文章Ａを特異文章と判定する。この判定結果は、特異文章検出部１４０へ提供され、特異文章検出部１４０は、特異文章と判定された文章Ａを、通常の表現的特徴や構造的特徴によって記載された文章ではないとして検出する。例えば、本人以外の別のユーザーによって記載された文章、あるいは、本人による特異な表現的特徴や構造的特徴によって記載された文章であると推測される。

　次に、本実施例の文章解析システムを送信メール監視システムに応用した例を図９に示す。送信メール監視システム２００は、例えば、メールの送信や受信機能を備えたメールサーバー、クライアント端末（コンピュータ装置、携帯装置等）において実現される。

　送信メール監視システム２００は、ユーザーによって作成された送信メールを取得する送信メール取得部２１０と、送信メール取得部２１０で取得された送信メールの特徴を抽出する特徴抽出部２２０と、抽出された特徴を記憶する特徴記憶部２３０と、取得された送信メールが異常メールか否かを検出する異常メール検出部２４０と、異常メール検出部２４０の検出結果に基づき送信メールの送信を制御する送信制御部２５０とを含む。これらの機能は、メールサーバーやクライアント端末のソフトウエア、ハードウエアあるいはソフトウエアとハードウエアとの組合せにより実施される。

　送信メール取得部１１０は、クライアント端末に搭載されたメールソフトにより作成されたＨＴＭＬ形式の電子メール、またはメールサーバーにクライアント端末からアップされた送信用の電子メールを取得する。

　特徴抽出部２２０は、上記文章解析システムの特徴抽出部１２０と同様に動作する。ここでは説明を容易にするため、特徴抽出部２２０は、ユーザーＸが通常の表現的特徴や構造的特徴で電子メールを記載したときの特徴を事前に学習しているものとする。従って、送信メール取得部２１０から取得された送信メールがユーザーＸにより記載されたものであれば、その送信メールの特徴は、学習された特徴と同一性を有するから、ユーザーＸが通常の表現的特徴や構造的特徴で記載した送信メールと識別されるが、ユーザーＸが特異な表現的特徴や構造的特徴によって記載されたもの、あるいは他人により記載されたものであれば、その送信メールの特徴は、学習された特徴と同一性を有していないから、ユーザーＸが特異な表現的特徴や構造的特徴によって記載したもの、または他人が記載したものと識別される。同一性を有するか否かは、図８で説明したように、閾値を越えるか否かによって判定される。

　異常メール検出部２４０は、同一性がないと判定されたとき、その送信メールを異常メールとして検出し、その検出結果を送信制御部２５０へ提供する。送信制御部２５０は、異常メールが検出された場合には、例えば、クライアント端末またはメールサーバーに対して当該送信メールの送信を停止または保留させ、送信できない旨の警告等をユーザーに知らせる。例えば、クライアント端末のディスプレイに送信停止を表示させるたり、音声案内をさせるようにしてもよい。他方、異常メールが検出されない場合には、クライアント端末またはメールサーバーに当該送信メールを送信させる。

　図１０は、送信メール監視システムの動作例を説明するフローチャートである。先ず、送信メール取得部２１０によって送信メールが取得され（Ｓ２００）、特徴抽出部２２０によって送信メールの本文の各文字が信号化され、一次元の時系列信号が生成され（Ｓ２０２）、時系列信号が正規化され（Ｓ２０６）、次いで、時系列信号から特徴が抽出される。次に、抽出された特徴と、学習された特徴との同一性の有無が判定され（Ｓ２０８）、同一性がある場合には、本人の普段通りの表現的特徴や構造的特徴によって記載された送信メールと判定され（Ｓ２１０）、送信メールが送信アドレスに向けて送信される（Ｓ２１２）。他方、同一性がない場合には、本人の特異な表現的特徴や構造的特徴によって記載された送信メールまたは本人以外の他人により記載された送信メールと判定され（Ｓ２２０）、送信メールの送信が停止される（Ｓ２２２）。

　このように、本実施例によれば、送信メールが普段の表現的特徴や構造的特徴によって記載されたものか否かを判定し、本人が特異な表現的特徴や構造的特徴によって記載した送信メールまたは本人以外が記載した送信メールである場合には、送信メールの送信を停止するようにしたもので、不正な送信メールによる情報漏洩を未然に防止することができる。

　次に、本実施例による文章解析システムの検証例について説明する。実験では、４種類のメールマガジンを評価に用いた。４種類のうち、１つのメールマガジンＡのみを学習させ、学習対象以外の３つを他者として識別できるか否かを評価した（つまり、図８に示すように、閾値を越えたものを特異な表現的特徴や構造的特徴を有するメールマガジンとして検出することができるか否かを評価）。また、４種類のメールマガジンを８か国の言語に翻訳し、言語が異なる場合の精度を検証した。

　実験では、１０００通のメールマガジンＡを学習させ、他の３種類の１００通のメールマガジンが他人と判断されるか否かを評価した。図１１には、各言語において、他人と判断されたか否かの確率が示されている。同図からも分かるように、メールマガジンＢ、Ｃ関しては、かなり良好な精度で識別されているが、メールマガジンＤに関しては、言語間の若干のバラツキがあることが分かる。これは、言語毎の素性の違いであり、例えば、日本語の文字数は、５０＋５０＋小文字＋漢字であり、英語は２６文字＋小文字であり、中国語および台湾語は、８７，０００であり（Unicode11）、フランス語は、２６＋小文字＋７であり、ヒンディー語は、１５６＋小文字であり、韓国語は、１１，１７２であり、フィンランド語は、２９＋小文字であり、言語によって文章の長さが異なったり、信号化のときの振幅などが異なるためであり、最終的に最適な正規化により精度を向上させることが可能である。

　次の実験は、社員３名のメールを評価するものである。ユーザーＡ、Ｂは、それぞれ営業の職種であり、ユーザーＣは、品質管理エンジニアの職種である。実験では、ユーザーＡが学習をさせた本人であり、ユーザーＢ、Ｃを他人として検知できたか否かの割合を図１２のグラフに示す。ユーザーＡ本人を他人（特異な表現的特徴や構造的特徴で記載されたメール）と検知した割合は、５．９５％であり、ユーザーＢ、Ｃを他人（表現的特徴や構造的特徴で記載されたメール）と検知した割合は、それぞれ６２．００％、５１．００％であった。

　メールの場合、文章が短いと差異が表れ難くなり、その精度が低くなる傾向がある。また、職種が一部重複するため、両者の表現が類似し易いために差異が表れ難いと予想される。

　以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。

１００：文章解析システム
１１０：文章取得部
１２０：特徴抽出部
１３０：特徴記憶部
１４０：特異文章検出部
２００：送信メール監視システム
２１０：送信メール取得部
２２０：特徴抽出部
２３０：特徴記憶部
２４０：異常メール検出部
２５０：出力制御部

Claims

文章を解析する文章解析システムであって、
　文章データを取得する取得手段と、
　取得された文章データの文字を数値化することにより文章データを時系列信号に変換する変換手段と、
　変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納する特徴抽出手段と、
　前記特徴情報を用いて新たに取得された文章データの同一性を判定する判定手段と、
　を有する文章解析システム。
文章解析システムはさらに、前記判定手段の判定結果に基づき前記特徴情報と異なる特異文章を検出する検出手段を有する、請求項１に記載の文章解析システム。
前記変換手段は、予め用意された変換テーブルに基づき文字を数値データに変換する、請求項１に記載の文章解析システム。
前記変換手段は、前記時系列信号を最小値０と最大値１の範囲内に収まるように正規化する、請求項１または３に記載の文章解析システム。
前記変換手段は、設定された閾値を超える前記時系列信号の値を減衰し、減衰した時系列信号を正規化する、請求項１または４に記載の文章解析システム。
前記特徴抽出手段は、通常の表現的特徴や構造的特徴で記載された文章データの正規化された時系列信号から特徴を抽出し、抽出した特徴を用いて前記時系列信号の入力波形を再現する出力波形が得られるように特徴を学習する、請求項１または４に記載の文章解析システム。
前記特徴抽出手段は、オートエンコーダにより前記特徴情報を符号化する、請求項６に記載の文章解析システム。
前記特徴抽出手段は、ニューラルネットワークにより前記特徴情報を学習する、請求項７に記載の文章解析システム。
請求項１ないし８に記載の文章解析システムを含むメッセージ交換における特徴評価システムであって、
　前記検出手段は、前記判定手段の判定結果に基づき送信メールの異常を検出する、特徴評価システム。
特徴評価システムはさらに、送信メールの異常が検出された場合、当該送信メールの送信を停止する送信制御手段を含む、請求項９に記載の特徴評価システム。
特徴評価システムはさらに、前記送信制御手段により送信メールの送信が停止されたとき、送信メールの送信停止を通知する通知手段を含む、請求項１０に記載の特徴評価システム。
コンピュータ端末が実行する文章解析プログラムであって、
　文章データを取得するステップと、
　取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、
　変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、
　前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップと、
　を有する文章解析プログラム。
前記同一性を判定するステップは、前記特徴情報と異なる特異な表現的特徴または構造的特徴で記載された送信メールを識別する、請求項１２に記載の文章解析プログラム。
コンピュータ端末における文章解析方法であって、
　文章データを取得するステップと、
　取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、
　変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、
　前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップと、
　を有する文章解析方法。
前記同一性を判定するステップは、前記特徴情報と異なる表現的特徴および／または構造的特徴で記載された送信メールを識別する、請求項１４に記載の文章解析方法。