WO2021044475A1 - 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム - Google Patents

文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム Download PDF

Info

Publication number
WO2021044475A1
WO2021044475A1 PCT/JP2019/034402 JP2019034402W WO2021044475A1 WO 2021044475 A1 WO2021044475 A1 WO 2021044475A1 JP 2019034402 W JP2019034402 W JP 2019034402W WO 2021044475 A1 WO2021044475 A1 WO 2021044475A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
feature
sentence analysis
mail
feature information
Prior art date
Application number
PCT/JP2019/034402
Other languages
English (en)
French (fr)
Inventor
響 岡
美津夫 小島
彬 中橋
Original Assignee
アイマトリックスホールディングス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイマトリックスホールディングス株式会社 filed Critical アイマトリックスホールディングス株式会社
Priority to JP2021517726A priority Critical patent/JP7007693B2/ja
Priority to US17/639,866 priority patent/US20220343067A1/en
Priority to CN201980099692.0A priority patent/CN114341822B/zh
Priority to PCT/JP2019/034402 priority patent/WO2021044475A1/ja
Priority to EP19944297.1A priority patent/EP4027247A4/en
Publication of WO2021044475A1 publication Critical patent/WO2021044475A1/ja
Priority to US18/189,819 priority patent/US20230237258A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems

Definitions

  • the present invention relates to a text analysis system and a feature evaluation system for message exchange using the text analysis system.
  • sample data in which a character string or the like is described is signalized as n-valued sample data (n is a natural number of 2 or more), and n-valued sample data and n-valued input are obtained. It discloses a technique for calculating the similarity with data and identifying whether or not the input data is spam mail based on the calculated similarity.
  • the purpose of processing a message written in natural language is not only to understand the content but also to acquire the characteristics of the message creator.
  • the characteristics of message creators are also utilized in the field of information security.
  • Information leakage due to obstruction of operation of computer devices and electronic devices using messages, information fraud, fraudulent acts against users, etc. is a big problem, and there is a high demand for information leakage prevention by message analysis, and in addition, it is high speed. Processing is also required.
  • the other is erroneous transmission by the user. For example, you can send a message to an unknown destination, use a topic or term that you don't normally deal with, or attach a file that you don't normally attach. A common feature of these is that they are accompanied by unusual behavior. Therefore, it is possible to prevent information leakage due to message exchange by detecting the peculiarity existing in the message at high speed and paying attention before transmission.
  • an object of the present invention is to provide a sentence analysis system capable of detecting a sentence having peculiar expressive features and structural features at a lower cost and at a higher speed than before. Furthermore, an object of the present invention is to provide a message feature evaluation system that detects the peculiarity of the text in message exchange.
  • the present invention realizes a system capable of processing a wide variety of languages by a single algorithm.
  • the sentence analysis system of the present invention can be applied to the detection of features and exceptions of spoken words and sentences. According to the present invention, it is possible to detect extraordinary ideas buried in mediocre ideas and a small number of intentions in a large number, including the discovery of differences in meaning, misunderstandings, injustices and their signs caused by wording errors and irregularities. It becomes.
  • the sentence analysis system of the present invention can be used in a wide variety of ways. Cross.
  • the sentence analysis system for analyzing a sentence is converted into an acquisition means for acquiring sentence data and a conversion means for converting sentence data into a time-series signal by digitizing the characters of the acquired sentence data. It has a feature extraction means for extracting feature information from a time-series signal and storing the extracted feature information, and a determination means for determining the identity of newly acquired text data using the feature information.
  • the sentence analysis system further includes a detection means for detecting a peculiar sentence different from the feature information based on the determination result of the determination means.
  • the conversion means converts characters into numerical data based on a pre-prepared conversion table.
  • the conversion means normalizes the time series signal so that it falls within the range of a minimum value of 0 and a maximum value of 1.
  • the conversion means attenuates the value of the time series signal that exceeds a set threshold and normalizes the attenuated time series signal.
  • the feature extraction means extracts features from a normalized time-series signal of text data described in normal expressive or structural features and uses the extracted features to use the time-series signal. Learn the features so that an output waveform that reproduces the input waveform of.
  • the feature extraction means encodes the feature information with an autoencoder.
  • the feature extraction means learns the feature information by a neural network.
  • the feature evaluation system in the message exchange includes the sentence analysis system described above, and the detection means detects the specificity of the message based on the determination result of the determination means.
  • the feature evaluation system in the message exchange includes transmission control means for stopping the transmission of the outgoing mail when the peculiarity of the outgoing mail is detected.
  • the feature evaluation system in the message exchange further includes a notification means for notifying the transmission of the outgoing mail when the transmission of the outgoing mail is stopped by the transmission control means.
  • the sentence analysis program executed by the computer terminal according to the present invention has been converted into a step of acquiring sentence data and a step of converting the sentence data into a time-series signal by digitizing the characters of the acquired sentence data. It has a step of extracting feature information from a time-series signal and storing the extracted feature information, and a step of determining the identity of newly acquired sentence data using the feature information.
  • the step of determining identity identifies an outgoing email described with a unique expressive or structural feature that is different from the feature information.
  • the sentence analysis method in the computer terminal includes a step of acquiring sentence data, a step of converting sentence data into a time-series signal by digitizing the characters of the acquired sentence data, and a converted time-series. It has a step of extracting feature information from a signal and storing the extracted feature information, and a step of determining the identity of newly acquired text data using the feature information.
  • the step of determining identity identifies an outgoing email described with expressive or structural features that differ from the feature information.
  • the text data is converted into a time-series signal, it is possible to reduce the cost without requiring morphological analysis of the text and dictionary data for that purpose. Furthermore, by determining the identity of the text data based on the feature information extracted from the time-series signal, it is possible to easily determine whether or not the text is the text of the person himself / herself. Further, according to the present invention, by detecting the peculiarity of the sent mail, it is possible to prevent information leakage by stopping the transmission of the abnormal sent mail.
  • FIG. 1st Example of this invention It is a block diagram which shows the structure of the sentence analysis system which concerns on 1st Example of this invention. It is a block diagram which shows the internal structure of the feature extraction part shown in FIG. It is an example of a part of Unicode. It is a figure which shows the example which the e-mail is acquired as the text data, and the time series signal of the e-mail is normalized. It is a flowchart explaining the operation example of the signal normalization by the Example of this invention. It is a figure explaining the feature extraction from the input by the signal classification part by the Example of this invention. It is a figure explaining the outline of the autoencoder by the Example of this invention. It is a figure which shows the example of the classification by the threshold value by a signal classification part.
  • the sentence analysis system can be applied to any electronic device (for example, a computer device, a mail server, a client terminal, a smartphone, etc.) having a function of electronically processing a sentence.
  • electronic device for example, a computer device, a mail server, a client terminal, a smartphone, etc.
  • FIG. 1 is a diagram showing a configuration example of a sentence analysis system according to an embodiment of the present invention.
  • the sentence analysis system 100 is extracted by a sentence acquisition unit 110 that acquires sentence data, a feature extraction unit 120 that extracts features of the sentence data acquired by the sentence acquisition unit 110, and a feature extraction unit 120. It is configured to include a feature storage unit 130 that stores the features, and a peculiar sentence detection unit 140 that detects a peculiar sentence based on the features of the feature extraction unit 120 or the feature storage unit 130.
  • the sentence analysis system 100 is implemented by software, hardware such as a mail server or a client terminal, or a combination of software and hardware.
  • the sentence acquisition unit 110 acquires sentence data (for example, e-mail) created by the user.
  • sentence data for example, e-mail
  • the text data is an e-mail, for example, an HTML format e-mail created by the mail software installed in the client terminal, or an e-mail sent from the client terminal to the mail server via the Internet, or a message.
  • the email in the exchange system is retrieved.
  • the text acquisition unit 110 can acquire text data created by a plurality of users. Further, in order to give the sentence analysis system 100 a learning function in advance, the sentence data acquired by the sentence acquisition unit 110 is a normal sentence created by the user with normal behavior, that is, normal expressional features or structural features. It is data, and the feature extraction unit 120 extracts features included in normal text data created by the user's normal expressive features or structural features, and learns the features of the user's text. After training the sentence analysis system 100, the sentence acquisition unit 110 acquires arbitrary sentence data, and the sentence analysis system 100 creates the features of the arbitrary sentence data by ordinary expressive features or structural features. Identify whether or not it matches the characteristics of the text. For example, even if the text is created by the person himself / herself, it is possible to identify whether or not the text is created by ordinary expressive or structural features, or whether the text is created by a person other than the person himself / herself. To identify.
  • FIG. 2 shows the internal configuration of the feature extraction unit 120.
  • the feature extraction unit 120 receives the sentence data acquired by the sentence acquisition unit 110, and signals the characters described in the sentence into a time-series signal and a character signalization unit 122, and the character signalization unit 122. It has a normalization unit 124 that normalizes time-series signals and a signal classification unit 126 that classifies the normalized signals.
  • the character signal conversion unit 122 converts a series of characters described in a sentence into a one-dimensional time series signal.
  • the character signaling unit 122 converts one character of a sentence into numerical data based on Unicode.
  • Unicode is one of the international standards for character codes, and characters, numbers, symbols, etc. in various languages around the world are assigned to the codes.
  • FIG. 3 illustrates a partial excerpt of Unicode.
  • Unicode encodes ASCII, Kanji, Arabic, Greek symbols, etc. into binary data with 16 bits or more.
  • the character signaling unit 122 has a data amount of the number of bits per numerical value obtained by converting one character ⁇ the number of characters. Further, the character signalizing unit 122 may convert the fixed-length data into one continuous data without a break, or may convert the fixed-length data into variable-length data.
  • a conversion table that uniquely defines the relationship between characters, idioms, phrases, etc. and numerical data is prepared in advance, and the character signaling unit 122 uses such a conversion table to describe each sentence. Characters, idioms, etc. may be converted into numerical data.
  • the character signaling unit 122 converts from the first character to the last character of the sentence into numerical data. For example, in the case of a sentence having a size of P rows ⁇ Q columns (P and Q are arbitrary integers), a time series signal including binary data corresponding to the number of characters of P ⁇ Q is generated. Characters here are concepts that include natural language characters, numbers, symbols, figures, and spaces that do not represent such characters. For example, in the case of horizontal writing, characters are scanned sequentially from left to right or right to left from the first line to the last line, or in the case of vertical writing, from top to bottom or from top to last line. Characters are sequentially scanned from bottom to top and converted into numerical data from the first character to the last character. The scanning direction can be arbitrarily determined. If the page information (number of lines, number of characters in one line, etc.) that composes the text data is required, the page information is acquired at the same time, and the page information is referred to to identify the first character to the last character. May be good.
  • the time-series signal of the sentence generated by the character signalizing unit 122 in this way can be regarded as an aperiodic waveform created by the characters of the sentence, and the words and idioms contained in the sentence appear as a waveform pattern there.
  • the time-series signal will include a waveform pattern corresponding to " ⁇ ".
  • a waveform pattern representing the usual expressive or structural features is also included when the user writes sentences in polite language, makes heavy use of punctuation marks, makes heavy use of specific conjunctions, and so on. It will be.
  • Such a waveform pattern is one feature for identifying a user.
  • the character signalizing unit 122 Since the character signalizing unit 122 according to this embodiment signals characters based on Unicode or a conversion table, it does not depend on a specific language and can be applied to multiple languages. Can be expressed by the difference between. Further, since the character signalizing unit 122 does not perform morphological analysis or syntactic analysis of sentences, a dictionary such as a corpus is unnecessary, and the cost can be reduced.
  • the signal normalization unit 124 normalizes the time series signal generated by the character signalization unit 122.
  • each number that produces a time-series signal represents a discrete value, and the range of that value can be very large. Therefore, the signal normalization unit 124 performs a process of suppressing outliers of the time-series signal and a process of normalizing the range.
  • the outlier suppression process attenuates a numerical value that exceeds a set threshold value.
  • processing is performed by the following equation.
  • Avg is the average
  • std is the standard deviation
  • x is the target value (here, the numerical value of the time series signal)
  • rate is the attenuation factor
  • d is the purpose of raising the overall value. It is a coefficient to be multiplied by the numerical value to be added.
  • the threshold value is set inside by a minute amount d from a point ⁇ away from the average value as described above (
  • the range is normalized for the signal that has been processed to suppress outliers.
  • (variance (std) 1 and mean (avg) 0 are normalized, and then the minimum value is 0 and the maximum value is 1 again, and the time series signal is kept in the range of 0 to 1.
  • No. 4 is an example in which when an e-mail is acquired as text data, the characters in the e-mail body of the e-mail are converted into a time-series signal, and the time-series signal is normalized so as to converge in the range of 0 to 1. Shown.
  • each character of the sentence acquired by the character signalizing unit 122 is digitized based on Unicode (S100).
  • the signal normalization unit 124 multiplies the numerical value of the time series signal by an integer to expand the waveform (S102). This is corrected because the characters are adjacent to each other depending on the language.
  • the signal normalization unit 124 performs the outlier suppression process as described above (S104). In the outlier suppression process, the numerical value exceeding the threshold value is attenuated, but this attenuation may be performed in a plurality of times (S106). Further, the number of attenuations may be adjusted according to the data.
  • the signal normalization unit 124 normalizes the variance and the average, and then normalizes them to the minimum value 0 and the maximum value 1. If the variance value is not below a certain threshold, the processes of steps S104 to S108 are repeated. An upper limit may be set for the number of times of this repetition.
  • the signal classification unit 126 receives the normalized time series signal from the signal normalization unit 124, and extracts the features included in the time series signal.
  • the extracted feature can reproduce the input, and the signal classification unit 126 learns this feature.
  • sentence data described with ordinary expressive features or structural features is learned. For example, a feature is extracted from the normalized input waveform as shown in FIG. 6, and the feature is learned by using the extracted feature so that an output waveform that substantially reproduces the input waveform can be obtained.
  • the signal classification unit 216 reduces the dimension of features and suppresses the amount of information by an autoencoder using a neural network.
  • FIG. 7 shows the concept of an autoencoder using a neural network.
  • the autoencoder is configured with only fully coupled layers, includes four encoder layers and four decoder layers, and the width of each layer of the neural network is variable according to the length of the signal converted from the string. is there.
  • the encoder compresses the feature by reducing the unwanted dimensions of the input, and the decoder reproduces the input from the compressed feature.
  • the neural network adjusts the weights of the encoder and the decoder by the learning function. In this example, the neural network reproduces the input in a symmetric configuration and the input is fixed length.
  • the signal classification unit 126 has a function of inspecting the reproducibility of the output waveform. Specifically, the distance between each point in the two time series of the input waveform and the output waveform as shown in FIG. 6 is brute-forced, and the path in which the distance between the two time series is the shortest is detected. This path becomes the DTW distance (Dynamic Time Warping). Although there are some errors in the reproduced waveform, this inspection is resistant to phase shifts. This DTW distance is used to measure the reproducibility of new data after the training model is determined. The new data here is new sentence data, and the sentence analysis system 100 determines whether or not the sentence is unique.
  • DTW distance Dynamic Time Warping
  • the signal classification unit 216 calculates a threshold value for classifying waveforms.
  • the evaluation data that is, the features compressed by the autoencoder extracted from the sentences described by the usual expressive features and structural features (this is the weight of the autoencoder, for example, the neuron 1).
  • Each one appears as a coefficient of the mathematical formula that it has inside) to calculate the identity, obtain the median and standard deviation of the identity, and calculate the threshold value from the following equation.
  • This threshold means that when the waveform has a substantially normalized distribution, approximately 95% of the waveform is included in the range of the median value to the standard change ⁇ 2.
  • Threshold median-standard deviation x 2
  • FIG. 8 shows an example of classification by threshold value.
  • the broken line graph is the text of the trained user, and the solid line is the text of another person.
  • the threshold value of the feature is 5.8, and a sentence having more features is detected as a sentence of another person.
  • the feature storage unit 130 stores features and their thresholds by the feature extraction unit 120. Whenever sentence data is learned, the features and thresholds are updated.
  • the peculiar sentence detection unit 140 detects a peculiar sentence by using the learning result after the pre-learning by the feature extraction unit 120 is completed. That is, an arbitrary sentence A is acquired by the sentence acquisition unit 110, and the feature extraction unit 120 extracts the feature of the sentence A.
  • the signal classification unit 126 compares the feature extracted from the sentence A with the threshold value stored in the feature storage unit 130, and if the feature is equal to or more than the threshold value, determines the sentence A as a peculiar sentence.
  • This determination result is provided to the peculiar sentence detection unit 140, and the peculiar sentence detection unit 140 detects the sentence A determined to be a peculiar sentence as not being a sentence described by ordinary expressive features or structural features. .. For example, it is presumed that the sentence is written by a user other than the person himself / herself, or the sentence is written by a peculiar expressive feature or structural feature by the person himself / herself.
  • FIG. 9 shows an example in which the text analysis system of this embodiment is applied to an outgoing mail monitoring system.
  • the outgoing mail monitoring system 200 is realized, for example, in a mail server or a client terminal (computer device, mobile device, etc.) having a mail sending / receiving function.
  • the outgoing mail monitoring system 200 includes an outgoing mail acquisition unit 210 that acquires an outgoing mail created by a user, a feature extraction unit 220 that extracts the characteristics of the outgoing mail acquired by the outgoing mail acquisition unit 210, and the extracted features.
  • the sent mail acquisition unit 110 acquires the HTML format e-mail created by the mail software installed in the client terminal or the e-mail for sending uploaded from the client terminal to the mail server.
  • the feature extraction unit 220 operates in the same manner as the feature extraction unit 120 of the sentence analysis system.
  • the feature extraction unit 220 has learned in advance the features when the user X describes the e-mail with the usual expressive features and structural features. Therefore, if the outgoing mail acquired from the outgoing mail acquisition unit 210 is described by the user X, the characteristics of the outgoing mail have the same as the learned characteristics, so that the user X is a normal expression. It is identified as an outgoing mail described by features and structural features, but if User X is described by a unique expressive feature or structural feature, or by another person, the characteristics of the outgoing mail. Is not identical to the learned features, so it is identified as being described by User X by a unique expressive or structural feature, or by someone else. Whether or not they have the sameness is determined by whether or not the threshold value is exceeded, as described with reference to FIG.
  • the abnormal mail detection unit 240 detects the transmitted mail as an abnormal mail and provides the detection result to the transmission control unit 250.
  • the transmission control unit 250 causes, for example, the client terminal or the mail server to stop or suspend the transmission of the transmitted mail, and notifies the user of a warning that the transmitted mail cannot be transmitted.
  • the display of the client terminal may be displayed to stop transmission, or voice guidance may be provided.
  • the client terminal or mail server is made to send the sent mail.
  • FIG. 10 is a flowchart illustrating an operation example of the outgoing mail monitoring system.
  • the sent mail is acquired by the sent mail acquisition unit 210 (S200), each character in the body of the sent mail is signalized by the feature extraction unit 220, and a one-dimensional time series signal is generated (S202). Is normalized (S206), and then features are extracted from the time series signal.
  • S208 the presence or absence of identity between the extracted features and the learned features was determined (S208), and if there was identity, it was described by the person's usual expressive features and structural features. It is determined to be a sent mail (S210), and the sent mail is sent to the sending address (S212). On the other hand, if there is no identity, it is determined that the sent mail is described by the person's peculiar expressive or structural features or the sent mail described by another person other than the person (S220), and the sent mail is sent. It is stopped (S222).
  • the sent mail is described by the usual expressive features and structural features, and the person himself / herself describes the transmission according to the unique expressive features and structural features.
  • the transmission of the sent e-mail is stopped, so that information leakage due to an unauthorized sent e-mail can be prevented.
  • FIG. 11 shows the probability of being judged as another person in each language.
  • the e-mail newsletters B and C are identified with fairly good accuracy, but the e-mail newsletter D has some variations between languages. This is a difference in the characteristics of each language. For example, the number of characters in Japanese is 50 + 50 + lowercase + Chinese characters, English is 26 characters + lower rank, and Chinese and Taiwanese are 87,000 (Unicode11).
  • the next experiment evaluates the emails of three employees. Users A and B are sales occupations, respectively, and user C is a quality control engineer occupation.
  • the graph of FIG. 12 shows the ratio of whether or not the user A is the person who trained and the users B and C could be detected as others.
  • the ratio of detecting user A as another person is 5.95%, and users B and C are described with others (expressive features and structural features).
  • the percentages detected as (emails received) were 62.00% and 51.00%, respectively.
  • Sentence analysis system 110 Sentence acquisition unit 120: Feature extraction unit 130: Feature storage unit 140: Singular sentence detection unit 200: Sent mail monitoring system 210: Sent mail acquisition unit 220: Feature extraction unit 230: Feature storage unit 240: Abnormal mail detection unit 250: Output control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 低コストでありかつ表現的特徴または構造的特徴の文章を検出することができる文章解析システムを提供することを目的とする。 【解決手段】 本発明に係る文章解析システム100は、文章データを取得する文章取得部110と、文章取得部110で取得された文章データを時系列信号に変換し、変換された時系列信号から特徴を抽出する特徴抽出部120と、特徴抽出部120により抽出された特徴を記憶する特徴記憶部130と、特徴記憶部130の特徴に基づき特異文章を検出する特異文章検出部140とを備えて構成される。

Description

文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム
 本発明は、文章解析システムおよびこれを用いたメッセージ交換における特徴評価システムに関する。
 人間が情報伝達に用いる自然言語を計算機に理解させる試みを自然言語理解という。自然言語理解を用いる情報処理システムは文章の自動翻訳や音声応答システム、ロボティクス、セキュリティなどの分野で広く用いられている。インターネット技術の発達により、多国間の文化やビジネスの交流が容易になり、多種多様な言語あるいは混用された多国語をリアルタイムで扱わなければならない。多国語を扱う例として、インターネット上でのメッセージ交換の一種である電子メールシステムにおいては、スパムやウィルス等の不正なメッセージを検出するためのフィルタリング機能に、あらかじめ用意した多種多様な言語による定義ファイルとの効率的なマッチングシステム搭載したサーバーや端末装置が実用化されている。例えば、特許文献1は、文字列等が記載されたサンプルデータをn値化(nは、2以上の自然数)のサンプルデータに信号化し、n値化されたサンプルデータとn値化された入力データとの類似度を算出し、算出された類似度に基づき入力データをスパムメールか否かを識別する技術を開示している。
特許第6267830号公報
 インターネット技術の発展に伴って多国間の文化やビジネスの交流が活発となり、情報処理システムは多種多様な言語の処理への対応が求められる。さらに、インターネット上のメッセージ交換システムの一種である電子メールシステムでは、多種多様な言語の扱いに加えて大量のトラフィックを実時間で処理するパフォーマンスが必要となる。しかし、自然言語理解には単純なマッチングテーブルだけではない膨大なデータと、構文論や意味論に基づく複雑な解析を要する。
  自然言語で書かれたメッセージを処理する目的は、内容の理解だけでなく、メッセージ作成者の特徴の取得も考えられる。メッセージ作成者の特徴は情報セキュリティの分野でも活用されている。メッセージを利用したコンピュータ装置や電子機器の動作の阻害、情報の詐取、利用者への詐欺行為等による情報漏洩は大きな問題であり、メッセージ解析による情報漏洩防止の需要は高く、加えて、高速な処理も求められる。メッセージによる情報流出には、大きく2種ある。1つは、悪意のあるユーザーによる意図的な流出である。例えば、不正への協力者がメッセージツールなどで情報を外部に送信したり、コンピュータにマルウエアなどの不正プログラムを感染させ、外部のコンピュータに情報を外部に漏洩させたりする。もう1つは、ユーザーによる誤送信である。例えば、未知の宛先にメッセージを送信したり、普段は扱わない話題や用語を用いたり、通常は添付しないファイルを添付したりする。これらに共通する特徴として普段とは異なった行動が伴うことが挙げられる。それ故、メッセージに存在する特異性を高速に検出し、送信前に注意することによって、メッセージ交換による情報流出を防止することが可能である。
 本発明は、上記の実情に鑑み、従来よりも低コストで高速に特異な表現的特徴および構造的特徴を持つ文章を検出することができる文章解析システムの提供を目的とする。
 さらに本発明は、メッセージ交換における本文の特異性を検出するメッセージの特徴評価システムの提供を目的とする。
 本発明は、多種多様な言語を、単一のアルゴリズムによって処理できるシステムを実現する。本発明である文章解析システムは、話し言葉や文章の持つ特徴や例外の検出への適用が可能である。本発明によって、文言の誤謬や不規則性に起因する趣旨の相違、誤解、不正やそれらの兆候の発見をはじめ、凡庸なアイデアの中に埋もれる非凡なアイデアや、多数における少数の意思を検出可能となる。話し言葉や文章の持つ表現的特徴および構造的特徴を抽出し、それらと異なる特徴の話し言葉や文章を比較検出する、もしくはその反対の手法を用いることで、本発明の文章解析システムの使途は多岐に渡る。
 話し言葉や文章が持つ表現的特徴や構造的特徴の比較により発生を検知できるものの具体例として電子メールシステムにおける情報漏洩を考える。スパムメールやウィルスメール等不正メッセージを識別する方法の多くは、メッセージ本文の形態素解析による結果や、URL、送信アドレスを含むヘッダ情報の特徴を検出し、あらかじめ定義した不正メッセージの判断基準(不正用語、アドレス、URL、通過経路、送信量等)や、普段当事者間で交わされるメールの特徴との相違点を比較することにより識別するものである。URLやヘッダは形式的な情報を持つため、判断基準の定義はメッセージ本文と比較して容易であるが、これら特徴は遅々刻々と変更され、高精度のフィルタリングが難しい側面がある。そのため、URL、ヘッダ情報に併せて、メッセージ本文の解析に基づく検出も求められるが、不正メッセージ内に含まれる言語は多か国語にわたり、形態素解析や分かち書き処理を多言語に対応するには、各言語に対応した辞書が必要となる。言語の多様性により、拡張性の低下や、実時間処理を要求されるシステムの処理速度が著しく低下する懸念がある。それらを回避するためにはシステム装置が膨大になりコストが増加してしまう。それ故、低コストで、多種多様な言語への拡張性を持つ本発明の文章解析手法での解決が見込める。
 本発明に係る文章を解析する文章解析システムは、文章データを取得する取得手段と、取得された文章データの文字を数値化することにより文章データを時系列信号に変換する変換手段と、変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納する特徴抽出手段と、前記特徴情報を用いて新たに取得された文章データの同一性を判定する判定手段とを有する。
 ある実施態様では、文章解析システムはさらに、前記判定手段の判定結果に基づき前記特徴情報と異なる特異文章を検出する検出手段を有する。ある実施態様では、前記変換手段は、予め用意された変換テーブルに基づき文字を数値データに変換する。ある実施態様では、前記変換手段は、前記時系列信号を最小値0と最大値1の範囲内に収まるように正規化する。ある実施態様では、前記変換手段は、設定された閾値を超える前記時系列信号の値を減衰し、減衰した時系列信号を正規化する。ある実施態様では、前記特徴抽出手段は、通常の表現的特徴や構造的特徴で記載された文章データの正規化された時系列信号から特徴を抽出し、抽出した特徴を用いて前記時系列信号の入力波形を再現する出力波形が得られるように特徴を学習する。ある実施態様では、前記特徴抽出手段は、オートエンコーダにより前記特徴情報を符号化する。ある実施態様では、前記特徴抽出手段は、ニューラルネットワークにより前記特徴情報を学習する。
 本発明に係るメッセージ交換における特徴評価システムは、上記記載の文章解析システムを含み、前記検出手段は、前記判定手段の判定結果に基づきメッセージの特異性を検出する。ある実施態様では、メッセージ交換における特徴評価システムは、送信メールの特異性が検出された場合、当該送信メールの送信を停止する送信制御手段を含む。ある実施態様では、メッセージ交換における特徴評価システムはさらに、前記送信制御手段により送信メールの送信が停止されたとき、送信メールの送信停止を通知する通知手段を含む。
 本発明に係るコンピュータ端末が実行する文章解析プログラムは、文章データを取得するステップと、取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップとを有する。ある実施態様では、前記同一性を判定するステップは、前記特徴情報と異なる特異な表現的特徴または構造的特徴で記載された送信メールを識別する。
 本発明に係るコンピュータ端末における文章解析方法は、文章データを取得するステップと、取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップとを有する。ある実施態様では、前記同一性を判定するステップは、前記特徴情報と異なる表現的特徴や構造的特徴で記載された送信メールを識別する。
 本発明によれば、文章データを時系列信号に変換するようにしたので、文章の形態素解析や、そのための辞書データを必要とせず、低コスト化を図ることができる。さらに時系列信号から抽出した特徴情報に基づき文章データの同一性を判定することで、本人の文章か否かの判定を容易に行うことができる。さらに、本発明によれば、送信メールの特異性を検出することで、異常な送信メールの送信を停止させることで情報漏洩を未然に防止することができる。
本発明の第1の実施例に係る文章解析システムの構成を示すブロック図である。 図1に示す特徴抽出部の内部構成を示すブロック図である。 ユニコードの一部の例示である。 文章データとして電子メールが取得され、その電子メールの時系列信号が正規化された例を示す図である。 本発明の実施例による信号正規化の動作例を説明するフローチャートである。 本発明の実施例による信号分類部による入力からの特徴抽出を説明する図である。 本発明の実施例によるオートエンコーダの概要を説明する図である。 信号分類部による閾値による分類の例を示す図である。 本発明の第2の実施例に係る送信メール監視システムの構成を示すブロック図である。 本発明の第2の実施例に係る送信メール監視システムの動作を説明するフローチャートである。 本発明の実施例による実験結果を示すグラフである。 本発明の実施例による実験結果を示すグラフである。
 次に、本発明に係る文章解析システムは、文章を電子的に処理する機能を備えたあらゆる電子装置(例えば、コンピュータ装置、メールサーバー、クライアント端末、スマートフォンなど)に適用することができる。
 図1は、本発明の実施例に係る文章解析システムの構成例を示す図である。本実施例に係る文章解析システム100は、文章データを取得する文章取得部110と、文章取得部110で取得された文章データの特徴を抽出する特徴抽出部120と、特徴抽出部120により抽出された特徴を記憶する特徴記憶部130と、特徴抽出部120または特徴記憶部130の特徴に基づき特異文章を検出する特異文章検出部140とを備えて構成される。
 文章解析システム100は、メールサーバーやクライアント端末等のソフトウエア、ハードウエアあるいはソフトウエアとハードウエアとの組合せにより実施される。文章取得部110は、ユーザーによって作成された文章データ(例えば、電子メールなど)を取得する。文章データが電子メールである場合には、例えば、クライアント端末に搭載されたメールソフトによって作成されたHTML形式の電子メール、あるいはインターネットを介してクライアント端末からメールサーバーへ送信された電子メール、あるいはメッセージ交換システムにおける電子メールが取得される。
 文章取得部110は、複数のユーザーによって作成された文章データを取得することが可能である。また、文章解析システム100に事前に学習機能を持たせるため、文章取得部110によって取得される文章データは、ユーザーが通常の振る舞いすなわち通常の表現的特徴または構造的特徴によって作成された正常な文章データであり、特徴抽出部120は、ユーザーの通常の表現的特徴または構造的特徴によって作成された正常な文章データに含まれる特徴を抽出し、ユーザーの文章の特徴を学習する。文章解析システム100に学習させた後、文章取得部110は、任意の文章データを取得し、文章解析システム100は、当該任意の文章データの特徴が通常の表現的特徴または構造的特徴によって作成された文章の特徴に一致するか否かを識別する。例えば、本人が作成した文章であっても、それが通常の表現的特徴または構造的特徴によって作成されたものか否かを識別したり、あるいは、本人以外の者によって作成された文章か否かを識別する。
 図2に、特徴抽出部120の内部構成を示す。特徴抽出部120は、文章取得部110で取得された文章データを受け取り、文章に記載された文字を時系列信号に信号化する文字信号化部122と、文字信号化部122で信号化された時系列信号の正規化を行う正規化部124と、正規化された信号を分類する信号分類部126とを有する。
 文字信号化部122は、文章に記載された文字の連続を一次元的な時系列信号に変換する。1つの好ましい例では、文字信号化部122は、ユニコード(Unicode)に基づき文章の1文字、1文字を数値データに変換する。ユニコードは、文字コードの国際的な標準の一つであり、世界中の様々な言語の文字、数字、記号等がコードに割り当てられている。図3にユニコードの一部抜粋を例示する。ユニコードは、ASCII、漢字、アラビア語、ギリシャ記号などを16ビットまたはそれ以上のビット数で2値データに符号化している。文字信号化部122は、1文字を変換した1数値当たりのビット数×文字数のデータ量を持つことになる。また、文字信号化部122は、固定長のデータを切れ目のない1つの連続データに変換してもよいし、可変長のデータに変換してもよい。
 他の方法として、文字、熟語、句などと数値データとの関係を一義的に規定した変換テーブルを予め用意しておき、文字信号化部122は、そのような変転テーブルを用いて文章の各文字や熟語等を数値データに変換するようにしてもよい。
 文字信号化部122は、文章の先頭の文字から末尾の文字までを数値データに変換する。例えば、P行×Q列(P、Qは、任意の整数)のサイズの文章であれば、P×Qの文字数に対応する2値データを含む時系列信号が生成される。ここでの文字は、自然言語である文字、数字、記号、図形、そのような文字等が表されていない空白(スペース)を含む概念である。例えば、横書きの文章であれば、先頭行から最終行まで左から右へあるいは右から左へ文字を順次走査し、あるいは縦書きの文章であれば、先頭行から最終行まで上から下にあるいは下から上に文字を順次走査し、先頭文字から最終文字まで数値データに変換する。走査する方向は任意に決定することができる。もし、文章データを構成するページ情報(行数、1行の文字数など)が必要であれば、同時にページ情報を取得し、ページ情報を参照して先頭文字から最終文字までを識別するようにしてもよい。
 こうして文字信号化部122によって生成された文章の時系列信号は、文章の文字が作る非周期波形とみなすことができ、文章に含まれる単語や熟語は、そこに波形パターンとして表れる。例えば、ユーザーが、「○○」という単語や熟語を頻繁に使用する場合には、時系列信号には、「○○」に対応する波形パターンが含まれることになる。あるいは、通常の表現的特徴または構造的特徴において、ユーザーが、丁寧語で文章を記載したり、句読点を多用したり、特定の接続詞を多用する場合等にも、それらを表す波形パターンが含まれることになる。このような波形パターンは、ユーザーを識別するための1つの特徴である。
 本実施例による文字信号化部122は、ユニコードもしくは変換テーブルに基づき文字を信号化するため、特定の言語に依存せず、多言語に適用可能であり、言語の違いを、時系列信号の波形の違いで表わすことができる。さらに文字信号化部122は、文章の形態素解析や構文解析を行わないため、コーパス等の辞書が不要であり、コストを削減することができる。
 信号正規化部124は、文字信号化部122によって生成された時系列信号を正規化する。ユニコードにより文字を数値化した際、時系列信号を生成する各数値は離散的な値を表し、その値の範囲が非常に大きくなる場合があり得る。そこで、信号正規化部124は、時系列信号の外れ値を抑え込む処理と、値域の正規化処理とを行う。
 外れ値抑え込み処理は、設定された閾値を越える数値を減衰させる。例えば、次式により処理を行う。「avg」は平均、「std」は標準偏差、「x」は対象となる値(ここでは、時系列信号の数値)、「rate」は減衰率、「d」は値全体を底上げする目的で加算する数値に乗じる係数である。
Figure JPOXMLDOC01-appb-M000001
 閾値(threshold)は、上記のように平均値からσ離れた地点から微小量dの分内側に設定される(|標準偏差-平均値|×(1-d))。つまり、平均値からの離れ具合を基準にするため、目的の値に対しても平均値との離れ具合|x-avg|で場合分けされる。
 次に、外れ値抑え込み処理された信号について、値域の正規化処理が成される。値域の正規化処理では、(分散(std)1、平均(avg)0に正規化し、その後、最小値0、最大値1に再び正規化し、時系列信号を0~1の範囲に収める。図4は、文章データとして電子メールが取得されたとき、電子メールのメール本文の文字が時系列信号に変換され、さらに時系列信号が0~1の範囲に収束するように正規化された例を示している。
 本実施例の信号正規化部124の1つの動作例を図5のフローチャートに示す。先ず、文字信号化部122によって取得された文章の各文字がユニコードに基づき数値化される(S100)。次に、信号正規化部124は、時系列信号の数値を整数倍し、波形を拡張する(S102)。これは、言語によって文字同士が隣接するため、これを是正する。次に、信号正規化部124は、上記したように外れ値の抑え込み処理を行う(S104)。外れ値の抑え込み処理では、閾値を越える数値が減衰されるが、この減衰を複数回に分けて行うようにしてもよい(S106)。また、減衰の回数は、データによって調整されるようにしてもよい。次に、信号正規化部124は、分散と平均を正規化した後、最小値0、最大値1に正規化する。分散の値が一定閾値を下回っていなければ、ステップS104~S108の処理が繰り返される。この繰り返しの処理回数には、上限を設定するようにしてもよい。
 次に、信号分類部126について説明する。信号分類部126は、信号正規化部124から正規化された時系列信号を受け取り、時系列信号に含まれる特徴を抽出する。抽出した特徴は、入力を再現することができるものであり、信号分類部126は、この特徴を学習する。但し、学習するのは、通常の表現的特徴または構造的特徴で記載された文章データのみである。例えば、図6に示すような正規化された入力波形から特徴を抽出し、この抽出した特徴を用いて、入力波形をほぼ再現する出力波形が得られるように、特徴を学習する。
 1つの好ましい態様では、信号分類部216は、ニューラルネットワークを利用したオートエンコーダにより、特徴の次元を削減し情報量を抑える。図7に、ニューラルネットワークを利用したオートエンコーダの概念を示す。好ましい態様では、オートエンコーダは、全結合層のみを用いて構成され、エンコーダ4層とデコーダ4層とを含み、ニューラルネットの各層の幅が文字列を変換した信号の長さに合わせて可変である。エンコーダは、入力の不要な次元を削減することで特徴を圧縮し、デコーダは、圧縮された特徴から入力を再現する。ニューラルネットワークは、学習機能により、エンコーダおよびデコーダのそれぞれの重みを調整する。本例では、ニューラルネットワークは、対称な構成で入力を再現し、入力は、固定長である。
 また、信号分類部126は、出力波形の再現度を検査する機能を備える。具体的には、図6に示すような入力波形と出力波形の2つの時系列の各点の距離を総当たりで比較し、2つの時系列同士の距離が最短となるパスを検出する。このパスが、DTW距離(Dynamic Time Warping)となる。再現波形では、多少の誤差がでるが、この検査は、位相のずれなどに強い。このDTW距離は、学習モデルを確定した後、新規データの再現度を測るために用いられる。ここでの新規データは、新規な文章データであり、本文章解析システム100によりユニークな文章か否かを判定されるものである。新規な文章データをオートエンコーダで処理し、入出力波形のDTW距離が閾値(後述する)を超える場合、再現度が低いとして、文章データをユニークなデータ(通常の表現的特徴や構造的特徴ではない)と判定される。この判定結果は、特異文章検出部140へ提供される。
 信号分類部216は、波形の分類を行うための閾値を算出する。具体的には、評価データ、すなわち、通常の表現的特徴や構造的特徴で記載された文章から抽出された、オートエンコーダによって圧縮された特徴(これは、オートエンコーダの重みとして、例えば、ニューロン1つ1つが内部に持つ数式の係数として表れる)を評価して同一性を算出し、同一性の中央値と標準偏差を求め、次式から閾値を算出する。この閾値は、波形が概ね正規化分布になる場合、中央値から標準変化×2の範囲内に概ね95%の波形が含まれことを意味する。
(数2)
 閾値=中央値-標準偏差×2
 なお、閾値は、上記式に限定されることなく、波形がより正規分布に近ければ、閾値=平均値-標準偏差×2(2σ)としてもよいし、他の計算式により波形の類似度を計算する場合には、当該計算式に基づく閾値とすることも可能である。
 図8に、閾値による分類例を示す。同図において、破線のグラフは、学習済みユーザーの文章であり、実線は、他者の文章である。本例では、特徴の閾値が5.8であり、これ以上の特徴をもつ文章が他者の文章として検知される。
 特徴記憶部130は、特徴抽出部120により特徴やその閾値を記憶する。文章データが学習された場合には、その都度、特徴や閾値を更新する。
 特異文章検出部140は、特徴抽出部120による事前学習が終了した後、その学習結果を利用して特異文章の検出を行う。つまり、文章取得部110によって任意の文章Aが取得され、特徴抽出部120は、文章Aの特徴を抽出する。信号分類部126は、文章Aから抽出された特徴と特徴記憶部130に記憶された閾値とを比較し、特徴が閾値以上であれば、文章Aを特異文章と判定する。この判定結果は、特異文章検出部140へ提供され、特異文章検出部140は、特異文章と判定された文章Aを、通常の表現的特徴や構造的特徴によって記載された文章ではないとして検出する。例えば、本人以外の別のユーザーによって記載された文章、あるいは、本人による特異な表現的特徴や構造的特徴によって記載された文章であると推測される。
 次に、本実施例の文章解析システムを送信メール監視システムに応用した例を図9に示す。送信メール監視システム200は、例えば、メールの送信や受信機能を備えたメールサーバー、クライアント端末(コンピュータ装置、携帯装置等)において実現される。
 送信メール監視システム200は、ユーザーによって作成された送信メールを取得する送信メール取得部210と、送信メール取得部210で取得された送信メールの特徴を抽出する特徴抽出部220と、抽出された特徴を記憶する特徴記憶部230と、取得された送信メールが異常メールか否かを検出する異常メール検出部240と、異常メール検出部240の検出結果に基づき送信メールの送信を制御する送信制御部250とを含む。これらの機能は、メールサーバーやクライアント端末のソフトウエア、ハードウエアあるいはソフトウエアとハードウエアとの組合せにより実施される。
 送信メール取得部110は、クライアント端末に搭載されたメールソフトにより作成されたHTML形式の電子メール、またはメールサーバーにクライアント端末からアップされた送信用の電子メールを取得する。
 特徴抽出部220は、上記文章解析システムの特徴抽出部120と同様に動作する。ここでは説明を容易にするため、特徴抽出部220は、ユーザーXが通常の表現的特徴や構造的特徴で電子メールを記載したときの特徴を事前に学習しているものとする。従って、送信メール取得部210から取得された送信メールがユーザーXにより記載されたものであれば、その送信メールの特徴は、学習された特徴と同一性を有するから、ユーザーXが通常の表現的特徴や構造的特徴で記載した送信メールと識別されるが、ユーザーXが特異な表現的特徴や構造的特徴によって記載されたもの、あるいは他人により記載されたものであれば、その送信メールの特徴は、学習された特徴と同一性を有していないから、ユーザーXが特異な表現的特徴や構造的特徴によって記載したもの、または他人が記載したものと識別される。同一性を有するか否かは、図8で説明したように、閾値を越えるか否かによって判定される。
 異常メール検出部240は、同一性がないと判定されたとき、その送信メールを異常メールとして検出し、その検出結果を送信制御部250へ提供する。送信制御部250は、異常メールが検出された場合には、例えば、クライアント端末またはメールサーバーに対して当該送信メールの送信を停止または保留させ、送信できない旨の警告等をユーザーに知らせる。例えば、クライアント端末のディスプレイに送信停止を表示させるたり、音声案内をさせるようにしてもよい。他方、異常メールが検出されない場合には、クライアント端末またはメールサーバーに当該送信メールを送信させる。
 図10は、送信メール監視システムの動作例を説明するフローチャートである。先ず、送信メール取得部210によって送信メールが取得され(S200)、特徴抽出部220によって送信メールの本文の各文字が信号化され、一次元の時系列信号が生成され(S202)、時系列信号が正規化され(S206)、次いで、時系列信号から特徴が抽出される。次に、抽出された特徴と、学習された特徴との同一性の有無が判定され(S208)、同一性がある場合には、本人の普段通りの表現的特徴や構造的特徴によって記載された送信メールと判定され(S210)、送信メールが送信アドレスに向けて送信される(S212)。他方、同一性がない場合には、本人の特異な表現的特徴や構造的特徴によって記載された送信メールまたは本人以外の他人により記載された送信メールと判定され(S220)、送信メールの送信が停止される(S222)。
 このように、本実施例によれば、送信メールが普段の表現的特徴や構造的特徴によって記載されたものか否かを判定し、本人が特異な表現的特徴や構造的特徴によって記載した送信メールまたは本人以外が記載した送信メールである場合には、送信メールの送信を停止するようにしたもので、不正な送信メールによる情報漏洩を未然に防止することができる。
 次に、本実施例による文章解析システムの検証例について説明する。実験では、4種類のメールマガジンを評価に用いた。4種類のうち、1つのメールマガジンAのみを学習させ、学習対象以外の3つを他者として識別できるか否かを評価した(つまり、図8に示すように、閾値を越えたものを特異な表現的特徴や構造的特徴を有するメールマガジンとして検出することができるか否かを評価)。また、4種類のメールマガジンを8か国の言語に翻訳し、言語が異なる場合の精度を検証した。
 実験では、1000通のメールマガジンAを学習させ、他の3種類の100通のメールマガジンが他人と判断されるか否かを評価した。図11には、各言語において、他人と判断されたか否かの確率が示されている。同図からも分かるように、メールマガジンB、C関しては、かなり良好な精度で識別されているが、メールマガジンDに関しては、言語間の若干のバラツキがあることが分かる。これは、言語毎の素性の違いであり、例えば、日本語の文字数は、50+50+小文字+漢字であり、英語は26文字+小文字であり、中国語および台湾語は、87,000であり(Unicode11)、フランス語は、26+小文字+7であり、ヒンディー語は、156+小文字であり、韓国語は、11,172であり、フィンランド語は、29+小文字であり、言語によって文章の長さが異なったり、信号化のときの振幅などが異なるためであり、最終的に最適な正規化により精度を向上させることが可能である。
 次の実験は、社員3名のメールを評価するものである。ユーザーA、Bは、それぞれ営業の職種であり、ユーザーCは、品質管理エンジニアの職種である。実験では、ユーザーAが学習をさせた本人であり、ユーザーB、Cを他人として検知できたか否かの割合を図12のグラフに示す。ユーザーA本人を他人(特異な表現的特徴や構造的特徴で記載されたメール)と検知した割合は、5.95%であり、ユーザーB、Cを他人(表現的特徴や構造的特徴で記載されたメール)と検知した割合は、それぞれ62.00%、51.00%であった。
 メールの場合、文章が短いと差異が表れ難くなり、その精度が低くなる傾向がある。また、職種が一部重複するため、両者の表現が類似し易いために差異が表れ難いと予想される。
 以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。
100:文章解析システム
110:文章取得部
120:特徴抽出部
130:特徴記憶部
140:特異文章検出部
200:送信メール監視システム
210:送信メール取得部
220:特徴抽出部
230:特徴記憶部
240:異常メール検出部
250:出力制御部

Claims (15)

  1. 文章を解析する文章解析システムであって、
     文章データを取得する取得手段と、
     取得された文章データの文字を数値化することにより文章データを時系列信号に変換する変換手段と、
     変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納する特徴抽出手段と、
     前記特徴情報を用いて新たに取得された文章データの同一性を判定する判定手段と、
     を有する文章解析システム。
  2. 文章解析システムはさらに、前記判定手段の判定結果に基づき前記特徴情報と異なる特異文章を検出する検出手段を有する、請求項1に記載の文章解析システム。
  3. 前記変換手段は、予め用意された変換テーブルに基づき文字を数値データに変換する、請求項1に記載の文章解析システム。
  4. 前記変換手段は、前記時系列信号を最小値0と最大値1の範囲内に収まるように正規化する、請求項1または3に記載の文章解析システム。
  5. 前記変換手段は、設定された閾値を超える前記時系列信号の値を減衰し、減衰した時系列信号を正規化する、請求項1または4に記載の文章解析システム。
  6. 前記特徴抽出手段は、通常の表現的特徴や構造的特徴で記載された文章データの正規化された時系列信号から特徴を抽出し、抽出した特徴を用いて前記時系列信号の入力波形を再現する出力波形が得られるように特徴を学習する、請求項1または4に記載の文章解析システム。
  7. 前記特徴抽出手段は、オートエンコーダにより前記特徴情報を符号化する、請求項6に記載の文章解析システム。
  8. 前記特徴抽出手段は、ニューラルネットワークにより前記特徴情報を学習する、請求項7に記載の文章解析システム。
  9. 請求項1ないし8に記載の文章解析システムを含むメッセージ交換における特徴評価システムであって、
     前記検出手段は、前記判定手段の判定結果に基づき送信メールの異常を検出する、特徴評価システム。
  10. 特徴評価システムはさらに、送信メールの異常が検出された場合、当該送信メールの送信を停止する送信制御手段を含む、請求項9に記載の特徴評価システム。
  11. 特徴評価システムはさらに、前記送信制御手段により送信メールの送信が停止されたとき、送信メールの送信停止を通知する通知手段を含む、請求項10に記載の特徴評価システム。
  12. コンピュータ端末が実行する文章解析プログラムであって、
     文章データを取得するステップと、
     取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、
     変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、
     前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップと、
     を有する文章解析プログラム。
  13. 前記同一性を判定するステップは、前記特徴情報と異なる特異な表現的特徴または構造的特徴で記載された送信メールを識別する、請求項12に記載の文章解析プログラム。
  14. コンピュータ端末における文章解析方法であって、
     文章データを取得するステップと、
     取得された文章データの文字を数値化することにより文章データを時系列信号に変換するステップと、
     変換された時系列信号から特徴情報を抽出し、抽出した特徴情報を格納するステップと、
     前記特徴情報を用いて新たに取得された文章データの同一性を判定するステップと、
     を有する文章解析方法。
  15. 前記同一性を判定するステップは、前記特徴情報と異なる表現的特徴および/または構造的特徴で記載された送信メールを識別する、請求項14に記載の文章解析方法。
PCT/JP2019/034402 2019-09-02 2019-09-02 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム WO2021044475A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2021517726A JP7007693B2 (ja) 2019-09-02 2019-09-02 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム
US17/639,866 US20220343067A1 (en) 2019-09-02 2019-09-02 Text Analysis System, and Characteristic Evaluation System for Message Exchange Using the Same
CN201980099692.0A CN114341822B (zh) 2019-09-02 2019-09-02 文章解析系统及使用其的消息交换的特征评价系统
PCT/JP2019/034402 WO2021044475A1 (ja) 2019-09-02 2019-09-02 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム
EP19944297.1A EP4027247A4 (en) 2019-09-02 2019-09-02 TEXT ANALYSIS SYSTEM AND EVALUATION SYSTEM OF THE CHARACTERISTICS FOR MESSAGE EXCHANGE WITH THIS SYSTEM
US18/189,819 US20230237258A1 (en) 2019-09-02 2023-03-24 Text Analysis System, and Characteristic Evaluation System for Message Exchange Using the Same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/034402 WO2021044475A1 (ja) 2019-09-02 2019-09-02 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/639,866 A-371-Of-International US20220343067A1 (en) 2019-09-02 2019-09-02 Text Analysis System, and Characteristic Evaluation System for Message Exchange Using the Same
US18/189,819 Continuation US20230237258A1 (en) 2019-09-02 2023-03-24 Text Analysis System, and Characteristic Evaluation System for Message Exchange Using the Same

Publications (1)

Publication Number Publication Date
WO2021044475A1 true WO2021044475A1 (ja) 2021-03-11

Family

ID=74852600

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/034402 WO2021044475A1 (ja) 2019-09-02 2019-09-02 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム

Country Status (5)

Country Link
US (2) US20220343067A1 (ja)
EP (1) EP4027247A4 (ja)
JP (1) JP7007693B2 (ja)
CN (1) CN114341822B (ja)
WO (1) WO2021044475A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10227820A (ja) * 1997-02-12 1998-08-25 Nippon Telegr & Teleph Corp <Ntt> センサ時間応答補正方法およびセンサ時間応答補正装置
JP2006235949A (ja) * 2005-02-24 2006-09-07 Nec Corp 電子メール誤送信監視方法及びシステム
JP2011081627A (ja) * 2009-10-07 2011-04-21 Kddi R & D Laboratories Inc 特徴量算出装置、品詞推定装置およびプログラム
WO2017094202A1 (ja) * 2015-12-01 2017-06-08 アイマトリックス株式会社 画像処理を応用した文書構造解析装置
US10104029B1 (en) * 2011-11-09 2018-10-16 Proofpoint, Inc. Email security architecture
JP2019105979A (ja) * 2017-12-12 2019-06-27 株式会社Ihi 予測システム、予測方法、および予測プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7092496B1 (en) * 2000-09-18 2006-08-15 International Business Machines Corporation Method and apparatus for processing information signals based on content
US7483947B2 (en) * 2003-05-02 2009-01-27 Microsoft Corporation Message rendering for identification of content features
JP2006092346A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 文字認識装置、文字認識方法および文字認識プログラム
CN101500028A (zh) * 2008-01-28 2009-08-05 英华达(上海)电子有限公司 采用读写模式的通信终端以及实现读写模式通信的方法
US9737255B2 (en) * 2008-09-30 2017-08-22 National Ict Australia Limited Measuring cognitive load
US8793639B2 (en) * 2010-08-09 2014-07-29 Asicserve, Ltd. Method and system of converting timing reports into timing waveforms
KR101060639B1 (ko) * 2010-12-21 2011-08-31 한국인터넷진흥원 자바스크립트 난독화 강도 분석을 통한 악성 의심 웹사이트 탐지 시스템 및 그 탐지방법
JP5867875B2 (ja) * 2011-07-11 2016-02-24 武 水沼 署名検証プログラム
US20130091266A1 (en) * 2011-10-05 2013-04-11 Ajit Bhave System for organizing and fast searching of massive amounts of data
JP6453202B2 (ja) * 2015-10-30 2019-01-16 日本電産サンキョー株式会社 相互認証装置及び相互認証方法
US10796217B2 (en) * 2016-11-30 2020-10-06 Microsoft Technology Licensing, Llc Systems and methods for performing automated interviews
US10133865B1 (en) * 2016-12-15 2018-11-20 Symantec Corporation Systems and methods for detecting malware
US11580350B2 (en) * 2016-12-21 2023-02-14 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
US20180203851A1 (en) * 2017-01-13 2018-07-19 Microsoft Technology Licensing, Llc Systems and methods for automated haiku chatting
US11025649B1 (en) * 2018-06-26 2021-06-01 NortonLifeLock Inc. Systems and methods for malware classification
CN108932220A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 文章生成方法和装置
WO2020122985A1 (en) * 2018-12-10 2020-06-18 Interactive-Al, Llc Neural modulation codes for multilingual and style dependent speech and language processing
US11178170B2 (en) * 2018-12-14 2021-11-16 Ca, Inc. Systems and methods for detecting anomalous behavior within computing sessions
JP7407190B2 (ja) * 2019-07-04 2023-12-28 パナソニックIpマネジメント株式会社 発話解析装置、発話解析方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10227820A (ja) * 1997-02-12 1998-08-25 Nippon Telegr & Teleph Corp <Ntt> センサ時間応答補正方法およびセンサ時間応答補正装置
JP2006235949A (ja) * 2005-02-24 2006-09-07 Nec Corp 電子メール誤送信監視方法及びシステム
JP2011081627A (ja) * 2009-10-07 2011-04-21 Kddi R & D Laboratories Inc 特徴量算出装置、品詞推定装置およびプログラム
US10104029B1 (en) * 2011-11-09 2018-10-16 Proofpoint, Inc. Email security architecture
WO2017094202A1 (ja) * 2015-12-01 2017-06-08 アイマトリックス株式会社 画像処理を応用した文書構造解析装置
JP6267830B2 (ja) 2015-12-01 2018-01-24 アイマトリックス株式会社 画像処理を応用した文書構造解析装置
JP2019105979A (ja) * 2017-12-12 2019-06-27 株式会社Ihi 予測システム、予測方法、および予測プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4027247A1

Also Published As

Publication number Publication date
JPWO2021044475A1 (ja) 2021-09-27
CN114341822B (zh) 2022-12-02
US20220343067A1 (en) 2022-10-27
CN114341822A (zh) 2022-04-12
JP7007693B2 (ja) 2022-01-25
EP4027247A1 (en) 2022-07-13
EP4027247A4 (en) 2023-05-10
US20230237258A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
US11818170B2 (en) Detection of phishing campaigns based on deep learning network detection of phishing exfiltration communications
US10178107B2 (en) Detection of malicious domains using recurring patterns in domain names
Lu et al. Cyberbullying detection in social media text based on character‐level convolutional neural network with shortcuts
US8489689B1 (en) Apparatus and method for obfuscation detection within a spam filtering model
US11574052B2 (en) Methods and apparatus for using machine learning to detect potentially malicious obfuscated scripts
JP4824352B2 (ja) 外向き通信が特定の内容を含む時を検出する方法およびシステム
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
CN109450845B (zh) 一种基于深度神经网络的算法生成恶意域名检测方法
CN105577660A (zh) 基于随机森林的dga域名检测方法
CN111031026A (zh) 一种dga恶意软件感染主机检测方法
CN109858248B (zh) 恶意Word文档检测方法和装置
CN108509794A (zh) 一种基于分类学习算法的恶意网页防御检测方法
CN115580494B (zh) 一种弱口令的检测方法、装置和设备
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
JP2012088803A (ja) 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
CN109284465B (zh) 一种基于url的网页分类器构建方法及其分类方法
CN113905016A (zh) 一种dga域名检测方法、检测装置及计算机存储介质
JP7007693B2 (ja) 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム
Gogoi et al. Phishing and Fraudulent Email Detection through Transfer Learning using pretrained transformer models
US11936686B2 (en) System, device and method for detecting social engineering attacks in digital communications
CN112771524A (zh) 基于模糊包含的伪装检测
CN113746814A (zh) 邮件处理方法、装置、电子设备及存储介质
CN117376307B (zh) 域名处理方法、装置及设备
US11997138B1 (en) Detecting and analyzing phishing attacks through artificial intelligence
KR102259789B1 (ko) 발신 메일 및 수신 메일의 스팸 필터링 방법 및 장치

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021517726

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19944297

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019944297

Country of ref document: EP

Effective date: 20220404