WO2017094202A1 - 画像処理を応用した文書構造解析装置 - Google Patents

画像処理を応用した文書構造解析装置 Download PDF

Info

Publication number
WO2017094202A1
WO2017094202A1 PCT/JP2015/085603 JP2015085603W WO2017094202A1 WO 2017094202 A1 WO2017094202 A1 WO 2017094202A1 JP 2015085603 W JP2015085603 W JP 2015085603W WO 2017094202 A1 WO2017094202 A1 WO 2017094202A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
sample data
mail
document structure
sample
Prior art date
Application number
PCT/JP2015/085603
Other languages
English (en)
French (fr)
Inventor
美津夫 小島
横山 淳
竜生 鈴木
翔平 沼田
Original Assignee
アイマトリックス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイマトリックス株式会社 filed Critical アイマトリックス株式会社
Priority to CN201580084903.5A priority Critical patent/CN108369559B/zh
Priority to EP15909832.6A priority patent/EP3385851A4/en
Priority to JP2017510601A priority patent/JP6267830B2/ja
Publication of WO2017094202A1 publication Critical patent/WO2017094202A1/ja
Priority to US15/996,180 priority patent/US10163005B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Definitions

  • the present invention relates to a document structure analysis apparatus that applies image processing of data such as e-mail and document data, and more particularly to a method for determining whether or not an e-mail is spam mail (spam mail).
  • determination information for determining whether or not the mail is spam mail for example, a keyword, a sender address, a URL, etc.
  • the received e-mail contains the determination information
  • the received e-mail is classified as spam mail, which is discarded or distributed to the user.
  • e-mails including specific addresses and keywords are filtered as spam mails according to the filter rules set by the user himself / herself.
  • appearance information excluding a body of an email, a sender and a transmission address, a recipient and a reception address (for example, the number of lines of an email, an attached file, an email format, an email language, etc. )
  • the external management center is requested to send spam detection information for detecting spam mail based on the extracted outline information, and the content of the email corresponds.
  • spam detection information is applicable, it is determined that the email is spam, and when the email is determined not to be spam, the updated spam detection is performed by sending outline information to an external management center.
  • An e-mail processing device that requests information is disclosed.
  • Patent Document 2 discloses an e-mail classification device that reduces the processing load for eliminating spam mail and reduces the operation load on the user. Specifically, a feature vector indicating the feature of the email is acquired based on the header information of the email, and a classification rule for classifying whether the email is spam mail is created using the feature vector as learning data.
  • An object of the present invention is to provide a document structure analysis apparatus that can easily and accurately perform comparison processing with sample data at high speed.
  • the document structure analysis apparatus includes an acquisition unit that acquires sample data in which a character string or the like is described, a signalization unit that converts the acquired sample data into n values (n is a natural number of 2 or more), Storage means for storing n-valued sample data by the signal converting means, and comparing the n-valued input data with the n-valued sample data stored in the storage means, Calculation means for calculating similarity to data and classification means for classifying input data based on the calculated similarity.
  • the signal converting means converts the acquired sample data into n dimensions, and converts the n-dimensional data into n values.
  • the signal converting unit converts the acquired sample data into n values and converts the n-valued data into n dimensions.
  • the calculation means calculates the similarity of n-valued data of the same dimension.
  • the signal converting means binarizes an area in which characters or the like are described and a blank area in which characters or the like are not described.
  • the signal converting means converts the region in which the characteristic expression is described and the other region into different data values.
  • the signal converting means converts the sample data into n dimensions based on attributes such as characters.
  • the input data is an electronic mail
  • the classification means classifies the electronic mail as spam mail.
  • the classification means classifies the input data into sample data having a common document structure.
  • the document structure analyzing apparatus further includes means for clustering the n-valued sample data stored in the storage means.
  • the n-valued sample data and the n-valued input data are compared and the similarity between them is calculated, so that the similarity can be easily determined as compared with the conventional case. And can be performed at high speed.
  • data conversion is easy, and since the binarized images are compared, the processing is also speeded up.
  • the accuracy of the similarity between the sample data and the input data can be further increased by converting the sample data into n dimensions and calculating the similarity for each dimension.
  • FIG. 1 It is a block diagram which shows the functional structure of the mail processing apparatus which concerns on 1st Example of this invention. It is a figure which shows the modification of the mail processing apparatus which concerns on 1st Example of this invention. It is a figure which shows an example of the document data binarized by the present Example. It is a figure which shows an example of the management table of the sample memory
  • FIG. 8A shows an example written in Portuguese
  • FIG. 8B shows an example written in English. This is an example in which the spam mails in FIGS. 8A and 8B are converted into three dimensions ⁇ binary.
  • the document structure analysis apparatus to which the image processing of the present invention is applied is implemented as a mail processing apparatus in one preferred form.
  • the mail processing apparatus can be connected to a network such as the Internet or an intranet, receives electronic mail via the network, and determines whether the mail is spam mail or not by analyzing the received electronic mail.
  • the mail processing apparatus only needs to have at least a function for processing mail and a function for image processing, and can also have other functions executed by hardware or software.
  • the mail processing device can be, for example, a server, a computer, an electronic device, a terminal device, a mail distribution server, and other electronic devices.
  • the expressions n-valued and n-dimensionalized are academically synonymous with multivalued and multidimensionalized.
  • FIG. 1 is a block diagram showing a functional configuration of the mail processing apparatus according to the first embodiment of the present invention.
  • the mail processing apparatus 100 includes a sample / email acquisition unit 110, a sample storage unit 120, a signal processing unit 130, and a spam mail storage unit 140.
  • the mail processing device 100 can be, for example, an electronic device that executes a desired function by a computer or a central processing processor (CPU) performing calculations according to a program.
  • the functions of the sample / email acquisition unit 110 and the signal processing unit 130 can be realized by executing a software program, and the functions of the sample storage unit 120 and the spam mail storage unit 140 are stored in the RAM. This can be realized by using a memory such as / ROM.
  • the sample / e-mail acquisition unit 110 includes a data acquisition unit 112 that acquires sample data and e-mail data, and a signalization unit 114 that converts the acquired data into a signal.
  • the sample / e-mail acquisition unit 110 acquires illegal sample data represented by spam mail or the like. That is, using a honeypot technique, an e-mail transmitted to a non-public address is regarded as a spam mail, and the spam mail is acquired as sample data.
  • the sample data acquired in this manner is used as a determination material for determining whether or not it is spam mail.
  • email data including the recipient address is obtained. This email may or may not be spam.
  • the sample / e-mail acquisition unit 110 is not limited to acquiring data from the network NW, and may acquire data from other routes.
  • a sample or data may be obtained from a recording medium (semiconductor memory, DVD disk, or other computer device) containing a large amount of document data.
  • the signal conversion unit 114 performs a signal conversion process on the data acquired by the data acquisition unit 112.
  • Signaling refers to n-valued data (n) including characters, numbers, symbols, figures, etc. (hereinafter referred to as characters), which are natural languages expressed in data, and blank areas where such characters are not represented. Means conversion to a natural number of 2 or more. In this embodiment, an example of converting data into binary data will be described.
  • the signal converting unit 114 analyzes the data size from the acquired data format and the like. Specifically, it is analyzed that one page of data is n rows ⁇ m columns, and an area in which each character or the like is represented is converted to data “1” and a blank area is converted to data “0”. .
  • the data format of n rows ⁇ m columns is either a format of editing software created by a user on the sender side or a format defined by a mailer (mail software) on the receiver side.
  • characters and the like are represented by codes of 1 byte, 2 bytes, 3 bytes, etc. (for example, ASCII, shift JIS, etc.), and an area where such codes exist does not exist in the data “1”. The area is converted into data “0”.
  • FIG. 2 shows an example of data signalization by the signalization unit. That is, when the spam mail shown in FIG. 2A is acquired by the data acquisition unit 112, the signal converting unit 114 converts the spam mail into a binary image as shown in FIG. The binary imaged data is stored in the sample storage unit 120.
  • the sample storage unit 120 sequentially stores sample data (spam mail) signaled by the signal conversion unit 114.
  • the sample storage unit 120 includes a management table for managing sample data, for example, as shown in FIG. 2A.
  • the management table includes identification information for identifying each sample data, attribute information of each sample data, format information (including n rows ⁇ m columns), signaling date / time information, sample data, and signaled data Includes storage location.
  • the signal processing unit 130 can perform various signal processing based on the binarized data stored in the sample storage unit 120.
  • the signal processing unit 130 uses the received e-mail as input data, compares the binarized data of the e-mail with the binarized data stored in the sample storage unit 120, and the e-mail is spam mail. It is determined whether or not.
  • the signal processing unit 130 extracts sample data similar to the input data such as e-mail.
  • the e-mail determined as spam mail by the signal processing unit 130 is stored in the spam mail storage unit 140.
  • FIG. 3A is a flowchart for explaining the operation of the sample / e-mail acquisition unit 110.
  • the data acquisition unit 1120 determines whether the acquired data is sample data or email (S100).
  • One determination method for example, identifies an e-mail received at a non-public address as sample data, and identifies an e-mail received at other addresses as not sample data.
  • a dedicated terminal for receiving sample data and a dedicated terminal for receiving e-mail are prepared, and sample data or e-mail can be determined by identifying each terminal. Good. It is also possible to use a determination method other than the above.
  • the data acquisition unit 112 When the data acquisition unit 112 acquires the sample data, the data acquisition unit 112 provides the sample data to the signal conversion unit 114.
  • the signal conversion unit 114 performs binarization processing on the acquired sample data (S110), and stores the binarized sample data in the sample storage unit 120 (S120).
  • S110 acquired sample data
  • S120 binarized sample data
  • management data as shown in FIG. 2A is created and updated. By executing such processing, various binarized sample data are accumulated in the sample storage unit 120.
  • FIG. 3B is a flowchart for explaining the binarization processing (corresponding to S110) of the signal converting unit 114.
  • the signaling unit 114 identifies the format information of the acquired sample data, that is, identifies the page size (n rows ⁇ m columns) of the sample data (S200).
  • the signal converting unit 114 discriminates a region where a character or the like represented in the sample data exists from a blank region (S210), and when a code representing the character or the like exists, the code is converted into data “1”. Conversion is performed (S220), and when the code does not exist, the code is converted into data “0” (S230).
  • Such binarization processing is executed for the entire range of n rows ⁇ m columns defined by the page size (S240).
  • S240 page size
  • an area in which characters or the like of sample data are written is converted to data “1”
  • a blank area in which no characters or the like are written is converted to data Converted to “0”.
  • FIG. 4 is a flowchart for explaining the operation of the signal processing unit 130 according to the present embodiment.
  • the data acquisition unit 112 determines whether the data is sample data or an e-mail, and when the e-mail is acquired based on the determination result (S300), the acquired e-mail is similar to the sample data.
  • a binarization process is performed by the signal conversion unit 114 (S310).
  • the e-mail Tx binarized by the signal converting unit 114 is input to the signal processing unit 130.
  • the signal processing unit 130 compares the binarized e-mail Tx and the binarized sample data stored in the spam storage unit 120 by pattern matching (S320), and based on the similarity between the two, the e-mail Is a spam mail (S330).
  • FIG. 5 is a flowchart for explaining details of pattern matching (corresponding to S320).
  • the number is compared (S400), and the similarity between the e-mail Tx and the sample data Si is calculated (S410).
  • S410 the similarity between the e-mail Tx and the sample data Si
  • normalization of one of the binarized data is performed so that the page sizes of the two match.
  • the method of calculating the similarity is not particularly limited, and for example, the degree of overlap of the data “1” area or the data “0” area is calculated.
  • the signal processing unit 130 determines whether or not the similarity is greater than or equal to a threshold value (S420). If the similarity is equal to or greater than the threshold value, the signal processing unit 130 holds the sample data Si (S430).
  • the threshold value can be set arbitrarily. The higher the threshold value, the lower the sample data hit rate, but the spam mail can be determined with higher accuracy. On the contrary, the lower the threshold, the higher the sample data hit rate, but at the same time, the spam mail determination accuracy decreases.
  • the signal processing unit 130 determines whether or not the email is a spam email based on the pattern matching result.
  • the determination method is arbitrary, for example, by setting a high threshold value, if there is even one sample data that exceeds the threshold value, it is determined that the e-mail is spam mail, or the threshold value is set relatively low Thus, when there are more than a certain number of sample data above the threshold, it is possible to determine that the e-mail is spam mail.
  • the sample data and the e-mail are converted into n-values, and the spam mail is determined based on the similarity between both of the n-valued data, so that it can be quickly performed without using a complicated algorithm or the like. It is possible to make a spam determination.
  • sample data and e-mail are binarized, data can be easily converted into signals, and the similarity of binarized images can be determined at high speed.
  • FIG. 5A is an operation flow of the modified example.
  • the sample / e-mail acquisition unit 110 acquires arbitrary input document data (S302), and the signal conversion unit 114 performs binarization processing of the acquired document data (S312) and is binarized. Document data is provided to the signal processing unit 130.
  • the signal processing unit 130 compares the binarized document data with the binarized sample data read from the sample storage unit 120 by pattern matching (S322).
  • the sample data stored in the sample storage unit 120 is not necessarily limited to spam mail or illegal document data, and may be sample data having various document structures. Pattern matching can be performed in the same manner as the method shown in FIG.
  • the signal processing unit 130 acquires sample data having a document structure similar to the input document data based on the pattern matching result (S332). As shown in FIG. 5, the signal processing unit 130 refers to the management table shown in FIG. 2A based on the result of holding the sample data that is equal to or higher than the threshold, and outputs sample data before binarization processing. Alternatively, it is stored in the storage unit. Thereby, the user can recognize sample data having a document structure similar to the input document data.
  • the signal conversion unit 114 performs multi-value processing such as ternarization and quaternization in addition to binarizing data such as sample data and e-mail. You can also. It is possible to weight or filter the data by converting the sample data or the like into multiple values.
  • FIG. 6 is a flowchart for explaining the operation when the sample data is ternarized.
  • the signaling unit 114 identifies the format of the acquired sample data (S200), and before performing signaling for each character, the keyword, specific expression, URL, e-mail address, special symbol, telephone number, regularity Characteristic expression including a certain character string is converted into data “2” (S202).
  • each character or the like represented in the sample data is identified (S210), and characters other than those already converted to data “2” (other than characteristic expressions) are converted to data “1”.
  • the ternary sample data is stored in the sample storage unit 120.
  • e-mail and document data are also ternary.
  • the mail processing apparatus 100 shown in FIG. 1 is not limited to the configuration shown in FIG. 1, and can be changed to various modes.
  • the mail processing apparatus 100A may be configured such that the sample storage unit 120 and the signal processing unit 130 are interchanged.
  • the signal processing unit 130 can start signal processing triggered by the acquisition of an email by the email acquisition unit 110.
  • 1 shows an example in which the sample / email acquisition unit 110, the sample storage unit 120, the signal processing unit 130, and the spam storage unit 140 are integrally included in the mail processing apparatus 100 shown in FIG.
  • the functions need not be physically integrated, and the functions may be organically coupled.
  • the mail processing apparatus 100B is configured to include a gateway, a data center, a server, and the like connected by a network, that is, the sample / email acquisition unit 110 has a network.
  • the sample storage unit 120 and the signal processing unit 130 may be connected to the spam storage unit 140 via a network.
  • FIG. 7 is a diagram for explaining signalization in the second embodiment.
  • the data is n-valued to enable hierarchical weighting of the data.
  • the second embodiment is shown in B in the figure.
  • the data is further classified into a plurality of dimensions, and the classified data can be converted into n-values (n is a natural number of 2 or more).
  • the configuration and functions of the mail processing apparatus 100 are the same as those described in the first embodiment.
  • FIG. 7A is a flowchart for explaining the operation of the sample / e-mail acquisition unit 110 according to the second embodiment.
  • sample data is made n-dimensional
  • n-dimensional data is made n-valued.
  • the signal conversion unit 114 converts the sample data into n dimensions according to a predetermined rule (S510).
  • the predetermined rule the sample data is classified into n dimensions based on the appearance characteristics of the sample data.
  • the data is classified into n dimensions based on the type and arrangement of characters and the like represented in the data, or the header part of the data (the header of a sentence in which company information such as Html mail is described), footer Part, e-mail sender part (for example, the e-mail message signature), e-mail recipient part (for example, XX company, XX-sama, etc. listed at the beginning of e-mail text), signature part, etc.
  • Data is classified into n dimensions based on the region.
  • the signal converting unit 114 performs n-value processing on the n-dimensional data as in the first embodiment (S520). Data converted into a signal by such processing is stored in the sample storage unit 120 (S530).
  • FIG. 7B is a flowchart for explaining pattern matching between sample data and an e-mail according to the second embodiment.
  • the e-mail is acquired by the data acquisition unit 112
  • the e-mail is subjected to n-dimensional ⁇ n-value processing by the signal conversion unit 114, and the processed data is provided to the signal processing unit 130.
  • the signal processing unit 130 compares the e-mail Tx with the sample data Si read from the sample storage unit 120. It should be noted that data of the same dimension are compared by pattern matching (S600). ).
  • the signal processing unit 130 calculates the similarity of each dimension (S610), and then calculates the sum of the similarities of each dimension (S620).
  • the second embodiment by making data n-dimensional, it is possible to extract features that are unevenly distributed in the data and compare the features. Moreover, in the said Example, although the similarity of each dimension was totaled as it is, you may make it weight each dimension. For example, the similarity of the header portion of the sample data may be weighted so as to be larger than other portions. As a result, it is possible to largely reflect the characteristics unevenly distributed in the data in the determination of the similarity, and to make the determination of the spam mail or the extraction of the similar document structure with higher accuracy.
  • FIGS. 8A and 8B are spam mails having the same content but written in different languages (Portuguese and English). In this case, filtering by content may not be effective.
  • 9A is a three-dimensional x binarized version of the Portuguese spam mail in FIG. 8A
  • FIG. 9B is a three-dimensional x English spam mail in FIG. 8B. It is binarized.
  • the Portuguese spam mail is sample data
  • the English spam mail is an input e-mail.
  • the signaling unit 114 converts the sample data into a dimension (A-1) in which a character string is described, a dimension (A-2) in which a URL is described, and a dimension (in which a telephone number is described).
  • A-3) is classified into three dimensions, and the data of each dimension is binarized.
  • the classification of each dimension may be performed according to the attribute of the data represented there, and if the area describing the character string, URL, and telephone number can be specified, the classification may be performed based on the area. .
  • A-1 the area where the character string is represented is binarized to data “1” and the blank area is binarized to data “0”.
  • the area where the URL is represented is data “1”.
  • FIG. 10 is an example of pattern matching.
  • pattern matching binarized images of the same dimension are compared. That is, the similarity between the dimension (A-1) of the sample data and the dimension (B-1) of the e-mail is calculated. Similarly, the dimensions (A-2) and (B-2), (A-3 ) And (B-3) dimension similarities are calculated.
  • the dimensional similarity between (A-1) and (B-1) is 80
  • the dimensional similarity between (A-2) and (B-2) is 98
  • the spam mail determination accuracy can be improved by comparing the similarity of the characteristic dimensions of the spam mail.
  • FIG. 8 The spam mail shown in FIG. 8 includes many features such as URLs and telephone numbers, so spam judgment is relatively easy. However, if the mail has a structure with few features such as URLs and telephone numbers, spam judgment Becomes difficult. Spam emails with few feature points have slightly changed the numbers in the emails and avoid feature extraction well.
  • FIG. 11 is an example of document data with few such feature points.
  • FIG. 11A shows sample data stored in the sample storage unit 120
  • FIG. 11B shows an example in which the numbers of the sample data in FIG.
  • FIGS. 12A and 12B are examples in which FIGS. 11A and 11B are converted into two dimensions ⁇ binary. That is, it is classified into the dimensions of the character strings (A-1) and (B-1) and the dimensions of the numbers (A-2) and (B-2).
  • the number and the character string may be classified according to the data attribute, or may be classified according to the area if the area where the number and the character string are described can be specified.
  • the document data shown in FIG. 11A is sample data and the document data shown in FIG. 11B is an e-mail
  • the pattern matching between them is as shown in FIG. Similarities of (A-1) and (B-1) signaled in the "number” dimension and (A-2) and (B-2) signaled in the "character string” dimension are calculated.
  • the average similarity is calculated by dividing the total similarity of each dimension by the number of dimensions, and if the average similarity exceeds a threshold, the signal processing unit 130 determines that the e-mail is spam mail. It is determined that In the example shown in FIG. 13, since the average similarity of each dimension is 97 and exceeds the threshold 90, the electronic mail shown in FIG. 11B is determined to be spam mail. In this way, it is possible to determine spam mails with few feature points such as URL and telephone number.
  • sample data or the like is converted into n dimensions, and the data converted into n dimensions is converted into n values.
  • the data is converted into n values, and the data is converted based on the n values.
  • the area is divided, characteristic notations are extracted from the divided data, and spam mails and similar structure documents are determined using the characteristic notations.
  • the third embodiment converts data into n-values and converts the n-valued data into n-dimensions.
  • the second embodiment differs from n-value and n-dimension processing. The order is opposite.
  • FIG. 14 is a flowchart for explaining the operation of the sample / e-mail acquisition unit 110 of the third embodiment.
  • sample data is acquired by the data acquisition unit 112 (S700), and then the n-value processing of the sample data is performed by the signal conversion unit 114 (S710).
  • the signal converting unit 114 further divides the sample data area based on the n value (S720). For example, an area of sample data is divided with a specific value as a boundary, an area surrounded by the specific value is divided, or an area sandwiched between the specific value and the specific value is divided. The number of regions to be divided is appropriately selected according to the n value.
  • the signal converting unit 114 selects a region including a characteristic notation from the divided regions (S730), and the sample storage unit 120 stores n-valued data of the region including the selected characteristic notation. (S740).
  • sample data as shown in FIG.
  • a signature signature described after the sample data is treated as a characteristic notation.
  • the signal conversion unit 114 converts the special character with the regularity described in the signature column into data “2”, and converts the other characters into data “1”.
  • the blank area is converted to data “0” (however, “0” is omitted in the figure). That is, the signal converting unit 114 converts the sample data into three values.
  • the sample data is divided into an area R1 in which the signature is described and an area R2 in which the text is described.
  • the data “2” represents a characteristic notation boundary, and is divided into a region R1 sandwiched between the data “2” and a region R2 other than that.
  • the signal converting unit 114 selects a region R2 including a characteristic notation from the regions R1 and R2. For example, as shown in FIG. 15D, this selection is performed by masking the region R1 and converting the data “1” in the region R2 into data “0”.
  • the signal conversion unit 114 stores the binarized data in the region R1 in the sample storage unit 120.
  • the characteristic notation described in the region R1 is output to a display or the like, and the user
  • the final confirmation may be performed, and the final confirmation may be saved in the sample storage unit 120.
  • e-mail spam determination or similar structure document extraction can be performed using sample data including only characteristic notations stored in the sample storage unit 120.
  • the characteristic notation is a signature
  • an e-mail having the same signature is determined as a spam mail, or can be extracted from a large number of sample data having the same signature. it can.
  • spam mails are clustered (divided into subsets) using signalized data, and the characteristics of senders (hereinafter referred to as spammers) that send spam mails are extracted. Also in the fourth embodiment, it is assumed that sample data subjected to signal processing is stored in the sample storage unit 120 in accordance with the function of the mail processing apparatus shown in FIG. 1 shown in the first embodiment.
  • FIG. 16 is a flowchart for explaining the operation of the signal processing unit 130 according to the fourth embodiment.
  • the signal processing unit 130 according to the present embodiment performs clustering on the sample data stored in the sample storage unit 120 in addition to the function of determining whether the email is spam mail or the like. Has the function to analyze.
  • the clustering analysis can be executed at an arbitrary timing. For example, the clustering analysis may be executed every predetermined period, or may be executed in response to a user instruction.
  • the signal processing unit 130 first acquires sampled sample data S1... Tn (spam mail) stored in the sample storage unit 120 (S800). That is, when n pieces of sample data are stored in the sample storage unit 120, the signal processing unit 130 acquires n pieces of sample data. Next, the signal processing unit 130 calculates the similarity between the acquired sample data S1... Sn (S810), compares the calculated similarity with a predetermined threshold value, and performs clustering analysis of the sample data. Perform (S820). Next, the signal processing unit 130 stores the clustered sample data in a memory or the like as a similar document structure (S830).
  • FIG. 17 is a diagram for explaining similarity calculation and clustering analysis.
  • the sample data is then clustered based on the similarity.
  • FIG. 17B is an example in which clustering is executed based on the similarity shown in FIG. For example, when the threshold is 90%, S1, S3, and S6 are classified into the cluster C1, S2 and S4 are classified into the cluster C2, and S5 and S7 are classified into the cluster C3. Since sample data included in one cluster is similar to each other, one cluster is a set of similar document structures of sample data.
  • FIG. 18 is a diagram for explaining the use of the similar document structure cluster.
  • the spammer (A) transmits sample data S1, S3, and S6.
  • the spammer (A) transmission pattern, owned IP, owned URL, domain can be grasped.
  • the spammers (B) and (C) can grasp the transmission patterns of the spammers (B) and (C) by clustering the sample data transmitted by the spammers (B) and (C).
  • Such a transmission pattern is used for determination of spam mail, and the determination accuracy is improved.
  • the mail processing apparatus of the present invention is not limited to such text data.
  • the present invention can also be applied to an HTML mail 300 in which image data and document data are mixed as shown in FIG.
  • the signal conversion unit 114 classifies the HTML mail into a character string dimension (A-1) and an image dimension (A-2), and binarizes each. These binarized sample data are stored in the sample storage unit 120. By using the stored sample data, the similarity for each dimension can be calculated, and it can be determined whether or not the electronic mail received in the HTML format is spam mail.
  • Mail processing device 110 Sample / email acquisition unit 112: Data acquisition unit 114: Signaling unit 120: Sample storage unit 130: Signal processing unit 140: Spam storage unit NW: Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】 スパムメールの判定を容易に精度よくかつ高速に行うことができる文書構造解析装置を提供する。 【解決手段】 メール処理装置100は、ネットワークNWからサンプルデータや電子メールを取得するデータ取得部112、データ取得部112で取得したサンプルデータ等をn値化する信号化部114、信号化部114でn値化されたデータを記憶するサンプル記憶部120、サンプル記憶部120に記憶されたn値化されたサンプルデータと入力された電子メールとを比較し、その類似度から電子メールがスパムメールか否かを判定する信号処理部130、判定結果に基づきスパムメールを格納するスパム格納部140を含んで構成される。 

Description

画像処理を応用した文書構造解析装置
 本発明は、電子メール、文書データ等のデータの画像処理を応用した文書構造解析装置に関し、特に、電子メールがスパムメール(迷惑メール)か否か等を判定する方法に関する。
 スパムメールを排除する方法として、電子メールを受信者に配信するメールサーバ側で、スパムメールか否かを判定するための判定情報、例えば、キーワード、送信者のアドレス、URLなどを予め登録しておき、受信した電子メールに判定情報が含まれる場合には、受信した電子メールをスパムメールに分類し、これを破棄したり、ユーザーへの配信を停止している。また、ユーザー側の端末において、ユーザー自身が設定したフィルタルールにより、特定のアドレスやキーワードを含む電子メールをスパムメールとしてフィルタリングしている。
 例えば、特許文献1では、電子メールの本文、送信者および送信アドレス、受信者および受信アドレスを除く外観情報(例えば、電子メールの行数、添付ファイル、電子メールの形式、および電子メールの言語等)を電子メールの外観的特徴を示すアウトライン情報として抽出し、抽出したアウトライン情報に基づきスパムメールを検出するためのスパム検出情報の送信を外部の管理センタに要求し、電子メールの内容が対応するスパム検出情報に該当するとき、当該電子メールをスパムメールであると判定し、電子メールがスパムメールでないと判定されたとき、外部の管理センタに対しアウトライン情報を送信することにより更新されたスパム検出情報を要求する電子メール処理装置を開示している。
 また、特許文献2では、スパムメールを排除するための処理負荷を軽減し、かつユーザーの操作負荷を軽減する電子メール分類装置を開示している。具体的には、電子メールのヘッダ情報に基づいて電子メールの特徴を示す特徴ベクトルを取得し、特徴ベクトルを学習データとして、スパムメールか否かを分類する分類ルールを作成するものである。
特許第5121828号公報 特開2011-90442号公報
 従来、スパムメールの検出や分類をする方法が種々検討されているが、スパムメールの内容は遅々刻々と変化し、かつネットワークに接続された不特定の端末から大量にかつ無差別に送信され得るため、このようなスパムメールを完全にかつリアルタイムで排除することは困難な状況である。一方、スパムメールの検出や分類の精度を高めるには、多くのスパムメールを処理し、その中からスパムメールを判定するための判定情報を抽出し、判定情報を迅速に更新していなかければならない。故に、スパムメールを判定するための判定方法を高速にかつ精度良く抽出する方法が望まれる。さらには、スパムメールの送信元の情報を収集し、これを判定情報に活用することも望まれる。
 本発明は、サンプルデータとの比較処理を簡単に精度良くかつ高速に行うことができる文書構造解析装置を提供することを目的とする。
 本発明に係る文書構造解析装置は、文字列等が記載されたサンプルデータを取得する取得手段と、取得されたサンプルデータをn値化(nは、2以上の自然数)する信号化手段と、前記信号化手段によりn値化されたサンプルデータを記憶する記憶手段と、n値化された入力データと前記記憶手段に記憶されたn値化されたサンプルデータとを比較し、サンプルデータと入力データとの類似度を算出する算出手段と、算出された類似度に基づき入力データの分類する分類手段とを有する。
 好ましくは前記信号化手段は、取得されたサンプルデータをn次元化し、n次元化されたデータをn値化する。好ましくは前記信号化手段は、取得されたサンプルデータをn値化し、n値化されたデータをn次元化する。好ましくは前記算出手段は、同一次元のn値化されたデータの類似度を算出する。好ましくは前記信号化手段は、文字等が記載された領域と文字等が記載されていない空白領域とを2値化する。好ましくは前記信号化手段は、特徴的な表現が記載された領域とそれ以外の領域を異なるデータ値に変換する。好ましくは前記信号化手段は、文字等の属性に基づきサンプルデータをn次元化する。好ましくは前記入力データは、電子メールであり、前記分類手段は、電子メールをスパムメールに分類する。好ましくは前記分類手段は、入力データと共通の文書構造を有するサンプルデータに分類する。好ましくは文書構造解析装置はさらに、前記記憶手段に記憶されたn値化されたサンプルデータをクラスタリングする手段を含む。
 本発明によれば、n値化されたサンプルデータとn値化された入力データとを比較し、両者の類似度を算出するようにしたので、従来と比較して、類似度の判定が容易であり、かつ高速に行うことができる。特に、2値化されたサンプルデータと入力データとを比較する場合には、データ変換が容易であるとともに、2値化画像の比較になるため処理も高速になる。さらにサンプルデータをn次元化し、各次元毎の類似度を算出することで、サンプルデータと入力データの類似度の精度をさらに高めることができる。また、n値化したサンプルデータを画像伸縮することにより、サイズが異なるスパムメール同士の比較が可能になる。さらに、n値化されたサンプルデータ間の差分を抽出することにより、構造の異なる部分のみを抽出することが可能になる。
本発明の第1の実施例に係るメール処理装置の機能的な構成を示すブロック図である。 本発明の第1の実施例に係るメール処理装置の変形例を示す図である。 本実施例により2値化された文書データの一例を示す図である。 本実施例のサンプル記憶部の管理テーブルの一例を示す図である。 本実施例のサンプル/電子メール取得部の動作を説明するフローチャートである。 本実施例の2値化処理の動作を説明するフローチャートである。 第1の実施例に係る信号処理部の動作を説明するフローチャートである。 図4のパターンマッチングの詳細を説明するフローチャートである。 本発明の第1の実施例の変形例による信号処理部の動作を説明するフローチャートである。 本発明の第1の実施例の変形例による信号化部の動作を説明するフローチャートである。 本発明の第2の実施例に係る信号化部の処理を説明する図である。 本発明の第2の実施例によるサンプル/電子メール取得部の動作を説明するフローチャートである。 本発明の第2の実施例による信号処理部のパターンマッチングを説明するフローチャートである。 内容が同一である言語の異なるスパムメールの例であり、図8(A)は、ポルトガル語で記載された例、図8(B)は、英語で記載された例である。 図8(A)、(B)のスパムメールを3次元×2値化した例である。 各次元同士の類似度の算出例である。 特徴点が少ない文書データを例示する図である。 図11に示す文書データの2次元×2値化の例である。 図11に示す文書データのパターンマッチングの例である。 本発明の第3の実施例によるサンプル/電子メール取得部の動作を説明するフローチャートである。 第3の実施例の具体的な処理例を説明する図である。 本発明の第4の実施例に係るサンプル/電子メール取得部の動作を説明するフローチャートである。 第4の実施例に係る類似度の算出およびクラスタリング解析を説明する図である。 類似文書構造のクラスタの用途を説明する図である。 本発明の実施例によるHTMLメールの信号化を説明する図である。
 次に、本発明の実施の形態について、図面を参照して詳細に説明する。本発明の画像処理を応用した文書構造解析装置は、1つの好ましい形態ではメール処理装置として実施される。メール処理装置は、インターネットまたはイントラネット等のネットワークに接続可能であり、ネットワークを介して電子メールを受信し、受信した電子メールを解析することによりスパムメールか否かの判定を行う。メール処理装置は、少なくともメールを処理する機能や画像処理する機能を備えていれば良く、ハードウエアまたはソフトウエアによって実行される他の機能を備えることもできる。メール処理装置は、例えば、サーバ、コンピュータ、電子装置、端末装置、メール配信サーバ、その他電子装置であることができる。なお、本発明の実施の形態における、n値化、n次元化という表現は、学術的に、多値化、多次元化と同義である。
 図1は、本発明の第1の実施例に係るメール処理装置の機能的な構成を示すブロック図である。メール処理装置100は、サンプル/電子メール取得部110、サンプル記憶部120、信号処理部130およびスパムメール格納部140を含む。メール処理装置100は、例えば、コンピュータ、あるいは中央処理プロセッサ(CPU)などがプログラムに従い演算を行うことによって所望の機能を実行する電子装置であることができる。例えば、サンプル/電子メール取得部110および信号処理部130の各機能は、ソフトウェアプログラムを実行することによって実現することが可能であり、サンプル記憶部120およびスパムメール格納部140の各機能は、RAM/ROM等のメモリを利用することによって実現することが可能である。
 サンプル/電子メール取得部110は、サンプルデータや電子メールのデータを取得するデータ取得部112と、取得したデータを信号化する信号化部114とを有する。サンプル/電子メール取得部110は、1つの態様では、スパムメール等に代表される不正なサンプルデータを取得する。すなわち、ハニーポットの技術を用いて、非公開のアドレスに送信されてきた電子メールをスパムメールとみなし、当該スパムメールをサンプルデータとして取得する。この態様で取得されたサンプルデータは、スパムメールか否かを判定するための判定材料に利用される。もう1つの態様では、受信者のアドレスを含む電子メールのデータを取得する。この電子メールは、スパムメールかもしれないし、そうでないかもしれない。サンプル/電子メール取得部110は、ネットワークNWからデータを取得するものに限らず、他の経路からデータを取得するものであってもよい。例えば、大量の文書データを含む記録媒体(半導体メモリ、DVDディスク、あるいは他のコンピュータ装置)からサンプルやデータを取得するものであってもよい。
 信号化部114は、データ取得部112で取得されたデータの信号化処理を行う。初めに、ハニーポットにより収集されたスパムメール(サンプルデータ)の信号化について説明する。信号化とは、データに表された自然言語である文字、数字、記号、図形等(以下、文字等という)とそのような文字等が表されていない空白領域とをn値のデータ(nは、2以上の自然数)に変換することをいう。本実施例では、データを2値データに変換する例を説明する。
 信号化部114は、取得したデータのフォーマット等からデータのサイズを解析する。具体的には、データの1ページがn行×m列であること解析し、1つ1つの文字等が表されている領域をデータ「1」に、空白領域をデータ「0」に変換する。n行×m列のデータフォーマットは、送信者側のユーザーが作成した編集ソフトのフォーマット、あるは受信者側のメーラー(メールソフト)が規定するフォーマットのいずれかである。また、文字等は、1バイト、2バイト、3バイト等のコードで表されており(例えば、ASCIIやシフトJISなど)、そのようなコードが存在する領域は、データ「1」に、存在しない領域は、データ「0」に変換される。もし、全角文字と半角文字との識別をする場合には、例えば、半角文字の領域を「1」で表す場合には、全角文字の領域は「11」のように信号化しても良い。図2は、信号化部によるデータの信号化の一例を示している。すなわち、図2(A)に示すスパムメールがデータ取得部112によって取得されたとき、信号化部114は、そのスパムメールを、図2(B)に示すように2値画像化する。2値画像化されたデータは、サンプル記憶部120に保存される。
 サンプル記憶部120は、信号化部114によって信号化されたサンプルデータ(スパムメール)を逐次保存する。サンプル記憶部120は、例えば、図2Aに示すように、サンプルデータを管理するための管理テーブルを含む。管理テーブルは、各サンプルデータを識別するための識別情報、各サンプルデータの属性情報として、フォーマット情報(n行×m列を含む)、信号化の日時情報、サンプルデータおよび信号化されたデータの格納場所などを含む。
 信号処理部130は、サンプル記憶部120に記憶された2値化データに基づき様々な信号処理を行うことができる。本実施例では、信号処理部130は、受信した電子メールを入力データとし、電子メールの2値化データとサンプル記憶部120に記憶された2値化データとを比較し、電子メールがスパムメールか否かを判定する。また、後述するように変形例では、信号処理部130は、入力された電子メール等のデータと類似するサンプルデータの抽出を行う。信号処理部130によってスパムメールと判定された電子メールは、スパムメール格納部140に格納される。
 次に、本実施例のメール処理装置の詳細な動作について説明する。図3Aは、サンプル/電子メール取得部110の動作を説明するフローチャートである。データ取得部1120は、取得したデータが、サンプルデータか電子メールかを判別する(S100)。1つの判別方法は、例えば、非公開のアドレスで受信された電子メールをサンプルデータと識別し、それ以外のアドレスで受信された電子メールは、サンプルデータでないと識別する。他の判別方法として、サンプルデータを受信する専用の端末と、電子メールを受信する専用の端末とをそれぞれ用意し、各端末を識別することでサンプルデータまたは電子メールの判別を行うようにしてもよい。上記以外の判別方法を用いることも可能である。
 データ取得部112は、サンプルデータを取得すると、そのサンプルデータを信号化部114へ提供する。信号化部114は、取得されたサンプルデータを2値化処理し(S110)、2値化したサンプルデータをサンプル格納部120に保存する(S120)。サンプルデータが保存されるとき、図2Aに示すような管理データが作成、更新される。このような処理を実行することで、サンプル記憶部120に種々の2値化されたサンプルデータが蓄積されていく。
 図3Bは、信号化部114の2値化処理(S110に相当)を説明するフローチャートである。信号化部114は、取得されたサンプルデータのフォーマット情報を識別し、すなわち、サンプルデータのページサイズ(n行×m列)を識別する(S200)。次に、信号化部114は、サンプルデータに表された文字等が存在する領域と空白領域とを識別し(S210)、文字等を表すコードが存在するとき、そのコードをデータ「1」に変換し(S220)、コードが存在しないとき、そのコードをデータ「0」に変換する(S230)。このような2値化処理は、ページサイズによって規定されるn行×m列の全範囲について実行される(S240)。2値化処理の実行により、例えば、図2に示すように、サンプルデータの文字等が記載されている領域は、データ「1」に変換され、文字等が記載されていない空白領域は、データ「0」に変換される。
 図4は、本実施例に係る信号処理部130の動作を説明するフローチャートである。上記したようにデータ取得部112は、サンプルデータか電子メールかを判別し、この判別結果により電子メールが取得されると(S300)、取得された電子メールは、サンプルデータのときと同様に、信号化部114によって2値化処理される(S310)。信号化部114によって2値化された電子メールTxは、信号処理部130へ入力される。信号処理部130は、2値化された電子メールTxと、スパム記憶部120に記憶された2値化されたサンプルデータとをパターンマッチングにより比較し(S320)、両者の類似度に基づき電子メールがスパムメールか否かを判定する(S330)。
 図5は、パターンマッチング(S320に相当)の詳細を説明するフローチャートである。信号処理部130は、2値化された電子メールTxと、サンプル記憶部120から読み出された2値化されたサンプルデータSi(i=1,2,3…n、nは、サンプルデータの個数)とを比較し(S400)、電子メールTxとサンプルデータSiとの類似度を算出する(S410)。ここで、電子メールTxとサンプルデータSiとのページサイズが異なる場合には、両者のページサイズが一致するようにいずれかの2値化データの正規化を行う。類似度の算出方法は、特に限定されないが、例えば、データ「1」の領域またはデータ「0」の領域の重複度合を算出する。次に、信号処理部130は、類似度が閾値以上か否かを判定し(S420)、閾値以上であれば、そのサンプルデータSiを保持する(S430)。閾値は、任意に設定することができ、閾値が高ければ高いほど、サンプルデータのヒット率は低くなるが、より高い精度でスパムメールの判定を行うことができる。反対に、閾値が低ければ低いほど、サンプルデータのヒット率は高くなるが、同時に、スパムメールの判定精度は低下する。信号処理部130は、i=nとなるまで、すなわち電子メールを全てのサンプルデータと比較する(S440)。
 信号処理部130は、パターンマッチングの結果に基づき電子メールがスパムメールか否かを判定する。判定方法は任意であるが、例えば、閾値を高く設定することで、閾値以上のサンプルデータが1つでも存在すれば、電子メールがスパムメールであると判定したり、閾値を比較的低く設定することで、閾値以上のサンプルデータが一定数よりも多く存在する場合には、電子メールがスパムメールである判定することができる。
 本実施例によれば、サンプルデータおよび電子メールをn値化処理し、n値化された両データの類似度からスパムメールの判定を行うようにしたので、複雑なアルゴリズム等を用いることなく迅速にスパム判定を行うことができる。特に、サンプルデータおよび電子メールを2値化した場合には、データの信号化が容易であり、かつ2値化画像の類似度の判定も高速に行うことができる。
 次に、本発明の第1の実施例の変形例について説明する。上記では、電子メールがスパムメールか否かを判定する例を説明したが、変形例では、入力した文書データに類似する構造文書を抽出する例を説明する。図5Aは、変形例の動作フローである。サンプル/電子メール取得部110は、入力された任意の文書データを取得し(S302)、信号化部114は、取得した文書データの2値化処理を行い(S312)、2値化処理された文書データを信号処理部130へ提供する。
 信号処理部130は、2値化された文書データと、サンプル記憶部120から読み出された2値化されたサンプルデータとをパターンマッチングにより比較する(S322)。変形例では、サンプル記憶部120に格納されるサンプルデータは、必ずしもスパムメールまたは不正な文書データに限るものではなく、種々の文書構造をもつサンプルデータであることができる。パターンマッチングは、図5に示す方法と同様に行うことができる。
 信号処理部130は、パターンマッチングの結果に基づき、入力された文書データに類似する文書構造を有するサンプルデータを取得する(S332)。図5に示すように、閾値以上のサンプルデータが保持された結果から、信号処理部130は、図2Aに示す管理テーブルを参照し、2値化処理される前のサンプルデータを出力させたり、あるいは格納部に格納する。これにより、ユーザーは、入力された文書データに類似する文書構造を有するサンプルデータを認識することができる。
 さらに第1の実施例の変形例として、信号化部114は、サンプルデータや電子メール等のデータを2値化する以外にも、3値化、4値化のように多値化処理することもできる。サンプルデータ等を多値化することでデータの重み付けまたはフィルタリングすることが可能になる。図6に、サンプルデータを3値化する場合の動作を説明するフローチャートである。信号化部114は、取得されたサンプルデータのフォーマットを識別し(S200)、1文字毎の信号化を行う前に、キーワード、特定の表現、URL、メールアドレス、特殊記号、電話番号、規則性のある文字列を含む特徴的な表現をデータ「2」に変換する(S202)。これらの特徴的な表現は、文字列として認識されるため、1文字毎の信号化を行う前に処理を行う。次に、サンプルデータに表されたそれぞれの文字等を識別し(S210)、既にデータ「2」に変換された文字以外(特徴的な表現以外)の文字等は、データ「1」に変換される。このような処理を行うことにより、サンプルデータが「0」、「1」、「2」のデータに3値化される。3値化されたサンプルデータは、サンプル記憶部120に格納される。また、当然ながら、このような3値化されたサンプルデータを用いてスパムメールの判定、あるいは類似文書構造の抽出を行う場合には、電子メールや文書データも3値化される。
 なお、図1に示すメール処理装置100は、図1に示す構成に限定されるものではなく、種々の態様に変更することが可能である。例えば、図1Aの(A)に示すように、メール処理装置100Aは、サンプル記憶部120と信号処理部130とが入れ替わるような構成であってもよい。この場合、信号処理部130は、電子メール取得部110によって電子メールが取得されたことをトリガーに信号処理を開始することができる。また、図1に示すメール処理装置100は、サンプル/電子メール取得部110、サンプル記憶部120、信号処理部130およびスパム格納部140を一体的に包含する例を示しているが、同一の機能を保持できるのであれば、各機能を物理的に一体に備える必要はなく、各機能が有機的に結合される構成であってもよい。例えば、図1Aの(B)に示すように、メール処理装置100Bは、ネットワークによって結合されたゲートウエイ、データセンター、サーバ等を含んで構成され、すなわち、サンプル/電子メール取得部110は、ネットワークを介してサンプル記憶部120および信号処理部130に接続され、信号処理部130は、ネットワークを介してスパム格納部140に接続されるものであってもよい。
 次に、本発明の第2の実施例について図を用いて詳細に説明する。第1の実施例では、1つの文書データをn値化することで信号化し、スパムメールか否かを判定する例を示したが、第2の実施例ではさらに、1つの文書データをn次元のデータに分割し、同一の次元ごとにn値化を行うものである。図7は、第2の実施例の信号化を説明する図である。第1の実施例は、図中のAに示すように、データをn値化することで、データの階層的な重み付けを可能にしたが、第2の実施例は、図中のBに示すように、さらにデータを複数の次元に分類し、分類したデータのn値化を可能にする(nは、2以上の自然数)。なお、特段の記載がない限り、メール処理装置100の構成および機能等は、第1の実施例で説明したものと同様である。
 図7Aは、第2の実施例によるサンプル/電子メール取得部110の動作を説明するフローチャートである。ここでは、サンプルデータをn次元化し、n次元化されたデータをn値化する例を説明する。データ取得部112によってサンプルデータが取得されると(500)、信号化部114は、サンプルデータを予め決められたルールに従いn次元化する(S510)。予め決められたルールとは、1つの例として、サンプルデータの外観的な特徴からサンプルデータをn次元に分類する。例えば、データに表されている文字等の種類、配列に基づきデータをn次元に分類したり、あるいは、データのヘッダ部分(Htmlメール等の会社情報等が記載されている文章のヘッダ)、フッタ部分、メール差出人の部分(例えば、メール文面のシグニチャーなどに記載)、メール受信者の部分(例えば、メール文面の冒頭などに記載されている○○会社、○○様など)、署名部分などの領域に基づきデータをn次元に分類する。次に、信号化部114は、第1の実施例のときと同様に、n次元化されたデータをn値化処理する(S520)。このような処理により信号化されたデータがサンプル記憶部120に保存される(S530)。
 図7Bは、第2の実施例によるサンプルデータと電子メールとのパターンマッチングを説明するフローチャートである。データ取得部112によって電子メールが取得されると、当該電子メールは、信号化部114によってn次元×n値化の処理が行われ、この処理されたデータが信号処理部130へ提供される。信号処理部130は、電子メールTxとサンプル記憶部120から読み出されたサンプルデータSiとの比較を行うが、ここで留意すべきは、同一次元のデータ同士がパターンマッチングにより比較される(S600)。次に、信号処理部130は、各次元の類似度を算出し(S610)、次いで、各次元の類似度の合計を算出する(S620)。そして、合計の類似度、あるいは類似度の平均が閾値以上か否かを判定し、閾値以上であれば、そのサンプルデータを保持する(S630)。電子メールは、全てのサンプルデータと対比され、その結果、閾値以上の類似度を有するサンプルデータのみが保持される。
 第2の実施例によれば、データをn次元化することで、データに偏在するような特徴を抽出し、その特徴同士の比較を行うことができる。また、上記実施例では、各次元の類似度をそのまま合計したが、各次元に重み付けを行うようにしてもよい。例えば、サンプルデータのヘッダ部分の類似度を、他の部分よりも大きくなるような重み付けをするようにしてもよい。これにより、データに偏在する特徴を類似度の判定に大きく反映させ、スパムメールの判定、あるいは類似文書構造の抽出をより高精度にすることができる。
 次に、第2の実施例による具体的なスパムメールの判定例について説明する。図8(A)、(B)は、内容は同一であるが、異なる言語(ポルトガル語と英語)で記載されたスパムメールである。この場合、コンテンツによるフィルタリングは効果的でなくなる可能性がある。図9(A)は、図8(A)のポルトガル語のスパムメールを3次元化×2値化したもの、図9(B)は、図8(B)の英語のスパムメールを3次元×2値化したものである。ここで、ポルトガル語のスパムメールがサンプルデータとし、英語のスパムメールが入力された電子メールであるとする。
 信号化部114は、予め決められたルールに従い、サンプルデータを、文字列が記述された次元(A-1)、URLが記述された次元(A-2)、電話番号が記述された次元(A-3)の3つの次元に分類し、各次元のデータの2値化を行う。各次元の分類は、そこに表されたデータの属性によって行われても良いし、文字列、URL、電話番号を記述した領域を特定することができるならば、領域に基づき分類してもよい。(A-1)では、文字列が表された領域がデータ「1」、空白領域がデータ「0」に2値化され、(A-2)では、URLが表された領域がデータ「1」、それ以外の空白領域がデータ「0」に2値化され、(A-3)では、電話番号が表されたデータ「1」、それ以外の空白領域がデータ「0」に2値化される。なお、図中、データ「0」は省略してある。このように信号化されたサンプルデータは、サンプル記憶部120に記憶される。一方、信号化部114は、電子メールが取得されたとき、電子メールを、文字列が記述された次元(B-1)、URLが記述された次元(B-2)、電話番号が記述された次元(B-3)の3つの次元に分類し、各次元のデータの2値化する。そして、信号処理部130によって、電子メールとサンプルデータとを比較し、スパム判定が行われる。
 図10は、パターンマッチングの例である。パターンマッチングでは、同一次元の2値化画像が対比される。すなわち、サンプルデータの次元(A-1)と電子メールの次元(B-1)との類似度が算出され、同様に、(A-2)と(B-2)の次元、(A-3)と(B-3)の次元の各類似度が算出される。この例では、(A-1)と(B-1)の次元の類似度が80、(A-2)と(B-2)の次元の類似度が98、(A-3)と(B-3)の次元の類似度が100であり、これらの平均値92.6が閾値90を越えるので、電子メールはスパムメールであると判定される。
 このように、データを多次元に分類し、各次元毎の類似度を算出するため、文書構造を異にする言語が相違するスパムメールの判定に有効である。スパムメールは、URLや電話番号の構造をほとんど変えずに、言語だけを変更して送信されるものもある。第1の実施例のような単純な多値化画像の比較だけでは、文書構造の相違により、判定精度が低下するおそれがある。現に、図10の「文字列」の次元の類似度は、他の次元よりも相対的に低く、閾値90よりも小さくなってしまう。第2の実施例では、スパムメールの特徴的な次元の類似度を比較することにより、スパムメールの判定精度を向上させることができる。
 図8に示すスパムメールは、URLや電話番号などの特徴点を多く含むため、スパム判定が比較的容易であるが、URLや電話番号等の特徴点が少ない構造のメールであると、スパム判定が難しくなる。特徴点が少ないスパムメールは、メール内の数字等を微妙に変更をしており、特徴抽出を上手に避けている。図11は、こうした特徴点が少ない文書データの例である。図11(A)は、サンプル記憶部120に記憶されたサンプルデータであり、図11(B)は、図11(A)のサンプルデータの数字等を微妙に変更した例である。
 図12(A)、(B)は、図11(A)、(B)を2次元×2値化した例である。すなわち、文字列(A-1)と(B-1)の次元と、数字(A-2)と(B-2)の次元に分類される。数字と文字列の区分けは、データの属性によって区分けしても良いし、数字と文字列が記述された領域を特定することができるならば、領域によって区分けしてもよい。図11(A)に示す文書データをサンプルデータとし、図11(B)に示す文書データを電子メールとしたとき、両者のパターンマッチングは、図13に示すようになる。「数字」の次元で信号化された(A-1)と(B-1)、「文字列」の次元で信号化された(A-2)と(B-2)それぞれの類似度が算出され、各次元の類似度の合計値を次元数で除算することにより、平均の類似度を算出し、当該平均の類似度が閾値を越える場合に、信号処理部130は、電子メールがスパムメールであると判定する。図13に示す例では、各次元の平均の類似度が97であり、閾値90を越えるため、図11(B)に示す電子メールはスパムメールであると判定される。このように、URLや電話番号等の特徴点が少ないスパムメールの判定も可能になる。
 次に、本発明の第3の実施例について説明する。第2の実施例は、サンプルデータ等をn次元化し、n次元化されたデータをn値化するものであるが、第3の実施例は、データをn値化し、n値に基づきデータの領域を分割し、分割されたデータの中から特徴的な表記を抽出し、この特徴的な表記を利用してスパムメールの判定や類似構造文書の判定を行う。言い方を変えれば、第3の実施例は、データをn値化し、n値化されたデータをn次元化するものであり、第2の実施例とは、n値化とn次元化の処理の順序を反対である。
 図14は、第3の実施例のサンプル/電子メール取得部110の動作を説明するフローチャートである。先ず、データ取得部112によってサンプルデータが取得され(S700)、次に、信号化部114によってサンプルデータのn値化処理が行われる(S710)。信号化部114はさらに、n値に基づきサンプルデータの領域を分割する(S720)。例えば、特定の値を境界にサンプルデータの領域を分割したり、特定の値によって囲まれている領域を分割したり、特定の値と特定の値によって挟まれている領域を分割する。分割する領域の数は、n値に応じて適宜選択される。次に、信号化部114は、分割された領域の中から特徴的な表記を含む領域を選択し(S730)、選択された特徴的な表記を含む領域のn値化データをサンプル記憶部120に保存する(S740)。
 次に、第3の実施例の具体的な処理について図15を参照して説明する。まず、図15(A)に示すようなサンプルデータが取得される。この例では、サンプルデータの後段に記載された署名(シグナチャー)が特徴的な表記として扱われる。信号化部114は、図15(B)に示すように、署名欄に記述された規律性のある特殊文字をデータ「2」に変換し、それ以外の文字等をデータ「1」に信号化し、空白領域をデータ「0」に変換する(但し、図中、「0」は省略してある)。すなわち、信号化部114は、サンプルデータを3値化する。
 次に、3値化されたサンプルデータの領域分割を行う。ここでは、図15(C)に示すように、サンプルデータは、署名を記載した領域R1と、本文を記載した領域R2とに分割される。ここでは、データ「2」が特徴的な表記の境界を表すものとし、データ「2」によって挟まれた領域R1と、それ以外の領域R2とに分割される。信号化部114は、領域R1、R2の中から、特徴的な表記を含む領域R2を選択する。この選択は、例えば図15(D)に示すように、領域R1をマスクし、領域R2のデータ「1」をデータ「0」に変換することにより行われる。次に、信号化部114は、領域R1の2値化されたデータをサンプル記憶部120へ保存する。なお、領域R1が特徴的な表記を含むものであるか否かを確認するため、図15(E)に示すように、領域R1に記述された特徴的な表記を、ディスプレイ等に出力し、ユーザーが最終確認を行し、その最終確認後に、サンプル記憶部120へ保存をするようにしてもよい。
 こうして、サンプル記憶部120に記憶された特徴的な表記のみを含むサンプルデータを利用して、電子メールのスパム判定を行ったり、類似構造文書の抽出を行うことができる。本例の場合、特徴的な表記は、署名であり、これと同一の署名を有する電子メールは、スパムメールと判定され、あるいは、同一の署名を有する多数のサンプルデータの中から抽出することができる。
 次に、本発明の第4の実施例について説明する。第4の実施例は、信号化したデータを用いてスパムメールをクラスタリング(部分集合に分割)し、スパムメールを送信する送信者(以下、スパマーと称する)の特徴を抽出する。第4の実施例においても、第1の実施例で示した図1に示すメール処理装置の機能に従い、信号化処理されたサンプルデータがサンプル記憶部120に格納されているものとする。
 図16は、第4の実施例に係る信号処理部130の動作を説明するフローチャートである。本実施例に係る信号処理部130は、第1の実施例で説明したように電子メールがスパムメールか否かを判定する機能等の他に、サンプル記憶部120に記憶されたサンプルデータをクラスタリング解析する機能を有する。クラスタリング解析は、任意のタイミングで実行することができ、例えば、予め決められた周期毎に実行しても良いし、ユーザーの指示に応答して実行されるものであっても良い。
 信号処理部130は、まず、サンプル記憶部120に格納されている信号化されたサンプルデータS1・・・Tn(スパムメール)を取得する(S800)。つまり、n個のサンプルデータがサンプル記憶部120に格納されている場合、信号処理部130は、n個のサンプルデータを取得する。次に、信号処理部130は、取得したサンプルデータS1・・・Sn間の類似度を算出し(S810)、算出された類似度を予め決められた閾値と比較し、サンプルデータのクラスタリング解析を行う(S820)。次に、信号処理部130は、クラスタリングされたサンプルデータを類似文書構造としてメモリ等の保存する(S830)。
 図17は、類似度の算出およびクラスタリング解析を説明する図である。図17(A)は、サンプルデータが7つ(n=7)あるときのサンプルデータ相互間の類似度をマトリックスで表している。サンプルデータ相互間の類似度が算出されると、次に、類似度に基づきサンプルデータのクラスタリングが行われる。図17(B)は、図17(A)の類似度に基づきクラスタリングを実行した例である。例えば、閾値を90%としたとき、クラスタC1には、S1、S3、S6が分類され、クラスタC2には、S2、S4が分類され、クラスタC3には、S5、S7が分類される。1つのクラスタに含まれるサンプルデータは相互に類似するため、1つのクラスタは、サンプルデータの類似文書構造の集合である。
 図18は、類似文書構造クラスタの用途を説明する図である。例えば、図18(A)に示すように、スパマー(A)が、サンプルデータS1、S3、S6を送信しているものとする。このような場合、クラスタC1の特徴、例えば、メールの送信時間、送信元IPアドレス、文書内のURLやドメイン等を抽出することで、スパマー(A)の送信パターン、所有IP、所有URL、ドメインを把握することができる。スパマー(B)、(C)についても同様に、スパマー(B)、(C)が送信するサンプルデータのクラスタリングにより、スパマー(B)、(C)の送信パターンを把握することができる。こうした送信パターンは、スパムメールの判定に利用され、判定精度が向上される。
 上記実施例では、電子メールまたは文書データがテキストデータで記述される例を示したが、本発明のメール処理装置は、そのようなテキストデータに限定されるものではない。例えば、図19に示すような、画像データと文書データを混合したHTMLメール300にも適用することができる。データ取得部112によってHTMLメール300が取得されると、信号化部114は、HTMLメールを、文字列の次元(A-1)と画像の次元(A-2)に分類し、それぞれを2値化し、これらの2値化されたサンプルデータをサンプル記憶部120に格納する。この格納されたサンプルデータを用いて、各次元毎の類似度を算出し、HTML形式で受信した電子メールがスパムメールか否かを判定することができる。
 以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。
100:メール処理装置
110:サンプル/電子メール取得部
112:データ取得部
114:信号化部
120:サンプル記憶部
130:信号処理部
140:スパム格納部
 NW:ネットワーク
 

Claims (16)

  1. 文字列等が記載されたサンプルデータを取得する取得手段と、
     取得されたサンプルデータをn値化(nは、2以上の自然数)する信号化手段と、
     前記信号化手段によりn値化されたサンプルデータを記憶する記憶手段と、
     n値化された入力データと前記記憶手段に記憶されたn値化されたサンプルデータとを比較し、サンプルデータと入力データとの類似度を算出する算出手段と、
     算出された類似度に基づき入力データの分類する分類手段と、
     を有する文書構造解析装置。
  2. 前記信号化手段は、取得されたサンプルデータをn次元化し、n次元化されたデータをn値化する、請求項1に記載の文書構造解析装置。
  3. 前記信号化手段は、取得されたサンプルデータをn値化し、n値化されたデータをn次元化する、請求項1に記載の文書構造解析装置。
  4. 前記算出手段は、同一次元のn値化されたデータの類似度を算出する、請求項2または3に記載の文書構造解析装置。
  5. 前記信号化手段は、文字等が記載された領域と文字等が記載されていない空白領域とを2値化する、請求項1ないし4いずれか1つに記載の文書構造解析装置。
  6. 前記信号化手段は、特徴的な表現が記載された領域とそれ以外の領域を異なるデータ値に変換する、請求項1ないし5いずれか1つに記載の文書構造解析装置。
  7. 前記信号化手段は、文字等の属性に基づきサンプルデータをn次元化する、請求項1ないし3いずれか1つに記載の文書構造解析装置。
  8. 前記信号化手段は、予め決められたルールに従いサンプルデータをn次元化に分割する、請求項1ないし7いずれか1つに記載の文書構造解析装置。
  9. 前記信号化手段は、サンプルデータの外観的な特徴に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  10. 前記信号化手段は、文字の種類に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  11. 前記信号化手段は、文字の配列に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  12. 前記信号化手段は、署名部分の領域に基づきサンプルデータをn次元化に分割する、請求項8に記載の文書構造解析装置。
  13. 前記入力データは、電子メールであり、前記分類手段は、電子メールをスパムメールに分類する、請求項1ないし12いずれか1つに記載の文書構造解析装置。
  14. 前記分類手段は、入力データと共通の文書構造を有するサンプルデータに分類する、請求項1ないし13いずれか1つに記載の文書構造解析装置。
  15. 文書構造解析装置はさらに、前記記憶手段に記憶されたn値化されたサンプルデータをクラスタリングする手段を含む、請求項1に記載の文書構造解析装置。
  16. 前記クラスタリングする手段は、取得されたサンプルデータ間の類似度を算出し、算出された類似度を予め決められた閾値と比較することによりクラスタリングする、請求項15に記載の文書構造解析装置。
     
PCT/JP2015/085603 2015-12-01 2015-12-21 画像処理を応用した文書構造解析装置 WO2017094202A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201580084903.5A CN108369559B (zh) 2015-12-01 2015-12-21 应用了图像处理的文档结构分析装置
EP15909832.6A EP3385851A4 (en) 2015-12-01 2015-12-21 DOCUMENT STRUCTURE ANALYSIS DEVICE THAT APPLIES IMAGE PROCESSING
JP2017510601A JP6267830B2 (ja) 2015-12-01 2015-12-21 画像処理を応用した文書構造解析装置
US15/996,180 US10163005B2 (en) 2015-12-01 2018-06-01 Document structure analysis device with image processing

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-234408 2015-12-01
JP2015234408 2015-12-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/996,180 Continuation US10163005B2 (en) 2015-12-01 2018-06-01 Document structure analysis device with image processing

Publications (1)

Publication Number Publication Date
WO2017094202A1 true WO2017094202A1 (ja) 2017-06-08

Family

ID=58796760

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/085603 WO2017094202A1 (ja) 2015-12-01 2015-12-21 画像処理を応用した文書構造解析装置

Country Status (6)

Country Link
US (1) US10163005B2 (ja)
EP (1) EP3385851A4 (ja)
JP (1) JP6267830B2 (ja)
CN (1) CN108369559B (ja)
HK (1) HK1252247A1 (ja)
WO (1) WO2017094202A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021044475A1 (ja) * 2019-09-02 2021-03-11 アイマトリックスホールディングス株式会社 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11075930B1 (en) * 2018-06-27 2021-07-27 Fireeye, Inc. System and method for detecting repetitive cybersecurity attacks constituting an email campaign

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5121828B2 (ja) 1973-04-11 1976-07-05
JP2002049632A (ja) * 2000-08-03 2002-02-15 Nec Corp 要約システムとその要約方法、及び要約プログラムを記録した記録媒体
JP2008204184A (ja) * 2007-02-20 2008-09-04 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2008242543A (ja) * 2007-03-26 2008-10-09 Canon Inc 画像検索装置、画像検索装置の画像検索方法、及び画像検索装置の制御プログラム
JP2009251864A (ja) * 2008-04-04 2009-10-29 Yahoo Japan Corp スパムメール判定サーバ、スパムメール判定プログラム及びスパムメール判定方法
JP2011090442A (ja) 2009-10-21 2011-05-06 Kddi Corp 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS612583A (ja) * 1984-05-12 1986-01-08 Fujitsu Ltd 日本語電子タイプライタのレイアウト表示方式
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
WO2009004724A1 (ja) 2007-07-04 2009-01-08 Imatrix Corp. 電子メール処理装置、電子メール処理方法、電子メール処理プログラムおよび電子メール処理システム
CN101594314B (zh) * 2008-05-30 2012-12-26 电子科技大学 一种基于高阶自相关特征的垃圾邮件图像识别方法
CN101944091A (zh) * 2009-07-07 2011-01-12 夏普株式会社 图像检索装置
US8762302B1 (en) * 2013-02-22 2014-06-24 Bottlenose, Inc. System and method for revealing correlations between data streams
CN104636708A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种局部文档图像的比对方法及系统
US20150381533A1 (en) * 2014-06-29 2015-12-31 Avaya Inc. System and Method for Email Management Through Detection and Analysis of Dynamically Variable Behavior and Activity Patterns
US9565209B1 (en) * 2015-03-31 2017-02-07 Symantec Corporation Detecting electronic messaging threats by using metric trees and similarity hashes
US10374995B2 (en) * 2015-06-30 2019-08-06 Oath Inc. Method and apparatus for predicting unwanted electronic messages for a user

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5121828B2 (ja) 1973-04-11 1976-07-05
JP2002049632A (ja) * 2000-08-03 2002-02-15 Nec Corp 要約システムとその要約方法、及び要約プログラムを記録した記録媒体
JP2008204184A (ja) * 2007-02-20 2008-09-04 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2008242543A (ja) * 2007-03-26 2008-10-09 Canon Inc 画像検索装置、画像検索装置の画像検索方法、及び画像検索装置の制御プログラム
JP2009251864A (ja) * 2008-04-04 2009-10-29 Yahoo Japan Corp スパムメール判定サーバ、スパムメール判定プログラム及びスパムメール判定方法
JP2011090442A (ja) 2009-10-21 2011-05-06 Kddi Corp 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3385851A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021044475A1 (ja) * 2019-09-02 2021-03-11 アイマトリックスホールディングス株式会社 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム
JPWO2021044475A1 (ja) * 2019-09-02 2021-09-27 アイマトリックスホールディングス株式会社 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム
JP7007693B2 (ja) 2019-09-02 2022-01-25 アイマトリックスホールディングス株式会社 文章解析システムおよびこれを用いたメッセージ交換における特徴評価システム
CN114341822A (zh) * 2019-09-02 2022-04-12 艾梅崔克斯持株公司株式会社 文章解析系统及使用其的消息交换的特征评价系统

Also Published As

Publication number Publication date
EP3385851A4 (en) 2019-06-19
JPWO2017094202A1 (ja) 2017-11-30
EP3385851A1 (en) 2018-10-10
JP6267830B2 (ja) 2018-01-24
US10163005B2 (en) 2018-12-25
HK1252247A1 (zh) 2019-05-24
US20180276459A1 (en) 2018-09-27
CN108369559B (zh) 2019-10-22
CN108369559A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
US8010614B1 (en) Systems and methods for generating signatures for electronic communication classification
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN107291780B (zh) 一种用户评论信息展示方法和装置
CN110149266B (zh) 垃圾邮件识别方法及装置
US20170289082A1 (en) Method and device for identifying spam mail
CN103136266A (zh) 邮件分类的方法及装置
Naiemi et al. An efficient character recognition method using enhanced HOG for spam image detection
JP2006293573A (ja) 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
Woitaszek et al. Identifying junk electronic mail in Microsoft outlook with a support vector machine
JP6267830B2 (ja) 画像処理を応用した文書構造解析装置
CN114036264B (zh) 一种基于小样本学习的电子邮件作者身份归属识别方法
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN101794378A (zh) 基于图片编码的垃圾图片过滤方法
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN101329668A (zh) 一种信息规则生成方法及装置、信息类型判断方法及系统
JP4686724B2 (ja) 迷惑メールのフィルタ機能を有する電子メールシステム
CN109983447B (zh) 评价装置、评价方法、评价程序和评价系统
KR20190085629A (ko) 전자메일 저자 분류 방법 및 장치
JP6317715B2 (ja) 画像認識装置、方法、及びプログラム
CN103778210A (zh) 一种待分析文件的文件具体类型的判断方法及装置
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN112632229A (zh) 文本聚类方法及装置
Murugavel et al. K-Nearest neighbor classification of E-Mail messages for spam detection
Manek et al. ReP-ETD: A Repetitive Preprocessing technique for Embedded Text Detection from images in spam emails
CN113434672B (zh) 文本类型智能识别方法、装置、设备及介质

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2017510601

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15909832

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2015909832

Country of ref document: EP