WO2011048672A1 - データ処理装置及びデータ処理方法及びプログラム - Google Patents

データ処理装置及びデータ処理方法及びプログラム Download PDF

Info

Publication number
WO2011048672A1
WO2011048672A1 PCT/JP2009/068114 JP2009068114W WO2011048672A1 WO 2011048672 A1 WO2011048672 A1 WO 2011048672A1 JP 2009068114 W JP2009068114 W JP 2009068114W WO 2011048672 A1 WO2011048672 A1 WO 2011048672A1
Authority
WO
WIPO (PCT)
Prior art keywords
classification
data
category
unit
mail
Prior art date
Application number
PCT/JP2009/068114
Other languages
English (en)
French (fr)
Inventor
秀哉 柴田
守 加藤
光則 郡
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2011537053A priority Critical patent/JP5220200B2/ja
Priority to PCT/JP2009/068114 priority patent/WO2011048672A1/ja
Publication of WO2011048672A1 publication Critical patent/WO2011048672A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Definitions

  • the present invention relates to a technique for classifying data into one of a plurality of categories.
  • Automatic classification by machine learning is often used as one of the methods for automatically classifying data into a plurality of categories.
  • automatic classification technology by machine learning will be described using document data (hereinafter simply referred to as a document) as an example.
  • Patent Document 1 discloses a technique for improving classification accuracy by experimentally classifying learning sample documents, selecting and removing misclassified documents, and improving classification rules.
  • Patent Document 1 has a problem that it takes time and labor to collect a large amount of correctly classified learning sample documents. There is also a problem that it takes time and effort to remove misclassified documents.
  • One of the main objects of the present invention is to solve the above-described problems, and it is possible to collect sample data that enables accurate classification without requiring manual labor and improve classification accuracy.
  • the main purpose is to provide data classification technology.
  • the data processing apparatus A classification unit for classifying data into one of a plurality of categories, Reclassification criterion information storage for storing reclassification criterion information indicating a criterion for reclassifying the post-classification data after being classified into any category by the classification unit into any one of the plurality of categories And Based on the reclassification criteria information, the classified data is reclassified into any category, it is determined whether the category after reclassification matches the category after classification by the classification unit, and the categories match.
  • a sample data extraction unit that extracts the classified data as sample data used for learning.
  • sample data since only data in which the category classified by the classification unit and the category reclassified based on the reclassification criterion information match is extracted as sample data, accurate classification is possible without manpower. Sample data can be collected, and classification accuracy can be improved.
  • FIG. 3 is a diagram illustrating an example of a system configuration according to the first embodiment.
  • 1 is a diagram illustrating a configuration example of a mail archive device according to Embodiment 1.
  • FIG. FIG. 4 is a flowchart showing an operation example of the mail classification device according to the first embodiment. The flowchart figure which shows the operation example of the mail extraction part for learning samples which concerns on Embodiment 1.
  • FIG. 3 is a flowchart showing an operation method of the mail archive device according to the first embodiment.
  • FIG. 6 is a flowchart showing an example of a classification rule regeneration operation according to the first embodiment.
  • FIG. 6 is a diagram showing an example of learning sample extraction conditions according to the first embodiment.
  • FIG. 1 is a diagram illustrating a configuration example of a mail archive device according to Embodiment 1.
  • FIG. FIG. 4 is a flowchart showing an operation example of the mail classification device according to the first embodiment. The flowchart figure which shows the operation example of the mail extraction part for learning samples which concerns
  • FIG. 4 is a flowchart showing an example of a collation operation using learning sample extraction conditions according to the first embodiment.
  • FIG. 3 is a flowchart showing an outline of the operation of the mail classification device according to the first embodiment.
  • FIG. 3 is a diagram illustrating a hardware configuration example of the mail classification device according to the first embodiment.
  • e-mail (hereinafter simply referred to as mail) is classified as an example in the mail archive system.
  • the data processing technique according to the present invention is not limited to the mail classification in the mail archive system.
  • the present invention can be similarly applied to a document archive system or a Web archive system in which a classification target document is periodically input.
  • FIG. 1 shows a configuration example of a mail archive system according to the present embodiment.
  • three organizations each including a user terminal and a mail server are shown.
  • Each organization has a domain that is an identifier of each organization.
  • an email address including the domain of the organization to which the user belongs is set.
  • the mail server receives the mail and analyzes the domain included in the destination address of the received mail to determine the transfer destination of the received mail.
  • the mail domain is composed of a target organization domain and two non-target organization domains, but it is not necessary to be limited to the domain configuration of FIG. 1, and any domain configuration can be used. is there.
  • the target organization domain is a domain unique to the organization 301 in which the mail archive system of this embodiment is introduced.
  • the target organization domain 301 may be described.
  • the organization 301 for example, an organization having a unique domain such as a company, a public organization such as a government office, a government office, other organizations, or an internal organization (business office, branch office, etc.) is applicable.
  • the two domains outside the target organization are unique domains of the organization 302 and the organization 303 that are not the organization 301, and are different domains.
  • the domain outside the target organization 302 and the domain outside the target organization may be described.
  • the organization 301 includes a mail server 311 and a user terminal 321.
  • the organization 302 includes a mail server 312 and a user terminal 322.
  • the organization 303 includes a mail server 313 and a user terminal 323.
  • the mail servers 311, 312, and 313 of each organization are connected through a network 330.
  • the user terminals 321, 322, and 323 can send and receive mail through the mail servers 311, 312, and 313 and the network 330.
  • the number of user terminals and the configuration of the mail server are not limited to the configuration in FIG. 1, and an arbitrary number of user terminals and a mail server with an arbitrary configuration can be applied.
  • the mail server 311 is connected to the mail archive device 200.
  • the mail archive device 200 includes a mail classification device 100.
  • the mail classification device 100 is an example of a data processing device.
  • FIG. 2 shows a configuration example of the mail archive apparatus 200 according to the present embodiment.
  • the mail archive device 200 includes a mail storage database 210 and a mail classification device 100.
  • the mail archive device 200 duplicates the newly input mail 201 that is about to pass through the mail server 311 and stores it in the mail storage database 210.
  • Mail replication may be performed by the mail server 311.
  • the mail classification device 100 classifies the mail stored in the mail storage database 210 into a plurality of classification categories.
  • the classification results are accumulated in the classification result accumulation database 130.
  • the mail stored in the mail storage database 210 is given a mail ID for uniquely identifying the mail, and the mail stored in the mail storage database 210 and the classification result by this mail ID.
  • the mail classification results stored in the storage database 130 are associated with each other.
  • the system administrator can query the mail storage database 210 and the classification result storage database 130 to refer to the mail classification result and perform mail search using the classification result as a key.
  • the mail classification device 100 is activated every period set by the system administrator, and the mail accumulated in the mail accumulation database 210 during the activation period is classified, so that all mails that are continuously input can be processed. It is possible to operate such that classification processing is performed.
  • the mail classification device 100 stores a classification target mail extraction unit 110, a classification unit 120, a classification result storage database 130, a learning sample mail extraction unit 140, a learning unit 150, a classification rule storage unit 160, and a learning sample extraction condition 170.
  • the learning sample extraction condition storage unit 180 is configured. There is no particular limitation on the number of classification categories for classifying mail, and an arbitrary natural number of 2 or more can be set.
  • the learning sample extraction condition 170 is set by a system administrator or the like.
  • the classification target mail extraction unit 110 issues an inquiry sentence to the mail storage database 210 to the mail storage database 210, and extracts a mail corresponding to the inquiry sentence from the mail storage database 210 as a classification target mail.
  • the classification target mail extraction unit 110 inputs a classification target mail for each predetermined activation cycle (processing cycle).
  • the classification target mail extraction unit 110 is an example of a data input unit.
  • the classification unit 120 uses the classification rule generated by the learning unit 150 (stored in the classification rule storage unit 160) to classify the classification target mail extracted by the classification target mail extraction unit 110 into a plurality of classification categories.
  • the data is classified into one of the classification categories, and the classification result is stored in the classification result accumulation database 130 in association with the mail ID.
  • the learning sample mail extraction unit 140 extracts learning samples (sample data) used by the learning unit 150 from the mails stored in the mail storage database 210 and classified by the classification unit 120. .
  • An email extracted as a learning sample of a certain category category is an email that matches the learning sample extraction condition 170 of the corresponding category category, and the classification result obtained by the classification unit 120 matches the corresponding category category.
  • the learning sample mail extraction unit 140 reclassifies the mail (post-classification data) classified by the classification unit 120 based on the learning sample extraction condition 170 into one of the classification categories, It is determined whether or not the category after classification by the classification unit 120 matches. If the category matches, the mail (post-classification data) is extracted as a learning sample (sample data) used for learning.
  • the learning sample mail extraction unit 140 is an example of a sample data extraction unit.
  • the learning sample mail extraction unit 140 does not newly extract the learning sample mail from the mail storage database 210, but diverts the mail extracted by the classification target mail extraction unit 110, thereby the mail storage database 210. Time to extract mail from can be reduced.
  • the classification result used in the learning sample mail extraction unit 140 is not extracted from the classification result accumulation database 130, but the output from the classification unit 120 is directly input, so that the classification result is collected from the classification result accumulation database 130. Time to extract can be reduced.
  • the mail (classified data) after being classified into one of the classification categories by the classification unit 120 is reclassified into one of the classification categories by the learning sample mail extraction unit 140.
  • This is information indicating a criterion for performing reclassification criterion information.
  • the learning sample extraction condition storage unit 180 that stores the learning sample extraction condition 170 is an example of a reclassification criterion information storage unit.
  • the learning sample extraction condition 170 is provided for each classification category.
  • the learning sample extraction condition 170 can include a search expression based on a regular expression, for example. By using regular expressions, it becomes possible to search for more complex patterns in addition to simple keywords, and the flexibility of the learning sample extraction condition 170 can be improved.
  • the learning sample extraction condition 170 used in the learning sample mail extraction unit 140 may be for extracting and collating mail attributes.
  • a header field defined in Request For Comments (RFC) 2822, an envelope defined in RFC2821, or a header field uniquely defined for each mail server system is used. Examples of header fields include From, To, Cc (sender, recipient, broadcast recipient address), Subject (subject), Date (transmission date / time), Received (reception date / time), and the like.
  • the learning sample extraction condition 170 used in the learning sample mail extracting unit 140 may be for extracting and collating by extracting the file name of the mail attachment file or the text in the attachment file.
  • MIME Multipurpose Internet Mail Extension
  • the learning unit 150 inputs the mail extracted for each category by the learning sample mail extracting unit 140 as learning sample data of each category, and the classification unit 120 generates a classification rule used for classification.
  • the classification unit 120 and the learning unit 150 can use a generally known document classification method using arbitrary machine learning.
  • a document classification method using a plurality of machine learnings can also be used.
  • the classification rule storage unit 160 stores the classification rules generated by the learning unit 150.
  • the classification result storage database 130 can also store attribute information other than the classification result.
  • the classification unit 120 can generate a score (accuracy information) representing the certainty of the classification algorithm used (accuracy that the classification target email is classified into the correct category).
  • generates a score it can utilize when a system administrator refers a classification result by accumulating this score for every classification algorithm currently used.
  • the collation result of the learning sample extraction condition 170 in the learning sample mail extraction unit 140 can be accumulated in the classification result accumulation database 130. As a result, when it is desired to regenerate the classification rule, it is possible to extract the learning sample mail without performing the collation by the learning sample extraction condition 170 again.
  • a classification rule is used in which if the word “secret” is included in the body of the email, it is classified as a confidential category, and if the word “secret” is not included, it is classified as a non-confidential category. To do.
  • the email is reclassified into the confidential category, and the email of the target non-organization domain 302 or the target organization domain 303 is sent. If an address is included, a learning sample extraction condition 170 for reclassifying an email into a non-confidential category is used.
  • the classification target mail extraction unit 110 inputs a classification target mail from the mail storage database 210 for each processing cycle (S601).
  • the classification unit 120 classifies the classification target mail input by the classification target mail extraction unit 110 into a classified category or a non-classified category according to the classification rule (S602) (classification process), and the classification result corresponds to the mail ID. In addition, it is stored in the classification result storage database 130.
  • the classification unit 120 classifies an email into a confidential category or a non-confidential category depending on whether or not the word “secret” is included in the body of the email.
  • the learning sample mail extraction unit 140 reads the learning sample extraction condition 170 from the learning sample extraction condition storage unit 180 (S603) (reading process).
  • the learning sample mail extraction unit 140 inputs, for example, the classified mail from the classification unit 120, reclassifies the classified mail according to the criterion of the learning sample extraction condition 170, and reclassifies the category and classification unit.
  • the category after classification by 120 is compared (S604) (sample data extraction process).
  • the learning sample mail extracting unit 140 determines whether the mail is classified or not based on whether the mail address field of the target non-organization domain 302 or the target non-organization domain 303 is included in the mail address field after classification. Reclassify to sensitive category.
  • the learning sample mail extraction unit 140 determines whether or not the reclassification category and the classification category by the classification unit 120 match (S605) (sample data extraction processing), and uses the mail with the matching category as a learning sample. Extract (S606) (sample data extraction process). If the categories do not match, the process proceeds to S607.
  • the learning sample mail extraction unit 140 determines whether or not the processing of S ⁇ b> 604 to S ⁇ b> 606 has been performed on all classified mails, and if there is an unprocessed mail, returns the process to S ⁇ b> 604. If all emails have been processed, the learning unit 150 generates (updates) a classification rule using the learning sample emails extracted by the learning sample email extraction unit 140 (S608).
  • the word “secret” may be used in the text, and conversely, even if it is a confidential mail, the word “secret” may not be used in the mail text.
  • the word “secret” is included in the text, so that it is classified into the confidential category by the classification unit 120, and the target organization domain 301 is included in the address field. Since only the email addresses belonging to are included, the email reclassified by the learning sample email extracting unit 140 into the confidential category is extracted as the confidential category learning sample.
  • the classification unit 120 since it does not contain the word “secret” in the body, it is classified into the non-confidential category by the classification unit 120, and since the address field includes an email address belonging to a domain other than the target organization domain 301, the email for the learning sample
  • the mail reclassified into the non-confidential category by the extraction unit 140 is extracted as a learning sample of the non-confidential category.
  • the mail classification device 100 is activated in accordance with the activation cycle (processing cycle) preset by the system administrator or the like (S101).
  • the classification target mail extraction unit 110 extracts mail stored in the mail storage database 210 during one cycle from the previous activation of the mail classification device 100 to the current activation as classification target mail (S102).
  • the classification unit 120 classifies the mail extracted as the classification target mail into each classification category, and accumulates the classification result in the classification result accumulation database 130 (S103).
  • the learning sample mail extraction unit 140 extracts the learning sample mail using the learning sample extraction condition 170 set for each classification category and the classification result by the classification unit 120 (S104).
  • the learning unit 150 learns the learning sample mail extracted for each classification category, and generates or updates the classification rule. The above series of operations is repeated every time the mail classification device 100 is activated.
  • FIG. 4 shows an example in which there are two classification categories, category A and category B, but the same operation is performed when the number of categories is three or more.
  • the learning sample mail extraction unit 140 performs collation (reclassification) on the input mail based on the learning sample extraction condition 170 for each classification category (S201).
  • collation when it matches the category A (S202) and the classification result of the input mail by the classification unit 120 is category A (S203), the learning sample mail extraction unit 140 Mail is extracted as a learning sample of category A (S204).
  • the learning sample mail extraction unit 140 when it matches the category B (S202), and when the classification result of the input mail by the classification unit 120 is category B (S205), the learning sample mail extraction unit 140 The input mail is extracted as a learning sample of category B (S206). In other cases, the process ends without extracting the input mail as a learning sample.
  • score information (accuracy information) indicating the probability of classification output by the classification algorithm used in the classification unit 120 is associated with the input mail in addition to the classification result, S204 in FIG.
  • S206 it is possible not to extract mail whose score is equal to or higher than a certain threshold as a learning sample of the corresponding algorithm.
  • the score (accuracy) indicated in the score information is less than a certain level, the input email is extracted as a learning sample, and if the score (accuracy) indicated in the score information is above a certain level, the input email is extracted.
  • the learning time can be shortened by not extracting as a learning sample and not learning a sample that can already be determined with high probability.
  • an initial learning operation is performed (S301). Immediately after introduction, no classification rule is generated, or even if it is generated, the amount of learning is not sufficient, so even if a classification algorithm using the classification rule is used in the classification unit 120, high-precision classification cannot be performed. Therefore, during the initial learning operation, the classification algorithm using the classification rule is not used by the classification unit 120, and classification is performed by an alternative means such as character string matching that does not use the classification rule.
  • the learning sample mail extraction unit 140 extracts the learning sample and updates the classification rule as usual. When the learning amount becomes a sufficient amount by the initial learning operation (S301) (S302), the process proceeds to the main operation (S303).
  • This operation is a normal operation using a classification algorithm using a classification rule in the classification unit 120. Even in this operation, the learning sample mail extraction unit 140 extracts the learning sample and updates the classification rule. Further, for example, when the operation time has passed to some extent and the classification rule becomes old (S304), the old classification rule can be discarded and a new classification rule can be regenerated (S305).
  • the length of the implementation period of the initial learning operation (S301) is set in advance by a system administrator or the like.
  • the setting can be made based on the actual operation time of the initial learning operation or the total number of classification processing mails. For example, one week after the introduction of the mail archiving apparatus 200 is allocated as the period of the initial learning operation, or the initial learning operation is performed for the first million mails after the introduction of the mail archiving apparatus 200.
  • This classification rule regeneration operation (S305) is an operation for regenerating a new classification rule in a routine different from the main operation (S303, S101 to S105 in FIG. 3).
  • the classification target mail extraction unit 110 issues an inquiry to the mail storage database 210, and extracts mails that are candidates for learning sample mail (S401).
  • the learning sample mail candidates can be determined such as an appropriate number of mails in the order from the latest mail, or mails in a range designated by the date and time of mail transmission / reception.
  • the classification unit 120 classifies the mail extracted in S401 according to the classification rule, the learning sample mail extraction unit 140 extracts the learning sample in the same procedure as in FIG. 4 (S402), and the learning unit 150 uses the learning sample. Learning is performed to regenerate classification rules (S403).
  • the learning sample extraction procedure (S402) is omitted, and the learning sample mail directly from the mail accumulation database 210. Can be extracted.
  • the mail 201 input to the mail archive device 200 is first subjected to the classification process, and then collation based on the preset learning sample extraction condition 170 ( (Reclassification) By extracting only those whose results match the classification results as learning samples, it is not necessary to manually create a learning sample, and an email that contains the contents of another category by mistake. As a result, it is possible to provide a mail classification device that can improve the classification accuracy.
  • FIG. 7 shows an example of the learning sample extraction condition 170 according to the present embodiment.
  • the number of classification categories is two, that is, a confidential category and a non-confidential category, and mail belonging to the confidential category is included in the target organization domain 301.
  • Mail that is exchanged only with the Internet and mail that belongs to the non-confidential category are defined as mail that is exchanged with domains outside the target organization.
  • the learning sample extraction condition 170 for the confidential category and the non-confidential category includes two search expressions S1 and S2, and is described as a regular expression.
  • the search formula S1 is a search formula that counts the number of email addresses having the target organization domain 301 among the email addresses described in the From, To, and Cc header fields of the email.
  • the search formula S2 is a search formula that counts up the total number of email addresses described in the From, To, and Cc header fields of the email.
  • the learning sample mail extraction unit 140 compares the input mail with the search formula S1 (S501) and the search formula S2 (S502), and compares the number of mail addresses obtained by both (S503). When the number of both matches, since the email addresses described in From, To, and Cc are all target organization domains, the learning sample mail extracting unit 140 sets the input mail as the learning sample extraction condition of the confidential category. It is determined that they match (S504), and the input mail is reclassified into the confidential category. On the other hand, when the numbers of both do not match, the email address described in From, To, and Cc includes the domain outside the target organization, so the learning sample mail extraction unit 140 determines that the input mail is a non-confidential category. (S505), the input mail is reclassified into the non-confidential category.
  • the target organization domain need not be one, and two or more domains can be designated.
  • the mail belonging to the confidential category is mail exchanged only within the domain specified by the search formula S1.
  • mail belonging to the non-confidential category is mail that is exchanged with a domain not specified in the search formula S1.
  • the combination of the header fields From, To, and Cc used in the search expressions S1, S2 can be freely changed. For example, it can be changed in consideration of Bcc (Blind Carbon Copy) of mail.
  • Bcc Black Carbon Copy
  • X-Env-Recipient is defined as From, To, Cc, and X-Env-Recipient.
  • this mail is considered to have been sent outside the target organization, and it is determined that it matches the learning sample extraction condition of the non-confidential category.
  • From and To may be described without considering Cc. In this case, even if a mail is transmitted to a domain outside the target organization using Cc, this mail is not regarded as a mail transmitted outside the target organization, and it is determined that the learning sample extraction condition of the confidential category is met.
  • the mail in this example is classified into a confidential category according to the classification rule, and is reclassified into a non-confidential category according to the determination based on the search formulas S1 and S2. Therefore, in the present embodiment, the above problem can be avoided.
  • a document classification device for classifying an input document into one of a plurality of classification categories, Means for inputting a plurality of sample documents; Means for pre-classifying an input document into one of the classification categories by an automatic document classification device selected in advance; Means for extracting, as a sample document, a document that matches the sample document extraction condition from a document pre-classified into a classification category corresponding to the sample document extraction condition by a sample document extraction condition set in advance for each classification category; Means for generating or updating a classification rule by performing machine learning using at least one algorithm using a sample document extracted for each classification category; Means for inputting one or more documents to be classified; Means for classifying the input classification target document into one of a plurality of classification categories using the generated or updated classification rules; A document classification apparatus having means for outputting a classification result of a classification target document has been described.
  • a document classification device in which classification target documents are periodically input, Classify the classification target document according to the input cycle of the classification target document, According to the sample document extraction conditions, sample documents that match the sample document extraction conditions are extracted from the classification target documents classified for each category, A document classification apparatus that performs classification of a classification target document input in the next period using a classification rule generated or updated by machine learning using an extracted sample document has been described.
  • the document classification apparatus that determines the length of the initial learning operation period based on the number of classified documents to be classified has been described.
  • the document classification device that determines the length of the initial learning operation period based on the operation time of the system has been described.
  • a classification score representing the certainty of classification is assigned to each algorithm using the classification rule, If the classified document to be classified matches the sample document extraction condition set in the classification category and the classification score by a certain algorithm is equal to or higher than a predetermined threshold, machine learning corresponding to the algorithm is performed.
  • a document classification device that is not implemented has been described.
  • a database for storing document information corresponding to the classification result By issuing a query statement to the database, it has a function to retrieve classified documents classified by classification category, The sample document is extracted from the extracted classified document according to the sample document extraction condition, A document classification device that regenerates classification rules by performing machine learning using at least one algorithm using sample documents extracted for each classification category has been described.
  • the classification target document is an email
  • the plurality of classification categories include confidential categories and non-sensitive categories
  • the sample document extraction condition associated with the confidential category is a condition for extracting an email having a specific domain for all sender or recipient email addresses
  • the document classification apparatus wherein the sample document extraction condition associated with the non-confidential category is a condition for extracting mail including one or more mail addresses that do not have a specific domain among sender or recipient mail addresses. did.
  • search condition consisting of two search expressions, a search expression 1 and a search expression 2, described in regular expressions.
  • Search formula 1 counts the number of email addresses having a specific domain among the email addresses described in a specific header field of the email.
  • Search formula 2 counts the total number of email addresses listed in the specific header field of the email,
  • the sample document extraction condition associated with the confidential category is a condition for comparing the number of cases obtained by the search expression 1 and the number of cases obtained by the search expression 2 and extracting the same mail.
  • the sample document extraction condition associated with the non-confidential category is a condition for comparing the number of cases obtained by the search expression 1 and the number of cases obtained by the search expression 2 and extracting both different mails. .
  • FIG. 10 is a diagram illustrating an example of hardware resources of the mail classification device 100 illustrated in the first embodiment. Note that the configuration of FIG. 10 is merely an example of the hardware configuration of the mail classification device 100, and the hardware configuration of the mail classification device 100 is not limited to the configuration illustrated in FIG. Also good.
  • the mail classification device 100 includes a CPU 911 (also referred to as a central processing unit, a central processing unit, a processing unit, an arithmetic unit, a microprocessor, a microcomputer, and a processor) that executes a program.
  • the CPU 911 is connected to, for example, a ROM (Read Only Memory) 913, a RAM (Random Access Memory) 914, a communication board 915, a display device 901, a keyboard 902, a mouse 903, and a magnetic disk device 920 via a bus 912. Control hardware devices.
  • the CPU 911 may be connected to an FDD 904 (Flexible Disk Drive), a compact disk device 905 (CDD), a printer device 906, and a scanner device 907.
  • FDD 904 Flexible Disk Drive
  • CDD compact disk device
  • printer device 906 printer device 907
  • a storage device such as an optical disk device or a memory card (registered trademark) read / write device may be used.
  • the RAM 914 is an example of a volatile memory.
  • the storage media of the ROM 913, the FDD 904, the CDD 905, and the magnetic disk device 920 are an example of a nonvolatile memory. These are examples of the storage device.
  • the “classification result accumulation database 130”, “classification rule storage unit 160”, and “learning sample extraction condition storage unit 180” described in the first embodiment are realized by the RAM 914, the magnetic disk device 920, and the like.
  • a communication board 915, a keyboard 902, a mouse 903, a scanner device 907, an FDD 904, and the like are examples of input devices.
  • the communication board 915, the display device 901, the printer device 906, and the like are examples of output devices.
  • the communication board 915 is connected to a mail server as shown in FIG.
  • the communication board 915 may be connected to, for example, a LAN (local area network), the Internet, a WAN (wide area network), a SAN (storage area network), or the like.
  • the magnetic disk device 920 stores an operating system 921 (OS), a window system 922, a program group 923, and a file group 924.
  • the programs in the program group 923 are executed by the CPU 911 using the operating system 921 and the window system 922.
  • the RAM 914 temporarily stores at least part of the operating system 921 program and application programs to be executed by the CPU 911.
  • the RAM 914 stores various data necessary for processing by the CPU 911.
  • the ROM 913 stores a BIOS (Basic Input Output System) program
  • the magnetic disk device 920 stores a boot program.
  • BIOS Basic Input Output System
  • the BIOS program in the ROM 913 and the boot program in the magnetic disk device 920 are executed, and the operating system 921 is activated by the BIOS program and the boot program.
  • the program group 923 executes the functions described as “ ⁇ parts” in the description of the first embodiment (except for “classification rule storage unit 160” and “learning sample extraction condition storage unit 180”). Program to be stored. The program is read and executed by the CPU 911.
  • Information, data, signal values, variable values, and parameters stored in a storage medium such as a disk or memory are read out to the main memory or cache memory by the CPU 911 via a read / write circuit, and extracted, searched, referenced, compared, and calculated. Used for CPU operations such as calculation, processing, editing, output, printing, and display.
  • Information, data, signal values, variable values, and parameters are stored in the main memory, registers, cache memory, and buffers during the CPU operations of extraction, search, reference, comparison, calculation, processing, editing, output, printing, and display. It is temporarily stored in a memory or the like.
  • the arrows in the flowchart described in the first embodiment mainly indicate input and output of data and signals.
  • the data and signal values are the RAM 914 memory, the FDD 904 flexible disk, the CDD 905 compact disk, and the magnetic disk device. It is recorded on a recording medium such as a 920 magnetic disk, other optical disks, minidisks, and DVDs. Data and signals are transmitted online via a bus 912, signal lines, cables, or other transmission media.
  • ⁇ unit in the description of the first embodiment may be “ ⁇ circuit”, “ ⁇ device”, “ ⁇ equipment”, and “ ⁇ step”, “ ⁇ ” It may be “procedure” or “processing”. That is, the data processing method according to the present invention can be realized by the steps, procedures, and processes shown in the flowchart described in the first embodiment. Further, what is described as “ ⁇ unit” may be realized by firmware stored in the ROM 913. Alternatively, it may be implemented only by software, or only by hardware such as elements, devices, substrates, and wirings, by a combination of software and hardware, or by a combination of firmware.
  • Firmware and software are stored as programs in a recording medium such as a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, and a DVD.
  • the program is read by the CPU 911 and executed by the CPU 911. That is, the program causes the computer to function as “ ⁇ unit” in the first embodiment. Alternatively, the computer executes the procedure and method of “to unit” in the first embodiment.
  • the mail classification apparatus 100 includes a CPU as a processing device, a memory as a storage device, a magnetic disk, a keyboard as an input device, a mouse, a communication board, a display device as an output device, a communication board, and the like.
  • a CPU as a processing device
  • a memory as a storage device
  • a magnetic disk as a storage device
  • a keyboard as an input device
  • a mouse a communication board
  • a display device as an output device
  • a communication board a communication board
  • 100 mail classification device 110 classification target mail extraction unit, 120 classification unit, 130 classification result storage database, 140 learning sample mail extraction unit, 150 learning unit, 160 classification rule storage unit, 170 learning sample extraction condition, 180 learning sample Extraction condition storage unit, 200 mail archive device, 201 new input mail, 210 mail storage database, 301 organization, 302 organization, 303 organization, 311 mail server, 312 mail server, 313 mail server, 321 user terminal, 322 user terminal, 323 user terminal, 330 network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 分類部120が分類ルールに従ってメールを複数のカテゴリのうちのいずれかに分類し、学習サンプル用メール抽出部140が学習サンプル抽出条件170に従ってメールを複数のカテゴリのうちのいずれかに再分類し、学習サンプル用メール抽出部140は、分類部120により分類されたカテゴリと学習サンプル抽出条件170に従った再分類のカテゴリが一致するメールのみ学習サンプル用メールとして抽出し、学習部150が学習サンプル用メール抽出部140により抽出された学習サンプル用メールを用いた機械学習を行って、分類ルールを更新する。

Description

データ処理装置及びデータ処理方法及びプログラム
 本発明は、データを複数のカテゴリのいずれかに分類する技術に関する。
 データを複数のカテゴリへ自動的に分類するための方式の1つとして、機械学習による自動分類が良く用いられる。
 以下では、文書データ(以下、単に文書という)を例として機械学習による自動分類技術を説明する。
 機械学習を用いた文書自動分類方式では、予め複数の分類カテゴリに分けられた学習サンプル文書を用いて、カテゴリごとの特徴を学習し、その学習結果に基づいて分類対象文書の分類を行う。
 したがって、機械学習による文書分類の精度は学習サンプル文書に依存する。
 特許文献1においては、学習サンプル文書を実験的に分類し、分類間違いの文書を選別して除去し、分類ルールを改善することで、分類精度を高めるための技術が開示されている。
特開2002-202984号公報
 しかしながら、特許文献1のような方法では、正しく分類された学習サンプル文書を大量に集めるには人手の手間がかかるという課題がある。
 また、分類間違いの文書を除去するにも人手の手間がかかるという課題がある。
 この発明は、上記のような課題を解決することを主な目的の一つとしており、人手による手間をかけることなく正確な分類を可能にするサンプルデータを収集し、分類精度を高めることができるデータ分類技術を提供することを主な目的とする。
 本発明に係るデータ処理装置は、
 データを複数カテゴリのうちのいずれかのカテゴリに分類する分類部と、
 前記分類部によりいずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を記憶する再分類基準情報記憶部と、
 前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと前記分類部による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出するサンプルデータ抽出部とを有することを特徴とする。
 本発明によれば、分類部により分類されたカテゴリと再分類基準情報に基づいて再分類されたカテゴリとが一致するデータのみをサンプルデータとして抽出するので、人手をかけることなく正確な分類を可能にするサンプルデータを収集することができ、分類精度を高めることができる。
実施の形態1に係るシステム構成例を示す図。 実施の形態1に係るメールアーカイブ装置の構成例を示す図。 実施の形態1に係るメール分類装置の動作例を示すフローチャート図。 実施の形態1に係る学習サンプル用メール抽出部の動作例を示すフローチャート図。 実施の形態1に係るメールアーカイブ装置の運用方法を示すフローチャート図。 実施の形態1に係る分類ルールの再生成動作の例を示すフローチャート図。 実施の形態1に係る学習サンプル抽出条件の例を示す図。 実施の形態1に係る学習サンプル抽出条件を用いた照合動作の例を示すフローチャート図。 実施の形態1に係るメール分類装置の動作の概要を示すフローチャート図。 実施の形態1に係るメール分類装置のハードウェア構成例を示す図。
 以下の説明では、メールアーカイブシステムにおいて電子メール(以下、単にメールという)を分類する例にして説明するが、この発明に係るデータ処理技術は、メールアーカイブシステムにおけるメール分類に限定されるものではなく、例えば、周期的に分類対象文書が入力されるような文書アーカイブシステムやWebアーカイブシステムにも同様に適用することができる。
 実施の形態1.
 図1は、本実施の形態に係るメールアーカイブシステムの構成例を示す。
 図1では、それぞれユーザ端末とメールサーバが含まれる3つの組織が示されている。
 各組織には、各組織の識別子であるドメインが設定されている。
 各組織に含まれるユーザ端末には、所属する組織のドメインが含まれるメールアドレスが設定されている。
 また、メールサーバは、メールを受信するとともに、受信したメールの宛先アドレスに含まれているドメインを解析して、受信したメールの転送先を判断する。
 図1においては、便宜上、メールのドメインが対象組織ドメイン、2つの対象組織外ドメインにより構成されるが、図1のドメイン構成に限定される必要はなく、任意のドメイン構成を用いることが可能である。
 対象組織ドメインは、本実施の形態のメールアーカイブシステムが導入される組織301に固有のドメインである。
 なお、以下では、便宜的に、対象組織ドメイン301と表記する場合もある。
 組織301としては、例えば、企業や、官庁、役所等の公的機関、その他団体、あるいは、その内部組織(事業所、支所など)など、固有のドメインを持つ組織が当てはまる。
 また、2つの対象組織外ドメインは、共に組織301ではない組織302及び組織303の固有ドメインであり、互いに異なるドメインである。
 なお、以下では、便宜的に、対象組織外ドメイン302及び対象組織外ドメイン303と表記する場合もある。
 図1の構成において、組織301には、メールサーバ311、ユーザ端末321が含まれる。
 組織302には、メールサーバ312、ユーザ端末322が含まれる。
 組織303には、メールサーバ313、ユーザ端末323が含まれる。
 各組織のメールサーバ311、312、313は、ネットワーク330を通じて接続される。
 ユーザ端末321、322、323は、メールサーバ311、312、313およびネットワーク330を通じてメールを送受信することができる。
 なお、ユーザ端末数やメールサーバの構成については、図1の構成に限らず、任意のユーザ端末数、任意の構成のメールサーバを適用可能である。
 図1の構成において、メールサーバ311は、メールアーカイブ装置200に接続されている。
 メールアーカイブ装置200には、メール分類装置100が含まれる。
 メール分類装置100は、データ処理装置の例である。
 図2は、本実施の形態に係るメールアーカイブ装置200の構成例を示す。
 メールアーカイブ装置200は、メール蓄積用データベース210、およびメール分類装置100を備える。
 メールアーカイブ装置200は、メールサーバ311を通過しようとする新規入力メール201を複製し、メール蓄積用データベース210に蓄積する。
 メールの複製は、メールサーバ311で行われてもよい。
 メール分類装置100は、メール蓄積用データベース210に蓄積されたメールを複数の分類カテゴリに分類する。
 分類結果は、分類結果蓄積用データベース130に蓄積される。
 なお、メール蓄積用データベース210に蓄積されたメールには、メールを一意に識別可能とするためのメールIDが付与されており、このメールIDによりメール蓄積用データベース210に蓄積されたメールと分類結果蓄積用データベース130に蓄積されたメール分類結果とが対応付けられる。
 システム管理者は、メール蓄積用データベース210、および分類結果蓄積用データベース130に問い合わせを行うことで、メールの分類結果の参照、および分類結果をキーとしたメール検索が可能である。
 メール分類装置100をシステム管理者により設定された周期毎に起動し、起動周期の間にメール蓄積用データベース210に蓄積されたメールを分類対象とすることで、継続的に入力されるメール全てに対して分類処理を行うような運用が可能である。
 メール分類装置100は、分類対象メール抽出部110、分類部120、分類結果蓄積用データベース130、学習サンプル用メール抽出部140、学習部150、分類ルール記憶部160および学習サンプル抽出条件170を記憶している学習サンプル抽出条件記憶部180から構成される。
 メールを分類する分類カテゴリ数に特別な制限はなく、2以上の任意の自然数が設定可能である。
 なお、学習サンプル抽出条件170は、システムの管理者等により設定される。
 分類対象メール抽出部110は、メール蓄積用データベース210への問い合わせ文をメール蓄積用データベース210に発行し、問い合わせ文に対応するメールをメール蓄積用データベース210から分類対象メールとして抽出する。
 分類対象メール抽出部110は、所定の起動周期(処理周期)ごとに、分類対象メールを入力する。
 分類対象メール抽出部110はデータ入力部の例である。
 分類部120は、学習部150で生成された分類ルール(分類ルール記憶部160に記憶されている)を使用して、分類対象メール抽出部110により抽出された分類対象メールを複数の分類カテゴリのうちのいずれかの分類カテゴリに分類し、分類結果をメールIDと関連付けて、分類結果蓄積用データベース130に蓄積する。
 学習サンプル用メール抽出部140は、メール蓄積用データベース210に蓄積済みのメールであり、かつ分類部120による分類済みのメールの中から、学習部150で使用する学習サンプル(サンプルデータ)を抽出する。
 ある分類カテゴリの学習サンプルとして抽出されるメールは、対応する分類カテゴリの学習サンプル抽出条件170に合致し、かつ、分類部120で得られた分類結果が対応する分類カテゴリに一致するメールである。
 換言すると、学習サンプル用メール抽出部140は、学習サンプル抽出条件170に基づき、分類部120により分類されたメール(分類後データ)をいずれかの分類カテゴリに再分類し、再分類後のカテゴリと分類部120による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、当該メール(分類後データ)を学習に用いる学習サンプル(サンプルデータ)として抽出する。
 学習サンプル用メール抽出部140は、サンプルデータ抽出部の例である。
 なお、学習サンプル用メール抽出部140は、学習サンプル用メールを新たにメール蓄積用データベース210から取り出すのではなく、分類対象メール抽出部110で抽出したメールを流用することで、メール蓄積用データベース210からメールを抽出する時間を削減することができる。
 同様に、学習サンプル用メール抽出部140で使用する分類結果を分類結果蓄積用データベース130から取り出すのではなく、分類部120からの出力を直接入力することで、分類結果蓄積用データベース130から分類結果を抽出する時間を削減することができる。
 学習サンプル抽出条件170は、前述のように、分類部120によりいずれかの分類カテゴリに分類された後のメール(分類後データ)を学習サンプル用メール抽出部140がいずれかの分類カテゴリに再分類するための基準が示される情報であり、再分類基準情報の例である。
 また、学習サンプル抽出条件170を記憶する学習サンプル抽出条件記憶部180は、再分類基準情報記憶部の例である。
 学習サンプル抽出条件170は、分類カテゴリごとに設けられている。
 また、学習サンプル抽出条件170に、例えば正規表現による検索式を含ませることができる。
 正規表現とすることで、単純なキーワードに加え、より複雑なパターンを検索することが可能となり、学習サンプル抽出条件170の柔軟性を向上させることができる。
 また、学習サンプル用メール抽出部140で使用する学習サンプル抽出条件170は、メールの属性を抽出し、照合するためのものであっても良い。
 Request For Comments(RFC)2822にて定義されるヘッダフィールドやRFC2821にて定義されるエンベロープ、あるいは、メールサーバシステム毎に独自に定義されるヘッダフィールドなどを用いる。
 ヘッダフィールドの例としては、From、To、Cc(送信者、受信者、同報受信者アドレス)や、Subject(件名)、Date(送信日時)、Received(受信日時)などがある。
 また、学習サンプル用メール抽出部140で使用する学習サンプル抽出条件170は、メールの添付ファイルのファイル名や添付ファイル内のテキストを抽出して照合を行うためのものであってもよい。
 RFC2045-2049で定義されているMultipurpose Internet Mail Extension(MIME)の形式などによってエンコードされている添付ファイルの場合、MIMEヘッダから添付ファイル名を抽出することが可能であり、また、ボディをデコードして添付ファイルを抽出し、その添付ファイルからテキストを抽出することが可能である。
 学習部150は、学習サンプル用メール抽出部140によりカテゴリ毎に抽出されたメールをそれぞれのカテゴリの学習サンプルデータとして入力し、分類部120にて分類に使用する分類ルールを生成する。
 分類部120および学習部150では、一般に知られている任意の機械学習を用いた文書分類方法を用いることができる。
 また、複数の機械学習を用いた文書分類方法を用いることもできる。
 分類ルール記憶部160は、学習部150により生成された分類ルールを記憶する。
 分類結果蓄積用データベース130には、分類結果以外の属性情報を蓄積することもできる。
 例えば、分類部120は、使用している分類アルゴリズムが分類の確からしさ(分類対象メールが正しいカテゴリに分類されている確度)を表すスコア(確度情報)を生成することができる。
 そして、分類部120がスコアを生成する場合、使用している分類アルゴリズム毎にこのスコアを蓄積することで、システム管理者が分類結果を参照するときに活用することができる。
 また、学習サンプル用メール抽出部140における学習サンプル抽出条件170の照合結果を分類結果蓄積用データベース130に蓄積することもできる。
 これにより、分類ルールを再生成したいときなどに、再度、学習サンプル抽出条件170による照合を行うことなく、学習サンプル用メールの抽出が可能となる。
 次に、本実施の形態に係るメール分類装置100の動作の概要を図9を用いて説明する。
 なお、ここでは、メールを機密メールのカテゴリ(以下、機密カテゴリという)と非機密メールのカテゴリ(以下、非機密カテゴリという)に分類する例を用いて説明する。
 本例では、メールの本文に「秘密」という語が含まれていれば機密カテゴリに分類し、「秘密」という語が含まれていなければ非機密カテゴリに分類するという分類ルールが用いられるものとする。
 また、メールのヘッダに含まれているアドレスフィールドに対象組織ドメイン301のメールアドレスのみが含まれている場合はメールを機密カテゴリに再分類し、対象組織外ドメイン302又は対象組織外ドメイン303のメールアドレスが含まれている場合はメールを非機密カテゴリに再分類するという学習サンプル抽出条件170が用いられるものとする。
 図9において、まず、分類対象メール抽出部110が、処理周期ごとに、メール蓄積用データベース210から分類対象メールを入力する(S601)。
 次に、分類部120が、分類対象メール抽出部110により入力された分類対象メールを分類ルールに従って、機密カテゴリ又は非機密カテゴリに分類し(S602)(分類処理)、分類結果をメールIDと対応付けて分類結果蓄積用データベース130に蓄積する。
 分類部120は、前述のように、メールの本文に「秘密」という語を含むか否かによりメールを機密カテゴリか非機密カテゴリかに分類する。
 次に、学習サンプル用メール抽出部140が、学習サンプル抽出条件記憶部180から学習サンプル抽出条件170を読み出す(S603)(読み出し処理)。
 次に、学習サンプル用メール抽出部140が、例えば分類部120から分類後のメールを入力し、学習サンプル抽出条件170の基準に従って分類後のメールを再分類し、再分類後のカテゴリと分類部120による分類後のカテゴリとを比較する(S604)(サンプルデータ抽出処理)。
 学習サンプル用メール抽出部140は、前述のように、分類後のメールのアドレスフィールドに対象組織外ドメイン302又は対象組織外ドメイン303のメールアドレスが含まれているか否かによりメールを機密カテゴリか非機密カテゴリかに再分類する。
 次に、学習サンプル用メール抽出部140は、再分類カテゴリと分類部120による分類カテゴリが一致するか否かを判断し(S605)(サンプルデータ抽出処理)、カテゴリが一致するメールを学習サンプルとして抽出する(S606)(サンプルデータ抽出処理)。
 カテゴリが一致しない場合は、S607に進む。
 S607では、学習サンプル用メール抽出部140は、全ての分類後のメールに対してS604からS606の処理を行ったか否かを判断し、未処理のメールがある場合はS604に処理を戻す。
 全てのメールを処理済みであれば、学習部150が学習サンプル用メール抽出部140により抽出された学習サンプル用メールを用いて分類ルールを生成(更新)する(S608)。
 機密メールでなくても本文に「秘密」という語を用いる場合もあり、また、逆に機密メールであってもメールの本文に「秘密」という語を用いていない場合もある。
 図9のフローチャートに示すように、本実施の形態に係るメール分類装置100では、本文に「秘密」という語を含むため分類部120により機密カテゴリに分類され、また、アドレスフィールドに対象組織ドメイン301に属するメールアドレスのみが含まれているため学習サンプル用メール抽出部140により機密カテゴリに再分類されたメールを機密カテゴリの学習サンプルとして抽出する。
 また、本文に「秘密」という語を含まないため分類部120により非機密カテゴリに分類され、また、アドレスフィールドに対象組織ドメイン301以外のドメインに属するメールアドレスが含まれているため学習サンプル用メール抽出部140により非機密カテゴリに再分類されたメールを非機密カテゴリの学習サンプルとして抽出する。
 次に、本実施の形態に係るメール分類装置100の動作の詳細を図3から図8を用いて説明する。
 図3に示すように、システム管理者等により予め設定された起動周期(処理周期)にあわせて、メール分類装置100が起動される(S101)。
 分類対象メール抽出部110は、メール分類装置100の前回起動時から今回起動時までの1周期の間にメール蓄積用データベース210に蓄積されたメールを分類対象メールとして抽出する(S102)。
 分類部120は、分類対象メールとして抽出されたメールを各分類カテゴリへと分類し、分類結果を分類結果蓄積用データベース130に蓄積する(S103)。
 学習サンプル用メール抽出部140は、分類カテゴリ毎に設定された学習サンプル抽出条件170と、分類部120による分類結果を用いて学習サンプル用メールを抽出する(S104)。
 学習部150は、分類カテゴリ別に抽出された学習サンプル用メールを学習し、分類ルールを生成、または更新する。
 以上の一連の動作を、メール分類装置100の起動周期毎に繰り返す。
 学習サンプル用メール抽出部140の動作(S104)を図4を用いてより詳細に説明する。
 図4では分類カテゴリがカテゴリAとカテゴリBの2つのときの例を示しているが、カテゴリ数が3以上の場合も同様に動作する。
 まず、学習サンプル用メール抽出部140は、入力されたメールに対して、分類カテゴリ別の学習サンプル抽出条件170による照合(再分類)を実施する(S201)。
 照合(再分類)の結果、カテゴリAに合致した場合(S202)、かつ、分類部120による入力メールの分類結果がカテゴリAであった場合(S203)、学習サンプル用メール抽出部140は、入力メールをカテゴリAの学習サンプルとして抽出する(S204)。
 一方、照合(再分類)の結果、カテゴリBに合致した場合(S202)、かつ、分類部120による入力メールの分類結果がカテゴリBであった場合(S205)、学習サンプル用メール抽出部140は、入力メールをカテゴリBの学習サンプルとして抽出する(S206)。
 その他の場合、入力メールを学習サンプルとして抽出せずに終了する。
 さらに、入力メールに分類結果の他に、分類部120にて使用している分類アルゴリズムが出力する分類の確からしさを表すスコア情報(確度情報)が対応付けられている場合、図4のS204、および、S206において、スコアがある閾値以上であるメールを、対応するアルゴリズムの学習サンプルとして抽出しないようにすることができる。
 つまり、スコア情報に示されているスコア(確度)が一定レベル未満であれば入力メールを学習サンプルとして抽出し、スコア情報に示されているスコア(確度)が一定レベル以上であれば入力メールを学習サンプルとして抽出しないようにし、既に高確率で正しい判定が可能なサンプルを学習しないようにすることで、学習時間の短縮が可能となる。
 次に、実施の形態1におけるメールアーカイブ装置200の運用方法を図5を用いて説明する。
 メールアーカイブ装置200を導入した直後は、初期学習運用を行う(S301)。
 導入直後は分類ルールが生成されていない、あるいは、生成されていても学習量が十分でないため、分類部120において分類ルールを用いた分類アルゴリズムを使用しても、高精度の分類は行えない。
 従って、初期学習運用時は分類ルールを用いた分類アルゴリズムを分類部120で使用せず、分類ルールを用いない文字列照合などの代替手段で分類を実施する。
 学習サンプル用メール抽出部140による学習サンプルの抽出及び分類ルールの更新は通常通り行う。
 初期学習運用(S301)により学習量が十分な量になった場合(S302)、本運用(S303)に移行する。
 本運用は、分類部120において分類ルールを用いた分類アルゴリズムを使用する通常の運用である。本運用においても、学習サンプル用メール抽出部140による学習サンプルの抽出及び分類ルールの更新が行われる。
 また、例えば、運用時間がある程度経過し、分類ルールが古くなった場合(S304)に、古い分類ルールを破棄し、新たに分類ルールを再生成することができる(S305)。
 初期学習運用(S301)の実施期間の長さは、システム管理者等が予め設定する。
 設定に際しては、初期学習運用の実運用時間、あるいは、分類処理メールの総件数により設定できる。
 例えば、メールアーカイブ装置200導入後1週間を初期学習運用の期間として割り当てる、あるいは、メールアーカイブ装置200導入からはじめの100万件のメールについては初期学習運用とするなどである。
 次に、分類ルール再生成の動作(S305)を図6を用いてより詳細に説明する。
 この分類ルール再生成の動作(S305)は、本運用(S303、図3のS101-S105)とは別ルーティンにて、新たに分類ルールを再生成する動作である。
 まず、分類対象メール抽出部110が、メール蓄積用データベース210に問い合わせ文を発行し、学習サンプル用メールの候補となるメールを抽出する(S401)。学習サンプル用メールの候補は、直近のメールから新しい順に適当な件数のメール、あるいは、メールの送受信日時により範囲指定された範囲のメール、のように決定することができる。
 S401により抽出されたメールを分類部120が分類ルールに従って分類するとともに、図4と同様の手順で学習サンプル用メール抽出部140が学習サンプルを抽出し(S402)、学習部150が学習サンプルを用いて学習を実施し、分類ルールを再生成する(S403)。
 分類結果蓄積用データベース130に、学習サンプル抽出条件170の照合結果が既に蓄積されている場合は、学習サンプルを抽出する手順(S402)を省略し、メール蓄積用データベース210から直接学習サンプル用のメールを抽出することができる。
 以上で述べたように、実施の形態1においては、メールアーカイブ装置200に入力されたメール201に対して、まず分類処理を実施し、続いて、予め設定された学習サンプル抽出条件170による照合(再分類)結果と分類結果とが一致するもののみを学習サンプルとして抽出することにより、人手による学習サンプル作成の手間がかからず、かつ、誤って別カテゴリの内容が記述されたようなメールを学習サンプルから除外することができ、結果として、分類精度を高めるメール分類装置を提供できる。
 次にメール中の機密情報を検出して分類を行う場合の学習サンプル抽出条件の設定例を図7を用いて説明する。
 図7は、本実施の形態に係る学習サンプル抽出条件170の一例を示しており、分類カテゴリ数は機密カテゴリと非機密カテゴリの2つであり、機密カテゴリに属するメールは、対象組織ドメイン301内でのみやりとりされるメール、非機密カテゴリに属するメールは対象組織外ドメインとやりとりされるメールと定める。
 機密カテゴリと非機密カテゴリの学習サンプル抽出条件170は、S1とS2の2つの検索式からなり、正規表現として記述される。
 検索式S1は電子メールのヘッダフィールドであるFrom、To、およびCcに記載されたメールアドレスのうち、対象組織ドメイン301を持つメールアドレスの件数を数え上げる検索式である。
 検索式S2は電子メールのヘッダフィールドであるFrom、To、およびCcに記載されたメールアドレスの全件数を数え上げる検索式である。
 この学習サンプル抽出条件を用いた照合方法を図8を用いて説明する。
 学習サンプル用メール抽出部140では、入力メールに対して、検索式S1による照合(S501)と検索式S2による照合(S502)を行い、両者で得られたメールアドレス件数を比較する(S503)。
 両者の件数が一致したときは、From、To、およびCcに記載されたメールアドレスは全て対象組織ドメインであるので、学習サンプル用メール抽出部140は、入力メールが機密カテゴリの学習サンプル抽出条件に合致したと判定し(S504)、当該入力メールを機密カテゴリに再分類する。
 一方、両者の件数が一致しないときは、From、To、およびCcに記載されたメールアドレスの中に対象組織外ドメインが含まれるため、学習サンプル用メール抽出部140は、入力メールが非機密カテゴリの学習サンプル抽出条件に合致したと判定し(S505)、当該入力メールを非機密カテゴリに再分類する。
 検索式S1において、対象組織ドメインは1つである必要はなく、2つ以上のドメインを指定できる。
 この場合、機密カテゴリに属するメールは、検索式S1で指定されたドメイン内のみでやり取りされたメールとなる。
 同様に、非機密カテゴリに属するメールは、検索式S1で指定されていないドメインとやりとりされるメールとなる。
 また、検索式S1、S2で使用するヘッダフィールドFrom、To、およびCcの組合せは、自由に変更可能である。
 例えば、メールのBcc(Blind Carbon Copy)を考慮して変更することも可能である。
 メールサーバによりBccに対応する独自のヘッダフィールドX-Env-Recipientが定義されている場合、From、To、Cc、およびX-Env-Recipientと記述することにより、Bccにより対象組織外ドメインへメールを送信した場合も、このメールは、対象組織外にメールを送信したと見なされ、非機密カテゴリの学習サンプル抽出条件に合致したと判定される。
 あるいは、Ccを考慮せず、From、Toのみを記述しても良い。
 この場合、Ccにより対象組織外ドメインへメールを送信しても、このメールは対象組織外にメールを送信したとは見なされず、機密カテゴリの学習サンプル抽出条件に合致したと判定される。
 以上のようにすることで、機密カテゴリと非機密カテゴリの学習サンプルが正しく抽出される。
 なお、検索式S1とS2を用いた学習サンプル抽出条件のみを用いた場合、メールが対象組織外に送信されたか否かのみの情報しか得ることが出来ず、例えば、機密情報を含むメールを組織外に誤送信した場合、当該メールを誤って非機密カテゴリの学習サンプルとして学習してしまう。
 しかしながら、本実施の形態では、過去の分類結果を考慮して学習サンプル抽出を行うため、上記のようなメールは学習サンプルとして使用されない。つまり、本例のメールは、分類ルールによれば機密カテゴリに分類され、検索式S1、S2に基づく判断では非機密カテゴリに再分類されるので、カテゴリが一致せず学習サンプルとして抽出されない。
 従って、本実施の形態では、上記のような問題を避けることができる。
 このように、本実施の形態によれば、分類ルールに従って分類されたカテゴリと学習サンプル抽出条件に従って分類されたカテゴリとが一致するメールのみを抽出して学習サンプルとするので、人手による学習サンプル作成の手間がかからず、かつ、誤って別カテゴリの内容が記述されたようなメールを学習サンプルから除外することができ、結果として、分類精度を高めるメール分類装置を提供できる。
 以上、本実施の形態では、
 入力された文書を複数の分類カテゴリのいずれかに分類する文書分類装置であって、
 複数のサンプル文書を入力する手段と、
 予め選んでおいた任意の自動文書分類装置により、入力された文書をいずれかの分類カテゴリに事前分類する手段と、
 予め分類カテゴリ毎に設定されたサンプル文書抽出条件により、サンプル文書抽出条件に対応する分類カテゴリに事前分類された文書からサンプル文書抽出条件に合致する文書をサンプル文書として抽出する手段と、
 分類カテゴリ毎に抽出されたサンプル文書を用いて少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する手段と、
 1つ以上の分類対象文書を入力する手段と、
 生成または更新された分類ルールを用いて、入力された分類対象文書を複数の分類カテゴリのいずれかに分類する手段と、
 分類対象文書の分類結果を出力する手段とを有する文書分類装置を説明した。
 また、本実施の形態では、
 周期的に分類対象文書が入力される文書分類装置であって、
 分類対象文書の入力周期に合わせて分類対象文書の分類を行い、
 前記サンプル文書抽出条件により、カテゴリ毎に分類された分類対象文書からサンプル文書抽出条件に合致するサンプル文書を抽出し、
 抽出されたサンプル文書を用いた機械学習により生成または更新される分類ルールを用いて、次周期に入力される分類対象文書の分類を実施する文書分類装置を説明した。
 また、本実施の形態では、
 システム運用の初期段階では、前記分類ルールを用いるアルゴリズムによる分類は行わず、前記分類ルールを使用しない文字列照合などの手段で分類対象文書を分類する、初期学習運用期間を有し、
 ある一定の初期学習運用期間を経過した後に、本運用期間として、前記分類ルールを用いるアルゴリズムによる分類を実施する文書分類装置を説明した。
 また、本実施の形態では、前記初期学習運用期間の長さを、分類した分類対象文書件数により決定する文書分類装置を説明した。
 また、本実施の形態では、前記初期学習運用期間の長さを、システムの運用時間により決定する文書分類装置を説明した。
 また、本実施の形態では、
 前記分類結果には、前記分類ルールを用いるアルゴリズム毎に分類の確からしさを表す分類スコアが付与されており、
 分類済みの前記分類対象文書が、分類カテゴリに設定された前記サンプル文書抽出条件に合致し、かつ、あるアルゴリズムによる分類スコアが予め定められた閾値以上である場合、そのアルゴリズムに対応する機械学習を実施しない文書分類装置を説明した。
 また、本実施の形態では、
 前記分類結果と対応する文書情報を格納するためのデータベースを有し、
 データベースに対して問い合わせ文を発行することで、分類カテゴリ毎に分類された分類済み文書を取り出す機能を有し、
 取り出した分類済み文書から、前記サンプル文書抽出条件によるサンプル文書の抽出を実施し、
 分類カテゴリ毎に抽出されたサンプル文書を用いて少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを再生成する文書分類装置を説明した。
 また、本実施の形態では、
 前記分類対象文書と対応する文書情報を格納するためのデータベースを有し、
 データベースに対して問い合わせ文を発行することで、分類対象文書を取り出す機能を有し、
 分類対象文書として取り出した文書を用いて、前記サンプル文書抽出条件によるサンプル文書の抽出と、前記機械学習とを実施する文書分類装置を説明した。
 また、本実施の形態では、
 前記分類対象文書が電子メールであって、
 前記複数の分類カテゴリに機密カテゴリと非機密カテゴリが含まれ、
 機密カテゴリに対応付けられた前記サンプル文書抽出条件が、送信者または受信者メールアドレスが全て特定のドメインを持つメールを抽出する条件であり、
 非機密カテゴリに対応付けられた前記サンプル文書抽出条件が、送信者または受信者メールアドレスの中で特定のドメインを持たないメールアドレスを1件以上含むメールを抽出する条件である文書分類装置を説明した。
 また、本実施の形態では、
 正規表現で記述された、検索式1、検索式2の2つの検索式からなる検索条件があって、
 検索式1は、電子メールの特定のヘッダフィールドに記載されたメールアドレスのうち、特定のドメインを持つメールアドレスの件数を数え上げるものであり、
 検索式2は、電子メールの前記特定のヘッダフィールドに記載されたメールアドレスの全件数を数え上げるものであり、
 機密カテゴリに対応付けられた前記サンプル文書抽出条件が、検索式1により得られる件数と検索式2により得られる件数を比較し、両者が等しいメールを抽出する条件であり、
 非機密カテゴリに対応付けられた前記サンプル文書抽出条件が、検索式1により得られる件数と検索式2により得られる件数を比較し、両者が異なるメールを抽出する条件である文書分類装置を説明した。
 また、本実施の形態では、
 複数の文書を入力するステップと、
 予め選んでおいた任意の自動文書分類装置により、入力された文書をいずれかの分類カテゴリに事前分類するステップと、
 予め分類カテゴリ毎に設定されたサンプル文書抽出条件により、文書抽出条件に対応する分類カテゴリに事前分類された文書からサンプル文書抽出条件に合致する文書を産プリ文書として抽出するステップと、
 分類カテゴリ毎に抽出されたサンプル文書を用いて少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新するステップと、
 1つ以上の分類対象文書を入力するステップと、
 生成または更新された分類ルールを用いて、入力された分類対象文書を複数の分類カテゴリのいずれかに分類するステップと、
 分類対象文書の分類結果を出力するステップとを有する文書分類方法を説明した。
 最後に、実施の形態1に示したメール分類装置100のハードウェア構成例について説明する。
 図10は、実施の形態1に示すメール分類装置100のハードウェア資源の一例を示す図である。
 なお、図10の構成は、あくまでもメール分類装置100のハードウェア構成の一例を示すものであり、メール分類装置100のハードウェア構成は図10に記載の構成に限らず、他の構成であってもよい。
 図10において、メール分類装置100は、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。
 CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。
 更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、光ディスク装置、メモリカード(登録商標)読み書き装置などの記憶装置でもよい。
 RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
 実施の形態1で説明した「分類結果蓄積用データベース130」、「分類ルール記憶部160」、「学習サンプル抽出条件記憶部180」は、RAM914、磁気ディスク装置920等により実現される。
 通信ボード915、キーボード902、マウス903、スキャナ装置907、FDD904などは、入力装置の一例である。
 また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置の一例である。
 通信ボード915は、図1に示すように、メールサーバに接続されている。また、通信ボード915は、例えば、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)、SAN(ストレージエリアネットワーク)などに接続されていても構わない。
 磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。
 プログラム群923のプログラムは、CPU911がオペレーティングシステム921、ウィンドウシステム922を利用しながら実行する。
 また、RAM914には、CPU911に実行させるオペレーティングシステム921のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
 また、RAM914には、CPU911による処理に必要な各種データが格納される。
 また、ROM913には、BIOS(Basic Input Output System)プログラムが格納され、磁気ディスク装置920にはブートプログラムが格納されている。
 メール分類装置100の起動時には、ROM913のBIOSプログラム及び磁気ディスク装置920のブートプログラムが実行され、BIOSプログラム及びブートプログラムによりオペレーティングシステム921が起動される。
 上記プログラム群923には、実施の形態1の説明において「~部」(「分類ルール記憶部160」、「学習サンプル抽出条件記憶部180」以外、以下も同様)として説明している機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
 ファイル群924には、実施の形態1の説明において、「~の分類」、「~の再分類」、「~の照合」、「~の抽出」、「~の判断」、「~の比較」、「~の生成」、「~の更新」、「~の設定」、「~の登録」、「~の学習」、「~の選択」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「~ファイル」や「~データベース」の各項目として記憶されている。
 「~ファイル」や「~データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。
 抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
 また、実施の形態1で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
 また、実施の形態1の説明において「~部」として説明しているものは、「~回路」、「~装置」、「~機器」であってもよく、また、「~ステップ」、「~手順」、「~処理」であってもよい。
 すなわち、実施の形態1で説明したフローチャートに示すステップ、手順、処理により、本発明に係るデータ処理方法を実現することができる。
 また、「~部」として説明しているものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、実施の形態1の「~部」としてコンピュータを機能させるものである。あるいは、実施の形態1の「~部」の手順や方法をコンピュータに実行させるものである。
 このように、実施の形態1に示すメール分類装置100は、処理装置たるCPU、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「~部」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
 100 メール分類装置、110 分類対象メール抽出部、120 分類部、130 分類結果蓄積用データベース、140 学習サンプル用メール抽出部、150 学習部、160 分類ルール記憶部、170 学習サンプル抽出条件、180 学習サンプル抽出条件記憶部、200 メールアーカイブ装置、201 新規入力メール、210 メール蓄積用データベース、301 組織、302 組織、303 組織、311 メールサーバ、312 メールサーバ、313 メールサーバ、321 ユーザ端末、322 ユーザ端末、323 ユーザ端末、330 ネットワーク。

Claims (13)

  1.  データを複数カテゴリのうちのいずれかのカテゴリに分類する分類部と、
     前記分類部によりいずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を記憶する再分類基準情報記憶部と、
     前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと前記分類部による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出するサンプルデータ抽出部とを有することを特徴とするデータ処理装置。
  2.  前記分類部は、
     データをいずれかのカテゴリに分類するとともに、前記データが正しいカテゴリに分類されている確度を示す確度情報を生成し、
     前記サンプルデータ抽出部は、
     再分類後のカテゴリと前記分類部による分類後のカテゴリとが一致する場合に、前記分類後データの確度情報に示されている確度が一定レベル未満である場合に前記分類後データをサンプルデータとして抽出し、前記分類後データの確度情報に示されている確度が一定レベル以上である場合に前記分類後データをサンプルデータとして抽出しないことを特徴とする請求項1に記載のデータ処理装置。
  3.  前記データ処理装置は、更に、
     前記サンプルデータ抽出部により抽出されたサンプルデータを用いた学習を行って、前記分類部がデータを分類する際に用いる分類ルールを生成する学習部を有することを特徴とする請求項1に記載のデータ処理装置。
  4.  前記データ処理装置は、更に、
     所定の処理周期ごとに、データを入力するデータ入力部を有し、
     前記分類部は、
     前記処理周期ごとに、分類ルールに従って、前記データ入力部により入力されたデータをいずれかのカテゴリに分類し、
     前記サンプルデータ抽出部は、
     前記処理周期ごとに、サンプルデータを抽出し、
     前記学習部は、
     前記処理周期ごとに、前記サンプルデータ抽出部により抽出されたサンプルデータを用いた学習を行って、前記分類部が次の処理周期で用いる分類ルールを生成することを特徴とする請求項3に記載のデータ処理装置。
  5.  前記データ入力部は、
     前記処理周期ではないタイミングで、データを入力し、
     前記分類部は、
     前記処理周期ではないタイミングで、分類ルールに従って、前記データ入力部により入力されたデータをいずれかのカテゴリに分類し、
     前記サンプルデータ抽出部は、
     前記処理周期ではないタイミングで、サンプルデータを抽出し、
     前記学習部は、
     前記処理周期ではないタイミングで、前記サンプルデータ抽出部により抽出されたサンプルデータを用いた学習を行って、前記分類部が以後用いる分類ルールを生成することを特徴とする請求項4に記載のデータ処理装置。
  6.  前記再分類基準情報記憶部は、
     前記分類ルールと異なる基準が示される再分類基準情報を記憶していることを特徴とする請求項3に記載のデータ処理装置。
  7.  前記分類部は、
     稼働開始から所定時間が経過するまでは分類ルールを用いずにデータを分類し、前記所定時間が経過した後に分類ルールを用いてデータを分類することを特徴とする請求項3に記載のデータ処理装置。
  8.  前記分類部は、
     分類したデータの総数が所定数に達するまでは分類ルールを用いずにデータを分類し、分類したデータの総数が前記所定数に達した後に分類ルールを用いてデータを分類することを特徴とする請求項3に記載のデータ処理装置。
  9.  前記分類部は、
     電子メールを前記複数のカテゴリのうちのいずれかのカテゴリに分類し、
     前記再分類基準情報記憶部は、
     再分類のための基準として、電子メールのヘッダフィールドに含まれる要素に関する基準が示される再分類基準情報を記憶し、
     前記サンプルデータ抽出部は、
     前記再分類基準情報に基づき、前記分類部により分類された後の電子メールのヘッダフィールドに含まれる要素を解析して前記分類部により分類された後の電子メールをいずれかのカテゴリに再分類することを特徴とする請求項1に記載のデータ処理装置。
  10.  前記分類部は、
     電子メールを前記複数のカテゴリのうちのいずれかのカテゴリに分類し、
     前記再分類基準情報記憶部は、
     再分類のための基準として、電子メールの添付ファイルに関する基準が示される再分類基準情報を記憶し、
     前記サンプルデータ抽出部は、
     前記再分類基準情報に基づき、前記分類部により分類された後の電子メールの添付ファイルを解析して前記分類部により分類された後の電子メールをいずれかのカテゴリに再分類することを特徴とする請求項1に記載のデータ処理装置。
  11.  前記分類部は、
     電子メールを機密カテゴリ及び非機密カテゴリのいずれかに分類し、
     前記再分類基準情報記憶部は、
     再分類のための基準として、電子メールのヘッダフィールドに含まれているアドレスのドメインに関する基準が示される再分類基準情報を記憶し、
     前記サンプルデータ抽出部は、
     前記再分類基準情報に基づき、前記分類部により分類された後の電子メールのヘッダフィールドに含まれているアドレスを解析し、当該電子メールのヘッダフィールドに特定のドメインに属するアドレスのみが含まれている場合は当該電子メールを機密カテゴリに再分類し、当該電子メールのヘッダフィールドに前記特定のドメイン以外のドメインに属するアドレスが含まれている場合は当該電子メールを非機密カテゴリに再分類することを特徴とする請求項1に記載のデータ処理装置。
  12.  コンピュータが、データを複数カテゴリのうちのいずれかのカテゴリに分類する分類し、
     前記コンピュータが、いずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を所定の記憶領域から読み出し、
     前記コンピュータが、前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出することを特徴とするデータ処理方法。
  13.  データを複数カテゴリのうちのいずれかのカテゴリに分類する分類処理と、
     前記分類処理によりいずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を所定の記憶領域から読み出す読み出し処理と、
     前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと前記分類処理による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出するサンプルデータ抽出処理とをコンピュータに実行させることを特徴とするプログラム。
PCT/JP2009/068114 2009-10-21 2009-10-21 データ処理装置及びデータ処理方法及びプログラム WO2011048672A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011537053A JP5220200B2 (ja) 2009-10-21 2009-10-21 データ処理装置及びデータ処理方法及びプログラム
PCT/JP2009/068114 WO2011048672A1 (ja) 2009-10-21 2009-10-21 データ処理装置及びデータ処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/068114 WO2011048672A1 (ja) 2009-10-21 2009-10-21 データ処理装置及びデータ処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2011048672A1 true WO2011048672A1 (ja) 2011-04-28

Family

ID=43899919

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/068114 WO2011048672A1 (ja) 2009-10-21 2009-10-21 データ処理装置及びデータ処理方法及びプログラム

Country Status (2)

Country Link
JP (1) JP5220200B2 (ja)
WO (1) WO2011048672A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014123308A (ja) * 2012-12-21 2014-07-03 Fujitsu Ltd メール処理プログラム、メール処理装置及びメール処理方法
JP2017010585A (ja) * 2016-09-21 2017-01-12 富士通株式会社 メール処理プログラム、メール処理装置及びメール処理方法
JP2020520609A (ja) * 2017-05-17 2020-07-09 楽天株式会社 電子メッセージのフィルタリング

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182696A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005182696A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIDEYA SHIBATA ET AL.: "Seiki Hyogen-Gakushugata Filter Heiyo Hoshiki ni yoru Himitsu Joho Kenshutsu no Hyoka", DAI 8 KAI FORUM ON INFORMATION TECHNOLOGY, vol. 2, 20 August 2009 (2009-08-20), KOEN RONBUNSHU, pages 159 - 160 *
MAMORU KATO ET AL.: "Seiki Hyogen-Gakushugata Filter Heiyo Hoshiki ni yoru Himitsu Joho Kenshutsu no Teian", DAI 8 KAI FORUM ON INFORMATION TECHNOLOGY, vol. 2, 20 August 2009 (2009-08-20), KOEN RONBUNSHU, pages 157 - 158 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014123308A (ja) * 2012-12-21 2014-07-03 Fujitsu Ltd メール処理プログラム、メール処理装置及びメール処理方法
JP2017010585A (ja) * 2016-09-21 2017-01-12 富士通株式会社 メール処理プログラム、メール処理装置及びメール処理方法
JP2020520609A (ja) * 2017-05-17 2020-07-09 楽天株式会社 電子メッセージのフィルタリング
JP7069220B2 (ja) 2017-05-17 2022-05-17 ミロ・アクイジション・サブ・リミテッド・ライアビリティ・カンパニー 電子メッセージのフィルタリング

Also Published As

Publication number Publication date
JPWO2011048672A1 (ja) 2013-03-07
JP5220200B2 (ja) 2013-06-26

Similar Documents

Publication Publication Date Title
US9075804B2 (en) On-the fly pattern recognition with configurable bounds
US12026280B2 (en) Automated data anonymization
JP5460887B2 (ja) 分類ルール生成装置及び分類ルール生成プログラム
JP5288959B2 (ja) データ分類装置及びコンピュータプログラム
US9208450B1 (en) Method and apparatus for template-based processing of electronic documents
JP5047909B2 (ja) 自動推論検出によるアウトバウンド・コンテンツのフィルタリング
US20120054135A1 (en) Automated parsing of e-mail messages
US8428367B2 (en) System and method for electronic document classification
US20120215853A1 (en) Managing Unwanted Communications Using Template Generation And Fingerprint Comparison Features
Li et al. Scaling up copy detection
CN101911067A (zh) 信息过滤系统、信息过滤方法以及信息过滤程序
WO2011148571A1 (ja) 情報抽出システム、方法及びプログラム
US20060259551A1 (en) Detection of unsolicited electronic messages
JP2008033687A (ja) 検索クエリー作成装置
JP5701096B2 (ja) ファイル追跡装置及びファイル追跡方法及びファイル追跡プログラム
US8812467B2 (en) Information processing apparatus and computer readable medium for performing history cancellation processing
JP5220200B2 (ja) データ処理装置及びデータ処理方法及びプログラム
JP5584608B2 (ja) 電子メールの誤送信の判定方法、判定プログラム、通信装置
JP5220202B2 (ja) データ処理装置及びデータ処理方法及びプログラム
JP2008250437A (ja) メールデータ分類装置、メールデータ分類プログラム、メールデータ分類方法、電子メールデータの階層位置特定装置、電子メールデータの階層位置特定プログラム及び電子メールデータの階層位置特定方法
JP6943113B2 (ja) 情報処理装置及び情報処理プログラム
JP2022518659A (ja) エクスプロイト・キット検出
JP6005412B2 (ja) チャンクを用いたメール管理方法及びメール管理装置
WO2021095670A1 (ja) 管理装置、管理方法と記録媒体
CN116910050A (zh) 一种数据处理方法、装置、系统及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09850570

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011537053

Country of ref document: JP

122 Ep: pct application non-entry in european phase

Ref document number: 09850570

Country of ref document: EP

Kind code of ref document: A1