WO2020111074A1 - メール分類装置、メール分類方法、およびコンピュータプログラム - Google Patents

メール分類装置、メール分類方法、およびコンピュータプログラム Download PDF

Info

Publication number
WO2020111074A1
WO2020111074A1 PCT/JP2019/046215 JP2019046215W WO2020111074A1 WO 2020111074 A1 WO2020111074 A1 WO 2020111074A1 JP 2019046215 W JP2019046215 W JP 2019046215W WO 2020111074 A1 WO2020111074 A1 WO 2020111074A1
Authority
WO
WIPO (PCT)
Prior art keywords
morphemes
data table
mail
classification
learning
Prior art date
Application number
PCT/JP2019/046215
Other languages
English (en)
French (fr)
Inventor
宏一 千葉
孝治 吉春
Original Assignee
株式会社エー・アンド・ビー・コンピュータ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エー・アンド・ビー・コンピュータ filed Critical 株式会社エー・アンド・ビー・コンピュータ
Priority to JP2020509538A priority Critical patent/JP6715487B1/ja
Priority to US17/422,281 priority patent/US20220253603A1/en
Publication of WO2020111074A1 publication Critical patent/WO2020111074A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Definitions

  • the present invention relates to an email classification device for automatically sorting emails.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2013-105226 discloses a received mail classification device that automatically classifies received mails for which a question sentence included in a sent mail is answered.
  • the keyword (question sentence) is specified from the sentence included in the sent mail, the sentence following the quotation mark is extracted in the received mail, and it is determined whether the extracted sentence contains the keyword (question sentence).
  • the answer mail is extracted by the judgment.
  • classification according to keywords has the problem that it is difficult to obtain appropriate classification results unless the keywords are set properly.
  • artificial intelligence AI has become practically available, and it is also possible to classify emails according to words included in emails using a trained model using a neural network. Envisioned as an application field.
  • An object of the present invention is to provide a mail classification device, a mail classification method, a computer program, and the like that can classify mails into a plurality of categories appropriately by using a trained model using a neural network.
  • the mail classification device of the present invention is A storage unit for inputting text data of classified mails and storing at least temporarily A discrimination data table in which morphemes that can be included in text data of an email are stored for each part of speech,
  • An analysis unit that refers to the discrimination data table and identifies a morpheme included in the classification target mail among the morphemes stored in the discrimination data table;
  • a data conversion unit that generates a determination image that represents a distribution of morphemes contained in the classification target mail among the morphemes stored in the determination data table based on the processing result of the analysis unit;
  • a classification determination unit that determines the category of the classification target email based on a learning model (learned model) that has learned the correlation between the determination image and the category of the classification target email.
  • a mail classifying device capable of appropriately classifying mails into a plurality of categories using a trained model using a neural network.
  • FIG. 4B is an example of a discrimination data table configured by characteristic data, and is a continuation of FIG. 4A. It is an example of a classification target email. It is an example of a discrimination data table (before correction). It is an example of a discrimination data table (after correction).
  • FIG. 1 is a block diagram showing a schematic configuration of a mail classification system 100 according to this embodiment.
  • the mail classification system 100 inputs the subject and text data of the text of the classification target mail, and classifies the classification target mail according to a predetermined purpose.
  • the mail classification system 100 does not simply classify the text data of the subject or the body according to whether or not a predetermined word is included therein, but a large amount of learning data. Classification is performed using the trained model generated based on the above.
  • the classification category by the mail classification system 100 is not particularly limited. For example, it is possible to classify emails into arbitrary categories such as urgency, importance, destination (department or person in charge), message (quotation request, order, repair request, inquiry, complaint, etc.). It is also possible to set the classification standard to two-dimensional or three-dimensional or more. That is, it is possible to classify the mails according to the destinations, and classify the classification results into further levels according to the urgency, the importance, the requirement, or the like.
  • the mail classification system 100 includes a classifier 1 and a learning device 2.
  • the classifier 1 can be configured as, for example, a cloud system.
  • the classifier 1 and the learning device 2 do not need to be constantly connected.
  • the classifier 1 includes a file storage unit 11, a document analysis unit 12, a data conversion unit 13, a classification determination unit 14, and a classification result storage unit 15.
  • the learning device 2 includes a morpheme analysis unit 21, a feature data extraction unit 22, an image conversion unit 23, a labeling unit 24, a DNN (deep neural network) 25, a discrimination data storage unit 26, and a model data storage unit 27. ..
  • the document analysis unit 12 of the classifier 1 includes a discrimination data table 12a.
  • the discrimination data table 12a holds a copy of the discrimination data table 26a generated by the learning device 2 and stored in the discrimination data storage unit 26. The generation of the discrimination data will be described in detail later.
  • the classification determination unit 14 of the classifier 1 holds the model data 14a.
  • the model data 14a are parameters of the learned model generated by the DNN 25 in the learning device 2. The generation of the model data 14a will also be described in detail later.
  • the learning device 2 inputs model learning data (teacher data) as shown in FIG. 1 and causes the DNN 25 to learn, thereby generating model data. That is, the morpheme analysis unit 21, the feature data extraction unit 22, the image conversion unit 23, and the labeling unit 24 are blocks for generating data suitable for learning the DNN 25.
  • ⁇ Classification learning data is text data of various emails.
  • the morpheme analysis unit 21 performs a morpheme analysis on the text data of the classification learning data to cut out the morphemes included in the text data and specify the part of speech. For example, when the classification learning data shown in FIG. 2 is input, the analysis result by the morpheme analysis unit 21 is as shown in FIG. Note that in the examples shown in FIGS. 2 and 3, the subject and the text data of the body of the e-mail are combined and subjected to analysis. Thus, it is not essential to include not only the body of the email but also the subject in the analysis target, but it is desirable. This is because when sending an e-mail regarding an important or urgent matter, the subject of the e-mail often includes words indicating importance or urgency.
  • FIGS. 4A and 4B show processing examples in Japanese.
  • the method of morphological analysis may differ depending on the language. For example, in English sentences, words are clearly separated from each other by blank characters, and there are relatively few variations in inflectional forms, so it is relatively easy to extract morphemes from text data. On the other hand, in the case of Japanese, Chinese, etc., since the segment and word delimiter are not clearly shown in the text data, it is necessary to determine the word boundary while matching with the dictionary.
  • any known method suitable for each language can be used, and therefore detailed description thereof is omitted here.
  • the characteristic data extraction unit 22 extracts characteristic data from the analysis result by the morpheme analysis unit 21, and stores the extracted characteristic data in the discrimination data table 26 a of the discrimination data storage unit 26.
  • FIGS. 4A and 4B show an example of the discrimination data table 26a configured by the characteristic data. Note that FIG. 4B is a continuation of FIG. 4A. Moreover, what is shown in FIGS. 4A and 4B is only a part of the discrimination data table.
  • the feature data extraction unit 22 extracts a part of the analysis result (morpheme) by the morpheme analysis unit 21 as feature data according to a predetermined rule (for example, appearance frequency in the classification learning data), and the feature data extraction unit 22 illustrated in FIGS. 4A and 4B. As shown in FIG. 5, the parts of speech are classified and stored in the discrimination data table 26a. Although a part of the morphemes is extracted as the feature data here, all the morphemes may be stored in the discrimination data table.
  • the discrimination data table 26a is a table in which the morphemes extracted from the classification learning data are classified and arranged for each part of speech.
  • the head of each heading string is represented by "0_”.
  • the heading string includes the notation of the part-of-speech type after the above-mentioned leading symbol “0_”, and is followed by the morpheme (feature data) corresponding to the part-of-speech type.
  • the morphemes are separated by a blank symbol. Note that symbols other than the blank symbol may be used as the delimiter.
  • the third morpheme (feature data) of “Thank you”, “Nice to meet you”, and “Thank you” is included in the heading string of the part-of-speech classification “Movement-*-*-*” that is the third from the top in FIG. 4A. Is stored. Note that the examples of FIGS. 4A and 4B show only a part of the morphemes stored in the discrimination data table. In reality, many other parts of speech (eg proper nouns) are also stored in the discrimination data table 26a.
  • the image conversion unit 23 converts the analysis result of the classification learning data by the morphological analysis unit 21 into a binary image (learning image) based on the discrimination data table 26a of the discrimination data storage unit 26.
  • the image conversion unit 23 generates a learning image having squares of m rows ⁇ n columns based on the discrimination data table 26a.
  • m and n are natural numbers.
  • Each of the m ⁇ n cells corresponds to one heading row in the discrimination data table 26a.
  • the values of m and n are set so that the value of m ⁇ n is larger than the expected number of heading columns.
  • the correspondence relationship between each grid of the learning image and the heading row of the discrimination data table 26a is arbitrary, provided that one heading is assigned to one heading row.
  • the image conversion unit 23 represents the squares corresponding to the heading sequence including the morphemes included in one piece of classification learning data in one of black and white colors (for example, “white”), and the other squares. It is represented by the other color (for example, "black”). For example, when a certain classification learning data includes the morpheme "Thank you”, the heading string of the part of speech classification "Movement-*-*-*" corresponds to the grid of the learning image. The squares are white. Similarly, all the cells corresponding to the heading sequence including the morpheme included in the classification learning data are represented in white. In this way, the image conversion unit 23 converts certain classification learning data into a learning image as a binary image.
  • the image conversion unit 23 performs this conversion process on all the classification learning data to generate the same number of learning images as the classification learning data.
  • the image conversion unit 23 may further generate a large number of learning images as a derivative by changing a part of the squares of the generated learning images. For example, a derivative learning image is generated by replacing one or a few of the squares represented by white in the squares of m rows ⁇ n columns of the classification learning data with black. Note that the learning images generated derivatively here are given the same labels (described later) as the learning images from which they were derived. As a result, a large number of learning images can be easily generated based on the limited number of classification learning data.
  • the cells corresponding to the heading sequence including the morphemes extracted from the classification learning data are white, and the other cells are black.
  • the display mode of the learning image is not limited to such binary display.
  • the color of the corresponding square may be represented by three or more levels of gray scale or a plurality of colors such as RGB.
  • the label assigning unit 24 assigns a label representing the classification type (category) of the original classification learning data to each of the learning images generated from the classification learning data, for example, as metadata.
  • the category type can be arbitrarily set according to a desired sorting result. For example, categories such as “urgent”, “with time limit”, and “without time limit” may be provided depending on the urgency of the email. Alternatively, categories such as “request for quote”, “order”, “inquiry”, “complaint”, “request for repair”, “advertisement”, and “inquiry” may be provided according to the content (requirement) of the email. good. Alternatively, categories such as “important” and “normal” may be provided according to the importance of the email.
  • a DNN (deep neural network) 25 reads a learning image to which a label has been added to perform learning. That is, in this embodiment, the learning in the DNN 25 is so-called supervised learning.
  • the DNN 25 is given a large number of learning images and learns the relationship between the features of the learning images and the classification results (labels) to generate a learned model.
  • the parameters defining the generated learned model are stored in the model data storage unit 27.
  • the learning device 2 generates the discrimination data table and the model data based on the classification learning data.
  • the discriminant data table can be generated more easily than model data because it is generated without learning by simply extracting the feature data from the morphological analysis result of the classification learning data.
  • the classifier 1 uses the discrimination data table and model data generated by the learning device 2 to classify emails.
  • the file storage unit 11 inputs the subject and text data of the text of the classification target mail and stores it at least temporarily.
  • the file storage unit 11 receives and stores the classification target email uploaded from the system on the user side.
  • the timing (frequency) of uploading classification target emails is arbitrary.
  • the text data file of the mail may be locally stored, and the locally stored text data file may be uploaded to the file storage unit 11 at an appropriate timing.
  • the classifier 1 may perform one-by-one classification processing by real-time processing after the input classification target mails are stored in the file storage unit 11, or the classification target mails are stored in the file storage unit for a predetermined number or for a predetermined time. After being stored in 11, the classification processing may be performed in batch processing.
  • a copy of the discrimination data table 26a read from the discrimination data storage unit 26 of the learning device 2 is stored as the discrimination data table 12a.
  • the learning device 2 and the classifier 1 do not need to be always connected, and once the discrimination data table 12a is stored, it can be used as it is.
  • the discriminant data table 12a needs to be updated for some reason, the discriminant data table 26a is corrected in the discriminant data storage unit 26 in the learning device 2, and the corrected discriminant data table 26a is changed to the classifier.
  • the determination data table 12a in the first document analysis unit 12 may be overwritten. A specific example of this correction processing will be described later. Alternatively, only the discrimination data table 12a in the document analysis unit 12 of the classifier 1 may be modified.
  • the document analysis unit 12 refers to the discrimination data table 12a, and identifies the word (morpheme) included in the classification target email among the words (morpheme) included in the discrimination data table 12a.
  • the data conversion unit 13 performs the same process as the image conversion unit 23 of the learning device 2 to convert the classification target mail into a binary image (determination image). That is, the image conversion unit 23 corresponds to a headline string including a word (morpheme) included in the classification target mail among the headline strings of the determination data table 12a in the determination image having the grid of m rows ⁇ n columns. The squares are shown in white, and the other squares are shown in black.
  • the classification determination unit 14 uses the model data 14a to determine which category the determination image obtained by the data conversion unit 13 corresponds to.
  • the determination result is at least temporarily stored in the classification result storage unit 15.
  • the determination result stored in the classification result storage unit 15 is presented to the user via the web browser.
  • the user of the classifier 1 can check the mails classified into categories via a web browser from any terminal such as a computer, a tablet, or a smart phone.
  • the method of displaying the classification results on the web browser is arbitrary, mails are grouped by category. For example, mails of high urgency or importance are marked or changed in color. It is desirable to do.
  • the classification result is displayed via the web browser, but the method of presenting the determination result to the user is not limited to this.
  • the classifier 1 adds a new morpheme to the discrimination data table 12a.
  • Can be added For example, when a mail as shown in FIG. 5A is not classified into a desired category (for example, when it should have been classified into a category of “important” but is classified into “other”), a message shown in FIG. 5B is displayed. As shown, this may be because the morpheme "Chiba" was not stored in the headline "Noun-proper noun-personal name-surname".
  • the determination image generated by the data conversion unit 13 is a binary image that does not correctly reflect the existence of the morpheme “Chiba”, and as a result, the intended classification result cannot be obtained. ..
  • the data conversion unit 13 classifies. A correct determination image that reflects the presence of the morpheme "Chiba” in the target mail will be generated, and as a result, the mail shown in FIG. 5A will be classified into the correct category ("important"). ..
  • the process of adding "Chiba” to the discrimination data table 12a may be automatically performed by the morpheme analysis unit 21 and the feature data extraction unit 22 of the learning device 2, but the morpheme of the learning device 2 is not necessarily required.
  • the processing by the analysis unit 21 and the characteristic data extraction unit 22 may not be performed.
  • the text data “Chiba” may simply be manually inserted into the discrimination data table 12a.
  • the mail classification system 100 in the present embodiment is characterized in that the discrimination accuracy can be improved only by correcting the discrimination data table 12a without regenerating (correcting) the model data 14a. is there.
  • the discrimination data table 12a by correcting the discrimination data table 12a, the binary image generated by the data conversion unit 13 from the classification target mail becomes correct after the correction.
  • the determination data table 12a can be modified relatively easily by inserting or deleting the text data.
  • the model data 14a when the model data 14a is regenerated, it is necessary to read a large amount of classification learning data and perform the processing, and therefore it is not limited to a simple correction work. That is, the model data 14a cannot be regenerated frequently, but the correction of the discrimination data table 12a can be performed by a simple customization work. Therefore, the model data 14a is necessary whenever there is feedback of misclassification from the user. It can be appropriately implemented according to. Therefore, according to the mail classification system 100 of the present embodiment, in addition to performing advanced classification processing using the learned model (model data 14a), erroneous classification is corrected by only simple correction of the discrimination data table 12a. It has an excellent effect that it can.
  • a part or all of the processing of each functional block of the above embodiment may be realized by a program. Then, a part or all of the processing of each functional block of each of the above-described embodiments is performed by a central processing unit (CPU), a microprocessor, a processor, or the like in a computer.
  • CPU central processing unit
  • a program for performing each processing is stored in a storage device such as a hard disk or a ROM, and is read out and executed in the ROM or the RAM.
  • each process of the above-described embodiments may be realized by hardware, or may be realized by software (including a case where it is realized together with an OS (operating system), middleware, or a predetermined library).
  • the mail classification system 100 may be realized by mixed processing of software and hardware.
  • the execution order of the processing methods in the above embodiments is not necessarily limited to the description of the above embodiments, and the execution order can be changed without departing from the gist of the invention. Further, in the processing method of the above-described embodiment, some steps may be executed in parallel with other steps without departing from the scope of the invention.
  • a computer program that causes a computer to execute the above-described method and a computer-readable recording medium that records the program are included in the scope of the present invention.
  • the type of the computer-readable recording medium is arbitrary.
  • the computer program is not limited to the one recorded in the recording medium, and may be transmitted via an electric communication line, a wireless or wired communication line, a network typified by the Internet, or the like.
  • the present invention can also be explained as follows.
  • the mail classification device is A storage unit for inputting text data of classified mails and storing at least temporarily A discrimination data table in which morphemes that can be included in text data of an email are stored for each part of speech, An analysis unit that refers to the discrimination data table and identifies a morpheme included in the classification target mail among the morphemes stored in the discrimination data table; A data conversion unit that generates a determination image that represents a distribution of morphemes contained in the classification target mail among the morphemes stored in the determination data table based on the processing result of the analysis unit; A classification determination unit that determines the category of the classification target email based on a learning model (learned model) that has learned the correlation between the determination image and the category of the classification target email.
  • a learning model learned model
  • a discrimination data table that stores morphemes that can be included in the text data of the mail for each part of speech is provided, and among the morphemes stored in the discrimination data table, the distribution of the morphemes that are included in the classification target mail.
  • the image for determination representing is generated.
  • the category of the classification target mail is determined based on the learning model in which the correlation between the determination image and the category of the classification target mail is learned. This makes it possible to determine the category of a mail by using a learning model that is more complicated and exhaustive than in the conventional case where the mail is categorized based on whether or not it contains a predetermined word or sentence. It can be done properly.
  • a mail classification device is the mail classification device according to the first configuration, wherein the discrimination data table is such that a new morpheme is added, a stored morpheme is deleted, or a stored morpheme is stored. Is rewritable as an additional feature.
  • the discrimination data table is updated by, for example, newly adding the morpheme included in the text data of the misclassified mail to the discrimination data table. can do.
  • the misclassification can be corrected only by the relatively easy operation of updating the discrimination data table without regenerating the learning model.
  • a mail classification device is the mail classification device according to the first or second configuration, wherein the category of the classification target mail is at least the urgency, the importance, the destination, and the requirement of the mail. Including one.
  • the mail classification method is A computer-implemented method of classifying emails, Enter the text data of the email to be classified and store it at least temporarily, With reference to the discrimination data table that stores morphemes that can be included in the text data of the mail for each part of speech, specify the morpheme that is included in the classification target mail among the morphemes stored in the discrimination data table, Of the morphemes stored in the discrimination data table, a determination image representing the distribution of morphemes included in the classification target mail is generated, The category of the classification target mail is determined based on the learning model in which the correlation between the determination image and the category of the classification target mail is learned.
  • a morpheme included in the classification target mail among the morphemes stored in the judgment data table is referred to by referring to the discrimination data table in which morphemes that can be included in the text data of the mail are stored for each part of speech.
  • An image for determination representing the distribution of is generated.
  • the category of the classification target mail is determined based on the learning model in which the correlation between the determination image and the category of the classification target mail is learned.
  • the program according to the present invention is Enter the text data of the email to be classified and store it at least temporarily, With reference to the discrimination data table that stores morphemes that can be included in the text data of the mail for each part of speech, specify the morpheme that is included in the classification target mail among the morphemes stored in the discrimination data table, Of the morphemes stored in the discrimination data table, a determination image representing the distribution of morphemes included in the classification target mail is generated, It is a program for causing a computer to execute a process of determining a category of a classification target email based on a learning model in which a correlation between a determination image and a category of a classification target email is learned.
  • the computer operated by this program refers to the discrimination data table in which the morphemes that can be included in the text data of the mail are stored for each part of speech, and among the morphemes stored in this discrimination data table, the morphemes included in the classification target mail.
  • An image for determination representing the distribution of is generated.
  • the category of the classification target mail is determined based on the learning model in which the correlation between the determination image and the category of the classification target mail is learned. This makes it possible to determine the category of a mail by using a learning model that is more complicated and exhaustive than in the conventional case where the mail is categorized based on whether or not it contains a predetermined word or sentence. It can be done properly.
  • a recording medium recording the above program is also one aspect of the present invention.
  • the learning model generation device is A discrimination data table in which morphemes that can be included in text data of an email are stored for each part of speech, A morphological analysis unit that performs morphological analysis on learning text data; From the analysis result of the morpheme analysis unit, a morpheme to be stored in the discrimination data table is extracted based on a predetermined rule, a characteristic data extraction unit that stores the extracted morpheme in the discrimination data table, Of the morphemes stored in the discrimination data table, an image conversion unit that generates a learning image that represents a distribution of morphemes included in the learning text data, And a learning unit that generates a learned model that learned the correlation between the learning image and the classification result of the learning text data.
  • the distribution of the morphemes contained in the learning text data among the morphemes stored in the discrimination data table in which the morphemes that can be included in the text data of the mail are stored as learning data Use learning images.
  • a large amount of learning data including various morphemes can be efficiently learned as compared with the case of learning the text data of the mail as it is.
  • the learning model generation method is Perform morphological analysis on learning text data, From the result of the morphological analysis, the morphemes to be stored in the discrimination data table are extracted based on a predetermined rule, and the extracted morphemes are stored in the discrimination data table for each part of speech, Of the morphemes stored in the discrimination data table, a learning image representing the distribution of morphemes included in the learning text data is generated, A learning model generation method for generating a learned model in which the correlation between the learning image and the classification result of the learning text data is learned.
  • this learning model generation method the distribution of the morphemes included in the learning text data among the morphemes stored in the discrimination data table that stores the morphemes that can be included in the text data of the mail for each part of speech as learning data is represented.
  • Use learning images As a result, a large amount of learning data including various morphemes can be efficiently learned as compared with the case of learning the text data of the mail as it is. As a result, it is possible to generate a learned model that can output a highly reliable determination result regarding the correlation between the text data of the mail and the classification result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

メール分類装置は、分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する分類判定部とを備える。

Description

メール分類装置、メール分類方法、およびコンピュータプログラム
 本発明は、メールを自動的に仕分けするためのメール分類装置に関する。
 従来、毎日大量に届く電子メールを所望の目的に応じて適切に分類するために、様々な技術が提案されている。例えば、特許文献1(特開2013-105226号公報)には、送信メールに含まれる質問文に対する回答が行われた受信メールを自動的に分類する受信メール分類装置が開示されている。この分類装置では、送信メールに含まれる文からキーワード(質問文)を特定し、受信メールにおいて引用符に続く文を抽出し、抽出した文にキーワード(質問文)が含まれているか否かを判断することにより、回答メールを抽出する。
 また、件名や本文に特定のキーワードが含まれているか否かに応じてメールを分類する技術は、特に迷惑メールの検出等において、従来広く用いられている。
 しかし、キーワードに応じた分類は、キーワードをうまく設定しなければ適切な分類結果を得ることが難しいという問題がある。また、最近は、人工知能(AI)の利用が現実的に可能になりつつあり、ニューラルネットワークを利用した学習済みモデルを用いてメールに含まれる単語に応じてメールを分類することも、AIの適用分野として想定される。
 本発明は、ニューラルネットワークを利用した学習済みモデルを用いて、メールを複数のカテゴリに適切に分類することが可能なメール分類装置、メール分類方法およびコンピュータプログラム等を提供することを目的とする。
 上記の目的を達成するために、本発明のメール分類装置は、
 分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、
 メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
 前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、
 前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、
 判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデル(学習済みモデル)に基づいて、分類対象メールのカテゴリを判定する分類判定部とを備える。
 本発明によれば、ニューラルネットワークを利用した学習済みモデルを用いて、メールを複数のカテゴリに適切に分類することが可能なメール分類装置、メール分類方法およびコンピュータプログラム等を提供することができる。
本発明の一実施形態に係るメール分類システムの概略構成を示すブロック図である。 分類学習用データの一例である。 図2の分類学習用データを形態素解析部で解析した結果の一例である。 特徴データによって構成された判別データテーブルの一例である。 特徴データによって構成された判別データテーブルの一例であって、図4Aの続きである。 分類対象メールの一例である。 判別データテーブル(修正前)の一例である。 判別データテーブル(修正後)の一例である。
 以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一または相当部分には同一符号を付してその説明は繰り返さない。
 図1は、本実施形態に係るメール分類システム100の概略構成を示すブロック図である。メール分類システム100は、分類対象メールの件名および本文のテキストデータを入力し、分類対象メールを所定の目的に応じて分類する。ただし、メール分類システム100は、従来のメール分類システムのように、単純に、件名や本文のテキストデータに所定の単語が含まれるか否かによって分類を行うものではなく、大量の学習用データに基づいて生成された学習済みモデルを用いて分類を行う。
 なお、メール分類システム100による分類カテゴリは、特に限定されない。例えば、メールの緊急度、重要度、宛先(部署または担当者)、用件(見積もり依頼、注文、修理依頼、問い合わせ、クレーム等)等の任意のカテゴリにメールを分類することも可能である。また、分類基準を2次元または3次元以上に設定することも可能である。すなわち、宛先によってメールを分類すると共に、その分類結果をさらに緊急度、重要度、または用件等でさらに多段階に分類する、といった分類方法も可能である。
 図1に示すように、メール分類システム100は、分類器1と学習器2とを備えている。分類器1は、例えば、クラウドシステムとして構成することができる。分類器1と学習器2とは、常時接続されている必要はない。
 分類器1は、ファイル格納部11、文書解析部12、データ変換部13、分類判定部14、および分類結果格納部15を備えている。学習器2は、形態素解析部21、特徴データ抽出部22、画像変換部23、ラベル付与部24、DNN(ディープニューラルネットワーク)25、判別データ格納部26、およびモデルデータ格納部27を備えている。
 分類器1の文書解析部12は、判別データテーブル12aを備えている。判別データテーブル12aは、学習器2で生成され判別データ格納部26に格納された判別データテーブル26aのコピーを保持している。判別データの生成については、後に詳しく説明する。
 分類器1の分類判定部14は、モデルデータ14aを保持している。モデルデータ14aは、学習器2においてDNN25によって生成される学習済みモデルのパラメータである。モデルデータ14aの生成についても、後に詳しく説明する。
 ここで、まず学習器2の各部の動作について説明する。学習器2は、図1に示すように分類学習用データ(教師データ)を入力し、DNN25に学習させることにより、モデルデータを生成する。すなわち、形態素解析部21、特徴データ抽出部22、画像変換部23、およびラベル付与部24は、DNN25の学習に適したデータを生成するためのブロックである。
 分類学習用データは、様々なメールのテキストデータである。形態素解析部21は、分類学習用データのテキストデータに対して形態素解析を行うことにより、テキストデータに含まれる形態素を切り出すと共に、その品詞を特定する。例えば、図2に示す分類学習用データを入力した場合、形態素解析部21による解析結果は、図3に示すとおりとなる。なお、図2および図3に示した例では、電子メールの件名および本文のテキストデータを結合し、解析の対象としている。このように、電子メールの本文だけではなく、件名も解析の対象に含めることは必須ではないが、望ましい。なぜならば、重要な案件や緊急の案件に関するメールを送信する際には、メールの件名に重要度や緊急性を表す単語を含めることが多いからである。
 なお、図2および図3並びに図4Aおよび図4Bは、日本語による処理例を示したものである。言語によって、形態素解析の手法は異なる可能性がある。例えば、英語の文章は、単語間が空白文字で明確に区切られ、活用形のバリエーションも比較的少ないので、テキストデータから形態素を切り出すことは比較的容易である。一方で、日本語や中国語等の場合、テキストデータの中で分節や単語の区切りは明確に示されないので、辞書とのマッチングを行いながら単語の境界を判別することが必要となる。ただし、形態素解析の手法としては、言語毎に適した公知の任意の手法を用いることができるため、ここでは詳細な説明は省略する。
 特徴データ抽出部22は、形態素解析部21による解析結果から特徴データを抽出し、抽出した特徴データを、判別データ格納部26の判別データテーブル26aに格納する。ここで、図4Aおよび図4Bに、特徴データによって構成された判別データテーブル26aの一例を示す。なお、図4Bは、図4Aの続きである。また、図4Aおよび図4Bに示したものは、判別データテーブルのごく一部である。特徴データ抽出部22は、所定のルール(例えば、分類学習用データにおける出現頻度等)にしたがって、形態素解析部21による解析結果(形態素)の一部を特徴データとして抽出し、図4Aおよび図4Bに示すように、品詞毎に分類して判別データテーブル26aへ格納する。なお、ここでは、形態素の一部を特徴データとして抽出するものとしているが、形態素の全てを判別データテーブルに格納するようにしても良い。
 図4Aおよび図4Bに示すように、判別データテーブル26aは、分類学習用データから抽出された形態素を、品詞毎に分類して並べたものである。図4Aおよび図4Bに示した判別データテーブル26aの場合、個々の見出し列の先頭が「0_」で表されている。見出し列は、上記の先頭記号「0_」の後に品詞種別の表記を含み、その後に、その品詞種別に該当する形態素(特徴データ)が続く。一つの見出し列に、複数の形態素が含まれる場合、形態素の間は空白記号で区切られている。なお、区切り記号として、空白記号以外の記号を用いても良い。例えば、図4Aにおいて上から3つ目の「感動詞-*-*-*」という品詞種別の見出し列には、「ありがとう」、「はじめまして」、および「お疲れさま」という3つの形態素(特徴データ)が格納されている。なお、図4Aおよび図4Bの例は、判別データテーブルに格納されている形態素のごく一部のみを示したものである。実際には、他の品詞(例えば固有名詞等)も判別データテーブル26aに多数格納される。
 画像変換部23は、分類学習用データのそれぞれについての形態素解析部21による解析結果を、判別データ格納部26の判別データテーブル26aに基づいて、2値画像(学習用画像)に変換する。ここで、画像変換部23は、判別データテーブル26aに基づき、m行×n列のマス目を有する学習用画像を生成する。なお、mおよびnはいずれも自然数である。m×n個のマス目のそれぞれは、判別データテーブル26aにおける一つの見出し列に対応する。mおよびnの値は、m×nの値が、想定される見出し列の数よりも大きくなるように設定される。学習用画像のそれぞれのマス目と、判別データテーブル26aの見出し列との対応関係は、一つの見出し列に対して一つのマス目が割り当てられることを条件として、任意である。
 画像変換部23は、ある一つの分類学習用データに含まれる形態素を含む見出し列に該当するマス目を、白黒のいずれか一方の色(例えば「白」)で表し、それ以外のマス目を他方の色(例えば「黒」)で表す。例えば、ある分類学習用データに「ありがとう」という形態素が含まれている場合、学習用画像のマス目のうち、前述の「感動詞-*-*-*」という品詞種別の見出し列が対応するマス目が白色で表される。同様にして、その分類学習用データに含まれている形態素を含む見出し列が対応するマス目の全てが、白色で表される。このようにして、画像変換部23は、ある分類学習用データを、2値画像としての学習用画像に変換する。画像変換部23は、この変換処理を、全ての分類学習用データに対して行い、分類学習用データと同数の学習用画像を生成する。画像変換部23はさらに、生成された学習用画像のマス目の一部を変更することによって、派生的に、大量の学習用画像を生成するようにしても良い。例えば、分類学習用データのm行×n列のマス目において白で表されているマス目のうちの1個ないし数個を黒に置き換えることにより、派生的な学習用画像を生成する。なお、ここで派生的に生成された学習用画像については、派生元の学習用画像と同じラベル(後述)を付ける。これにより、限られた数の分類学習用データに基づいて、大量の学習用画像を容易に生成することができる。
 なお、上記においては、分類学習用データから抽出された形態素を含む見出し列に対応するマス目を白色とし、それ以外のマス目を黒色とするものとした。しかし、学習用画像の表示態様は、このような2値による表示に限定されない。例えば、一つの見出し列に含まれる形態素の、分類学習用データにおける出現頻度に基づいて、対応するマス目の色を、3段階以上のグレースケールや、RGB等の複数色で表しても良い。
 ラベル付与部24は、分類学習用データから生成された学習用画像のそれぞれに、元の分類学習用データの分類種別(カテゴリ)を表すラベルを、例えばメタデータとして付与する。カテゴリ種別は、所望の仕分け結果に応じて任意に設定することができる。例えば、メールの緊急度に応じて、「至急」、「期限あり」、「期限なし」等のカテゴリを設けても良い。あるいは、メールの内容(用件)に応じて、「見積もり依頼」、「注文」、「引き合い」、「クレーム」、「修理依頼」、「広告宣伝」、「問い合わせ」等のカテゴリを設けても良い。または、メールの重要度に応じて、「重要」、「通常」等のカテゴリを設けても良い。
 DNN(ディープニューラルネットワーク)25は、ラベルが付与された学習用画像を読み込んで学習を行う。すなわち、本実施形態においては、DNN25における学習は、いわゆる教師付き学習である。DNN25は、多数の学習用画像を与えられ、学習用画像の特徴と分類結果(ラベル)との関連性を学習することにより、学習済みモデルを生成する。学習が完了すると、生成された学習済みモデルを定義するパラメータが、モデルデータ格納部27に格納される。
 以上のとおり、学習器2は、分類学習用データに基づいて、判別データテーブルとモデルデータとを生成する。判別データテーブルは、分類学習用データの形態素解析結果から特徴データを抽出するだけで学習を伴わずに生成されるので、モデルデータよりも容易に生成することができる。
 次に、分類器1の構成と機能について説明する。分類器1は、学習器2によって生成された判別データテーブルおよびモデルデータを用いて、メールの分類を行う。
 分類器1において、ファイル格納部11は、分類対象メールの件名および本文のテキストデータを入力して、少なくとも一時的に格納する。分類器1がクラウドシステムとして構成されている場合、ファイル格納部11は、ユーザ側のシステムからアップロードされる分類対象メールを受け付けて格納する。分類対象メールのアップロードのタイミング(頻度)は任意である。一般的には、ユーザ側のシステム(メールサーバ等)において、メールのテキストデータファイルをローカル保存し、適宜のタイミングにて、ローカル保存されたテキストデータファイルをファイル格納部11へアップロードすれば良い。分類器1は、入力された分類対象メールがファイル格納部11に格納された後、リアルタイム処理で1件ずつ分類処理を行っても良いし、分類対象メールが所定数または所定時間だけファイル格納部11に格納された後に、バッチ処理的に分類処理を行うようにしても良い。
 文書解析部12には、学習器2の判別データ格納部26から読み出された判別データテーブル26aのコピーが、判別データテーブル12aとして格納される。なお、学習器2と分類器1とは、前述したように、常時接続されている必要はなく、判別データテーブル12aは一旦格納されると、そのまま使い続けることができる。ただし、何らかの理由によって判別データテーブル12aの更新が必要となった場合は、学習器2において、判別データ格納部26において判別データテーブル26aの修正を行い、修正後の判別データテーブル26aを、分類器1の文書解析部12における判別データテーブル12aに上書きすれば良い。この修正処理の具体例については後述する。あるいは、分類器1の文書解析部12における判別データテーブル12aのみを修正するようにしても良い。
 文書解析部12は、判別データテーブル12aを参照し、判別データテーブル12aに含まれる単語(形態素)のうち、分類対象メールに含まれる単語(形態素)を特定する。データ変換部13は、学習器2の画像変換部23と同様の処理を行って、分類対象メールを2値画像(判定用画像)に変換する。すなわち、画像変換部23は、m行×n列のマス目を有する判定用画像において、判別データテーブル12aの見出し列のうち、分類対象メールに含まれる単語(形態素)を含む見出し列に対応するマス目を白色で表し、それ以外のマス目を黒色で表す。
 分類判定部14は、モデルデータ14aを用いて、データ変換部13で得られた判定用画像がどのカテゴリに対応するかを判定する。判定結果は、分類結果格納部15に少なくとも一時的に格納される。分類結果格納部15に格納された判定結果は、図1の例では、webブラウザを介してユーザに提示される。分類器1のユーザは、コンピュータ、タブレット、またはスマートホン等の任意の端末からwebブラウザを介して、カテゴリ別に分類されたメールを確認することができる。なお、webブラウザにおける分類結果の表示方法は任意であるが、カテゴリ別にメールがグループ分けされており、例えば、緊急度や重要度が高いメールについては目立つようにタグを付したり色を変えたりすることが望ましい。なお、図1の例では、webブラウザを介して分類結果を表示するものとしているが、ユーザに対する判定結果の提示方法はこれに限定されない。
 ここで、分類器1における判別データテーブル12aの修正の具体例を説明する。例えば、分類器1の使用中に、分類器1から出力されてwebブラウザで表示される分類結果がユーザの所望の結果ではなかった場合に、分類器1において、判別データテーブル12aに新しい形態素を追加することができる。例えば、図5Aに示すようなメールが、所望のカテゴリに分類されなかった場合(例えば「重要」というカテゴリに分類されるべきであったところが、「その他」に分類された場合)、図5Bに示すように、「名詞-固有名詞-人名-姓」の見出し列に、「千葉」という形態素が格納されていなかったことが原因である場合がある。すなわち、学習器2において学習を行った際に、この「千葉」という形態素がどの分類用学習データにも含まれていなかった場合(つまり、分類対象メールに「千葉」という初見の形態素が含まれている場合)、データ変換部13において生成される判定用画像は、「千葉」という形態素の存在を正しく反映していない2値画像となり、結果として、意図した分類結果が得られないこととなる。この場合に、図5Cにおいて矢印を付して示すように、判別データテーブル12aの「名詞-固有名詞-人名-姓」の見出し列に「千葉」を追加することにより、データ変換部13において分類対象メール中の「千葉」という形態素の存在を反映した正しい判定用画像が生成されるようになり、結果として、図5Aに示したメールが正しいカテゴリ(「重要」)に分類されるようになる。
 なお、この場合、判別データテーブル12aに「千葉」を追加する処理は、学習器2の形態素解析部21および特徴データ抽出部22によって自動的に行っても良いが、必ずしも、学習器2の形態素解析部21および特徴データ抽出部22による処理を経なくても良い。例えば、図5Cに示したように、単純に、判別データテーブル12aに「千葉」というテキストデータを人手によって挿入するだけでも良い。
 また、判別データテーブル12aを修正した後に、学習器2によるモデルデータ14aの再生成(修正)を行うことは必須ではない。むしろ、本実施形態におけるメール分類システム100は、モデルデータ14aの再生成(修正)を行わなくても、判別データテーブル12aを修正するだけで判別精度を改善することができる、という点に特徴がある。
 すなわち、判別データテーブル12aを修正することにより、修正後は、分類対象メールからデータ変換部13において生成される2値画像が、正しいものとなる。上述のように、判別データテーブル12aの修正は、テキストデータの挿入や削除によって比較的容易に行うことができる。それに対して、モデルデータ14aを再生成する場合は、分類学習用データを大量に読み込ませて処理を行う必要があるため、簡易な修正作業には留まらない。すなわち、モデルデータ14aの再生成は、頻繁に行い得るものではないのに対して、判別データテーブル12aの修正は簡単なカスタマイズ作業で良いので、ユーザから誤分類のフィードバックがある都度等に、必要に応じて適宜実施することができる。したがって、本実施形態のメール分類システム100によれば、学習済みモデル(モデルデータ14a)を用いた高度な分類処理を行えることに加えて、判別データテーブル12aの簡単な修正のみによって誤分類を修正できるという、優れた効果を奏する。
 なお、上記の説明においては、判別データテーブル12aに形態素を追加する例を示したが、判別データテーブル12aから不要な形態素を削除したり、格納済みの形態素を書き換えたりすることも、修正の一態様である。
 以上のとおり、本発明の具体的な実施形態を一つ説明したが、上述した実施形態は例示であって、本発明を限定するものではない。例えば、上記の実施形態では、教師あり学習による学習済みモデルの生成を例示したが、教師なし学習によって学習済みモデルを生成するようにしても良い。その場合は、ラベル付与部24は省略される。
 また、上記実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)、マイクロプロセッサ、プロセッサ等により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。
 また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらに、メール分類システム100を、ソフトウェアおよびハードウェアの混在処理により実現しても良い。
 また、上記実施形態における処理方法の実行順序は、必ずしも、上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。また、上記実施形態における処理方法において、発明の要旨を逸脱しない範囲で、一部のステップが、他のステップと並列に実行されるものであってもよい。
 前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体の種類は任意である。また、上記コンピュータプログラムは、上記記録媒体に記録されたものに限られず、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。
 なお、本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。
 また、本発明は、以下のように説明することもできる。
 本発明の第1の構成にかかるメール分類装置は、
 分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、
 メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
 前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、
 前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、
 判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデル(学習済みモデル)に基づいて、分類対象メールのカテゴリを判定する分類判定部とを備える。
 この第1の構成では、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを備え、この判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成する。そして、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。これにより、従来のように、単純に所定の単語や文章を含むか否かによってメールの分類を行う場合よりも、学習モデルを用いることによる複雑かつ網羅的な判定基準によって、メールのカテゴリ判定を適切に行うことができる。
 本発明の第2の構成にかかるメール分類装置は、第1の構成のメール分類装置において、前記判別データテーブルが、新たな形態素の追加、格納されている形態素の削除、または格納されている形態素の書き換えが可能であることを、追加的な特徴とする。
 この第2の構成によれば、メールの誤分類があった場合に、例えば誤分類されたメールのテキストデータに含まれる形態素を判別データテーブルに新たに追加すること等により、判別データテーブルを更新することができる。これにより、学習モデルを再生成することなく、判別データテーブルの更新という比較的容易な作業のみによって、誤分類を修正することができる。
 本発明の第3の構成にかかるメール分類装置は、第1または第2の構成のメール分類装置において、前記分類対象メールのカテゴリが、メールの緊急度、重要度、宛先、および用件の少なくとも一つを含む。
 本発明にかかるメール分類方法は、
 コンピュータによって実行されるメール分類方法であって、
 分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
 メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
 前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
 判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。
 このメール分類方法によれば、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、この判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成する。そして、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。これにより、従来のように、単純に所定の単語や文章を含むか否かによってメールの分類を行う場合よりも、学習モデルを用いることによる複雑かつ網羅的な判定基準によって、メールのカテゴリ判定を適切に行うことができる。
 本発明にかかるプログラムは、
 分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
 メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
 前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
 判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する処理を、コンピュータに実行させるためのプログラムである。
 このプログラムによって動作するコンピュータは、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、この判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成する。そして、判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する。これにより、従来のように、単純に所定の単語や文章を含むか否かによってメールの分類を行う場合よりも、学習モデルを用いることによる複雑かつ網羅的な判定基準によって、メールのカテゴリ判定を適切に行うことができる。
 また、上記のプログラムを記録した記録媒体も、本発明の一つの態様である。
 本発明にかかる学習モデル生成装置は、
 メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
 学習用テキストデータに対して形態素解析を行う形態素解析部と、
 形態素解析部の解析結果から、前記判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を前記判別データテーブルへ格納する特徴データ抽出部と、
 前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成する画像変換部と、
 前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する学習部とを備える。
 この学習モデル生成装置では、学習データとして、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を用いる。これにより、メールのテキストデータをそのまま学習させる場合に比較して、多種多様な形態素を含む学習データを効率的に大量に学習させることができる。この結果、メールのテキストデータとその分類結果との相関関係について信頼性の高い判定結果を出力できる学習済みモデルを生成することが可能となる。
 本発明にかかる学習モデル生成方法は、
 学習用テキストデータに対して形態素解析を行い、
 前記形態素解析の結果から、判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を品詞毎に判別データテーブルへ格納し、
 前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成し、
 前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する、学習モデル生成方法。
 この学習モデル生成方法では、学習データとして、メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を用いる。これにより、メールのテキストデータをそのまま学習させる場合に比較して、多種多様な形態素を含む学習データを効率的に大量に学習させることができる。この結果、メールのテキストデータとその分類結果との相関関係について信頼性の高い判定結果を出力できる学習済みモデルを生成することが可能となる。
 100…メール分類システム、1…分類器、2…学習器、11…ファイル格納部、12…文書解析部、13…データ変換部、14…分類判定部、15…分類結果格納部、21…形態素解析部、22…特徴データ抽出部、23…画像変換部、24…ラベル付与部、25…DNN(ディープニューラルネットワーク)、26…判別データ格納部、27…モデルデータ格納部

Claims (8)

  1.  分類対象メールのテキストデータを入力して少なくとも一時的に格納する格納部と、
     メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
     前記判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定する解析部と、
     前記解析部の処理結果に基づき、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成するデータ変換部と、
     判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する分類判定部とを備えた、メール分類装置。
  2.  前記判別データテーブルは、新たな形態素の追加、格納されている形態素の削除、または、格納されている形態素の書き換えが可能である、請求項1に記載のメール分類装置。
  3.  前記分類対象メールのカテゴリは、メールの緊急度、重要度、宛先、および用件の少なくとも一つを含む、請求項1または2に記載のメール分類装置。
  4.  コンピュータによって実行されるメール分類方法であって、
     分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
     メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
     前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
     判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する、メール分類方法。
  5.  分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
     メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
     前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
     判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する処理を、コンピュータに実行させるためのプログラム。
  6.  分類対象メールのテキストデータを入力して少なくとも一時的に格納し、
     メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルを参照し、前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素を特定し、
     前記判別データテーブルに格納されている形態素のうち、分類対象メールに含まれる形態素の分布を表す判定用画像を生成し、
     判定用画像と分類対象メールのカテゴリとの相関関係を学習した学習モデルに基づいて、分類対象メールのカテゴリを判定する処理を、コンピュータに実行させるためのプログラムを記録した記録媒体。
  7.  メールのテキストデータに含まれ得る形態素を品詞毎に格納した判別データテーブルと、
     学習用テキストデータに対して形態素解析を行う形態素解析部と、
     形態素解析部の解析結果から、前記判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を前記判別データテーブルへ格納する特徴データ抽出部と、
     前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成する画像変換部と、
     前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する学習部とを備えた、学習モデル生成装置。
  8.  学習用テキストデータに対して形態素解析を行い、
     前記形態素解析の結果から、判別データテーブルに格納すべき形態素を所定のルールに基づいて抽出し、抽出した形態素を品詞毎に判別データテーブルへ格納し、
     前記判別データテーブルに格納されている形態素のうち、学習用テキストデータに含まれる形態素の分布を表す学習用画像を生成し、
     前記学習用画像と学習用テキストデータの分類結果との相関関係を学習した学習済みモデルを生成する、学習モデル生成方法。
PCT/JP2019/046215 2018-11-26 2019-11-26 メール分類装置、メール分類方法、およびコンピュータプログラム WO2020111074A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020509538A JP6715487B1 (ja) 2018-11-26 2019-11-26 メール分類装置、メール分類方法、およびコンピュータプログラム
US17/422,281 US20220253603A1 (en) 2018-11-26 2019-11-26 E-mail classification device, e-mail classification method, and computer program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-220263 2018-11-26
JP2018220263 2018-11-26

Publications (1)

Publication Number Publication Date
WO2020111074A1 true WO2020111074A1 (ja) 2020-06-04

Family

ID=70854026

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/046215 WO2020111074A1 (ja) 2018-11-26 2019-11-26 メール分類装置、メール分類方法、およびコンピュータプログラム

Country Status (3)

Country Link
US (1) US20220253603A1 (ja)
JP (1) JP6715487B1 (ja)
WO (1) WO2020111074A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092649A (zh) * 2021-11-25 2022-02-25 马上消费金融股份有限公司 基于神经网络的图片生成方法及装置
JP7106035B1 (ja) * 2021-11-24 2022-07-25 シエンプレ株式会社 クレーム発生予測システム、クレーム発生予測方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020538A (ja) * 1998-07-02 2000-01-21 Mitsubishi Electric Corp 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP2004215094A (ja) * 2003-01-07 2004-07-29 Sony Corp 電子機器装置及びキーワード生成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020538A (ja) * 1998-07-02 2000-01-21 Mitsubishi Electric Corp 情報検索方法、情報検索装置および情報検索プログラム記憶媒体
JP2004215094A (ja) * 2003-01-07 2004-07-29 Sony Corp 電子機器装置及びキーワード生成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUJINO, AKINORI ET AL.: "Semi-supervised learning technology for automatic text classification", NTT TECHNICAL JOURNAL, vol. 19, no. 6, 1 June 2007 (2007-06-01), pages 26 - 28 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7106035B1 (ja) * 2021-11-24 2022-07-25 シエンプレ株式会社 クレーム発生予測システム、クレーム発生予測方法及びプログラム
WO2023095215A1 (ja) * 2021-11-24 2023-06-01 シエンプレ株式会社 クレーム発生予測システム、クレーム発生予測方法及びプログラム
CN114092649A (zh) * 2021-11-25 2022-02-25 马上消费金融股份有限公司 基于神经网络的图片生成方法及装置
CN114092649B (zh) * 2021-11-25 2022-10-18 马上消费金融股份有限公司 基于神经网络的图片生成方法及装置

Also Published As

Publication number Publication date
US20220253603A1 (en) 2022-08-11
JPWO2020111074A1 (ja) 2021-02-15
JP6715487B1 (ja) 2020-07-01

Similar Documents

Publication Publication Date Title
CN109271521B (zh) 一种文本分类方法及装置
Ozdemir et al. Feature Engineering Made Easy: Identify unique features from your dataset in order to build powerful machine learning systems
US6278996B1 (en) System and method for message process and response
WO2022095376A1 (zh) 方面级别情感分类方法、装置、设备及可读存储介质
US10922492B2 (en) Content optimization for audiences
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
JP6715487B1 (ja) メール分類装置、メール分類方法、およびコンピュータプログラム
US20230214679A1 (en) Extracting and classifying entities from digital content items
JP2019101149A (ja) 設問自動生成プログラム及び設問自動生成装置
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
US20240211518A1 (en) Automated document intake system
CN113868419A (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
CN107783958B (zh) 一种目标语句识别方法及装置
CN110705257B (zh) 媒体资源的识别方法、装置、存储介质及电子装置
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
US20240086452A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
JP2009053743A (ja) 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム
CN116306506A (zh) 一种基于内容识别的智能邮件模板方法
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
JP2001022727A (ja) テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
WO2020059506A1 (ja) 学習装置、抽出装置及び学習方法
JP6509391B1 (ja) 計算機システム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020509538

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19890898

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19890898

Country of ref document: EP

Kind code of ref document: A1