JPWO2011052025A1 - Data processing apparatus, data processing method, and program - Google Patents
Data processing apparatus, data processing method, and program Download PDFInfo
- Publication number
- JPWO2011052025A1 JPWO2011052025A1 JP2011538127A JP2011538127A JPWO2011052025A1 JP WO2011052025 A1 JPWO2011052025 A1 JP WO2011052025A1 JP 2011538127 A JP2011538127 A JP 2011538127A JP 2011538127 A JP2011538127 A JP 2011538127A JP WO2011052025 A1 JPWO2011052025 A1 JP WO2011052025A1
- Authority
- JP
- Japan
- Prior art keywords
- sample data
- sample
- learning
- category
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
学習サンプル用データ抽出部140が複数のカテゴリにわたってサンプルメールを抽出し、学習サンプル選定部150が、サンプルメールの選定総数の上限値とサンプルメールの選定基準が示される学習サンプル選定規則190に基づき、サンプルメールの選定総数が前記上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算し、学習サンプル用データ抽出部140により抽出されたサンプルメールの中からカテゴリ単位の選定数に従いカテゴリごとに学習部160の学習に用いられるサンプルメールを選定する。The learning sample data extracting unit 140 extracts sample mails over a plurality of categories, and the learning sample selecting unit 150 is based on a learning sample selection rule 190 in which an upper limit value of the total number of sample mails and sample mail selection criteria are indicated. The total number of sample mails selected is maximized within the range of the upper limit value, and the number of selections that minimizes the difference between categories is calculated for each category, and categories are selected from the sample mails extracted by the learning sample data extraction unit 140. The sample mail used for learning of the learning unit 160 is selected for each category according to the number of units selected.
Description
本発明は、データを複数のカテゴリのいずれかに分類する技術に関する。 The present invention relates to a technique for classifying data into one of a plurality of categories.
データを複数のカテゴリへ自動的に分類するための方式の1つとして、機械学習による自動分類が良く用いられる。
以下では、文書データ(以下、単に文書ともいう)を例として機械学習による自動分類技術を説明する。Automatic classification by machine learning is often used as one of the methods for automatically classifying data into a plurality of categories.
Hereinafter, an automatic classification technique based on machine learning will be described using document data (hereinafter also simply referred to as a document) as an example.
機械学習を用いた文書自動分類方式では、予め複数の分類カテゴリに分けられた学習サンプル文書を用いて、カテゴリごとの特徴を学習し、その学習結果に基づいて分類対象文書の分類を行う。
したがって、機械学習による文書分類の精度は学習サンプル文書に依存する。
特許文献1においては、学習サンプル文書を実験的に分類し、分類間違いの文書を選別して除去し、分類ルールを改善することで、分類精度を高めるための技術が開示されている。In the automatic document classification method using machine learning, features of each category are learned using learning sample documents previously divided into a plurality of classification categories, and classification target documents are classified based on the learning results.
Therefore, the accuracy of document classification by machine learning depends on the learning sample document.
Patent Document 1 discloses a technique for improving classification accuracy by experimentally classifying learning sample documents, selecting and removing misclassified documents, and improving classification rules.
しかしながら、特許文献1のような方法では、正しく分類された学習サンプル文書を大量に集めるには人手の手間がかかるという課題がある。
また、機械学習を用いた文書分類を適用するシステムにおいて、機械学習に使用できる時間に制約があり学習サンプル件数をユーザ側で決定したいとき、特許文献1のような方法では人手による学習サンプルの選定作業が必要となるという課題がある。However, the method as in Patent Document 1 has a problem that it takes time and labor to collect a large amount of correctly classified learning sample documents.
Also, in a system that applies document classification using machine learning, when there is a restriction on the time that can be used for machine learning and the user wants to determine the number of learning samples, in the method such as Patent Document 1, manual selection of learning samples is performed. There is a problem that work is required.
また、分類カテゴリ間の学習サンプル件数差が大きい場合、使用するアルゴリズムによっては機械学習がうまく行えず、結果として分類精度が低下するという課題がある。 Further, when the difference in the number of learning samples between classification categories is large, there is a problem that machine learning cannot be performed properly depending on the algorithm used, resulting in a decrease in classification accuracy.
また、学習サンプル文書の中に重複した内容の文書が多く含まれる場合、これらの文書を全て学習させることは非効率であり、機械学習に使用できる時間を有効活用できないという課題がある。
限られた時間内で分類精度の高い分類ルールを生成させるためには、可能な限り内容や形式の異なる文書を多く学習させることが望ましいが、特許文献1のような方法では人手による学習サンプルの選定作業が必要となるという課題がある。In addition, when there are many documents with duplicate contents in the learning sample document, it is inefficient to learn all of these documents, and there is a problem that the time available for machine learning cannot be used effectively.
In order to generate classification rules with high classification accuracy within a limited time, it is desirable to learn as many documents with different contents and formats as possible. There is a problem that selection work is required.
この発明は、上記のような課題を解決することを主な目的の一つとしており、人手による手間をかけることなく効率的な学習が行えるようなサンプルデータの選定を自動で行い、短時間の機械学習で分類精度を高めることができるデータ分類技術を提供することが目的である。 One of the main objects of the present invention is to solve the above-mentioned problems, and automatically selects sample data that can be efficiently learned without labor and effort. It is an object to provide a data classification technique that can improve classification accuracy by machine learning.
本発明に係るデータ処理装置は、
分類ルールに従って、データを複数カテゴリのうちのいずれかのカテゴリに分類する分類部と、
サンプルデータを用いた学習を行って、前記分類部が用いる分類ルールを新たに生成する学習部と、
前記学習部の学習に用いるサンプルデータをカテゴリごとに抽出するサンプルデータ抽出部と、
サンプルデータの選定総数の上限値とサンプルデータの選定基準が示されているサンプルデータ選定基準情報を記憶するサンプルデータ選定基準情報記憶部と、
前記サンプルデータ選定基準情報に基づき、サンプルデータの選定総数が前記上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算し、前記サンプルデータ抽出部により抽出されたサンプルデータの中からカテゴリ単位の選定数に従いカテゴリごとに前記学習部の学習に用いるサンプルデータを選定するサンプルデータ選定部とを有することを特徴とする。The data processing apparatus according to the present invention
A classification unit that classifies data into one of a plurality of categories according to a classification rule;
A learning unit that performs learning using sample data and newly generates a classification rule used by the classification unit;
A sample data extraction unit that extracts, for each category, sample data used for learning of the learning unit;
A sample data selection criterion information storage unit for storing sample data selection criterion information indicating an upper limit of the total number of sample data selections and a selection criterion for sample data;
Based on the sample data selection criteria information, the number of selected sample data is maximized within the range of the upper limit value, and the number of selections that minimizes the difference between categories is calculated for each category and extracted by the sample data extraction unit. And a sample data selection unit that selects sample data used for learning by the learning unit for each category according to the number of selections in category units.
本発明によれば、サンプルデータの選定総数が上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算し、抽出されたサンプルデータの中からカテゴリ単位の選定数に従いカテゴリごとに学習に用いるサンプルデータを選定するため、人手をかけることなく機械学習での分類精度を高めることができる。 According to the present invention, the number of selections in which the total number of sample data selections is maximized within the range of the upper limit value and the difference between categories is minimized is calculated in category units, and the selection of category units is selected from the extracted sample data. Since the sample data used for learning is selected for each category according to the number, the classification accuracy in machine learning can be increased without manpower.
以下の説明では、メールアーカイブシステムにおいて電子メール(以下、単にメールともいう)を分類する例と、文書アーカイブシステムにおいて文書データを分類する例を説明するが、この発明に係るデータ処理技術は、メールアーカイブシステムにおけるメール分類および文書アーカイブシステムにおける文書データの分類に限定されるものではなく、一般的な文書分類システムにおいて適用可能である。 In the following description, an example in which electronic mail (hereinafter simply referred to as mail) is classified in the mail archiving system and an example in which document data is classified in the document archive system will be described. The present invention is not limited to the mail classification in the archive system and the document data classification in the document archive system, and can be applied to a general document classification system.
また、以下では、各カテゴリの学習サンプル件数や文書情報を考慮して学習サンプル選定規則を予め定めておくことにより、人手による手間をかけることなく効率的な学習が行えるような学習サンプル文書の選定を自動で行い、短時間の機械学習で分類精度を高めることができるデータ処理技術を説明する。 In addition, in the following, by selecting the learning sample selection rules in advance considering the number of learning samples in each category and document information, selection of learning sample documents that enable efficient learning without manual labor A data processing technique that can automatically improve the classification accuracy by short-time machine learning will be described.
実施の形態1.
図1は、本実施の形態に係るメールアーカイブシステムの構成例を示す。
図1では、それぞれユーザ端末とメールサーバが含まれる3つの組織が示されている。
各組織には、各組織の識別子であるドメインが設定されている。
各組織に含まれるユーザ端末には、所属する組織のドメインが含まれるメールアドレスが設定されている。
また、メールサーバは、メールを受信するとともに、受信したメールの宛先アドレスに含まれているドメインを解析して、受信したメールの転送先を判断する。Embodiment 1 FIG.
FIG. 1 shows a configuration example of a mail archive system according to the present embodiment.
In FIG. 1, three organizations each including a user terminal and a mail server are shown.
Each organization has a domain that is an identifier of each organization.
For each user terminal included in each organization, an email address including the domain of the organization to which the user belongs is set.
Further, the mail server receives the mail and analyzes the domain included in the destination address of the received mail to determine the transfer destination of the received mail.
図1においては、便宜上、メールのドメインが対象組織ドメイン、2つの対象組織外ドメインにより構成されるが、図1のドメイン構成に限定される必要はなく、任意のドメイン構成を用いることが可能である。 In FIG. 1, for the sake of convenience, the mail domain is composed of a target organization domain and two non-target organization domains, but it is not necessary to be limited to the domain configuration of FIG. 1, and any domain configuration can be used. is there.
対象組織ドメインは、本実施の形態のメールアーカイブシステムが導入される組織301に固有のドメインである。
組織301としては、例えば、企業や、官庁、役所等の公的機関、その他団体、あるいは、その内部組織(事業所、支所など)など、固有のドメインを持つ組織が当てはまる。
また、2つの対象組織外ドメインは、共に組織301ではない組織302及び組織303の固有ドメインであり、互いに異なるドメインである。The target organization domain is a domain unique to the
As the
The two domains outside the target organization are unique domains of the
図1の構成において、組織301には、メールサーバ311、ユーザ端末321が含まれる。
組織302には、メールサーバ312、ユーザ端末322が含まれる。
組織303には、メールサーバ313、ユーザ端末323が含まれる。
各組織のメールサーバ311、312、313は、ネットワーク330を通じて接続される。
ユーザ端末321、322、323は、メールサーバ311、312、313およびネットワーク330を通じてメールを送受信することができる。
なお、ユーザ端末数やメールサーバの構成については、図1の構成に限らず、任意のユーザ端末数、任意の構成のメールサーバを適用可能である。In the configuration of FIG. 1, the
The
The
The
The
Note that the number of user terminals and the configuration of the mail server are not limited to the configuration in FIG. 1, and an arbitrary number of user terminals and a mail server with an arbitrary configuration can be applied.
図1の構成において、メールサーバ311は、メールアーカイブ装置200に接続されている。
メールアーカイブ装置200には、メール分類装置100が含まれる。
メール分類装置100は、データ処理装置の例である。In the configuration of FIG. 1, the
The
The
図2は、本実施の形態に係るメールアーカイブ装置200の構成例を示す。
FIG. 2 shows a configuration example of the
メールアーカイブ装置200は、メール蓄積用データベース210、およびメール分類装置100を備える。
メールアーカイブ装置200は、メールサーバ311を通過しようとする新規入力メール201を複製し、メール蓄積用データベース210に蓄積する。
メールの複製は、メールサーバ311で行われてもよい。
メール分類装置100は、メール蓄積用データベース210に蓄積されたメールを複数の分類カテゴリに分類する。
分類結果は、分類結果蓄積用データベース130に蓄積される。
なお、メール蓄積用データベース210に蓄積されたメールには、メールを一意に識別可能とするためのメールIDが付与されており、このメールIDによりメール蓄積用データベース210に蓄積されたメールと分類結果蓄積用データベース130に蓄積されたメール分類結果とが対応付けられる。
システム管理者は、メール蓄積用データベース210、および分類結果蓄積用データベース130に問い合わせを行うことで、メールの分類結果の参照、および分類結果をキーとしたメール検索が可能である。
メール分類装置100をシステム管理者により設定された周期毎に起動し、起動周期の間にメール蓄積用データベース210に蓄積されたメールを分類対象とすることで、継続的に入力されるメール全てに対して分類処理を行うような運用が可能である。The
The
Mail replication may be performed by the
The
The classification results are accumulated in the classification
The mail stored in the
The system administrator can query the
The
メール分類装置100は、分類対象データ抽出部110、分類部120、分類結果蓄積用データベース130、学習サンプル用データ抽出部140、学習サンプル選定部150、学習部160、分類ルール記憶部170、条件規則記憶部195から構成される。
条件規則記憶部195には、複数の分類カテゴリに対する学習サンプル抽出条件180、および、学習サンプル選定規則190が記憶されている。
学習サンプル選定規則190には、サンプル合計件数上限値決定規則191、サンプル件数決定規則192及びサンプル選定規則193が含まれる。
分類カテゴリ数に特別な制限はなく、2以上の任意の自然数が設定可能である。
学習サンプル抽出条件180、および、学習サンプル選定規則190はシステムの管理者等により設定される。The
The condition
The learning
There is no particular limitation on the number of classification categories, and an arbitrary natural number of 2 or more can be set.
The learning sample extraction condition 180 and the learning
分類対象データ抽出部110は、メール蓄積用データベース210への問い合わせ文をメール蓄積用データベース210に発行し、問い合わせ文に対応するメールをメール蓄積用データベース210から分類対象メールとして抽出する。
The classification target
分類部120は、学習部160で生成された分類ルール(分類ルール記憶部170に記憶されている)を使用して、分類対象データ抽出部110により抽出された分類対象メールを複数の分類カテゴリのうちのいずれかの分類カテゴリに分類し、分類結果をメールIDと関連付けて、分類結果蓄積用データベース130に蓄積する。
The
学習サンプル用データ抽出部140は、メール蓄積用データベース210に蓄積済みのメールであり、かつ分類済みのメールの中から、学習部160の学習に使用する学習サンプルの候補となるメール(サンプルデータ)を学習サンプル用メールとしてカテゴリごとに抽出する。
なお、以下では、学習サンプル用メールをサンプルメールともいう。一方、学習部160の学習用に選定されたサンプルメールを学習サンプルと呼ぶ。
ある分類カテゴリの学習サンプル用メールとして抽出されるメールは、対応する分類カテゴリの学習サンプル抽出条件180に合致するメールである。
この際、学習サンプル用メールを新たにメール蓄積用データベース210から取り出すのではなく、分類対象データ抽出部110で抽出したメールを流用することで、メール蓄積用データベース210からメールを抽出する時間を削減することができる。
なお、学習サンプル用データ抽出部140は、サンプルデータ抽出部の例である。The learning sample
In the following, the learning sample mail is also referred to as a sample mail. On the other hand, the sample mail selected for learning by the
A mail extracted as a learning sample mail for a certain category category is a mail that matches the learning sample extraction condition 180 for the corresponding category category.
At this time, instead of newly taking out the learning sample mail from the
The learning sample
学習サンプル抽出条件180に、例えば正規表現による検索式を含ませることができる。
正規表現とすることで、単純なキーワードに加え、より複雑なパターンを検索することが可能となり、学習サンプル抽出条件180の柔軟性を向上させることができる。The learning sample extraction condition 180 can include, for example, a search expression using a regular expression.
By using regular expressions, it becomes possible to search for more complex patterns in addition to simple keywords, and the flexibility of the learning sample extraction condition 180 can be improved.
学習サンプル用データ抽出部140で使用する学習サンプル抽出条件180はまた、メールの属性を抽出し、照合するものであっても良い。
Request For Comments(RFC)2822にて定義されるヘッダフィールドやRFC2821にて定義されるエンベロープ、あるいは、メールサーバシステム毎に独自に定義されるヘッダフィールドなどを用いる。
ヘッダフィールドの例としては、From、To、Cc(送信者、受信者、同報受信者アドレス)や、Subject(件名)、Date(送信日時)、Received(受信日時)などがある。The learning sample extraction condition 180 used in the learning sample
A header field defined in Request For Comments (RFC) 2822, an envelope defined in RFC2821, or a header field uniquely defined for each mail server system is used.
Examples of header fields include From, To, Cc (sender, recipient, broadcast recipient address), Subject (subject), Date (transmission date / time), Received (reception date / time), and the like.
学習サンプル用データ抽出部140で使用する学習サンプル抽出条件180はまた、メールの添付ファイルのファイル名や添付ファイル内のテキストを抽出して照合を行うものであってもよい。
RFC2045−2049で定義されているMultipurpose Internet Mail Extension(MIME)の形式などによってエンコードされている添付ファイルの場合、MIMEヘッダから添付ファイル名を抽出することが可能であり、またボディをデコードして添付ファイルを抽出し、その添付ファイルからテキストを抽出することが可能である。The learning sample extraction condition 180 used in the learning sample
In the case of an attached file encoded in the format of Multipurpose Internet Mail Extension (MIME) defined in RFC2045-2049, the attached file name can be extracted from the MIME header, and the body is decoded and attached. It is possible to extract a file and extract text from the attached file.
学習サンプル選定部150は、学習サンプル選定規則190に則って、学習部160において実際に機械学習に使用する学習サンプルを選定する。
The learning
学習サンプル選定規則190は、サンプル合計件数上限値決定規則191、サンプル件数決定規則192、および、サンプル選定規則193の3つの規則から構成される。
サンプル合計件数上限値決定規則191は、機械学習に使用する全分類カテゴリの学習サンプルの合計件数(サンプルデータの選定総数)の上限値が示される規則である。
サンプル件数決定規則192は、サンプル合計件数上限値決定規則191に基づいて決定された学習サンプル合計件数上限値を元に、機械学習に使用するサンプルメール件数を分類カテゴリ毎に決定するための規則である。
サンプル選定規則193は、サンプル件数決定規則192に基づいて決定された分類カテゴリ毎のサンプル件数となるように、分類カテゴリ毎のサンプルメールを選定するための規則である。
サンプル合計件数上限値決定規則191、サンプル件数決定規則192、サンプル選定規則193は、このように、学習サンプルの選定総数の上限値とサンプルメールの選定基準が示されており、サンプルデータ選定基準情報の例に相当する。
また、条件規則記憶部195は、サンプルデータ選定基準情報の例に相当するこれらの規則を記憶しており、サンプルデータ選定基準情報記憶部の例となる。The learning
The sample total number upper
The sample
The
The sample total number upper
Further, the condition
そして、学習サンプル選定部150は、学習サンプル選定規則190に基づき、サンプルメールの選定総数が上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算し、学習サンプル用データ抽出部140により抽出されたサンプルメールの中からカテゴリ単位の選定数に従いカテゴリごとに学習部160の学習に用いる学習サンプルを選定する。
上記のように、学習サンプル選定部150は、サンプルメールの選定総数が上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算するが、「カテゴリ間の差が最小」とは、カテゴリ数が2つの場合は、2つのカテゴリの間の差が最小ということを意味する。
カテゴリ数が3つ以上の場合は、選定数が最大のカテゴリと選定数が最小のカテゴリの間の差が最小であることを意味する。
学習サンプル選定部150は、サンプルデータ選定部の例である。Then, based on the learning
As described above, the learning
When the number of categories is three or more, it means that the difference between the category with the largest selection number and the category with the smallest selection number is the smallest.
The learning
学習部160は、学習サンプル用データ抽出部140、および、学習サンプル選定部150によりカテゴリ毎に抽出、選定されたメールをそれぞれのカテゴリの学習サンプルとして入力し、入力した学習サンプルを用いて、分類部120の分類に使用される分類ルールを生成する。
The
分類部120および学習部160では、一般に知られている任意の機械学習を用いた文書分類方法を用いることができる。
また、複数の機械学習を用いた文書分類方法を用いることもできる。The
A document classification method using a plurality of machine learnings can also be used.
次に、メール分類装置100の動作を図3を用いて説明する。
Next, the operation of the
システム管理者等により予め設定された起動周期にあわせて、メール分類装置100が起動される(S101)。
分類対象データ抽出部110は、メール分類装置100の前回起動時から今回起動時までの1周期の間にメール蓄積用データベース210に蓄積されたメールを分類対象メールとして抽出する(S102)。
分類部120は、分類対象メールとして抽出されたメールを分類ルールに従っていずれかの分類カテゴリへと分類し、分類結果を分類結果蓄積用データベース130に蓄積する(S103)(分類処理)。
学習サンプル用データ抽出部140は、分類カテゴリ毎に設定された学習サンプル抽出条件180を用いて学習サンプル用メールを抽出する(S104)(サンプルデータ抽出処理)。
学習サンプル選定部150は、学習サンプル選定規則190を条件規則記憶部195から読み出す(読み出し処理)とともに、学習サンプル用メールの中から実際に機械学習に使用する学習サンプルを分類カテゴリ毎に選定する(S105)(サンプルデータ選定処理)。
学習部160は、分類カテゴリ別に抽出、選定された学習サンプルを学習し、分類ルールを生成、または更新する(S106)(学習処理)。
以上の一連の動作を、メール分類装置100の起動周期毎に繰り返す。The
The classification target
The
The learning sample
The learning
The
The above series of operations is repeated every time the
学習サンプル選定部150の動作(S105)を図4を用いてより詳細に説明する。
The operation (S105) of the learning
まず、学習サンプル選定部150は、サンプル合計件数上限値決定規則191により、全分類カテゴリにおける学習サンプル合計件数の上限値を決定する(S201)。
次に、学習サンプル選定部150は、サンプル件数決定規則192により、S201で決定された学習サンプル合計件数上限値を元に機械学習に使用する分類カテゴリ毎のサンプルメール件数を決定する(S202)。
最後に、学習サンプル選定部150は、サンプル選定規則193により、S202で決定された分類カテゴリ毎のサンプルメール件数となるように、分類カテゴリ毎に選定するサンプルメールを決定する(S203)。First, the learning
Next, the learning
Finally, the learning
サンプル合計件数上限値決定規則191は、メール分類装置100が機械学習に割り当て可能な時間を考慮してシステム管理者等が定める。以下に具体例を挙げる。
The sample total number upper
メール分類装置100が1回の機械学習に割り当てる時間を固定時間としたい場合、メール1件当たりの平均学習処理時間と機械学習に割り当て可能な総時間から機械学習可能なメール件数が算出可能である。
従って、ここで算出されたメール件数を学習サンプル合計件数の上限値として定数で与えることにより、常に、時間内に機械学習が完了することが保障される。
メールアーカイブ装置200は、定まった起動周期毎に起動するため、起動時間によっては新規入力メール201の件数が学習サンプル合計件数上限値として与えた定数に満たないことがある。
この場合は、新規入力メール201の件数を学習サンプル合計件数の上限値として与え直せばよい。If the time that the
Therefore, by giving the number of mails calculated here as a constant as the upper limit of the total number of learning samples, it is guaranteed that machine learning is always completed in time.
Since the
In this case, the number of new input emails 201 may be given again as the upper limit value of the total number of learning samples.
また、学習サンプル合計件数の上限値を新規入力メール201の件数に対する割合として定めても良い。
つまり、サンプル合計件数上限値決定規則191に、各周期で入力された分類対象メールの件数に所定の比率を乗じた値をサンプル合計件数上限値とする規則を定義し、学習サンプル選定部150は、サンプル合計件数上限値決定規則191に基づき、周期ごとに、入力された分類対象メールの件数に所定の比率を乗じた値をサンプル合計件数上限値として計算し、計算したサンプル合計件数上限値を用いて学習サンプルを選定するようにしてもよい。
このようにすることで、学習サンプル合計件数の上限値を定数として与えるのではなく、新規入力メール201の件数に応じて変化させることが可能となる。
メール分類装置100に入力される新規入力メール201の件数は起動周期によって異なるが、1日を通して入力されるメール件数の合計はある程度定まっている場合、上記のように学習サンプル合計件数の上限値を設定することで、1日を通してシステムが機械学習に割り当てる時間はほぼ一定値となる。
また、このように学習サンプル合計件数の上限値を設定することで、1日を通してシステムに入力されるメールから偏りなく満遍に学習サンプルを選定することが可能となる。Further, the upper limit value of the total number of learning samples may be determined as a ratio to the number of new input emails 201.
In other words, the sample total number upper
In this way, the upper limit value of the total number of learning samples is not given as a constant, but can be changed according to the number of new input mails 201.
The number of new input mails 201 input to the
In addition, by setting the upper limit value of the total number of learning samples in this way, it becomes possible to select learning samples from the mails input to the system throughout the day without any bias.
サンプル件数決定規則192は、システムの特性に応じてシステム管理者等が定める。以下に具体例を挙げる。
以下の説明では、分類カテゴリがカテゴリAとカテゴリBの2つのときの例を示すが、カテゴリ数が3以上の場合も同様の規則を与えることが可能である。The sample
In the following description, an example in which there are two classification categories, category A and category B, is shown, but the same rule can be given when the number of categories is three or more.
学習サンプル用データ抽出部140により抽出されるカテゴリAのメールの件数をa件とし、カテゴリBのメールの件数をb件とする。
また、サンプル合計件数上限値決定規則191による上限値をc(≦a+b)件とする。
このとき、以下の基準を示すサンプル件数決定規則192を設け、学習サンプル選定部150は以下の基準により、カテゴリAのサンプルメールの選定件数a’とカテゴリBのサンプルメールの選定件数b’を計算する。The number of category A mails extracted by the learning sample
In addition, the upper limit according to the sample total number upper
At this time, a sample
1)a<c/2のときに、
a’=a
b’=c−a
2)b<c/2のときに、
a’=b
b’=c−b
3)上記1)、2)以外のときに、
a’=c/2
b’=c/21) When a <c / 2,
a '= a
b ′ = c−a
2) When b <c / 2,
a '= b
b ′ = c−b
3) In cases other than 1) and 2) above,
a ′ = c / 2
b ′ = c / 2
このようにすることで、学習サンプル合計件数が上限値cとなるという条件の下で、カテゴリAの学習サンプル件数(a’)とカテゴリBの学習サンプル件数(b’)の差が最小となるようにサンプルメール件数を設定することができる。
一般に、分類カテゴリ毎の学習サンプル件数差が小さいほど、機械学習を使用した文書分類は精度が上がることが知られているため、上記規則によりメール分類の精度を高めることができる。By doing so, the difference between the number of learning samples in category A (a ′) and the number of learning samples in category B (b ′) is minimized under the condition that the total number of learning samples is the upper limit c. You can set the number of sample emails.
In general, it is known that the accuracy of document classification using machine learning increases as the difference in the number of learning samples for each classification category increases. Therefore, the accuracy of mail classification can be increased by the above rules.
なお、上述したように、学習サンプル合計件数上限値を定数とした場合は、新規入力メール201の件数(a+b)が学習サンプル合計件数上限値として与えた定数に満たないことがあるが、この場合は、上述のように、学習サンプル合計件数の上限値(c)が新規入力メール201の件数(a+b)に変更される(c=a+b)。
また、学習サンプル合計件数上限値を新規入力メール201の件数に対する割合とする場合は、常にc≦a+bとなる。
従って、a、b、cの関係は、必ずc≦a+bとなり、上記の規則を適用することができる。
このように、学習サンプル用データ抽出部140により抽出されたサンプルメールの抽出総数がサンプルメールの合計件数の上限値(定数)未満である場合は、サンプルメールの合計件数がサンプルメールの抽出総数の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算する。As described above, when the learning sample total number upper limit value is a constant, the number of new input emails 201 (a + b) may not be equal to the constant given as the learning sample total number upper limit value. As described above, the upper limit (c) of the total number of learning samples is changed to the number (a + b) of newly input mail 201 (c = a + b).
Further, when the upper limit value of the total number of learning samples is set as a ratio to the number of new input mails 201, c ≦ a + b is always satisfied.
Therefore, the relationship between a, b, and c is always c ≦ a + b, and the above rule can be applied.
Thus, when the total number of sample emails extracted by the learning sample
また、以下の基準を示すサンプル件数決定規則192を設け、学習サンプル選定部150は以下の基準により、カテゴリAのサンプルメールの選定件数a’とカテゴリBのサンプルメールの選定件数b’を計算するようにしてもよい。
In addition, a sample
1)a<c/2のときに、
a’=a
b’=a
2)b<c/2のとき
a’=b
b’=b
3)上記1)、2)以外のときに、
a’=c/2
b’=c/21) When a <c / 2,
a '= a
b '= a
2) When b <c / 2 a ′ = b
b '= b
3) In cases other than 1) and 2) above,
a ′ = c / 2
b ′ = c / 2
これは、カテゴリAの学習サンプル件数とカテゴリBの学習サンプル件数が常に等しくなるという条件の下で、学習サンプル合計件数が上限値cに最も近づくような規則となっている。
この規則は、カテゴリAとカテゴリBの学習サンプルが共に十分に入手可能な場合に有効である。This is a rule such that the total number of learning samples is closest to the upper limit value c under the condition that the number of learning samples in category A is always equal to the number of learning samples in category B.
This rule is effective when both category A and category B learning samples are sufficiently available.
また、以下の基準を示すサンプル件数決定規則192を設け、学習サンプル選定部150は以下の基準により、カテゴリAのサンプルメールの選定件数a’とカテゴリBのサンプルメールの選定件数b’を計算するようにしてもよい。
In addition, a sample
a’=(a*c)/(a+b)
b’=(b*c)/(a+b)a ′ = (a * c) / (a + b)
b ′ = (b * c) / (a + b)
これは、元々の学習サンプル件数a、bの比率を保ち、かつ、学習サンプル合計件数が上限値cと等しくなるような規則となっている。 This is a rule that maintains the ratio of the original number of learning samples a and b, and that the total number of learning samples is equal to the upper limit value c.
サンプル選定規則193は、システムの特性に応じてシステム管理者等が定める。
例えば、学習サンプル用データ抽出部140により抽出されたメールの中から、サンプル件数決定規則192により決定された分類カテゴリ毎のサンプル件数となるように分類カテゴリ毎のサンプルメールをランダムに選定する、あるいは、送信日時情報がサンプルメールに設けられている場合は送信日時情報に示される日時が新しいものから順に選定するなどの規則を定めることができる。The
For example, from among the emails extracted by the learning sample
好ましくは、各分類カテゴリにおいて、同一の属性(例えば、メールの件名(タイトル))を持つサンプルメールが選定される回数を最小にし、かつ、各属性を持つサンプルメール件数の分散が最小となるように、という条件の下で、サンプルメールを選定してもよい。
つまり、学習サンプル用データ抽出部140が、一つのカテゴリに対して、複数種の属性(メールの件名(タイトル))を持つ複数のサンプルメールを抽出し、学習サンプル選定部150が、カテゴリごとに、指定されている選定数の範囲内でサンプルメールの属性の種類数が最大となり属性間のサンプルメール選定数の差が最小となるように学習サンプルメールを選定する。
ここで、「属性間のサンプルメール選定数の差が最小」とは、属性の種類数が2つの場合は、2つのカテゴリの間の差が最小ということを意味する。
属性の種類数が3つ以上の場合は、選定数が最大の属性と選定数が最小の属性の間の差が最小であることを意味する。
属性の例をメールの件名とする場合における具体的な動作例を図5を用いて説明する。Preferably, in each classification category, the number of times sample mail having the same attribute (for example, mail subject (title)) is selected is minimized, and the distribution of the number of sample mails having each attribute is minimized. In addition, a sample mail may be selected under the condition.
In other words, the learning sample
Here, “the difference in the number of selected sample mails between attributes is minimum” means that the difference between the two categories is minimum when the number of attribute types is two.
When the number of attribute types is three or more, it means that the difference between the attribute with the largest selection number and the attribute with the smallest selection number is the smallest.
A specific operation example in the case where the attribute example is the mail subject will be described with reference to FIG.
図5では、あるカテゴリからN件のメールを選定する動作を説明する。
学習サンプル用データ抽出部140によりこのカテゴリのサンプルとして抽出されたメール群をMで表す。
まず、学習サンプル選定部150は、同一件名のメールを2回以上選定しないようにメールを最大数選定する(S301)。
選定したメールの件数がN以上であれば(S302)、学習サンプル選定部150は、N件になるようにランダムにメールを選定し終了する(S303)。
選定したメールの件数がNより小さければ(S302)、学習サンプル選定部150は、選定したメールを選定済みと確定し(S304)、Mから確定済みメールの件数を除外し(S305)、S301へ戻る。
そして、学習サンプル選定部150は、確定済みメールの件数がNになるまで処理を繰り返す。FIG. 5 illustrates an operation of selecting N mails from a certain category.
The mail group extracted as a sample of this category by the learning sample
First, the learning
If the number of selected mails is N or more (S302), the learning
If the number of selected emails is smaller than N (S302), the learning
And the learning
このように、学習サンプル選定部150は、カテゴリごとに、複数のサンプルメールの中から、全ての属性(件名)について属性ごとに1つのサンプルメールを選択し、選択したサンプルメールの数がカテゴリに指定されている選定数(上記の例ではN)以上であれば、選択したサンプルメールの中から選定数に一致するようにランダムに学習に用いるサンプルデータを選定する(S303)。
一方、選択したサンプルメールの数がカテゴリに指定されている選定数未満であれば、学習サンプル選定部150は、選択したサンプルメールを学習に用いるサンプルメールとして選定する(S304)とともに、未選択のサンプルメールの中から未選択のサンプルメールに含まれている全ての属性について属性ごとに1つのサンプルメールを選択して不足分のサンプルメールを選定する。As described above, the learning
On the other hand, if the number of selected sample emails is less than the number of selections specified in the category, the learning
同一件名を持つメールは酷似した内容を持つ可能性が高いため、上記のような選定規則により重複した内容の学習サンプルを排除し、結果として、学習サンプルとして選定されるメールが多岐に渡る話題を含むようにすることが可能となる。 Since emails with the same subject are likely to have very similar contents, the above-mentioned selection rule eliminates duplicate learning samples, resulting in a wide variety of topics selected as learning samples. It can be included.
あるいは、サンプルメールの添付ファイルが持つ拡張子を属性の例としてもよい。
つまり、選定されるサンプルメールの添付ファイルが持つ拡張子の種類(アプリケーションプログラムの種類)が最多となり、かつ、各拡張子を持つファイルを添付したサンプルメール件数の分散が最小となるようにサンプルメールを選定してもよい。
同一拡張子を持つファイルは文書形式が類似している可能性が高いため、上記のような選定規則により学習サンプルとして選定されるメールが多様な形式の添付ファイルを含むようにすることが可能となる。Alternatively, the extension of the attached file of the sample mail may be used as an example of the attribute.
In other words, the sample mail attachments to be selected have the largest number of extension types (application program types), and the sample mails so that the distribution of the number of sample mails with files with each extension attached is minimized. May be selected.
Since files with the same extension are likely to have similar document formats, emails selected as learning samples by the selection rules as described above can include attachments in various formats. Become.
あるいは、選定されるサンプルメールが受信メールである場合は、ヘッダフィールドのFromに記載されたメールアドレスのドメインを属性の例としてもよい。
つまり、ヘッダフィールドのFromに記載されたメールアドレスのドメインの種類が最多となり、かつ、各ドメインを持つメールアドレスが記載されたサンプルメール件数の分散が最小となるようにサンプルメールを選定してもよい。
また、選定されるサンプルメールが送信メールである場合は、ヘッダフィールドのToに記載されたメールアドレスのドメインを属性の例としてもよい。
つまり、ヘッダフィールドのToに記載されたメールアドレスのドメインの種類が最多となり、かつ、各ドメインを持つメールアドレスが記載されたサンプルメール件数の分散が最小となるようにサンプルメールを選定してもよい。
同一ドメインが記載された電子メールは内容が類似している可能性が高いため、上記のような選定規則により学習サンプルとして選定されるメールが多岐に渡る話題を含むようにすることが可能となる。Alternatively, when the selected sample mail is a received mail, the domain of the mail address described in the From field of the header field may be used as an example of the attribute.
In other words, even if the sample mail is selected so that the number of domain types of the mail address described in the From field of the header field is the largest and the distribution of the number of sample mails including the mail addresses having each domain is minimized. Good.
When the selected sample mail is a transmission mail, the domain of the mail address described in the header field To may be used as an example of the attribute.
In other words, even if the sample mail is selected so that the domain type of the mail address described in the header field To is the largest, and the distribution of the number of sample mails including the mail address having each domain is minimized. Good.
E-mails with the same domain are likely to be similar in content, so it is possible to include a wide variety of topics in e-mails selected as learning samples by the above selection rules. .
あるいは、サンプルメールのヘッダフィールドContent−typeに含まれるcharset記載の文字コードの種類を属性の例としてもよい。
つまり、選定されるサンプルメールのヘッダフィールドContent−typeに含まれるcharset記載の文字コードの種類が最多となり、かつ、各文字コードが記載されたサンプルメール件数の分散が最小となるようにサンプルメールを選定してもよい。
同一文字コードが記載された電子メールは同一言語圏で作成された可能性が高いため、上記のような選定規則により学習サンプルとして選定されるメールが多様な言語を含むようにすることが可能となる。Alternatively, the character code type described in charset included in the header field Content-type of the sample mail may be used as an example of the attribute.
In other words, the sample mail is set so that the number of character codes described in the charset included in the header field Content-type of the selected sample mail is the largest, and the distribution of the number of sample mails in which each character code is written is minimized. You may choose.
Since emails with the same character code are likely to have been created in the same language area, emails selected as learning samples by the selection rules as described above can include various languages. Become.
上記に挙げたサンプル選定規則は優先順位を考慮した上で、組み合わせて設定しても良い。
例えば、多様な件名を持つサンプルメールの選定を最優先し、第二に多様なドメイン、第三に多様な文字コードを持つサンプルメールの選定を優先したい場合の動作を図6を用いて説明する。The sample selection rules listed above may be set in combination in consideration of the priority order.
For example, the operation when priority is given to the selection of sample mails having various subjects, secondly to the selection of sample mails having various domains, and thirdly, various character codes will be described with reference to FIG. .
まず、学習サンプル選定部150は、図5のS301、S302、S304、S305の動作を繰り返し、多様な件名のメールを含むようなサンプルメール選定の候補を挙げる(S401)。
候補が1つの場合は(S402)、学習サンプル選定部150は、選定メールを確定させて終了する。
候補が複数存在する場合は(S402)、学習サンプル選定部150は、その候補の中から多様なドメインを含むように候補を絞り込む(S403)。
更に、候補が複数存在する場合(S404)は、学習サンプル選定部150は、多様な文字コードを含むように候補を絞り込む(S405)。
更に、候補が複数存在する場合(S406)は、学習サンプル選定部150は、ランダムに候補を一つ選択して終了する(S407)。First, the learning
When there is one candidate (S402), the learning
When there are a plurality of candidates (S402), the learning
Furthermore, when there are a plurality of candidates (S404), the learning
Further, when there are a plurality of candidates (S406), the learning
さらに好ましくは、メールのテキストサイズがシステム管理者等により予め定められた値以下の小さいメールは、学習サンプルとして選定しないようにしてもよい。
例えば、テキストに含まれる文字数が10文字以下のメールを選定しないようにしたい場合、テキストがUTF−8(8−bit UCS Transformation Forma)によりエンコードされていれば、1文字平均3バイトと考えて30バイト以下のメールを選定しないようにする、と定めればよい。
サイズが小さいテキストファイルは特徴量をあまり持たないため、使用するアルゴリズムによっては機械学習がうまく行えず、結果として分類精度が低下するということがある。
従って、学習サンプルからサイズが小さいメールを除外することにより、分類精度を高めることが可能となる。More preferably, a mail whose text size is smaller than a value predetermined by a system administrator or the like may not be selected as a learning sample.
For example, when it is desired not to select a mail whose number of characters included in the text is 10 or less, if the text is encoded by UTF-8 (8-bit UCS Transformation Format), it is assumed that the average of 3 bytes per character is 30. You may decide not to select emails that are less than bytes.
Since a text file with a small size does not have much feature quantity, machine learning cannot be performed properly depending on the algorithm used, and as a result, the classification accuracy may be lowered.
Therefore, it is possible to improve the classification accuracy by excluding small mails from the learning sample.
以上で述べたように、実施の形態1においては、メール分類装置100で使用する学習サンプルを、予め設定された学習サンプル選定規則190により自動的に選定することで、人手による学習サンプル作成の手間をかけることなく効率的な学習が行えるような学習サンプル選定が可能となり、結果、短時間の機械学習で分類精度を高める文書分類装置を提供できる。
As described above, in the first embodiment, the learning sample to be used in the
実施の形態2.
図7は、本実施の形態に係る文書分類装置100bを適用した文書アーカイブシステムを示す構成図である。
文書アーカイブ装置200bとメールアーカイブ装置200の違いは、入力が文書ファイルが電子メールかの違いである。
つまり、図7に示すように、文書分類装置100b及び文書アーカイブ装置200bの構成は、図1に示すメール分類装置100及びメールアーカイブ装置200と実質的に同じである。
以下、文書アーカイブ装置200bの動作を、メールアーカイブ装置200との相違点に絞って説明する。Embodiment 2. FIG.
FIG. 7 is a configuration diagram showing a document archive system to which the
The difference between the
That is, as shown in FIG. 7, the configuration of the
Hereinafter, the operation of the
文書アーカイブ装置200bは、文書蓄積用データベース210b、および文書分類装置100bを備える。
文書アーカイブ装置200bは、新規入力文書201bを複製し、文書蓄積用データベース210bに蓄積する。
文書蓄積用データベース210bに蓄積された文書には、文書を一意に識別可能とするための文書IDが付与されており、この文書IDにより文書蓄積用データベース210bに蓄積された文書と分類結果蓄積用データベース130に蓄積された文書分類結果とが対応付けられる。
システム管理者は文書蓄積用データベース210b、および分類結果蓄積用データベース130に問い合わせを行うことで、文書の分類結果の参照、および分類結果をキーとした文書検索が可能である。
文書分類装置100bをシステム管理者により設定された周期毎に起動し、起動周期の間に文書蓄積用データベース210bに蓄積された文書を分類対象とすることで、継続的に入力される文書全てに対して分類処理を行うような運用が可能である。The
The
The document stored in the
The system administrator makes an inquiry to the
The
文書蓄積用データベース210bには、蓄積文書に関連付けられた文書ファイル名やその拡張子、文書作成日時、作成者などの付加情報を保持していても良い。
これにより、これらの付加情報を学習サンプル選定規則190で使用することが可能となる。The
This makes it possible to use these additional information in the learning
以下では、学習サンプル選定規則190のうち、サンプル選定規則193の設定方法を説明する。その他の規則はメールアーカイブシステムのときと同様である。
Below, the setting method of the
サンプル選定規則193は、システムの特性に応じてシステム管理者等が定める。
例えば、学習サンプル用データ抽出部140により抽出された文書の中から、サンプル件数決定規則192により決定された分類カテゴリ毎のサンプル件数となるように分類カテゴリ毎のサンプル文書をランダムに選定する、あるいは、文書作成日時情報がサンプル文書に設けられている場合は文書作成日時情報に示される日時が新しいものから順に選定するなどの規則を定めることができる。The
For example, a sample document for each classification category is randomly selected from the documents extracted by the learning sample
また、メールアーカイブシステムと同様にサンプル文書の属性に基づいてサンプル文書を選定することが考えられる。
具体的には、サンプル文書のファイル名(タイトル)を属性の例とし、各分類カテゴリにおいて、同一ファイル名を持つサンプル文書が選定される回数を最小にし、かつ、各ファイル名のサンプル文書件数の分散が最小となるように、という条件の下で、サンプル文書を選定してもよい。
同一ファイル名を持つ文書は酷似した内容を持つ可能性が高いため、上記のような選定規則により重複した内容の学習サンプルを排除し、結果として、学習サンプルとして選定される文書が多岐に渡る話題を含むようにすることが可能となる。Further, it is conceivable to select a sample document based on the attribute of the sample document as in the mail archive system.
Specifically, the file name (title) of the sample document is an example of the attribute, the number of times the sample document having the same file name is selected in each classification category is minimized, and the number of sample documents of each file name is A sample document may be selected under the condition that the variance is minimized.
Since documents with the same file name are likely to have very similar contents, the learning samples with duplicate contents are eliminated by the selection rules as described above, and as a result, various topics are selected as the learning samples. Can be included.
あるいは、選定されるサンプル文書が持つ拡張子の種類(アプリケーションプログラムの種類)が最多となり、かつ、各拡張子を持つサンプル文書件数の分散が最小となるようにサンプル文書を選定してもよい。
同一拡張子を持つファイルは文書形式が類似している可能性が高いため、上記のような選定規則により学習サンプルとして選定される文書が多様な形式のファイルを含むようにすることが可能となる。Alternatively, the sample documents may be selected so that the number of types of extension (types of application programs) of the selected sample document is the largest and the distribution of the number of sample documents having each extension is minimized.
Since files with the same extension are likely to have similar document formats, it is possible to include documents of various formats that are selected as learning samples by the above selection rules. .
あるいは、選定されるサンプル文書の作成者の数が最多となり、かつ、各作成者が作成したサンプル文書件数の分散が最小となるようにサンプル文書を選定してもよい。
同一人物が作成した文書は扱う話題が類似している可能性が高いため、上記のような選定規則により学習サンプルとして選定される文書が多岐に渡る話題を含むようにすることが可能となる。Alternatively, the sample documents may be selected so that the number of creators of sample documents to be selected is the largest and the variance of the number of sample documents created by each creator is minimized.
Since documents created by the same person are likely to have similar topics, documents selected as learning samples by the above selection rules can include a wide variety of topics.
上記に挙げたサンプル文書選定規則は優先順位を考慮した上で、組み合わせて設定しても良い。
例えば、多様なファイル名を持つサンプル文書の選定を最優先し、第二に多様な拡張子を持つサンプル文書の選定を優先するといった規則の設定が可能である。The sample document selection rules listed above may be set in combination in consideration of the priority order.
For example, it is possible to set rules such that selection of sample documents having various file names has the highest priority, and secondly selection of sample documents having various extensions.
以上で述べたように、実施の形態2においては、文書分類装置100bで使用する学習サンプルを、予め設定された学習サンプル選定規則190により自動的に選定することで、人手による学習サンプル作成の手間をかけることなく効率的な学習が行えるような学習サンプル選定が可能となり、結果、短時間の機械学習で分類精度を高める文書分類装置を提供できる。
As described above, in the second embodiment, the learning sample to be used in the
以上、実施の形態1及び2では、入力された文書を複数の分類カテゴリに分類する文書分類装置であって、
複数のサンプル文書を入力する手段と、
予め分類カテゴリ毎に設定されたサンプル抽出条件により、サンプル抽出条件に合致するサンプル文書を対応する分類カテゴリのサンプル文書として抽出する手段と、
抽出されたサンプル文書から、予め設定しておいた学習サンプル選定規則に従って、各分類カテゴリで使用する学習サンプル文書を選定する手段と、
分類カテゴリ毎に選定された学習サンプル文書を用いて少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する手段と、
1つ以上の分類対象文書を入力する手段と、
前記分類ルールを用いて、入力された分類対象文書を複数の分類カテゴリに分類する手段と、
分類対象文書の分類結果を出力する手段とを有する文書分類装置を説明した。As described above, in Embodiments 1 and 2, the document classification apparatus classifies the input document into a plurality of classification categories.
Means for inputting a plurality of sample documents;
Means for extracting a sample document matching the sample extraction condition as a sample document of the corresponding classification category according to the sample extraction condition set in advance for each classification category;
Means for selecting a learning sample document to be used in each classification category from the extracted sample document according to a learning sample selection rule set in advance;
Means for generating or updating a classification rule by performing machine learning using at least one algorithm using a learning sample document selected for each classification category;
Means for inputting one or more documents to be classified;
Means for classifying the input classification target document into a plurality of classification categories using the classification rule;
A document classification apparatus having means for outputting a classification result of a classification target document has been described.
また、実施の形態1及び2では、
前記学習サンプル選定規則は、
機械学習に使用する全分類カテゴリの学習サンプル合計件数の上限値を決定するサンプル合計件数上限値決定規則と、
サンプル合計件数上限値決定規則により決定された学習サンプル合計件数上限値を元に、機械学習に使用する分類カテゴリ毎のサンプル件数を決定するサンプル件数決定規則と、
サンプル件数決定規則により決定された分類カテゴリ毎のサンプル件数となるように、分類カテゴリ毎のサンプル文書を選定するサンプル選定規則と
の3つの規則からなり、
前記学習サンプル文書を選定する手段は、
サンプル合計件数上限値決定規則により、機械学習に使用する全分類カテゴリの学習サンプル合計件数上限値を決定する手段と、
サンプル件数決定規則により、機械学習に使用する分類カテゴリ毎のサンプル件数を決定する手段と、
サンプル選定規則により、分類カテゴリ毎に抽出されたサンプル文書を選定する手段と、
から成ることを説明した。In the first and second embodiments,
The learning sample selection rule is:
A sample total number upper limit determination rule that determines the upper limit of the total number of learning samples for all classification categories used for machine learning,
Based on the learning sample total number upper limit value determined by the sample total number upper limit determination rule, the sample number determination rule that determines the number of samples for each classification category used for machine learning,
It consists of three rules, the sample selection rule that selects sample documents for each classification category, so that the number of samples for each classification category determined by the sample number determination rule,
The means for selecting the learning sample document is:
A method for determining the upper limit for the total number of learning samples for all classification categories used for machine learning according to the rule for determining the upper limit for the total number of samples,
A method for determining the number of samples for each classification category to be used for machine learning according to the sample number determination rule,
A means for selecting sample documents extracted for each classification category according to sample selection rules;
Explained that it consists of.
また、実施の形態1及び2では、
前記サンプル合計件数上限値決定規則は、
機械学習に使用する全分類カテゴリの学習サンプル合計件数上限値をある定数として指定し、
前記複数のサンプル文書を入力する手段において入力されたサンプル件数が学習サンプル合計件数上限値として指定した定数に満たない場合に限り、学習サンプル合計件数上限値を入力されたサンプル件数として指定する規則であることを説明した。In the first and second embodiments,
The sample total number upper limit determination rule is:
Specify the upper limit of the total number of learning samples for all classification categories used for machine learning as a constant,
A rule that specifies the learning sample total number upper limit value as the input sample number only when the number of samples input in the means for inputting the plurality of sample documents is less than the constant specified as the learning sample total number upper limit value. Explained that there is.
また、実施の形態1及び2では、
前記サンプル合計件数上限値決定規則は、
機械学習に使用する全分類カテゴリの学習サンプル合計件数上限値を、前記複数のサンプル文書を入力する手段において入力されたサンプル件数に予め定めておいたサンプル文書使用率を乗じた値として決定する規則であることを説明した。In the first and second embodiments,
The sample total number upper limit determination rule is:
Rule for determining the upper limit of the total number of learning samples of all classification categories used for machine learning as a value obtained by multiplying the number of samples input by the means for inputting a plurality of sample documents by a predetermined sample document usage rate I explained that.
また、実施の形態1及び2では、
前記サンプル件数決定規則は、
各分類カテゴリのサンプル件数の合計が前記学習サンプル合計件数上限値と等しくなる、という条件の下で、サンプル文書が最も多いカテゴリと最も少ないカテゴリでのサンプル件数の差が最小となるように、かつ、各分類カテゴリのサンプル件数の分散が最小となるように、各分類カテゴリのサンプル件数を決定する規則であることを説明した。In the first and second embodiments,
The sample number determination rule is:
Under the condition that the total number of samples in each classification category is equal to the upper limit of the total number of learning samples, the difference between the number of samples in the category with the most sample documents and the category with the least number of samples is minimized, and It has been explained that the rule determines the number of samples in each classification category so that the variance of the number of samples in each classification category is minimized.
また、実施の形態1及び2では、
前記サンプル件数決定規則は、
各分類カテゴリのサンプル件数が全て等しくなる、という条件の下で、各分類カテゴリのサンプル件数の合計が前記学習サンプル合計件数上限値に最も近づくように、各分類カテゴリのサンプル件数を決定する規則であることを説明した。In the first and second embodiments,
The sample number determination rule is:
A rule that determines the number of samples for each classification category so that the total number of samples for each classification category is closest to the upper limit for the total number of learning samples under the condition that the number of samples for each classification category is all equal. Explained that there is.
また、実施の形態1及び2では、
前記サンプル件数決定規則は、
各分類カテゴリのサンプル件数の合計が前記学習サンプル合計件数上限値と等しくなる、という条件の下で、前記複数のサンプル文書を入力する手段において入力された各分類カテゴリのサンプル文書の件数比率と、各分類カテゴリのサンプル文書として抽出されたサンプル文書の件数比率が等しくなるように、各分類カテゴリのサンプル件数を決定する規則であることを説明した。In the first and second embodiments,
The sample number determination rule is:
Under the condition that the total number of samples of each classification category is equal to the upper limit of the total number of learning samples, the ratio of the number of sample documents of each classification category input in the means for inputting the plurality of sample documents; It has been explained that the rule is to determine the number of samples of each classification category so that the ratio of the number of sample documents extracted as sample documents of each classification category becomes equal.
また、実施の形態1及び2では、
前記サンプル選定規則は、各分類カテゴリのサンプル文書をランダムに選定する規則であることを説明した。In the first and second embodiments,
It has been explained that the sample selection rule is a rule for randomly selecting sample documents of each classification category.
また、実施の形態1及び2では、
前記文書分類装置は入力されたサンプル文書の作成日時に関する情報を保有しており、
前記サンプル選定規則は、作成日時が新しいサンプル文書から順に選び出す規則であることを説明した。In the first and second embodiments,
The document classification device has information regarding the creation date and time of the input sample document,
It has been explained that the sample selection rule is a rule for selecting a sample document in order of creation date and time.
また、実施の形態1では、
前記サンプル文書と前記分類対象文書が電子メールであって、
前記サンプル選定規則は、送信日時が新しいサンプル電子メールから順に選び出す規則であることを説明した。In the first embodiment,
The sample document and the classification target document are emails,
It has been explained that the sample selection rule is a rule for selecting a sample e-mail in order of transmission date and time.
また、実施の形態2では、
前記文書分類装置は入力されたサンプル文書の文書ファイル名に関する情報を保有しており、
前記サンプル選定規則は、各分類カテゴリにおいて、同一文書ファイル名を持つサンプル文書が選定される回数を最小にし、かつ、各文書ファイル名を持つサンプル件数の分散が最小となるようにサンプル文書を選定する規則であることを説明した。In the second embodiment,
The document classification device has information about the document file name of the input sample document,
The sample selection rule selects the sample document so that the number of times the sample document having the same document file name is selected in each classification category is minimized and the distribution of the number of samples having each document file name is minimized. Explained that it is a rule to do.
また、実施の形態1では、
前記サンプル文書と前記分類対象文書が電子メールであって、
前記サンプル選定規則は、
各分類カテゴリにおいて、同一件名を持つサンプル電子メールが選定される回数を最小にし、かつ、各件名を持つサンプル電子メール件数の分散が最小となるようにサンプル電子メールを選定する規則であることを説明した。In the first embodiment,
The sample document and the classification target document are emails,
The sample selection rules are:
It is a rule to select sample emails that minimize the number of times sample emails with the same subject are selected for each category and minimize the variance of the number of sample emails with each subject. explained.
また、実施の形態2では、
前記文書分類装置は入力されたサンプル文書に対して作成アプリケーションの種類を示すアプリケーション情報を保有しており、
前記サンプル選定規則は、各分類カテゴリにおいて、選定されるサンプル文書が持つアプリケーション情報の種類が最多となり、かつ、各アプリケーション情報を持つサンプル件数の分散が最小となるようにサンプル文書を選定する規則であることを説明した。In the second embodiment,
The document classification device has application information indicating the type of created application for the input sample document,
The sample selection rule is a rule for selecting a sample document so that the number of types of application information held by the sample document selected in each classification category is the largest and the variance of the number of samples having each application information is minimized. Explained that there is.
また、実施の形態1では、
前記サンプル文書と前記分類対象文書が電子メールであって、
前記サンプル選定規則は、各分類カテゴリにおいて、選定されるサンプル電子メールの添付ファイルが持つアプリケーション情報の種類が最多となり、かつ、各アプリケーション情報を持つファイルを添付したサンプル電子メール件数の分散が最小となるようにサンプル電子メールを選定する規則であることを説明した。In the first embodiment,
The sample document and the classification target document are emails,
According to the sample selection rule, in each classification category, the type of application information included in the selected sample email attachment is the largest, and the distribution of the number of sample emails attached with the file having each application information is minimized. I explained that it is a rule to select sample e-mails.
また、実施の形態2では、
前記文書分類装置は入力されたサンプル文書の作成者を示す情報を保有しており、
前記サンプル選定規則は、各分類カテゴリにおいて、選定されるサンプル文書の作成者の数が最多となり、かつ、各作成者が作成したサンプル件数の分散が最小となるようにサンプル文書を選定する規則であることを説明した。In the second embodiment,
The document classification device has information indicating the creator of the input sample document,
The sample selection rule is a rule for selecting a sample document so that the number of creators of sample documents selected in each classification category is the largest and the variance of the number of samples created by each creator is minimized. Explained that there is.
また、実施の形態1では、
前記サンプル文書と前記分類対象文書が電子メールであって、
前記サンプル選定規則は、各分類カテゴリにおいて、電子メールの特定のヘッダフィールドに記載されたメールアドレスに関して、同一ドメインを持つサンプル電子メールが選定される回数を最小にし、かつ、各ドメインを持つサンプル電子メール件数の分散が最小となるようにサンプル電子メールを選定する規則であることを説明した。In the first embodiment,
The sample document and the classification target document are emails,
The sample selection rule minimizes the number of times that a sample email having the same domain is selected for the email address described in a specific header field of the email in each classification category, and the sample electronic having each domain. We explained that it is a rule to select sample emails so that the distribution of the number of emails is minimized.
また、実施の形態1では、
前記サンプル文書と前記分類対象文書が電子メールであって、
前記サンプル選定規則は、各分類カテゴリにおいて、同一文字コードで作成されたサンプル電子メールが選定される回数を最小にし、かつ、同一文字コードで作成されたサンプル電子メール件数の分散が最小となるようにサンプル電子メールを選定する規則であることを説明した。In the first embodiment,
The sample document and the classification target document are emails,
The sample selection rule minimizes the number of times sample emails created with the same character code are selected in each classification category and minimizes the variance of the number of sample emails created with the same character code. Explained that it is a rule to select sample emails.
また、実施の形態1及び2では、
前記サンプル選定規則は、前記サンプル文書のサイズが予め定められた値以下の文書をサンプル文書として選定しないための規則であることを説明した。In the first and second embodiments,
It has been explained that the sample selection rule is a rule for not selecting a document whose size is less than or equal to a predetermined value as a sample document.
最後に、実施の形態1及び2に示したメール分類装置100及び文書分類装置100bのハードウェア構成例について説明する。
図8は、実施の形態1及び2に示すメール分類装置100及び文書分類装置100bのハードウェア資源の一例を示す図である。
なお、図8の構成は、あくまでもメール分類装置100及び文書分類装置100bのハードウェア構成の一例を示すものであり、メール分類装置100及び文書分類装置100bのハードウェア構成は図8に記載の構成に限らず、他の構成であってもよい。Finally, a hardware configuration example of the
FIG. 8 is a diagram illustrating an example of hardware resources of the
The configuration in FIG. 8 is merely an example of the hardware configuration of the
図8において、メール分類装置100及び文書分類装置100bは、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。
CPU911は、バス912を介して、例えば、ROM(Read Only Memory)913、RAM(Random Access Memory)914、通信ボード915、表示装置901、キーボード902、マウス903、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。
更に、CPU911は、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907と接続していてもよい。また、磁気ディスク装置920の代わりに、光ディスク装置、メモリカード(登録商標)読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
実施の形態1及び2で説明した「分類結果蓄積用データベース130」、「分類ルール記憶部170」、「条件規則記憶部195」は、RAM914、磁気ディスク装置920等により実現される。
通信ボード915、キーボード902、マウス903、スキャナ装置907、FDD904などは、入力装置の一例である。
また、通信ボード915、表示装置901、プリンタ装置906などは、出力装置の一例である。In FIG. 8, the
The
Further, the
The
The “classification
A
The
通信ボード915は、図1に示すように、例えばメールサーバに接続されている。また、通信ボード915は、例えば、LAN(ローカルエリアネットワーク)、インターネット、WAN(ワイドエリアネットワーク)、SAN(ストレージエリアネットワーク)などに接続されていても構わない。
As shown in FIG. 1, the
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。
プログラム群923のプログラムは、CPU911がオペレーティングシステム921、ウィンドウシステム922を利用しながら実行する。The
The programs in the
また、RAM914には、CPU911に実行させるオペレーティングシステム921のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
また、RAM914には、CPU911による処理に必要な各種データが格納される。The
The
また、ROM913には、BIOS(Basic Input Output System)プログラムが格納され、磁気ディスク装置920にはブートプログラムが格納されている。
メール分類装置100及び文書分類装置100bの起動時には、ROM913のBIOSプログラム及び磁気ディスク装置920のブートプログラムが実行され、BIOSプログラム及びブートプログラムによりオペレーティングシステム921が起動される。The ROM 913 stores a BIOS (Basic Input Output System) program, and the
When the
上記プログラム群923には、実施の形態1及び2の説明において「〜部」(「分類ルール記憶部170」、「条件規則記憶部195」以外、以下も同様)として説明している機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
The
ファイル群924には、実施の形態1及び2の説明において、「〜の選定」、「〜の選択」、「〜の抽出」、「〜の判断」、「〜の決定」、「〜の学習」、「〜の比較」、「〜の生成」、「〜の更新」、「〜の設定」、「〜の登録」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。
「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのCPUの動作に用いられる。
抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
また、実施の形態1及び2で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。The
The “˜file” and “˜database” are stored in a recording medium such as a disk or a memory. Information, data, signal values, variable values, and parameters stored in a storage medium such as a disk or memory are read out to the main memory or cache memory by the
Information, data, signal values, variable values, and parameters are stored in the main memory, registers, cache memory, and buffers during the CPU operations of extraction, search, reference, comparison, calculation, processing, editing, output, printing, and display. It is temporarily stored in a memory or the like.
In addition, the arrows in the flowcharts described in the first and second embodiments mainly indicate input / output of data and signals, and the data and signal values are the
また、実施の形態1及び2の説明において「〜部」として説明しているものは、「〜回路」、「〜装置」、「〜機器」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。
すなわち、実施の形態1及び2で説明したフローチャートに示すステップ、手順、処理により、本発明に係るデータ処理方法を実現することができる。
また、「〜部」として説明しているものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、実施の形態1及び2の「〜部」としてコンピュータを機能させるものである。あるいは、実施の形態1及び2の「〜部」の手順や方法をコンピュータに実行させるものである。In addition, what is described as “˜unit” in the description of the first and second embodiments may be “˜circuit”, “˜device”, “˜device”, and “˜step”, It may be “˜procedure” or “˜processing”.
That is, the data processing method according to the present invention can be realized by the steps, procedures, and processes shown in the flowcharts described in the first and second embodiments.
Further, what is described as “˜unit” may be realized by firmware stored in the ROM 913. Alternatively, it may be implemented only by software, or only by hardware such as elements, devices, substrates, and wirings, by a combination of software and hardware, or by a combination of firmware. Firmware and software are stored as programs in a recording medium such as a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, and a DVD. The program is read by the
このように、実施の形態1及び2に示すメール分類装置100及び文書分類装置100bは、処理装置たるCPU、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「〜部」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。
As described above, the
100 メール分類装置、100b 文書分類装置、110 分類対象データ抽出部、120 分類部、130 分類結果蓄積用データベース、140 学習サンプル用データ抽出部、150 学習サンプル選定部、160 学習部、170 分類ルール記憶部、180 学習サンプル抽出条件、190 学習サンプル選定規則、191 サンプル合計件数上限値決定規則、192 サンプル件数決定規則、193 サンプル選定規則、195 条件規則記憶部、200 メールアーカイブ装置、200b 文書アーカイブ装置、201 新規入力メール、201b 新規入力文書、210 メール蓄積用データベース、210b 文書蓄積用データベース、301 組織、302 組織、303 組織、311 メールサーバ、312 メールサーバ、313 メールサーバ、321 ユーザ端末、322 ユーザ端末、323 ユーザ端末、330 ネットワーク。 100 mail classification device, 100b document classification device, 110 classification target data extraction unit, 120 classification unit, 130 classification result accumulation database, 140 learning sample data extraction unit, 150 learning sample selection unit, 160 learning unit, 170 classification rule storage Part, 180 learning sample extraction condition, 190 learning sample selection rule, 191 sample total number upper limit determination rule, 192 sample number determination rule, 193 sample selection rule, 195 condition rule storage unit, 200 mail archive device, 200b document archive device, 201 New Input Mail, 201b New Input Document, 210 Mail Storage Database, 210b Document Storage Database, 301 Organization, 302 Organization, 303 Organization, 311 Mail Server, 312 Mail Server, 313 Mail server, 321 user terminal, 322 user terminal, 323 user terminal, 330 network.
Claims (17)
サンプルデータを用いた学習を行って、前記分類部が用いる分類ルールを新たに生成する学習部と、
前記学習部の学習に用いるサンプルデータをカテゴリごとに抽出するサンプルデータ抽出部と、
サンプルデータの選定総数の上限値とサンプルデータの選定基準が示されているサンプルデータ選定基準情報を記憶するサンプルデータ選定基準情報記憶部と、
前記サンプルデータ選定基準情報に基づき、サンプルデータの選定総数が前記上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算し、前記サンプルデータ抽出部により抽出されたサンプルデータの中からカテゴリ単位の選定数に従いカテゴリごとに前記学習部の学習に用いるサンプルデータを選定するサンプルデータ選定部とを有することを特徴とするデータ処理装置。A classification unit that classifies data into one of a plurality of categories according to a classification rule;
A learning unit that performs learning using sample data and newly generates a classification rule used by the classification unit;
A sample data extraction unit that extracts, for each category, sample data used for learning of the learning unit;
A sample data selection criterion information storage unit for storing sample data selection criterion information indicating an upper limit of the total number of sample data selections and a selection criterion for sample data;
Based on the sample data selection criteria information, the number of selected sample data is maximized within the range of the upper limit value, and the number of selections that minimizes the difference between categories is calculated for each category and extracted by the sample data extraction unit. A data processing apparatus comprising: a sample data selection unit that selects sample data to be used for learning by the learning unit for each category according to the number of selections in category units from the sample data.
サンプルデータの選定総数を前記上限値に一致させカテゴリ間の選定数の差を最小にするという選定基準が示されているサンプルデータ選定基準情報を記憶しており、
前記サンプルデータ選定部は、
前記サンプルデータ選定基準情報に基づき、サンプルデータの選定総数が前記上限値に一致しカテゴリ間の差が最小となる選定数をカテゴリ単位で計算することを特徴とする請求項1に記載のデータ処理装置。The sample data selection criteria information storage unit is
Stores sample data selection criteria information indicating the selection criteria of matching the total number of sample data selections to the upper limit and minimizing the difference in the number of selections between categories,
The sample data selection unit
2. The data processing according to claim 1, wherein, based on the sample data selection criterion information, the number of selections in which the total number of sample data matches the upper limit value and the difference between categories is minimized is calculated for each category. apparatus.
カテゴリAのサンプルデータの抽出数がa個であり、カテゴリBのサンプルデータの抽出数がb個であり、サンプルデータの選定総数の上限値がc個であり、c≦a+bである場合に、
1)a<c/2のときに、
a’=a
b’=c−a
2)b<c/2のときに、
a’=b
b’=c−b
3)上記1)、2)以外のときに、
a’=c/2
b’=c/2
によりカテゴリAの選定数a’及びカテゴリBの選定数b’を計算することを特徴とする請求項2に記載のデータ処理装置。The sample data selection unit
When the number of sample data of category A is a, the number of sample data of category B is b, the upper limit of the total number of sample data selection is c, and c ≦ a + b,
1) When a <c / 2,
a '= a
b ′ = c−a
2) When b <c / 2,
a '= b
b ′ = c−b
3) In cases other than 1) and 2) above,
a ′ = c / 2
b ′ = c / 2
3. The data processing apparatus according to claim 2, wherein the selection number a ′ of category A and the selection number b ′ of category B are calculated by the following.
サンプルデータの選定総数を前記上限値の範囲で最大とし全てのカテゴリで選定数を同数とするという選定基準が示されているサンプルデータ選定基準情報を記憶しており、
前記サンプルデータ選定部は、
前記サンプルデータ選定基準情報に基づき、サンプルデータの選定総数が前記上限値の範囲で最大となり全てのカテゴリで同数となる選定数を計算することを特徴とする請求項1に記載のデータ処理装置。The sample data selection criteria information storage unit is
Stores sample data selection criteria information indicating the selection criteria that the total number of selected sample data is the maximum within the range of the upper limit and the number of selections is the same in all categories,
The sample data selection unit
2. The data processing apparatus according to claim 1, wherein, based on the sample data selection criterion information, the number of selected sample data is maximized within the range of the upper limit value, and the number of selections is the same in all categories.
カテゴリAのサンプルデータの抽出数がa個であり、カテゴリBのサンプルデータの抽出数がb個であり、サンプルデータの選定総数の上限値がc個であり、c≦a+bである場合に、
1)a<c/2のときに、
a’=a
b’=a
2)b<c/2のとき
a’=b
b’=b
3)上記1)、2)以外のときに、
a’=c/2
b’=c/2
によりカテゴリAの選定数a’及びカテゴリBの選定数b’を計算することを特徴とする請求項4に記載のデータ処理装置。The sample data selection unit
When the number of sample data of category A is a, the number of sample data of category B is b, the upper limit of the total number of sample data selection is c, and c ≦ a + b,
1) When a <c / 2,
a '= a
b '= a
2) When b <c / 2 a ′ = b
b '= b
3) In cases other than 1) and 2) above,
a ′ = c / 2
b ′ = c / 2
5. The data processing apparatus according to claim 4, wherein the selection number a ′ of category A and the selection number b ′ of category B are calculated by the following.
前記サンプルデータ抽出部により抽出されたサンプルデータの抽出総数がサンプルデータの選定総数の上限値未満である場合は、サンプルデータの選定総数がサンプルデータの抽出総数の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算することを特徴とする請求項1に記載のデータ処理装置。The sample data selection unit
When the total number of sample data extracted by the sample data extraction unit is less than the upper limit of the total number of sample data selected, the total number of sample data selected is the maximum within the range of the total number of sample data extracted, The data processing apparatus according to claim 1, wherein the selection number that minimizes the difference is calculated for each category.
一つのカテゴリに対して、複数種の属性を持つ複数のサンプルデータを抽出し、
前記サンプルデータ選定部は、
カテゴリごとに、指定されている選定数の範囲内でサンプルデータの属性の種類数が最大となり属性間のサンプルデータ選定数の差が最小となるように学習に用いるサンプルデータを選定することを特徴とする請求項1に記載のデータ処理装置。The sample data extraction unit
Extract multiple sample data with multiple attributes for one category,
The sample data selection unit
For each category, sample data used for learning is selected so that the number of sample data attribute types is maximized and the difference in the number of sample data selections between attributes is minimized within the specified number of selections. The data processing apparatus according to claim 1.
カテゴリごとに、対応するカテゴリの複数のサンプルデータの中から、前記複数のサンプルデータに含まれている全ての属性について属性ごとに1つのサンプルデータを選択し、
選択したサンプルデータの数がカテゴリに指定されている選定数以上であれば、選択したサンプルデータの中から選定数に一致するようにランダムに学習に用いるサンプルデータを選定し、
選択したサンプルデータの数がカテゴリに指定されている選定数未満であれば、選択したサンプルデータを学習に用いるサンプルデータとして選定するとともに、未選択のサンプルデータの中から前記未選択のサンプルデータに含まれている全ての属性について属性ごとに1つのサンプルデータを選択して不足分のサンプルデータを選定することを特徴とする請求項7に記載のデータ処理装置。The sample data selection unit
For each category, select one sample data for each attribute for all the attributes included in the plurality of sample data from a plurality of sample data of the corresponding category,
If the number of selected sample data is greater than or equal to the number of selections specified in the category, select sample data to be used for learning at random so that it matches the number of selections from the selected sample data,
If the number of selected sample data is less than the selected number specified in the category, the selected sample data is selected as sample data used for learning, and the unselected sample data is selected from the unselected sample data. 8. The data processing apparatus according to claim 7, wherein one sample data is selected for each attribute of all the included attributes, and insufficient sample data is selected.
各々に日時情報が設定されている複数のサンプルデータを抽出し、
前記サンプルデータ選定部は、
同一属性のサンプルデータが複数存在する場合に、日時情報に示される日時が新しい順にサンプルデータを選択することを特徴とする請求項8に記載のデータ処理装置。The sample data extraction unit
Extract multiple sample data each with date and time information set,
The sample data selection unit
9. The data processing apparatus according to claim 8, wherein when there are a plurality of sample data having the same attribute, the sample data is selected in the order of date and time indicated in the date and time information.
一つのカテゴリに対して、複数種のタイトルが示される複数のサンプルデータを抽出し、
前記データ処理装置は、
前記サンプルデータ選定部は、
カテゴリごとに、指定されている選定数の範囲内でタイトルの種類数が最大となりタイトル間のサンプルデータ選定数の差が最小となるように学習に用いるサンプルデータを選定することを特徴とする請求項7に記載のデータ処理装置。The sample data extraction unit
Extract multiple sample data showing multiple titles for one category,
The data processing device includes:
The sample data selection unit
For each category, the sample data used for learning is selected so that the number of types of titles is maximized and the difference in the number of sample data selected between titles is minimized within the range of the designated number of selections. Item 8. The data processing device according to Item 7.
一つのカテゴリに対して、複数種のデータ作成者が示される複数のサンプルデータを抽出し、
前記サンプルデータ選定部は、
カテゴリごとに、指定されている選定数の範囲内でデータ作成者の種類数が最大となりデータ作成者間のサンプルデータ選定数の差が最小となるように学習に用いるサンプルデータを選定することを特徴とする請求項7に記載のデータ処理装置。The sample data extraction unit
For one category, extract multiple sample data that shows multiple types of data creators,
The sample data selection unit
For each category, select the sample data to be used for learning so that the number of types of data creators is maximized and the difference in the number of sample data choices between data creators is minimized within the specified number of selections. 8. The data processing apparatus according to claim 7, wherein
一つのカテゴリに対して、複数種のドメインに属する複数のメールアドレスが示される複数の電子メールを複数のサンプルデータとして抽出し、
前記サンプルデータ選定部は、
カテゴリごとに、指定されている選定数の範囲内でドメインの種類数が最大となりドメイン間のサンプルデータ選定数の差が最小となるように学習に用いるサンプルデータを選定することを特徴とする請求項7に記載のデータ処理装置。The sample data extraction unit
For a single category, extract multiple emails with multiple email addresses belonging to multiple domains as multiple sample data,
The sample data selection unit
For each category, the sample data used for learning is selected so that the number of types of domains is maximized and the difference in the number of sample data selected between domains is minimized within the range of the specified number of selections. Item 8. The data processing device according to Item 7.
一つのカテゴリに対して、複数種のアプリケーションプログラムに対応付けられている複数のサンプルデータを抽出し、
前記サンプルデータ選定部は、
カテゴリごとに、指定されている選定数の範囲内でアプリケーションプログラムの種類数が最大となりアプリケーションプログラム間のサンプルデータ選定数の差が最小となるように学習に用いるサンプルデータを選定することを特徴とする請求項7に記載のデータ処理装置。The sample data extraction unit
For one category, extract multiple sample data associated with multiple types of application programs,
The sample data selection unit
For each category, sample data used for learning is selected so that the number of types of application programs is maximized and the difference in the number of sample data selected between application programs is minimized within the range of the specified number of selections. The data processing apparatus according to claim 7.
一つのカテゴリに対して、複数種の文字コードで作成された複数のサンプルデータを抽出し、
前記サンプルデータ選定部は、
カテゴリごとに、指定されている選定数の範囲内で文字コードの種類数が最大となり文字コード間のサンプルデータ選定数の差が最小となるように学習に用いるサンプルデータを選定することを特徴とする請求項7に記載のデータ処理装置。The sample data extraction unit
Extract multiple sample data created with multiple types of character codes for one category,
The sample data selection unit
For each category, sample data used for learning is selected so that the number of types of character codes is maximized and the difference in the number of sample data selected between character codes is minimized within the specified number of selections. The data processing apparatus according to claim 7.
周期ごとに入力されるデータを複数カテゴリのいずれかのカテゴリに分類し、
前記サンプルデータ選定基準情報記憶部は、
各周期で入力されたデータ数に所定の比率を乗じた値をサンプルデータの選定総数とするサンプルデータ選定基準情報を記憶しており、
前記サンプルデータ選定部は、
前記サンプルデータ選定基準情報に基づき、周期ごとに、入力されたデータ数に前記所定の比率を乗じた値をサンプルデータの選定総数として計算し、計算したサンプルデータの選定総数を用いて、前記学習部の学習に用いるサンプルデータを選定することを特徴とする請求項1に記載のデータ処理装置。The classification unit includes:
Classify the data entered for each period into one of multiple categories,
The sample data selection criteria information storage unit is
Stores sample data selection criteria information in which the total number of sample data selected is a value obtained by multiplying the number of data input in each cycle by a predetermined ratio,
The sample data selection unit
Based on the sample data selection criteria information, a value obtained by multiplying the number of input data by the predetermined ratio is calculated as the total number of selected sample data for each period, and the learning is performed using the calculated total number of selected sample data. The data processing apparatus according to claim 1, wherein sample data used for part learning is selected.
前記コンピュータが、サンプルデータを用いた学習を行って、データの分類に用いる分類ルールを新たに生成し、
前記コンピュータが、前記学習に用いるサンプルデータをカテゴリごとに抽出し、
サンプルデータの選定総数の上限値とサンプルデータの選定基準が示されているサンプルデータ選定基準情報に基づき、前記コンピュータが、サンプルデータの選定総数が前記上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算し、抽出されたサンプルデータの中からカテゴリ単位の選定数に従いカテゴリごとに学習に用いるサンプルデータを選定することを特徴とするデータ処理方法。The computer classifies the data into one of several categories according to the classification rules,
The computer performs learning using sample data, and newly generates a classification rule used for data classification,
The computer extracts sample data used for the learning for each category,
Based on the sample data selection criteria information that shows the upper limit of the total number of sample data selections and the sample data selection criteria, the computer determines that the total number of sample data selections reaches the maximum within the range of the upper limit values and between categories. A data processing method characterized by calculating a selection number that minimizes a difference for each category, and selecting sample data used for learning for each category according to the selection number for each category from the extracted sample data.
サンプルデータを用いた学習を行って、前記分類処理に用いる分類ルールを新たに生成する学習処理と、
前記学習処理の学習に用いるサンプルデータをカテゴリごとに抽出するサンプルデータ抽出処理と、
サンプルデータの選定総数の上限値とサンプルデータの選定基準が示されているサンプルデータ選定基準情報を読み出す読み出し処理と、
前記サンプルデータ選定基準情報に基づき、サンプルデータの選定総数が前記上限値の範囲内で最大になりカテゴリ間の差が最小となる選定数をカテゴリ単位で計算し、前記サンプルデータ抽出処理により抽出されたサンプルデータの中からカテゴリ単位の選定数に従いカテゴリごとに前記学習処理の学習に用いるサンプルデータを選定するサンプルデータ選定処理とをコンピュータに実行させることを特徴とするプログラム。A classification process for classifying data into one of multiple categories according to a classification rule;
A learning process that performs learning using sample data and newly generates a classification rule used for the classification process;
Sample data extraction processing for extracting sample data used for learning of the learning processing for each category;
A read process for reading sample data selection criteria information indicating the upper limit of the total number of sample data selections and the sample data selection criteria;
Based on the sample data selection criteria information, the number of selected sample data is maximized within the range of the upper limit value, and the number of selections that minimizes the difference between categories is calculated for each category, and extracted by the sample data extraction process. A program for causing a computer to execute sample data selection processing for selecting sample data to be used for learning in the learning processing for each category according to the number of selected categories in the sample data.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2009/068317 WO2011052025A1 (en) | 2009-10-26 | 2009-10-26 | Data processing device, data processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2011052025A1 true JPWO2011052025A1 (en) | 2013-03-14 |
JP5220202B2 JP5220202B2 (en) | 2013-06-26 |
Family
ID=43921469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011538127A Expired - Fee Related JP5220202B2 (en) | 2009-10-26 | 2009-10-26 | Data processing apparatus, data processing method, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5220202B2 (en) |
WO (1) | WO2011052025A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6697159B2 (en) | 2016-07-13 | 2020-05-20 | 富士通株式会社 | Machine learning management program, machine learning management device, and machine learning management method |
JP6588494B2 (en) * | 2017-05-01 | 2019-10-09 | 日本電信電話株式会社 | Extraction apparatus, analysis system, extraction method, and extraction program |
JP7253161B2 (en) * | 2019-03-29 | 2023-04-06 | 株式会社野村総合研究所 | Data wrangling work support device, data wrangling work support method, and data wrangling work support program |
JP7449366B2 (en) | 2020-03-27 | 2024-03-13 | 富士フイルム株式会社 | Machine learning system and method, integrated server, information processing device, program, and method for creating an inference model |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005182696A (en) * | 2003-12-24 | 2005-07-07 | Fuji Xerox Co Ltd | Machine learning system and method, and computer program |
JP4985293B2 (en) * | 2007-10-04 | 2012-07-25 | ソニー株式会社 | Information processing apparatus and method, program, and recording medium |
-
2009
- 2009-10-26 WO PCT/JP2009/068317 patent/WO2011052025A1/en active Application Filing
- 2009-10-26 JP JP2011538127A patent/JP5220202B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP5220202B2 (en) | 2013-06-26 |
WO2011052025A1 (en) | 2011-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10387455B2 (en) | On-the-fly pattern recognition with configurable bounds | |
US9600806B2 (en) | Electronic message systems and methods | |
JP5288959B2 (en) | Data classification apparatus and computer program | |
US20110055264A1 (en) | Data mining organization communications | |
US20080168074A1 (en) | Data Transfer Device, Data Transfer Method, and Data Transfer Program | |
US20040054744A1 (en) | Method and apparatus for semantic qualification and contextualization of electronic messages | |
US20060092920A1 (en) | Method and apparatus for assigning cost metrics to electronic messages | |
JP2000511671A (en) | Automatic document classification system | |
US9292579B2 (en) | Method and system for document data extraction template management | |
WO2023272850A1 (en) | Decision tree-based product matching method, apparatus and device, and storage medium | |
JP5220202B2 (en) | Data processing apparatus, data processing method, and program | |
JP5584608B2 (en) | E-mail erroneous transmission determination method, determination program, and communication device | |
JP2011008527A (en) | System for preparing article based on analysis result of financial statement | |
JP5220200B2 (en) | Data processing apparatus, data processing method, and program | |
JP2008250437A (en) | Mail data sorting apparatus, mail data sorting program, mail data sorting method, e-mail data hierarchy localization device, e-mail data hierarchy localization program, and e-mail data hierarchy localization method | |
US20190228055A1 (en) | Information processing apparatus and non-transitory computer readable medium storing information processing program | |
JP2019191844A (en) | E-mail preparation device, method and program | |
US8055750B2 (en) | Autonomous management of a communication network | |
CN108280182B (en) | Examination and approval method and system for flexibly applying internal lists | |
JP3711399B2 (en) | Data transmission apparatus and recording medium recording data transmission processing program | |
JP2014106775A (en) | Received-mail display program, method, and device | |
JP2016212725A (en) | Information processor and information processing program | |
CN117827638A (en) | Test data generation method and device | |
JP2001312448A (en) | Device and method for electronic mail distribution and recording medium | |
JP2022187527A (en) | Technical research support device, technical research support method and technical research support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130305 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160315 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5220202 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |