WO2004097678A1 - Automatic document classification program, method and device thereof - Google Patents

Automatic document classification program, method and device thereof Download PDF

Info

Publication number
WO2004097678A1
WO2004097678A1 PCT/JP2003/005526 JP0305526W WO2004097678A1 WO 2004097678 A1 WO2004097678 A1 WO 2004097678A1 JP 0305526 W JP0305526 W JP 0305526W WO 2004097678 A1 WO2004097678 A1 WO 2004097678A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
machine learning
computer
clustering
documents
Prior art date
Application number
PCT/JP2003/005526
Other languages
French (fr)
Japanese (ja)
Inventor
Shigehiro Mochizuki
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2003/005526 priority Critical patent/WO2004097678A1/en
Publication of WO2004097678A1 publication Critical patent/WO2004097678A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Definitions

  • the present invention relates to an automatic document classification program, a method thereof, and an apparatus.
  • the present invention relates to a technology for automatically classifying documents, and more particularly, to a technology for automatically classifying documents using machine learning and clustering. Background technology-.
  • methods for automatically classifying documents include a method based on machine learning and a method based on clustering processing.
  • a system that automatically classifies documents by machine learning generally performs the following processing.
  • Non-Patent Document 1 For uncategorized documents, analyze the words that exist in the documents, check if they are feature keywords that fall under the classification rules, and if so, add up the score values to correspond to the feature keywords Find a score. The document is classified into the category corresponding to the score that exceeds the threshold and obtains the highest value among the obtained scores.
  • Non-Patent Document 1 For an example of automatic classification of documents by machine learning, see “Koji Tsukamoto, Manabu Sashino: Text Classification Using Ada Boost and Active Learning. Information Processing Society of Japan. Association, 2001 "(hereinafter referred to as Non-Patent Document 1). You.
  • Patent Document 1 Japanese Patent Laid-Open Publication No. 05-3242272
  • the present invention has been made in view of the above problems, and provides a method for automatically classifying documents more appropriately by closely linking the classification of documents by machine learning and the clustering process. Is to link the two processes as follows.
  • Patent Document 1
  • One embodiment of the present invention is a program for realizing, by a computer, a process of automatically classifying a document stored in a storage device of the computer.
  • Clustering process or when creating a new category by clustering process for a document group that could not be classified anywhere as a result of classification by machine learning, excluding the feature keywords used in the existing classification rules Therefore, it is easy to create a new category that is different from the existing category.
  • One embodiment of the present invention is a program for realizing, by a computer, a process of automatically classifying documents stored in a storage device of the computer, the program having a function of performing a clustering process on a group of documents, and a machine learning process. Classification function, And a function of selecting and specifying a target document group when performing the clustering process. Note that there are three types of target documents: uncategorized documents, documents belonging to a specific category classified by machine learning, and documents that could not be classified by machine learning. be able to.
  • one embodiment of the present invention is a program for realizing, by a computer, a process of automatically classifying documents stored in a storage device of the computer, the program having a function of performing a clustering process on a group of documents, and A function of classifying, for a group corresponding to the keyword obtained by the clustering process, a function of displaying a document closely related to the keyword of the group, and a document of the machine learning category closely related to the keyword. It is characterized in that a function of registering in a correct answer document of and a computer is realized.
  • FIG. 1 is a diagram showing a system configuration of the present invention.
  • FIG. 2 is a diagram showing a hardware configuration of a computer constituting the system of the present invention.
  • FIG. 3 is a diagram illustrating an example of a machine learning operation screen when a category is created.
  • FIG. 4 is a diagram illustrating an example of a machine learning operation screen when a correct example document is registered.
  • FIG. 5 is a diagram illustrating an example of a machine learning operation screen when performing learning and classification processing.
  • FIG. 6 is a diagram illustrating an example of a machine learning operation screen when the classification result is confirmed and the correct answer example is corrected.
  • FIG. 7 is a diagram showing an example of a machine learning operation screen when confirming the category statistical information and characteristic keywords.
  • FIG. 8 is a diagram showing an example of a machine learning operation screen when an unnecessary word and a part of speech to be extracted are set.
  • FIG. 9 is a diagram illustrating a method of calling the clustering operation screen from the machine learning operation screen.
  • FIG. 10 is a diagram showing an example of the clustering operation screen.
  • FIG. 11 is a diagram illustrating an example of a clustering operation screen when a clustering result is displayed.
  • FIG. 12 is a diagram illustrating a clustering operation screen when a list of documents highly relevant to the cluster keyword is displayed.
  • H1 13 is a diagram showing a flow of learning in the machine learning / classification processing unit.
  • FIG. 14 is a diagram illustrating a flow in the case where the machine learning / classification processing unit performs a classification process.
  • FIG. 15 shows the flow of the clustering processing unit.
  • FIG. 16 is a diagram for explaining the details of the “document analysis and feature keyword selection processing” in the clustering processing unit.
  • FIG. 17 is a diagram illustrating an example of a document to be classified.
  • FIG. 18 is a diagram showing an example of category definition data.
  • FIG. 19 is a diagram illustrating an example of a feature key guide for each category obtained by machine learning.
  • FIG. 20 is a diagram illustrating an example of data of classification rules generated as a result of learning.
  • FIG. 21 is a diagram illustrating a data example of the classification result.
  • FIG. 22 is a diagram showing an example of unnecessary word list data.
  • FIG. 23 is a diagram illustrating an example of the processing target document list.
  • FIG. 24 is a diagram illustrating an example of a recording medium on which the recorded control program can be read by a computer.
  • FIG. 1 is a diagram showing a system configuration of the present invention.
  • This system consists of a machine learning operation screen 11, a clustering operation screen 13, a machine learning / classification processing unit 14, a clustering processing unit 17, and a repository 19 for correct example documents / classification target documents.
  • the machine learning operation screen 11 provides the user with a user interface for performing an operation for performing automatic classification by machine learning. Specifically, it provides a user interface for defining categories and registering the corresponding correct examples. The user gives a processing instruction to the machine learning / classification processing unit 14 from this screen (a). In addition, the clustering operation screen 13 can be called (e). In addition, machinery The category definition and the data of the correct answer document defined in the learning operation screen 11 are stored in the database 12 of the category definition + correct answer example document.
  • the machine learning / classification processing unit 14 reads out the correct answer document from the storage 19 (g), detects the feature key code for each category, and performs learning.
  • a classification rule is created and stored in a database 15 for storing the learning results. It has a function to return a list of feature keys included in the classification rule in response to an external request ( ⁇ ).
  • the documents to be classified are read from the storage 19 (g), classified according to the rules, and which documents belong to which category (or The power that does not belong is stored as a classification result in the database 16 that stores the classification result, and a function that returns a list of documents classified (or could not be classified) into each category in response to an external request. (B, ⁇ ).
  • the clustering operation screen 13 is used to select which documents to target, whether or not to include the characteristic keywords of the existing category, and to issue an instruction for the clustering process.
  • C Provide the user interface to the user. It also has a function to display the result of the clustering process and deliver it to the machine learning operation screen 11 as a correct example document (e).
  • the clustering processing unit 17 communicates with the machine learning classification processing unit 14 to acquire the target document group and the characteristic keywords of the existing category (f),
  • the target document is read from the storage 19 (h), analyzed to generate a clustering result, and stored in the database 18 for storing the clustering result.
  • the generated clustering result is returned to the clustering operation screen 13 as a result (d) According to the force ⁇ or a request from the machine learning classification processing unit 14 (f).
  • the system of the present invention shown in FIG. 1 is configured by a computer (information processing device), the entire system may be configured by a single computer, or may be configured by a plurality of computers, that is, via a network such as the Internet. It may be configured by a system constructed by using
  • FIG. 2 shows a hardware configuration of a computer (information processing device) constituting the present invention.
  • the computer shown in FIG. 1 includes a CPU 21, a RAM 22, a ROM 23, an HDD 24, an input unit 25, an output unit 26, and an external interface unit 27 which are interconnected via a bus 28. Data can be exchanged mutually under the control of 21.
  • the CPU (Central Processing Unit) 21 is a central processing unit that controls the operation of the entire computer, and controls the display of the machine learning operation screen 11 and the clustering operation screen 13 in Fig. 1 and machine learning Z classification processing. Functions as the unit 14 and the clustering processing unit 17.
  • the RAM (R and om Access Memory) 22 is used as a work memory when the CPU 21 executes various programs, and also as a main memory used as a temporary storage area for various data as needed.
  • the ROM (Read Only Memory) 23 is a memory in which a basic control program executed by the CPU 21 is stored in advance, and the CPU 21 executes the basic control program when the computer starts up. Basic control of the operation of the entire computer system is performed by the CPU 21.
  • the HDD (Hard Disk Drive) 24 functions as a database that stores category definition + correct example documents, learning results (classification rules), classification results, clustering results, correct example documents / classification target documents.
  • the part that stores these data is not limited to the HDD in a single computer, and may function in the HDD in another computer connected via a network such as the Internet. May be stored on the HDD in the web server connected via the network.
  • the HDD 24 stores a machine learning Z classification processing program executed by the CPU 21 and a clustering processing program.
  • the input unit 25 receives an external input and passes the content of the input to the CPU 21.
  • the input unit 25 includes, for example, an input device used by a user to instruct classification operations such as a keyboard and a mouse, and further includes an FD (Flexible Disk), a CD-ROM (Comm Act D). isoc-ROM), DVD-ROM (Digital Versati 1 e D isc-ROM), MO (magneto-optics) disk, etc. Is done.
  • the output unit 26 performs an output according to an instruction from the CPU 21 and displays various data, for example, a display device such as a CRT (Cathode Ray Tube) or an LCD (Liquid Crystal D islay). And a printer device as required.
  • a display device such as a CRT (Cathode Ray Tube) or an LCD (Liquid Crystal D islay).
  • LCD Liquid Crystal D islay
  • the external I / F (interface) unit 27 manages communication when exchanging data between computers. When the whole system shown in Fig. 1 is composed of multiple computers, data is exchanged between them. It manages the communication of each computer when exchanging.
  • the computer shown in FIG. 2 has a standard configuration as a computer.
  • the subject of classification is “E-mail” in the data of patent application publications, and the “Title of Invention” and “Summary” are each a single file.
  • the explanation will be made using the data saved in the server.
  • the explanation of the screen example in 1) above the explanation will be made using the screen example when the system is operated with the same classification target.
  • Machine learning operation screen 1 1 and clustering operation screen 13 1) Machine learning operation screen 1 1 and clustering operation screen 13:
  • Machine learning operation screen 1 1 1:
  • the user creates an optimal automatic classification rule while repeating the work of defining the category system ⁇ learning processing ⁇ document classification processing ⁇ evaluation and feedback of the classification result several times.
  • the procedure is to start automatic classification.
  • Figure 3 shows an example of a screen for creating a category. Press the "Create category” button 31 in the left frame to display the category creation screen on the right. In the right frame, enter the category ID, category name and description, Press the “Create” button 3 2 to create one category.
  • the following categories have been created: Category ID: 01, Category name: Forwarding / Address change, Description: E-mail forwarding, circulation, and technology for changing the address. In this way, two or more categories into which documents should be classified are created.
  • Figure 4 shows an example of a screen when registering a correct answer document.
  • the five categories defined in the left frame are displayed (“Transfer”, “Redirect”, “Format conversion”, “Efficiency”, “Improved operability”, “Security”). This shows that the correct answer example is registered in the “Change of destination” category. Enter the correct answer document URL in the correct answer example URL at the bottom of the right frame and press the register button to register the correct answer example.
  • the user presses the "Save and start learning” button 51 in the upper frame shown in Fig. 5 to perform the learning process. .
  • the system analyzes the contents of the correct answer examples, extracts feature keywords for each category, and creates classification rules. This learning process is the same as the conventional technology.
  • the system determines the category of the collected documents by referring to the classification rules based on the classification rules, sorts them to the appropriate places, and creates the classification results.
  • FIG. 6 shows an example of the machine learning operation screen when the classification result is confirmed and the correct answer example is corrected.
  • the URL indicating the location of the document is displayed as a classification result in a list.
  • the number "Confidence” is displayed at the left of the result list, which is expressed as a decimal between 0 and 1, and '1' surely belongs to this category '0' means that it does not belong to this category at all.
  • a confidence level of around 0.5 is in the middle of being in or out of this category, and should be used by the user as a guide to confirm that the document has not been misclassified. Can be.
  • Fig. 6 since the document shown at the bottom of the classification result is a document that was incorrectly classified, check the "Selection check box” in the right column of the confidence level, and select "Transfer” in the left frame.
  • the user must select a category other than "Address change", that is, one of the following categories: "Format conversion”, “Efficiency”, “Improvement of operability", and "Security J". In this way, by repeating learning and classification, it is possible to increase the accuracy of document classification by machine learning.
  • the machine learning operation screen 11 of this system includes a screen for confirming category statistical information and feature keywords (Fig. 7), and a screen for setting unnecessary words for determining feature keywords and part-of-speech to be extracted (Fig. 7). 8) A function to display is provided.
  • Figure 7 shows an example of a screen for confirming category statistical information and feature keywords.
  • “Evaluation” is “No problem.” For example, if a document is too concentrated in a certain category and the occupancy is too high, It is evaluated as “consideration of division”. On the other hand, if the document is hardly classified, it will be evaluated as “Consider abolished Z integration”.
  • the maximum confidence is too high, that is, if you are confident enough to judge that the document is not in this category, you may say, "There are not enough correct answers or there are many features similar to other categories.
  • Fig. 8 shows an example of the setting screen for the unnecessary words and the parts of speech to be extracted.
  • the set unnecessary words are displayed on the left side of the right frame.
  • “system”, “mail”, “invention”, “device”, and “e-mail” are set as unnecessary words.
  • By pressing the "Delete” button 8 1 at the bottom it is possible to delete from the unnecessary word list.
  • the part of speech to be extracted as a feature keyword can be set.
  • a category in which a large number of documents are concentrated in classification by machine learning is subdivided by clustering processing, and a group of documents that cannot be classified anywhere by classification by machine learning is clustered by clustering processing. It is possible to create a new category.
  • documents that are closely related to the keywords obtained by the clustering process are converted to the correct example documents in the machine learning category. It is possible to register to.
  • the user who calls the clustering operation screen from the machine learning operation screen can execute the processing using machine learning. And the clustering process can be used easily. That is, when the “clustering” button 91 of the machine learning operation screen shown in FIG. 9 is pressed, the clustering operation screen is displayed as another window.
  • Figure 10 shows an example of the called clustering operation screen. “Existing clustering result” is displayed at the top of the window (No. 2 to No. 4), but nothing is displayed here in the initial state when the clustering operation screen is opened for the first time. Not done. After performing the clustering process using the “New clustering” input form at the bottom, the process No. and the content memo are listed in “Existing clustering results”. Select one of “Existing clustering results” (here, No. 2 to No. 4) and press the “Cluster display” button 101 to display the clustering result display screen (Fig. 11). Transitions to
  • Fig. 11 shows an example of the clustering result display screen displayed when the "clustering display” button 101 is pressed.
  • the upper URL indicates the location of a group of documents to be subjected to the clustering process.
  • the number of target documents is set to 2,311, and the feature key word is set to 50,000. If you specify the size of the cluster (maximum number of keywords to be cut out as one cluster) and press the “Cluster display” button 1 1 1, the cluster is cut and displayed in a tree shape.
  • the “keyword frequency index” input field it is possible to set a threshold that determines keywords to be regarded as important words and displayed in a different color from other keywords.
  • the threshold is specified as a percentage of the keyword T F ⁇ I D F value for the number of documents to be processed. Also, the clustering result is displayed at the bottom of FIG. In this way, a group of documents that cannot be appropriately classified by machine learning can be classified by clustering processing.
  • the “Related Document List” button 1 1 2 of each cluster is pressed, the screen transits to the document list screen (Fig. 12) that is highly relevant to the cluster keyword.
  • Figure 12 shows an example of a screen that shows a list of documents that are highly relevant to the cluster keyword.
  • the appearance probabilities in each document are totaled, and the score is high.
  • a list of up to 20 documents is displayed by URL and title (or a summary of the first 10 characters of the document).
  • the documents displayed on this screen may not be organized in light of the human senses.In such a case, return to the clustering result display screen and change the size of the cluster or select another cluster. To select an appropriate harm group.
  • the machine learning operation screen is displayed in the foreground. Clicking the category of the registration destination allows you to register it as a correct answer document of that category.
  • the clustering operation screen can be called from the machine learning operation screen, and the called clustering operation screen inherits the categories, classification rules, feature keywords, classification results, etc. in machine learning. It is characterized in that it can be used for subsequent clustering processing. Another feature is that the result of the called clustering process can be registered so that it can be reflected in the classification process by machine learning.
  • Machine learning / classification processing section 14
  • the machine learning classification processing unit in the system of the present invention is not much different from the classification based on the machine learning of the prior art.
  • FIG. 13 shows a flow of a learning process performed by the machine learning / classification processing unit 14.
  • Learning starts when the category definition and the correct answer example document described in Fig. 3 and Fig. 4 in 1) have been registered.
  • the correct example document registered in each category is subjected to morphological analysis, and only words corresponding to the specified part of speech to be extracted are extracted.
  • the part of speech to be extracted is set as shown in FIG.
  • S132 the number of appearances in each document for each word and the total number of appearances in all documents are totaled.
  • the feature level of the word (the ratio of the probability of occurrence of a certain category in the correct example document to the probability of occurrence in the entire correct example document) is calculated.
  • FIG. 14 shows the flow of processing performed by the machine learning Z classification processing unit 14 at the time of classification.
  • S140 one document is read from a set of documents to be classified (such as a file server or a ZWeb server).
  • a set of documents to be classified such as a file server or a ZWeb server.
  • S141 it is determined whether or not all the documents to be classified have been read. If all the data has been read (Y), all the objects to be classified have been classified, and the processing ends. If all of them have not been read (N), the process proceeds to SI42, where the document content of one read document is subjected to morphological analysis, and the number of occurrences of each word is counted. In S 1 4 3, one is taken out of the totaled words.
  • S148 it is determined whether or not the extracted score value is equal to or greater than the threshold value. If the score value is not equal to or greater than the threshold value (N), the process proceeds to SI49 and is stored in the classification result database 16 as "Nothing was classified”. If the value is equal to or larger than the threshold value, the process proceeds to S150, and is classified into the category having the highest score value. After S149 and S150, each returns to S140, reads a new document from the set of documents to be classified, and performs the same classification processing.
  • FIG. 15 shows the flow of the clustering processing unit 17.
  • the process after S159 in FIG. 15 is the same as the conventional clustering process, but the rest is unique to the present invention.
  • S151 it is determined whether or not the feature key of an existing category in the classification by machine learning is included in the feature keyword of the clustering process. If not included (N), the feature key is obtained from the machine learning / classification processing unit 14 in S152, an unnecessary word list is created, and the process proceeds to S153. When including (Y), the process proceeds to S153.
  • Reference numerals 3153 to 3157 denote processing units for determining a document target to be subjected to clustering processing and acquiring a classification target.
  • S153 it is determined whether or not the target of the clustering process is a document group in a specific category in the classification by machine learning.
  • the process proceeds to S 154, in which a list of documents belonging to the specific category is obtained from the machine learning / classification processing unit 14, and a processing target document list is created. If it is not a document group in the specific category (N), the process proceeds to S155, and it is determined whether or not the target is a document group that could not be classified by machine learning. If the document group could not be classified (Y), Proceeding to S156, a list of documents that could not be classified is acquired from the machine learning Z classification processing unit 14, and a list of documents to be processed is created.
  • S157 If it is not a group of documents that could not be classified (N), the process advances to S157 to obtain a list of all documents to be classified and create a list of documents to be processed.
  • S158 analysis of the document and selection of characteristic keywords are performed. Details will be described with reference to FIG.
  • S159 the probability of occurrence of the feature key word for each document is calculated
  • S160 the correlation coefficient between the feature key words is calculated
  • S161 the cluster is created by combining in descending order of the correlation coefficient.
  • S 151 is a process corresponding to determining whether or not the check box 103 in FIG.
  • S 153 and S 155 S 157 corresponds to the selection of “processing target” in FIG. 10, and includes a group of documents belonging to a specific category in machine learning, a group of documents that could not be classified by machine learning, a group of unclassified documents, This is a process for determining whether or not the above-described process is performed. It can be said that the feature of the present invention is that these processes are added to the conventional clustering process.
  • S162 it is determined whether or not all the documents in the processing target document list have been read. If not all the documents have been read (N), proceed to S163, read one document, morphologically analyze the document, and count the total number of occurrences for each word and the number of occurrences. Then, the process returns from S163 to S162. If it is determined in S162 that all documents have been read (Y), the process proceeds to S164. In S164, the TF ⁇ IDF value for each word is calculated and sorted in descending order. In S165 and later, sorted words are read. In S165, it is determined whether the number of read words has reached the maximum number of keywords set on the clustering processing screen in FIG. If it has reached ( ⁇ ), the process ends.
  • S 166 Go to and read one word in sorted order.
  • S167 it is determined whether or not the morphologically analyzed word ends. If the processing has ended (Y), the processing ends. If not completed (N), the process proceeds to S168, and it is determined whether or not the read word exists in the unnecessary word list. If it is in the unnecessary word list ( ⁇ ), return to S165. If it does not exist in the unnecessary word list (N), go to S169, adopt it as a feature keyword, and return to S165.
  • the analysis of the document and the selection of the characteristic keyword are performed.
  • the machine learning / classification processing unit 14 and the clustering processing unit 17 of the present system have been described above with reference to FIGS.
  • the system of the present invention is particularly characterized in that the clustering process 17 can use the classification result, the classification rule, and the like of the machine learning / classification processing unit 14, and has clarified that the system has a function for that.
  • FIG. 17 shows an example of a document used as a classification target in the following description.
  • the classification target is “e-mail” in the patent application publication data
  • the “name of the invention” and “abstract” are one file per file in HTML format. It is saved on the server.
  • a category system for machine learning is defined in order to classify documents by machine learning. That is, the force category shown in FIG. 3 is created and the correct example document shown in FIG. 4 is registered.
  • the registered categories and correct answer example documents are stored in the database 12 shown in Fig. 1.
  • the data structure of the data stored in the database is shown in Fig. 18.
  • FIG. 20 shows an example of the data configuration of the classification rules that are the learning results.
  • Figure 19 shows the feature keywords for each category and their corresponding score values.
  • the score value is the logarithm (log) of the ratio of the probability that the keyword appears in the correct answer document in that category to the probability of appearing in the entire correct answer document, and indicates the weight as a feature.
  • FIG. 20 shows the data configuration of the classification rules that are the learning results.
  • the category to which it belongs is quantified and stored as a score for each category.
  • the “P” column of the score for each category indicates the score when the keyword in the left column appears in the document more than the threshold number.
  • the “N” column indicates the score when the keyword appears less than the threshold number in the document. For example, if the keyword "input" appears more than once (the P column in the box enclosed by 201 in the figure is from left to right), the score for category 01 is 0.815, and so on.
  • the score for category 002 is 0.541
  • the score for category 03 is 1.07
  • the score for category 004 is -0.074
  • the score for category 005 Is one 1.082.
  • the keyword "input" is less than once (Only N ⁇ in the part surrounded by 201 in the figure is from left to right)
  • the score for category 001 is 0.484
  • the score for category 002 is -0.183
  • the score for category 003 is The score for 0.16
  • category 004 is 0.072
  • the score for category 005 is 0.135. Note that the score differs depending on how many times the word “input” appears in the document to be classified. In FIG.
  • the category that obtained the maximum value among the score values obtained in this manner is extracted, and it is determined whether or not the score value is equal to or greater than a set threshold value. If the score value is equal to or greater than the threshold value, the category is classified. If it is less than the threshold value, it is determined that no classification has been made, and it is stored in the database 16, which is the storage location of the classification results shown in FIG. Figure 21 shows an example of the data structure of the classification result.
  • Each classified document is recorded for each category by a code (here, URL) that can uniquely identify the location together with the certainty factor and title.
  • the certainty factor indicates that the document is in the category. This is a numerical indication of the certainty of classification, and can be obtained from the obtained score value and threshold value.
  • Figure 22 shows an example of unnecessary word list data. This is done by turning off the “Include already learned feature keywords” check box 103 shown in Figure 10 and turning on the “Enable unnecessary word and part-of-speech settings to be extracted” check box 104
  • This is an example of a case in which the feature key word obtained by machine learning and a list of words in which unnecessary words specified during learning are not subjected to clustering processing.
  • a list of unnecessary words is created by the machine learning classification unit 14 according to the user's specification, and is passed to the clustering unit 17.
  • FIG. 23 shows an example of data of a document list to be subjected to the clustering process.
  • the required data is passed from the machine learning / classification processing unit 14 to the clustering processing unit 17 according to the designation of the user, and the clustering process is performed.
  • the result of the clustering process is stored in the database 18 for storing the clustering result shown in FIG. Since the clustering result has the same data structure as general clustering results, it is not specifically shown here.
  • a list of related documents is stored in the database corresponding to each cluster, and among the documents in the list, the user selects the check box in the leftmost column of the screen example shown in Fig. 12. When the user presses the “Register to correct answer” button at the bottom of Fig. 12, the category definition and correct answer are selected via the machine learning operation screen 11. Passed to database 12 to register the example document.
  • FIG. 1 As described above, the system of the present invention shown in FIG. 1 has been described in detail in the order of 1) to 3), and the details of the system of the present invention have been clarified.
  • the system of the present invention is configured by a computer (information processing device), but the various processes shown in FIGS.
  • the present invention can also be implemented by causing a computer to record a control program that causes a computer to perform these various processes and reading and executing the control program from the recording medium by the computer. It is.
  • Fig. 24 shows an example of a recording medium that allows a computer to read the recorded control program.
  • the recording medium may be, for example, a RAM 24 or a ROM provided as an internal or external accessory device in the computer 241, or a memory 2442 such as a hard disk device, or a flexible device.
  • Portable recording media such as disks, MOs (magneto-optical disks), CD-ROMs, DVD-ROMs, etc. can be used.
  • the recording medium may be a storage device 246 provided in a computer functioning as a program server 245 connected to the computer 241 via the communication line 244.
  • a transmission signal obtained by modulating a carrier with a data signal representing a control program is transmitted from the program server 245 through a communication line 244 as a transmission medium.
  • the control System can be executed.
  • the category in which many documents are concentrated by the classification by machine learning is subdivided.

Abstract

A program for causing a computer to perform automatic classification of documents stored in a computer storage device. The program causes the computer to execute the function to cluster document groups, the function to classify documents by machine learning, and the function to specify whether the keywords used for clustering include a feature keyword contained in the classification rule obtained by the machine learning, when performing the clustering.

Description

明細書 文書の自動分類プログラム、 その方法、 及び装置 技術分野  TECHNICAL FIELD The present invention relates to an automatic document classification program, a method thereof, and an apparatus.
本発明は、 文書を自動的に分類する技術に係わり、 更に詳しくは、 機械学習 及びクラスタリングを用いた文書の自動分類技術に係わる。 背景技術 -.  The present invention relates to a technology for automatically classifying documents, and more particularly, to a technology for automatically classifying documents using machine learning and clustering. Background technology-.
従来より、 文書を自動分類する方法として、 機械学習による方法と、 クラス タリング処理による方法等があった。  Conventionally, methods for automatically classifying documents include a method based on machine learning and a method based on clustering processing.
文書を機械学習によって自動分類をするシステムでは、 一般に以下のような 処理を実行する。  A system that automatically classifies documents by machine learning generally performs the following processing.
( 1 ) 文書を分類するカテゴリを定義し、 そのカテゴリに所属すべき正解例文 書を設定する。  (1) Define a category for classifying documents, and set the correct answer documents that should belong to that category.
( 2 ) カテゴリごとに、 正解例文書に含まれる単語の出現頻度などを統計的に 調べ、 カテゴリの特徴キーワードを求め、 その特徴キーワードの出現回数に応 じたスコア値を学習し分類ルールを生成する。  (2) For each category, statistically examine the frequency of occurrence of words included in the correct answer example documents, find characteristic keywords of the category, learn score values corresponding to the number of appearances of the characteristic keywords, and generate classification rules I do.
( 3 ) 未分類の文書に対して、 その文書内に存在する単語を分析し、 分類ルー ルに該当する特徴キーワードかを調べ、 該当していたらスコア値を合計して特 徴キーワードに対応するスコアを求める。 求めたスコアのうち、 ある閾ィ直を超 えかつ最も高い値を得たものに対応するカテゴリへ、 その文書を分類する。 尚、 機械学習による文書の自動分類の例としては、 "塚本浩司、 颯々野学: A d a B o o s tと能動学習を用いたテキス ト分類. 情報処理学会. 第 1 4 6 回自然言語処理研究会. 2 0 0 1年" (以下、 非特許文献 1と呼ぶ) などがあ る。 (3) For uncategorized documents, analyze the words that exist in the documents, check if they are feature keywords that fall under the classification rules, and if so, add up the score values to correspond to the feature keywords Find a score. The document is classified into the category corresponding to the score that exceeds the threshold and obtains the highest value among the obtained scores. For an example of automatic classification of documents by machine learning, see "Koji Tsukamoto, Manabu Sashino: Text Classification Using Ada Boost and Active Learning. Information Processing Society of Japan. Association, 2001 "(hereinafter referred to as Non-Patent Document 1). You.
また、 文書群をクラスタリング処理するシステムでは、 一般に以下のような 処理を実行する。  In a system that clusters documents, the following processing is generally performed.
( 1 ) 多数の文書を、 それぞれ単語に分割 (形態素解析) して、 単語ごとの出 現頻度傾向から特徴度を表す数値を計箅し、 その上位から一定個数を特徴キー ワードとして選択する。 (ここで、 特徴度を表す数値としては、 例えば、 T F ■ I D F (Term Frequency X Inverse Document Frequency; = {单§&の総 出現数 X log (文書数 ÷単語が出現した文書数) } を用いる。)  (1) Divide a large number of documents into words (morphological analysis), calculate a numerical value representing the degree of feature from the frequency of appearance of each word, and select a certain number from the top as a feature keyword. (Here, as the numerical value representing the characteristic degree, for example, TF ■ IDF (Term Frequency X Inverse Document Frequency; = {单 § & total occurrences X log (the number of documents 数 the number of documents in which a word appears)}} is used. .)
( 2 ) 各文書中の各特徴キーワードの出現確率を求め、 キーワード同士の相関 係数を計算する。  (2) Calculate the appearance probability of each feature keyword in each document and calculate the correlation coefficient between keywords.
( 3 ) キーワード同士の相関係数が最も高い組み合わせを選ぴ、 グループ (ク ラスタ) を作る。  (3) Select the combination with the highest correlation coefficient between keywords and create a group (cluster).
( 4 ) グループになったキーワードと、 それ以外のキーワードとの相関係数を、 グループ内メンバの平均値で計算し直す。  (4) Recalculate the correlation coefficient between the keywords in the group and other keywords using the average value of the members in the group.
( 5 ) グループまたはキーワードの組み合わせから、 再び相関係数が最も高い 組み合わせを選び、 新しいグループを作る。  (5) From the group or keyword combination, select the combination with the highest correlation coefficient again, and create a new group.
( 6 ) 全体が一つのグループにまとまるまで、 (4 ) と (5 ) を繰り返す。  (6) Repeat (4) and (5) until the whole is in one group.
尚、 上記説明では、 キーワード同士の相関係数をもとにクラスタを作っている 力 S、 文書同士の相関係数を使ってクラスタを作る方法もある。 In the above description, there is also a method of creating a cluster using the force S that forms a cluster based on the correlation coefficient between keywords and the correlation coefficient between documents.
従来、 機械学習による自動分類とクラスタリング処理とは、 密接な連携が されておらず、 機械学習するための初期段階のカテゴリ作成とその正解例を選 択するときに、 クラスタリング処理された文書グループを候補として使う程度 のことしかされていなかった。 また、 例えば、 特開平 0 5— 3 4 2 2 7 2号公 報 (以下、 特許文献 1と呼ぶ) に開示された文書の分類では、 分類時に適当な カテゴリがない場合に、 新規なカテゴリが必要であることを指示することまで しか行っておらず、 新規力テゴリ作成の支援等の機能等は説明されていない。 機械学習による自動分類では、 分類された文書の分布に偏りがあり、 特定の カテゴリに大多数の文書が集中してしまうことがよくある。 そのような場合は、 カテゴリを細分化して各力テゴリに所属する文書数を平均化することが求めら れる。 また、 分類ルールに基づいて計算したスコアが一定の閾値に達しないた めに 「どこにも分類できない」 とされた文書群の中から、 新しいカテゴリを見 つけ出して、 それらに文書が適切に分類されるようにカテゴリ体系と分類ルー ルを修正することが求められる。 Conventionally, automatic classification and clustering processing by machine learning have not been closely linked, and when creating an initial stage category for machine learning and selecting the correct answer example, the clustered document group was It was only used as a candidate. Also, for example, in the classification of documents disclosed in Japanese Patent Laid-Open Publication No. 05-3242272 (hereinafter referred to as Patent Document 1), when there is no appropriate category at the time of classification, a new category is set. Even to indicate that it is necessary However, functions such as support for creating new capability categories are not described. In automatic classification by machine learning, the distribution of classified documents is biased, and the majority of documents are often concentrated in a specific category. In such a case, it is necessary to subdivide the categories and average the number of documents belonging to each category. In addition, a new category was found from a group of documents that were determined to be “cannot be classified anywhere” because the score calculated based on the classification rules did not reach a certain threshold, and the documents were appropriately classified into them. It is necessary to revise the category system and classification rules so that
このような場合に、 細分化すべきカテゴリ内の文書群や、 どこにも分類でき なかった文書群を、 すべて人手に頼って内容を読みながら、 新しいカテゴリを 作成して正解例文書を設定するには、 多大な労力が必要となる。 また、 単純に 従来のクラスタリング処理を適用すると、 既存の分類ルールで使われている特 徴キーヮードも区別なくクラスタリング処理に使われてしまうため、 既存カテ ゴリとは違う新しいカテゴリを作るという要求に必ずしも応えられず、 適した 文書グループ (クラスタ) ができないという問題があった。  In such a case, it is necessary to create a new category and set the correct example document while reading all the documents in the category that should be subdivided or the documents that could not be classified anywhere by hand. A great deal of effort is required. In addition, simply applying the conventional clustering process also uses the feature keywords used in the existing classification rules without distinction in the clustering process, so it is not always necessary to create a new category that is different from the existing category. There was a problem that a suitable document group (cluster) could not be created.
本発明は、 上述した問題を鑑み、 機械学習による文書の分類とクラスタリン グ処理を密接に連携させることで、 より適切に文書を自動分類する方法を提供 することであって、 さらに具体的には以下のように二つの処理を連携させるこ とである。  The present invention has been made in view of the above problems, and provides a method for automatically classifying documents more appropriately by closely linking the classification of documents by machine learning and the clustering process. Is to link the two processes as follows.
1 ) 機械学習における新たなカテゴリ体系を作成する際に単純に従来のクラス タリング処理を適用するのではなく、 適切な新しいカテゴリ体系を作成するこ とができるようにクラスタリング処理を適用する。  1) When creating a new category system in machine learning, instead of simply applying the conventional clustering process, apply a clustering process so that an appropriate new category system can be created.
2 ) 機械学習による分類結果をさらにクラスタリング処理してより適切に分類 することを可能にする。  2) Classification results by machine learning can be further clustered and classified more appropriately.
3 ) クラスタリング処理の結果に基づいて機械学習におけるカテゴリの正解例 文書登録を可能にする。 3) Example of correct category in machine learning based on the result of clustering processing Enable document registration.
非特許文献 1 Non-patent document 1
塚本浩司、 颯々野学: A d a B o o s tと能動学習を用いたテキスト分類. 情 報処理学会. 第 1 4 6回自然言語処理研究会. 2 0 0 1年 Koji Tsukamoto, Manabu Sasano: Text Classification Using AdaBoost and Active Learning. Japan Society for Information Processing. 1st 4th Natural Language Processing Workshop.
特許文献 1 Patent Document 1
特開平 0 5— 3 4 2 2 7 2号公報 発明の開示 Japanese Patent Application Laid-Open No. 05-34242 2 Disclosure of the Invention
本発明の一態様は、 コンピュータの記憶装置に格納されている文書を自動分 類する処理をコンピュータで実現するためのプログラムであって、 文書群をク ラスタリング処理する機能と、 文書を機械学習により分類する機能と、 前記ク ラスタリング処理を行うときに、 一度機械学習して得られた分類ルール内にあ る特徴キーワードをクラスタリング処理に使うキーワードに含める力含めない かを指定する機能と、 をコンピュータに実現させることを特徴とする。  One embodiment of the present invention is a program for realizing, by a computer, a process of automatically classifying a document stored in a storage device of the computer. A function for classifying, and a function for specifying whether or not to include a feature keyword included in a classification rule obtained by machine learning once in a keyword used for the clustering process when performing the clustering process. It is realized by a computer.
一度学習して得られた分類ルール内にある特徴キーワードをクラスタリング 処理に使うキーワードに含めないとすれば、 機械学習による分類の結果、 多数 の文書が集中してしまったカテゴリをクラスタリング処理により細分化する際、 または機械学習による分類の結果、 どこにも分類できなかつた文書群に新規力 テゴリをクラスタリング処理により作成する際に、 既存の分類ルールで使われ ている特徴キーヮードを除いてクラスタリング処理をすることができるため、 既存カテゴリとは違う新しいカテゴリを作るということを容易に行うことがで きるようになる。  If feature keywords in the classification rules obtained by learning once are not included in the keywords used for clustering processing, the categories in which a large number of documents are concentrated as a result of classification by machine learning will be subdivided by clustering processing. Clustering process, or when creating a new category by clustering process for a document group that could not be classified anywhere as a result of classification by machine learning, excluding the feature keywords used in the existing classification rules Therefore, it is easy to create a new category that is different from the existing category.
また、 本発明の一態様は、 コンピュータの記憶装置に格納されている文書を 自動分類する処理をコンピュータで実現するためのプログラムであって、 文書 群をクラスタリング処理する機能と、 文書を機械学習により分類する機能と、 前記クラスタリング処理するときに、 その対象となる文書群を選択し指定する 機能と、 をコンピュータに実現させることを特徴とする。 尚、 前記対象となる 文書群は、 未分類の文書群、 前記機械学習により分類された特定のカテゴリに 属する文書群、 前記機械学習による分類では分類できなかった文書群、 の三通 りとすることができる。 One embodiment of the present invention is a program for realizing, by a computer, a process of automatically classifying documents stored in a storage device of the computer, the program having a function of performing a clustering process on a group of documents, and a machine learning process. Classification function, And a function of selecting and specifying a target document group when performing the clustering process. Note that there are three types of target documents: uncategorized documents, documents belonging to a specific category classified by machine learning, and documents that could not be classified by machine learning. be able to.
これにより、 機械学習による分類の結果、 多数の文書が集中してしまった力 テゴリだけを選択、 指定してクラスタリング処理によつて文書群を再分類する ことが可能となり、 また機械学習では分類できなかった文書群を選択、 指定し てクラスタリング処理によって再分類することが可能となる。 このように、 機 械学習で十分に分類できなかったものをクラスタリング処理によって補うこと が可能であり、 人手に頼って再分類していたときと比べて大幅に省力化を図る ことができる。  As a result, as a result of classification by machine learning, it is possible to select and specify only the power categories in which a large number of documents are concentrated, reclassify the documents by clustering processing, and classify with machine learning. It is possible to select and specify the missing documents and re-classify them by clustering. In this way, those that could not be classified sufficiently by machine learning can be supplemented by clustering processing, and labor can be saved significantly as compared with the case where reclassification is performed manually.
更に、 本発明の一態様は、 コンピュータの記憶装置に格納されている文書を 自動分類する処理をコンピュータで実現するためのプログラムであって、 文書 群をクラスタリング処理する機能と、 文書を機械学習により分類する機能と、 前記クラスタリング処理して得られたキーヮードに対応するグループについて、 該グループ內のキーワードと関連の深い文書を表示する機能と、 前記キーヮー ドと関連の深い文書を前記機械学習のカテゴリの正解例文書に登録する機能と、 をコンピュータに実現させることを特徴とする。  Further, one embodiment of the present invention is a program for realizing, by a computer, a process of automatically classifying documents stored in a storage device of the computer, the program having a function of performing a clustering process on a group of documents, and A function of classifying, for a group corresponding to the keyword obtained by the clustering process, a function of displaying a document closely related to the keyword of the group, and a document of the machine learning category closely related to the keyword. It is characterized in that a function of registering in a correct answer document of and a computer is realized.
これにより、 機械学習のカテゴリに質のよい正解例を多く揃えられるように なり、 機械学習処理における学習及び分類の精度を高めることが容易になると いう効果を得られる。 図面の簡単な説明  As a result, a number of high-quality correct examples can be arranged in the category of the machine learning, and the effect of easily improving the accuracy of learning and classification in the machine learning process can be obtained. BRIEF DESCRIPTION OF THE FIGURES
本発明は、 後述する詳細な説明を、 下記の添付図面と共に参照すればより明 W The present invention will be more clearly understood from the following detailed description when read in conjunction with the accompanying drawings. W
6 らかになるであろう。 6 Will be clear.
図 1は、 本発明のシステム構成を示す図である。  FIG. 1 is a diagram showing a system configuration of the present invention.
図 2は、 本発明のシステムを構成するコンピュータのハードウェア構成を示 す図である。  FIG. 2 is a diagram showing a hardware configuration of a computer constituting the system of the present invention.
図 3は、 カテゴリを作成する場合の機械学習操作画面の例を示す図である。 図 4は、 正解例文書を登録する場合の機械学習操作画面の例を示す図である。 図 5は、 学習および分類処理する場合の機械学習操作画面の例を示す図であ る。  FIG. 3 is a diagram illustrating an example of a machine learning operation screen when a category is created. FIG. 4 is a diagram illustrating an example of a machine learning operation screen when a correct example document is registered. FIG. 5 is a diagram illustrating an example of a machine learning operation screen when performing learning and classification processing.
図 6は、 分類結果の確認及び正解例の修正を行う場合の機械学習操作画面の 例を示す図である。  FIG. 6 is a diagram illustrating an example of a machine learning operation screen when the classification result is confirmed and the correct answer example is corrected.
図 7は、 カテゴリの統計情報と特徴キーワードの確認をする場合の機械学習 操作画面の例を示す図である。  FIG. 7 is a diagram showing an example of a machine learning operation screen when confirming the category statistical information and characteristic keywords.
図 8は、 不要語及び抽出対象品詞を設定する場合の機械学習操作画面の例を 示す図である。  FIG. 8 is a diagram showing an example of a machine learning operation screen when an unnecessary word and a part of speech to be extracted are set.
図 9は、 機械学習操作画面から、 クラスタリング操作画面を呼び出す方法を 説明する図である。  FIG. 9 is a diagram illustrating a method of calling the clustering operation screen from the machine learning operation screen.
図 1 0は、 クラスタリング操作画面の例を示す図である。  FIG. 10 is a diagram showing an example of the clustering operation screen.
図 1 1は、 クラスタリング結果を表示する場合のクラスタリング操作画面の 例を示す図である。  FIG. 11 is a diagram illustrating an example of a clustering operation screen when a clustering result is displayed.
図 1 2は、 クラスタキーワードに関連性が高い文書の一覽を示す場合のクラ スタリング操作画面を示す図である。  FIG. 12 is a diagram illustrating a clustering operation screen when a list of documents highly relevant to the cluster keyword is displayed.
H1 1 3は、 機械学習 /分類処理部において、 学習する場合のフローを示す図 でめる。  H1 13 is a diagram showing a flow of learning in the machine learning / classification processing unit.
図 1 4は、 機械学習/分類処理部において、 分類処理をする場合のフローを 示す図である。 図 1 5は、 クラスタリング処理部のフローを示すである。 FIG. 14 is a diagram illustrating a flow in the case where the machine learning / classification processing unit performs a classification process. FIG. 15 shows the flow of the clustering processing unit.
図 1 6は、 クラスタリング処理部における 「文書の解析及び特徴キーワード の選択処理」 の詳細を説明する図である。  FIG. 16 is a diagram for explaining the details of the “document analysis and feature keyword selection processing” in the clustering processing unit.
図 1 7は、 分類対象とする文書の例を示す図である。  FIG. 17 is a diagram illustrating an example of a document to be classified.
図 1 8は、 カテゴリ定義データの例を示す図である。  FIG. 18 is a diagram showing an example of category definition data.
図 1 9は、 機械学習によって得られたカテゴリごとの特徴キーヮ一ドの例を 示す図である。  FIG. 19 is a diagram illustrating an example of a feature key guide for each category obtained by machine learning.
図 2 0は、 学習の結果生成される分類ルールのデータ例を示す図である。 図 2 1は、 分類結果のデータ例を示す図である。  FIG. 20 is a diagram illustrating an example of data of classification rules generated as a result of learning. FIG. 21 is a diagram illustrating a data example of the classification result.
図 2 2は、 不要語リストのデータ例を示す図である。  FIG. 22 is a diagram showing an example of unnecessary word list data.
図 2 3は、 処理対象文書リストの例を示す図である。  FIG. 23 is a diagram illustrating an example of the processing target document list.
図 2 4は、 記録させた制御プログラムをコンピュータで読み取ることの可能 な記録媒体の例を示す図である。 発明を実施するための最良の形態  FIG. 24 is a diagram illustrating an example of a recording medium on which the recorded control program can be read by a computer. BEST MODE FOR CARRYING OUT THE INVENTION
以下、 図面を参照して、 本発明の実施の形態について説明する。  Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図 1は、 本発明のシステム構成を示す図である。  FIG. 1 is a diagram showing a system configuration of the present invention.
本システムは、 機械学習操作画面 1 1、 クラスタリング操作画面 1 3、 機械 学習/分類処理部 1 4、 クラスタリング処理部 1 7、 正解例文書/分類対象文 書の格納庫 1 9から構成される。  This system consists of a machine learning operation screen 11, a clustering operation screen 13, a machine learning / classification processing unit 14, a clustering processing unit 17, and a repository 19 for correct example documents / classification target documents.
機械学習操作画面 1 1は、 機械学習による自動分類をするための操作を行う ためのユーザインタフェースを利用者に提供する。 具体的にはカテゴリ定義及 びそれに対応する正解例の登録などを行うユーザインタフェースを提供する。 利用者は、 この画面から機械学習/分類処理部 1 4へ処理の指示を出す (a )。 また、 クラスタリング操作画面 1 3を呼び出すことができる (e )。 尚、 機械 学習操作画面 1 1で定義したカテゴリ定義と正解例文書のデータは、 カテゴリ 定義 +正解例文書のデータベース 1 2に格納される。 The machine learning operation screen 11 provides the user with a user interface for performing an operation for performing automatic classification by machine learning. Specifically, it provides a user interface for defining categories and registering the corresponding correct examples. The user gives a processing instruction to the machine learning / classification processing unit 14 from this screen (a). In addition, the clustering operation screen 13 can be called (e). In addition, machinery The category definition and the data of the correct answer document defined in the learning operation screen 11 are stored in the database 12 of the category definition + correct answer example document.
機械学習/分類処理部 1 4は、 機械学習操作画面 1 1からの学習指示に応じ て、 正解例文書を格納庫 1 9から読み出し (g )、 カテゴリごとの特徴キーヮ ードを検出して学習し、 分類ルールを作成し、 学習結果を格納するデータベー ス 1 5に格納する。 外部からのリクエストに応じて、 分類ルールに含まれてい る特徴キーヮ ドの一覧を返却する機能を備える (ί )。 また、 機械学習操作 画面 1 1からの分類指示を受けて、 分類対象文書を格納庫 1 9から読み出し ( g )、 ルールに照らして分類し、 どの文書がどのカテゴリに属するか (また はどれにも属さない力 を、 分類結果として分類結果を格納するデータベース 1 6に格納する。 さらに、 外部からのリクエストに応じて、 各カテゴリに分類 された (または分類できなかった) 文書の一覧を返却する機能を備える (b、 ί )。  In response to the learning instruction from the machine learning operation screen 11, the machine learning / classification processing unit 14 reads out the correct answer document from the storage 19 (g), detects the feature key code for each category, and performs learning. A classification rule is created and stored in a database 15 for storing the learning results. It has a function to return a list of feature keys included in the classification rule in response to an external request (ί). Also, in response to the classification instruction from the machine learning operation screen 11, the documents to be classified are read from the storage 19 (g), classified according to the rules, and which documents belong to which category (or The power that does not belong is stored as a classification result in the database 16 that stores the classification result, and a function that returns a list of documents classified (or could not be classified) into each category in response to an external request. (B, ί).
クラスタリング操作画面 1 3は、 どの文書群を対象とする力 既存カテゴリ の特徴キーワードを含めるか否かなどを選択して、 クラスタリング処理の指示 を出す (c ) ユーザインタフェースを利用者に提供する。 また、 クラスタリン グ処理の結果を表示して、 機械学習操作画面 1 1へ正解例文書として引き渡す 機能を備える (e )。  The clustering operation screen 13 is used to select which documents to target, whether or not to include the characteristic keywords of the existing category, and to issue an instruction for the clustering process. (C) Provide the user interface to the user. It also has a function to display the result of the clustering process and deliver it to the machine learning operation screen 11 as a correct example document (e).
クラスタリング処理部 1 7は、 クラスタリング操作画面 1 3からの指示に応 じて、 対象となる文書群や既存カテゴリの特徴キーワードを機械学習 分類処 理部 1 4と通信して取得し (f )、 対象文書を格納庫 1 9から読み出し (h )、 分析してクラスタリング結果を生成し、 クラスタリング結果を格納するデータ ベース 1 8に格納する。 生成されたクラスタリング結果はクラスタリング操作 画面 1 3に結果として返却される (d ) 力 \ または機械学習 分類処理部 1 4 からのリクエス トに応じて返却される (f )。 図 1に示した本発明のシステムはコンピュータ (情報処理装置) で構成され るが、 システム全体を 1台のコンピュータで構成してもよいし、 または複数台 のコンピュータ、 すなわちインターネット等のネットワークを介して構築され たシステムによって構成してもよい。 In response to the instruction from the clustering operation screen 13, the clustering processing unit 17 communicates with the machine learning classification processing unit 14 to acquire the target document group and the characteristic keywords of the existing category (f), The target document is read from the storage 19 (h), analyzed to generate a clustering result, and stored in the database 18 for storing the clustering result. The generated clustering result is returned to the clustering operation screen 13 as a result (d) According to the force \ or a request from the machine learning classification processing unit 14 (f). Although the system of the present invention shown in FIG. 1 is configured by a computer (information processing device), the entire system may be configured by a single computer, or may be configured by a plurality of computers, that is, via a network such as the Internet. It may be configured by a system constructed by using
図 2に、 本発明を構成するコンピュータ (情報処理装置) のハードウェア構 成を示す。 同図に示すコンピュータは、 C PU 2 1、 RAM 22、 ROM23、 HDD 24、 入力部 25、 出力部 26、 及び外部インタフェース部 27がバス 28を介して相互に接続されて構成されており、 CPU 21による管理の下で 相互にデータ授受を行うことができる。  FIG. 2 shows a hardware configuration of a computer (information processing device) constituting the present invention. The computer shown in FIG. 1 includes a CPU 21, a RAM 22, a ROM 23, an HDD 24, an input unit 25, an output unit 26, and an external interface unit 27 which are interconnected via a bus 28. Data can be exchanged mutually under the control of 21.
CPU (C e n t r a l P r o c e s s i n g Un i t) 2 1は、 コン ピュータ全体の動作制御を司る中央処理装置であり、 図 1の機械学習操作画面 1 1及びクラスタリング操作画面 13の表示制御や機械学習 Z分類処理部 14 やクラスタリング処理部 1 7として機能する。  The CPU (Central Processing Unit) 21 is a central processing unit that controls the operation of the entire computer, and controls the display of the machine learning operation screen 11 and the clustering operation screen 13 in Fig. 1 and machine learning Z classification processing. Functions as the unit 14 and the clustering processing unit 17.
RAM (R a n d om Ac c e s s Memo r y) 22は、 各種プログ ラムを CPU21が実行するときにワークメモリとして使用され、 また各種の データの一時的な格納領域として必要に応じて用いられるメインメモリとして も使用されるメモリである。  The RAM (R and om Access Memory) 22 is used as a work memory when the CPU 21 executes various programs, and also as a main memory used as a temporary storage area for various data as needed. The memory used.
ROM (R e a d On l y Memo r y) 23は、 CPU21によって 実行される基本制御プログラムが予め格納されているメモリであり、 このコン ピュータの起動時に CPU 21がこの基本制御プログラムを実行することによ つてこのコンピュータシステム全体の動作の基本的な制御が C PU 21によつ て行われる。  The ROM (Read Only Memory) 23 is a memory in which a basic control program executed by the CPU 21 is stored in advance, and the CPU 21 executes the basic control program when the computer starts up. Basic control of the operation of the entire computer system is performed by the CPU 21.
HDD (Ha r d D i s k D r i v e) 24は、 カテゴリ定義 +正解例 文書や学習結果 (分類ルール)、 分類結果、 クラスタリング結果、 正解例文書 /分類対象文書を記憶しているデータベースとして機能する。 本発明において これらのデータを記憶する部分は、 単一のコンピュータ内の HDDにとどまら ず、 インターネット等のネットワークを介して接続する他のコンピュータ内の HDDに機能させてもよく、 例えば正解例文書/分類対象文書はネットワーク を介して接続されたウェブサーバ内の HDDに格納されていてもよい。 また、 HDD 24には、 CPU21によって実行される機械学習 Z分類処理プ口グラ ムゃクラスタリング処理プ口グラムが格納されている。 The HDD (Hard Disk Drive) 24 functions as a database that stores category definition + correct example documents, learning results (classification rules), classification results, clustering results, correct example documents / classification target documents. In the present invention The part that stores these data is not limited to the HDD in a single computer, and may function in the HDD in another computer connected via a network such as the Internet. May be stored on the HDD in the web server connected via the network. The HDD 24 stores a machine learning Z classification processing program executed by the CPU 21 and a clustering processing program.
入力部 25は、 外部からの入力を受け取ってその入力の內容を CPU 21に 渡すものである。 入力部 25としては、 例えば、 キーボードやマウスなどとい つた分類の操作を指示するのに利用者が使用する入力デバイスがあり、 更に、 FD (F l e x i b l e D i s k), CD-ROM (C om a c t D i s c -ROM), DVD-ROM (D i g i t a l V e r s a t i 1 e D i s c一 ROM)、 MO (Ma g n e t o-Op t i c s) ディスクなどとい つた可搬型の記録媒体の読み出し装置を必要に応じて備えて構成される。  The input unit 25 receives an external input and passes the content of the input to the CPU 21. The input unit 25 includes, for example, an input device used by a user to instruct classification operations such as a keyboard and a mouse, and further includes an FD (Flexible Disk), a CD-ROM (Comm Act D). isoc-ROM), DVD-ROM (Digital Versati 1 e D isc-ROM), MO (magneto-optics) disk, etc. Is done.
出力部 26は、 CPU 21からの指示に応じた出力を行うものであり、 各種 データを表示する例えば CRT (C a t h o d e R a y Tu b e) や LC D (L i q u i d C r y s t a l D i s l a y) などの表示装置やプリ ンタ装置などを必要に応じて備えて構成されるものである。  The output unit 26 performs an output according to an instruction from the CPU 21 and displays various data, for example, a display device such as a CRT (Cathode Ray Tube) or an LCD (Liquid Crystal D islay). And a printer device as required.
外部 I/F (インタフェース) 部 27は、 コンピュータ間でのデータ授受を 行う際の通信管理を行うものであり、 図 1のシステム全体を複数台のコンビュ ータで構成する場合に相互にデータのやり取りをする際にそれぞれのコンビュ ータの通信を管理する。  The external I / F (interface) unit 27 manages communication when exchanging data between computers. When the whole system shown in Fig. 1 is composed of multiple computers, data is exchanged between them. It manages the communication of each computer when exchanging.
以上のように、 図 2に示すコンピュータはコンピュータとしての標準的な構 成を有している。  As described above, the computer shown in FIG. 2 has a standard configuration as a computer.
次に、 以下の順に図 1に示した本発明のシステムについて詳細に説明をする c まず、 1) 文書の分類を行う場合の利用者の操作法と分類結果の取得等を利 用者の対面するコンピュータの表示装置に表示される画面例を用いて説明し、 本発明の要点を明らかにする。 すなわち、 図 1の機械学習操作画面 1 1 (1一 1) とクラスタリング操作画面 1 3 (1-2) を用いて本システムがどのよう な特徴を備えるかを説明する。 Next, the system of the present invention shown in FIG. 1 will be described in detail in the following order.c First, 1) The user's operation method and the acquisition of the classification result when classifying documents are used. An explanation will be given using an example of a screen displayed on a display device of a computer facing a user to clarify the gist of the present invention. That is, using the machine learning operation screen 11 (1-1-1) and the clustering operation screen 13 (1-2) in Fig. 1, we will explain what features this system has.
次に、 2) 本システムにおける機械学習による分類及びクラスタリング処理 の詳細を説明する。 すなわち、 図 1の機械学習/分類処理部 14 (2— 1) 及 ぴクラスタリング処理部 1 7 (2-2) の処理内容をフローチャートを用いて 説明する。  Next, 2) the details of classification and clustering processing by machine learning in this system will be described. That is, the processing contents of the machine learning / classification processing unit 14 (2-1) and the clustering processing unit 17 (2-2) of FIG. 1 will be described using a flowchart.
最後に、 3) 本システムによる文書分類の過程で必要となるデータや出力さ れるデータ及び分類結果等を、 具体例を用いて示す。 "  Finally, 3) Data required in the process of document classification by this system, output data, classification results, etc. will be shown using specific examples. "
尚、 上記 3) において、 分類対象として、 特許出願公開公報データのうち 「電子メール」 をキーワードとするもので、 その 「発明の名称」 と 「要約」 を 1件 1フアイノレとして HTML形式で We bサーバに保存したものを用いて説 明をするが、 上記 1) の画面例の説明においても同一の分類対象でシステムを 動作させた場合の画面例を用いて説明をする。  In the above 3), the subject of classification is “E-mail” in the data of patent application publications, and the “Title of Invention” and “Summary” are each a single file. The explanation will be made using the data saved in the server. In the explanation of the screen example in 1) above, the explanation will be made using the screen example when the system is operated with the same classification target.
1 ) 機械学習操作画面 1 1とクラスタリング操作画面 13 :  1) Machine learning operation screen 1 1 and clustering operation screen 13:
1- 1) 機械学習操作画面 1 1 :  1-1) Machine learning operation screen 1 1:
機械学習による分類においては、 利用者は、 カテゴリ体系の定義→学習処理 →文書の分類処理→分類結果の評価とフィードバック、 という作業を何度か繰 り返しながら、 最適な自動分類ルールを作成させ、 最適な分類ルールができた と判断したときに、 自動分類を開始するという手順を踏む。  In classification by machine learning, the user creates an optimal automatic classification rule while repeating the work of defining the category system → learning processing → document classification processing → evaluation and feedback of the classification result several times. When it is determined that the optimal classification rule has been created, the procedure is to start automatic classification.
まず、 カテゴリ体系の定義として、 利用者は文書を分類するカテゴリを作成 しなければならない。 図 3にカテゴリを作成する場合の画面例を示す。 左側の フレームの 「カテゴリ作成」 ボタン 31を押すと、 右側にカテゴリ作成画面が 表示される。 右側フレームで、 カテゴリ I D、 カテゴリ名、 説明を入力し、 「作成」 ボタン 3 2を押すと、 カテゴリが 1個作成される。 図 3では、 カテゴ リ I D: 0 0 1、 カテゴリ名:転送 ·宛先変更、 説明:メールの転送、 回覧、 宛先を変更する技術、 というカテゴリが作成されている。 このようにして、 文 書を分類すべきカテゴリを 2個以上作成する。 First, as a definition of the category system, users must create categories to classify documents. Figure 3 shows an example of a screen for creating a category. Press the "Create category" button 31 in the left frame to display the category creation screen on the right. In the right frame, enter the category ID, category name and description, Press the “Create” button 3 2 to create one category. In Fig. 3, the following categories have been created: Category ID: 01, Category name: Forwarding / Address change, Description: E-mail forwarding, circulation, and technology for changing the address. In this way, two or more categories into which documents should be classified are created.
また、 カテゴリ体系の定義として、 利用者は先に作成したカテゴリに分類さ れるべき正解例となる文書を登録しなければならない。 図 4に正解例文書を登 録する場合の画面例を示す。 ここでは、 左フレームに定義された 5つのカテゴ リが表示されており (「転送 '宛先変更」、 「形式変換」、 「効率化」、 「操作性向 上」、 「セキュリティ」)、 そのうち 「転送.宛先変更」 カテゴリに正解例を登録 するところを示している。 右フレームの下部にある正解例 U R Lに正解例文書 の U R Lを入力し、 登録ボタンを押すことで正解例が登録される。  In addition, as a definition of the category system, the user must register a document as a correct example to be classified into the category created earlier. Figure 4 shows an example of a screen when registering a correct answer document. Here, the five categories defined in the left frame are displayed (“Transfer”, “Redirect”, “Format conversion”, “Efficiency”, “Improved operability”, “Security”). This shows that the correct answer example is registered in the “Change of destination” category. Enter the correct answer document URL in the correct answer example URL at the bottom of the right frame and press the register button to register the correct answer example.
カテゴリ体系の定義として、 カテゴリ定義と正解例文書の登録が済むと、 学 習処理を行うために、 利用者は図 5に示す、 上部フレームの 「保存して学習開 始」 ボタン 5 1を押す。 システムは、 正解例の内容を解析して、 カテゴリごと の特徴キーワードを抽出し、 分類ルールを作成する。 この学習処理は、 従来技 術と同様である。 学習が完了したら、 文書の分類処理を行うために、 分類対象 文書の所在 (収集先 U R L ) を設定した上で、 「文書収集 Z分類開始」 ポタン 5 2を押す。 システムは収集した文書の内容を分類ルールに照らして、 どの力 テゴリに属するか判定し、 それぞれ適切と見られるところへ振り分け、 分類結 果を作成する。  After the category definition and the correct example documents have been registered, the user presses the "Save and start learning" button 51 in the upper frame shown in Fig. 5 to perform the learning process. . The system analyzes the contents of the correct answer examples, extracts feature keywords for each category, and creates classification rules. This learning process is the same as the conventional technology. When the learning is completed, set the location (collection destination URL) of the document to be classified and press the “Start document collection Z classification” button 52 to perform the document classification process. The system determines the category of the collected documents by referring to the classification rules based on the classification rules, sorts them to the appropriate places, and creates the classification results.
文書の分類が終わると、 利用者は学習によって文書が適当なカテゴリに分類 されているかどうかを確認する。 適当なカテゴリに分類されていない文書は、 利用者が適当なカテゴリに正解例として新たに登録する、 というフィードバッ クを行う必要がある。 図 6は、 分類結果の確認及ぴ正解例の修正を行う場合の 機械学習操作画面の例を示すものである。 「転送 ·宛先変更」 カテゴリへ分類 された文書の所在を示す U R Lが一覧で分類結果として表示されている。 また、 結果一覧の左のほうに 「確信度」 という数値が表示されているが、 これは、 0 から 1までの間の小数で表されるもので、 ' 1 ' は確実にこのカテゴリに属す ること意味し、 ' 0 ' は全くこのカテゴリに属するものではないことを意味す る。 確信度が 0 . 5付近のものは、 このカテゴリに入るか入らないかの中間で あること意味しており、 利用者はその文書が誤って分類されていないかどうか を確認する目安として用いることができる。 図 6では、 分類結果の最下に示さ れた文書が誤って分類された文書であるため、 確信度の右欄の 「選択チェック ボックス」 にチェックをし、 左側フレームに示された 「転送 '宛先変更」 以外 のカテゴリ、 すなわち 「形式変換」、 「効率化」、 「操作性向上」、 「セキユリテ ィ J のいずれかのカテゴリの中でこの文書が分類されるのに適当なカテゴリを 利用者が登録し直すことができる。 このように、 学習と分類を繰り返すことに よって、 機械学習による文書の分類の精度を高めていくことができる。 After classifying the documents, the user learns whether the documents have been classified into appropriate categories by learning. It is necessary to provide feedback that documents that are not classified into an appropriate category are newly registered by the user as a correct answer in an appropriate category. FIG. 6 shows an example of the machine learning operation screen when the classification result is confirmed and the correct answer example is corrected. Categorized into "Forwarding / Redirecting" category The URL indicating the location of the document is displayed as a classification result in a list. Also, the number "Confidence" is displayed at the left of the result list, which is expressed as a decimal between 0 and 1, and '1' surely belongs to this category '0' means that it does not belong to this category at all. A confidence level of around 0.5 is in the middle of being in or out of this category, and should be used by the user as a guide to confirm that the document has not been misclassified. Can be. In Fig. 6, since the document shown at the bottom of the classification result is a document that was incorrectly classified, check the "Selection check box" in the right column of the confidence level, and select "Transfer" in the left frame. The user must select a category other than "Address change", that is, one of the following categories: "Format conversion", "Efficiency", "Improvement of operability", and "Security J". In this way, by repeating learning and classification, it is possible to increase the accuracy of document classification by machine learning.
また、 利用者はシステム使用当初はカテゴリ体系を "だいたい、 こんな感じ で分類しょう" という感じで定義して機械学習を進めていくが、 当初定義した カテゴリの見直しを行い、 カテゴリの分割 ·統廃合を行い最適なカテゴリ体系 を構築することが求められる。 そのために、 本システムの機械学習操作画面 1 1にはカテゴリ統計情報と特徴キーワードを確認する画面 (図 7 )、 および特 徴キーヮードを決定するための不要語及び抽出対象品詞を設定する画面 (図 8 ) を表示する機能を備える。  At the beginning of using the system, users define the category system as "approximately, let's classify it like this" and proceed with machine learning, but review the initially defined categories and divide and consolidate categories. It is necessary to construct an optimal category system. For this purpose, the machine learning operation screen 11 of this system includes a screen for confirming category statistical information and feature keywords (Fig. 7), and a screen for setting unnecessary words for determining feature keywords and part-of-speech to be extracted (Fig. 7). 8) A function to display is provided.
図 7は、 カテゴリ統計情報と特徴キーヮードを確認する画面例を示したもの である。 ここでは、 「転送 ·宛先変更」 カテゴリに分類された文書の個数、 文 書全体における占有率、 及ぴ最大の確信度や力テゴリの特徴キーワードなどを 確認できる。 図 7では、 「評価」 は 「問題なし」 となっているが、 たとえば、 あるカテゴリに文書がたくさん集中しすぎて、 占有率が高すぎる場合には、 「分割を検討」 という評価が出る。 また、 逆にほとんど文書が分類されなかつ た場合には、 「廃止 Z統合を検討」 という評俩がでる。 さらに、 最大の確信度 があまり高くなレ、場合、 つまり確信を持ってズバリこのカテゴリだと判断でき ない文書ばかりのときは、 「正解例が不十分、 または他のカテゴリと類似した 特徴が多い」 という評価になる。 利用者は、 これらの評価を参考にしながら、 カテゴリの分割ゃ統廃合をして、 最適なカテゴリ体系を構築していくことが可 能である。 また、 下部に表示されている特徴キーワードの一覧であるが、 特徴 キーワードとして抽出された語のうち、 カテゴリの判別基準としては相応しく ないものがあつたときは、 それを選択して 「不要語に設定」 ポタン 7 1を押す ことで特徴キーワードから除外することができる。 また、 「不要語一覧」 ボタ ン 7 2を押すと、 不要語及び抽出対象品詞の設定画面に遷移する。 Figure 7 shows an example of a screen for confirming category statistical information and feature keywords. Here, you can check the number of documents classified into the “Forwarding / Redirecting” category, the occupancy rate in the entire document, and the maximum certainty factor and characteristic keywords of the power category. In Figure 7, “Evaluation” is “No problem.” For example, if a document is too concentrated in a certain category and the occupancy is too high, It is evaluated as “consideration of division”. On the other hand, if the document is hardly classified, it will be evaluated as “Consider abolished Z integration”. In addition, if the maximum confidence is too high, that is, if you are confident enough to judge that the document is not in this category, you may say, "There are not enough correct answers or there are many features similar to other categories. It is evaluated. Users can divide and consolidate categories and build an optimal category system while referring to these evaluations. In the list of characteristic keywords displayed at the bottom, if any of the words extracted as characteristic keywords does not match the criteria for category classification, select them and select Press “Settings” button 7 1 to remove from the feature keywords. Pressing the “Unnecessary word list” button 72 switches to the unnecessary word and part-of-speech setting screen.
図 8は、 不要語及び抽出対象品詞の設定画面例を示したものである。 右フレ ームの左側に、 設定されている不要語が表示されている。 ここでは、 「システ ム」、 「メール」、 「発明」、 「装置」、 「電子メール」 が不要語として設定されてい る。 下部の 「削除」 ポタン 8 1を押すことで、 不要語リストからの削除を行う こともできる。 また、 右フレームの右側では、 特徴キーワードとして抽出する 品詞の設定を行うことができる。 ここでは、 特徴キーワードとしては、 普通名 詞、 サ変名詞、 人称名詞、 固有名詞、 地名、 人名、 未登録語、 カタカナ未知語、 英数字未知語などを特徴キーワードとして抽出することを設定している。  Fig. 8 shows an example of the setting screen for the unnecessary words and the parts of speech to be extracted. The set unnecessary words are displayed on the left side of the right frame. Here, “system”, “mail”, “invention”, “device”, and “e-mail” are set as unnecessary words. By pressing the "Delete" button 8 1 at the bottom, it is possible to delete from the unnecessary word list. On the right side of the right frame, the part of speech to be extracted as a feature keyword can be set. Here, it is set to extract common keywords, common nouns, personal nouns, proper nouns, place names, personal names, unregistered words, katakana unknown words, alphanumeric unknown words, etc. as feature keywords as characteristic keywords .
1— 2 ) クラスタリング操作画面 1 3 :  1— 2) Clustering operation screen 13:
本発明のシステムでは、 機械学習による分類において多数の文書が集中して しまったカテゴリをクラスタリング処理によつて細分化すること、 機械学習に よる分類ではどこにも分類できなかつた文書群にクラスタリング処理によって 新規カテゴリを作成すること、 を可能としている。 また、 クラスタリング処理 して得られたキーワードと関連の深い文書を機械学習のカテゴリの正解例文書 に登録することを可能としている。 そのため、 機械学習による処理とクラスタ リング処理が密接に連携している必要がある力 利用者は、 図 9に示すように、 機械学習操作画面からクラスタリング操作画面を呼び出すことで機械学習によ る処理とクラスタリング処理の双方を容易に使用することができるようになつ ている。 すなわち、 図 9に示した機械学習操作画面の 「クラスタリング」 ボタ ン 9 1を押すと、 クラスタリング操作画面が別のウィンドウとして表示される。 図 1 0に、 呼び出されたクラスタリング操作画面例を示す。 ウィンドウの上 部には、 「既存クラスタリング結果」 が表示されているが (N o . 2〜N .o . 4 )、 クラスタリング操作画面を初めて開いたときの初期状態では、 ここには 何も表示されない。 下部の 「新規クラスタリング」 入力フォームを用いてクラ スタリング処理を実施した後であれば、 「既存クラスタリング結果」 に処理 N o . と内容メモがリスト表示される。 「既存クラスタリング結果」 のうちいず れかを選択し (ここでは N o . 2〜N o . 4 )、 「クラスタ表示」' ボタン 1 0 1 を押すと、 クラスタリング結果表示画面 (図 1 1 ) へ遷移する。 In the system of the present invention, a category in which a large number of documents are concentrated in classification by machine learning is subdivided by clustering processing, and a group of documents that cannot be classified anywhere by classification by machine learning is clustered by clustering processing. It is possible to create a new category. In addition, documents that are closely related to the keywords obtained by the clustering process are converted to the correct example documents in the machine learning category. It is possible to register to. As a result, as shown in Fig. 9, the user who calls the clustering operation screen from the machine learning operation screen can execute the processing using machine learning. And the clustering process can be used easily. That is, when the “clustering” button 91 of the machine learning operation screen shown in FIG. 9 is pressed, the clustering operation screen is displayed as another window. Figure 10 shows an example of the called clustering operation screen. “Existing clustering result” is displayed at the top of the window (No. 2 to No. 4), but nothing is displayed here in the initial state when the clustering operation screen is opened for the first time. Not done. After performing the clustering process using the “New clustering” input form at the bottom, the process No. and the content memo are listed in “Existing clustering results”. Select one of “Existing clustering results” (here, No. 2 to No. 4) and press the “Cluster display” button 101 to display the clustering result display screen (Fig. 11). Transitions to
ウィンドウ下部の 「新規クラスタリング」 フォームで、 必要事項を入力ノ選 択して、 「クラスタリング開始」 ボタン 1 0 2を押すと、 指定した条件にてク ラスタリング処理が実行される。 このクラスタリング操作画面は、 機械学習操 作画面と連携しており、 「処理対象」 として、 「分類できなかった文書」 を選択 すると機械学習において分類できなかった文書を対象とすることができ、 また、 「以下で選択したカテゴリ内の文書」 を選択し、 図中のリストボックス内の機 械学習による分類において現在定義されている (かつ分類結果が入っている) カテゴリを選択すると選択したカテゴリの文書をクラスタリング対象とするこ とができる。 すなわち、 クラスタリング処理対象として、 未分類の文書群 (図 1 0では評価サブセットの文書群を選択したときに相当する)、 機械学習によ る分類では分類できなかった文書群、 機械学習により分類された特定のカテゴ リに属する文書群、 のいずれかを指定してクラスタリング処理を行うことが可 能となっている。 また、 「既に学習された特徴キーヮードを含める」 のチエツ クボックス 1 0 3をチェックするか否かにより、 機械学習によって抽出された 特徴キーワードをクラスタリング処理の特徴キーワードに含めるか否かの指定 を行うことができる。 さらに、 「不要語おょぴ抽出対象品詞の設定を有効にす る」 チヱックボックス 1 0 4をチェックするか否かにより、 機械学習における 不要語及び抽出対象品詞の設定をクラスタリング処理にも有効にするか否かの 設定をすることが可能である。 In the “New clustering” form at the bottom of the window, select the required items and press the “Start clustering” button 102 to execute the clustering process under the specified conditions. This clustering operation screen is linked with the machine learning operation screen. If "documents that could not be classified" is selected as "processing target", documents that could not be classified by machine learning can be targeted. Select “Documents in the category selected below” and select the category currently defined (and containing the classification result) in the classification by machine learning in the list box in the figure. Documents can be clustered. In other words, unclassified documents (corresponding to the case where an evaluation subset document is selected in Fig. 10) are targeted for clustering, documents that cannot be classified by machine learning, and those that are classified by machine learning. Specific category It is possible to perform clustering processing by specifying any of the documents belonging to Also, whether or not to check the check box 103 of “Include already learned feature keywords” specifies whether or not to include feature keywords extracted by machine learning as feature keywords in the clustering process. be able to. Furthermore, the setting of the unnecessary words and the parts of speech to be extracted in the machine learning is also enabled for the clustering process by checking the "Enable the setting of the parts of speech to be extracted for unnecessary words" check box 104. It is possible to set whether or not.
図 1 1に、 「クラスタリング表示」 ボタン 1 0 1を押したときに表示される クラスタリング結果表示の画面例を示す。 上部の U R Lによってクラスタリン グ処理する文書群の所在が示されており、 対象文書数は 2 3 1個、 特徴キーヮ ードが 5 0 0に設定されている。 クラスタのサイズ (1クラスタとして切り出 すキーワードの最大数) を任意に指定して、 「クラスタ表示」 ボタン 1 1 1を 押すと、 クラスタを切り分け、 ツリー状に表示する。 また、 「重要単語の頻度 指数」 入力フィールドでは、 重要単語とみなして他のキーワードとは異なる色 などで表示するキーワードを決める閾値を設定することが可能である。 図 1 1 では、 この閾値は処理対象とした文書数に対するキーワードの T F ■ I D F値 のパーセンテ ジとして指定する方式になっている。 また、 図 1 1の下部には クラスタリング結果が表示されている。 このように、 機械学習によって適当に 分類できなかつた文書群をクラスタリング処理により分類することができる。 尚、 各クラスタの 「関連文書一覧」 ボタン 1 1 2を押すと、 クラスタキーヮー ドに関連性が高い文書一覧画面 (図 1 2 ) へ遷移する。  Fig. 11 shows an example of the clustering result display screen displayed when the "clustering display" button 101 is pressed. The upper URL indicates the location of a group of documents to be subjected to the clustering process. The number of target documents is set to 2,311, and the feature key word is set to 50,000. If you specify the size of the cluster (maximum number of keywords to be cut out as one cluster) and press the “Cluster display” button 1 1 1, the cluster is cut and displayed in a tree shape. In the "keyword frequency index" input field, it is possible to set a threshold that determines keywords to be regarded as important words and displayed in a different color from other keywords. In Fig. 11, the threshold is specified as a percentage of the keyword T F ■ I D F value for the number of documents to be processed. Also, the clustering result is displayed at the bottom of FIG. In this way, a group of documents that cannot be appropriately classified by machine learning can be classified by clustering processing. When the “Related Document List” button 1 1 2 of each cluster is pressed, the screen transits to the document list screen (Fig. 12) that is highly relevant to the cluster keyword.
図 1 2に、 クラスタキーワードに関連性が高い文書一覧を示す場合の画面例 を示す。 この画面では、 クラスタリング結果表示画面で表示されていたクラス タのキ ワードについて、 各文書における出現確率を合計し、 そのスコアが高 い順に例えば 2 0文書までを、 U R Lとタイトル (または文書の先頭 1 0文字 程度のサマリ) で一覧表示する。 この画面で表示された文書群が人間の感覚に 照らしてまとまり感が無い場合もあり得るので、 その場合は、 クラスタリング 結果表示画面に戻ってクラスタのサイズを変更したり、 別のクラスタを選択し たりして、 適当な文害群を選定する。 適当なまとまりのある文書群になってい たら、 各文書の左のチヱックボックスで個別に選択するか、 または下部の 「全 選択」 ボタン 1 2 1を押して全て選択して、 「正解例へ登録」 ポタン 1 2 2を 押す。 すると、 機械学習操作画面が前面に表示されるので、 登録先のカテゴリ をクリックすると、 そのカテゴリの正解例文書として登録することができる。 以上のように、 機械学習操作画面 1 1とクラスタリング操作画面 1 3での利 用者の操作を £朋することで、 本システムがどのような機能を提供するかを明 らかにした。 すなわち、 本システムでは、 機械学習操作画面からクラスタリン グ操作画面を呼び出すことが可能で、 呼び出されたクラスタリング操作画面で は、 機械学習におけるカテゴリや分類ルール及び特徴キーワード、 分類結果な どを継承してその後のクラスタリング処理に用いることができることに特徴が ある。 また、 呼び出されたクラスタリング処理の結果を機械学習による分類処 理に反映するべく、 登録することができることも特徴である。 Figure 12 shows an example of a screen that shows a list of documents that are highly relevant to the cluster keyword. In this screen, for the keywords of the cluster displayed on the clustering result display screen, the appearance probabilities in each document are totaled, and the score is high. For example, a list of up to 20 documents is displayed by URL and title (or a summary of the first 10 characters of the document). In some cases, the documents displayed on this screen may not be organized in light of the human senses.In such a case, return to the clustering result display screen and change the size of the cluster or select another cluster. To select an appropriate harm group. If the documents are properly organized, select them individually in the check box on the left of each document, or press the “Select All” button 1 2 1 at the bottom to select all, and click the “Register to Correct Answer” button. Press 1 2 2. Then, the machine learning operation screen is displayed in the foreground. Clicking the category of the registration destination allows you to register it as a correct answer document of that category. As described above, we have clarified what functions this system provides by examining user operations on the machine learning operation screen 11 and the clustering operation screen 13. In other words, in this system, the clustering operation screen can be called from the machine learning operation screen, and the called clustering operation screen inherits the categories, classification rules, feature keywords, classification results, etc. in machine learning. It is characterized in that it can be used for subsequent clustering processing. Another feature is that the result of the called clustering process can be registered so that it can be reflected in the classification process by machine learning.
さて、 次に、 本発明のシステムの機械学習による分類処理とクラスタリング 処理の詳細について述べる。  Next, the details of the classification process and the clustering process by machine learning of the system of the present invention will be described.
2 ) 機械学習/分類処理部 1 4及ぴクラスタリング処理部 1 7の処理 の詳細:  2) Details of processing of machine learning / classification processing unit 14 and clustering processing unit 17:
2 - 1 ) 機械学習/分類処理部 1 4 :  2-1) Machine learning / classification processing section 14:
本発明のシステムにおける機械学習ノ分類処理部は、 従来技術の機械学習に よる分類と特に大きくはかわりがないものである。  The machine learning classification processing unit in the system of the present invention is not much different from the classification based on the machine learning of the prior art.
図 1 3に、 機械学習/分類処理部 1 4の学習時の処理のフローを示す。 まず、 1 ) の図 3、 図 4で説明した、 カテゴリ定義及び正解例文書の登録が済んでい る状態で、 学習は開始される。 S 1 3 1で、 各カテゴリに登録されている正解 例文書を形態素解析し、 指定されている抽出対象品詞に該当する単語のみを抜 き出す。 抽出対象品詞は、 尚、 図 8のように設定されるものである。 次に、 S 1 3 2で、 単語ごとの各文書における出現回数、 およぴ全文書における総出現 回数を集計する。 S 1 3 3で、 単語の特徴度 (あるカテゴリの正解例文書での 出現確率と、 正解例文書全体での出現確率との比) を計算する。 S 1 3 4で、 特徴度の高い順に一定数を (ただし、 不要語設定 (図 8参照) に入っているも のを除いて) 特徴キーワードとして抽出する。 そして、 S 1 3 5で、 各特徴キ 一ワードとその出現回数が、 カテゴリの決定に寄与する割合 (スコア) を計算 し、 分類ルールを作成し、 分類ルールの格納場所であるデータベース 1 5に格 納する。 なお、 このスコアの計算式は、 非特許文献 1で述べられているものを 使用している。 FIG. 13 shows a flow of a learning process performed by the machine learning / classification processing unit 14. First, Learning starts when the category definition and the correct answer example document described in Fig. 3 and Fig. 4 in 1) have been registered. In S131, the correct example document registered in each category is subjected to morphological analysis, and only words corresponding to the specified part of speech to be extracted are extracted. The part of speech to be extracted is set as shown in FIG. Next, in S132, the number of appearances in each document for each word and the total number of appearances in all documents are totaled. In S133, the feature level of the word (the ratio of the probability of occurrence of a certain category in the correct example document to the probability of occurrence in the entire correct example document) is calculated. In S134, a fixed number of features are extracted as feature keywords in descending order of the feature level (except for those included in the unnecessary word setting (see Fig. 8)). Then, in S135, the ratio (score) of each feature keyword and the number of occurrences contributing to the determination of the category is calculated, a classification rule is created, and the classification rule is stored in the database 15 where the classification rule is stored. Store. The formula for calculating this score uses the one described in Non-Patent Document 1.
上述のように学習を済ませ、 その後、 文書の分類を行う。 図 1 4に機械学習 Z分類処理部 1 4の分類時の処理のフローを示す。 まず、 S 1 4 0で、 分類対 象の文書集合 (ファイルサーバ ZW e bサーバなど) から一文書を読み込む。 S 1 4 1で、 分類対象の文書をすベて読み込んだか否かを判定する。 すべて読 み込んだ場合は (Y)、 分類対象をすベて分類したことになるので、 処理を終 了する。 すべて読み込んでいない場合は (N)、 S I 4 2に進み、 読み込んだ 一文書の文書内容を形態素解析して、 単語ごとの出現回数を集計する。 S 1 4 3で、 集計した単語から一つ取り出す。 S 1 4 4で集計した単語すベて終わつ たか否かを判定する。 すべて終わった場合 (Y)、 S 1 4 7に進む。 すべて終 わっていない場合 (N)、 S 1 4 5で分類ルールに存在する単語かどうかを判 定する。 分類ルールに存在する単語ではないとき (Ν) は、 S 1 4 3に戻る。 分類ルールに存在する単語である場合 (Y)、 S 1 4 6に進み分類ルールで定 められた特徴キーヮードのスコア値をカテゴリごとに積算し、 S 143に戻る。 S 147に進むときは、 読み込んだ一文書に対して各カテゴリのスコア値が求 められているので、 S 147で、 求めたスコァ値のうちで最大値を得たカテゴ リを取り出し、 S 148に進む。 S 148で、 取り出したスコア値が閾値以上 であるか否かを判定し、 閾値以上でない場合 (N)、 S I 49に進み 「どこに も分類されなかった」 として分類結果のデータベース 16に格納する。 閾値以 上である場合、 S 1 50に進み、 最大のスコア値を得たカテゴリへ分類する。 S 149、 S 1 50の後、 いずれも S 140に戻り、 分類対象の文書集合から 新たな文書を読み込んで、 同様に分類処理を行う。 After learning as described above, the documents are classified. FIG. 14 shows the flow of processing performed by the machine learning Z classification processing unit 14 at the time of classification. First, in S140, one document is read from a set of documents to be classified (such as a file server or a ZWeb server). At S141, it is determined whether or not all the documents to be classified have been read. If all the data has been read (Y), all the objects to be classified have been classified, and the processing ends. If all of them have not been read (N), the process proceeds to SI42, where the document content of one read document is subjected to morphological analysis, and the number of occurrences of each word is counted. In S 1 4 3, one is taken out of the totaled words. It is determined whether or not all the words counted in S144 have been completed. If all has been completed (Y), proceed to S147. If all of them have not been completed (N), it is determined whether or not the word exists in the classification rule in S145. If the word does not exist in the classification rule (Ν), the process returns to S144. If the word exists in the classification rule (Y), go to S146 and specify the word in the classification rule. The score values of the obtained feature keywords are integrated for each category, and the process returns to S143. When proceeding to S147, since the score value of each category has been obtained for one read document, in S147, the category that obtained the maximum value among the obtained score values is extracted, and S148 Proceed to. In S148, it is determined whether or not the extracted score value is equal to or greater than the threshold value. If the score value is not equal to or greater than the threshold value (N), the process proceeds to SI49 and is stored in the classification result database 16 as "Nothing was classified". If the value is equal to or larger than the threshold value, the process proceeds to S150, and is classified into the category having the highest score value. After S149 and S150, each returns to S140, reads a new document from the set of documents to be classified, and performs the same classification processing.
2-2) クラスタリング処理部 1 7 :  2-2) Clustering processing section 17:
次にクラスタリング処理部 1 7について説明する。 図 1 5にクラスタリング 処理部 17のフローを示す。 図 1 5の S 1 59以降は従来のクラスタリング処 理と同様であるが、 それ以外は本発明固有のものである。  Next, the clustering processing unit 17 will be described. FIG. 15 shows the flow of the clustering processing unit 17. The process after S159 in FIG. 15 is the same as the conventional clustering process, but the rest is unique to the present invention.
まず、 S 1 5 1で、 機械学習による分類における既存カテゴリの特徴キーヮ —ドをクラスタリング処理の特徴キーワードに含めるか否かの判定をする。 含 めない場合 (N) は、 S 1 52で機械学習/分類処理部 14から特徴キーヮー ドを取得し、 不要語リストを作成し、 S 1 53に進む。 含める場合 (Y) は、 そのまま S 153に進む。 31 53から31 57は、 クラスタリング処理する 文書対象を判定し、 分類対象を取得する処理を行う部分である。 S 153で、 クラスタリング処理する対象が機械学習による分類における特定カテゴリ内の 文書群か否かの判定を行う。 特定カテゴリ内の文書群である場合 (Y) は、 S 1 54に進み、 機械学習/分類処理部 14から特定カテゴリの所属文書一覽を 取得し、 処理対象文書リス トを作成する。 特定カテゴリ内の文書群でない場合 (N) は、 S 155に進み、 対象が機械学習による分類で分類できなかった文 書群であるか否かの判定を行う。 分類できなかった文書群である場合 (Y)、 S 1 56に進み、 機械学習 Z分類処理部 14から、 分類できなかった文書一覧 を取得し、 処理対象文書リストを作成する。 分類できなかった文書群ではない 場合 (N)、 S 1 57に進み、 分類対象の全文書一覧を取得し、 処理対象文書 リストを作成する。 S 158で、 文書の解析及び特徴キーワードの選択を行う。 詳細を図 16で説明する。 そして、 S 1 59で、 文書ごとの特徴キーヮード出 現確率を算出し、 S 160で特徴キーヮード同士の相関係数を算出し、 S 16 1で、 相関係数の高い順に組み合わせ、 クラスタを作成し、 処理を終了する。 これが本発明のシステムのクラスタリング処理の流れであるが、 S 1 51は、 図 10のチェックボックス 103をチェックしたか否かを判定するのに相当す る処理であり、 S 1 53、 S 1 55、 S 1 57は図 10の 「処理対象」 の選択 に対応するもので、 それぞれ、 機械学習における特定カテゴリに属する文書群、 機械学習による分類で分類できなかった文書群、 未分類の文書群、 であるか否 かを判定する処理であり、 従来のクラスタリング処理にこれらの処理を加えた ことに本発明の特徴があると言える。 First, in S151, it is determined whether or not the feature key of an existing category in the classification by machine learning is included in the feature keyword of the clustering process. If not included (N), the feature key is obtained from the machine learning / classification processing unit 14 in S152, an unnecessary word list is created, and the process proceeds to S153. When including (Y), the process proceeds to S153. Reference numerals 3153 to 3157 denote processing units for determining a document target to be subjected to clustering processing and acquiring a classification target. In S153, it is determined whether or not the target of the clustering process is a document group in a specific category in the classification by machine learning. If the documents belong to a specific category (Y), the process proceeds to S 154, in which a list of documents belonging to the specific category is obtained from the machine learning / classification processing unit 14, and a processing target document list is created. If it is not a document group in the specific category (N), the process proceeds to S155, and it is determined whether or not the target is a document group that could not be classified by machine learning. If the document group could not be classified (Y), Proceeding to S156, a list of documents that could not be classified is acquired from the machine learning Z classification processing unit 14, and a list of documents to be processed is created. If it is not a group of documents that could not be classified (N), the process advances to S157 to obtain a list of all documents to be classified and create a list of documents to be processed. In S158, analysis of the document and selection of characteristic keywords are performed. Details will be described with reference to FIG. Then, in S159, the probability of occurrence of the feature key word for each document is calculated, in S160, the correlation coefficient between the feature key words is calculated, and in S161, the cluster is created by combining in descending order of the correlation coefficient. The processing ends. This is the flow of the clustering process of the system of the present invention. S 151 is a process corresponding to determining whether or not the check box 103 in FIG. 10 is checked, and S 153 and S 155 S 157 corresponds to the selection of “processing target” in FIG. 10, and includes a group of documents belonging to a specific category in machine learning, a group of documents that could not be classified by machine learning, a group of unclassified documents, This is a process for determining whether or not the above-described process is performed. It can be said that the feature of the present invention is that these processes are added to the conventional clustering process.
図 16を用いて、 S 1 58の 「文書の解析及び特徴キーワードの選択」 の処 理を説明する。  With reference to FIG. 16, the processing of “analysis of document and selection of characteristic keywords” in S158 will be described.
S 162で、 処理対象文書リストの文書をすベて読み込んだか否かを判定す る。 すべての文書を読み込んでいない場合は (N)、 S 16 3に進み、 一文書 を読み込み、 文書を形態素解析し、 単語ごとの総出現数と出現文書数をカウン トする。 そして、 S 163から S 162に戻る。 S 162で、 すべての文書を 読み込んだと判定された場合は (Y)、 S 164に進む。 S 1 64で、 単語ご との TF ■ IDF値を算出し、 大きい順にソートする。 S 1 65以降ではソー トされた単語を読み込んでいくが、 S 165で、 図 10のクラスタリング処理 画面で設定した最大キーワード数に読み込んだ単語数が達したか否かを判定す る。 達した場合 (Υ) は、 処理を終了する。 達しない場合 (Ν) は、 S 166 に進み、 ソートされた順に単語を一つ読み込む。 S 1 6 7で、 形態素解析され た単語が終わったか否かを判定する。 終わってしまった場合 (Y)、 処理を終 了する。 終わっていない場合 (N)、 S 1 6 8に進み、 読み込んだ単語が不要 語リス トに存在するか否かを判定する。 不要語リス トに存在する場合 (Υ)、 S 1 6 5に戻る。 不要語リス卜に存在しない場合 (N)、 S 1 6 9に進み、 特 徴キーワードとして採用して、 S 1 6 5に戻る。 このように、 文書の解析及び 特徴キーワードの選択を行う。 In S162, it is determined whether or not all the documents in the processing target document list have been read. If not all the documents have been read (N), proceed to S163, read one document, morphologically analyze the document, and count the total number of occurrences for each word and the number of occurrences. Then, the process returns from S163 to S162. If it is determined in S162 that all documents have been read (Y), the process proceeds to S164. In S164, the TF ■ IDF value for each word is calculated and sorted in descending order. In S165 and later, sorted words are read. In S165, it is determined whether the number of read words has reached the maximum number of keywords set on the clustering processing screen in FIG. If it has reached (Υ), the process ends. If it does not reach (Ν), S 166 Go to and read one word in sorted order. In S167, it is determined whether or not the morphologically analyzed word ends. If the processing has ended (Y), the processing ends. If not completed (N), the process proceeds to S168, and it is determined whether or not the read word exists in the unnecessary word list. If it is in the unnecessary word list (Υ), return to S165. If it does not exist in the unnecessary word list (N), go to S169, adopt it as a feature keyword, and return to S165. Thus, the analysis of the document and the selection of the characteristic keyword are performed.
以上、 図 1 3から図 1 6を用いて、 本システムの機械学習 Ζ分類処理部 1 4 とクラスタリング処理部 1 7について説明した。 本発明のシステムは、 特に、 クラスタリング処理 1 7で機械学習/分類処理部 1 4の分類結果 ·分類ルール 等を利用できることに特徴があり、 そのための機能を備えることを明らかにし た。  The machine learning / classification processing unit 14 and the clustering processing unit 17 of the present system have been described above with reference to FIGS. The system of the present invention is particularly characterized in that the clustering process 17 can use the classification result, the classification rule, and the like of the machine learning / classification processing unit 14, and has clarified that the system has a function for that.
次に、 本発明のシステムによって文書を分類する場合について具体例を用い て、 利用者の操作と対応させて説明する。  Next, a case where documents are classified by the system of the present invention will be described using a specific example in correspondence with user operations.
3 ) 本システムによる文書分類の具体例:  3) Specific examples of document classification by this system:
図 1 7に、 以下の説明で分類対象として用いる文書の例を示す。  FIG. 17 shows an example of a document used as a classification target in the following description.
上述のように、 分類対象は、 特許出願公開公報データのうち 「電子メール」 をキーワードとするもので、 その 「発明の名称」 と 「要約」 を 1件 1ファイル として H TM L形式で W e bサーバに保存したものである。 , まず、 機械学習による文書分類を行うために、 機械学習をするためのカテゴ リ体系の定義を行う。 すなわち、 図 3で示した力テゴリの作成及び図 4で示し た正解例文書の登録を行う。 登録されるカテゴリ及び正解例文書は、 図 1のデ ータベース 1 2に格納されるが、 そのデータベースに格納されるデータのデー タ構造を図 1 8に示す。 カテゴリ体系の定義では、 カテゴリを少なくとも 2個 以上定義し、 各カテゴリに属するべき正解例文書を 1個以上任意の個数で設定 するが、 図 1 8の例では、 カテゴリが 0 0 1〜0 0 5までの 5つ定義され、 そ のカテゴリに対応する正解例がそれぞれの所在を識別できる符号 (ここでは U R L ) でリスト的に格納されている。 尚、 図 1 8には、 U R Lの右側にタイ ト ル (発明の名称) が示されているが、 これは人が見たときに分かりやすくする ために付加したもので、 必須のデータではない。 As described above, the classification target is “e-mail” in the patent application publication data, and the “name of the invention” and “abstract” are one file per file in HTML format. It is saved on the server. First, a category system for machine learning is defined in order to classify documents by machine learning. That is, the force category shown in FIG. 3 is created and the correct example document shown in FIG. 4 is registered. The registered categories and correct answer example documents are stored in the database 12 shown in Fig. 1. The data structure of the data stored in the database is shown in Fig. 18. In the category system definition, define at least two or more categories and set one or more correct answer documents that should belong to each category in any number However, in the example of Fig. 18, five categories are defined from 01 to 05, and the correct examples corresponding to the category are listed in the form of codes (here, URLs) that can identify their locations. Is stored in Note that the title (name of the invention) is shown on the right side of the URL in Fig. 18, but this is added to make it easier for people to see, and is not essential data. .
カテゴリの定義及び正解例文書の登録を済ませた後、 機械学習を行い (図 5 で学習開始ボタン 5 1を押すと、 機械学習/分類処理部 1 4で図 1 3に示した 機械学習の処理が始まる)、 その学習結果を図 1のデータベース 1 5に格納す る。 学習により抽出したカテゴリごとの特徴キーワードの例を図 1 9に示す。 また、 学習結果である分類ルールのデータ構成例を図 2 0に示す。  After defining the categories and registering the correct example documents, perform machine learning. (If you press the learning start button 51 in Fig. 5, the machine learning / classification processing unit 14 executes the machine learning process shown in Fig. 13. Begins), and the learning result is stored in the database 15 of FIG. Figure 19 shows examples of feature keywords for each category extracted by learning. FIG. 20 shows an example of the data configuration of the classification rules that are the learning results.
図 1 9は、 それぞれのカテゴリごとの特徴キーヮードとそれに対応するスコ ァ値を示している。 スコア値は、 キーワードがそのカテゴリの正解例文書に出 現する確率と、 正解例文書全体に出現する確率との比の対数 (log) をとつた ものであり、 特徴としての重みを表す。  Figure 19 shows the feature keywords for each category and their corresponding score values. The score value is the logarithm (log) of the ratio of the probability that the keyword appears in the correct answer document in that category to the probability of appearing in the entire correct answer document, and indicates the weight as a feature.
また、 図 2 0は、 学習結果である分類ルールのデータ構成を示すものである。 キーワードごとに、 ある文書中にそれが出現したときにどのカテゴリに所属し そうかを数値化して、 各カテゴリに対するスコアとして記憶してある。 各カテ ゴリに対するスコアの 「P」 の欄は、 左欄のキーワードが文書内に閾値の個数 以上出現したときのスコアを表す。 「N」 の欄は、 キーワードが文書内に閾値 の個数未満しか出現しなかったときのスコアを表す。 例えば、 「入力」 という キーワードが 1回以上出現した場合 (図中の 2 0 1で囲んだ部分の P欄を左か ら順に)、 カテゴリ 0 0 1に対するスコアは 0 . 8 1 5で、 同様にカテゴリ 0 0 2に対するスコアは 0 . 5 4 1、 カテゴリ 0 0 3に対するスコアは一 1 . 0 7、 カテゴリ 0 0 4に対するスコアは、 - 0 . 0 7 4、 カテゴリ 0 0 5に対す るスコアは一 1 . 0 8 2である。 また、 「入力」 というキーワードが 1回未満 しか出現しなかった場合 (図中の 201で囲んだ部分の N檷を左から順に)、 カテゴリ 001に対するスコアは一 0. 485、 カテゴリ 002に対するスコ ァは— 0. 183、 カテゴリ 003に対するスコアは 0. 1 6、 カテゴリ 00 4に対するスコアは 0. 072、 カテゴリ 005に対するスコアは 0. 1 35 である。 尚、 分類対象である文書中に 「入力」 という単語が何回出現するかに よって、 スコアは異なる。 図 20中には、 「入力」 というキーワードは、 出現 回数の閾値が 1回の場合 (201で囲んだ部分)、 と出現回数の閾値が 2回の 場合 (202で囲んだ部分) が示されているが、 例えば、 ある文書內に 「入 力」 というキーワードが 1回出現している場合、 カテゴリ 001に対するスコ ァは、 0. 81 5 〔201で囲んだ部分のカテゴリ 001の P欄〕 + (—0. 487) 〔202で囲んだ部分のカテゴリ 00 1の N欄〕 =0. 328となる 力 S、 「入力」 というキーワードが 2回出現している場合は、 カテゴリ 001に 対するスコアは、 0. 81 5 〔201で囲んだ部分のカテゴリ 001の P欄〕 + 0. 945 〔202で囲んだ部分のカテゴリ 001の P欄:) = 1. 760と なる。 ある文書を分類する際に、 文書中のすべての単語について分類ルール中 の特徴キーヮードに該当するか否かを判定し、 特徴キーヮードに該当する場合 は、 その単語の出現回数を計数し、 回数に基づいて図 20に示したスコアを力 テゴリごとに加算して、 カテゴリごとのスコア値を求める。 FIG. 20 shows the data configuration of the classification rules that are the learning results. For each keyword, when it appears in a certain document, the category to which it belongs is quantified and stored as a score for each category. The “P” column of the score for each category indicates the score when the keyword in the left column appears in the document more than the threshold number. The “N” column indicates the score when the keyword appears less than the threshold number in the document. For example, if the keyword "input" appears more than once (the P column in the box enclosed by 201 in the figure is from left to right), the score for category 01 is 0.815, and so on. The score for category 002 is 0.541, the score for category 03 is 1.07, the score for category 004 is -0.074, the score for category 005 Is one 1.082. Also, the keyword "input" is less than once (Only N 出現 in the part surrounded by 201 in the figure is from left to right), the score for category 001 is 0.484, the score for category 002 is -0.183, and the score for category 003 is The score for 0.16, category 004 is 0.072, and the score for category 005 is 0.135. Note that the score differs depending on how many times the word “input” appears in the document to be classified. In FIG. 20, the keyword “input” is shown when the threshold of the number of appearances is one (the part surrounded by 201) and when the threshold of the number of appearances is two (the part surrounded by 202). For example, if the keyword “input” appears once in a document 內, the score for category 001 is 0.815 (P section of category 001 enclosed by 201) + (—0.487) [N section of category 00 1 enclosed in 202] = 0.328 Force S. If the keyword “input” appears twice, the score for category 001 is , 0.815 [P column of category 001 enclosed by 201] + 0.945 [P column of category 001 enclosed by 202 :) = 1.760. When classifying a document, it is determined whether or not all the words in the document correspond to the feature keywords in the classification rules.If the words correspond to the feature keywords, the number of occurrences of the word is counted, and Then, the scores shown in FIG. 20 are added for each power category, and the score value for each category is obtained.
このようにして求めたスコア値の内で最大値を得たカテゴリを取り出し、 ス コア値が設定された閾値以上であるか否かを判定して、 閾値以上である場合は 該カテゴリに分類し、 閾値未満の場合はどこにも分類されなかったとして、 図 1に示す分類結果の格納場所であるデータベース 16に格納する。 図 2 1に分 類結果のデータ構造の例を示す。 分類された各文書は、 確信度、 タイトルとと もに所在を一意的に識別できる符号 (ここでは URL) によってカテゴリごと に記録される。 確信度は、 図 6で説明したように、 当該文書が当該カテゴリに 分類される確実性を数値的に示したもので、 求められたスコァ値及び閾値等か ら求めら lる。 The category that obtained the maximum value among the score values obtained in this manner is extracted, and it is determined whether or not the score value is equal to or greater than a set threshold value. If the score value is equal to or greater than the threshold value, the category is classified. If it is less than the threshold value, it is determined that no classification has been made, and it is stored in the database 16, which is the storage location of the classification results shown in FIG. Figure 21 shows an example of the data structure of the classification result. Each classified document is recorded for each category by a code (here, URL) that can uniquely identify the location together with the certainty factor and title. As shown in Figure 6, the certainty factor indicates that the document is in the category. This is a numerical indication of the certainty of classification, and can be obtained from the obtained score value and threshold value.
以上に、 本発明のシステムの機械学習における学習及び分類におけるデータ 構造の例を示した。 次に、 機械学習による処理からクラスタリング処理を呼び 出す場合に、 クラスタリング処理部に渡されるデータの例を示す。  The example of the data structure in the learning and the classification in the machine learning of the system of the present invention has been described above. Next, an example of data passed to the clustering processing unit when the clustering processing is called from the processing by machine learning is shown.
まず、 図 2 2に、 不要語リストのデータ例を示す。 これは、 図 1 0に示した 「すでに学習された特徴キーヮードを含める」 チェックボックス 1 0 3を O F Fにして、 「不要語及び抽出対象品詞の設定を有効にする」 チェックボックス 1 0 4を O Nにした場合の例を示したもので、 機械学習で得られた特徴キーヮ ードと、 学習時に指定した不要語をクラスタリング処理の対象にしない語のリ ストとなっている。 このように、 利用者の指定によって不要語のリストが機械 学習ノ分類処理部 1 4で作成され、 クラスタリング処理部 1 7に渡される。 次に、 図 2 3に、 クラスタリング処理の対象文書リストのデータ例を示す。 これは、 図 1 0に示した 「処理対象」 で利用者が 「分類できなかった文書」 や 「以下で選択したカテゴリ内の文書」 を指定した際に、 機械学習の分類の結果 から該当するカテゴリの文書リストを取り出して、 機械学習 Z分類処理部 1 4 からクラスタリング処理部 1 7に渡されるものである。 図 2 3では、 「分類で きなかった文書」 の文書リストが示されている。  First, Figure 22 shows an example of unnecessary word list data. This is done by turning off the “Include already learned feature keywords” check box 103 shown in Figure 10 and turning on the “Enable unnecessary word and part-of-speech settings to be extracted” check box 104 This is an example of a case in which the feature key word obtained by machine learning and a list of words in which unnecessary words specified during learning are not subjected to clustering processing. In this way, a list of unnecessary words is created by the machine learning classification unit 14 according to the user's specification, and is passed to the clustering unit 17. Next, FIG. 23 shows an example of data of a document list to be subjected to the clustering process. This corresponds to the result of the machine learning classification when the user specifies "document that could not be classified" or "document in the category selected below" in "processing target" shown in Fig. 10. The document list of the category is taken out and passed from the machine learning Z classification processing unit 14 to the clustering processing unit 17. In FIG. 23, a document list of “documents that could not be classified” is shown.
以上のように、 利用者の指定によつて機械学習/分類処理部 1 4からクラス タリング処理部 1 7に必要なデータが渡され、 クラスタリング処理が行われる。 クラスタリング処理の結果は、 図 1に示したクラスタリング結果を格納するデ ータベース 1 8に格納される。 クラスタリング結果は、 一般的なクラスタリン グ結果と同様のデータ構造であるので、 ここでは特に示さない。 また、 各クラ スタに対応して、 関連文書のリストがデータベースに格納され、 当該リスト内 の文書のうち利用者が図 1 2に示した画面例の最左欄の選択チェックボックス をチェックして指定したものをリスト化したものが、 利用者が図 1 2の下部の 「正解例へ登録」 ポタンを押したときに、 機械学習操作画面 1 1を介してカテ ゴリ定義及び正解例文書を登録するデータベース 1 2に渡される。 As described above, the required data is passed from the machine learning / classification processing unit 14 to the clustering processing unit 17 according to the designation of the user, and the clustering process is performed. The result of the clustering process is stored in the database 18 for storing the clustering result shown in FIG. Since the clustering result has the same data structure as general clustering results, it is not specifically shown here. In addition, a list of related documents is stored in the database corresponding to each cluster, and among the documents in the list, the user selects the check box in the leftmost column of the screen example shown in Fig. 12. When the user presses the “Register to correct answer” button at the bottom of Fig. 12, the category definition and correct answer are selected via the machine learning operation screen 11. Passed to database 12 to register the example document.
以上、 図 1 7から図 2 3等を用いて、 本発明のシステムにおけるデータ構造 及びデータの流れについて説明した。  The data structure and the data flow in the system of the present invention have been described above with reference to FIGS.
以上、 図 1に示した本発明のシステムについて、 1 ) 〜 3 ) の順に詳細に説 明し、 本発明のシステムの詳細を明らかにした。  As described above, the system of the present invention shown in FIG. 1 has been described in detail in the order of 1) to 3), and the details of the system of the present invention have been clarified.
ところで、 本発明のシステムはコンピュータ (情報処理装置) で構成される ことを述べたが、 図 1 3〜図 1 6に示した各種処理はコンピュータの C P U 2 1によって実行されるものであるが、 この各種処理をコンピュータに行わせる 制御プログラムをコンピュータで読み取り可能な記録媒体に記録させ、 その制 御プログラムを記録媒体からコンピュータに読み出させて実行させることによ つて本発明を実施することも可能である。  By the way, it has been described that the system of the present invention is configured by a computer (information processing device), but the various processes shown in FIGS. The present invention can also be implemented by causing a computer to record a control program that causes a computer to perform these various processes and reading and executing the control program from the recording medium by the computer. It is.
記録させた制御プログラムをコンピュータで読み取ることの可能な記録媒体 の例を図 2 4に示す。 同図に示すように、 記録媒体としては、 例えば、 コンビ ユータ 2 4 1に内蔵もしくは外付けの付属装置として備えられる R AM若しく は R OMまたはハードディスク装置などのメモリ 2 4 2、 あるいはフレキシブ ルディスク、 MO (光磁気ディスク)、 C D - R OM, D V D— R OMなどと いった可搬型記録媒体 2 4 3等が利用できる。  Fig. 24 shows an example of a recording medium that allows a computer to read the recorded control program. As shown in the figure, the recording medium may be, for example, a RAM 24 or a ROM provided as an internal or external accessory device in the computer 241, or a memory 2442 such as a hard disk device, or a flexible device. Portable recording media such as disks, MOs (magneto-optical disks), CD-ROMs, DVD-ROMs, etc. can be used.
また、 記録媒体は通信回線 2 4 4を介してコンピュータ 2 4 1と接続される、 プログラムサーバ 2 4 5として機能するコンピュータが備えている記憶装置 2 4 6であってもよい。 この場合には、 制御プログラムを表現するデータ信号で 搬送波を変調して得られる伝送信号を、 プログラムサーバ 2 4 5から伝送媒体 である通信回線 2 4 4を通じて伝送するようにし、 コンピュータ 2 4 1では受 信した伝送信号を復調して制御プログラムを再生することで当該制御プロダラ ムを実行できるようになる。 The recording medium may be a storage device 246 provided in a computer functioning as a program server 245 connected to the computer 241 via the communication line 244. In this case, a transmission signal obtained by modulating a carrier with a data signal representing a control program is transmitted from the program server 245 through a communication line 244 as a transmission medium. By demodulating the received transmission signal and reproducing the control program, the control System can be executed.
その他、 本発明は、 上述した実施形態に限定されることなく、 本発明の要旨 を逸脱しない範囲内で種々の改良■変更が可能である。 産業上の利用の可能性  In addition, the present invention is not limited to the above-described embodiment, and various modifications and changes can be made without departing from the gist of the present invention. Industrial potential
以上詳細に説明したように、 本発明によれば、 機械学習による分類とクラス タリング処理の連携を密接にすることで、 機械学習による分類で多数の文書が 集中してしまったカテゴリを細分化する際、 またはどこにも分類できなかった 文書から新規カテゴリを作り出す際に、 人手に頼って新規カテゴリを作成する より大幅に省力化を図ることができ、 かつ既存のカテゴリの特徴キーワードに 存在しない語を特徴とした新しいカテゴリを作成できるように、 指定をするこ とが容易となる。 また、 クラスタリング処理の結果を機械学習へ反映させるこ とが可能である、 すなわち、 似た内容の文書を集めてカテゴリの正解例文書に 登録する操作が簡単にできるため、 質の良い正解例文書を多くそろえることが 容易になり、 機械学習及び分類の精度を高めることが容易になる。  As described above in detail, according to the present invention, by closely linking the classification by machine learning and the clustering processing, the category in which many documents are concentrated by the classification by machine learning is subdivided. When creating a new category from a document that could not be classified anywhere, it is possible to save a lot of labor compared to creating a new category by relying on humans, and to identify words that do not exist in the characteristic keywords of existing categories. It is easy to specify so that a new featured category can be created. In addition, it is possible to reflect the result of the clustering process to machine learning, that is, it is easy to collect documents with similar contents and register them in the correct answer documents of the category, so that high-quality correct answer documents It becomes easy to prepare a large number of, and it is easy to improve the accuracy of machine learning and classification.

Claims

請求の範囲 The scope of the claims
1 . コンピュータの記憶装置に格納されている文書を自動分類する処理をコン ピュータで実現するためのプログラムであって、 1. A program for realizing, by a computer, a process of automatically classifying documents stored in a storage device of the computer,
前記文書群をクラスタリング処理する機能と、  A function of performing clustering processing on the document group;
前記文書を機械学習により分類する機能と、  A function of classifying the document by machine learning;
前記クラスタリング処理を行うときに、 一度機械学習して得られた分類ルー ル内にある特徴キーワードをクラスタリング処理に使うキ^ "ヮードに含めるか 含めないかを指定する機能と、  When performing the clustering process, a function for specifying whether to include or not include a feature keyword in a classification rule obtained by machine learning once in a key used for the clustering process;
をコンピュータに実現させることを特徴とする文書の自動分類プログラム。  A computer-implemented automatic classification program for documents.
2 . コンピュータの記憶装置に格納されている文書を自動分類する処理をコン ピュータで実現するためのプログラムであって、 2. A program for realizing, by a computer, a process of automatically classifying documents stored in a storage device of the computer,
前記文書群をクラスタリング処理する機能と、  A function of performing clustering processing on the document group;
前記文書を機械学習により分類する機能と、  A function of classifying the document by machine learning;
前記クラスタリング処理するときに、 その対象となる文書群を選択し指定す る機肯 と、  At the time of performing the clustering process, an opportunity to select and specify a target document group,
をコンピュータに実現させること'を特徴とする文書の自動分類プログラム。  A computer-implemented program for automatically classifying documents.
3 . 請求項 2記載のプログラムであって、 前記対象となる文書群は、 3. The program according to claim 2, wherein the target document group is:
未分類の文書群、  Unclassified documents,
前記機械学習により分類された特定のカテゴリに属する文書群、  A group of documents belonging to a specific category classified by the machine learning,
前記機械学習による分類では分類できなかつた文書群、  A group of documents that cannot be classified by the classification based on the machine learning,
の三通りであることを特徴とするプログラム。 The program is characterized by three types.
4 . コンピュータの記憶装置に格納されている文書を自動分類する処理をコン ピュータで実現するためのプログラムであって、 4. A program for performing, by a computer, a process of automatically classifying documents stored in a storage device of the computer,
前記文書群をクラスタリング処理する機能と、  A function of performing clustering processing on the document group;
前記文書を機械学習により分類する機能と、  A function of classifying the document by machine learning;
前記クラスタリング処理して得られたキーヮードに対応するグループについ て、 該グループ内のキーヮードと関連の深い文書を表示する機能と、  For a group corresponding to a keyword obtained by performing the clustering process, a function of displaying a document closely related to the keyword in the group;
前記キーヮードと関連の深い文書を前記機械学習のカテゴリの正解例文書に 登録する機能と、  A function of registering a document closely related to the keyword as a correct example document in the machine learning category;
をコンピュータに実現させることを特徴とする文書の自動分類プログラム。  A computer-implemented automatic classification program for documents.
5 . コンピュータの記憶装置に格納されている文書をコンピュータで自動分類 する方法であって、 5. A method for automatically classifying documents stored in a storage device of a computer by a computer,
前記文書群をクラスタリング処理するステップと、  Clustering the group of documents;
前記文書を機械学習により分類するステップと、  Classifying the document by machine learning;
前記クラスタリング処理を行うときに、 一度機械学習して得られた分類ルー ル内にある特徴キーヮードをクラスタリング処理に使うキーヮードに含めるか 含めないかを指定するステップと、  When performing the clustering process, a step of designating whether to include or not include a feature keyword in a classification rule obtained by machine learning once in a keyword used for the clustering process;
を備えることを特徴とする文書の自動分類方法。  A method for automatically classifying documents, comprising:
6 . コンピュータの記憶装置に格納されている文書をコンピュータで自動分類 する方法であって、 6. A method for automatically classifying documents stored in a storage device of a computer by a computer,
前記文書群をクラスタリング処理するステップと、  Clustering the group of documents;
前記文書を機械学習により分類するステップと、  Classifying the document by machine learning;
前記クラスタリング処理を行うときに、 その対象となる文書群を選択し指定 を備えることを特徴とする文書の自動分類方法。 When performing the clustering process, select and specify the target document group A method for automatically classifying documents, comprising:
7 . コンピュータの記憶装置に格納されている文書をコンピュータで自動分類 する方法であって、 7. A method for automatically classifying documents stored in a storage device of a computer by a computer,
前記文書群をクラスタリング処理する .  Clustering the documents.
前記文書を機械学習により分類する.  Classify the documents by machine learning.
前記クラスタリング処理して得られたキーワードに対応するグループについ て、 該グループ内のキーヮードと関連の深い文書を表示するステップと、 前記キーヮードと関連の深い文書を前記機械学習のカテゴリの正解例文書に 登録するステップと、  Displaying, for a group corresponding to the keyword obtained by the clustering process, a document closely related to a keyword in the group; and converting the document closely related to the keyword into a correct example document of the machine learning category. Registering,
を備えることを特徴とする文書の自動分類方法。  A method for automatically classifying documents, comprising:
8 . コンピュータの記憶装置に格納されている文書を自動分類する装置であつ て、 8. A device for automatically classifying documents stored in a storage device of a computer,
前記文書群をクラスタリング処理する手段と、  Means for clustering the document group;
前記文書を機械学習により分類する手段と、  Means for classifying the document by machine learning;
前記クラスタリング処理を行うときに、 一度機械学習して得られた分類ルー ル内にある特徴キーワードをクラスタリング処理に使うキーワードに含めるか 含めないかを指定する手段と、  Means for designating whether or not to include a feature keyword in a classification rule obtained by machine learning once in a keyword used for the clustering process when performing the clustering process;
を備えることを特徴とする文書の自動分類装置。  An automatic document classification apparatus, comprising:
9 . コンピュータの記憶装置に格納されている文書を自動分類する装置であつ て、 9. A device for automatically classifying documents stored in a storage device of a computer,
前記文書群をクラスタリング処理する手段と、  Means for clustering the document group;
前記文書を機械学習により分類する手段と、 前記クラスタリング処理するときに、 その対象となる文書群を選択し指定す る手段と、 Means for classifying the document by machine learning; Means for selecting and specifying a target document group when performing the clustering process;
を備えることを特徴とする文書の自動分類装置。  An automatic document classification apparatus, comprising:
1 0 . コンピュータの記憶装置に格納されている文書を自動分類する装置であ つて、 10. A device for automatically classifying documents stored in a storage device of a computer.
前記文書群をクラスタリング処理する手段と、  Means for clustering the document group;
前記文書を機械学習により分類する手段と、  Means for classifying the document by machine learning;
前記クラスタリング処理して得られたキーヮードに対応するグループについ て、 該グループ内のキーワードと関連の深い文書を表示する手段と、  Means for displaying, for a group corresponding to the keyword obtained by performing the clustering process, a document closely related to a keyword in the group;
前記キーヮードと関連の深い文書を前記機械学習のカテゴリの正解例文書に 登録する手段と、  Means for registering a document closely related to the keyword in a correct example document of the machine learning category;
を備えることを特徴とする文書の自動分類装置。  An automatic document classification apparatus, comprising:
1 1 . コンピュータの記憶装置に格納されている文書を自動分類する処理をコ ンピュータで実現するためのプログラムを記録したコンピュータ読み取り可能 な記録媒体であって、 1 1. A computer-readable recording medium on which a program for realizing a process of automatically classifying documents stored in a storage device of a computer is recorded.
前記文書群をクラスタリング処理する機能と、  A function of performing clustering processing on the document group;
前記文書を機械学習により分類する機能と、  A function of classifying the document by machine learning;
前記クラスタリング処理を行うときに、 一度機械学習して得られた分類ルー ル内にある特徴キーワードをクラスタリング処理に使うキーワードに含めるか 含めないかを指定する機能と、  When performing the clustering process, a function to specify whether or not to include a feature keyword in the classification rule obtained by machine learning once in a keyword used for the clustering process,
をコンピュータに実現させるためのプログラムを記録したコンピュータ読み 取り可能な記録媒体。 A computer-readable recording medium that stores a program for causing a computer to realize the above.
1 2 . コンピュータの記憶装置に格納されている文書を自動分類する処理をコ ンピュータで実現するためのプログラムを記録したコンピュータ読み取り可能 な記録媒体であって、 1 2. A computer-readable recording medium on which a program for realizing a process of automatically classifying documents stored in a storage device of a computer is recorded.
前記文書群の文書をクラスタリング処理する機能と、  A function of performing a clustering process on the documents in the document group;
前記文書を機械学習により分類する機能と、  A function of classifying the document by machine learning;
前記クラスタリング処理するときに、 その対象となる文書群を選択し指定す る機能と、'  A function for selecting and specifying a target document group when performing the clustering process;
をコンピュータに実現させるためのプログラムを記録したコンピュータ読み 取り可能な記録媒体。  A computer-readable recording medium that stores a program for causing a computer to realize the above.
1 3 . コンピュータの記憶装置に格納されている文書を自動分類する処理を コンピュータで実現するためのプログラムを記録したコンピュータ読み取り可 能な記録媒体であって、 1 3. A computer-readable recording medium on which a program for realizing a process of automatically classifying documents stored in a storage device of a computer is recorded.
前記文書群をクラスタリング処理する機能と、  A function of performing clustering processing on the document group;
前記文書を機械学習により分類する機能と、  A function of classifying the document by machine learning;
前記クラスタリング処理して得られたキーヮードに対応するグループについ て、 該グループ内のキーワードと関連の深 、文書を表示する機能と、  For a group corresponding to a keyword obtained by performing the clustering process, a function of displaying a document related to a keyword in the group and a document;
前記キーワードと関連の深い文書を前記機械学習のカテゴリの正解例文書に 登録する機能と、  A function of registering a document closely related to the keyword as a correct example document in the machine learning category;
をコンピュータに実現させるためのプログラムを記録したコンピュータ読み 取り可能な記録媒体。  A computer-readable recording medium that stores a program for causing a computer to realize the above.
PCT/JP2003/005526 2003-04-30 2003-04-30 Automatic document classification program, method and device thereof WO2004097678A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/005526 WO2004097678A1 (en) 2003-04-30 2003-04-30 Automatic document classification program, method and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/005526 WO2004097678A1 (en) 2003-04-30 2003-04-30 Automatic document classification program, method and device thereof

Publications (1)

Publication Number Publication Date
WO2004097678A1 true WO2004097678A1 (en) 2004-11-11

Family

ID=33398137

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/005526 WO2004097678A1 (en) 2003-04-30 2003-04-30 Automatic document classification program, method and device thereof

Country Status (1)

Country Link
WO (1) WO2004097678A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339304A (en) * 2020-03-16 2020-06-26 闪捷信息科技有限公司 Text data automatic classification method based on machine learning

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149670A (en) * 2000-11-08 2002-05-24 Toshiba Corp Method and device for classifying information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149670A (en) * 2000-11-08 2002-05-24 Toshiba Corp Method and device for classifying information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339304A (en) * 2020-03-16 2020-06-26 闪捷信息科技有限公司 Text data automatic classification method based on machine learning

Similar Documents

Publication Publication Date Title
US6826576B2 (en) Very-large-scale automatic categorizer for web content
CN109992645B (en) Data management system and method based on text data
US6598043B1 (en) Classification of information sources using graph structures
US7971150B2 (en) Document categorisation system
JP3942290B2 (en) How to send a document image to a client workstation
JP4335335B2 (en) How to sort document images
US6826724B1 (en) Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer
JP2005092271A (en) Question-answering method and question-answering device
US20120078934A1 (en) Method for automatically indexing documents
WO2003032199A2 (en) Classification of information sources using graph structures
JP2004021445A (en) Text data analysis system, text data analysis method and computer program
JPH09231238A (en) Display method for text retrieval result and device therefor
JP4426041B2 (en) Information retrieval method by category factor
Jyothi et al. Knowledge extraction using rule based decision tree approach
CN116304347A (en) Git command recommendation method based on crowd-sourced knowledge
JP3722672B2 (en) Designated word related person information extracting device, computer-readable recording medium recording designated word related person information extracting program, and set word related person frequency counting device
Weng et al. A study on searching for similar documents based on multiple concepts and distribution of concepts
WO2004097678A1 (en) Automatic document classification program, method and device thereof
KR101088483B1 (en) Method and apparatus for mapping the heterogeneous classification systems
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Jo et al. Data encoding
CN109977269B (en) Data self-adaptive fusion method for XML file
JP2009271772A (en) Text mining method, text mining apparatus and text mining program
JP5409321B2 (en) Information evaluation apparatus, information evaluation method, and information evaluation program
JP3210842B2 (en) Information processing device

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP