WO2006095853A1 - 学習処理方法、学習処理装置、および、プログラム - Google Patents

学習処理方法、学習処理装置、および、プログラム Download PDF

Info

Publication number
WO2006095853A1
WO2006095853A1 PCT/JP2006/304738 JP2006304738W WO2006095853A1 WO 2006095853 A1 WO2006095853 A1 WO 2006095853A1 JP 2006304738 W JP2006304738 W JP 2006304738W WO 2006095853 A1 WO2006095853 A1 WO 2006095853A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
learning
processed
learned
similarity
Prior art date
Application number
PCT/JP2006/304738
Other languages
English (en)
French (fr)
Inventor
Kouichi Doi
Tomohiro Mitsumori
Yasushi Fukuda
Hitoshi Sanei
Masaki Murata
Original Assignee
National University Corporation NARA Institute of Science and Technology
National Institute Of Information And Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University Corporation NARA Institute of Science and Technology, National Institute Of Information And Communications Technology filed Critical National University Corporation NARA Institute of Science and Technology
Publication of WO2006095853A1 publication Critical patent/WO2006095853A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Definitions

  • the present invention relates to a learning processing method, a learning processing apparatus, and a program for processing data to be processed using learning data.
  • a gene analysis system uses a database in which actions that occur between genes are expressed as gene (molecule) names as nodes and the actions as links between nodes.
  • gene names are extracted from published papers and registered as nodes in the database.
  • the number of published articles is enormous, it is too heavy for humans to look at papers and extract gene names. Therefore, it is conceivable to search for various papers using a computer, etc., and to mechanically extract gene names from the searched paper data.
  • Reference 1 “tjene / protain recognition using Support Vector Machine after dictionary matchingj, Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi and Hi rohumi Doi BioCreative Workshop: Critical Assessment for Information Extraction in Biology (BioCreative 2004), Granada, Spain, March, 2004
  • the SVM method divides the space into hyperplanes, thereby deconstructing two categories. If the two classifications are positive and negative, the interval (margin) between the positive and negative examples in the training data is large, and the classification is wrong in the open data. This is a technique that finds a hyperplane that maximizes this margin and uses that hyperplane for classification.
  • a pattern in which a desired specific expression appears in a predetermined analysis unit (token) is specified in advance, and the pattern is used as learning data to be processed data Force Machine learning devices that extract the above-mentioned specific expressions are known.
  • Such a machine learning device extracts, for example, a desired specific expression from data to be processed using all of a plurality of learning data held by the machine learning device.
  • the machine learning device described above extracts the processed data force specific expression using all the learning data held by the machine learning device regardless of the classification of the processed data. As a result, learning data having a low similarity to the classification of the processed data may be used, and there is a problem that the reliability of extracting a specific expression becomes low.
  • An object of the present invention is to provide a learning processing method, a learning processing apparatus, and a program capable of improving the reliability of processing when data to be processed is processed using a plurality of learning data. .
  • a learning processing method for performing machine learning processing on data to be processed using a plurality of learning data, including learning data and classification data indicating a classification of the learning data.
  • a first step of obtaining similarity data indicating similarity between the learned data included in the plurality of learning data and the processed data; and the similarity data of the plurality of learning data is predetermined.
  • a learning process comprising: a second step of selecting learning data that exceeds the value of the second step; and a third step of performing machine learning processing on the processed data using the learning data selected in the second step.
  • each of the plurality of pieces of learning data includes learning data and classification data indicating a classification of the learning data
  • the selection is performed in the second step.
  • a machine learning process is performed on the processed data with reference to the classification data included in the learning data.
  • characteristics of each learned data are determined in advance for each of the processing unit data constituting the learned data and the processing unit data constituting the processed data.
  • the similarity data is generated based on the distance vector data.
  • different types of the processing unit data included in the data to be processed and the data to be learned are specified, and for each of the data to be processed and the data to be learned, The number of each of the different types of processing unit data is specified, and the specified number is divided by the total number of the processing unit data constituting each of the processed data and the learned data.
  • the similarity data is generated based on the combination pattern of the index data of the different types of the processing unit data obtained for each of the processed data and the learned data.
  • a distance vector whose elements are the index data of the different types of the processing unit data obtained for each of the processed data and the learning data. Data is generated, and the similarity data is generated based on the relationship between the distance vector data of the processed data and the distance vector data of the plurality of learning data.
  • the value of the index data of the processing unit data of the type is increased.
  • a process of reducing is performed on the index data, and the similarity data is generated based on the combination pattern of the index data after the process is performed.
  • a program for machine learning processing of processed data using a plurality of learning data the learning data having classification data indicating classification of the learning data
  • a first procedure for obtaining similarity data indicating similarity between the learned data included in the plurality of learning data and the processed data, and the learning data includes: A second procedure for selecting learning data in which the similarity data exceeds a predetermined value, and a third procedure for performing machine learning processing on the processed data using the learning data selected in the second procedure Is provided.
  • a learning processing device for performing machine learning processing on data to be processed using a plurality of learning data, the data including learning data and classification data indicating the classification of the learning data.
  • Similarity data generation means for obtaining similarity data indicating similarity between the learned data included in the plurality of learning data and the processed data; and the similarity data of the plurality of learning data is predetermined.
  • Learning data selection means for selecting learning data that exceeds the value of the learning data, and machine learning means for performing machine learning processing on the processed data using the learning data selected by the learning data selection means A processing device is provided.
  • the learning processing device when processing data to be processed using a plurality of learning data, the reliability of the processing can be improved.
  • FIG. 1 is a configuration diagram of a machine learning system according to a first embodiment of the present invention.
  • FIG. 2 is a diagram for explaining the machine learning system according to the first embodiment of the present invention.
  • FIG. 3 is a configuration diagram of a machine learning device according to a second embodiment of the present invention.
  • FIG. 4 is a diagram for explaining learning data Rq and learning data SDq according to the second embodiment of the present invention.
  • FIG. 5 is a configuration diagram of the similar learning data selection unit shown in FIG. 3.
  • FIG. 6 is a diagram for explaining data to be processed and the like according to the second embodiment of the present invention.
  • FIG. 7 is a diagram for explaining similar learning data according to the second embodiment of the present invention.
  • FIG. 8 is a configuration diagram of a tag adding unit according to a second embodiment of the present invention.
  • FIG. 9 is a configuration diagram of a classification tag data (IOB) determination data generation unit according to the second embodiment of the present invention.
  • IOB classification tag data
  • FIG. 10 is a diagram for explaining IOB determination data according to the second embodiment of the present invention.
  • FIG. 11 is a diagram for explaining a tag addition unit according to a second embodiment of the present invention.
  • FIG. 12 is a diagram for explaining an IOB adding unit according to the second embodiment of the present invention.
  • FIG. 13 is a diagram for explaining an operation example of the machine learning device shown in FIG. 3.
  • FIG. 14 is a diagram for explaining a third embodiment of the present invention.
  • FIG. 1 is a configuration diagram of a machine learning system according to a first embodiment of the present invention.
  • the machine learning system 10 of this embodiment includes a similar learning data generator 2 and a machine learner 5.
  • the similar learning data generator 2 includes a similarity calculation unit 3 and a similar learning data generation unit 4.
  • the machine learning system 10 includes a correct answer example set (a set of correct answer examples), for example, data used for learning (learning data). : Training Data) A subset of the SDq that satisfies the condition that the problem you want to solve, for example, the similarity (Similarity) to the problem data TD (Test Data) For example, similar learning data (Similarity Training Data) SSDq is selected, and the selected similar learning data SSDq is used as learning data for the machine learning device 5 to improve the learning speed and learning accuracy.
  • the similar learning data SSDq that has a high degree of similarity (or a high degree of relevance) with the problem data TD is selected and selected.
  • the similar learning data SSDq is input to the machine learning device 5, and the machine learning device 5 performs machine learning using the selected similar learning data SSDq.
  • the machine learning device 5 uses the similar learning data SSDq, which has a high degree of similarity to the problem data TD, to improve learning speed and learning accuracy.
  • Machine learning refers to a technique for performing learning using a computer.
  • the problem data TD shown in FIG. 1 corresponds to the processed data of the present invention
  • the learning data SDq corresponds to the learning data of the present invention
  • the learned data Rq corresponds to the learned data of the present invention.
  • a “word” to be described later corresponds to the processing unit data of the present invention.
  • the similarity data BA (q) corresponds to the similarity data of the present invention.
  • the similarity calculation unit 3 corresponds to the similar data generation unit of the present invention
  • the similar learning data generation unit 4 corresponds to the selection unit of the present invention
  • the machine learner 5 corresponds to the learning processing unit of the present invention.
  • the processing contents (functions) of the similarity calculation unit 3, the similarity learning data generation unit 4, and the machine learning device 5 can be described as a program and executed by a computer, in which case the program is the program of the present invention.
  • the learning data SDq is the learned data Rq and the classification data PD (or the property: class) indicating the classification (or property: class) of the learned data Rq.
  • Classification tag data IOB
  • the similarity calculation unit 3 calculates the similarity between the learned data Rq and the problem data TD for each of the learned data Rq included in each of the n learning data Sq.
  • the learned data Rq and the problem data TD are, for example, POS (Point Of Sale) data, For example, text data and multimedia data.
  • Each of the learned data Rq and the problem data TD is composed of a combination of multiple processing unit data.
  • the similarity calculation unit 3 calculates similarity data indicating the similarity between the processing unit data constituting the learned data R q and the processing unit data constituting the problem data TD. And the generated similarity data is output to the similarity learning data generation unit 4.
  • a method for generating similarity data will be specifically described in, for example, the second embodiment.
  • an outline of a method for generating similarity data will be described.
  • the similarity calculation unit 3 first calculates, for each of the learned data Rq and the problem data TD, the learned data Rq and the problem data for each of the processing unit data constituting the learned data Rq and the processing unit data constituting the problem data TD.
  • the feature of the data TD is generated as distance vector data defined in a predetermined feature evaluation coordinate system (X, y, z).
  • the similarity calculation unit 3 generates similarity data based on the generated distance vector data as described below.
  • the similarity calculation unit 3 generates, for example, distance vector data indicated by three coordinate parameters (X, Y, Z) of the feature evaluation coordinate system (X, y, z),
  • the similarity data is a measure that satisfies any of the above B1, B2, B3, B4, B5 (measurement This is expressed using a distance vector function dO indicating a predetermined value.
  • the similarity calculation unit 3 calculates the distance by a similarity calculation formula in which the distance monotonously decreases as the similarity increases, and generates the similarity data indicating the distance.
  • B1 corresponds to a so-called “distance”.
  • the similarity calculation unit 3 is not limited to "word”, but for each piece of learned data Rq such as "alphabet” and "number", processing unit data constituting the learned data Rq, and a problem This is done by generating similarity data that indicates the distance to the processing unit data composing the data TD in a predetermined coordinate system.
  • the similarity calculation unit 3 can use an Euclidean distance or Euclidean square distance, a standardized Euclidean distance, a Minkowski distance, or an evaluation method based on a distance calculation based on a kernel method as a distance calculation method.
  • the similarity calculation unit 3 is a plurality of distances obtained for a processing unit data group to be a problem with respect to one learned data Rq or one problem data TD, or the distance with respect to the similarity. After conversion using a conversion formula for similarity given separately, it can be expressed as a vector indicating similarity, converted to a scalar value by a separately defined selection function, and used as similarity data.
  • the similarity calculation unit 3 performs a calculation to convert a distance vector indicating a similarity having a plurality of similarities as elements into a scalar by summing each element, sum of squares, selecting a maximum value, selecting a minimum value, and the like. Go!
  • the similarity calculator 3 adds the positive number that is not zero to the distance data generated above, and uses the reciprocal as the similarity data.
  • the similar learning data selection unit 4 is the learning data of the learned data Rq in which the similarity indicated by the similarity data generated by the similarity calculation unit 3 exceeds a predetermined threshold among the n learned data Rq. SDq (whether it should be learned data SRq) is selected, and the selected similar learning data S SDq is output to the machine learning device 5.
  • Similar learning data SSDq selected from training data SDq includes, of course, learned data Rq and classification data PD (or classification tag data (IOB)) indicating the classification (or nature) of learned data Rq. RU
  • the classification data PD indicates the classification of each piece of processing unit data constituting the learned data Rq.
  • the classification is information indicating whether or not the e-mail is spam
  • the learned data Rq and the problem data TD are document data. In some cases, it is information indicating the part of speech of “word or term”.
  • the machine learning device 5 processes the problem data TD using the similar learning data SSDq selected by the similar learning data selection unit 4.
  • the machine learner 5 adds the classification data PD included in the selected similar learning data SSDq to the processing unit data constituting the problem data TD.
  • the machine learner 5 uses the classification data PD, which is added to the processing unit data constituting the problem data TD, for example, a support “vector” machine (SVM) method, an artificial neural network method, a genetic algorithm, etc. Perform learning process.
  • SVM support “vector” machine
  • the machine learning device 5 is selected from the learning data SDq that has a high similarity to the problem data TD (including the learned data Rq and the classification data PD indicating the classification of the learning data Rq). Similar learning data Machine learning is performed on the processing unit data composing the problem data TD using the classification data included in the SSDq. Thus, since the machine learning device 5 learns using classification data of the similar learning data SSDq having a high degree of similarity to the problem data TD, the learning speed and learning accuracy are improved.
  • the learning rules used for learning in the machine learner 5 are a set of parameters that describe a hyperplane for data separation in the SVM, and a weight vector for each neuron in the artificial neural network.
  • Machine learning device 5 uses methods such as decision list, similarity-based method, simple Bayes method, maximum entropy method, decision tree, neural network, discriminant analysis, etc. in addition to the above-mentioned SMV as the machine learning method. You can also. [0022]
  • the support 'vector machine (SVM) method adopted by the machine learner 5 as an example will be described below.
  • the SVM method is disclosed in Document 3, for example.
  • the SVM method is a method of classifying data consisting of two classifications by dividing the space on the hyperplane. At this time, if the two classifications are positive examples and negative examples, learning is performed.
  • the machine learner 5 performs learning processing based on SVM that obtains an optimal separation hyperplane by maximizing the margin when separating the problem data TD into a set of correct answer examples in the superspace.
  • the vc dimension may depend on
  • Support 'Vector Machine (SVM) method divides the training data into positive and negative examples, and identifies the hyperplane with the largest margin between positive and negative examples, ie,
  • the machine learner 5 processes the hyperplane specification as a second-order optimization problem using, for example, a Lagrangian multiplier.
  • the degree of similarity between the n pieces of learning data SDq and the problem data TD is greater than or equal to a predetermined value, preferably a high degree of similarity.
  • the machine learning unit 5 performs learning processing of the problem data TD using only the selected one. For this reason, the learning data SDq with low similarity to the problem data TD is not used for learning the problem data TD, and the reliability of the processed data TR is increased.
  • the machine learning system of this embodiment in addition to improving the accuracy (reliability) of learning processing, the amount of data used for learning is reduced, the time required for learning is reduced, and machine resources are reduced. Effect.
  • text data is input as problem data TD, and a desired word is extracted from the text data using part-of-speech information, word tail spelling, and word type as classification data for each word. Set the tasks to be performed and present the target system for learning.
  • POS Point Of Sales
  • multimedia data such as music, audio, TV programs, video images, etc.
  • problem data TD For example, sales patterns can be analyzed, spam mails and news programs can be filtered, and video clips desired by the user can be extracted.
  • customer trend extraction from POS data, text data and multimedia can be applied to a system for classifying data and extracting information.
  • the processing unit data of this embodiment includes POS information including merchandise type and the number of units sold, arrival date, sales date, age, gender, family composition, etc., e-mail text, papers, patents, HP Documents such as documents, program guides, lyrics, etc., or decomposed into sentences and words, musical score data, time-series data such as music, spectrum data such as output results by gas chromatography, news programs, dramas, video images, etc.
  • POS information including merchandise type and the number of units sold, arrival date, sales date, age, gender, family composition, etc.
  • HP Documents such as documents, program guides, lyrics, etc., or decomposed into sentences and words
  • musical score data such as music
  • spectrum data such as output results by gas chromatography
  • news programs, dramas, video images etc.
  • a certain structural unit such as video information is defined and configured as a combination, overlay, composition, or sequence.
  • the data analyzed as being configured and the data obtained by checking the data by using some kind of addition procedure can be added.
  • the second embodiment of the present invention is an embodiment in which the machine learning system of the first embodiment is applied to a machine learning system that performs learning processing of papers and the like.
  • the problem data TD shown in FIG. 3 corresponds to the processed data of the present invention
  • the learning data SDq corresponds to the learning data of the present invention.
  • the learned data Rq shown in FIG. 4 corresponds to the learned data of the present invention.
  • the “word” in the second embodiment corresponds to the processing unit data of the present invention.
  • the similarity data BA (q) of the second embodiment corresponds to the similarity data of the present invention.
  • the index data TF (i, j) shown in Equation (6) corresponds to the index data of the present invention.
  • the process of step 2 shown in FIG. 13 corresponds to the process of the first process of the present invention
  • the process of step 3 corresponds to the process of the second process
  • the process of step 5 corresponds to the third process. Corresponds to process processing.
  • the similarity calculation unit 33 of the similar learning data selection unit 11 shown in FIG. 5 corresponds to the similar data generation unit of the present invention
  • the learning data selection unit 34 corresponds to the selection unit of the present invention, as shown in FIG.
  • the IOB determination unit 72 of the classification tag data (IOB) adding unit 22 corresponds to the processing means of the present invention.
  • FIG. 3 is an overall configuration diagram of the machine learning device 1 according to the second embodiment of the present invention.
  • the machine learning device 1 includes a memory 9, a similar learning data selection unit 11, a tag addition unit 13, a classification tag data (IOB) determination data generation unit 15, a tag addition unit 21, and an IOB addition unit 22.
  • Each component is configured by hardware such as an electronic circuit. Elements constituting each of the constituent elements described later are also configured using hardware such as an electronic circuit.
  • each component of the machine learning device 1 shown in FIG. 3 and some or all of the components may be realized by a computer CPU (Central Processing Unit) executing a program.
  • CPU Central Processing Unit
  • FIG. 4 is a diagram for explaining learning data SDq (SDl to SDn).
  • Each of the learning data SDq has each of the learned data Rq and classification tag data IOB of the learned data Rq.
  • the classification tag data IOB is associated with the corresponding learned data Rq in advance! /.
  • the classification tag data IOB indicates “B” for a predetermined term, for example, the first word constituting the name of the protein.
  • the classification tag data IOB is a word following the first word, and indicates T for the word constituting the predetermined term.
  • the classification tag data IOB does not constitute the above predetermined term, and indicates “O” for the term.
  • the learned data Rq and the problem data TD are, for example, English paper data including the name of a protein.
  • a space is a delimiter and a period at the end of a sentence and the word immediately preceding it are Dividing is a rule that divides the English sentence into words.
  • the machine learning device 1 can use n pieces of learning data SDq.
  • FIG. 5 is a block diagram of the similar learning data selection unit 11 shown in FIG.
  • the similar learning data selection unit 11 includes a first input unit 31, a second input unit 32, a similarity calculation unit 33, a learning data selection unit 34, and an output unit 35.
  • the first input unit 31 inputs, for example, n pieces of learning data SDq shown in FIG. 4 from a memory (not shown) included in the machine learning device 1 or from the outside of the machine learning device 1.
  • the second input unit 32 inputs the external force of the machine learning device 1
  • the problem data TD shown in Fig. 6 is input
  • the similarity calculation unit 33 calculates the learning data Rq and the problem data TD. Calculate similarity.
  • a method for calculating the similarity will be described.
  • k is the number of types of words included in n pieces of learned data Rq corresponding to n pieces of learning data SDq and problem data TD.
  • i is an integer between l and k, and “is an identifier attached to 11 pieces of learned data Rq and 1 piece of problem data TD.
  • the similarity calculation unit 33 calculates the index data TF (i, j) by the following equation (5).
  • TF (i, j) (number of times the i-th processing unit data appears in the j-th learned data Rj (problem data TD)) / (j-th learned data Rj (problem data TD) Total number of words included
  • the similarity calculation unit 33 specifies the number of sentences DF (i) by the following equation (6).
  • DF (i) (Number of occurrences of the i-th word among n pieces of learned data Rq and problem data TD) ⁇ ' ⁇ (6)
  • the similarity calculation unit 33 calculates the coefficients w (i, j) between all the words i for each of the learned data Rq and the problem data TD using the following equations (7) and (8). To do.
  • IDF (i) log [(N + 1) / DF (i)]--(7)
  • the data frequency exponent (logarithm) IDF (i) decreases exponentially as the number of the problem data TD and the learned data Rq containing the word i increases.
  • IDF (i) The index data TF (i, j) by such IDF (i) and calculating the coefficient w (i, j), “a”, “the”, rthisj, “that”, etc. appear frequently. Therefore, it is possible to eliminate the influence of words that are not specific expressions to be extracted and are unrelated to the classification of the data on the similarity.
  • the similarity calculator 33 calculates the following equation for each of the learned data Rq and the problem data TD.
  • the similarity calculation unit 33 calculates similarity data BA (q) shown in the following equation (11) for all the learned data Rq.
  • the similarity calculation unit 33 outputs the similarity data BA (q) to the learning data selection unit 34.
  • the learning data selection unit 34 has the similarity data BA (q) input from the similarity calculation unit 33 exceeding the predetermined reference value. Are selected and output to the output unit 35 as similar learning data SSDq.
  • the learning data selection unit 34 selects a predetermined number of n learning data SDq input from the first input unit 31 from the ones with high similarity indicated by the similarity data BA (q), and outputs the selected number to the output unit 35. It may be output. In the example shown in FIG. 5, the learning data selection unit 34 outputs the learning data SD1, 3, 10 to the output unit 35 as the similar learning data SSDq.
  • the output unit 35 outputs the similar learning data SSDq input from the learning data selection unit 34 to the tag addition unit 13 shown in FIG.
  • the tag adding unit 13 includes part-of-speech data and suffix (suffix) for each word constituting the learned data Rq included in the similar learning data SSDq input from the similar learning data selection unit 11.
  • New similar learning data SSDAq is generated by adding the data.
  • FIG. 8 is a configuration diagram of the tag addition unit 13 shown in FIG.
  • the tag addition unit 13 includes an input unit 41, a part of speech tag part 42, a suffix tagger unit 43, and an output unit 44.
  • the input unit 41 receives the similar learning data SSDq from the similar learning data selection unit 11 shown in FIG. Input this and output it to part of speech tag part 42.
  • Part-of-speech tag part 42 adds part-of-speech data indicating the part-of-speech to each word in similar learning data SSDq shown in FIG. 7 input from input unit 41, and outputs this to Suffix tag part 43
  • Suffix Tag Part 43 adds new suffix data to each word in the similar learning data with part-of-speech data input from part-of-speech tag part 42 and adds new similar learning data SSDAq.
  • the generated similar learning data SSDAq is output to the output unit 44.
  • the suffix tag part 43 adds three types of suffixes.
  • the output unit 44 outputs the similar learning data SSDAq input from the suffix tag part 43 to the classification tag data (IOB) determination data generation unit 15 shown in FIG.
  • the classification tag data (IOB) determination data generation unit 15 uses the new similarity learning data SSDAq shown in FIG. 7 input from the tag addition unit 13 and uses the IOB determination data (feature data) used for the analysis in the IOB addition unit 22. An SP is generated and output to the IOB adding unit 22.
  • FIG. 9 is a configuration diagram of the IOB determination data generation unit 15 shown in FIG.
  • the IOB determination data generation unit 15 includes an input unit 51, an SVM learning unit 52, and an output unit 53.
  • the input unit 51 receives new similar learning data SSDAq from the tag addition unit 13 and outputs it to the SVM learning unit 52.
  • the SVM learning unit 52 determines whether the classification tag data IOB force I, O, or B of each word is based on the new similar learning data SS DAq shown in FIG. For example, using the part-of-speech data and suffix data of two words before and after each word, the IOB decision data SP shown in Fig. 10 is generated by the support vector machine (SVM) method.
  • SVM support vector machine
  • a predetermined term for example, “B” is shown for the first word constituting the name of the protein, and the word following the first word is "I" is indicated for the word constituting the predetermined term, and "O" is indicated for V and the word not constituting the predetermined term.
  • the SVM learning unit 52 uses, for example, a polynomial kernel as a kernel function, uses bear wise as a multi-value classification extension method, and sets the analysis direction to the beginning of the sentence.
  • a polynomial kernel as a kernel function
  • uses bear wise as a multi-value classification extension method and sets the analysis direction to the beginning of the sentence.
  • the SVM learning unit 52 outputs the IOB determination data SP to the output unit 53.
  • the output unit 53 outputs the IOB determination data SP input from the SVM learning unit 52 to the IOB adding unit 22.
  • the IOB determination data generation unit 15 is a learning method other than the SVM method, for example, a decision list method, a method based on similarity, a simple Bayes method, a maximum entry pea method, a decision tree method, a neural network method, a discriminant analysis A method or the like may be used.
  • the tag addition unit 21 shown in FIG. 3 adds part-of-speech data and suffix data to each word constituting the question data TD input from the outside of the machine learning device 1. Generate new problem data TDa.
  • FIG. 11 is a configuration diagram of the tag adding unit 21 shown in FIG.
  • the tag addition unit 21 includes, for example, an input unit 61, a part of speech tag part 62, a suffix tag part 63, and an output unit 64.
  • the input unit 61 inputs problem data TD from the outside of the machine learning device 1 shown in FIG. 3 and outputs it to the part of speech tag part 62.
  • the part-of-speech tag 62 adds part-of-speech data indicating the part of speech to each word in the problem data TD shown in FIG. 6 input from the input unit 61, and outputs this to the suffix tag part 63.
  • Suffix Tag Part 63 adds new suffix data TDa to each word of the processed data to which part of speech data input from Part of Speech Tag Part 62 is added. Is output to the output unit 64.
  • the output unit 64 outputs the problem data TDa input from the suffix tag part 63 to the IOB addition unit 22 shown in FIG.
  • FIG. 12 is a configuration diagram of the classification tag data (IOB) adding unit 22 shown in FIG.
  • the IOB adding unit 22 includes an input unit 71, an IOB determination unit 72, and an output unit 73.
  • the input unit 71 outputs the IOB determination data SP input from the IOB determination data generation unit 15 to the IOB determination unit 62.
  • the IOB determination unit 72 Based on the IOB determination data SP input from the input unit 61, the IOB determination unit 72 adds classification tag data IOB to each word of the new problem data TDa shown in FIG. The processed data TR shown in Fig. 6 is generated.
  • processed data TR is a solution of the problem to be solved.
  • the IOB determination unit 72 outputs the test result data TDa to the output unit 63.
  • the output unit 73 outputs the processed data TR input from the IOB determination unit 72 to the outside of the machine learning device 1.
  • FIG. 13 is a flowchart for explaining the operation example.
  • step 1
  • the tag addition unit 21 shown in FIG. 3 adds the part-of-speech data and suffix data to each word constituting the question data TD input from the outside of the machine learning device 1.
  • New problem data TDa is generated and output to the classification tag data (IOB) adding unit 22.
  • IOB classification tag data
  • the similarity calculation unit 33 of the similar learning data selection unit 11 shown in FIG. 5 performs the learning data for each of the learning data Rq in the n pieces of learning data SDq shown in FIG.
  • the similarity between Rq and the problem data TD is calculated to generate similarity data BA (q), which is output to the learning data selection unit 34.
  • the learning data selection unit 34 shown in FIG. 5 selects only n pieces of input learning data SDq that have similarity data BA (q) input from the similarity calculation unit 33 exceeding a predetermined reference value.
  • the selected similar learning data SSDq is output to the tag addition unit 13 shown in FIG. [0064] Step 4:
  • the tag addition unit 13 shown in FIG. 3 has a part of speech for each word constituting the learning data Rq included in the selected similar learning data SSDq input from the similar learning data selection unit 11.
  • the new similar learning data S SDAq is generated by appending the data and the suffix data, and is output to the classification tag data (IOB) determination data generation unit 15.
  • the IOB determination data generation unit 15 shown in FIG. 3 uses the selected similar learning data SSDAq shown in FIG. 7 input from the tag addition unit 13 and uses the IOB determination data (feature data) used for the analysis in the IOB addition unit 22. ) Generate SP and output it to IOB addition unit 22.
  • the IOB addition unit 22 shown in FIG. 3 adds classification tag data IOB to each word of the new problem data TDa shown in FIG. 6 inputted from the tag addition unit 21 based on the IOB determination data SP inputted in step 5.
  • the processed data TR shown in Fig. 6 is generated.
  • the machine learning device 1 extracts a specific expression (gene name) in the problem data TD based on the classification tag data IOB attached to the processed data TR.
  • the machine learning device 1 only the n learning data SDq stored in the memory 9 that have high similarity with the problem data TD are selected, The selected similar learning data SSDAq is used to add the classification tag data IOB to the new problem data TDa in the IOB addition unit 22.
  • the learning data SDq having a low similarity with the problem data TD is not used, and the reliability of the processed data TR is increased. That is, it is possible to extract a desired specific expression (eg, gene name) with high reliability (with high learning accuracy) from the processed data TR.
  • a desired specific expression eg, gene name
  • the machine learning 1 of the second embodiment in addition to improving processing reliability (learning accuracy), the amount of data used for learning is reduced, the time required for learning is reduced, and machine resources are reduced. Effect.
  • the machine learning system of the first embodiment is connected to content on the Internet. This is an embodiment applied to a machine learning system for controlling access to
  • FIG. 14 is a diagram for explaining the machine learning system 101 according to the third embodiment of this invention.
  • the learning data generation unit 112 downloads a plurality of Web page data W1 stored in a sano (not shown) on the Internet 111.
  • the learning data generation unit 112 generates learning data (teacher data) SDq by adding tag data TG indicating the classification (classification) of the content to the downloaded web page data W1 according to a predetermined rule. Is output to the similar learning data selection unit 115.
  • tag data TG for example, information such as presence / absence of viewing restriction, prohibition of under age limit, existence of violent expression, etc. is indicated.
  • the similarity learning data selection unit 115 determines the similarity based on the similarity between the Web page data W2 that is the processing data downloaded via the Internet 111 and the Web page data W1 of the learning data SDq.
  • the learning data SDq that satisfies the predetermined criteria is selected as the similar learning data SSDq and output to the machine learning device 116.
  • the similarity relationship is determined based on similarity data generated using the method described in the first embodiment.
  • the machine learning device 116 performs the learning process of the Web page data W2 using the selected similar learning data SSDq input from the similar learning data selection unit 115, and has processed the processed Web page to which the tag data TG is attached.
  • Data W3 is output to cache memory 118 and / or filter 125.
  • the machine learner 116 for example, the support vector machine (SVM) method described in the first embodiment is used.
  • SVM support vector machine
  • the cache memory 118 stores processed Web page data W3.
  • the cache search unit 123 When the cache search unit 123 inputs a browse request issued by the user using a user interface 121 or the like operating on the computer, the cache search unit 123 reads the processed web page data W3 corresponding to the browse request from the cache memory 118. Output to filter 125. The cache search unit 123 stores the processed web page data W3 corresponding to the above browsing request. If it is stored in the cache memory 118, a download request for requesting Web page data corresponding to the processed Web page data W3 is output to the content loader 131.
  • the content loader 131 transmits the download request to the server via the Internet 111.
  • the Web page data W1 related to the browsing request is downloaded to the learning data generation unit 112.
  • the filter 125 is incorporated as a function in a computer used by a predetermined server or user, and verifies the tag data TG of the input processed Web page data W3 according to a pre-stored filter rule, The processed Web page data W3 that satisfies the conditions is output to the user interface 121 after removing the tag data TG.
  • the cache search unit 123 is not particularly essential.
  • the similar learning data selection unit 115 has a classification similar to that of the Web page data W2 of the processed data! Only the learning data SDq is output to the similar learning data selection unit 115 as the similar learning data SSDq.
  • the similar learning data selection unit 115 can attach the highly reliable tag data TG to the Web page data W2, and the filter processing in the filter 125 can be performed appropriately.
  • the machine learning system 101 of the third embodiment in addition to improving the processing reliability, it is possible to reduce the amount of data used for learning, to shorten the time required for learning, and to reduce machine resources. .
  • the paper (reference) data in the gene field is exemplified as the processed data and learned data Rq of the present invention, but other data may be used! /.
  • the present invention can also be applied to machine learning processes such as protein expression extraction, proper expression extraction (person name, place name, etc.), modality expression translation, case analysis, case conversion, and ambiguity resolution.
  • the present invention can be applied to a data processing system that adds classification data for extracting a predetermined term to processing unit data constituting processing target data using learning data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 複数の学習データを用いてコンピュータによる機械学習を行う場合に、学習速度の向上と、機械学習の精度を高めることができる学習処理方法と装置を提供する。類似学習データ生成部4において、n個の学習データSDqのうち、被処理データとの間の類似度が高い類似学習データSSDqを選択する。機械学習器5は類似学習データSSDqを用いて機械学習を行う。

Description

学習処理方法、学習処理装置、および、プログラム
技術分野
[0001] 本発明は、学習データを用いて被処理データを処理する、学習処理方法、学習処 理装置およびプログラムに関する。
背景技術
[0002] たとえば、遺伝子解析システムは、遺伝子間に生じる作用を、遺伝子 (分子)名をノ ードとし、作用をノード間のリンクとして表現したデータベースを用いる。
このようなデータベースを構築するには、たとえば、公開された論文のなかから、遺 伝子名を抽出してノードとしてデータベースに登録する。し力しながら、公開された論 文数は膨大であるため、人間が論文を見て遺伝子名を抽出するのでは負担があまり に大きい。 そのため、コンピュータなどを用いて種々の論文を検索し、検索した論文 データから機械的に遺伝子名を抽出することが考えられる。しカゝしながら、コンビユー タに登録して 、な 、新規の遺伝子名を機械的に抽出するのは困難である。
同様の問題は、たとえば、人名、地名、組織名などの固有表現を文字データ力ゝら抽 出する場合にも生じる。
このような問題を解決する技術力、たとえば、下記の文献 1〜3に提案されている。 文献 1:「tjene/protain recognition using Support Vector Machine after dictionary matchingj , Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi and Hi rohumi Doi BioCreative Workshop: Critical Assessment for Information Extraction i n Biology (BioCreative 2004), Granada, Spain, March, 2004
文献 2 :中野、平井、日本語固有表現抽出における文節情報の利用、情報処理学 会論文誌、 Vol. 45 No. 3、 p934— 941、 Mar. 2004
文献 3 :平、春野、 Support Vector Machineによるテキスト分類における分類選択、 情報処理学会論文誌、 Vol. 45 No. 4、 pl l l3— 1123、 Apr. 2004
サポート'ベクトル'マシーン(SVM : Support Vector Machine)法の基本事項につ いて述べる。 SVM法は、空間を超平面で分割することにより、 2つの分類からなるデ ータを分類する手法であり、このとき、 2つの分類が正例と負例力 なるとすると、学習 データにおける正例と負例の間隔(マージン)が大き、、ものほどオープンデータで誤 つた分類をする可能性が低いと考えられ、このマージンを最大にする超平面を求め、 その超平面を用 、て分類を行う手法である。
SVM法などのように、予め被学習データ(トレーニングデータ)について、所定の解 析単位(トークン)で所望の固有表現が出現するパターンを特定し、そのパターンを 学習データとして用いて、被処理データ力 上記固有表現を抽出する機械学習装置 が知られている。
そのような機械学習装置は、たとえば、当該機械学習装置が保持する複数の学習 データの全てを用いて、被処理データから所望の固有表現を抽出して 、る。
発明の開示
発明が解決しょうとする課題
[0003] 上述した機械学習装置は、被処理データの分類とは無関係に、当該機械学習装 置が保持する全ての学習データを用いて当該被処理データ力 固有表現を抽出し ている。その結果、被処理データの分類と類似度が低い学習データが用いられること があり、固有表現を抽出する信頼性が低くなるという不具合がある。
同様の不具合は、上述した遺伝子解析システム以外の機械学習装置にもある。
[0004] 本発明は、複数の学習データを用いて被処理データに処理を施す場合に、その処 理の信頼性を向上できる学習処理方法、学習処理装置およびプログラムを提供する ことを目的とする。
課題を解決するための手段
[0005] 本発明によれば、被学習データと該被学習データの分類を示す分類データとを有 する、複数の学習データを用いて被処理データを機械学習処理する学習処理方法 であって、前記複数の学習データに含まれる前記被学習データと、前記被処理デー タとの類似度を示す類似度データを求める第 1の工程と、前記複数の学習データのう ち前記類似度データが所定の値を越えている、学習データを選択する第 2の工程と 、前記第 2の工程において選択した前記学習データを用いて前記被処理データを機 械学習処理する第 3の工程とを有する学習処理方法が提供される。 [0006] 好ましくは、前記複数の学習データはそれぞれ、被学習データと該被学習データ の分類を示す分類データとを含み、前記第 3の工程において、前記第 2の工程にお いて選択した前記学習データに含まれる分類データを参照して前記被処理データを 機械学習処理する。
[0007] また好ましくは、前記第 1の工程において、前記被学習データを構成する処理単位 データおよび前記被処理データを構成する処理単位データごとに各被学習データ の特徴を、予め決められ特徴評価座標系内で規定した距離ベクトルデータとして表 し、当該距離ベクトルデータを基に、前記類似度データを生成する。
また好ましくは、前記第 1の工程において、前記被処理データおよび前記被学習デ ータに含まれる異なる種類の前記処理単位データを特定し、前記被処理データおよ び被学習データの各々について、前記異なる種類の前記処理単位データの各々が 含まれる数を特定し、当該特定した数を、前記被処理データおよび被学習データの 各々を構成する前記処理単位データの総数で除算して指標データを生成し、前記 被処理データおよび前記被学習データの各々につ!、て得られた前記異なる種類の 前記処理単位データの前記指標データの組み合わせパターンを基に前記類似度デ ータを生成する。
さらに好ましくは、前記第 1の工程において、前記被処理データおよび前記学習デ ータの各々につ 、て得られた前記異なる種類の前記処理単位データの前記指標デ ータを要素とする距離ベクトルデータを生成し、前記被処理データの前記距離べタト ルデータと、前記複数の被学習データの前記距離ベクトルデータとの関係を基に前 記類似度データを生成する。
好ましくは、前記第 1の工程において、前記特定した種類の前記処理単位データを 含む前記被処理データおよび被学習データの数が多くなるに従って当該種類の前 記処理単位データの前記指標データの値を小さくする処理を前記指標データに対し て行 、、当該処理が施された後の前記指標データの前記組み合わせパターンを基 に前記類似度データを生成する。
[0008] 本発明によればまた、被学習データと該被学習データの分類を示す分類データと を有する、複数の学習データを用いて被処理データを機械学習処理するプログラム であって、前記複数の学習データに含まれる前記被学習データと、前記被処理デー タとの類似度を示す類似度データを求める第 1の手順と、前記複数の学習データのう ち、前記類似度データが所定の値を越えている、学習データを選択する第 2の手順 と、前記第 2の手順において選択した前記学習データを用いて前記被処理データを 機械学習処理する第 3の手順とを有するプログラムが提供される。
[0009] また本発明によれば、被学習データと該被学習データの分類を示す分類データと を有する、複数の学習データを用いて被処理データを機械学習処理する学習処理 装置であって、前記複数の学習データに含まれる前記被学習データと、前記被処理 データとの類似度を示す類似度データを求める類似度データ生成手段と、前記複数 の学習データのうち、前記類似度データが所定の値を越えている、学習データを選 択する学習データ選択手段と、前記学習データ選択手段において選択した前記学 習データを用いて前記被処理データを機械学習処理する機械学習手段とを有する 学習処理装置が提供される。
発明の効果
[0010] 本発明の学習処理装置、学習処理方法およびそのプログラムによれば、複数の学 習データを用いて被処理データに処理を施す場合にその処理の信頼性を高めること ができる。
図面の簡単な説明
[0011] [図 1]図 1は、本発明の第 1実施形態の機械学習システムの構成図である。
[図 2]図 2は、本発明の第 1の実施形態の機械学習システムを説明するための図であ る。
[図 3]図 3は、本発明の第 2実施形態に係わる機械学習装置の構成図である。
[図 4]図 4は、本発明の第 2実施形態の被学習データ Rqおよび学習データ SDqを説 明するための図である。
[図 5]図 5は、図 3に示す類似学習データ選択部の構成図である。
[図 6]図 6は、本発明の第 2実施形態の被処理データ等を説明するための図である。
[図 7]図 7は、本発明の第 2実施形態の類似学習データを説明するための図である。
[図 8]図 8は、本発明の第 2実施形態のタグ付加部の構成図である。 [図 9]図 9は、本発明の第 2実施形態の分類タグデータ (IOB)判定データ生成部の 構成図である。
[図 10]図 10は、本発明の第 2実施形態の IOB判定データを説明するための図である
[図 11]図 11は、本発明の第 2実施形態のタグ付加部を説明するための図である。
[図 12]図 12は、本発明の第 2実施形態の IOB付加部を説明するための図である。
[図 13]図 13は、図 3に示す機械学習装置の動作例を説明するための図である。
[図 14]図 14は本発明の第 3実施形態を説明するための図である。
符号の説明
[0012] 1…機械学習装置、 2…類似学習データ生成機、 3…類似度計算部、 4…類似学習 データ生成部、 11· ··類似学習データ選択部、 13· ··タグ付加部、 15· ··ΙΟΒ判定デー タ生成部、 21…タグ付加部、 22· ··ΙΟΒ付加部、 31…入力部、 32…入力部、 33· ··加 算回路、 34…学習データ選択部、 35· ··出力部、 41· ··入力部、 42· ··品詞タガ一部、 43"'Suffixタガ一部、 44· ··出力部、 51· ··入力部、 52 .SVM学習部、 53· ··出力 部、 61· ··入力部、 62· ··品詞タガ一部、 63· "Suffixタガ一部、 64· ··出力部、 71· ··入 力部、 72—IOB判定部、 73· ··出力部
発明を実施するための最良の形態
[0013] 以下、本発明の学習処理方法、学習処理装置およびプログラムの実施形態に係わ る機械学習システムについて説明する。
[0014] i mm
図 1は本発明の第 1実施形態の機械学習システムの構成図である。
本実施形態の機械学習システム 10は、類似学習データ生成機 2と、機械学習器 5 とを有する。
類似学習データ生成機 2は、類似度計算部 3と、類似学習データ生成部 4を有する 機械学習システム 10は、正答例集合 (正しい回答の例の集合)、たとえば、学習に 用いるデータ(学習データ: Training Data) SDqの中から、解きたい問題、たとえば、 問題データ TD (Test Data)との類似度 (Similarity )が所定の条件を満たす部分集合 、たとえば、類似学習データ (Similarity Training Data) SSDqを選択し、選択した類 似学習データ SSDqを機械学習器 5に対する学習データとすることによって、学習速 度と学習精度の向上を図る。
このように、第 1実施の形態においては、たとえば、学習データ SDqの中から、たと えば、問題データ TDとの類似度が高い (あるいは、関連性が高い)類似学習データ SSDqを選択し、選択した類似学習データ SSDqを機械学習器 5に入力し、機械学 習器 5は選択された類似学習データ SSDqを用いて機械学習をする。機械学習器 5 は、問題データ TDとの類似度が高い類似学習データ SSDqを用いて学習することに より、学習速度と学習精度の向上が向上する。
機械学習とは、コンピュータを用いて学習を行う技術をいう。
[0015] 請求項に記載の本発明の理解を促進のため、参考までに、本実施形態の構成要 素と、本発明の構成要素との対応関係を説明する。
たとえば、図 1に示す問題データ TDが本発明の被処理データに対応し、学習デー タ SDqが本発明の学習データに対応する。被学習データ Rqが本発明の被学習デー タに対応する。後述する「語」が本発明の処理単位データに対応する。類似度データ BA(q)が本発明の類似度データに対応する。類似度計算部 3が本発明の類似デー タ生成手段に対応し、類似学習データ生成部 4が本発明の選択手段に対応し、機械 学習器 5が本発明の学習処理手段に対応する。
類似度計算部 3、類似学習データ生成部 4および機械学習器 5の処理内容 (機能) をプログラムとして記述し、コンピュータで実行することが可能であり、その場合に当 該プログラムが本発明のプログラムに対応する。
[0016] m^i
学習データ SDqは、たとえば、図 1および図 4を参照して後述するように、被学習デ ータ Rqと、被学習データ Rqの分類 (または、性質: class)を示す分類データ PD (また は分類タグデータ (IOB) )とを含んで 、る。
類似度計算部 3は、 n個の学習データ Sqのそれぞれに含まれる被学習データ Rqの 各々について、当該被学習データ Rqと問題データ TDとの類似度を計算する。 被学習データ Rqおよび問題データ TDは、たとえば、 POS(Point Of Sale)データ、 テキストデータおよびマルチメディアデータなどである。被学習データ Rqおよび問題 データ TDはそれぞれ、複数の処理単位データを組み合わせて構成されて ヽる。 類似度計算部 3は、複数の被学習データ Rqの各々について、当該被学習データ R qを構成する処理単位データと、問題データ TDを構成する処理単位データとの類似 度を示す類似度データを生成し、生成した類似度データを類似学習データ生成部 4 に出力する。
類似度データの生成方法については、たとえば、第 2実施の形態において具体的 に述べるが、以下、類似度データの生成方法の概要を述べる。
類似度計算部 3は、まず、被学習データ Rqおよび問題データ TDの各々について 、被学習データ Rqを構成する処理単位データと問題データ TDを構成する処理単位 データごとに、被学習データ Rqおよび問題データ TDの特徴を、予め決められ特徴 評価座標系(X, y, z)内で規定した距離ベクトルデータとして生成する。次いで、類 似度計算部 3は、下記に述べるように、上記生成した距離ベクトルデータに基づいて 類似度データを生成する。
類似度計算部 3は、例えば、特徴評価座標系(X, y, z)の 3つの座標パラメータ (X , Y, Z)で示される距離ベクトルデータを生成し、
Al : d(x,y)≥0
A2 : d(x,y)=d(y,x)
A3 : d(x,y)=0となる必要十分条件は x=yである
A3' : d(x,x)=0
A4: d(x,z)≤ d(x,y) + d(y,z)
とし、
Bl: A1,A2,A3,A4
B2: A1,A2,A3' ,A4
B3: A1,A2,A3
B4: A1,A2,A3'
B5: A1,A2
とした場合に、類似度データを、上記 B1,B2,B3,B4,B5のいずれかを満たす測度 (測 定した値)を示す距離ベクトル関数 dOを用いて表現する。
もしくは、類似度計算部 3は類似度が増加することに対して、距離が単調に減少す る類似度計算式によって距離を計算し、当該距離を示す前記類似度データを生成 する。
ここで、 B1が、いわゆる「距離」に相当する。例えば、 3次元空間であればユークリツ ド距離であり、距離は、「d(x,y)=[(xl- yl)2+(x2- y2)2+(x3- y3)2]1/2」となる。
[0018] 類似度計算部 3は、「語」だけに限らず、「アルファベット」、「数」などの被学習デー タ Rqの各々について、当該被学習データ Rqを構成する処理単位データと、問題デ ータ TDを構成する処理単位データとの距離を所定の座標系で示す類似度データを 生成することちでさる。
この場合、類似度計算部 3は、距離計算方法として、ユークリッド距離またはユーク リツド平方距離、標準化ユークリッド距離、ミンコフスキー距離、もしくはカーネル法に よる距離計算による評価手法を用いることができる。
[0019] 類似度計算部 3は、一つの被学習データ Rqあるいは一つの問題データ TDに対し て問題とする処理単位データ群に対して求まる複数の距離、ないしは類似度に対し て、距離に関しては別途与えられた類似度への変換式を用いて変換を行った後、類 似度を示すベクトルとして表現し、別途定義する選択関数によってスカラー値に変換 し、これを類似度データとしてもよい。
類似度計算部 3は、複数の類似度を要素として持つ類似度を示す距離ベクトルに 対して、各要素の和、二乗和、最大値の選択、最小値の選択等によってスカラーに 変換する計算を行ってもょ ヽ。
類似度計算部 3は、上記生成した距離データにゼロでない正数を加え、逆数を取 つたものを類似度データとしてもょ 、。
[0020] 街似学習データ選択部
類似学習データ選択部 4は、 n個の被学習データ Rqのうち、類似度計算部 3で生 成した類似度データが示す類似度が所定のしきい値を越える被学習データ Rqの学 習データ SDq (被学習データ SRqとすべきか)を選択し、選択した類似学習データ S SDqとして機械学習器 5に出力する。 学習データ SDqから選択された類似学習データ SSDqは、もちろん、被学習デー タ Rqと、被学習データ Rqの分類 (または性質)を示す分類データ PD (または分類タ グデータ (IOB) )とを含んで 、る。
分類データ PDは、被学習データ Rqを構成する処理単位データの各々について、 その分類を示している。当該分類は、たとえば、被学習データ Rqおよび問題データ TDが、電子メールである場合には、迷惑メールであるカゝ否かを示す情報であり、被 学習データ Rqおよび問題データ TDが文書データである場合には、「言葉または用 語」の品詞を示す情報である。
機械学習器
機械学習器 5は、類似学習データ選択部 4で選択された類似学習データ SSDqを 用いて、問題データ TDの処理を行う。
具体的には、機械学習器 5は、選択された類似学習データ SSDqに含まれる分類 データ PDを、問題データ TDを構成する処理単位データに付加する。
機械学習器 5は、問題データ TDを構成する処理単位データに付加され分類デー タ PDを用いて、たとえば、サポート'ベクトル'マシーン(SVM)法、 Artificial Neural Network法、遺伝的アルゴリズムなど、「教師有り学習」処理を行う。
すなわち、機械学習器 5は、学習データ SDqの中から、問題データ TDとの類似度 が高!ヽ選択された (被学習データ Rqと、被学習データ Rqの分類を示す分類データ P Dとを含んで ヽる)類似学習データ SSDqに含まれて ヽる分類データを用いて問題デ ータ TDを構成する処理単位データについて機械学習をする。このように、機械学習 器 5は、問題データ TDとの類似度が高い類似学習データ SSDqの分類データを用 いて学習するので、学習速度と学習精度の向上が向上する。
機械学習器 5における学習に用いる学習ルールは、 SVMにお 、てはデータ分離 を行う超平面を記述するパラメータ群となり、 Artificial Neural Networkにおいては各 ニューロンに対する重みベクトルになる。
機械学習器 5は、機械学習法として、上記 SMVなどの他に、決定リスト、類似度に 基づく方法、シンプルベイズ法、最大エントロピ一法、決定木、ニューラルネット、判 別分析等の手法を用いることもできる。 [0022] 以下、機械学習器 5がー例として採用するサポート 'ベクトル ·マシーン (SVM)法に ついて説明する。 SVM法は、例えば、文献 3等に開示されている。 SVM法は、上述 したように、空間を超平面で分割することにより、 2つの分類からなるデータを分類す る手法であり、このとき、 2つの分類が正例と負例力 なるとすると、学習データにおけ る正例と負例の間隔 (マージン)が大き 、ものほどオープンデータで誤った分類をす る可能性が低いと考えられ、このマージンを最大にする超平面を求め、その超平面を 用いて分類を行うという手法に基づき、最小の汎化誤差を保証する仮説を見つける 構造的リスク最小化に基づく手法である。
機械学習器 5は、問題データ TDを超空間上で正回答例集合へと分離する際、マ 一ジンを最大にすることによって最適な分離超平面を得る SVMに基づく学習処理を 行う。
SVMは、例えば、入力ベクトル(問題データ TD)を Xとした場合に、下記式(2)の関 数が仮説 hを示すとする。
[0023] [数 2] hix) = sign{w■ x + b}
+ 1, if w x + b > 0 , 、
― 1, else
[0024] 式(2)にお!/、て、 w、 bは、パラメータである。入力ベクトル Xの次元 nと VC次元 λの 関係につ ヽては以下の補助定理が知られて 、る。
[0025] 補助定理:
仮説 h (X)として超平面 h (X) = sign { w · x + b }を仮定する。
1個の訓練データ (本実施形態では、類似学習データ SSDq) x=x (iは 1〜ほでの 整数)全てを含む半径 Rの球が存在し、各 Xに対して下記式 (3)が成り立つならば、 II w||を係数 wのノルムとした場合、 VC次元えについて下記式 (4)が成り立つ。
[0026] [数 3]
W X: + b ≥ 1 (3) [0027] [数 4]
Figure imgf000013_0001
[0028] 式 (4)から、 vc次元は、 ||w||に依存する場合がある。
サポート 'ベクトル ·マシーン(SVM)法は、上記訓練データを正例と負例とにわけ、 正負例間のマージンが最大、すなわち、 ||w||が最小になる超平面を特定する。
機械学習器 5は、上記超平面の特定を、例えば、ラグランジ 乗数を用いて 2次最 適化問題として処理する。
[0029] 以上説明したように、本実施形態の機械学習システムによれば、 n個の学習データ SDqのうち問題データ TDとの間の類似度が所定以上、好ましくは、類似度の高いも ののみを選択して用いて、機械学習器 5において問題データ TDの学習処理を行う。 そのため、問題データ TDの学習に、問題データ TDとの間の類似度が低い学習デ ータ SDqは用いられなくなり、処理済データ TRの信頼性が高まる。
その結果、処理済データ TRの信頼性を高めることができる。
[0030] 本実施形態の機械学習システムによれば、学習処理の精度 (信頼性)向上の他に 、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソース の低減と 、う効果が得られる。
[0031] 本実施形態において、問題データ TDとしてテキストデータを入力し、個々の単語 に対して、品詞情報、単語尾部スペル、語の種類を分類データとして、テキストデー タ内から所望の単語を抽出する課題を設定して、学習の対象となるシステムの提示を 行う。
入力や課題設定はこれに限られたものではなぐいろいろな応用ができることは明 白である。たとえば、図 4に示すように、問題データ TDとして、 POS (Point Of Sales) データや、音楽、音声、テレビ番組、ビデオ映像などのマルチメディアデータ等を指 定することができ、また、課題設定として、売り上げパターンの解析や、迷惑メールや ニュース番組等のフィルタリングや、ユーザが所望する映像クリップを抽出することな どができる。
本実施形態は、 POSデータからの顧客動向抽出や、テキストデータやマルチメディ ァデータの分類、及び情報抽出を行うシステムに適用可能である。
また、本実施形態の処理単位データは、商品種とその売り上げ個数、入荷日、売上 日、年齢、性別、家族構成等の購買顧客情報などを含む POS情報や、メール文章、 論文、特許、 HP文書、番組表、歌詞等の文書、ないしは文章や単語へ分解したもの 、楽譜データ、音楽等の時系列データ、ガスクロマトグラフィーによる出力結果や等の スペクトルデータ、ニュース番組やドラマ、ビデオ画像などの映像情報など、ある構成 単位を定義し、これの組み合わせや重ね合わせ、合成、シーケンスとして構成する。 または、構成されているものとして解析を行ったデータ、および、データを何らかの付 加手続きを用いてカ卩ェしたデータを付加して用いることもできる。
Figure imgf000014_0001
本発明の第 2実施形態は、第 1実施形態の機械学習システムを、論文等の学習処 理を行う機械学習システムに適用した実施形態である。
[0033] 本発明の理解の促進のため、参考までに、第 2実施の形態の構成要素と、本発明 の構成要素との対応関係を説明する。
たとえば、図 3に示す問題データ TDが本発明の被処理データに対応し、学習デー タ SDqが本発明の学習データに対応する。
とえば、図 4に示す被学習データ Rqが本発明の被学習データに対応する。
2実施の形態の「語」が、本発明の処理単位データに対応する。
2実施形態の類似度データ BA(q)が本発明の類似度データに対応する。 式 (6)に示す、指標データ TF (i, j)が本発明の指標データに対応する。 とえば、図 13に示すステップ 2の処理が本発明の第 1の工程の処理に対応し、ステ ップ 3の処理が第 2の工程の処理に対応し、ステップ 5の処理が第 3の工程の処理に 対応する。
たとえば、図 5に示す類似学習データ選択部 11の類似度計算部 33が本発明の類 似データ生成手段に対応し、学習データ選択部 34が本発明の選択手段に対応し、 図 12に示す分類タグデータ (IOB)付加部 22の IOB判定部 72が本発明の処理手段 に対応している。
[0034] 図 3は、本発明の第 2施形態に係わる機械学習装置 1の全体構成図である。 機械学習装置 1は、メモリ 9、類似学習データ選択部 11、タグ付加部 13、分類タグ データ(IOB)判定データ生成部 15、タグ付加部 21、並びに IOB付加部 22を有する 機械学習装置 1の各構成要素は、たとえば、電子回路などのハードウェアにより構 成される。後述する当該各構成要素を構成する要素も、それぞれ電子回路などのハ 一ドウエアを用いて構成される。もちろん、図 3に示す機械学習装置 1の各構成要素 、並びにその要素の一部あるいは全部をコンピュータの CPU(Central Processing Un it)がプログラムを実行することで実現してもよ 、。
[0035] 図 3に示すメモリ 9に記憶され、類似学習データ選択部 11に入力される学習データ SDq (SDl〜SDn)を説明する。
図 4は学習データ SDq (SDl〜SDn)を説明する図である。
学習データ SDqのそれぞれは、被学習データ Rqのそれぞれと、その被学習データ Rqの分類タグデータ IOBとを有する。分類タグデータ IOBは対応する被学習データ Rqにつ!/、て予め対応づけられて!/、る。
分類タグデータ IOBは、所定の用語、たとえば、蛋白質の名称を構成する先頭の 語に対して" B"を示している。分類タグデータ IOBは、先頭の語に続く語であって、 上記所定の用語を構成する語に対して Tを示している。分類タグデータ IOBは、上 記所定の用語を構成しな 、語に対して" O"を示して 、る。
第 2実施形態において、被学習データ Rqおよび問題データ TDは、たとえば、蛋白 質の名称を含むような英語の論文データであり、たとえば、スペースを区切り文字とし 、文末のピリオドとその直前の語は分割することを当該英文を語に分割するルールと する。
第 2実施形態では、機械学習装置 1は n個の学習データ SDqが利用可能である。
[0036] 図 3に示す各構成要素を説明する。
街似学習データ選択き β
図 5は図 3に示す類似学習データ選択部 11の構成図である。
類似学習データ選択部 11は、第 1入力部 31、第 2入力部 32、類似度計算部 33、 学習データ選択部 34、並びに出力部 35を有する。 第 1入力部 31は、たとえば、機械学習装置 1が備えるメモリ(図示せず)あるいは機 械学習装置 1の外部から、図 4に示す n個の学習データ SDqを入力する。
第 2入力部 32は機械学習装置 1の外部力 図 6に示す問題データ TDを入力する
[0037] 類似度計算部 33は、第 1入力部 31が入力した図 4に示す n個の学習データ SDq 内の被学習データ Rqの各々について、当該被学習データ Rqと、問題データ TDとの 類似度を計算する。以下、類似度の計算方法について説明する。
ここで、 n個の学習データ SDqにそれぞれ対応した n個の被学習データ Rqと、問題 データ TDとに含まれる語の種類の数を kとする。 "i"は l〜kの整数、 "は11個の被学 習データ Rqと 1個の問題データ TDとに付した識別子とする。
[0038] 類似度計算部 33は、下記式 (5)により指標データ TF (i, j)を計算する。
[0039] TF (i, j) = (i番目の処理単位データが j番目の被学習データ Rj (問題データ TD) に出現する回数) / (j番目の被学習データ Rj (問題データ TD)に含まれる語の総数
) … )
[0040] 類似度計算部 33は、下記式 (6)により文章の数 DF (i)を特定する。
[0041] DF (i) = (n個の被学習データ Rqと問題データ TDとのうち、 i番目の語が出現するも のの数) ·'·(6)
[0042] 類似度計算部 33は、被学習データ Rqと問題データ TDとの各々について、全ての 語 iとの間の係数 w(i, j)を下記式 (7) , (8)により計算する。
[0043] IDF (i) = log [ (N + 1 ) /DF (i) ] - -- (7)
[0044] w (i, j) =TF (i, j) * IDF (i) · · · (8)
[0045] 上記データ頻度の指数 (対数) IDF (i)は、問題データ TDおよび被学習データ Rq のうち、語 iを含むものの数が多くなるに従って指数関数的にその値を小さくする。 このような IDF (i)を指標データ TF (i, j)に乗じて係数 w(i, j)を演算することで、「a 」, 「the」, rthisj , 「that」などの頻繁に出現する抽出すべき固有表現ではない、当 該データの分類とは無関係の語が類似度に与える影響を殆どなくすことができる。
[0046] 類似度計算部 33は、被学習データ Rqと問題データ TDとの各々について、下記式
(9) , (10)によりベクトル D (q) , D (M)を規定する。 [0047] D (q) = (w(l, q) , w(2, q) , . . . , w(k, q) ) "- (9)
[0048] DM= (w(l, M) , w(2, M) , . . . , w(k, M) ) "- (10)
[0049] 類似度計算部 33は、全ての被学習データ Rqについて、下記式(11)に示す類似 度データ BA (q)を計算する。
[0050] [数 11]
BA(q)= cos(DM, Dlq))
t=twjt,M)- w(t,q)
t^l , Li t=1 ,
[0051] 類似度計算部 33は類似度データ BA(q)を学習データ選択部 34に出力する。
[0052] 学習データ選択部 34は、第 1入力部 31が入力した n個の学習データ SDqのうち、 類似度計算部 33から入力した類似度データ BA (q)が所定の基準値を越えるものの みを選択して類似学習データ SSDqとして出力部 35に出力する。
学習データ選択部 34は、第 1入力部 31から入力した n個の学習データ SDqのうち 、類似度データ BA(q)が示す類似度が高いものから所定数分だけ選択して出力部 35に出力してもよい。図 5に示す例では、学習データ選択部 34は、学習データ SD1 , 3, 10を類似学習データ SSDqとして出力部 35に出力する。
[0053] 出力部 35は、学習データ選択部 34から入力した類似学習データ SSDqを、図 3に 示すタグ付加部 13に出力する。
[0054] タグ付加部
タグ付加部 13は、図 7に示すように、類似学習データ選択部 11から入力した類似 学習データ SSDqに含まれる被学習データ Rqを構成する各語について、その品詞 データと、 suffix (接尾辞)データとを付カ卩して新たな類似学習データ SSDAqを生成 する。
[0055] 図 8は、図 3に示したタグ付加部 13の構成図である。
タグ付加部 13は、入力部 41、品詞タガ一部 42、 Suffixタガー(Tagger)部 43、並 びに出力部 44を有する。
入力部 41は、図 3に示す類似学習データ選択部 11から類似学習データ SSDqを 入力し、これを品詞タガ一部 42に出力する。
品詞タガ一部 42は、入力部 41から入力した図 7に示す類似学習データ SSDq内の 各語に、その品詞を示す品詞データを付加し、これを Suffixタガ一部 43に出力する
Suffixタガ一部 43は、図 7に示すように、品詞タガ一部 42から入力した品詞データ が付加された類似学習データの各語に、 suffixデータをさらに付加して新たな類似 学習データ SSDAqを生成し、生成した新たな類似学習データ SSDAqを出力部 44 に出力する。
第 2実施形態では、 Suffixタガ一部 43は、 3種の suffixを付加する。
出力部 44は、 Suffixタガ一部 43から入力した類似学習データ SSDAqを図 3に示 す分類タグデータ (IOB)判定データ生成部 15に出力する。
[0056] IOB判定データ牛.成部
分類タグデータ (IOB)判定データ生成部 15は、タグ付加部 13から入力した図 7に 示す新たな類似学習データ SSDAqを用いて、 IOB付加部 22における解析に用い る IOB判定データ(素性データ) SPを生成し、これを IOB付加部 22に出力する。
[0057] 図 9は図 3に示す IOB判定データ生成部 15の構成図である。
IOB判定データ生成部 15は、入力部 51、 SVM学習部 52および出力部 53を有す る。
入力部 51は、タグ付加部 13から新たな類似学習データ SSDAqを入力し、これを S VM学習部 52に出力する。
SVM学習部 52は、入力部 51から入力した図 7に示す新たな類似学習データ SS DAqを基に、各語の分類タグデータ IOB力 I, O, Bの何れであるかを判断するため に、たとえば、各語の前後 2語ずつの品詞データおよび suffixデータを用いて、ただ し、サポート ·ベクトル ·マシーン(SVM)方式で図 10に示す IOB判定データ SPを生 成する。なお、分類タグデータ (IOB)について、上述したように、所定の用語、たとえ ば、蛋白質の名称を構成する先頭の語に対して" B"を示し、先頭の語に続く語であ つて、上記所定の用語を構成する語に対して" I "を示し、上記所定の用語を構成しな V、語に対して" O"を示して 、る。 SVM学習部 52は、当該 SVM方式による学習処理において、たとえば、カーネル 関数として多項式カーネルを用い、多値分類拡張手法としてベアワイズを用い、解析 方向を文の先頭力も後ろとする。 SVM学習部 52による学習処理としては、たとえば、 第 1実施形態で説明した SVMが用いられる。 SVM学習部 52は、 IOB判定データ S Pを出力部 53に出力する。
出力部 53は、 SVM学習部 52から入力した IOB判定データ SPを IOB付加部 22に 出力する。
[0058] IOB判定データ生成部 15は、 SVM方式以外の学習方式、たとえば、決定リスト方 式、類似度に基づく方式、シンプルベイズ方式、最大エントリピー方式、決定木方式 、ニューラルネット方式、判別分析方式等を用いてもよい。
[0059] タグ付カロき β
図 3に示すタグ付加部 21は、図 6に示すように、機械学習装置 1の外部から入力し た問題データ TDを構成する各語について、その品詞データと、 suffixデータとを付 加して新たな問題データ TDaを生成する。
[0060] 図 11は図 3にタグ付加部 21の構成図である。
タグ付加部 21は、たとえば、入力部 61、品詞タガ一部 62、 Suffixタガ一部 63、並 びに出力部 64を有する。
入力部 61は、図 3に示す機械学習装置 1の外部から問題データ TDを入力し、これ を品詞タガ一部 62に出力する。
品詞タガ一部 62は、入力部 61から入力した図 6に示す問題データ TD内の各語に 、その品詞を示す品詞データを付加し、これを Suffixタガ一部 63に出力する。
Suffixタガ一部 63は、図 6に示すように、品詞タガ一部 62から入力した品詞データ が付加された被処理データの各語に、その suffixデータをさらに付加して新たな問 題データ TDaを生成し、これを出力部 64に出力する。
出力部 64は、 Suffixタガ一部 63から入力した問題データ TDaを図 3に示す IOB 付加部 22に出力する。
[0061] IOB付加部
図 12は図 3に示す分類タグデータ (IOB)付加部 22の構成図である。 IOB付加部 22は、入力部 71、 IOB判定部 72および出力部 73を有する。
入力部 71は、 IOB判定データ生成部 15から入力した IOB判定データ SPを IOB判 定部 62に出力する。
IOB判定部 72は、入力部 61から入力した IOB判定データ SPを基に、タグ付加部 2 1力も入力した図 6に示す新たな問題データ TDaの各語に、分類タグデータ IOBを 付加して図 6に示す処理済データ TRを生成する。
問題データ TDを解くべき問題とすると、処理済データ TRが解くべき問題の解とな る。
IOB判定部 72はテスト結果データ TDaを出力部 63に出力する。
出力部 73は IOB判定部 72から入力した処理済データ TRを機械学習装置 1の外 部に出力する。
[0062] 以下、図 3に示す機械学習装置 1の動作例を説明する。
図 13は当該動作例を説明するためのフローチャートである。
ステップ 1 :
図 3に示すタグ付加部 21は、図 6に示すように、機械学習装置 1の外部から入力し た問題データ TDを構成する各語について、その品詞データと、 suffixデータとを付 カロして新たな問題データ TDaを生成し、これを分類タグデータ (IOB)付加部 22に出 力する。
[0063] ステップ 2 :
図 5に示す類似学習データ選択部 11の類似度計算部 33は、入力部 31が入力した 図 4に示す n個の学習データ SDq内の被学習データ Rqの各々にって、当該被学習 データ Rqと、問題データ TDとの類似度を計算して類似度データ BA (q)を生成し、こ れを学習データ選択部 34に出力する。
ステップ 3:
図 5に示す学習データ選択部 34は、入力した n個の学習データ SDqのうち、類似 度計算部 33から入力した類似度データ BA (q)が所定の基準値を超えるもののみを 選択して選択された類似学習データ SSDqとして図 3に示すタグ付加部 13に出力す る。 [0064] ステップ 4 :
図 3に示すタグ付加部 13は、図 7に示すように、類似学習データ選択部 11から入 力した選択された類似学習データ SSDqに含まれる被学習データ Rqを構成する各 語について、その品詞データと、 suffixデータとを付カ卩して新たな類似学習データ S SDAqを生成し、これを分類タグデータ (IOB)判定データ生成部 15に出力する。
ステップ 5:
図 3に示す IOB判定データ生成部 15は、タグ付加部 13から入力した図 7に示す選 択された類似学習データ SSDAqを用いて、 IOB付加部 22における解析に用いる I OB判定データ(素性データ) SPを生成し、これを IOB付加部 22に出力する。
ステップ 6:
図 3に示す IOB付加部 22は、ステップ 5で入力した IOB判定データ SPに基づいて タグ付加部 21から入力した図 6に示す新たな問題データ TDaの各語に、分類タグデ ータ IOBを付カ卩して図 6に示す処理済データ TRを生成する。
機械学習装置 1は、処理済データ TRに付された分類タグデータ IOBに基づいて問 題データ TD内の固有表現 (遺伝子名 )を抽出する。
[0065] 以上説明したように、機械学習装置 1によれば、メモリ 9に記憶された n個の学習デ ータ SDqのうち問題データ TDとの間の類似度が高いもののみを選択し、選択された 選択された類似学習データ SSDAqを用いて、 IOB付加部 22における新たな問題 データ TDaへの分類タグデータ IOBの付カ卩を行う。
その結果、新たな問題データ TDaへの分類タグデータ IOBの付カ卩において、問題 データ TDとの間の類似度が低い学習データ SDqは用いられなくなり、処理済データ TRの信頼性が高まる。すなわち、処理済データ TRから、所望の固有表現 (たとえば 、遺伝子名 )を高 、信頼性 (高 、学習精度で)で抽出することが可能になる。
また、第 2実施形態の機械学習 1によれば、処理の信頼性 (学習精度)向上の他に 、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソース の低減と 、う効果が得られる。
[0066] 3実 餱
第 3実施形態は、第 1実施形態の機械学習システムを、インターネット上のコンテン ッへのアクセス制御を行う機械学習システムに適用した実施形態である。
図 14は、本発明の第 3実施形態の機械学習システム 101を説明するための図であ る。
機械学習システム 101では、インターネット 111上のサーノ (図示せず)が記憶する 複数の Webページデータ W1を学習データ生成部 112がダウンロードする。
学習データ生成部 112は、予め決められたルールに従って、上記ダウンロードした Webページデータ W1に、コンテンツの分類(分類)を示すタグデータ TGを付加して 学習データ(教師データ) SDqを生成し、これを類似学習データ選択部 115に出力 する。
タグデータ TGとしては、たとえば、視聴制限の有無、制限年齢以下の禁止、暴力 的表現有りなどの情報を示して 、る。
[0067] 類似学習データ選択部 115は、インターネット 111を介してダウンロードされた被処 理データである Webページデータ W2と、学習データ SDqの Webページデータ W1 との類似関係を基に、類似度が所定の基準を満たした学習データ SDqを類似学習 データ SSDqとして選択して機械学習器 116に出力する。
類似関係は、第 1実施形態において説明した手法等を用いて生成した類似度デー タに基づいて判断する。
[0068] 機械学習器 116は、類似学習データ選択部 115から入力した選択された類似学習 データ SSDqを用いて Webページデータ W2の学習処理を行 、、タグデータ TGが 付された処理済 Webページデータ W3をキャッシュメモリ 118、および/または、フィ ルタ 125に出力する。
機械学習器 116による学習処理としては、たとえば、第 1実施形態で説明したサボ ート ·ベクトル ·マシーン(SVM)法が用いられる。
[0069] キャッシュメモリ 118は、処理済 Webページデータ W3を記憶する。
キャッシュ探索部 123は、コンピュータ上で動作するユーザ 'インタフェース 121な どを用いてユーザが出した閲覧要求を入力すると、その閲覧要求に応じた処理済 W ebページデータ W3をキャッシュメモリ 118から読み出してフィルタ 125に出力する。 キャッシュ探索部 123は、上記閲覧要求に応じた処理済 Webページデータ W3が キャッシュメモリ 118に記憶されて ヽな 、場合に、コンテンツローダ 131に対してその 処理済 Webページデータ W3に対応した Webページデータを要求するダウンロード 要求を出力する。
コンテンツローダ 131は、インターネット 111を介して、上記ダウンロード要求をサー バに送信する。
これにより、上記閲覧要求に係わる Webページデータ W1が学習データ生成部 11 2にダウンロードされる。
[0070] フィルタ 125は、所定のサーバあるいはユーザが使用するコンピュータ内に機能と して組み込まれ、予め保持したフィルタルールに従って、入力した処理済 Webぺー ジデータ W3のタグデータ TGを検証し、所定の条件を満たす処理済 Webページデ ータ W3を、そのタグデータ TGを除去してユーザ'インタフェース 121に出力する。 図 14の例において、キャッシュ探索部 123は、特に必須ではない。
[0071] 以上説明したように、第 3実施の形態の機械学習システム 101によれば、類似学習 データ選択部 115にお!/、て、被処理データの Webページデータ W2と分類が類似し た学習データ SDqのみを類似学習データ SSDqとして類似学習データ選択部 115 に出力する。
その結果、類似学習データ選択部 115において、 Webページデータ W2に高い信 頼性のタグデータ TGを付けることができ、フィルタ 125におけるフィルタ処理を適切 に行うことができる。
また、第 3実施形態の機械学習システム 101によれば、処理の信頼性向上の他に、 学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソースの 低減という効果が得られる。
[0072] 本発明は上述した第 1〜第 3実施形態には限定されない。
上述した実施形態では、本発明の被処理データおよび被学習データ Rqとして、遺 伝子分野の論文 (文献)データを例示したが、それ以外のデータであってもよ!/、。 たとえば、本発明は、蛋白質表現の抽出、固有表現抽出 (人名,地名など)、モダリ ティ表現の翻訳、格解析,格変換、並びに多義性解消等の機械学習処理にも適用 可能である。 産業上の利用可能性
本発明は、学習データを用いて、所定の用語を抽出すための分類データを被処理 データを構成する処理単位データに付加するデータ処理システムに適用可能である

Claims

請求の範囲
[1] 被学習データと該被学習データの分類を示す分類データとを有する、複数の学習 データを用いて被処理データを機械学習処理する学習処理方法であって、 前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類 似度を示す類似度データを求める第 1の工程と、
前記複数の学習データのうち前記類似度データが所定の値を越えている、学習デ ータを選択する第 2の工程と、
前記第 2の工程において選択した前記学習データを用いて前記被処理データを機 械学習処理する第 3の工程と
を有する学習処理方法。
[2] 前記複数の学習データはそれぞれ、被学習データと該被学習データの分類を示す 分類データとを含み、
前記第 3の工程において、前記第 2の工程において選択した前記学習データに含 まれる分類データを参照して前記被処理データを機械学習処理する、
請求項 1に記載の学習処理方法。
[3] 前記第 1の工程において、前記被学習データを構成する処理単位データおよび前 記被処理データを構成する処理単位データごとに各被学習データの特徴を、予め決 められ特徴評価座標系内で規定した距離ベクトルデータとして表し、当該距離べタト ルデータを基に、前記類似度データを生成する
請求項 1または 2に記載の学習処理方法。
[4] 前記被学習データは文書データであり、前記被処理データは文書データであり、 前記処理単位データが語データである場合に、
前記第 1の工程において、前記被学習データおよび前記被処理データに出現する 前記語データの種類を前記距離ベクトルデータの要素とし、当該種類の語データの 出現頻度を前記要素の値とする前記距離ベクトルデータを生成する
請求項 3に記載の学習処理方法。
[5] 前記第 1の工程において、
前記被処理データおよび前記被学習データに含まれる異なる種類の前記処理単 位データを特定し、
前記被処理データおよび被学習データの各々について、前記異なる種類の前記 処理単位データの各々が含まれる数を特定し、当該特定した数を、前記被処理デー タおよび被学習データの各々を構成する前記処理単位データの総数で除算して指 標データを生成し、
前記被処理データおよび前記被学習データの各々につ 、て得られた前記異なる 種類の前記処理単位データの前記指標データの組み合わせパターンを基に前記類 似度データを生成する
請求項 1に記載の学習処理方法。
[6] 前記第 1の工程において、
前記被処理データおよび前記学習データの各々につ!、て得られた前記異なる種 類の前記処理単位データの前記指標データを要素とする距離ベクトルデータを生成 し、
前記被処理データの前記距離ベクトルデータと、前記複数の被学習データの前記 距離ベクトルデータとの関係を基に前記類似度データを生成する
請求項 5に記載の学習処理方法。
[7] 前記第 1の工程において、
前記特定した種類の前記処理単位データを含む前記被処理データおよび被学習 データの数が多くなるに従って当該種類の前記処理単位データの前記指標データ の値を小さくする処理を前記指標データに対して行い、
当該処理が施された後の前記指標データの前記組み合わせパターンを基に前記 類似度データを生成する
請求項 6に記載の学習処理方法。
[8] 前記学習データの数を nとし、
前記被処理データの数を 1とし、
n個の前記学習データにそれぞれ対応した n個の前記被学習データと、前記被処 理データとに含まれる前記処理単位データの種類の数を kとし、
iを l〜kの整数、 jを N個の被学習データと 1個の被処理データとに付した識別子とし、
前記指標データ TF(i, j)を下記とし、
TF(i, j) = (i番目の処理単位データが j番目の被学習データ jに出現する回数) / (j番目の被学習データに含まれる処理単位データの総数)
前記被学習データと前記被処理データの数 DF (i)を下記とした場合に、
DF(i) = (n個の前記被学習データと前記被処理データとのうち、 i番目の処理単 位データが出現するものの数)
前記第 1の工程において、前記被学習データと前記被処理データの頻度の指標( または対数) IDF(i)
IDF (i) = log [ (N + 1 ) /DF (i) ]
を計算し、
下記係数 w(i, j)を計算し、
w(i, j)=TF(i, j) *IDF(i)
前記 n個の被学習データ q(qは 1〜Nの整数)のベクトル D(q)を D(q) = (w(l、 q) , w(2, q), . . . , w(k, q))とし、前記被処理データのベクトル D (M)を DM = (w( 1、 M), w(2, M), . . . , w(k, M))とし、
l〜nの全ての qについて、前記類似度データ BA(q)を下記式(1)により計算する 請求項 7に記載の学習処理方法。
[数 1]
BA q = cos(DM,D^qj)
Figure imgf000027_0001
被学習データと該被学習データの分類を示す分類データとを有する、複数の学習 データを用いて被処理データを機械学習処理するプログラムであって、
前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類 似度を示す類似度データを求める第 1の手順と、
前記複数の学習データのうち、前記類似度データが所定の値を越えている、学習 データを選択する第 2の手順と、
前記第 2の手順にお 、て選択した前記学習データを用いて前記被処理データを機 械学習処理する第 3の手順と
を有するプログラム。
[10] 前記複数の学習データはそれぞれ、被学習データと該被学習データの分類を示す 分類データとを含み、
前記第 3の手順において、前記第 2の工程において選択した前記学習データに含 まれる分類データを参照して前記被処理データを機械学習処理する、
請求項 9に記載のプログラム。
[11] 前記第 1の手順において、前記被学習データを構成する処理単位データおよび前 記被処理データを構成する処理単位データごとに各被学習データの特徴を、予め決 められ特徴評価座標系内で規定したベクトルデータとして表し、当該ベクトルデータ を基に、前記類似度データを生成する、
請求項 9または 10に記載のプログラム。
[12] 被学習データと該被学習データの分類を示す分類データとを有する、複数の学習 データを用いて被処理データを機械学習処理する学習処理装置であって、 前記複数の学習データに含まれる前記被学習データと、前記被処理データとの類 似度を示す類似度データを求める類似度データ生成手段と、
前記複数の学習データのうち、前記類似度データが所定の値を越えている、学習 データを選択する学習データ選択手段と、
前記学習データ選択手段において選択した前記学習データを用いて前記被処理 データを機械学習処理する機械学習手段と
を有する学習処理装置。
[13] 前記複数の学習データはそれぞれ、被学習データと該被学習データの分類を示す 分類データとを含み、
前記機械学習手段は、前記学習データ選択手段において選択した前記学習デー タに含まれる分類データを参照して前記被処理データを機械学習処理する、 請求項 12に記載の学習処理装置。 前記類似度データ生成手段は、前記被学習データを構成する処理単位データお よび前記被処理データを構成する処理単位データごとに各被学習データの特徴を、 予め決められ特徴評価座標系内で規定した距離ベクトルデータとして表し、当該距 離ベクトルデータを基に、前記類似度データを生成する、
請求項 12または 13に記載の学習処理装置。
PCT/JP2006/304738 2005-03-11 2006-03-10 学習処理方法、学習処理装置、および、プログラム WO2006095853A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-069921 2005-03-11
JP2005069921A JP2006252333A (ja) 2005-03-11 2005-03-11 データ処理方法、データ処理装置およびそのプログラム

Publications (1)

Publication Number Publication Date
WO2006095853A1 true WO2006095853A1 (ja) 2006-09-14

Family

ID=36953442

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/304738 WO2006095853A1 (ja) 2005-03-11 2006-03-10 学習処理方法、学習処理装置、および、プログラム

Country Status (3)

Country Link
JP (1) JP2006252333A (ja)
CN (1) CN101138001A (ja)
WO (1) WO2006095853A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4710932B2 (ja) * 2008-07-09 2011-06-29 ソニー株式会社 学習装置、学習方法、およびプログラム
JP6004016B2 (ja) 2013-02-01 2016-10-05 富士通株式会社 情報変換方法、情報変換装置および情報変換プログラム
JP6004015B2 (ja) 2013-02-01 2016-10-05 富士通株式会社 学習方法、情報処理装置および学習プログラム
EP2953063A4 (en) 2013-02-01 2017-04-05 Fujitsu Limited Learning method, information conversion device, and learning program
JP6150291B2 (ja) * 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
EP3188041B1 (en) 2015-12-31 2021-05-05 Dassault Systèmes Update of a machine learning system
EP3188038B1 (en) 2015-12-31 2020-11-04 Dassault Systèmes Evaluation of a training set
JP6638484B2 (ja) 2016-03-10 2020-01-29 富士通株式会社 情報処理装置、類似検索プログラム、及び類似検索方法
JP6795788B2 (ja) * 2017-01-24 2020-12-02 株式会社安川電機 産業機器用の画像認識装置及び画像認識方法
IL270266B2 (en) 2017-05-05 2024-04-01 Liveperson Inc Dynamic response prediction for improved robot task processing
JP6976731B2 (ja) * 2017-06-13 2021-12-08 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6946812B2 (ja) * 2017-07-20 2021-10-06 株式会社デンソー 学習サーバ及び支援システム
KR102154425B1 (ko) * 2018-12-26 2020-09-09 울산대학교 산학협력단 인공지능 학습을 위한 유사데이터 생성 방법 및 장치
WO2021033791A1 (ko) * 2019-08-19 2021-02-25 엘지전자 주식회사 제품 생산 라인 상의 비전 검사를 위한 ai 기반의 신규 학습 모델 생성 시스템
EP4184397A4 (en) * 2020-07-14 2023-06-21 Fujitsu Limited MACHINE LEARNING PROGRAM, MACHINE LEARNING METHOD AND INFORMATION PROCESSING DEVICE
CN117132174B (zh) * 2023-10-26 2024-01-30 扬宇光电(深圳)有限公司 一种应用于工业流水线质量检测的模型训练方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250686A (ja) * 1993-02-23 1994-09-09 N T T Data Tsushin Kk 音声認識モデル学習方法
JP2004280316A (ja) * 2003-03-14 2004-10-07 Fuji Xerox Co Ltd 分野判定装置及び言語処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06250686A (ja) * 1993-02-23 1994-09-09 N T T Data Tsushin Kk 音声認識モデル学習方法
JP2004280316A (ja) * 2003-03-14 2004-10-07 Fuji Xerox Co Ltd 分野判定装置及び言語処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MITSUMORI T. ET AL.: "Gene/protein recognition using Support Vector Machine after dictionary matching", BIOCREATIVE WORKSHOP: CRITICAL ASSESSMENT FOR INFORMATION EXTRACTION IN BIOLOGY (BIOCREATIVE 2004), March 2004 (2004-03-01), GRANADA, SPAIN, XP003004720 *
UCHIMOTO K. ET AL.: "Yorei ni Motozuku Shuho to Kikai Gakushu Model no Kumiawase ni yoru Yakugo Sentaku", SHIZEN GENGO SHORI, THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, vol. 10, no. 3, 10 April 2003 (2003-04-10), pages 87 - 114, XP003004721 *

Also Published As

Publication number Publication date
CN101138001A (zh) 2008-03-05
JP2006252333A (ja) 2006-09-21

Similar Documents

Publication Publication Date Title
WO2006095853A1 (ja) 学習処理方法、学習処理装置、および、プログラム
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
EP2486470B1 (en) System and method for inputting text into electronic devices
CN112560484B (zh) 用于命名实体识别的改进bert训练模型及命名实体识别方法
CN113177102B (zh) 文本分类方法、装置、计算设备和计算机可读介质
JP4170296B2 (ja) 事例分類装置および方法
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN110968697A (zh) 文本分类方法、装置、设备及可读存储介质
Lutfullaeva et al. Optimization of Sentiment Analysis Methods for classifying text comments of bank customers
Karo et al. Karonese sentiment analysis: a new dataset and preliminary result
CN111507789A (zh) 商品属性词的确定方法、装置及计算设备
Sergienko et al. A comparative study of text preprocessing approaches for topic detection of user utterances
RU2719463C1 (ru) Тематические модели с априорными параметрами тональности на основе распределенных представлений
CN111723206A (zh) 文本分类方法、装置、计算机设备和存储介质
Rafrafi et al. Coping with the document frequency bias in sentiment classification
HaCohen-Kerner et al. Cross-domain Authorship Attribution: Author Identification using char sequences, word unigrams, and POS-tags features
Song et al. A lexical updating algorithm for sentiment analysis on Chinese movie reviews
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
US20230177362A1 (en) Risk assessment apparatus, risk assessment method, and program
Choi et al. How to generate data for acronym detection and expansion
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN113282746A (zh) 一种新型网络媒体平台变体评论对抗文本生成方法
JP4332161B2 (ja) 語彙ねじれ解消プログラム、語彙ねじれ解消方法および語彙ねじれ解消装置
KR101620078B1 (ko) 문장의 맞춤법 오류에 강한 감정 분류 시스템 및 감정 분류 방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680007683.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

122 Ep: pct application non-entry in european phase

Ref document number: 06728906

Country of ref document: EP

Kind code of ref document: A1