WO2015170370A1 - Labeling device and labeling method - Google Patents

Labeling device and labeling method Download PDF

Info

Publication number
WO2015170370A1
WO2015170370A1 PCT/JP2014/062216 JP2014062216W WO2015170370A1 WO 2015170370 A1 WO2015170370 A1 WO 2015170370A1 JP 2014062216 W JP2014062216 W JP 2014062216W WO 2015170370 A1 WO2015170370 A1 WO 2015170370A1
Authority
WO
WIPO (PCT)
Prior art keywords
label
discriminator
conversion
token
labeling
Prior art date
Application number
PCT/JP2014/062216
Other languages
French (fr)
Japanese (ja)
Inventor
真 岩山
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2014/062216 priority Critical patent/WO2015170370A1/en
Publication of WO2015170370A1 publication Critical patent/WO2015170370A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models

Definitions

  • the present invention relates to a technique for assigning a label to character string data.
  • machine learning is often used to extract information from sentences.
  • a sentence in which information has already been extracted is given as training data, and a model (discriminator) is generated by learning the characteristics of the information to be extracted from the training data. Desired information is extracted from a new sentence using this model.
  • Patent Document 1 a plurality of models are learned from the same training data using a plurality of machine learning methods having different features, and the same training data is effectively utilized by integrating the identification results of the models. Yes.
  • Machine learning has strengths and weaknesses for each method, but it is thought that if these results are integrated, they can supplement each other. Further, by applying a plurality of machine learning methods to the same training data, one training data can be reused.
  • Patent Document 1 even if the same training data can be reused to obtain a plurality of models, it is necessary to learn a new model in order to integrate the identification results of the plurality of models, At that time, new training data is required.
  • the present invention has been made in view of the problems as described above, and an object of the present invention is to provide a labeling apparatus that can efficiently use training data used for learning how to label a character string.
  • the label applicator according to the present invention includes first and second discriminators for storing the results of learning using the same training data, and when each discriminator assigns a different label, whichever one depends on the type of the label Select with priority.
  • the same training data can be used to learn a plurality of models or to integrate the labeling results by each model. Therefore, training data can be used efficiently.
  • FIG. It is a block diagram of the label provision apparatus 100 which concerns on Embodiment 1.
  • FIG. It is a figure which shows an example of the screen 20 which operates the label provision apparatus.
  • 5 is a process flowchart of the label applying apparatus 100.
  • FIG. 10 is a diagram illustrating examples 1004 to 1007 of label conversion functions. It is a figure which shows the example which links a IPO format and IO format and provides a label. It is a process flowchart of the label provision apparatus 100 which concerns on Embodiment 3.
  • FIG. 1 is a configuration diagram of a label applicator 100 according to Embodiment 1 of the present invention.
  • the labeling device 100 includes a CPU (Central Processing Unit) 101, a memory 102, a keyboard / mouse 103, a display 104, a secondary storage device 105, a control unit 109, a token dividing unit 110, a classifier learning unit 111, and a label conversion classifier.
  • a learning unit 112, an identification unit 113, a score integration unit 114, a label conversion unit 115, and a data communication unit 116 are provided.
  • the CPU 101 executes various processes by executing various programs.
  • the memory 102 temporarily stores a program executed by the CPU 101 and data necessary for executing the program.
  • the keyboard / mouse 103 receives input from the user.
  • the display 104 displays an input / output screen.
  • the secondary storage device 105 is configured by a storage device such as a hard disk, and permanently stores training data 106, an identifier 107, and a label conversion identifier 108.
  • the control unit 109 controls each functional unit.
  • the token dividing unit 110 divides the text into tokens.
  • the discriminator learning unit 111 learns the discriminator 107 using the training data 106.
  • the label conversion discriminator learning unit 112 learns the label conversion discriminator 108 using the training data 106.
  • the identification unit 113 gives a label to the token in the character string data using the classifier 107.
  • the score integration unit 114 integrates the certainty of label assignment and the certainty of label conversion.
  • the label conversion unit 115 converts the label using the label conversion discriminator 108. Label conversion and score will be described later.
  • the data communication unit 116 is an interface that performs data communication via the network 117, and controls, for example, a LAN card and a LAN card that can communicate with each other using the TCP / IP protocol.
  • FIG. 2 is a diagram illustrating an example of a screen 20 for operating the label attaching device 100.
  • the discriminator learning unit 111 and the label conversion discriminator learning unit 112 learn the discriminator 107 and the label conversion discriminator 108 from the training data 106 in advance.
  • the identification unit 113 extracts information from an arbitrary sentence using these learning results.
  • the part “right rear air cylinder” and the state “damaged” are extracted from the sentence “the right rear air cylinder is broken during work”, and ⁇ part>, ⁇ The tag ⁇ state> is embedded.
  • such extraction processing is called labeling.
  • a label ⁇ part> corresponding to the part is assigned to the character string “right rear air cylinder”, and a label ⁇ state> corresponding to the state is assigned to the character string “damaged”.
  • a discriminator may be provided individually for each label, or a single discriminator that comprehensively learns each label may be provided.
  • the user of the label assigning apparatus 100 inputs a sentence to be labeled on the character string input field 201. It is also possible to select a text file by pressing the input button 202 and display the contents of the text file on the character string input field 201.
  • the user presses the discriminator selection button 204 to select the discriminator used for labeling.
  • the discriminating unit 113 gives a label to the text input in the character string input field 201 using the selected discriminator.
  • the assigned label is embedded in the text of the character string input field 201 as a tag. The user can save the labeling result by pressing the output button 203.
  • FIG. 3 is a diagram showing an example of the discriminator selection screen 30 displayed by the labeling apparatus 100 when the discriminator selection button 204 is pressed.
  • the label formats 301, 302, and 303 are variations of the label format, and three types are provided in FIG. Details of the label format will be described later.
  • the discriminator selection screen 30 further provides two types of classification 304 and series labeling 305 as machine learning methods for each label format. The user selects an arbitrary one from six types obtained by combining these, and checks the check box 306.
  • a classifier 107 can be provided for each of these combinations, or a classifier 107 that has comprehensively learned any one of them can be provided. In the example shown in FIG. 3, it is assumed that two discriminators are selected in which the label format is IO and the machine learning method is classification and sequence labeling.
  • FIG. 4 is a diagram for explaining the IO format.
  • the text “Right rear air cylinder was broken during operation” was input, and a character string corresponding to the part was labeled in the IO format.
  • a character string corresponding to a part By enclosing a character string corresponding to a part with a tag ⁇ PART>, it is indicated that the character string is a part (403).
  • I or O represents whether each token is a part or a part.
  • the token dividing unit 101 divides an input character string into tokens using a known morphological analysis technique, and outputs a token string 401.
  • a token is a word.
  • the identification unit 113 gives a label to the token string 401 and outputs a label string 402.
  • the task that extracts information from the input character string can be regarded as a task that assigns a label (I or O in the case of IO format) for each token.
  • a label I or O in the case of IO format
  • the first embodiment considers two methods, classification and sequence labeling. Since each of them has advantages and disadvantages, in the first embodiment, they are complemented with each other to perform labeling with high accuracy.
  • FIG. 5 is a diagram for explaining the outline of series labeling.
  • sequence labeling a label is assigned to each token while scanning the token string in word order (from left to right in FIG. 5).
  • FIG. 5 shows a situation in which a label is assigned to the token 503 “rear part”.
  • the label of the target token is determined using the information of the target token and the two tokens before and after the target token.
  • information on the token itself can be used.
  • the label information of tokens that have already been scanned can be used as information unique to sequence labeling. In the example shown in FIG. 5, before scanning “rear part”, scanning is already completed to “work”, “hour”, “in”, “,” and “right”, and these labels are determined. Therefore, for the previous two tokens “,” and “right”, already determined labels are also used as information for label assignment.
  • the information collected as described above can be expressed as a multidimensional vector 506.
  • a point 508 is obtained by plotting the vector 506 in the multidimensional vector space 507 (schematically described as a two-dimensional plane in FIG. 5). By determining whether the point 508 belongs to the I region 510 or the O region 511 in the space 507, it is determined whether to give I or O to the “rear part”.
  • the hyperplane 509 that divides the two regions is learned by the discriminator learning unit 111 using the training data 106, and the learning result is stored in the discriminator 107.
  • a known technique such as a support vector machine can be used. Specifically, each token in the training data 106 is expressed in a vector format in the same manner, and the hyperplane 509 is determined so that the correct label attached to the token can be discriminated with the highest accuracy.
  • affiliate labeling is that the label information determined immediately before is used when determining the label.
  • I such as a noun representing a part
  • the immediately preceding token is I
  • it is considered that the next token will also be I with a relatively high probability. This tendency is noticeable for O. Series labeling is effective for such text.
  • FIG. 6 is a diagram for explaining the outline of classification labeling. Labeling can also be solved as a classification problem. The difference between classification and series labeling is that when a label is assigned to a token (for example, “rear part”), the label information of the previous token that has already been determined is not used. Therefore, the vector shown in FIG. 6 does not include the labeling result. Due to the above features, in the classification labeling, the feature that the token (“rear part”) is likely to become a part of the part is relatively prominently learned.
  • a token for example, “rear part”
  • FIG. 7 is a diagram for explaining a method of mutually complementing the labeling result by classification and the labeling result by series labeling.
  • the label column 701 is a label column labeled by classification
  • the label column 702 is a label column labeled by series labeling.
  • label I is assigned by classification (703)
  • label O is assigned by series labeling (704).
  • the label 703 gives I to “right” due to the feature that “right” tends to be a part of the part.
  • the label 704 is given O because this feature has not been learned well.
  • the classification unit 113 preferentially selects the label 703 with respect to “right” by trusting the result of labeling by classification.
  • the process for assigning a label to the “rear part” will be described.
  • the label I is given to the previous token “right”
  • the label I is also given to the next “rear part” (706).
  • the feature that the “rear part” tends to be a part of the region is weak, and the label O is given to the “rear part” (705).
  • the identifying unit 113 preferentially selects the label 706 by trusting the labeling result by the sequence labeling.
  • the identification unit 113 preferentially selects either the labeling result by classification or the labeling result by series labeling, but when labeling subsequent tokens, It is necessary to convert the label assignment result of the one not selected into the label assignment result of the selected one. This conversion may be performed by the identification unit 113 or the label conversion unit 115.
  • FIG. 8 is a process flowchart of the label attaching apparatus 100. Hereinafter, each step of FIG. 8 will be described.
  • T is a token string of the input character string, and is an array that stores the result of the token dividing unit 110 dividing the text input in the character string input field 201 into tokens.
  • Each token is internally composed of a set of “character string” and “part of speech”.
  • m_classification is an identification function for classification
  • m_sequence is an identification function for sequence labeling, which is obtained by storing the result of learning from the training data 106 by the discriminator learning unit 111 in the discriminator 107.
  • Each identification function inputs a token string (T), a label string (L_classification or L_sequence) given so far, and a token to be identified (tn), and constructs a vector of identification target tokens.
  • a corresponding label (I or O in the example described with reference to FIGS. 4 to 7) is output in accordance with the relationship between and the boundary surface.
  • the identification unit 113 initializes the label string L_classification [] by classification and the label string L_series [] by series labeling (S 802). The identification unit 113 sequentially performs steps S804 to S808 on the token tn according to the word order (S803).
  • Steps S804, S805, S806 The identification unit 113 assigns a label to the target token tn using each identification function (S804).
  • label conversion section 115 converts label O given by series labeling to label I (S806).
  • step S804 when label O is given by classification and label I is given by series labeling (S807), the label conversion unit 115 converts label O given by classification into label I (S808).
  • the identification unit 113 outputs a label string L_classification [] by classification and a label string L_series [] by series labeling. In this case, both are the same label row.
  • the identification unit 113 embeds a tag in the sentence in the character string input field 201 according to each label string.
  • the labeling apparatus 100 gives the labeling result to which the label I representing the part is given. Select with priority.
  • the advantages of each other are complemented. Accuracy can be improved.
  • the same training data can be utilized efficiently.
  • FIG. 9 is a diagram for explaining the IPO format.
  • a label format called IPO format is considered in addition to the IO format already described.
  • Reference numeral 901 is an example of the IPO format
  • reference numeral 902 is an example of the IO format shown for comparison.
  • a label P indicates the main part of the part. That is, the “right rear air cylinder” is divided into a “right rear part” indicating the location of the part and an “air cylinder” which is the part itself, and the label P is given to the latter.
  • the label P can be clearly learned and identified.
  • the label assigned on the one side must be converted and assigned to the other.
  • the token to which I is assigned in the IO format represents only that it is a part of the part, and it is not known whether or not the token is a main part. Therefore, when converting I in the IO format to the IPO format, there are two conversion candidates I or P. In the second embodiment, such a relationship is expressed by a label conversion function.
  • FIG. 10 is a diagram showing examples 1004 to 1007 of label conversion functions.
  • the first argument of the label conversion function is the label format of the conversion source
  • the second argument is the label format of the conversion destination
  • the third argument is the label of the conversion source
  • the fourth argument is the label of the conversion destination.
  • the return value of the label conversion function is the certainty of the conversion.
  • the label conversion function 1004 indicates that the certainty that the IPO format label I can be converted to the IO format I is 1.0.
  • the label conversion discriminator 108 is a set of label conversion functions.
  • the label conversion discriminator learning unit 112 learns a label conversion function using the training data 106 and stores it in the label conversion discriminator 108.
  • the label conversion identifier 108 can be constructed based on the duplication of character strings in the training data 106.
  • an outline of a method for learning the label conversion discriminator 108 will be described.
  • the label conversion function can be created by aggregating portions corresponding to each other. Even when the correspondence is not completely achieved, a label conversion function can be created by automatically extracting the likely corresponding portions using a known technique using dynamic programming and counting the partial correspondences.
  • a method for creating a label conversion function will be described using an example in which 1001 is completely compatible.
  • the label conversion discriminator 108 creates a table 1002 by summing up the correspondence between the IO format and the IPO format.
  • a row 1003 is a result of tabulating corresponding IPO format labels for the four locations to which I is assigned in the IO format. The example indicated by the row 1003 indicates that I is given at two places on the “right” and “rear part” and P is given at two places on the “air” and “cylinder”.
  • the label conversion functions 1004 to 1007 represent the table 1002 as functions. From the row 1003, it can be seen that the four Is in the IO format correspond to the two Is in the IPO format. This relationship can be expressed by a function 1006. In the second embodiment, the return value of the label conversion function is a simple relative frequency (2/4 in the example).
  • FIG. 11 is a diagram illustrating an example in which a label is assigned by linking the IPO format and the IO format.
  • the learning method may be either sequence labeling or classification. The labeling process will be described below using the same sentence example as in the first embodiment.
  • Step S1101 shows a state in which the identification unit 113 gives a label to the token “air”.
  • a label 1106 is a label given in the IPO format
  • a label 1104 is a label given in the IO format.
  • the first certainty factor is a certainty factor for the label 1105 given immediately before “air”.
  • the first certainty factor corresponds to the conversion certainty factor when the label 1105 is given after being converted from another label format.
  • the first certainty factor of the label 1106 is the conversion certainty factor when the immediately preceding label 1105 is converted from the other label, and is the maximum value (for example, 1.0) when it is not converted. .
  • the maximum value for example, 1.0
  • the first certainty factor of the label 1104 is assumed to be 0.8 based on the above method.
  • the second certainty factor is a certainty factor of label assignment itself by the identification unit 113.
  • the certainty of label assignment can be calculated based on the distance from the boundary plane between labels (for example, the hyperplane 509 in FIG. 5) to the identification target vector (point 508 in FIG. 5). The farther the identification target vector is from the boundary plane, the more confident the label can be assigned, so the second certainty factor increases. Since this method is publicly known, details are omitted. It is assumed that the second certainty factor of label 1106 is 0.5 and the second certainty factor of label 1104 is 1.2.
  • Step S1102 is a step of converting the label 1104.
  • the label conversion unit 115 assigns a label to the next token “cylinder”
  • the label conversion unit 115 compares the label assignment result in the IPO format with the label assignment result in the IO format. Therefore, even if it is already decided to use the IO format for the label 1104, it is necessary to convert the label 1104 to the IPO format before labeling the token “cylinder”. This step is for that purpose.
  • the label conversion unit 115 performs this step using the label conversion function described above. According to the label conversion functions 1006 and 1007 described with reference to FIG. 10, it can be understood that I in the IO format can be converted into I and P in the IPO format with a certainty factor 0.5. Therefore, the label conversion unit 115 converts the label 1104 into labels 1109 and 1110, respectively. Since there are two conversion results, labels 1109 and 1110 are held in this step, respectively.
  • Step S1103 is a step of labeling the token “cylinder”.
  • the label conversion unit 115 assigns labels 1111 to 1113 to “cylinders” in two label formats in the same manner as in step S1101, and the respective scores. Is calculated. In the example shown in FIG. 11, the label 1113 is finally selected because it has the maximum score.
  • the label conversion unit 115 may leave only one conversion candidate in the same label format and discard the other candidates for efficiency of calculation.
  • the IPO format has labels 1113 and 1112 as two conversion candidates in step S1102.
  • the label conversion unit 115 compares the scores of the labels 1113 and 1112 and discards the lower one (label 1112) while leaving the higher one (label 1113). Similarly, when there are two or more conversion candidates, only the conversion candidate with the maximum score is left, and the others are discarded.
  • the identification unit 113 and the label conversion unit 115 add a label by repeating the above steps.
  • the labeling apparatus 100 preferentially selects one of the labeling results based on the certainty of a plurality of labeling results having different label formats. Thereby, even if it is a case where the label conversion result by one label format is converted into the other, the precision of the label obtained by the conversion can be improved.
  • the label assigning apparatus 100 learns the label conversion discriminator 108 used for mutually converting the label assignment results from the training data 106. That is, since the training data 106 is used not only for learning of the discriminator 107 but also for learning of the label conversion discriminator 108, the training data 106 can be used efficiently.
  • FIG. 12 is a process flowchart of the label applying apparatus 100 according to the third embodiment. Hereinafter, each step of FIG. 12 will be described.
  • Step S1201 The user of the label assignment apparatus 100 inputs the token string T and the identification function set M. This step corresponds to step S801 in FIG.
  • the identification function for the label format k is represented by mk.
  • the identification unit 113 for all label formats k, includes a label string Lk [], a first certainty factor string (an array of first certainty factors representing the certainty of label conversion) Sk [], and a second certainty factor string (label)
  • the second certainty factor array Ck [] representing the certainty factor of the grant itself is initialized. These column indexes are linked to the token column indexes.
  • the first certainty factor sequence Sk [] is initialized to 1.0 (no conversion) in advance.
  • Step S1204 The identification unit 113 performs the following steps S1205 to S1206 for each label format k.
  • the identification unit 113 assigns a label of the label format k to the token tn using the identification function mk.
  • the identification unit 113 records the assigned label (the label with the highest certainty of grant) and the certainty of grant.
  • the previous iteration that is, the previous token tn ⁇ 1
  • label conversion is performed to label format k and there are a plurality of conversion results, as described with reference to FIG. However, the same processing is performed.
  • Step S1206 The score integration unit 114 integrates the scores calculated in step S1205. If there are a plurality of conversion results in the previous token tn-1, only the one with the maximum integrated score is left and the others are discarded.
  • Step S1207 The label conversion unit 115 selects a label format having the maximum integrated score. Here, it is assumed that the label format p is selected.
  • Step S1208 The label conversion unit 115 performs step S1209 for each label format k.
  • the label conversion unit 115 converts the label from the label format p to another label format k. When there are a plurality of conversion results, each conversion result relating to the label format k is copied and stored. The label conversion unit 115 obtains the label of each conversion result and the conversion certainty factor using a corresponding label conversion function, and stores them in the label string Lk [] and the first certainty string Sk [], respectively.
  • Step S1210 When the identification unit 113 (or label conversion unit 115) finishes assigning labels to all tokens, it outputs the label string Lk [].
  • the present invention is not limited to the embodiment described above, and includes various modifications.
  • the above embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described.
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment.
  • the configuration of another embodiment can be added to the configuration of a certain embodiment. Further, with respect to a part of the configuration of each embodiment, another configuration can be added, deleted, or replaced.
  • the token dividing unit 110 can be omitted.
  • the IO format and the IPO format are exemplified as the label format
  • the sequence labeling and classification are exemplified as the learning method.
  • the method of the present invention can be applied to classifiers that have learned other than these.
  • the above components, functions, processing units, processing means, etc. may be realized in hardware by designing some or all of them, for example, with an integrated circuit.
  • Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor.
  • Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

The purpose of the present invention is to provide a labeling device whereby it is possible to effectively utilize training data used to learn how to label a character string. A labeling device according to the present invention is provided with first and second discriminators which store respective learning results obtained using the same training data, wherein if these discriminators give different labels, then one of the labels is preferentially selected according to the type of labels (see Fig. 7).

Description

ラベル付与装置、ラベル付与方法Labeling apparatus and labeling method
 本発明は、文字列データに対してラベルを付与する技術に関する。 The present invention relates to a technique for assigning a label to character string data.
 文章から、日時、場所、部位、状態などの様々な情報を抽出して活用しようとする試みがある。例えば、「作業時に・・・の右後部エアシリンダーが破損した。」という保守作業ログから、「右後部エアシリンダー」という部位と「破損した」という状態が抽出できれば、膨大な保守作業ログから、特定の部位のこわれやすさなどが分析できるようになる。 There are attempts to extract and utilize various information such as date, place, part, and state from text. For example, from the maintenance work log “Right rear air cylinder was damaged at the time of work”, if the part “Right rear air cylinder” and the state “damaged” can be extracted, from a huge maintenance work log, It becomes possible to analyze the fragility of a specific part.
 近年は、文章からの情報抽出において機械学習を用いることが多い。機械学習においては、まず既に情報が抽出されている状態の文章を訓練データとして与え、抽出したい情報の特徴を訓練データから学習することにより、モデル(識別器)を生成する。このモデルを用いて新たな文章から所望の情報を抽出する。 In recent years, machine learning is often used to extract information from sentences. In machine learning, a sentence in which information has already been extracted is given as training data, and a model (discriminator) is generated by learning the characteristics of the information to be extracted from the training data. Desired information is extracted from a new sentence using this model.
 機械学習においては、十分な量の訓練データが準備できれば、精度の高いモデルが学習できる。しかし、訓練データを作成するためには多大な人的コストを要する。そこで少ない訓練データを効率良く活用することが求められる。 In machine learning, if a sufficient amount of training data is prepared, a highly accurate model can be learned. However, enormous human costs are required to create training data. Therefore, it is required to use a small amount of training data efficiently.
 下記特許文献1においては、特徴の異なる複数の機械学習法を用いて、同じ訓練データから複数のモデルを学習し、それらモデルによる識別結果を統合することにより、同じ訓練データを有効に活用している。機械学習は手法毎に得手不得手があるが、これらの結果を統合すればお互いが補い合えると考えられる。また、同じ訓練データに対して複数の機械学習法を適用することにより、1つの訓練データを再利用できる。 In the following Patent Document 1, a plurality of models are learned from the same training data using a plurality of machine learning methods having different features, and the same training data is effectively utilized by integrating the identification results of the models. Yes. Machine learning has strengths and weaknesses for each method, but it is thought that if these results are integrated, they can supplement each other. Further, by applying a plurality of machine learning methods to the same training data, one training data can be reused.
特開2006-330935号公報JP 2006-330935 A
 訓練データを効率的に用いる観点からは、できる限り同一の訓練データを用いて複数のモデルを学習することが望ましいと考えられる。また複数のモデルを用いてラベル付与した結果を統合する場合においても、新たな訓練データを用いることなくこれを実現することが望ましい。 From the viewpoint of efficiently using training data, it is desirable to learn multiple models using the same training data as much as possible. Moreover, even when integrating the results of labeling using a plurality of models, it is desirable to achieve this without using new training data.
 上記特許文献1においては、複数のモデルを得るために同一の訓練データを再利用することができるとしても、複数のモデルによる識別結果を統合するためには新たなモデルを学習する必要があり、その際に新たな訓練データが必要になる。 In Patent Document 1, even if the same training data can be reused to obtain a plurality of models, it is necessary to learn a new model in order to integrate the identification results of the plurality of models, At that time, new training data is required.
 本発明は、上記のような課題に鑑みてなされたものであり、文字列に対するラベルの付け方を学習するために用いる訓練データを効率的に活用することができるラベル付与装置を提供することを目的とする。 The present invention has been made in view of the problems as described above, and an object of the present invention is to provide a labeling apparatus that can efficiently use training data used for learning how to label a character string. And
 本発明に係るラベル付与装置は、同じ訓練データを用いて学習した結果を格納する第1および第2識別器を備え、各識別器が異なるラベルを付与した場合は、ラベルの種類に応じていずれかを優先的に選択する。 The label applicator according to the present invention includes first and second discriminators for storing the results of learning using the same training data, and when each discriminator assigns a different label, whichever one depends on the type of the label Select with priority.
 本発明に係るラベル付与装置によれば、複数のモデルを学習し、または各モデルによるラベル付与結果を統合するために同一の訓練データを用いることができる。したがって、訓練データを効率的に活用することができる。 According to the labeling apparatus according to the present invention, the same training data can be used to learn a plurality of models or to integrate the labeling results by each model. Therefore, training data can be used efficiently.
実施形態1に係るラベル付与装置100の構成図である。It is a block diagram of the label provision apparatus 100 which concerns on Embodiment 1. FIG. ラベル付与装置100を操作する画面20の1例を示す図である。It is a figure which shows an example of the screen 20 which operates the label provision apparatus. 識別器選択ボタン204が押された際にラベル付与装置100が表示する識別器選択画面30の例を示す図である。It is a figure which shows the example of the discriminator selection screen 30 which the label provision apparatus 100 displays when the discriminator selection button 204 is pushed. IO形式について説明する図である。It is a figure explaining IO format. 系列ラベリングの概略を説明する図である。It is a figure explaining the outline of series labeling. 分類ラベリングの概略を説明する図である。It is a figure explaining the outline of classification labeling. 分類によるラベル付与結果と系列ラベリングによるラベル付与結果を相互に補い合う手法を説明する図である。It is a figure explaining the method of mutually complementing the label provision result by classification, and the label provision result by series labeling. ラベル付与装置100の処理フローチャートである。5 is a process flowchart of the label applying apparatus 100. IPO形式について説明する図である。It is a figure explaining an IPO format. ラベル変換関数の例1004~1007を示す図である。FIG. 10 is a diagram illustrating examples 1004 to 1007 of label conversion functions. IPO形式とIO形式とを連携させてラベルを付与する例を示す図である。It is a figure which shows the example which links a IPO format and IO format and provides a label. 実施形態3に係るラベル付与装置100の処理フローチャートである。It is a process flowchart of the label provision apparatus 100 which concerns on Embodiment 3. FIG.
<実施の形態1>
 図1は、本発明の実施形態1に係るラベル付与装置100の構成図である。ラベル付与装置100は、CPU(Central Processing Unit)101、メモリ102、キーボード・マウス103、ディスプレイ104、2次記憶装置105、制御部109、トークン分割部110、識別器学習部111、ラベル変換識別器学習部112、識別部113、スコア統合部114、ラベル変換部115、データ通信部116を備える。
<Embodiment 1>
FIG. 1 is a configuration diagram of a label applicator 100 according to Embodiment 1 of the present invention. The labeling device 100 includes a CPU (Central Processing Unit) 101, a memory 102, a keyboard / mouse 103, a display 104, a secondary storage device 105, a control unit 109, a token dividing unit 110, a classifier learning unit 111, and a label conversion classifier. A learning unit 112, an identification unit 113, a score integration unit 114, a label conversion unit 115, and a data communication unit 116 are provided.
 CPU101は、各種プログラムを実行することによって各種処理を実行する。メモリ102は、CPU101が実行するプログラムおよびプログラムを実行するために必要なデータを一時的に記憶する。キーボード・マウス103は、ユーザからの入力を受け付ける。ディスプレイ104は、入出力用の画面を表示する。2次記憶装置105は、ハードディスクなどの記憶装置で構成され、訓練データ106、識別器107、ラベル変換識別器108を永続的に記憶する。 The CPU 101 executes various processes by executing various programs. The memory 102 temporarily stores a program executed by the CPU 101 and data necessary for executing the program. The keyboard / mouse 103 receives input from the user. The display 104 displays an input / output screen. The secondary storage device 105 is configured by a storage device such as a hard disk, and permanently stores training data 106, an identifier 107, and a label conversion identifier 108.
 制御部109は、各機能部を制御する。トークン分割部110は、テキストをトークンに分割する。識別器学習部111は、訓練データ106を用いて識別器107を学習する。ラベル変換識別器学習部112は、訓練データ106を用いてラベル変換識別器108を学習する。識別部113は、識別器107を用いて文字列データ内のトークンに対してラベルを付与する。スコア統合部114は、ラベル付与の確信度とラベル変換の確信度を統合する。ラベル変換部115は、ラベル変換識別器108を用いてラベルを変換する。ラベル変換とスコアについては後述する。データ通信部116は、ネットワーク117を介してデータ通信するインターフェースであり、例えば、TCP/IPプロトコルによって通信可能なLANカードおよびLANカードを制御する。 The control unit 109 controls each functional unit. The token dividing unit 110 divides the text into tokens. The discriminator learning unit 111 learns the discriminator 107 using the training data 106. The label conversion discriminator learning unit 112 learns the label conversion discriminator 108 using the training data 106. The identification unit 113 gives a label to the token in the character string data using the classifier 107. The score integration unit 114 integrates the certainty of label assignment and the certainty of label conversion. The label conversion unit 115 converts the label using the label conversion discriminator 108. Label conversion and score will be described later. The data communication unit 116 is an interface that performs data communication via the network 117, and controls, for example, a LAN card and a LAN card that can communicate with each other using the TCP / IP protocol.
 図2は、ラベル付与装置100を操作する画面20の1例を示す図である。識別器学習部111とラベル変換識別器学習部112は、訓練データ106から、識別器107とラベル変換識別器108をそれぞれあらかじめ学習しておく。識別部113は、これらの学習結果を用いて、任意の文章から情報を抽出する。図2に示す例の場合は、「作業時に右後部エアシリンダーが破損した。」という文章から「右後部エアシリンダー」という部位と「破損した」という状態を抽出して、それぞれ<part>、<state>というタグを埋め込んでいる。本発明では、このような抽出処理のことをラベル付与と呼ぶ。「右後部エアシリンダー」という文字列に対して部位に相当するラベル<part>を付与し、「破損した」という文字列に対して状態を相当するラベル<state>を付与している。各ラベルについて個別に識別器を設けてもよいし、各ラベルを包括的に学習した単一の識別器を設けてもよい。 FIG. 2 is a diagram illustrating an example of a screen 20 for operating the label attaching device 100. The discriminator learning unit 111 and the label conversion discriminator learning unit 112 learn the discriminator 107 and the label conversion discriminator 108 from the training data 106 in advance. The identification unit 113 extracts information from an arbitrary sentence using these learning results. In the case of the example shown in FIG. 2, the part “right rear air cylinder” and the state “damaged” are extracted from the sentence “the right rear air cylinder is broken during work”, and <part>, < The tag <state> is embedded. In the present invention, such extraction processing is called labeling. A label <part> corresponding to the part is assigned to the character string “right rear air cylinder”, and a label <state> corresponding to the state is assigned to the character string “damaged”. A discriminator may be provided individually for each label, or a single discriminator that comprehensively learns each label may be provided.
 ラベル付与装置100のユーザは、文字列入力欄201上にラベル付与の対象となる文章を入力する。入力ボタン202を押してテキストファイルを選択し、そのテキストファイルの内容を文字列入力欄201上に表示することもできる。 The user of the label assigning apparatus 100 inputs a sentence to be labeled on the character string input field 201. It is also possible to select a text file by pressing the input button 202 and display the contents of the text file on the character string input field 201.
 ユーザは次に識別器選択ボタン204を押し、ラベル付与に使う識別器を選択する。識別器を選択した後、識別ボタン205が押されると、識別部113は選択された識別器を用いて文字列入力欄201に入力されている文章に対してラベルを付与する。付与されたラベルは、タグとして文字列入力欄201の文章内に埋め込まれる。ユーザは出力ボタン203を押してラベル付与結果を保存することができる。 Next, the user presses the discriminator selection button 204 to select the discriminator used for labeling. When the discriminator is selected and then the discriminator button 205 is pressed, the discriminating unit 113 gives a label to the text input in the character string input field 201 using the selected discriminator. The assigned label is embedded in the text of the character string input field 201 as a tag. The user can save the labeling result by pressing the output button 203.
 図3は、識別器選択ボタン204が押された際にラベル付与装置100が表示する識別器選択画面30の例を示す図である。ラベル形式301、302、303はラベル形式のバリエーションであり、図3においては3種類提供する。ラベル形式の詳細については後述する。識別器選択画面30はさらに、各ラベル形式に対して、機械学習の手法として分類304と系列ラベリング305の2種類を提供する。ユーザは、これらを組み合わせた6種類から任意のものを選びチェックボックス306をチェックする。これらの組み合わせそれぞれについて識別器107を設けることもできるし、いずれか複数を包括的に学習した識別器107を設けることもできる。図3に示す例においては、ラベル形式がIO、機械学習方法が分類と系列ラベリングという2つの識別器を選択したものと仮定する。 FIG. 3 is a diagram showing an example of the discriminator selection screen 30 displayed by the labeling apparatus 100 when the discriminator selection button 204 is pressed. The label formats 301, 302, and 303 are variations of the label format, and three types are provided in FIG. Details of the label format will be described later. The discriminator selection screen 30 further provides two types of classification 304 and series labeling 305 as machine learning methods for each label format. The user selects an arbitrary one from six types obtained by combining these, and checks the check box 306. A classifier 107 can be provided for each of these combinations, or a classifier 107 that has comprehensively learned any one of them can be provided. In the example shown in FIG. 3, it is assumed that two discriminators are selected in which the label format is IO and the machine learning method is classification and sequence labeling.
 以降、ラベル形式がIOである場合を例として、系列ラベリングと分類それぞれによる機械学習結果を統合する方法について説明する。 Hereinafter, a method for integrating machine learning results based on sequence labeling and classification will be described by taking the case where the label format is IO as an example.
 図4は、IO形式について説明する図である。図4において、「作業時に、右後部エアシリンダーが破損した。」という文章を入力とし、部位に相当する文字列に対してIO形式でラベルを付与した。部位に相当する文字列を<PART>というタグで囲うことにより、その文字列が部位であることを表している(403)。IO形式においては、トークン毎に部位か部位でないかをIおよびOで表現する。トークン分割部101は、公知の形態素解析技術を用いて入力文字列をトークンに分割し、トークン列401を出力する。トークンとは単語のことである。識別部113は、トークン列401に対してラベルを付与し、ラベル列402を出力する。 FIG. 4 is a diagram for explaining the IO format. In FIG. 4, the text “Right rear air cylinder was broken during operation” was input, and a character string corresponding to the part was labeled in the IO format. By enclosing a character string corresponding to a part with a tag <PART>, it is indicated that the character string is a part (403). In the IO format, I or O represents whether each token is a part or a part. The token dividing unit 101 divides an input character string into tokens using a known morphological analysis technique, and outputs a token string 401. A token is a word. The identification unit 113 gives a label to the token string 401 and outputs a label string 402.
 入力文字列から情報を抽出するタスクは、トークン毎にラベル(IO形式の場合はIまたはO)を付与するタスクとみなすことができる。トークンにラベルを付与するため、本実施形態1においては分類と系列ラベリングという2つの手法を考慮する。それぞれに利点欠点があるため、本実施形態1においては、それらを相互に補い合って精度の高いラベル付与を実施することを図る。 The task that extracts information from the input character string can be regarded as a task that assigns a label (I or O in the case of IO format) for each token. In order to assign a label to a token, the first embodiment considers two methods, classification and sequence labeling. Since each of them has advantages and disadvantages, in the first embodiment, they are complemented with each other to perform labeling with high accuracy.
 図5は、系列ラベリングの概略を説明する図である。系列ラベリングにおいては、トークン列を語順に沿って(図5においては左から右に)スキャンしながら各トークンに対してラベルを付与していく。図5は、「後部」というトークン503にラベルを付与しようとしている状況である。 FIG. 5 is a diagram for explaining the outline of series labeling. In sequence labeling, a label is assigned to each token while scanning the token string in word order (from left to right in FIG. 5). FIG. 5 shows a situation in which a label is assigned to the token 503 “rear part”.
 系列ラベリングにおいては、対象トークンおよび対象トークン前後いずれかにある2つのトークンの情報を用いて対象トークンのラベルを決定する。ラベル付与のために用いる情報には様々なものがある。まずは、トークン自身の情報(文字列そのものや品詞)を用いることができる。また、系列ラベリング特有の情報として、すでにスキャンしたトークンのラベル情報を用いることができる。図5に示す例においては、「後部」をスキャンする前に、既に「作業」「時」「に」「、」「右」までスキャンが終わっており、これらのラベルは決まっている。そこで、前2つのトークン「、」「右」については、既に決まっているラベルもラベル付与のための情報として用いる。 In the series labeling, the label of the target token is determined using the information of the target token and the two tokens before and after the target token. There are various types of information used for labeling. First, information on the token itself (character string itself and part of speech) can be used. Further, the label information of tokens that have already been scanned can be used as information unique to sequence labeling. In the example shown in FIG. 5, before scanning “rear part”, scanning is already completed to “work”, “hour”, “in”, “,” and “right”, and these labels are determined. Therefore, for the previous two tokens “,” and “right”, already determined labels are also used as information for label assignment.
 以上のようにして収集した情報は多次元ベクトル506として表現することができる。点508は、ベクトル506を多次元ベクトル空間507内(図5においては模式的に2次元平面として記載している)にプロットしたものである。点508が空間507内においてIの領域510に属するのか、Oの領域511に属するのかを判定することにより、「後部」にIを付与するのかOを付与するのかを決める。2つの領域を分ける超平面509は、訓練データ106を用いて識別器学習部111により学習し、その学習結果を識別器107内に格納する。学習の方法としては、サポートベクトルマシンなどの公知技術を用いることができる。具体的には、訓練データ106内の各トークンを同様の方法でベクトル形式により表現し、そのトークンに付いている正解ラベルが最も高い精度で弁別できるような超平面509を決定する。 The information collected as described above can be expressed as a multidimensional vector 506. A point 508 is obtained by plotting the vector 506 in the multidimensional vector space 507 (schematically described as a two-dimensional plane in FIG. 5). By determining whether the point 508 belongs to the I region 510 or the O region 511 in the space 507, it is determined whether to give I or O to the “rear part”. The hyperplane 509 that divides the two regions is learned by the discriminator learning unit 111 using the training data 106, and the learning result is stored in the discriminator 107. As a learning method, a known technique such as a support vector machine can be used. Specifically, each token in the training data 106 is expressed in a vector format in the same manner, and the hyperplane 509 is determined so that the correct label attached to the token can be discriminated with the highest accuracy.
 系列ラベリングの利点は、ラベルを決める際に、直前に決まったラベルの情報を使う点にある。部位を表す名詞のように複数のトークンがまとまってIとしてラベリングされている文章においては、直前のトークンがIであれば、比較的高い確率で次のトークンもIになると考えられる。Oについてはこの傾向が顕著にあらわれる。このような文章に対しては、系列ラベリングが効果的である。 The advantage of affiliate labeling is that the label information determined immediately before is used when determining the label. In a sentence in which a plurality of tokens are collectively labeled as I, such as a noun representing a part, if the immediately preceding token is I, it is considered that the next token will also be I with a relatively high probability. This tendency is noticeable for O. Series labeling is effective for such text.
 一方で系列ラベリングにおいては、トークン自体の情報が相対的に過小評価されてしまう。例えば、「後部」という単語そのものは部位の一部になりやすい単語だが、系列ラベリングにおいては直前の「右」にIが付与されたという情報が「後部」にIを付与する大きな要因となる。これは識別器107を学習する際にも当てはまり、図5における「後部」のようなトークンは、「後部」という単語が部位の一部になりやすいという特徴は学習されずに埋もれてしまう。 On the other hand, in series labeling, information on the token itself is relatively underestimated. For example, the word “rear” itself is a word that tends to be a part of the part, but in series labeling, the information that I was assigned to “right” immediately before is a major factor that gives I to “rear”. This is also true when learning the discriminator 107, and the token such as “rear part” in FIG. 5 is buried without learning the feature that the word “rear part” tends to become a part of the part.
 図6は、分類ラベリングの概略を説明する図である。ラベリングは、分類問題として解くこともできる。分類と系列ラベリングが異なるのは、トークン(例えば「後部」)に対してラベルを付与する際に、既に決定している以前のトークンのラベル情報を使わない点である。したがって図6に示すベクトルは、ラベル付与結果を含んでいない。上記特徴により、分類ラベリングにおいては、トークン(「後部」)が部位の一部になりやすいという特徴が相対的に際立って学習される。 FIG. 6 is a diagram for explaining the outline of classification labeling. Labeling can also be solved as a classification problem. The difference between classification and series labeling is that when a label is assigned to a token (for example, “rear part”), the label information of the previous token that has already been determined is not used. Therefore, the vector shown in FIG. 6 does not include the labeling result. Due to the above features, in the classification labeling, the feature that the token (“rear part”) is likely to become a part of the part is relatively prominently learned.
 分類の欠点は、系列ラベリングとは異なり、既に決まっているトークンのラベル情報を使わない点である。既に説明したように、Iの直後は高確率でIであるし、Oの直後も高確率でOである。分類においてはこのような情報を使わないため、総合的な抽出精度が低くなってしまう可能性がある。 欠 点 The disadvantage of classification is that unlike the labeling, it does not use the already determined token label information. As already described, immediately after I is I with a high probability, and immediately after O is O with a high probability. Since such information is not used in classification, the overall extraction accuracy may be lowered.
 以上説明したように、系列ラベリングと分類は表裏一体の利点、欠点を持つため、お互いの欠点が補え合えれば全体のラベリング精度を向上させることが期待できる。以下その具体的な手法について説明する。 As explained above, series labeling and classification have the advantages and disadvantages of one side and the other, so it can be expected that the overall labeling accuracy can be improved if the mutual disadvantages can be compensated. The specific method will be described below.
 図7は、分類によるラベル付与結果と系列ラベリングによるラベル付与結果を相互に補い合う手法を説明する図である。ラベル列701は分類によってラベル付与したラベル列であり、ラベル列702は系列ラベリングによってラベル付与したラベル列である。 FIG. 7 is a diagram for explaining a method of mutually complementing the labeling result by classification and the labeling result by series labeling. The label column 701 is a label column labeled by classification, and the label column 702 is a label column labeled by series labeling.
 トークン「右」に対するラベル付与結果を見ると、分類によってラベルIが付与され(703)、系列ラベリングによってラベルOが付与(704)されている。この場合、分類ラベリングにおいては「右」は部位の一部になりやすいという特徴により、ラベル703は「右」にIを付与している。系列ラベリングにおいては、この特徴がうまく学習できていなかったためラベル704はOを付与している。分類はトークン自体の情報を用いて部位を抽出し易いという特徴に鑑み、識別部113は分類によるラベル付与結果を信頼して、「右」に対してラベル703を優先的に選択する。 Looking at the label assignment result for the token “right”, label I is assigned by classification (703), and label O is assigned by series labeling (704). In this case, in the classification labeling, the label 703 gives I to “right” due to the feature that “right” tends to be a part of the part. In the series labeling, the label 704 is given O because this feature has not been learned well. In view of the feature that classification is easy to extract a part using information of the token itself, the classification unit 113 preferentially selects the label 703 with respect to “right” by trusting the result of labeling by classification.
 さらに、「後部」に対してラベルを付与するプロセスについて説明する。系列ラベリングにおいては、前トークン「右」に対してラベルIが付与されたため、次の「後部」に対してもラベルIが付与されている(706)。分類においては、「後部」が部位の一部になりやすいという特徴が弱く、「後部」に対してラベルOが付与されている(705)。系列ラベリングは前トークンの情報を用いて部位を抽出し易いという特徴に鑑み、識別部113は系列ラベリングによるラベル付与結果を信頼して、ラベル706を優先的に選択する。 Furthermore, the process for assigning a label to the “rear part” will be described. In the series labeling, since the label I is given to the previous token “right”, the label I is also given to the next “rear part” (706). In the classification, the feature that the “rear part” tends to be a part of the region is weak, and the label O is given to the “rear part” (705). In view of the feature that the sequence labeling can easily extract the site using the information of the previous token, the identifying unit 113 preferentially selects the label 706 by trusting the labeling result by the sequence labeling.
 以上のように、分類と系列ラベリングがそれぞれのラベル付与結果が異なる際は、Iを付与した方を優先して他方をそれに合わせることにより、お互いの欠点を補い合うことができる。実際に情報抽出のタスクで実験すると、分類のみでは正解率が54%、系列ラベリングのみでは正解率が54%であった入力文字列に対し、上記手法では正解率が62%となった。 As described above, when classification and series labeling have different labeling results, it is possible to compensate for each other's disadvantages by giving priority to the one with I and matching the other with it. When an experiment was actually performed in the information extraction task, the correct answer rate was 54% with classification alone, and the correct answer rate with the above method was 62% with respect to an input character string with an correct answer rate of 54% with only series labeling.
 以上の説明においては、識別部113は分類によるラベル付与結果と系列ラベリングによるラベル付与結果のいずれかを優先的に選択することを説明したが、以後のトークンに対してラベル付与する際には、選択しなかった方のラベル付与結果は選択した方のラベル付与結果に変換しておく必要がある。この変換は識別部113が実施してもよいし、ラベル変換部115が実施してもよい。 In the above description, it has been described that the identification unit 113 preferentially selects either the labeling result by classification or the labeling result by series labeling, but when labeling subsequent tokens, It is necessary to convert the label assignment result of the one not selected into the label assignment result of the selected one. This conversion may be performed by the identification unit 113 or the label conversion unit 115.
 図8は、ラベル付与装置100の処理フローチャートである。以下図8の各ステップについて説明する。 FIG. 8 is a process flowchart of the label attaching apparatus 100. Hereinafter, each step of FIG. 8 will be described.
(図8:ステップS801)
 ラベル付与装置100のユーザは、ラベル付与装置100に対して入力する情報を指定する。Tは入力文字列のトークン列であり、文字列入力欄201に入力されている文章をトークン分割部110がトークンに分割した結果を格納した配列である。各トークンは、内部的には「文字列」と「品詞」の組で構成されている。m_分類は分類用の識別関数、m_系列は系列ラベリング用の識別関数であり、識別器学習部111が訓練データ106から学習した結果を識別器107に格納することによって得られるものである。各識別関数は、トークン列(T)、これまでに付与されたラベル列(L_分類またはL_系列)、識別対象のトークン(tn)を入力すると、識別対象のトークンのベクトルを構築し、そのベクトルと境界面との間の関係にしたがって対応するラベル(図4~図7で説明した例においてはIもしくはO)を出力する。
(FIG. 8: Step S801)
The user of the label applying apparatus 100 designates information to be input to the label applying apparatus 100. T is a token string of the input character string, and is an array that stores the result of the token dividing unit 110 dividing the text input in the character string input field 201 into tokens. Each token is internally composed of a set of “character string” and “part of speech”. m_classification is an identification function for classification, and m_sequence is an identification function for sequence labeling, which is obtained by storing the result of learning from the training data 106 by the discriminator learning unit 111 in the discriminator 107. Each identification function inputs a token string (T), a label string (L_classification or L_sequence) given so far, and a token to be identified (tn), and constructs a vector of identification target tokens. A corresponding label (I or O in the example described with reference to FIGS. 4 to 7) is output in accordance with the relationship between and the boundary surface.
(図8:ステップS802~S803)
 識別部113は、分類によるラベル列L_分類[]と系列ラベリングによるラベル列L_系列[]をそれぞれ初期化する(S802)。識別部113は、トークンtnに対して語順にしたがって順次ステップS804~S808を実施する(S803)。
(FIG. 8: Steps S802 to S803)
The identification unit 113 initializes the label string L_classification [] by classification and the label string L_series [] by series labeling (S 802). The identification unit 113 sequentially performs steps S804 to S808 on the token tn according to the word order (S803).
(図8:ステップS804、S805、S806)
 識別部113は、各識別関数を用いて、対象トークンtnに対してラベルを付与する(S804)。分類によってラベルIが付与され、系列ラベリングによってラベルOが付与された場合(S805)、ラベル変換部115は系列ラベリングによって付与されたラベルOをラベルIに変換する(S806)。
(FIG. 8: Steps S804, S805, S806)
The identification unit 113 assigns a label to the target token tn using each identification function (S804). When label I is given by classification and label O is given by series labeling (S805), label conversion section 115 converts label O given by series labeling to label I (S806).
(図8:ステップS805、S807、S808)
 ステップS804において、分類によってラベルOが付与され、系列ラベリングによってラベルIが付与された場合(S807)、ラベル変換部115は分類によって付与されたラベルOをラベルIに変換する(S808)。
(FIG. 8: Steps S805, S807, S808)
In step S804, when label O is given by classification and label I is given by series labeling (S807), the label conversion unit 115 converts label O given by classification into label I (S808).
(図8:ステップS809)
 識別部113は、分類によるラベル列L_分類[]と系列ラベリングによるラベル列L_系列[]を出力する。この場合は双方同じラベル列となる。識別部113は、各ラベル列にしたがって、文字列入力欄201内の文章にタグを埋め込む。
(FIG. 8: Step S809)
The identification unit 113 outputs a label string L_classification [] by classification and a label string L_series [] by series labeling. In this case, both are the same label row. The identification unit 113 embeds a tag in the sentence in the character string input field 201 according to each label string.
<実施の形態1:まとめ>
 以上のように、本実施形態1に係るラベル付与装置100は、分類ラベリングによるラベル付結果と系列ラベリングによるラベル付結果とが互いに異なる場合は、部位を表すラベルIを付与した方のラベル付与結果を優先的に選択する。これにより、同一の訓練データを用いて分類ラベリング用に学習した識別器と系列ラベリング用に学習した識別器がそれぞれ異なる特性を有する場合であっても、互いの長所を補完し合ってラベル付与の精度を向上させることができる。また、同一の訓練データを効率的に活用することができる。
<Embodiment 1: Summary>
As described above, when the labeling result by classification labeling and the labeling result by series labeling are different from each other, the labeling apparatus 100 according to the first embodiment gives the labeling result to which the label I representing the part is given. Select with priority. As a result, even if the discriminator learned for classification labeling and the discriminator learned for sequence labeling using the same training data have different characteristics, the advantages of each other are complemented. Accuracy can be improved. Moreover, the same training data can be utilized efficiently.
<実施の形態2>
 実施形態1においては、同一のラベル形式(実施形態1で説明した例においてはIO形式)で、学習方法が異なる場合について説明した。実施形態1においては、一方の識別器によるラベル付与結果を他方に変換する際に、単純にラベルをそのままコピーすることとした。本発明の実施形態2では、ラベル形式が異なる場合において、一方のラベル付与結果を他方へ変換する例を説明する。ラベル付与装置100の構成は実施形態1と同様であるため、以下ではラベル変換について主に説明する。
<Embodiment 2>
In the first embodiment, the case where the learning method is different in the same label format (IO format in the example described in the first embodiment) has been described. In the first embodiment, when converting the labeling result by one discriminator to the other, the label is simply copied as it is. In Embodiment 2 of the present invention, an example in which one label assignment result is converted to the other when the label formats are different will be described. Since the configuration of the label applying apparatus 100 is the same as that of the first embodiment, label conversion will be mainly described below.
 ラベル形式が異なる場合において、一方のラベル付与結果を他方に変換するためには、一方のラベルが他方のどのラベルに対応するのかを知っておく必要がある。また、あるラベルが常に他方のあるラベルに変換できるわけではないため、ラベル変換のためのコストを考慮する必要がある。さらに、対応が一対多の場合についても考慮する必要がある。 In order to convert one label assignment result to the other when the label format is different, it is necessary to know which label the other corresponds to. In addition, since a certain label cannot always be converted to a certain other label, it is necessary to consider the cost for label conversion. Furthermore, it is necessary to consider the case where the correspondence is one-to-many.
 図9は、IPO形式について説明する図である。本実施形態2においては、既に説明したIO形式に加え、IPO形式というラベル形式を考える。901はIPO形式の例であり、902は比較のため併記したIO形式の例である。IPO形式においては、ラベルPにより部位の主要部を表す。つまり「右後部エアシリンダー」を、部位の場所を示す「右後部」と部位そのものである「エアシリンダー」に分割し、後者にラベルPを付与する。このように、ある特定の部分にラベルPを付与することにより、その部分を明確に学習、識別することができる。 FIG. 9 is a diagram for explaining the IPO format. In the second embodiment, a label format called IPO format is considered in addition to the IO format already described. Reference numeral 901 is an example of the IPO format, and reference numeral 902 is an example of the IO format shown for comparison. In the IPO format, a label P indicates the main part of the part. That is, the “right rear air cylinder” is divided into a “right rear part” indicating the location of the part and an “air cylinder” which is the part itself, and the label P is given to the latter. Thus, by giving the label P to a specific part, the part can be clearly learned and identified.
 ラベル形式が異なる場合において一方のラベル付与結果を他方に対応付けるためには、一方で付与されたラベルを変換して他方に付与せねばならない。例えば、IO形式でIが付与されているトークンは部位の一部であるということのみを表しており、そのトークンが主要部であるかどうかまではわからない。よって、IO形式のIをIPO形式に変換する場合は、IもしくはPという2つの変換候補がある。本実施形態2では、このような関係をラベル変換関数で表現する。 In order to associate one label assignment result with the other when the label formats are different, the label assigned on the one side must be converted and assigned to the other. For example, the token to which I is assigned in the IO format represents only that it is a part of the part, and it is not known whether or not the token is a main part. Therefore, when converting I in the IO format to the IPO format, there are two conversion candidates I or P. In the second embodiment, such a relationship is expressed by a label conversion function.
 図10は、ラベル変換関数の例1004~1007を示す図である。ラベル変換関数の第1引数は変換元のラベル形式、第2引数は変換先のラベル形式、第3引数は変換元のラベル、第4引数は変換先のラベルである。ラベル変換関数の戻り値は、その変換の確信度である。ラベル変換関数1004は、IPO形式のラベルIがIO形式のIに変換できる確信度は1.0であることを表している。 FIG. 10 is a diagram showing examples 1004 to 1007 of label conversion functions. The first argument of the label conversion function is the label format of the conversion source, the second argument is the label format of the conversion destination, the third argument is the label of the conversion source, and the fourth argument is the label of the conversion destination. The return value of the label conversion function is the certainty of the conversion. The label conversion function 1004 indicates that the certainty that the IPO format label I can be converted to the IO format I is 1.0.
 ラベル変換識別器108は、ラベル変換関数の集合である。ラベル変換識別器学習部112は、訓練データ106を用いてラベル変換関数を学習し、ラベル変換識別器108内に格納する。ラベル変換識別器108は、訓練データ106内における文字列の重複に基づき構築することができる。以降では、ラベル変換識別器108を学習する方法の概略を説明する。 The label conversion discriminator 108 is a set of label conversion functions. The label conversion discriminator learning unit 112 learns a label conversion function using the training data 106 and stores it in the label conversion discriminator 108. The label conversion identifier 108 can be constructed based on the duplication of character strings in the training data 106. Hereinafter, an outline of a method for learning the label conversion discriminator 108 will be described.
 図10の1001は、訓練データ106内におけるIO形式とIPO形式との間の対応例を示す。このように、同じ文章に対して複数のラベル形式でラベリングされている場合、ラベル変換関数は互いに対応している部分を集計することにより作成できる。完全に対応が取れていない場合でも、動的計画法を用いた公知技術を使って尤もらしい対応部分を自動抽出し、この部分対応を集計することによりラベル変換関数を作成できる。以降では、1001に示す完全に対応が取れている例を用いて、ラベル変換関数を作成する方法を説明する。 10 indicates a correspondence example between the IO format and the IPO format in the training data 106. As described above, when the same sentence is labeled in a plurality of label formats, the label conversion function can be created by aggregating portions corresponding to each other. Even when the correspondence is not completely achieved, a label conversion function can be created by automatically extracting the likely corresponding portions using a known technique using dynamic programming and counting the partial correspondences. Hereinafter, a method for creating a label conversion function will be described using an example in which 1001 is completely compatible.
 ラベル変換識別器108は、IO形式とIPO形式との間で対応が取れている部分を集計して、表1002を作成する。行1003は、IO形式でIが付与されている4箇所に対して、対応するIPO形式のラベルを集計した結果である。行1003が示す例は、「右」「後部」2箇所でIが付与され、「エア」「シリンダー」2箇所でPが付与されていることを表している。 The label conversion discriminator 108 creates a table 1002 by summing up the correspondence between the IO format and the IPO format. A row 1003 is a result of tabulating corresponding IPO format labels for the four locations to which I is assigned in the IO format. The example indicated by the row 1003 indicates that I is given at two places on the “right” and “rear part” and P is given at two places on the “air” and “cylinder”.
 ラベル変換関数1004~1007は、表1002を関数として表現したものである。行1003を見ると、IO形式における4つのIが、IPO形式における2つのIに対応していることがわかる。この関係は関数1006で表現できる。本実施形態2では、ラベル変換関数の戻り値は単純な相対頻度(例の場合は2/4)とする。 The label conversion functions 1004 to 1007 represent the table 1002 as functions. From the row 1003, it can be seen that the four Is in the IO format correspond to the two Is in the IPO format. This relationship can be expressed by a function 1006. In the second embodiment, the return value of the label conversion function is a simple relative frequency (2/4 in the example).
 図11は、IPO形式とIO形式とを連携させてラベルを付与する例を示す図である。ここでは、学習方法は系列ラベリングでも分類でもどちらでもよい。以下実施形態1と同じ文章例を用いて、ラベル付与プロセスについて説明する。 FIG. 11 is a diagram illustrating an example in which a label is assigned by linking the IPO format and the IO format. Here, the learning method may be either sequence labeling or classification. The labeling process will be described below using the same sentence example as in the first embodiment.
 ステップS1101は、識別部113がトークン「エア」に対してラベルを付与した状態を示す。ラベル1106はIPO形式で付与されたラベルであり、ラベル1104はIO形式で付与されたラベルである。 Step S1101 shows a state in which the identification unit 113 gives a label to the token “air”. A label 1106 is a label given in the IPO format, and a label 1104 is a label given in the IO format.
 本実施形態2においてラベルを付与する際は、2種類の確信度を考慮する。第1確信度は、「エア」の直前に付与されたラベル1105に対する確信度である。第1確信度は、ラベル1105が他のラベル形式から変換されて付与された場合の変換確信度に相当する。ラベル1106の第1確信度は、その直前のラベル1105が他方のラベルから変換されたものである場合はその変換確信度であり、変換されていない場合は最大値(例えば1.0)である。図11に示す例においては、ラベル1105は変換されたものではないと仮定し、ラベル1106の第1確信度は1.0とする。ラベル1104の第1確信度は、上記手法に基づき0.8と仮定する。 When applying labels in the second embodiment, two types of certainty are considered. The first certainty factor is a certainty factor for the label 1105 given immediately before “air”. The first certainty factor corresponds to the conversion certainty factor when the label 1105 is given after being converted from another label format. The first certainty factor of the label 1106 is the conversion certainty factor when the immediately preceding label 1105 is converted from the other label, and is the maximum value (for example, 1.0) when it is not converted. . In the example shown in FIG. 11, it is assumed that the label 1105 has not been converted, and the first certainty factor of the label 1106 is 1.0. The first certainty factor of the label 1104 is assumed to be 0.8 based on the above method.
 第2確信度は、識別部113によるラベル付与自体の確信度である。ラベル付与の確信度は、ラベル間の境界平面(例えば図5の超平面509)から識別対象ベクトル(図5の点508)までの距離に基づき計算できる。識別対象ベクトルが境界平面から遠いほど、自信を持ってラベルが付与できるので、第2確信度は高くなる。この手法は公知であるため詳細は省略する。ラベル1106の第2確信度は0.5であり、ラベル1104の第2確信度は1.2であったと仮定する。 The second certainty factor is a certainty factor of label assignment itself by the identification unit 113. The certainty of label assignment can be calculated based on the distance from the boundary plane between labels (for example, the hyperplane 509 in FIG. 5) to the identification target vector (point 508 in FIG. 5). The farther the identification target vector is from the boundary plane, the more confident the label can be assigned, so the second certainty factor increases. Since this method is publicly known, details are omitted. It is assumed that the second certainty factor of label 1106 is 0.5 and the second certainty factor of label 1104 is 1.2.
 スコア統合部114は、以上の2種類の確信度を統合してこのラベルの最終的なスコアを計算する。統合の方法はいくつか方法が考えられるが、本実施形態2では両者の積(ラベル1106については1.0*0.5=0.5)をラベル1106のスコア1107とする。同様にラベル1104のスコア1108を求める。ラベル変換部115は、IPO形式によるラベル1106のスコア1107とIO形式によるラベル1104のスコア1108を比較し、大きい方を優先的に選択する。図11に示す例の場合はIO形式で付与したIが選ばれる。 The score integrating unit 114 calculates the final score of this label by integrating the above two types of certainty. There are several possible integration methods. In the second embodiment, the product of both (1.0 * 0.5 = 0.5 for the label 1106) is used as the score 1107 of the label 1106. Similarly, the score 1108 of the label 1104 is obtained. The label conversion unit 115 compares the score 1107 of the label 1106 in the IPO format with the score 1108 of the label 1104 in the IO format, and preferentially selects the larger one. In the case of the example shown in FIG. 11, I given in the IO format is selected.
 ステップS1102は、ラベル1104を変換するステップである。ラベル変換部115は、次のトークン「シリンダー」に対してラベルを付与する際に、IPO形式によるラベル付与結果とIO形式によるラベル付与結果を比較する。したがって、ラベル1104については既にIO形式を採用することが決定したとしても、トークン「シリンダー」に対してラベル付与する前に、ラベル1104をIPO形式へ変換する必要がある。本ステップはそのためのものである。ラベル変換部115は、上述したラベル変換関数を用いて本ステップを実施する。図10で説明したラベル変換関数1006と1007によれば、IO形式のIは、IPO形式のIおよびPにそれぞれ確信度0.5で変換できることがわかる。そこでラベル変換部115は、ラベル1104をそれぞれラベル1109と1110に変換する。変換結果が2つあるため、本ステップにおいてはラベル1109と1110をそれぞれ保持しておく。 Step S1102 is a step of converting the label 1104. When the label conversion unit 115 assigns a label to the next token “cylinder”, the label conversion unit 115 compares the label assignment result in the IPO format with the label assignment result in the IO format. Therefore, even if it is already decided to use the IO format for the label 1104, it is necessary to convert the label 1104 to the IPO format before labeling the token “cylinder”. This step is for that purpose. The label conversion unit 115 performs this step using the label conversion function described above. According to the label conversion functions 1006 and 1007 described with reference to FIG. 10, it can be understood that I in the IO format can be converted into I and P in the IPO format with a certainty factor 0.5. Therefore, the label conversion unit 115 converts the label 1104 into labels 1109 and 1110, respectively. Since there are two conversion results, labels 1109 and 1110 are held in this step, respectively.
 ステップS1103は、トークン「シリンダー」に対してラベル付与するステップである。ラベル変換部115は、ラベル1104およびステップS1102において生成した2つの変換結果を用いて、ステップS1101と同様に2つのラベル形式により「シリンダー」に対してそれぞれラベル1111~1113を付与し、それぞれのスコアを算出する。図11に示す例においては、ラベル1113が最大スコアを得たので最終的に選択されている。 Step S1103 is a step of labeling the token “cylinder”. Using the label 1104 and the two conversion results generated in step S1102, the label conversion unit 115 assigns labels 1111 to 1113 to “cylinders” in two label formats in the same manner as in step S1101, and the respective scores. Is calculated. In the example shown in FIG. 11, the label 1113 is finally selected because it has the maximum score.
 ラベル変換部115は、計算の効率化のため、同じラベル形式による変換候補は1つのみ残して他候補は破棄してもよい。図11に示す例の場合、ステップS1102によってIPO形式は2つの変換候補としてラベル1113と1112を有する。ラベル変換部115はラベル1113と1112それぞれのスコアを比較し、高い方(ラベル1113)を残して低い方(ラベル1112)を破棄する。2つ以上の変換候補が存在している場合も同様に、スコアが最大の変換候補のみを残し、他は破棄する。識別部113とラベル変換部115は、以上のステップを繰り返してラベルを付与する。 The label conversion unit 115 may leave only one conversion candidate in the same label format and discard the other candidates for efficiency of calculation. In the case of the example shown in FIG. 11, the IPO format has labels 1113 and 1112 as two conversion candidates in step S1102. The label conversion unit 115 compares the scores of the labels 1113 and 1112 and discards the lower one (label 1112) while leaving the higher one (label 1113). Similarly, when there are two or more conversion candidates, only the conversion candidate with the maximum score is left, and the others are discarded. The identification unit 113 and the label conversion unit 115 add a label by repeating the above steps.
<実施の形態2:まとめ>
 以上のように、本実施形態2に係るラベル付与装置100は、ラベル形式が異なる複数のラベル付与結果の確信度に基づき、いずれかのラベル付与結果を優先的に選択する。これにより、一方のラベル形式によるラベル変換結果を他方に変換する場合であっても、その変換によって得られるラベルの精度を高めることができる。
<Embodiment 2: Summary>
As described above, the labeling apparatus 100 according to the second embodiment preferentially selects one of the labeling results based on the certainty of a plurality of labeling results having different label formats. Thereby, even if it is a case where the label conversion result by one label format is converted into the other, the precision of the label obtained by the conversion can be improved.
 また、本実施形態2に係るラベル付与装置100は、ラベル付与結果を相互に変換するために用いるラベル変換識別器108を、訓練データ106によって学習する。すなわち訓練データ106を識別器107の学習のみならずラベル変換識別器108の学習においても用いることになるので、訓練データ106を効率的に活用することができる。 Also, the label assigning apparatus 100 according to the second embodiment learns the label conversion discriminator 108 used for mutually converting the label assignment results from the training data 106. That is, since the training data 106 is used not only for learning of the discriminator 107 but also for learning of the label conversion discriminator 108, the training data 106 can be used efficiently.
<実施の形態3>
 実施例2では、2つの異なるラベル形式を相互に変換することについて説明した。本発明の実施形態3では、実施形態2で説明した手法を任意個数のラベル形式に拡張した動作例について説明する。ラベル付与装置100の構成は実施形態1~2と同様であるため、以下では処理フローについて説明する。
<Embodiment 3>
In the second embodiment, the conversion between two different label formats is described. In the third embodiment of the present invention, an operation example in which the method described in the second embodiment is extended to an arbitrary number of label formats will be described. Since the configuration of the label applying apparatus 100 is the same as that of the first and second embodiments, the processing flow will be described below.
 図12は、本実施形態3に係るラベル付与装置100の処理フローチャートである。以下図12の各ステップについて説明する。 FIG. 12 is a process flowchart of the label applying apparatus 100 according to the third embodiment. Hereinafter, each step of FIG. 12 will be described.
(図12:ステップS1201)
 ラベル付与装置100のユーザは、トークン列Tと識別関数集合Mを入力する。本ステップは図8のステップS801に相当する。ラベル形式kについての識別関数をmkで表すことにする。
(FIG. 12: Step S1201)
The user of the label assignment apparatus 100 inputs the token string T and the identification function set M. This step corresponds to step S801 in FIG. The identification function for the label format k is represented by mk.
(図12:ステップS1202)
 識別部113は、全てのラベル形式kについて、ラベル列Lk[]、第1確信度列(ラベル変換の確信度を表す第1確信度の配列)Sk[]、および第2確信度列(ラベル付与自体の確信度を表す第2確信度の配列)Ck[]を初期化する。これら列のインデックスはトークン列のインデックスと連動している。第1確信度列Sk[]については、あらかじめすべて1.0(無変換)に初期化しておく。
(FIG. 12: Step S1202)
The identification unit 113, for all label formats k, includes a label string Lk [], a first certainty factor string (an array of first certainty factors representing the certainty of label conversion) Sk [], and a second certainty factor string (label) The second certainty factor array Ck [] representing the certainty factor of the grant itself is initialized. These column indexes are linked to the token column indexes. The first certainty factor sequence Sk [] is initialized to 1.0 (no conversion) in advance.
(図12:ステップS1203)
 識別部113は、各トークンtn(n=1~N)に対して以下のステップS1204~S1209を実施する。
(FIG. 12: Step S1203)
The identification unit 113 performs the following steps S1204 to S1209 for each token tn (n = 1 to N).
(図12:ステップS1204)
 識別部113は、各ラベル形式kについて以下のステップS1205~S1206を実施する。
(FIG. 12: Step S1204)
The identification unit 113 performs the following steps S1205 to S1206 for each label format k.
(図12:ステップS1205)
 識別部113は、識別関数mkを用いてトークンtnに対してラベル形式kのラベルを付与する。識別部113は、付与したラベル(付与の確信度が最大のラベル)および付与の確信度を記録しておく。直前の繰り返し(すなわち1つ前のトークンtn-1)において、ラベル形式kへラベル変換されていて、かつ、複数の変換結果があった場合は、図11で説明したようにそれら変換結果に対しても同様の処理を実施する。
(FIG. 12: Step S1205)
The identification unit 113 assigns a label of the label format k to the token tn using the identification function mk. The identification unit 113 records the assigned label (the label with the highest certainty of grant) and the certainty of grant. In the previous iteration (that is, the previous token tn−1), when label conversion is performed to label format k and there are a plurality of conversion results, as described with reference to FIG. However, the same processing is performed.
(図12:ステップS1206)
 スコア統合部114は、ステップS1205で算出したスコアを統合する。1つ前のトークンtn-1において、複数の変換結果があった場合は、統合スコアが最大のもののみ残して他を破棄する。
(FIG. 12: Step S1206)
The score integration unit 114 integrates the scores calculated in step S1205. If there are a plurality of conversion results in the previous token tn-1, only the one with the maximum integrated score is left and the others are discarded.
(図12:ステップS1207)
 ラベル変換部115は、統合スコアが最大のラベル形式を選ぶ。ここではラベル形式pを選択したものとする。
(FIG. 12: Step S1207)
The label conversion unit 115 selects a label format having the maximum integrated score. Here, it is assumed that the label format p is selected.
(図12:ステップS1208)
 ラベル変換部115は、各ラベル形式kについてステップS1209を実施する。
(FIG. 12: Step S1208)
The label conversion unit 115 performs step S1209 for each label format k.
(図12:ステップS1209)
 ラベル変換部115は、ラベル形式pから他のラベル形式kへラベルを変換する。変換結果が複数ある場合は、ラベル形式kに関する各変換結果をコピーして保存しておく。ラベル変換部115は、各変換結果のラベルと変換確信度を対応するラベル変換関数によって求め、それぞれラベル列Lk[]と第1確信度列Sk[]に保存する。
(FIG. 12: Step S1209)
The label conversion unit 115 converts the label from the label format p to another label format k. When there are a plurality of conversion results, each conversion result relating to the label format k is copied and stored. The label conversion unit 115 obtains the label of each conversion result and the conversion certainty factor using a corresponding label conversion function, and stores them in the label string Lk [] and the first certainty string Sk [], respectively.
(図12:ステップS1210)
 識別部113(またはラベル変換部115)は、全てのトークンに対してラベルを付与し終えると、ラベル列Lk[]を出力する。
(FIG. 12: Step S1210)
When the identification unit 113 (or label conversion unit 115) finishes assigning labels to all tokens, it outputs the label string Lk [].
 本発明は上記した実施形態の形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。 The present invention is not limited to the embodiment described above, and includes various modifications. The above embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described. A part of the configuration of one embodiment can be replaced with the configuration of another embodiment. The configuration of another embodiment can be added to the configuration of a certain embodiment. Further, with respect to a part of the configuration of each embodiment, another configuration can be added, deleted, or replaced.
 例えば入力文字列が初めから単語に分割されている言語に対してラベルを付与する場合は、トークン分割部110を省略することができる。また、上記例においてはラベル形式としてIO形式とIPO形式を例示し、学習手法として系列ラベリングと分類を例示したが、これら以外を学習した識別器についても本発明の手法を適用することができる。 For example, when a label is given to a language in which the input character string is divided into words from the beginning, the token dividing unit 110 can be omitted. In the above example, the IO format and the IPO format are exemplified as the label format, and the sequence labeling and classification are exemplified as the learning method. However, the method of the present invention can be applied to classifiers that have learned other than these.
 上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。 The above components, functions, processing units, processing means, etc. may be realized in hardware by designing some or all of them, for example, with an integrated circuit. Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor. Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
 101 CPU
 102 メモリ
 103 キーボード・マウス
 104 ディスプレイ
 105 2次記憶装置
 106 訓練データ
 107 識別器
 108 ラベル変換識別器
 109 制御部
 110 トークン分割部
 111 識別器学習部
 112 ラベル変換識別器学習部
 113 識別部
 114 スコア統合部
 115 ラベル変換部
 116 データ通信部
 117 ネットワーク
101 CPU
DESCRIPTION OF SYMBOLS 102 Memory 103 Keyboard / mouse 104 Display 105 Secondary storage device 106 Training data 107 Classifier 108 Label conversion classifier 109 Control part 110 Token division part 111 Classifier learning part 112 Label conversion classifier learning part 113 Identification part 114 Score integration part 115 Label converter 116 Data communication unit 117 Network

Claims (10)

  1.  文字列データに対してラベルを付与する装置であって、
     訓練データを用いて文字列に対するラベルの付け方を学習した結果を格納する第1および第2識別器、
     前記第1および第2識別器を用いて文字列データにラベルを付与する識別部、
     を備え、
     前記識別部は、前記文字列データ内のトークンに対して前記第1識別器を用いてラベルを付与すると第1ラベルが付与され、前記第2識別器を用いてラベルを付与すると第2ラベルが付与された場合、前記第1および第2ラベルそれぞれの種別にしたがって、いずれかを優先的に選択する
     ことを特徴とするラベル付与装置。
    A device for attaching a label to character string data,
    First and second discriminators for storing results of learning how to label labels with training data;
    A discriminator for giving a label to character string data using the first and second discriminators;
    With
    The identification unit gives a first label when a label is given to the token in the character string data using the first discriminator, and a second label is given when a label is given using the second discriminator. When given, according to the classification of each of the first and second labels, one of them is preferentially selected.
  2.  前記ラベル付与装置はさらに、
     前記第1識別器を用いて前記訓練データに対してラベルを付与した結果と、前記第2識別器を用いて前記訓練データに対してラベルを付与した結果との間の対応関係を、前記訓練データを用いて学習した結果を格納するラベル変換識別器、
     前記ラベル変換識別器を用いて、前記第1識別器を用いて前記文字列データに対してラベルを付与した結果と、前記第2識別器を用いて前記文字列データに対してラベルを付与した結果とを相互に変換するラベル変換部、
     を備えることを特徴とする請求項1記載のラベル付与装置。
    The labeling device further includes
    The correspondence between the result of assigning a label to the training data using the first discriminator and the result of assigning the label to the training data using the second discriminator A label conversion discriminator for storing results learned using data,
    Using the label conversion discriminator, labeling the character string data using the first discriminator and labeling the character string data using the second discriminator A label conversion unit that converts results to each other,
    The label applying apparatus according to claim 1, further comprising:
  3.  前記識別部は、前記文字列データ内の第1トークンに対して付与したラベルの確信度を表す第1確信度を求め、
     前記ラベル変換部は、前記第1トークンの前記第1確信度と、前記第1トークンよりも1つ前の第2トークンに対して付与されたラベルの確信度を表す第2確信度とを用いて求めた統合確信度を、前記識別部が前記第1識別器を用いてラベル付与した結果と前記第2識別器を用いてラベル付与した結果それぞれについて求め、前記統合確信度が大きい方のラベル付与結果を優先的に選択する
     ことを特徴とする請求項2記載のラベル付与装置。
    The identification unit obtains a first certainty factor representing a certainty factor of a label given to the first token in the character string data;
    The label conversion unit uses the first certainty factor of the first token and a second certainty factor representing a certainty factor of a label given to the second token immediately before the first token. The integrated confidence level obtained from the above is obtained for each of the result of labeling by the discriminator using the first discriminator and the result of labeling using the second discriminator, and the label having the higher integrated confidence level. The labeling apparatus according to claim 2, wherein the application result is preferentially selected.
  4.  前記ラベル変換識別器は、前記変換の確信度を表す変換確信度を保持しており、
     前記ラベル変換部は、
      前記第2トークンが前記ラベル変換識別器による前記変換にしたがってラベル付与されたものである場合は、前記第2確信度として前記ラベル変換識別器が保持している前記変換確信度を採用し、
      前記第2トークンが前記ラベル変換識別器による前記変換にしたがってラベル付与されたものでない場合は、前記第2確信度として最大の確信度を採用する
     ことを特徴とする請求項3記載のラベル付与装置。
    The label conversion discriminator holds a conversion certainty representing the certainty of the conversion,
    The label conversion unit
    When the second token is given a label according to the conversion by the label conversion discriminator, adopt the conversion certainty held by the label conversion discriminator as the second certainty,
    4. The label assigning apparatus according to claim 3, wherein when the second token is not assigned according to the conversion by the label conversion discriminator, the maximum certainty is adopted as the second certainty. .
  5.  前記ラベル変換識別器は、前記変換の候補を1以上保持しており、
     前記ラベル変換部は、前記統合確信度が大きい方のラベル付与結果を採用した後、前記第1トークンを各前記候補に変換するとともに各前記候補の前記変換確信度を取得し、
     前記識別部は、前記第1トークンよりも1つ後の第3トークンに対して付与したラベルの確信度を表す第3確信度を各前記候補と前記第1トークンそれぞれについて求め、
     前記ラベル変換部は、前記第1トークンについて求めた前記第3確信度と前記第1トークンに対して付与されたラベルの確信度とを用いて求めた統合確信度、および各前記候補について求めた前記第3確信度と各前記候補の前記変換確信度とを用いて求めた統合確信度を求め、最も大きい統合確信度が得られたラベル付与結果を採用する
     ことを特徴とする請求項3記載のラベル付与装置。
    The label conversion discriminator holds one or more conversion candidates,
    The label conversion unit, after adopting the labeling result with the larger integrated certainty factor, converts the first token into each candidate and acquires the conversion certainty factor of each candidate,
    The identification unit obtains a third certainty factor representing a certainty factor of a label given to the third token one after the first token for each of the candidates and the first token,
    The label conversion unit obtains the integrated certainty factor obtained using the third certainty factor obtained for the first token and the certainty factor of the label given to the first token, and the respective candidate candidates. 4. The integrated certainty factor obtained using the third certainty factor and the conversion certainty factor of each of the candidates is obtained, and a labeling result obtained with the largest integrated certainty factor is adopted. Labeling device.
  6.  前記ラベル変換部は、前記第3トークンに対して付与するラベルを決定した後、各前記候補について求めた前記第3確信度と各前記候補の前記変換確信度とを用いて求めた統合確信度のうち最も大きいものが得られたものに対応する前記候補のみを残し、他の前記候補はラベル付与結果の候補から削除する
     ことを特徴とする請求項5記載のラベル付与装置。
    After determining the label to be given to the third token, the label conversion unit determines the integrated certainty factor obtained using the third certainty factor obtained for each candidate and the conversion certainty factor of each candidate. The label assignment apparatus according to claim 5, wherein only the candidate corresponding to the one of which the largest one is obtained is left, and the other candidates are deleted from the candidates for label assignment results.
  7.  前記識別器は、前記第1ラベルを付与したトークンの品詞と、前記第2ラベルを付与したトークンの品詞とのうちいずれかを優先し、前記第1ラベルと前記第2ラベルのうち前記優先する方の品詞に対応するものを優先的に選択する
     ことを特徴とする請求項1記載のラベル付与装置。
    The discriminator gives priority to either the part of speech of the token to which the first label is assigned or the part of speech of the token to which the second label is given, and the priority is given to the first label or the second label. The labeling apparatus according to claim 1, wherein a label corresponding to the part of speech of the person is preferentially selected.
  8.  前記第1識別器は、系列ラベリングまたは分類ラベリングのいずれか一方を用いて前記学習を実施した結果を格納し、前記第2学習器はその他方を用いて前記学習を実施した結果を格納する
     ことを特徴とする請求項1記載のラベル付与装置。
    The first discriminator stores a result of performing the learning using one of sequence labeling or classification labeling, and the second learner stores a result of performing the learning using the other one. The label applicator according to claim 1.
  9.  前記第1識別器は、IO形式またはIPO形式のいずれか一方を用いて前記学習を実施した結果を格納し、前記第2学習器はその他方を用いて前記学習を実施した結果を格納する
     ことを特徴とする請求項1記載のラベル付与装置。
    The first discriminator stores the result of performing the learning using either the IO format or the IPO format, and the second learner stores the result of performing the learning using the other. The label applicator according to claim 1.
  10.  文字列データに対してラベルを付与する方法であって、
     訓練データを用いて文字列に対するラベルの付け方を学習した結果を格納する第1および第2識別器を用いて文字列データにラベルを付与するステップ、
     前記文字列データ内のトークンに対して前記第1識別器を用いてラベルを付与すると第1ラベルが付与され、前記第2識別器を用いてラベルを付与すると第2ラベルが付与された場合、前記第1および第2ラベルそれぞれの種別にしたがって、いずれかを優先的に選択するステップ、
     を有することを特徴とするラベル付与方法。
    A method of assigning a label to character string data,
    Assigning a label to the character string data using first and second discriminators that store the result of learning how to label the character string using the training data;
    When a first label is given to the token in the character string data using the first discriminator, a first label is given, and when a label is given using the second discriminator, a second label is given, Preferentially selecting one according to the type of each of the first and second labels;
    A labeling method characterized by comprising:
PCT/JP2014/062216 2014-05-07 2014-05-07 Labeling device and labeling method WO2015170370A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/062216 WO2015170370A1 (en) 2014-05-07 2014-05-07 Labeling device and labeling method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/062216 WO2015170370A1 (en) 2014-05-07 2014-05-07 Labeling device and labeling method

Publications (1)

Publication Number Publication Date
WO2015170370A1 true WO2015170370A1 (en) 2015-11-12

Family

ID=54392240

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/062216 WO2015170370A1 (en) 2014-05-07 2014-05-07 Labeling device and labeling method

Country Status (1)

Country Link
WO (1) WO2015170370A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246795A (en) * 2012-05-29 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> Proper expression extraction device, method and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246795A (en) * 2012-05-29 2013-12-09 Nippon Telegr & Teleph Corp <Ntt> Proper expression extraction device, method and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MASATOSHI TSUCHIYA ET AL.: "Chunking Japanese Compound Functional Expressions by Machine Learning", JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 14, no. 1, 10 January 2007 (2007-01-10), pages 1 - 8, XP055234002 *

Similar Documents

Publication Publication Date Title
JP5031741B2 (en) Grammatical analysis of document visual structure
CN108959257B (en) Natural language parsing method, device, server and storage medium
JP5599662B2 (en) System and method for converting kanji into native language pronunciation sequence using statistical methods
CN107644011A (en) System and method for the extraction of fine granularity medical bodies
JP6506770B2 (en) Method and apparatus for recognizing music symbols
CN112507090B (en) Method, apparatus, device and storage medium for outputting information
JP2011146028A (en) Character recognition method and character recognition device
CN110348282A (en) The method and apparatus identified again for pedestrian
CN111144102B (en) Method and device for identifying entity in statement and electronic equipment
JP2022037955A (en) System for selecting learning model
KR20220122456A (en) Method for de-identifying personally identifiable information contained in video data, and device performing the same
JP2019032704A (en) Table data structuring system and table data structuring method
CN109408175B (en) Real-time interaction method and system in general high-performance deep learning calculation engine
US11321397B2 (en) Composition engine for analytical models
JP5890340B2 (en) Image classification device and image classification program
JP7046786B2 (en) Machine learning systems, domain converters, and machine learning methods
WO2015170370A1 (en) Labeling device and labeling method
CN104298752B (en) The automatic extending method of program code initialism based on web page resource
KR20200086586A (en) Knowledge extraction system using frame based on ontology
KR102474042B1 (en) Method for analyzing association of diseases using data mining
US11132500B2 (en) Annotation task instruction generation
JP6190341B2 (en) DATA GENERATION DEVICE, DATA GENERATION METHOD, AND PROGRAM
US20210006747A1 (en) Image processing apparatus, image processing method and medium
CN110378378B (en) Event retrieval method and device, computer equipment and storage medium
CN104981819A (en) Character recognition system, character recognition program and character recognition method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14891417

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14891417

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP