WO2019163752A1 - 形態素解析学習装置、形態素解析装置、方法、及びプログラム - Google Patents

形態素解析学習装置、形態素解析装置、方法、及びプログラム Download PDF

Info

Publication number
WO2019163752A1
WO2019163752A1 PCT/JP2019/006046 JP2019006046W WO2019163752A1 WO 2019163752 A1 WO2019163752 A1 WO 2019163752A1 JP 2019006046 W JP2019006046 W JP 2019006046W WO 2019163752 A1 WO2019163752 A1 WO 2019163752A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
morpheme
character
learning
unit
Prior art date
Application number
PCT/JP2019/006046
Other languages
English (en)
French (fr)
Inventor
鈴木 潤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/970,890 priority Critical patent/US11893344B2/en
Publication of WO2019163752A1 publication Critical patent/WO2019163752A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Definitions

  • the present invention relates to a morphological analysis learning device, a morphological analysis device, a method, and a program, and more particularly, to a morphological analysis learning device, a morphological analysis device, a method, and a program for performing a morphological analysis of an input sentence.
  • Natural language is a language normally used by humans, such as Japanese and English.
  • a technique for analyzing a sentence described in a natural language grammatically or semantically has a high academic significance from a linguistic viewpoint, for example, to understand the origin and structure of the language.
  • various services that automatically analyze grammatically and semantically human-generated sentences and use the results have been developed mainly on the web.
  • services such as a translation site, a reputation analysis site for people and products, and a summary site for a specific event correspond to this.
  • electronic text generated by humans is grammatically and semantically analyzed in the system, and actual services are provided using them.
  • grammatical and semantic analysis of natural language is the core technology of these services, and has come to occupy a very important position in the information processing field.
  • natural language analysis includes everything from surface analysis such as word segmentation and part-of-speech estimation to more advanced analysis such as estimation of dependency relationships between words and clauses. For example, there are “sentence breaks” that estimate sentence breaks from sentences, “word breaks” that estimate word breaks, part-of-speech assignment that estimates part-of-speech of words, and dependency analysis that estimates relations between words and clauses. . Examples of these are shown in FIG.
  • the present invention focuses particularly on Japanese morphological analysis.
  • the Japanese morphological analyzer mainly includes processing including all of morpheme separation, part-of-speech estimation, utilization form estimation, reading estimation, and basic form estimation.
  • FIG. 8 in the conventional Japanese morpheme analysis, a method of solving the problem by selecting a morpheme registered in the morpheme dictionary as a candidate and selecting an optimal morpheme sequence for the input sentence is currently the most mainstream analysis. This can be said to be a method (Non-Patent Document 1).
  • the conventional mainstream method of Japanese morpheme analysis is known as a very effective method when a sentence is composed only of morphemes registered in a morpheme dictionary.
  • good analysis results are often not obtained when many morphemes that are not registered in the morpheme dictionary, that is, so-called unknown words are included.
  • a character-by-character analysis method that does not depend on the morpheme dictionary has been proposed as a relatively strong analysis method for unknown words, but the analysis accuracy is relatively low for sentences with many words registered in the morpheme dictionary. There is generally a trade-off (see FIG. 9).
  • the rate of whether or not a morpheme that appears in a sentence is registered in the dictionary differs greatly depending on the sentence to be analyzed.
  • the coverage of the morpheme dictionary is considerably high.
  • articles generated by general end users, such as blogs contain many misprints, misuses, colloquial expressions, and the like, and the relatively distorted expressions increase, so the coverage of the morpheme dictionary decreases.
  • the coverage of the morpheme dictionary can be estimated to some extent depending on the object to be analyzed, but strictly speaking, it is almost always unknown, and the analysis object is written according to the author and situation. There are many cases where there is no way to know if they are.
  • the present invention has been made in view of the above circumstances.
  • a morpheme analysis learning device, a morpheme analysis device, a method, and a program capable of achieving high overall analysis accuracy regardless of the coverage of the morpheme dictionary.
  • the purpose is to provide.
  • the morphological analysis learning device includes a sampling unit that acquires learning data that is a pair of a learning input sentence and a morpheme label sequence that is a morpheme analysis result of the learning input sentence.
  • a division unit that divides the learning input sentence of the learning data into character units, a character vector acquisition unit that acquires a character vector for each character of the learning input sentence, and a partial character string of the learning input sentence Further, from the morpheme dictionary, a morpheme information matching the partial character string is obtained, a dictionary vector obtaining unit for obtaining a morpheme vector representing the obtained morpheme information, and a character vector and a morpheme for each character of the input sentence for learning.
  • a vector combining unit that generates a combined vector by combining information vectors, and combines the combined vector with a predetermined probability without combining the morpheme information vector.
  • a vector predictor using a coding unit for assigning a morpheme label to the combined vector generated for each character by the vector synthesizing unit, and the coding unit includes: The sequence prediction is performed so that a morpheme label sequence obtained by inputting the output of the previous encoding unit to the sequence predictor and sequentially calculating the morpheme label sequence of the learning data becomes the morpheme label sequence of the learning data.
  • a parameter learning unit that learns the parameters of the device.
  • the sampling unit acquires learning data that is a pair of the learning input sentence and a morpheme label sequence that is a morpheme analysis result of the learning input sentence, and the dividing unit ,
  • the learning input sentence of the learning data is divided into characters, a character vector acquisition unit acquires a character vector for each character of the learning input sentence, and a dictionary vector acquisition unit is a part of the learning input sentence
  • morpheme information that matches the partial character string is acquired from the morpheme dictionary, a morpheme vector representing the acquired morpheme information is acquired, and the vector synthesis unit generates a character for each character of the input sentence for learning.
  • a vector combining unit that generates a combined vector by combining a vector and a morpheme information vector, and generates the combined vector without combining the morpheme information vector with a predetermined probability.
  • the parameter learning unit is a sequence predictor using an encoding unit for assigning a morpheme label to the combined vector generated for each character by the vector combining unit, and the encoding unit includes: The sequence prediction is performed so that a morpheme label sequence obtained by inputting the output of the previous encoding unit to the sequence predictor and sequentially calculating the morpheme label sequence of the learning data becomes the morpheme label sequence of the learning data. Learn the instrument parameters.
  • the morpheme analyzer includes a dividing unit that divides an input sentence into character units, a character vector acquisition unit that acquires a character vector for each character, and a partial character string from the morpheme dictionary.
  • a dictionary vector acquisition unit that acquires morpheme information that matches a column, acquires a morpheme vector that represents the acquired morpheme information, and a vector combination unit that generates a combined vector that combines a character vector and a morpheme information vector for each character;
  • a morpheme analyzer comprising: a morpheme analyzer that includes a learning input sentence and a pair of
  • the dividing unit divides the input sentence into character units, the character vector obtaining unit obtains a character vector for each character, and the dictionary vector obtaining unit obtains a morpheme for each partial character string.
  • the morpheme information matching the partial character string is acquired from the dictionary, the morpheme vector representing the acquired morpheme information is acquired, and the vector synthesis unit generates a synthesized vector obtained by synthesizing the character vector and the morpheme information vector for each character.
  • the morpheme prediction unit is a sequence predictor using a coding unit for assigning a morpheme label to the synthesized vector generated for each character by the vector synthesis unit, and the coding unit includes: , Input to the sequence predictor that takes the output of the previous coding unit as an input, and sequentially calculate the morpheme label string, the morpheme analysis result of the input sentence
  • the sequence predictor outputs the learning input sentence of learning data that is a pair of a learning input sentence and a morpheme label sequence that is a morpheme analysis result of the learning input sentence.
  • a combined vector obtained by combining a character vector and a morpheme information vector, and the combined vector generated without combining the morpheme information vector with a predetermined probability is input to the sequence predictor.
  • the morpheme label string obtained by the sequential calculation is learned in advance so as to become the morpheme label string of the learning data.
  • the program according to the present invention is a program for causing a computer to function as each unit of the morphological analysis learning device or the morphological analysis device.
  • a synthesized vector obtained by synthesizing a character vector and a morpheme information vector, and the synthesis generated without synthesizing the morpheme information vector with a predetermined probability Covering the morpheme dictionary by learning the parameters of the sequence predictor so that the morpheme label sequence obtained by inputting the vector into the sequence predictor and sequentially calculating it becomes the morpheme label sequence of the learning data Regardless of the rate, it is possible to learn a sequence predictor that can achieve high analysis accuracy as a whole.
  • a synthesized vector obtained by synthesizing a character vector and a morpheme information vector which is generated without synthesizing the morpheme information vector with a predetermined probability.
  • a sequence label predictor based on a neural network is used as a base morphological analyzer (Non-Patent Document 2).
  • the morpheme information registered in the morpheme dictionary is used as the feature quantity of the sequence label predictor based on the neural network. This makes it possible to achieve analysis accuracy equivalent to that of the conventional method in a situation where the coverage of the morpheme dictionary is relatively high.
  • learning is performed using learning data in a partially or completely concealed dictionary information in learning data with a certain probability.
  • a situation where the coverage of the morphological dictionary is high and low is created in a pseudo manner, and the morphological analyzer is learned.
  • the morpheme analysis system is a process that receives an input sentence, divides it into predefined morpheme units, and gives parts of speech, inflection forms, readings, basic forms, and the like.
  • an embodiment of the present invention will be described by taking a morphological analysis system using a neural network-based sequence predictor (Non-Patent Document 2) as a base methodology.
  • Process 1 Divide the input sentence into characters.
  • Process 2 Get the vectors assigned to each character and build a list of vectors for the input sentence.
  • Process 3 Matches morpheme dictionary entries to all partial character strings of the input sentence, and constructs a list of vectors corresponding to the matched entries for each partial character string.
  • Process 4 The list of vectors constructed in the above processes 2 and 3 is input, and a combined vector list is generated.
  • Process 5 The list of vectors constructed in the above process 4 is input, a predetermined sequence predictor calculation process is performed, and a prediction result of the morpheme label sequence for the input sentence is generated. The morpheme label sequence generated by the sequence predictor is output.
  • the input to the system according to the embodiment of the present invention is a Japanese sentence written in a natural language.
  • description will be made assuming that articles such as news articles and blog articles are mainly input.
  • a conversion table that converts bytes expressed in a computer into characters can be uniquely converted depending on the character code so that it can be easily guessed from the fact that text editors and browsers can display sentences. can do.
  • a sentence described based on unicode is input.
  • any processing may be used.
  • c is a symbol representing a character.
  • a set of characters is represented by C. That is, c ⁇ C.
  • I be the number of characters in the input sentence.
  • i a variable from 1 to I
  • Is a pre-trained neural network parameter Is a D ⁇ N matrix.
  • D is an arbitrary natural number
  • N is the number of elements in the character set C.
  • a character vector corresponding to each character c i in the input sentence is acquired. Because the corresponding character vector is assumed to be determined in advance according to the type of character c i. For example, the i-th character c i in the input sentence is the n-th character in the character set C.
  • x i is a vector in which the n-th element is 1 and the rest are all 0 according to the number n in the vocabulary of c i .
  • T be the morpheme dictionary.
  • the number of entries in the morpheme dictionary is represented by S.
  • the sth entry is denoted by t s .
  • T ⁇ T for all s.
  • s is an integer from 1 to S.
  • a certain dictionary entry t s is composed of a character string (t s, 1 ,..., T s, n ).
  • z be an S-dimensional vector.
  • the element of z is a vector in which the element that matches the number in the morpheme dictionary of the matched dictionary entry is 1, and the others are 0.
  • Is a pre-trained neural network parameter Is a D ⁇ S matrix composed of vectors corresponding to each entry of the morpheme dictionary.
  • a morpheme vector is acquired by the following formula as morpheme dictionary information for the i-th character in the input sentence.
  • f i is a D-dimensional vector, and corresponds to a vector obtained by adding all morpheme dictionary entries that match the i-th character.
  • p is a variable that takes 0 or 1.
  • a value of 0 or 1 is assigned probabilistically during learning.
  • a value of 1 is always assigned at the time of actual morphological analysis. How to probabilistically assign the value of p during learning will be described in the description of the learning process.
  • sequence predictor configurations There are many types of sequence predictor configurations that are actually used.
  • an example of using a LSTM (Long Short Term Memory) often used as a sequence predictor is shown.
  • W 1 , W 2 , W 3 , W 4 , V 1 , V 2 , V 3 , V 4 are H ⁇ H matrix
  • b 1 , b 2 , b 3 , b 4 are H-dimensional vectors, respectively. .
  • ⁇ 1 (x) accepts a vector x as input and a sigmoid function for each element x i of the input vector x
  • ⁇ 2 ( ⁇ ) is the tanh function for each element x of the input vector. Is a function that performs a process of calculating and returning as a new vector.
  • any coding unit can be basically used as long as the coding unit inputs are g i and h i ⁇ 1 and the output can be written in the format of h i . In this process, a list of h i for all processing units i is obtained.
  • (h i ) I i-1 (h 1 , ..., h I ).
  • a label to be assigned to each character is predicted using the list of vectors.
  • Y represents the set of morpheme labels to be assigned to each character.
  • M be the number of elements in the morpheme label set.
  • the m-th morpheme label and be expressed as y m.
  • ⁇ y i be the morpheme label for the i-th character.
  • ⁇ Y i ⁇ Y for all i.
  • o i m be the output corresponding to the i-th character from the beginning of the input sentence, and represent the score for selecting the m-th morpheme label in the morpheme dictionary T.
  • o be the vector notation of the scores of the first through Mth labels in the morpheme label Y for the i-th character of the input sentence.
  • W (o) is a pre-learned neural network parameter
  • W (o) is an M ⁇ H matrix
  • b (o) is a pre-learned neural network parameter
  • b (o) Let be an M-dimensional vector.
  • This expression corresponds to the process of selecting the morpheme label corresponding to the element number m having the largest value.
  • each component of the morphological analysis here is a neural network
  • the parameters of the neural network are determined by the machine learning method using the learning data.
  • the learning data is represented by D.
  • (X n , Y n ) represents the nth data in the learning data.
  • parameters in a character-based morphological analysis system using a neural network are determined as a solution to the following objective function minimization problem.
  • W is a symbol that represents a set of all parameters
  • W ⁇ is a symbol that represents a set of optimal parameters obtained as a result of optimization.
  • L is called a loss function
  • W and D are variables here. That is, the learning of the parameter W is a process of updating W so that the loss function L takes as small a value as possible.
  • learning of the sequence predictor is performed using learning data in a state where the morpheme dictionary information is partially concealed so as to reduce the loss shown in the following equation.
  • p is the p described in Process 4.
  • Various cases can be considered as to how to determine this p, but here, a case where it is determined at random using random numbers is considered.
  • Rand (0,1) is a function that outputs 0 or 1 with equal probability.
  • the specific parameter learning process is as follows.
  • One data (X, Y) is selected from the learning data D. 2.
  • the loss shown in Equation (11) is calculated using the selected data (X, Y). 3. W is updated so that the loss value of Equation (11) becomes smaller. Four. If the predefined termination condition is satisfied, the process ends. If not, the process returns to 1.
  • a morpheme analyzer 100 includes a CPU, a RAM, and a ROM that stores a program and various data for executing a morpheme analysis processing routine described later. Can be configured with a computer. Functionally, the morphological analyzer 100 includes an input unit 10, an arithmetic unit 20, and an output unit 50 as shown in FIG.
  • the input unit 10 receives an input sentence to be subjected to morphological analysis.
  • the calculation unit 20 includes a division unit 22 and an analysis unit 24.
  • the dividing unit 22 divides the input sentence into character units.
  • the analysis unit 24 includes a character vector storage unit 26, a character vector acquisition unit 28, a morpheme dictionary 30, a morpheme vector storage unit 32, a dictionary vector acquisition unit 34, a vector synthesis unit 36, and a morpheme prediction unit 38. I have.
  • the character vector storage unit 26 stores a character vector for each character.
  • the character vector acquisition unit 28 acquires a character vector for each character of the input sentence from the character vector storage unit 26 and outputs a list of character vectors.
  • the morpheme dictionary 30 stores morpheme information for each morpheme.
  • the morpheme vector storage unit 32 stores a morpheme vector for each morpheme.
  • the dictionary vector acquisition unit 34 acquires an entry of morpheme information that matches the partial character string from the morpheme dictionary 30 for each partial character string of the input sentence, and stores a vector representing the acquired morpheme information as a morpheme vector storage unit 32. For each character of the input sentence, a morpheme vector obtained by adding a vector corresponding to an entry of morpheme information matching the partial character string including the character is obtained, and a list of morpheme vectors is output.
  • the vector synthesis unit 36 generates a synthesized vector by synthesizing the character vector and the morpheme information vector for each character of the input sentence according to the above formula (3), and outputs a list of synthesized vectors.
  • the morpheme prediction unit 38 is a sequence predictor using an encoding unit for assigning a morpheme label to the combined vector generated for each character by the vector combining unit 36, and one encoding unit is provided.
  • the output of the previous coding unit is input to a sequence predictor, which is sequentially calculated according to the above equation (4), and morpheme labels are sequentially selected according to the above equation (7), and the morpheme label string is input.
  • the output unit 50 outputs the result as the morphological analysis of the sentence.
  • the parameters of the sequence predictor used in the morpheme prediction unit 38 are learned in advance by a morpheme analysis learning device 150 described later.
  • the morphological analysis learning device 150 includes a CPU, a RAM, a ROM that stores a program and various data for executing a morphological analysis learning processing routine described later, Can be configured with a computer including Functionally, the morphological analysis learning device 150 includes an input unit 60 and a calculation unit 70 as shown in FIG.
  • the input unit 60 accepts N pieces of learning data that are pairs of a learning input sentence and a morpheme label string that is a morphological analysis result of the learning input sentence.
  • the computing unit 70 includes a sampling unit 72, a dividing unit 74, an analyzing unit 76, and a parameter learning unit 78.
  • Sampling unit 72 acquires one learning data from N pieces of learning data received by input unit 60.
  • the dividing unit 74 divides the learning input sentence of the learning data acquired by the sampling unit 72 into character units.
  • the analysis unit 76 is a character vector storage unit, a character vector acquisition unit, a morpheme dictionary, a morpheme vector storage unit, a dictionary vector acquisition unit, a vector synthesis unit, And a morpheme prediction unit.
  • the character vector acquisition unit acquires a character vector for each character of the input text for learning from the character vector storage unit, and outputs a list of character vectors.
  • the dictionary vector acquisition unit acquires an entry of morpheme information that matches the partial character string from the morpheme dictionary for each partial character string of the input sentence for learning, and stores a vector representing the acquired morpheme information in the morpheme vector storage. For each character of the input sentence for learning, a morpheme vector obtained by adding a vector corresponding to an entry of morpheme information matching the partial character string including the character is obtained, and a list of morpheme vectors is output.
  • the vector synthesis unit generates a synthesized vector by synthesizing the character vector and the morpheme information vector according to the above equation (3) for each character of the learning input sentence, and outputs a synthesized vector list.
  • the vector synthesis unit determines p in accordance with the above equation (12) to generate a synthesis vector that randomly synthesizes the character vector and the morpheme information vector, or synthesizes without synthesizing the morpheme information vector. It is determined whether to generate a vector, and a combined vector is generated.
  • the vector synthesizing unit synthesizes so as to equally use both a case where a synthesized vector obtained by synthesizing a character vector and a morpheme information vector is generated and a case where a synthesized vector is generated without synthesizing a morpheme information vector. Generate a vector.
  • the morpheme prediction unit is a sequence predictor that uses an encoding unit for assigning a morpheme label to the combined vector generated for each character by the vector combining unit, and has only one encoding unit. Input the output of the previous coding unit to the input sequence predictor, calculate sequentially according to the above equation (4), select the morpheme labels sequentially according to the above equation (7), and learn the morpheme label string Output as morphological analysis results for input text.
  • the parameter learning unit 78 learns the parameters of the sequence predictor according to the above equation (11) so that the morpheme label sequence obtained by the analysis unit 76 becomes the morpheme label sequence of the learning data. It should be noted that both the case where the vector combining unit of the analyzing unit 76 generates a combined vector obtained by combining the character vector and the morpheme information vector and the case where the combined vector is generated without combining the morpheme information vector are used equally. Thus, when generating a composite vector, the parameters of the sequence predictor are learned according to the above equation (13).
  • Each process of the sampling unit 72, the dividing unit 74, the analyzing unit 76, and the parameter learning unit 78 is repeated until the end condition is satisfied.
  • step S100 one learning data is acquired from the N learning data received by the input unit 60.
  • step S102 morphological analysis is performed on the input sentence for learning of the learning data acquired in step S100.
  • Step S102 is realized by the processing routine shown in FIG.
  • step S110 the learning input sentence of the learning data acquired in step S100 is divided into character units.
  • step S112 a character vector is acquired for each character of the learning input sentence from the character vector storage unit, and a list of character vectors is output.
  • step S114 for each partial character string of the input sentence for learning, an entry of morpheme information matching the partial character string is acquired from the morpheme dictionary, and a vector representing the acquired morpheme information is acquired from the morpheme vector storage unit. For each character of the input text for learning, a morpheme vector obtained by adding a vector corresponding to an entry of morpheme information matching the partial character string including the character is obtained, and a list of morpheme vectors is output.
  • step S116 for each character of the input text for learning, p is determined according to the above equation (12), so that a combined vector obtained by randomly combining the character vector and the morpheme information vector is generated, or the morpheme information vector is Decide whether to generate a combined vector without combining.
  • step S118 for each character of the input text for learning, a combined vector is generated by combining the character vector and the morpheme information vector according to the above equation (3), and a list of combined vectors is output.
  • step S120 the combined vector generated for each character is a sequence predictor using an encoding unit for assigning a morpheme label, and the encoding unit outputs the output of the previous encoding unit.
  • Output as.
  • the loss is calculated according to the above equation (11) based on the morpheme label string obtained in step S120 and the morpheme label string of the learning data.
  • step S106 the parameters of the sequence predictor are updated in the direction in which the loss calculated in step S104 is reduced.
  • step S108 it is determined whether or not the end condition is satisfied. If the end condition is not satisfied, the process returns to step S100. On the other hand, if the end condition is satisfied, the morphological analysis learning process routine is ended.
  • step S130 the input sentence received by the input unit 10 is divided into character units.
  • step S132 a character vector is acquired for each character of the input sentence from the character vector storage unit 26, and a list of character vectors is output.
  • step S134 for each partial character string of the input sentence, an entry of morpheme information matching the partial character string is acquired from the morpheme dictionary 30, and a vector representing the acquired morpheme information is acquired from the morpheme vector storage unit 32.
  • a morpheme vector obtained by adding a vector corresponding to the entry of the morpheme information matching the partial character string including the character is obtained, and a list of morpheme vectors is output.
  • step S136 for each character of the input sentence, a synthesized vector is generated by synthesizing the character vector and the morpheme information vector according to the above equation (3), and a list of synthesized vectors is output.
  • step S138 the combined vector generated for each character is a sequence predictor using an encoding unit for assigning a morpheme label, and the encoding unit is the previous encoding unit.
  • the output is input to a series predictor and is calculated sequentially according to the above equation (4), and morpheme labels are sequentially selected according to the above equation (7).
  • the output is performed by the output unit 50, and the morphological analysis processing routine is terminated.
  • the parameters of the sequence predictor are learned so that the morpheme label sequence obtained by inputting the combined vector generated in step S1 to the sequence predictor and sequentially calculating the sequence becomes the morpheme label sequence of the learning data.
  • the synthesized vector is a synthesized vector of a character vector and a morpheme information vector, and is generated with a predetermined probability without synthesizing the morpheme information vector.
  • the main purpose is to improve the problem of analysis accuracy trade-off for unknown words described above, and overall high analysis accuracy is achieved even in the situation of coverage of all morpheme dictionaries. Can do.
  • the morphological analysis learning device and the morphological analysis device are configured as separate devices, but may be configured as a single device.
  • the morpheme analysis learning device and the morpheme analysis device described above have a computer system inside. However, if the “computer system” uses a WWW system, a homepage providing environment (or display environment) ).
  • the program has been described as an embodiment in which the program is installed in advance.
  • the program can be provided by being stored in a computer-readable recording medium.

Abstract

形態素辞書の被覆率に関わらず、総じて高い解析精度を達成することができる。 形態素予測部38が、ベクトル合成部36によって文字毎に生成された合成ベクトルを、系列予測器に入力して、順次計算して、形態素ラベル列を、入力文章の形態素解析結果として出力する。このとき、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された合成ベクトルを、系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、学習データの形態素ラベル列となるように予め学習された系列予測器を用いる。

Description

形態素解析学習装置、形態素解析装置、方法、及びプログラム
 本発明は、形態素解析学習装置、形態素解析装置、方法、及びプログラムに係り、特に、入力文章の形態素解析を行うための形態素解析学習装置、形態素解析装置、方法、及びプログラムに関する。
 自然言語とは、日本語や英語など人間が通常使う言語のことである。自然言語で記述された文章を文法や意味的に解析する技術は、例えば、その言語の成り立ちや構造を理解するという言語学的な観点で学術的な意義は高い。また近年では、人間が生成した文章を、文法・意味的に自動で解析し、その結果を利用して提供する様々なサービスが、主にweb 上で展開されるようになってきた。
 例えば、翻訳サイト、人や商品の評判分析サイト、ある特定の事象に対する要約サイトなどのサービスが、これに相当する。これらのサービスでは、人間が生成した電子的な文章をシステム内部で文法、意味的に解析し、それらを利用し実際のサービスを提供する。その意味で、自然言語を文法、意味的に解析する技術は、これらサービスの根幹の技術であり、情報処理分野でも非常に重要な位置を占めるようになった。
 一概に自然言語を解析するといっても、単語区切りや品詞推定といった表層的な解析から、語や節間の係り受け関係の推定といったより高度な解析を行うものまで含まれる。例えば、文章から文の区切りを推定する「文区切り」、単語の区切りを推定する「単語区切り」、単語の品詞を推定する品詞付与、単語や節間の関係を推定する係り受け解析などがある。これらの例を図7に示す。
 本発明では、特に日本語の形態素解析に焦点をあてる。日本語の形態素解析器は、主に形態素の区切り、品詞推定、活用形推定、読み推定、基本形推定などを全て含めた処理をさす。従来の日本語形態素解析は、図8に示すように、形態素辞書に登録されている形態素を候補とし、入力文に対する最適な形態素列を選択する問題とみなして解く方法が、現在最も主流な解析方式といえる(非特許文献1)。
Taku Kudo, Kaoru Yamamoto, Yuji Matsumoto, Applying Conditional Random Fields to Japanese Morpho-logical Analysis, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004) , pp,230-237 (2004) . Chiu, Jason and Nichols, Eric, Named Entity Recognition with Bidirectional LSTM-CNNs, Transactions of the Association for Computational Linguistics, volume 4, pp. 357-370, (2016).
 前述の通り、従来の日本語形態素解析の主流な方式では、形態素辞書に登録されている形態素のみで文章が構成される場合には非常に効果的な方法として知られている。一方、形態素辞書に登録されていない形態素、いわゆる未知語を多く含む場合には、良好な解析結果が得られない場合が多いこともよく指摘されている。相対的に未知語に強い解析方法として形態素辞書に依存しない文字単位の解析方式も提案されているが、形態素辞書に登録されている語が多い文章に対しては解析精度が相対的に低くなるトレードオフが一般的には存在する(図9参照)。
 解析の対象となる文章によって、文章中に出現する形態素が辞書に登録されているかどうかの率(以下、形態素辞書の被覆率と呼ぶ)は大きく違うことはよく知られている。例えば、新聞記事のように比較的標準の日本語文法に即して記述されている文章の場合は、形態素辞書の被覆率はかなり高くなる。一方で、ブログといった一般エンドユーザが生成する記事などは、誤記や誤用、口語的な表現などが多く含まれ、相対的に崩れた表現が多くなることで、形態素辞書の被覆率は低くなる。
 このようにある程度、解析する対象によって形態素辞書の被覆率の大まかな高い低いは推定できるが、厳密には不明な場合がほとんどであり、かつ、解析対象がどのような筆者や状況に応じて書かれているかを知るすべがない場合も少なくない。
 本発明は、上記の事情を鑑みて成されたものであり、形態素辞書の被覆率に関わらず、総じて高い解析精度を達成することができる形態素解析学習装置、形態素解析装置、方法、及びプログラムを提供することを目的とする。
 上記目的を達成するために、本発明に係る形態素解析学習装置は、学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データを取得するサンプリング部と、前記学習データの学習用入力文章を文字単位に分割する分割部と、前記学習用入力文章の文字毎に文字ベクトルを取得する文字ベクトル取得部と、前記学習用入力文章の部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得する辞書ベクトル取得部と、前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するベクトル合成部であって、所定の確率で、形態素情報ベクトルを合成せずに前記合成ベクトルを生成するベクトル合成部と、前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように、前記系列予測器のパラメータを学習するパラメータ学習部と、を含んで構成されている。
 また、本発明に係る形態素解析学習方法は、サンプリング部が、学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データを取得し、分割部が、前記学習データの学習用入力文章を文字単位に分割し、文字ベクトル取得部が、前記学習用入力文章の文字毎に文字ベクトルを取得し、辞書ベクトル取得部が、前記学習用入力文章の部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得し、ベクトル合成部が、前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するベクトル合成部であって、所定の確率で、形態素情報ベクトルを合成せずに前記合成ベクトルを生成し、パラメータ学習部が、前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように、前記系列予測器のパラメータを学習する。
 また、本発明に係る形態素解析装置は、入力文章を文字単位に分割する分割部と、文字毎に文字ベクトルを取得する文字ベクトル取得部と、部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得する辞書ベクトル取得部と、文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するベクトル合成部と、前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算して、形態素ラベル列を、前記入力文章の形態素解析結果として出力する形態素予測部と、を含む形態素解析装置であって、前記系列予測器は、学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データの前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように予め学習されたものである。
 本発明に係る形態素解析方法は、分割部が、入力文章を文字単位に分割し、文字ベクトル取得部が、文字毎に文字ベクトルを取得し、辞書ベクトル取得部が、部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得し、ベクトル合成部が、文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成し、形態素予測部が、前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算して、形態素ラベル列を、前記入力文章の形態素解析結果として出力する形態素解析方法であって、前記系列予測器は、学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データの前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように予め学習されたものである。
 また、本発明に係るプログラムは、コンピュータを、上記の形態素解析学習装置、又は上記の形態素解析装置の各部として機能させるためのプログラムである。
 本発明の形態素解析学習装置、方法、及びプログラムによれば、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように系列予測器のパラメータを学習することにより、形態素辞書の被覆率に関わらず、総じて高い解析精度を達成することができる系列予測器を学習することができる、という効果が得られる。
 また、本発明の形態素解析装置、方法、及びプログラムによれば、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように予め学習された系列予測器を用いることにより、形態素辞書の被覆率に関わらず、総じて高い解析精度を達成することができる、という効果が得られる。
入力文章及び文字単位の一例を示す図である。 本発明の実施の形態に係る形態素解析装置の構成を示すブロック図である。 本発明の実施の形態に係る形態素解析学習装置の構成を示すブロック図である。 本発明の実施の形態に係る形態素解析学習装置における形態素解析学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る形態素解析学習装置における形態素解析を行う処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る形態素解析装置における形態素解析学習処理ルーチンを示すフローチャートである。 形態素解析の一例を示す図である。 最適な形態素列を選択する問題の一例を示す図である。 形態素辞書の被覆率に応じた正解率を示すグラフである。
 以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
 まず、本発明の実施の形態における概要を説明する。
 本発明の実施の形態では、まずベースの形態素解析器としてニューラルネットに基づく系列ラベル予測器を用いる(非特許文献2)。その上で、形態素辞書に登録されている形態素情報をニューラルネットに基づく系列ラベル予測器の特徴量として活用する。これにより、形態素辞書の被覆率が比較的高めの状況で、従来法と同等の解析精度を達成することが可能となる。
 しかし、これだけでは、形態素辞書の被覆率が低めのデータに対しては、むしろ解析精度が劣化することを招いてしまう。これは、学習時に形態素辞書の情報を利用して学習を行なっているため辞書情報が存在しない文章に対しては、情報が欠損している状況と同じになるためである。
 この状況を解決するために、本発明の実施の形態においては、一定の確率で学習データ中の辞書情報を部分的、あるいは、完全に隠蔽した状態の学習データを用いて学習を行うことにより、擬似的に形態素辞書の被覆率が高い場合と低い場合の状況を作り出し、形態素解析器の学習を行う。
 詳細な処理方式については、以下にて述べる。
<本発明の実施の形態の原理>
 形態素解析システムは、入力文章を受け取り、事前に定義された形態素の単位に分割し、品詞、活用形、読み、基本形などを付与する処理である。ここでは、ニューラルネットに基づく系列予測器(非特許文献2)をベースの方法論として用いた形態素解析システムを例に本発明の実施の形態の説明を述べる。
[形態素解析の処理手順]
 入力文章に形態素を付与する処理の手順は大まかに以下のように記述できる。
 入力として日本語の文章を受け付ける。
 処理1: 入力された文章を文字単位に分割する。
 処理2: 各文字に割り当てられているベクトルを取得し、入力文章に対するベクトルのリストを構築する。
 処理3: 入力文章の全部分文字列に形態素辞書のエントリのマッチングを行い、各部分文字列に対してマッチしたエントリに対応するベクトルのリストを構築する。
 処理4: 上記処理2 と処理3 で構築したベクトルのリストを入力し、合成したベクトルのリストを生成する。
 処理5: 上記処理4 で構築したベクトルのリストを入力し、事前に決められた系列予測器の計算処理を行い、入力文章に対する形態素ラベル列の予測結果を生成する。
 系列予測器により生成された形態素ラベル列を出力する。
<入力>
 本発明の実施の形態に関わるシステムへの入力は、自然言語で記述された日本語の文章である。ここでは、主にニュース記事やブログ記事といったものが入力されたことを想定して説明する。
<処理1>
 入力文章を文字単位に分割する。文字単位への分割は、電子化された文章に対しては非常に安易な方法である。
 例えば、テキストエディタやブラウザなどが文章を表示できることからも容易に推測できるように、計算機の中でバイト列で表現されたものを、文字に変換する変換テーブルは文字コードに依存して一意に変換することができる。ここでは、例えば、unicodeに基づいて記述された文章が入力されると仮定する。ただし、本発明の実施の形態で必要な処理は、文字コードの種類に依存しないので、何を使ってもよい。
 unicode では、バイト列から文字の区切りを一意に読み取ることが可能である(図1参照)。
 ここではc を文字を表す記号とする。また、文字の集合をCで表す。つまりc∈Cである。次に、入力文章の文字数をIとする。iを1からIまでの変数とし、i番目の処理単位の文字列をciと表すこととする。よって、入力文章は、処理単位の文字列のリスト(ci)I i=1=(c1,...,cI)と表現することができる。
 本処理での出力は、入力文章を文字単位に分割した文字のリスト(ci)I i=1である、
<処理2>
 文字単位に分割されたリスト(ci)I i=1を受け取り、各文字に対応する文字ベクトルを獲得する処理を行う。
 まず、
Figure JPOXMLDOC01-appb-I000001

 
は、予め学習されたニューラルネットワークのパラメータであり、
Figure JPOXMLDOC01-appb-I000002

 
をD×N行列とする。Dは任意の自然数、Nは文字の集合Cの要素数である。ここでの処理として、入力文章中の各文字ciに、それぞれ対応する文字ベクトルを取得する。対応する文字ベクトルというのは、文字ciの種類に応じて事前に決められているものとする。例えば、入力文章中のi番目の文字ciが、文字の集合C中のn番目の文字とする。
 この場合、行列
Figure JPOXMLDOC01-appb-I000003

 
のn列目に相当するベクトルをeiとしてciに割り当てる処理を行う。この処理は数式的には以下のように書くことができる。
Figure JPOXMLDOC01-appb-M000004

 
 ただし、xiはciの語彙中の番号nにしたがって、n番目の要素が1で残りが全て0のベクトルとする。
 これを全ての文字に対して行うので、処理2の出力となる文字ベクトルのリストは(ei)I i=1=(e1,...,eI)と書ける。ここで、もしciとcjが同じ文字の場合、ei=ejである。
 処理2の最終的な出力は、取得した文字ベクトルのリスト(ei)I i=1となる。
<処理3>
 処理1の文字単位に分割した入力文章(ci)I i=1を受け取り、入力文章の部分文字列にマッチする形態素を形態素辞書から抽出する。
 まず、形態素辞書をTとする。また、形態素辞書のエントリ数をSで表す。s番目のエントリをtsで表す。全てのsに対してt∈Tである。ただしsは1からSまでの整数である。
 例えば、ある辞書エントリtsが文字列(ts,1,...,ts,n)で構成されているとする。この時、入力文章の文字列(ci)I i=1中のある部分文字列(ci,...,cj)が(ts,1,・・・,ts,n)と完全に一致した場合、エントリtsは部分文字列(ci,…,cj)にマッチしたと判定する。
 次に、zをS次元のベクトルとする。zの要素は、マッチした辞書エントリの形態素辞書内の番号と一致する要素が1、それ以外が0のベクトルとする。次に、
Figure JPOXMLDOC01-appb-I000005

 
は、予め学習されたニューラルネットワークのパラメータであり、
Figure JPOXMLDOC01-appb-I000006

 
を形態素辞書の各エントリに対応するベクトルで構成されるD×S行列とする。
 この時、入力文章中のi番目の文字に対する形態素辞書情報として、以下の式で形態素ベクトルを取得する。
Figure JPOXMLDOC01-appb-M000007

 
 つまりfiはD次元のベクトルで、i番目の文字にマッチした全ての形態素辞書のエントリを加算したベクトルに相当する。
 処理3の最終的な出力は、取得した形態素ベクトルのリスト(fi)I i=1となる。
<処理4>
 処理2の最終的な出力である、文字ベクトルのリスト(ei)I i=1と、処理3の最終的な出力である形態素ベクトルのリスト(fi)I i=1を組み合わせる。組み合わせには各文字の位置i毎に以下の計算を行う。
Figure JPOXMLDOC01-appb-M000008

 
 この時、
Figure JPOXMLDOC01-appb-I000009

 
は予め学習されたニューラルネットワークのパラメータであり、文字情報と辞書情報を組み合わせた合成ベクトルgiを生成する。
Figure JPOXMLDOC01-appb-I000010

 
をH×D次元の変換行列とし、Hは任意の自然数である。また、pは、0または1をとる変数とする。pの値の決定方法としては、学習時には確率的に0 または1の値が割り振られる。一方、実際に形態素解析を行う評価時は、必ず1の値が割り振られる。学習時にpの値をどのように確率的に割り振るかは、学習処理の説明にて述べる。
 処理4 の最終的な出力は、取得した合成ベクトルのリスト(gi)I i=1となる。
<処理5>
 次に、処理4 で取得した合成ベクトルのリスト(gi)I i=1を入力とし、事前に決定された系列予測器の計算手順にしたがって計算を行う。実際に用いる系列予測器の構成は多くの種類が考えられるが、ここでは、系列予測器としてよく用いられるLSTM(Long Short Term Memory)を用いた場合の例を示す。i番目の文字位置の入力はgi 及び、一時刻前のLSTMの状態hi-1である。ただし、i=0の時は零ベクトルを割り当てる。つまり、h0=0 である。
 また、W1,W2,W3,W4,V1,V2,V3,V4をそれぞれH×H行列、b1,b2, b3,b4をH次元のベクトルとする。これらは、LSTM内で用いられるパラメータとする。この時、LSTMは以下の計算を行う。
Figure JPOXMLDOC01-appb-M000011

(4)
 最終的にhiがi番目の処理の出力となる。
 ここで、σ1(x)は、ベクトルx を入力として受け取り、入力ベクトルx の各要素xiに対してシグモイド関数
Figure JPOXMLDOC01-appb-I000012

 
を計算し、新たなベクトルとして返す処理を行う関数とする。同様にσ2(・)は、入力ベクトルの各要素xに対してtanh関数
Figure JPOXMLDOC01-appb-I000013

 
を計算し、新たなベクトルとして返す処理を行う関数とする。本発明の実施の形態では、符号化ユニットの入力がgiとhi-1であり、出力がhiの形式で書ける符号化ユニットであれば、基本的になんでもいい。この処理で、全ての処理単位iに関するhiのリストを獲得する。つまり、(hi)I i-1=(h1,...,hI)である。このベクトルのリストを用いて各文字に付与すべきラベルを予測する。まず、各文字に付与すべき形態素のラベル集合をY で表す。また形態素のラベル集合の要素数をMとする。参照するために、mを形態素ラベルの番号を表す変数とし、m番目の形態素ラベルをymと表すこととする。
 次に、^yiを、i番目の文字に対する形態素ラベルとする。全てのiに対して^yi∈Yである。
 この時、oi,mを、入力文章の先頭からi番目の文字に対応する出力として、形態素辞書Tのm番目の形態素ラベルが選択されるスコアを表すこととする。簡単のため、入力文章のi番目の文字に対して、形態素ラベルY中の1 番目からM番目までの全ラベルのスコアを並べてベクトル表記したものをoとする。
 つまり、
Figure JPOXMLDOC01-appb-M000014

 
である。
 次に、oiの計算方法は以下の通りである。
Figure JPOXMLDOC01-appb-M000015

 
 ただし、W(o)は予め学習されたニューラルネットワークのパラメータであり、W(o)をM×H行列とし、b(o)をは予め学習されたニューラルネットワークのパラメータであり、b(o)をM次元のベクトルとする。
 最終的に、i番目の処理単位の形態素ラベルを選択する処理には、以下の式を計算する。
Figure JPOXMLDOC01-appb-M000016

 
 この式は、もっとも値の大きい要素番号mに対応する形態素ラベルを選択する処理に相当する。
<出力>
 式(7)にしたがって、^yiを出力する処理をi=1からIまで繰り返し並べた形態素ラベル列が形態素解析結果となる。
[系列予測器のパラメータ学習処理]
 前述のように、ここでの形態素解析の各構成要素はニューラルネットワークであるため、それぞれ学習用データを使って機械学習法によりニューラルネットワークのパラメータを決定する。ここで、学習データをDで表す。また個々の学習データは、入力文章Xとそれに対応する形態素ラベル列Yのペア(X,Y)で構成される。つまり、例えば、N個の学習データがある場合、D={(Xn,Yn)}N n-1と記述することができる。この場合、(Xn,Yn)は学習データ中のn番目のデータを表すとする。
 一般形として、ニューラルネットによる文字ベースの形態素解析システム内のパラメータは以下の目的関数の最小化問題の解として決定される。
Figure JPOXMLDOC01-appb-M000017

 
 ただし、ここでは、Wを全てのパラメータの集合を表す記号とし、W^を最適化の結果得られた最適なパラメータの集合を表す記号とする。また、一般的にLを損失関数と呼び、ここではWとDを変数としてとる。つまり、パラメータWの学習とは、損失関数Lがなるべく小さな値を取るようにWを更新していく処理となる。
 まず、非特許文献2で提案されている従来法に相当するモデルを利用する場合、以下の損失関数を用いる。
Figure JPOXMLDOC01-appb-M000018

Figure JPOXMLDOC01-appb-I000019

 
 ただし、yiは正解である形態素ラベル列Yのi番目の形態素ラベルであり、P(yi|X,W)は現在のパラメータWで入力文章Xが与えられた際に、正解であるyiが^yiとして推定される確率である。
 これに対して、本発明の実施の形態では、形態素辞書情報が一部隠蔽された状態の学習データも用いて、以下の式に示す損失を小さくするように系列予測器の学習を行う。
Figure JPOXMLDOC01-appb-M000020

 
 ただし、pは処理4で説明したpである。このpをどのように決めるかは様々な場合を考えることができるが、ここでは、乱数を用いてランダムに決める場合を考える。
Figure JPOXMLDOC01-appb-M000021

 
 ここで、Rand(0,1)は0または1を等確率で出力する関数とする。
 また、乱数を使わずに、学習データとして事前に準備しておく方法を用いることも可能である。このとき、以下の式に示す損失を小さくするように系列予測器の学習を行う。
Figure JPOXMLDOC01-appb-M000022

 
 この場合は、学習データとして、形態素辞書情報を使う場合と形態素辞書情報を使わない場合の両方を均等に用いて学習することを意味する。
 具体的なパラメータ学習処理は、以下の通りである。
1.学習用データDからデータ(X,Y)を一つ選択する。
2.選択したデータ(X,Y)を用いて式(11)に示す損失を計算する。
3.式(11)の損失の値が小さくなるようにWを更新する。
4.事前に定義した終了条件を満たせば終了、満たさない場合は1に戻る。
 3の処理は、様々な方法が利用できるが、もっとも単純な方法としては、パラメータに対する勾配を計算し、その勾配の方向にパラメータを微小に更新する、勾配法に基づく方法を用いれば良い。また、4の終了条件に関しては、パラメータの更新変化量の総量がある一定の値ε以下になった際に終了とし、それ以外は繰り返し計算をするようにすれば良い。
 最終的に得られたパラメータ^Wは固定され、前述した要約文の生成処理に用いられる。
<本発明の実施の形態に係る形態素解析装置の構成>
 次に、本発明の実施の形態に係る形態素解析装置の構成について説明する。図2に示すように、本発明の実施の形態に係る形態素解析装置100は、CPUと、RAMと、後述する形態素解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この形態素解析装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部50とを備えている。
 入力部10は、形態素解析を行いたい入力文章を受け付ける。
 演算部20は、分割部22と、解析部24とを備えている。
 分割部22は、入力文章を文字単位に分割する。
 解析部24は、文字ベクトル記憶部26と、文字ベクトル取得部28と、形態素辞書30と、形態素ベクトル記憶部32と、辞書ベクトル取得部34と、ベクトル合成部36と、形態素予測部38とを備えている。
 文字ベクトル記憶部26は、文字毎に、文字ベクトルを記憶している。
 文字ベクトル取得部28は、文字ベクトル記憶部26から、入力文章の文字毎に、文字ベクトルを取得し、文字ベクトルのリストを出力する。
 形態素辞書30は、形態素毎に、形態素情報を記憶している。
 形態素ベクトル記憶部32は、形態素毎に、形態素ベクトルを記憶している。
 辞書ベクトル取得部34は、入力文章の部分文字列毎に、形態素辞書30から、当該部分文字列と一致する形態素情報のエントリを取得し、取得した形態素情報を表すベクトルを、形態素ベクトル記憶部32から取得し、入力文章の文字毎に、当該文字を含む部分文字列にマッチした形態素情報のエントリに対応するベクトルを加算した形態素ベクトルを求め、形態素ベクトルのリストを出力する。
 ベクトル合成部36は、入力文章の文字毎に、上記式(3)に従って、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成し、合成ベクトルのリストを出力する。
 形態素予測部38は、ベクトル合成部36によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、符号化ユニットは、一つ前の符号化ユニットの出力を入力とする系列予測器に入力して、上記(4)式に従って順次計算すると共に、上記(7)式に従って、形態素ラベルを順次選択し、形態素ラベル列を、入力文章の形態素解析結果として出力部50により出力する。形態素予測部38で用いる系列予測器のパラメータは、後述する形態素解析学習装置150により予め学習されている。
<本発明の実施の形態に係る形態素解析学習装置の構成>
 次に、本発明の実施の形態に係る形態素解析学習装置の構成について説明する。図3に示すように、本発明の実施の形態に係る形態素解析学習装置150は、CPUと、RAMと、後述する形態素解析学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この形態素解析学習装置150は、機能的には図3に示すように入力部60と、演算部70とを備えている。
 入力部60は、学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データをN個受け付ける。
 演算部70は、サンプリング部72と、分割部74と、解析部76と、パラメータ学習部78とを備えている。
 サンプリング部72は、入力部60により受け付けたN個の学習データから、1つの学習データを取得する。
 分割部74は、サンプリング部72により取得した学習データの学習用入力文章を文字単位に分割する。
 解析部76は、形態素解析装置100の解析部24と同様に、文字ベクトル記憶部と、文字ベクトル取得部と、形態素辞書と、形態素ベクトル記憶部と、辞書ベクトル取得部と、ベクトル合成部と、形態素予測部とを備えている。
 すなわち、文字ベクトル取得部は、文字ベクトル記憶部から、学習用入力文章の文字毎に、文字ベクトルを取得し、文字ベクトルのリストを出力する。
 また、辞書ベクトル取得部は、学習用入力文章の部分文字列毎に、形態素辞書から、当該部分文字列と一致する形態素情報のエントリを取得し、取得した形態素情報を表すベクトルを、形態素ベクトル記憶部から取得し、学習用入力文章の文字毎に、当該文字を含む部分文字列にマッチした形態素情報のエントリに対応するベクトルを加算した形態素ベクトルを求め、形態素ベクトルのリストを出力する。
 また、ベクトル合成部は、学習用入力文章の文字毎に、上記式(3)に従って、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成し、合成ベクトルのリストを出力する。
 このとき、ベクトル合成部は、上記(12)式に従ってpを決定することにより、ランダムに、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するか、形態素情報ベクトルを合成せずに合成ベクトルを生成するかを決定して、合成ベクトルを生成する。
 あるいは、ベクトル合成部は、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成する場合と、形態素情報ベクトルを合成せずに合成ベクトルを生成する場合との両方を均等に用いるように、合成ベクトルを生成する。
 また、形態素予測部は、ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、符号化ユニットは、一つ前の符号化ユニットの出力を入力とする系列予測器に入力して、上記(4)式に従って順次計算すると共に、上記(7)式に従って、形態素ラベルを順次選択し、形態素ラベル列を、学習用入力文章の形態素解析結果として出力する。
 パラメータ学習部78は、解析部76により得られる形態素ラベル列が、学習データの形態素ラベル列となるように、上記(11)式に従って、系列予測器のパラメータを学習する。なお、解析部76のベクトル合成部が、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成する場合と、形態素情報ベクトルを合成せずに合成ベクトルを生成する場合との両方を均等に用いるように、合成ベクトルを生成する場合には、上記(13)式に従って、系列予測器のパラメータを学習する。
 上記のサンプリング部72、分割部74、解析部76、及びパラメータ学習部78の各処理が、終了条件を満たすまで繰り返される。
<本発明の実施の形態に係る形態素解析学習装置の作用>
 次に、本発明の実施の形態に係る形態素解析学習装置150の作用について説明する。入力部60においてN個の学習データを受け付けると、形態素解析学習装置150は、図4に示す形態素解析学習処理ルーチンを実行する。
 まず、ステップS100では、入力部60において受け付けたN個の学習データのうち、1つの学習データを取得する。
 ステップS102では、上記ステップS100で取得した学習データの学習用入力文章について、形態素解析を行う。
 ステップS102は、図5に示す処理ルーチンにより実現される。
 ステップS110では、上記ステップS100で取得した学習データの学習用入力文章を文字単位に分割する。
 ステップS112では、文字ベクトル記憶部から、学習用入力文章の文字毎に、文字ベクトルを取得し、文字ベクトルのリストを出力する。
 ステップS114では、学習用入力文章の部分文字列毎に、形態素辞書から、当該部分文字列と一致する形態素情報のエントリを取得し、取得した形態素情報を表すベクトルを、形態素ベクトル記憶部から取得し、学習用入力文章の文字毎に、当該文字を含む部分文字列にマッチした形態素情報のエントリに対応するベクトルを加算した形態素ベクトルを求め、形態素ベクトルのリストを出力する。
 ステップS116では、学習用入力文章の文字毎に、上記(12)式に従ってpを決定することにより、ランダムに、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するか、形態素情報ベクトルを合成せずに合成ベクトルを生成するかを決定する。
 ステップS118では、学習用入力文章の文字毎に、上記式(3)に従って、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成し、合成ベクトルのリストを出力する。
 ステップS120では、文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、符号化ユニットは、一つ前の符号化ユニットの出力を入力とする系列予測器に入力して、上記(4)式に従って順次計算すると共に、上記(7)式に従って、形態素ラベルを順次選択し、形態素ラベル列を、学習用入力文章の形態素解析結果として出力する。
 そして、上記図4のステップS104では、上記ステップS120で得られた形態素ラベル列と、学習データの形態素ラベル列とに基づいて、上記(11)式に従って、損失を計算する。
 ステップS106では、上記ステップS104で計算された損失が小さくなる方向に系列予測器のパラメータを更新する。
 ステップS108では、終了条件を満たしたか否かを判定し、終了条件を満たさない場合には、上記ステップS100へ戻る。一方、終了条件を満たす場合には、形態素解析学習処理ルーチンを終了する。
<本発明の実施の形態に係る形態素解析装置の作用>
 次に、本発明の実施の形態に係る形態素解析装置100の作用について説明する。まず、形態素解析学習装置150により学習された系列予測器のパラメータが形態素解析装置100に設定される。そして、入力部10において入力文章を受け付けると、形態素解析装置100は、図6に示す形態素解析処理ルーチンを実行する。
 まず、ステップS130では、入力部10において受け付けた入力文章を文字単位に分割する。
 ステップS132では、文字ベクトル記憶部26から、入力文章の文字毎に、文字ベクトルを取得し、文字ベクトルのリストを出力する。
 ステップS134では、入力文章の部分文字列毎に、形態素辞書30から、当該部分文字列と一致する形態素情報のエントリを取得し、取得した形態素情報を表すベクトルを、形態素ベクトル記憶部32から取得し、入力文章の文字毎に、当該文字を含む部分文字列にマッチした形態素情報のエントリに対応するベクトルを加算した形態素ベクトルを求め、形態素ベクトルのリストを出力する。
 ステップS136では、入力文章の文字毎に、上記式(3)に従って、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成し、合成ベクトルのリストを出力する。
 ステップS138では、文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする系列予測器に入力して、上記(4)式に従って順次計算すると共に、上記(7)式に従って、形態素ラベルを順次選択し、形態素ラベル列を、入力文章の形態素解析結果として出力部50により出力し、形態素解析処理ルーチンを終了する。
 以上説明したように、本発明の実施の形態に係る形態素解析学習装置によれば、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように系列予測器のパラメータを学習することにより、形態素辞書の被覆率に関わらず、総じて高い解析精度を達成することができる系列予測器を学習することができる。
 また、擬似的に形態素辞書の被覆率が高い場合と低い場合の状況を作り出し、形態素解析器の学習を行うことで、形態素辞書の被覆率によらず高い解析精度を達成することが可能となる。また、形態素辞書の被覆率が高い場合は、従来法と同等の解析精度を維持し、被覆率が低い場合でも解析精度の劣化を大幅に低減することができる。
 また、本発明の実施の形態に係る形態素解析装置によれば、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように予め学習された系列予測器を用いることにより、形態素辞書の被覆率に関わらず、総じて高い解析精度を達成することができる。
 また、本発明の実施の形態では、ここで述べた未知語に対する解析精度のトレードオフという課題を改善することを主たる目的とし、あらゆる形態素辞書の被覆率の状況でも総じて高い解析精度を達成することができる。
 なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
 例えば、上述した実施の形態では、形態素解析学習装置及び形態素解析装置を別々の装置として構成しているが、一つの装置として構成してもよい。
 また、上述の形態素解析学習装置、形態素解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
 また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
22 分割部
24 解析部
26 文字ベクトル記憶部
28 文字ベクトル取得部
30 形態素辞書
32 形態素ベクトル記憶部
34 辞書ベクトル取得部
36 ベクトル合成部
38 形態素予測部
50 出力部
60 入力部
70 演算部
72 サンプリング部
74 分割部
76 解析部
78 パラメータ学習部
100 形態素解析装置
150 形態素解析学習装置

Claims (7)

  1.  学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データを取得するサンプリング部と、
     前記学習データの学習用入力文章を文字単位に分割する分割部と、
     前記学習用入力文章の文字毎に文字ベクトルを取得する文字ベクトル取得部と、
     前記学習用入力文章の部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得する辞書ベクトル取得部と、
     前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するベクトル合成部であって、所定の確率で、形態素情報ベクトルを合成せずに前記合成ベクトルを生成するベクトル合成部と、
     前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように、前記系列予測器のパラメータを学習するパラメータ学習部と、
     を含む形態素解析学習装置。
  2.  前記ベクトル合成部は、ランダムに、文字ベクトルと形態素情報ベクトルとを合成した前記合成ベクトルを生成するか、形態素情報ベクトルを合成せずに前記合成ベクトルを生成するかを決定して、前記合成ベクトルを生成する請求項1記載の形態素解析学習装置。
  3.  前記ベクトル合成部は、文字ベクトルと形態素情報ベクトルとを合成した前記合成ベクトルを生成する場合と、形態素情報ベクトルを合成せずに前記合成ベクトルを生成する場合とが均等になるように、前記合成ベクトルを生成する請求項1記載の形態素解析学習装置。
  4.  入力文章を文字単位に分割する分割部と、
     文字毎に文字ベクトルを取得する文字ベクトル取得部と、
     部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得する辞書ベクトル取得部と、
     文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するベクトル合成部と、
     前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算して、形態素ラベル列を、前記入力文章の形態素解析結果として出力する形態素予測部と、
     を含む形態素解析装置であって、
     前記系列予測器は、
     学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データの前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように予め学習されたものである
     形態素解析装置。
  5.  サンプリング部が、学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データを取得し、
     分割部が、前記学習データの学習用入力文章を文字単位に分割し、
     文字ベクトル取得部が、前記学習用入力文章の文字毎に文字ベクトルを取得し、
     辞書ベクトル取得部が、前記学習用入力文章の部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得し、
     ベクトル合成部が、前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成するベクトル合成部であって、所定の確率で、形態素情報ベクトルを合成せずに前記合成ベクトルを生成し、
     パラメータ学習部が、前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように、前記系列予測器のパラメータを学習する
     形態素解析学習方法。
  6.  分割部が、入力文章を文字単位に分割し、
     文字ベクトル取得部が、文字毎に文字ベクトルを取得し、
     辞書ベクトル取得部が、部分文字列毎に、形態素辞書から、前記部分文字列と一致する形態素情報を取得し、取得した形態素情報を表す形態素ベクトルを取得し、
     ベクトル合成部が、文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルを生成し、
     形態素予測部が、前記ベクトル合成部によって文字毎に生成された合成ベクトルを、形態素ラベルを付与するための符号化ユニットを用いた系列予測器であって、かつ、前記符号化ユニットは、一つ前の前記符号化ユニットの出力を入力とする前記系列予測器に入力して、順次計算して、形態素ラベル列を、前記入力文章の形態素解析結果として出力する
     形態素解析方法であって、
     前記系列予測器は、
     学習用入力文章と、前記学習用入力文章の形態素解析結果である形態素ラベル列とのペアである学習データの前記学習用入力文章の文字毎に、文字ベクトルと形態素情報ベクトルとを合成した合成ベクトルであって、所定の確率で、形態素情報ベクトルを合成せずに生成された前記合成ベクトルを、前記系列予測器に入力して、順次計算することにより得られる形態素ラベル列が、前記学習データの形態素ラベル列となるように予め学習されたものである
     形態素解析方法。
  7.  コンピュータを、請求項1~請求項3のいずれか1項に記載の形態素解析学習装置、又は請求項4に記載の形態素解析装置の各部として機能させるためのプログラム。
PCT/JP2019/006046 2018-02-20 2019-02-19 形態素解析学習装置、形態素解析装置、方法、及びプログラム WO2019163752A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/970,890 US11893344B2 (en) 2018-02-20 2019-02-19 Morpheme analysis learning device, morpheme analysis device, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-028303 2018-02-20
JP2018028303A JP6969431B2 (ja) 2018-02-20 2018-02-20 形態素解析学習装置、形態素解析装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2019163752A1 true WO2019163752A1 (ja) 2019-08-29

Family

ID=67687650

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/006046 WO2019163752A1 (ja) 2018-02-20 2019-02-19 形態素解析学習装置、形態素解析装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11893344B2 (ja)
JP (1) JP6969431B2 (ja)
WO (1) WO2019163752A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095040A (zh) * 2021-04-16 2021-07-09 支付宝(杭州)信息技术有限公司 一种编码网络的训练方法、文本编码方法和系统
CN113627179B (zh) * 2021-10-13 2021-12-21 广东机电职业技术学院 一种基于大数据的威胁情报预警文本分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6816421B2 (ja) * 2016-09-15 2021-01-20 富士通株式会社 学習プログラム、学習方法及び学習装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IKEDA, TAISHI ET AL.: "Japanese Word Segmentation by Recurrent Neural Network Incorporating Dictionary Information and Word Distributed Expression", PROCEEDINGS OF THE TWENTY-THIRD ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 6 March 2017 (2017-03-06), pages 879 - 882 *
NAKAGAWA, TETSUJI ET AL.: "Revision Learning Applied to Morphological Analysis", IPSJ SIG NOTES, vol. 112, 21 November 2001 (2001-11-21), pages 1 - 8 *

Also Published As

Publication number Publication date
US11893344B2 (en) 2024-02-06
US20200380207A1 (en) 2020-12-03
JP2019144844A (ja) 2019-08-29
JP6969431B2 (ja) 2021-11-24

Similar Documents

Publication Publication Date Title
Faruqui et al. Morphological inflection generation using character sequence to sequence learning
US11501182B2 (en) Method and apparatus for generating model
KR102329127B1 (ko) 방언을 표준어로 변환하는 방법 및 장치
Collobert et al. Natural language processing (almost) from scratch
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP2008165786A (ja) 機械翻訳用のシーケンス分類
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
JP7072178B2 (ja) 自然言語処理のための装置、方法及びプログラム
KR20190019661A (ko) 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법
CN114676234A (zh) 一种模型训练方法及相关设备
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN111291565A (zh) 一种用于命名实体识别的方法与装置
WO2020040255A1 (ja) 単語符号化装置、解析装置、言語モデル学習装置、方法、及びプログラム
JP2012146263A (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
CN113609873A (zh) 翻译模型训练方法、装置及介质
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
JP4499003B2 (ja) 情報処理方法及び装置及びプログラム
Zayyan et al. Automatic diacritics restoration for modern standard Arabic text
CN108073704B (zh) 一种liwc词表扩展方法
dos Santos et al. Training state-of-the-art Portuguese POS taggers without handcrafted features
US20180033425A1 (en) Evaluation device and evaluation method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19757963

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19757963

Country of ref document: EP

Kind code of ref document: A1