WO2021181719A1 - 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム - Google Patents
言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム Download PDFInfo
- Publication number
- WO2021181719A1 WO2021181719A1 PCT/JP2020/031522 JP2020031522W WO2021181719A1 WO 2021181719 A1 WO2021181719 A1 WO 2021181719A1 JP 2020031522 W JP2020031522 W JP 2020031522W WO 2021181719 A1 WO2021181719 A1 WO 2021181719A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- feature amount
- language processing
- short
- unit
- text
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims description 34
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 description 28
- 238000000605 extraction Methods 0.000 description 20
- 230000007246 mechanism Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Definitions
- the present invention relates to a language comprehension model.
- the language comprehension model is one of the neural network models that obtains the distributed representation of tokens.
- the language comprehension model instead of entering a single token into the model, we enter all the text in which the token is used into the model, so a distribution that reflects the semantic relationships with other tokens in the text. You can get an expression.
- Non-Patent Document 1 As the language understanding model as described above, for example, there is a language understanding model disclosed in Non-Patent Document 1.
- Non-Patent Document 1 has a problem that long texts (long token series) cannot be handled well.
- the long text is a text longer than a predetermined length (eg, 512 tokens that can be appropriately handled by the language understanding model of Non-Patent Document 1).
- the present invention has been made in view of the above points, and provides a technique capable of appropriately extracting a feature amount that reflects the relationship between tokens in the text even when a long text is input.
- the purpose is to do.
- a pre-processing unit that divides the input text into multiple short texts
- a language processing unit that calculates a first feature amount and a second feature amount using a trained model for each of the plurality of short texts. It includes an external storage unit for storing a third feature quantity for one or more short texts.
- the language processing unit A language that uses the trained model to calculate a second feature quantity for a short text using the first feature quantity of the short text and the third feature quantity stored in the external storage unit.
- a processing device is provided.
- a technology for accurately classifying data is provided.
- FIG. It is a block diagram of the language processing apparatus 100 in Example 1.
- FIG. It is a flowchart which shows the processing procedure of the language processing apparatus 100 in Example 1.
- FIG. It is a figure for demonstrating the structure and processing of the external memory reading unit 112. It is a figure for demonstrating the structure and processing of the external storage update part 113.
- FIG. It is a flowchart which shows the processing procedure of the language processing apparatus 100 in Example 2.
- FIG. It is a flowchart which shows the processing procedure of the language processing apparatus 100 in Example 3.
- FIG. It is a flowchart which shows the processing procedure of the language processing apparatus 100 in Example 4.
- FIG. It is a figure which shows the example of the hardware composition of the language processing apparatus 100.
- the "text” is a list of characters, and the "text” may be called a "sentence”.
- the "token” represents a unit of distributed expression such as a word in the text. For example, in Non-Patent Document 1, since the word is divided into finer unit subwords, the token in Non-Patent Document 1 is the subword.
- Transformer's attention mechanism and position encoding are important elements.
- the attention mechanism calculates the weights that represent how related one token is to another, and then calculates the distributed representation of the tokens.
- position encoding a feature amount indicating the position of a certain token in the text is calculated.
- the first reason is that only a predetermined number of position encodings have been learned. 512 positions encoding of Non-Patent Document 1 have been learned, and positions up to 512 tokens in the text can be handled. Therefore, if the text is longer than 512 tokens, the 513th and subsequent tokens cannot be treated at the same time as the previous tokens.
- the second reason is that the calculation cost in the attention mechanism is high. That is, since the attention mechanism calculates the score of the association with all tokens for each token in the input text, the longer the token series, the higher the cost for score calculation, and the calculation is performed on the computer. You will not be able to do it.
- Non-Patent Document 1 cannot handle a text composed of a long token sequence well.
- the language processing device 100 that solves this problem will be described.
- Example 1 the configuration and processing for obtaining the context feature set from the input text by the language processing apparatus 100 provided with the learned language understanding model will be described as Example 1, and the configuration and processing for learning the language understanding model will be described. This will be described as Example 2. Further, examples 3 and 4 will be described as examples in which the method for initializing the external storage unit 114 and the method for updating the external storage unit 114 are different from the methods in Examples 1 and 2.
- the language processing device 100 of the first embodiment includes a language processing unit 110, a first model parameter storage unit 120, an input unit 130, a preprocessing unit 140, and an output control unit 150.
- the language processing unit 110 includes a short-term context feature amount extraction unit 111, an external storage reading unit 112, an external storage updating unit 113, and an external storage unit 114.
- the details of the processing by the language processing unit 110 will be described later, but the outline of each unit constituting the language processing unit 110 is as follows.
- the external storage / reading unit 112 may be referred to as a feature amount calculation unit.
- the external storage unit 114 included in the language processing device 100 may be provided outside the language processing unit 110.
- the short-term context feature amount extraction unit 111 extracts the feature amount from the short token series obtained by dividing the input text.
- the external storage reading unit 112 outputs an intermediate feature amount using the information (external storage feature amount) stored in the external storage unit 114.
- the external storage update unit 113 updates the information of the external storage unit 114.
- the external storage unit 114 stores keywords in the long-term context and information representing their relationships as information in the long-term context. This information is stored in the form of a matrix as a feature matrix.
- the short-term context feature extraction unit 111, the external memory reading unit 112, and the external storage updating unit 113 are each implemented as, for example, a model of a neural network.
- the language processing unit 110 which is a functional unit in which the external storage unit 114 is added to these three functional units, may be referred to as a language understanding model with memory.
- the first model parameter storage unit 120 stores the learned parameters in the language understanding model with memory. By setting the learned parameters in the language understanding model with memory, the language processing unit 110 can execute the operation of the first embodiment.
- the input unit 130 inputs a long-term text from outside the device and passes the long-term text to the preprocessing unit 140.
- the preprocessing unit 140 converts the input long-term text into a set of short-term texts, and inputs the short-term texts one by one to the short-term context feature extraction unit 111.
- the long-term text in Example 1 may be paraphrased as a long text or a long text.
- the long text is a text longer than a predetermined length (eg, 512 tokens that can be appropriately handled by the language understanding model of Non-Patent Document 1).
- short-term text may be paraphrased as short text or short text. Short text is the text obtained by splitting the text.
- the text input from the input unit 130 is not limited to the long text, and may be shorter than the long text.
- the output control unit 150 receives the intermediate feature amount for each short-term text from the external storage / reading unit 112, receives the intermediate feature amount of the last short-term text, and then combines the intermediate feature amount to input the long-term text. Outputs the long-term context feature, which is the feature of.
- Example of device operation Hereinafter, an operation example of the language processing device 100 in the first embodiment will be described according to the procedure of the flowchart shown in FIG.
- Example 1 the text is converted from a string to a token sequence by an appropriate tokenizer, and the length of the text represents the sequence length (number of tokens) of the token sequence. do.
- S101 a long-term text is input by the input unit 130.
- the long-term text is passed from the input unit 130 to the preprocessing unit 140.
- the preprocessing unit 140 divides each short-term text into a length L seq , including a special token used for padding and the like.
- Non-Patent Document 1 when the model disclosed in Non-Patent Document 1 is used as the short-term context feature extraction unit 111, a class token ([CLS]) or a separator token ([SEP]) is added to the beginning and end of the token series. Because of the addition, that is, two tokens are added, the long-term text is actually divided into one or more token sequences of length "L seq -2".
- short text s i is input to the short-term context feature extraction unit 111, the short-term context feature extraction unit 111 calculates a short-term context feature amount h i ⁇ R d ⁇ Lseq for short text s i.
- Short-term context feature extraction unit 111 calculates a short-term context feature amount in consideration of the relationship between each token and all other tokens in the s i.
- the short-term context feature extraction unit 111 is not limited to a specific model, but for example, the neural network model (BERT) disclosed in Non-Patent Document 1 can be used as the short-term context feature extraction unit 111.
- BERT is used as the short-term context feature extraction unit 111.
- the BERT can use the attention mechanism to consider the relationship between the token and other tokens for each token and output a feature amount that reflects the relationship.
- the attention mechanism is expressed by the following equation (1).
- d k in the above reference is described as d.
- Short-term context feature extraction unit 111 creates Q, K, and V from the feature quantity of s i, and calculates the attention by the formula (1).
- Q is an abbreviation for Query
- K is an abbreviation for Key
- V is an abbreviation for Value.
- Q, K, and V in the above equation (1) linearly transform the features of each token. It is a matrix, and Q, K, V ⁇ R d ⁇ Lseq .
- Calculation of softmax function indicates that the token is calculated based on the inner product (QK T) between feature amounts of how relevant score indicating whether the a (probability) tokens to other token ..
- the weighted sum of V by this score is the output of attention, that is, the feature quantity indicating how much other tokens are related to the token.
- the short-term context feature extraction unit 111 adds the Attention (Q, K, V) and the feature of the token to obtain a feature that reflects the relationship between the token and other tokens.
- the external storage feature quantity is a vector in which necessary information is extracted and stored from ⁇ s 1 , ..., si -1 ⁇ . How to extract and store the information as a vector will be described in S105 (update process).
- the external storage feature amount m is initialized with a random numerical value, and is appropriately initialized in advance.
- Such an initialization method is an example, and in Example 3 (and Example 4), initialization is performed by a method different from the method of initializing with a random numerical value.
- External storage reading unit 112 compares each element of the short-term context feature amount h i and the external storage feature quantity m, extracts necessary information from the external storage feature amount, and the extracted information and the information held by h i Add together. Thus, ⁇ s 1, ..., s i-1 ⁇ can be obtained an intermediate feature quantity relating to s i which information reflecting the.
- the external storage / reading unit 112 performs matching between the two feature quantities (between hi and m) and extracts necessary information.
- the neural network model that executes this process is not limited to a specific model, but for example, a model using the attention mechanism (formula (1)) of the above-mentioned reference can be used. In this embodiment, the attention is used. A model using a mechanism is used.
- FIG. 3 is a diagram showing a configuration (and processing content) of a model corresponding to the external storage / reading unit 112.
- the model has a linear conversion unit 1, a linear conversion unit 2, a linear conversion unit 3, an attachment mechanism 4 (Equation (1)), and an addition unit 5.
- Linear transformation unit 1 outputs the Q short context feature amount h i by linear transformation, each linear transformation unit 2 is linearly converting the m outputs K, the V.
- Each token corresponds to the probability representing how much associated with external storage feature quantity of each slot, the u i the sum of the external storage feature quantity Te weighted by their probabilities in the (short text) is Each vector of. That is, the associated external storage feature amount information is stored for each token in the short text in the u i.
- the addition unit 5 it is possible to obtain an intermediate feature quantity v i that reflects the information of the long-term context in the external memory, wherein the amount by adding the u i and h i.
- External storage updating unit 113 compares each element of the short-term context feature amount h i and the external storage feature quantity m, extracts information to be stored in the information h i, of the information by overwriting the m update I do.
- the external storage update unit 113 performs matching between the two feature quantities (between hi and m) and extracts necessary information.
- the neural network model that executes this process is not limited to a specific model, but for example, a model using the attention mechanism (formula (1)) of the above-mentioned reference can be used. In this embodiment, the attention is used. A model using a mechanism is used.
- FIG. 4 is a diagram showing a configuration (and processing content) of a model corresponding to the external storage update unit 113.
- the model has a linear conversion unit 11, a linear conversion unit 12, a linear conversion unit 13, an attachment mechanism 14 (Equation (1)), and an addition unit 15.
- Linear transformation unit 11 outputs the Q linearly converts m, respectively linear transformation unit 12 and 13 linearly converts the short-term context feature amount h i outputs K, the V.
- each slot of the external memory feature is related to each token of the short-term text
- the sum of the features of the token of the short-term text weighted by the probability is each vector of r. be. That is, r stores token information in the related short-term text for each slot of the external storage feature.
- the addition unit 15 adds r and m.
- extracting the necessary information r from s i is obtained feature amount m ⁇ adds information m extracted ever. That, ⁇ s 1, ..., s i ⁇ feature quantity of the new external storage for extracting and storing the necessary information from m ⁇ can be obtained.
- Example 3 is updated by a method different from the above-mentioned update method.
- Example 2 Next, Example 2 will be described.
- the language processing unit 110 that is, the configuration and processing contents for learning the model parameters of the language understanding model with memory will be described.
- the learning method of the language understanding model with memory is not limited to a specific method, but in this embodiment, as an example, a task of predicting a masked token (example: Section 3.1 of Non-Patent Document 1 Task # 1 Masked LM). ) To learn the model parameters.
- the language processing device 100 of the second embodiment has a language processing unit 110, a first model parameter storage unit 120, an input unit 130, a preprocessing unit 140, a second model parameter storage unit 160, and a token prediction unit. It includes 170 and an update unit 180.
- the language processing unit 110 includes a short-term context feature amount extraction unit 111, an external storage reading unit 112, an external storage updating unit 113, and an external storage unit 114.
- the external storage unit 114 included in the language processing device 100 may be provided outside the language processing unit 110.
- the output control unit 150 is removed, and the second model parameter storage unit 160, the token prediction unit 170, and the update unit 180 are added as compared with the language processing device 100 of the first embodiment. It has been added.
- the configuration and operation other than those added are basically the same as those in the first embodiment.
- model parameters can be learned and the first embodiment.
- the above-described long-term context feature quantity can be acquired by one language processing device 100.
- the language processing device 100 of the second embodiment and the language processing device 100 of the first embodiment may be separate devices, and in that case, the model parameters obtained in the learning process of the language processing device 100 of the second embodiment are implemented.
- the long-term context feature amount can be acquired in the language processing device 100 of Example 1.
- the language processing device 100 of the second embodiment may be called a learning device.
- Token prediction unit 170 predicts the token using v i.
- the token prediction unit 170 of the second embodiment is implemented as a model of a neural network.
- the update unit 180 Based on the correct answer of the token and the prediction result of the token, the update unit 180 has model parameters of the short-term context feature amount extraction unit 111, the external memory read unit 112, and the external memory update unit 113, and the model parameters of the token prediction unit 170. To update.
- the model parameters of the token prediction unit 170 are stored in the second model parameter storage unit 160.
- long texts published on the Web are collected and stored in the text set database 200 shown in FIG.
- Long-term text is read from the text set database 200.
- a one-paragraph sentence (which may be called a sentence) of a document can be treated as one long-term text.
- the input unit 130 reads a long-term text from the text set database and inputs it.
- the long-term text is passed from the input unit 130 to the preprocessing unit 140.
- Preprocessing unit 140 of the tokens in the s i selects a number of tokens, replacing the selected token, the mask token ([MASK]) or another token randomly selected, or selected Keep the token as it is and get the masked short-term text s i ⁇ .
- the conditions for substitution and maintenance may be the same as the conditions in Non-Patent Document 1.
- the token selected as the target of replacement or maintenance at this time becomes the prediction target of the token prediction unit 170.
- External storage reading unit 112 receives the intermediate feature quantity v i to the token prediction unit 170, the token prediction unit 170 outputs the prediction token.
- the token prediction unit 170 is a mechanism for predicting from predetermined vocabulary t th token t-th basis of the feature quantity v i (t) ⁇ R d about tokens v i ..
- the t-th token corresponds to the token to be replaced or maintained.
- v i dimension number (t) is converted into feature quantity y (t) ⁇ R d'a vocabulary size d'y of (t) Tokens can be predicted from the vocabulary using the index that maximizes the value of the element.
- Example 3 In the first embodiment for obtaining the context feature set from the input text, the external storage unit 114 is initialized by inputting a random value. In Example 1, by using the configuration shown in FIG. 4, it matches short contextual feature amount h i and the external storage feature quantity m, to extract the necessary information, new external storage feature quantity m ⁇ Was calculated and m was updated with m ⁇ .
- Example 3 a processing method in which the method of initializing and updating the external storage unit 114 is different from that of Example 1 will be described.
- the points different from those of the first embodiment will be mainly described.
- the device configuration of the language processing device 100 of the third embodiment is the same as the device configuration of the language processing device 100 of the first embodiment, and is as shown in FIG.
- an operation example of the language processing device 100 in the first embodiment will be described according to the procedure of the flowchart shown in FIG. 7.
- S301 and S302 are the same as S101 and S102 of the first embodiment.
- the short-term context feature extraction unit 111 receives one short-term text from the preprocessing unit 140 and determines whether or not the short-term text is the first short-term text. If it is not the first short-term text, proceed to S306, and if it is the first short-term text, proceed to S304.
- the output intermediate feature amount h i is input to the external memory update unit 113.
- m (2) is a d-dimensional vector to create a ⁇ R d, external storage unit m (2) as the initial value of the external storage feature quantity Store in 114.
- h i is a matrix of d ⁇ L seq.
- the above predetermined operation may be, for example, an operation of averaging the values of the elements for each dimension of d, that is, for each row ( vector of the number of elements L seq ), or an operation of averaging the values of L seq elements. It may be an operation of extracting the maximum value among the values, or it may be an operation other than these.
- the index of m starts from 2 as in m (2) because the external memory feature amount is used from the processing of the second short-term text.
- the external storage feature amount can be initialized with a more appropriate value.
- S306 The processing in S306 in the case short text s i received from the preprocessing unit 140 is not the first short text, the processing of the next S307 is the same as in S103, S104 Example 1. However, in the calculation of the intermediate feature quantity v i of S307, as an external storage feature quantity m, with respect to the second short text, initialized external storage feature quantity m (2) is used in S305, subsequent For the short-term text, the external storage feature amount m (i) updated in S308 with respect to the previous short-term text is used.
- the external storage updating unit 113 by executing the operation the same operation as the initialization in S305 with respect to h i, creating a d-dimensional vector ⁇ from h i.
- the external memory update unit 113 creates a new external memory feature amount m (i + 1) by using m (i) and ⁇ before the update as follows.
- m (i + 1) [m (i) , ⁇ ] [,]
- m (i + 1) is obtained by adding ⁇ to m (i). That is, m (i) ⁇ R d ⁇ (i-1) (i ⁇ 2).
- Example 4 is an example for learning the language comprehension model used in Example 3. Hereinafter, the differences from the second embodiment will be mainly described.
- the device configuration of the language processing device 100 of the fourth embodiment is the same as the device configuration of the language processing device 100 of the second embodiment, and is as shown in FIG.
- an operation example of the language processing device 100 in the fourth embodiment will be described according to the procedure of the flowchart shown in FIG.
- S401 to S403 are the same as S201 to S203 of the second embodiment.
- S410 to S412 are the same as S207 to S209 in Example 2.
- the language processing device 100 can be realized by, for example, causing a computer to execute a program describing the processing contents described in the present embodiment.
- the "computer” may be a physical machine or a virtual machine on the cloud.
- the "hardware” described here is virtual hardware.
- the above program can be recorded on a computer-readable recording medium (portable memory, etc.), saved, and distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
- FIG. 9 is a diagram showing a hardware configuration example of the above computer.
- the computer of FIG. 9 has a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, and the like, which are connected to each other by a bus BS.
- the computer may have a GPU (Graphics Processing Unit) in place of the CPU 1004 or together with the CPU 1004.
- GPU Graphics Processing Unit
- the program that realizes the processing on the computer is provided by, for example, a recording medium 1001 such as a CD-ROM or a memory card.
- a recording medium 1001 such as a CD-ROM or a memory card.
- the program is installed in the auxiliary storage device 1002 from the recording medium 1001 via the drive device 1000.
- the program does not necessarily have to be installed from the recording medium 1001, and may be downloaded from another computer via the network.
- the auxiliary storage device 1002 stores the installed program and also stores necessary files, data, and the like.
- the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when the program is instructed to start.
- the CPU 1004 (or GPU, or CPU 1004 and GPU) realizes the function related to the device according to the program stored in the memory device 1003.
- the interface device 1005 is used as an interface for connecting to a network.
- the display device 1006 displays a programmatic GUI (Graphical User Interface) or the like.
- the input device 1007 is composed of a keyboard, a mouse, buttons, a touch panel, and the like, and is used for inputting various operation instructions.
- the calculation cost of the attention mechanism can be suppressed by separating the short-term information processing and the long-term information processing. Further, since long-term information can be stored in the external storage unit 114, long texts can be handled without limitation of the sequence length.
- This specification describes at least the language processing device, the learning device, the language processing method, the learning method, and the program described in each of the following sections.
- (Section 1) A pre-processing unit that divides the input text into multiple short texts, A language processing unit that calculates a first feature amount and a second feature amount using a trained model for each of the plurality of short texts. It includes an external storage unit for storing a third feature quantity for one or more short texts.
- the language processing unit A language that uses the trained model to calculate a second feature quantity for a short text using the first feature quantity of the short text and the third feature quantity stored in the external storage unit. Processing equipment.
- the language processing unit uses the trained model to use the trained model. Each time the second feature amount of the short text is calculated, the feature amount reflecting the relationship between each token in the short text and the information stored in the external storage unit for the short text is calculated.
- the language processing apparatus according to item 1, wherein a third feature amount stored in the external storage unit is updated by using the language processing apparatus.
- the language processing unit initializes the third feature amount stored in the external storage unit by executing a predetermined operation on the first feature amount calculated using the trained model.
- the language processing unit uses the trained model to use the trained model. Every time the second feature amount of the second and subsequent short texts is calculated, a fourth feature amount is created and updated by performing a predetermined operation on the first feature amount of the short text.
- the language processing apparatus according to item 1 or 3, wherein an updated third feature amount is created by adding the fourth feature amount to the previous third feature amount.
- Section 5 For a short text in multiple short texts obtained by dividing it from the input text, some tokens of all the tokens contained in the short text are converted into another token, or without conversion. Pretreatment part to maintain and A language processing unit that calculates a first feature amount and a second feature amount using a model for the short text in which some of the tokens are converted or maintained.
- An external storage unit for storing a third feature amount for one or more of the short texts in which some of the tokens have been converted or maintained.
- a token prediction unit that predicts some of the tokens using the second feature, and a token prediction unit.
- a part of the tokens and an update unit that updates the model parameters of the model constituting the language processing unit based on the prediction result by the token prediction unit are provided.
- the language processing unit uses the model and uses the model.
- a second feature amount for the short text in which some of the tokens are converted or maintained is used as a first feature amount of the short text and a third feature amount stored in the external storage unit.
- a language processing method executed by a language processing device. Steps to split the entered text into multiple short texts, For each of the plurality of short texts, a language processing step for calculating a first feature amount and a second feature amount using a trained model is provided.
- the language processing device includes an external storage unit for storing a third feature amount for one or more short texts.
- the second feature amount for a short text using the trained model is divided into the first feature amount of the short text and the third feature amount stored in the external storage unit. Language processing method calculated using.
- (Section 7) A learning method performed by a learning device equipped with a model. For a short text in multiple short texts obtained by dividing it from the input text, some tokens of all the tokens contained in the short text are converted into another token, or without conversion. Pretreatment steps to maintain and A language processing step of calculating a first feature amount and a second feature amount using the model for the short text in which some of the tokens are converted or maintained. A token prediction step of predicting a part of the tokens using the second feature amount, A part of the tokens and an update step for updating the model parameters of the model based on the prediction result by the token prediction step are provided.
- the learning device includes an external storage unit for storing a third feature amount for one or more of the short texts in which some of the tokens are converted or maintained.
- a second feature amount for the short text in which some of the tokens are converted or maintained is used as a first feature amount of the short text and a third feature amount stored in the external storage unit.
- (Section 8) A program for causing a computer to function as each part in the language processing device according to any one of the first to fourth paragraphs.
- (Section 9) A program for making a computer function as each part in the learning device according to the fifth item.
- Language processing device 110 Language processing unit 111 Short-term context feature extraction unit 112 External storage reading unit 113 External storage updating unit 114 External storage unit 120 First model parameter storage unit 130 Input unit 140 Preprocessing unit 150 Output control unit 160 Second Model parameter storage unit 170 Token prediction unit 180 Update unit 200 Text set database 1000 Drive device 1001 Recording medium 1002 Auxiliary storage device 1003 Memory device 1004 CPU 1005 Interface device 1006 Display device 1007 Input device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
言語処理装置において、入力されたテキストを複数の短テキストに分割する前処理部と、 前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、1以上の短テキストについての第3の特徴量を格納するための外部記憶部と、を備え、前記言語処理部は、前記学習済みモデルを用いて、ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する。
Description
本発明は、言語理解モデルに関連するものである。
言語理解モデルに関する研究が近年盛んに行われている。言語理解モデルとは、トークンの分散表現を得るニューラルネットワークモデルの一つである。言語理解モデルでは、単一のトークンをモデルに入力するのではなく、トークンが使用されているテキスト全てをモデルに入力するため、テキスト内の他のトークンとの意味的な関係性を反映した分散表現を得ることができる。
上記のような言語理解モデルとして、例えば、非特許文献1に開示されている言語理解モデルがある。
BERT、https://arxiv.org/abs/1810.04805、インターネット、2020年2月26日検索
しかし、非特許文献1に開示されている言語理解モデルでは、長いテキスト(長いトークン系列)を上手く扱うことができないという課題がある。なお、長いテキストとは、所定の長さ(例:非特許文献1の言語理解モデルで適切に扱える512トークン)よりも長いテキストである。
本発明は上記の点に鑑みてなされたものであり、長いテキストが入力された場合でも、テキスト内のトークン間の関係性を反映した特徴量を適切に抽出することを可能とする技術を提供することを目的とする。
開示の技術によれば、入力されたテキストを複数の短テキストに分割する前処理部と、
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
1以上の短テキストについての第3の特徴量を格納するための外部記憶部と、を備え、
前記言語処理部は、
前記学習済みモデルを用いて、ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理装置が提供される。
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
1以上の短テキストについての第3の特徴量を格納するための外部記憶部と、を備え、
前記言語処理部は、
前記学習済みモデルを用いて、ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理装置が提供される。
開示の技術によれば、長いテキストが入力された場合でも、テキスト内のトークン間の関係性を反映した特徴量を適切に抽出することが可能となる。
開示の技術によれば、データの分類を精度良く行う技術が提供される。
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
なお、本実施の形態において、「テキスト」とは文字の羅列であり、「テキスト」を「文」と呼んでもよい。また、「トークン」は、テキスト中の単語などの分散表現の単位を表す。例えば、非特許文献1では、単語を更に細かい単位サブワードへと分割しているため、非特許文献1でのトークンは当該サブワードとなる。
非特許文献1に開示されている言語理解モデルにおいては、Transformerのattention機構とposition encodingが重要な要素となっている。attention機構では、あるトークンとその他のトークンがどの程度関連しているかを表す重みを計算し、それに基づいてトークンの分散表現を計算する。position encodingでは、あるトークンがテキスト内のどの位置にあるかを表す特徴量を算出する。
しかし、前述したように、非特許文献1に開示されている従来の言語理解モデルでは、長いテキストを上手く扱うことができない。その理由は2点あり、下記のとおりである。
1点目の理由は、position encodingが予め決められた数しか学習されていないということである。非特許文献1のposition encodingは512個学習されており、テキスト内の512トークンまでの位置を扱うことができる。従って、もしもテキストが512トークンよりも長ければ、513番目以降のトークンはそれ以前のトークンと同時に扱うことができない。
2点目の理由は、attention機構における計算コストが大きいということである。すなわち、attention機構では、入力テキスト内のトークン毎に全トークンとの間の関連性のスコアを計算するため、トークン系列が長くなればなるほど、スコア計算にかかるコストが増えてしまい、計算機上で計算できなくなってしまう。
以上の2つの理由から、非特許文献1に開示されている従来の言語理解モデルでは、長いトークン系列で構成されるテキストを上手く扱うことができない。本実施形態では、この課題を解決する言語処理装置100について説明する。
以下、学習済の言語理解モデルを備える言語処理装置100が、入力テキストから文脈特徴量集合を得るための構成及び処理を実施例1として説明し、言語理解モデルの学習のための構成及び処理を実施例2として説明する。また、外部記憶部114の初期化方法と、外部記憶部114の更新方法として、実施例1、2における方法とは異なる方法を用いた例を実施例3、4として説明する。
(実施例1)
<装置構成例>
図1に示すように、実施例1の言語処理装置100は、言語処理部110、第1モデルパラメータ格納部120、入力部130、前処理部140、出力制御部150を備える。
<装置構成例>
図1に示すように、実施例1の言語処理装置100は、言語処理部110、第1モデルパラメータ格納部120、入力部130、前処理部140、出力制御部150を備える。
言語処理部110は、短期文脈特徴量抽出部111、外部記憶読み出し部112、外部記憶更新部113、外部記憶部114を備える。言語処理部110による処理の詳細は後述するが、言語処理部110を構成する各部の概要は下記のとおりである。なお、外部記憶読み出し部112を特徴量算出部と呼んでもよい。また、言語処理装置100が備える外部記憶部114は、言語処理部110の外部に備えられてもよい。
短期文脈特徴量抽出部111は、入力されたテキストを分割して得られる短いトークン系列から特徴量を抽出する。外部記憶読み出し部112は、外部記憶部114に格納されている情報(外部記憶特徴量)を用いて中間特徴量を出力する。外部記憶更新部113は、外部記憶部114の情報を更新する。外部記憶部114には、長期文脈の情報として、長期文脈の中のキーワードやそれらの関係性を表す情報が格納されている。これらの情報は特徴量行列として行列の形で格納される。
短期文脈特徴量抽出部111、外部記憶読み出し部112、及び外部記憶更新部113は、それぞれ例えばニューラルネットワークのモデルとして実装される。これら3つの機能部に外部記憶部114を加えた機能部である言語処理部110をメモリ付き言語理解モデルと称してもよい。第1モデルパラメータ格納部120には、当該メモリ付き言語理解モデルにおける学習済みのパラメータが格納されている。当該メモリ付き言語理解モデルに、当該学習済みのパラメータが設定されることで、言語処理部110は、実施例1の動作を実行することができる。
入力部130は、装置外部から長期テキストを入力し、当該長期テキストを前処理部140に渡す。前処理部140は、入力された長期テキストを短期テキストの集合に変換し、短期テキストを1つずつ短期文脈特徴量抽出部111に入力する。なお、実施例1(及び実施例2~4)における長期テキストを長いテキスト又は長テキストと言い換えてもよい。長いテキストとは、前述したとおり、所定の長さ(例:非特許文献1の言語理解モデルで適切に扱える512トークン)よりも長いテキストである。また、短期テキストを短いテキスト又は短テキストと言い換えてもよい。短いテキストは、テキストを分割することにより得られるテキストである。なお、入力部130から入力するテキストは、長いテキストに限られず、長いテキストよりも短いテキストであってもよい。
出力制御部150は、外部記憶読み出し部112から、短期テキスト毎の中間特徴量を受信し、最後の短期テキストの中間特徴量を受信したら、中間特徴量を結合することで、入力された長期テキストの特徴量である長期文脈特徴量を出力する。
<装置の動作例>
以下、図2に示すフローチャートの手順に沿って、実施例1における言語処理装置100の動作例を説明する。実施例1(実施例2~4も同様)において、テキストは適切なトークナイザによって文字列からトークン系列に変換されており、テキストの長さはトークン系列の系列長(トークンの個数)を表すものとする。
以下、図2に示すフローチャートの手順に沿って、実施例1における言語処理装置100の動作例を説明する。実施例1(実施例2~4も同様)において、テキストは適切なトークナイザによって文字列からトークン系列に変換されており、テキストの長さはトークン系列の系列長(トークンの個数)を表すものとする。
<S101>
S101において、入力部130により長期テキストを入力する。長期テキストは入力部130から前処理部140に渡される。
S101において、入力部130により長期テキストを入力する。長期テキストは入力部130から前処理部140に渡される。
<S102>
S102において、前処理部140は、入力された長期テキストを、1以上の予め設定した長さLseq(Lseqは1以上の整数)の短期テキストへ分割し、短期テキスト集合S={s1,s2,…,sN}を得る。例えば、長さ512の長期テキストについて、Lseq=32とすると、N=16、すなわち、16個の短期テキストが含まれた短期テキスト集合Sが生成される。
S102において、前処理部140は、入力された長期テキストを、1以上の予め設定した長さLseq(Lseqは1以上の整数)の短期テキストへ分割し、短期テキスト集合S={s1,s2,…,sN}を得る。例えば、長さ512の長期テキストについて、Lseq=32とすると、N=16、すなわち、16個の短期テキストが含まれた短期テキスト集合Sが生成される。
この集合Sの各要素(短期テキストsi)それぞれに対し、以下で説明するS103~S105の処理が行われる。
S102において、より詳細には、前処理部140は、パディングなどに使用する特殊なトークンを含めて、個々の短期テキストが長さLseqになるように分割する。
例えば、短期文脈特徴量抽出部111として、非特許文献1に開示されたモデルを使用する場合には、クラストークン([CLS])あるいはセパレータトークン([SEP])をトークン系列の先頭と末尾に追加するため、つまり、2トークンが追加されるため、実際には長期テキストを長さ「Lseq-2」の1以上のトークン系列に分割することになる。
<S103>
S103において、短期テキストsiが短期文脈特徴量抽出部111に入力され、短期文脈特徴量抽出部111は、短期テキストsiに対する短期文脈特徴量hi∈Rd×Lseqを算出する。なお、記載の便宜上、Rd×Lseq(=d×Lseqの実行列の集合)の右上の添え字「d×Lseq」を「d×Lseq」と記載している。ここで、dは特徴量の次元数を表す。例えば、d=768である。
S103において、短期テキストsiが短期文脈特徴量抽出部111に入力され、短期文脈特徴量抽出部111は、短期テキストsiに対する短期文脈特徴量hi∈Rd×Lseqを算出する。なお、記載の便宜上、Rd×Lseq(=d×Lseqの実行列の集合)の右上の添え字「d×Lseq」を「d×Lseq」と記載している。ここで、dは特徴量の次元数を表す。例えば、d=768である。
短期文脈特徴量抽出部111は、si内において各トークンと他の全てのトークンとの関係性を考慮して短期文脈特徴量を算出する。短期文脈特徴量抽出部111は、特定のモデルに限定されないが、例えば、短期文脈特徴量抽出部111として、非特許文献1に開示されたニューラルネットワークモデル(BERT)を使用することができる。実施例1(及び実施例2~4)では、短期文脈特徴量抽出部111としてBERTを用いている。
BERTは、attention機構を用いて、各トークンについて、当該トークンと他のトークンとの関係性を考慮し、それを反映した特徴量を出力することができる。参考文献(Transformer (https://arxiv.org/abs/1706.03762))に開示されているように、attention機構は以下の式(1)で表される。なお、下記の式(1)において、上記参考文献におけるdkをdと記載している。
上記式(1)における、
<S104>
S104において、S103で得られた短期文脈特徴量hiと、外部記憶部114に格納されている外部記憶特徴量m∈Rd×Mとが外部記憶読み出し部112へ入力され、外部記憶読み出し部112は、入力情報から中間特徴量vi∈Rd×Lseqを算出し、出力する。本実施例では、vi、mの特徴量次元数は同じdであるが、特徴量次元数が異なっていてもよい。
S104において、S103で得られた短期文脈特徴量hiと、外部記憶部114に格納されている外部記憶特徴量m∈Rd×Mとが外部記憶読み出し部112へ入力され、外部記憶読み出し部112は、入力情報から中間特徴量vi∈Rd×Lseqを算出し、出力する。本実施例では、vi、mの特徴量次元数は同じdであるが、特徴量次元数が異なっていてもよい。
m∈Rd×MにおけるMは外部記憶特徴量のスロット数を表す。外部記憶特徴量は、{s1,…,si-1}から必要な情報を抽出・格納したベクトルである。どのように情報をベクトルとして抽出・格納するかについてはS105(更新の処理)で説明する。なお、s1に関する処理を行う前に、外部記憶特徴量mはランダムな数値で初期化するなど、予め適切な初期化を行っておく。このような初期化方法は一例であり、実施例3(及び実施例4)では、ランダムな数値で初期化する方法とは異なる方法で初期化を行っている。
外部記憶読み出し部112は、短期文脈特徴量hiと外部記憶特徴量mの各要素を比較し、外部記憶特徴量から必要な情報を抽出し、その抽出した情報とhiの持つ情報とを足し合わせる。これにより、{s1,…,si-1}の情報を反映したsiに関する中間特徴量を得ることができる。
すなわち、外部記憶読み出し部112は、2つの特徴量間(hiとm間)のマッチングを行い必要な情報を抽出する。この処理を実行するニューラルネットワークモデルは、特定のモデルに限定されないが、例えば、前述した参考文献のattention機構(式(1)を用いたモデルを使用することができる。本実施例では、当該attention機構を用いたモデルを使用している。
図3は、外部記憶読み出し部112に相当するモデルの構成(及び処理内容)を示す図である。
図3に示すように、当該モデルは、線形変換部1、線形変換部2、線形変換部3、Attention機構4(式(1))、及び加算部5を有する。線形変換部1は、短期文脈特徴量hiを線形変換してQを出力し、線形変換部2、3はそれぞれmを線形変換してK、Vを出力する。
Q、K、VがAttention機構4(式(1))に入力され、Attention機構4(式(1))は、ui=Attention(Q,K,V)を出力する。
上記のとおり、hiに基づいてQ(Query)が得られ、mに基づいてK(Key)、V(Value)が得られるため、
<S105>
S105において、S103で得られた短期文脈特徴量hiと、外部記憶特徴量mとが外部記憶更新部113へ入力され、外部記憶更新部113は、これらの入力に基づいて新しい外部記憶特徴量m^を算出して外部記憶部114に出力し、mをm^で更新する。なお、記載の便宜上、本明細書では、mの上に乗るハット(^)を、"m^"のようにmの後に記載している。
S105において、S103で得られた短期文脈特徴量hiと、外部記憶特徴量mとが外部記憶更新部113へ入力され、外部記憶更新部113は、これらの入力に基づいて新しい外部記憶特徴量m^を算出して外部記憶部114に出力し、mをm^で更新する。なお、記載の便宜上、本明細書では、mの上に乗るハット(^)を、"m^"のようにmの後に記載している。
外部記憶更新部113は、短期文脈特徴量hiと外部記憶特徴量mの各要素を比較し、hiの情報の中で保存すべき情報を抽出し、mに上書きすることで情報の更新を行う。
すなわち、外部記憶更新部113は、2つの特徴量間(hiとm間)のマッチングを行い必要な情報を抽出する。この処理を実行するニューラルネットワークモデルは、特定のモデルに限定されないが、例えば、前述した参考文献のattention機構(式(1)を用いたモデルを使用することができる。本実施例では、当該attention機構を用いたモデルを使用している。
図4は、外部記憶更新部113に相当するモデルの構成(及び処理内容)を示す図である。
図4に示すように、当該モデルは、線形変換部11、線形変換部12、線形変換部13、Attention機構14(式(1))、及び加算部15を有する。線形変換部11は、mを線形変換してQを出力し、線形変換部12、13はそれぞれ短期文脈特徴量hiを線形変換してK、Vを出力する。
Q、K、VがAttention機構14(式(1))に入力され、Attention機構14(式(1))は、r=Attention(Q,K,V)を得る。
上記のとおり、mに基づいてQが得られ、hiに基づいてK、Vが得られるため、
なお、上記のようなmの更新方法は一例であり、実施例3(及び実施例4)では、上記の更新方法とは異なる方法でmの更新を行っている。
<S106、S107>
S106において、出力制御部150は、外部記憶読み出し部112から受信した中間特徴量viが、最後の短期テキストに対する中間特徴量であるか否かを判断し、最後でなければ次の短期テキストに対するS103からの処理を行うよう制御する。
S106において、出力制御部150は、外部記憶読み出し部112から受信した中間特徴量viが、最後の短期テキストに対する中間特徴量であるか否かを判断し、最後でなければ次の短期テキストに対するS103からの処理を行うよう制御する。
中間特徴量viが、最後の短期テキストに対する中間特徴量である場合、すなわち、S103~S105がS={s1,s2,…,sN}の全てに対して行われた場合、出力制御部150は、得られた中間特徴量の集合{v1,…,vN}における各viを系列長方向に結合することで、長期文脈特徴量Vを得て、それを出力する。
例えば、長さ512の長期テキストについてLseq=32として、S103~S107を実行すると、{v1,…,v16}が得られる。d=768とすれば、viは768次元の列ベクトルが32個並んだ768×32の行列である。これを列方向に結合した768×512の行列を、入力された長期テキストに対する長期文脈特徴量Vとする。
(実施例2)
次に、実施例2を説明する。実施例2では、言語処理部110、すなわち、メモリ付き言語理解モデルのモデルパラメータを学習するための構成及び処理内容について説明する。
次に、実施例2を説明する。実施例2では、言語処理部110、すなわち、メモリ付き言語理解モデルのモデルパラメータを学習するための構成及び処理内容について説明する。
メモリ付き言語理解モデルの学習方法は特定の方法に限定されないが、本実施例では、一例として、マスクされたトークンを予測するタスク(例:非特許文献1の3.1節Task#1 Masked LM)を通じてモデルパラメータを学習する方法について説明する。
<装置構成例>
図5に示すように、実施例2の言語処理装置100は、言語処理部110、第1モデルパラメータ格納部120、入力部130、前処理部140、第2モデルパラメータ格納部160、トークン予測部170、更新部180を備える。言語処理部110は、短期文脈特徴量抽出部111、外部記憶読み出し部112、外部記憶更新部113、外部記憶部114を備える。言語処理装置100が備える外部記憶部114は、言語処理部110の外部に備えられてもよい。
図5に示すように、実施例2の言語処理装置100は、言語処理部110、第1モデルパラメータ格納部120、入力部130、前処理部140、第2モデルパラメータ格納部160、トークン予測部170、更新部180を備える。言語処理部110は、短期文脈特徴量抽出部111、外部記憶読み出し部112、外部記憶更新部113、外部記憶部114を備える。言語処理装置100が備える外部記憶部114は、言語処理部110の外部に備えられてもよい。
すなわち、実施例2の言語処理装置100は、実施例1の言語処理装置100と比較して、出力制御部150が除かれ、第2モデルパラメータ格納部160、トークン予測部170、更新部180が追加されたものである。追加されたもの以外の構成と動作は基本的に実施例1と同じである。
なお、実施例1の言語処理装置100に、第2モデルパラメータ格納部160、トークン予測部170、更新部180を追加した言語処理装置100を用いることで、モデルパラメータの学習と、実施例1で説明した長期文脈特徴量の取得を1つの言語処理装置100で行うことができる。また、実施例2の言語処理装置100と実施例1の言語処理装置100は別装置であってもよく、その場合、実施例2の言語処理装置100の学習処理で得られたモデルパラメータを実施例1の言語処理装置100の第1モデルパラメータ格納部120に格納することで、実施例1の言語処理装置100において、長期文脈特徴量の取得を行うことができる。また、実施例2の言語処理装置100を学習装置と呼んでもよい。
トークン予測部170は、viを用いてトークンを予測する。実施例2のトークン予測部170は、ニューラルネットワークのモデルとして実装される。更新部180は、トークンの正解とトークンの予測結果とに基づいて、短期文脈特徴量抽出部111、外部記憶読み出し部112、及び外部記憶更新部113のモデルパラメータと、トークン予測部170のモデルパラメータを更新する。トークン予測部170のモデルパラメータは、第2モデルパラメータ格納部160に格納されている。
また、実施例2では、Web上に公開されている長いテキストを収集し、図5に示すテキスト集合データベース200に格納しておく。テキスト集合データベース200から長期テキストが読み出される。例えば、ある文書の1段落の文章(文と呼んでもよい)を1つの長期テキストとして扱うことができる。
<装置の動作例>
以下、図6に示すフローチャートの手順に沿って、実施例2における言語処理装置100の動作例を説明する。短期文脈特徴量抽出部111、外部記憶読み出し部112、及び外部記憶更新部113のモデルパラメータ、及びトークン予測部170のモデルパラメータは、任意の適当な値で初期化されているとする。
以下、図6に示すフローチャートの手順に沿って、実施例2における言語処理装置100の動作例を説明する。短期文脈特徴量抽出部111、外部記憶読み出し部112、及び外部記憶更新部113のモデルパラメータ、及びトークン予測部170のモデルパラメータは、任意の適当な値で初期化されているとする。
<S201>
S201において、入力部130はテキスト集合データベースから長期テキストを読み出し、入力する。長期テキストは入力部130から前処理部140に渡される。
S201において、入力部130はテキスト集合データベースから長期テキストを読み出し、入力する。長期テキストは入力部130から前処理部140に渡される。
<S202>
S102において、前処理部140は、入力された長期テキストを、1以上の予め設定した長さLseq(Lseqは1以上の整数)の短期テキストへ分割し、短期テキスト集合S={s1,s2,…,sN}を得る。
S102において、前処理部140は、入力された長期テキストを、1以上の予め設定した長さLseq(Lseqは1以上の整数)の短期テキストへ分割し、短期テキスト集合S={s1,s2,…,sN}を得る。
S202で得た集合Sの各要素(短期テキストsi)それぞれに対し、以下の処理を行う。
<S203>
前処理部140は、siの中のトークンの内、いくつかのトークンを選択し、選択したトークンを、マスクトークン([MASK])やランダムに選んだ別のトークンに置換する、あるいは、選択したトークンそのままのトークンを維持し、マスクされた短期テキストsi^を得る。ここで、置換や維持の条件は非特許文献1における条件と同じでよい。このとき置換もしくは維持の対象に選ばれたトークンが、トークン予測部170での予測対象となる。
前処理部140は、siの中のトークンの内、いくつかのトークンを選択し、選択したトークンを、マスクトークン([MASK])やランダムに選んだ別のトークンに置換する、あるいは、選択したトークンそのままのトークンを維持し、マスクされた短期テキストsi^を得る。ここで、置換や維持の条件は非特許文献1における条件と同じでよい。このとき置換もしくは維持の対象に選ばれたトークンが、トークン予測部170での予測対象となる。
<S204、S205、S206>
実施例1のS103、S104、S105と同じ処理により、短期テキストsi^に対する中間特徴量viが得られ、外部記憶特徴量mが更新される。
実施例1のS103、S104、S105と同じ処理により、短期テキストsi^に対する中間特徴量viが得られ、外部記憶特徴量mが更新される。
<S207>
外部記憶読み出し部112は、中間特徴量viをトークン予測部170へ入力し、トークン予測部170が予測トークンを出力する。
外部記憶読み出し部112は、中間特徴量viをトークン予測部170へ入力し、トークン予測部170が予測トークンを出力する。
実施例2では、トークン予測部170は、viのt番目のトークンに関する特徴量vi
(t)∈Rdを基にt番目のトークンを予め決められた語彙の中から予測する機構である。t番目のトークンは、置換や維持の対象となったトークンに相当する。当該機構により、例えば、1層のFeed Forward Networkを用いて、vi
(t)を次元数が語彙サイズd´である特徴量y(t)∈Rd´へと変換しy(t)の要素の値が最大となるインデックスを用いて、語彙からトークンを予測することができる。
例えば、d´=32000とし、t番目のトークンが32000個の語彙セット(リスト)のどの語彙かを予測するとする。32000次元のベクトルであるy(t)の要素について、3000番目の要素が最大値となる場合、語彙リストの3000番目のトークンが求めるトークンとなる。
<S208>
S208において、マスクされた短期テキストと予測トークンが更新部180に入力され、更新部180は、教師あり学習で第1モデルパラメータ格納部120におけるモデルパラメータと第2モデルパラメータ格納部160におけるモデルパラメータを更新する。
S208において、マスクされた短期テキストと予測トークンが更新部180に入力され、更新部180は、教師あり学習で第1モデルパラメータ格納部120におけるモデルパラメータと第2モデルパラメータ格納部160におけるモデルパラメータを更新する。
<S209>
S209において、トークン予測部170は、外部記憶読み出し部112から受信した中間特徴量viが、最後の短期テキストに対する中間特徴量であるか否かを判断し、最後でなければ次の短期テキストに対するS203からの処理を行うよう制御する。
S209において、トークン予測部170は、外部記憶読み出し部112から受信した中間特徴量viが、最後の短期テキストに対する中間特徴量であるか否かを判断し、最後でなければ次の短期テキストに対するS203からの処理を行うよう制御する。
中間特徴量viが、最後の短期テキストに対する中間特徴量である場合、すなわち、S203~S208がS={s1,s2,…,sN}の全てに対して行われた場合、処理を終了する。
(実施例3)
入力テキストから文脈特徴量集合を得るための実施例1では、ランダムな値を入力することにより外部記憶部114を初期化していた。また、実施例1では、図4に示した構成を用いて、短期文脈特徴量hiと外部記憶特徴量mのマッチングを行い、必要な情報を抽出することで、新しい外部記憶特徴量m^を算出し、mをm^で更新していた。
入力テキストから文脈特徴量集合を得るための実施例1では、ランダムな値を入力することにより外部記憶部114を初期化していた。また、実施例1では、図4に示した構成を用いて、短期文脈特徴量hiと外部記憶特徴量mのマッチングを行い、必要な情報を抽出することで、新しい外部記憶特徴量m^を算出し、mをm^で更新していた。
実施例3では、実施例1と比較して、外部記憶部114の初期化と更新の方法が異なる処理方法について説明する。以下では、実施例1と異なる点を主に説明する。
実施例3の言語処理装置100の装置構成は、実施例1の言語処理装置100の装置構成と同じであり、図1に示したとおりである。以下、図7に示すフローチャートの手順に沿って、実施例1における言語処理装置100の動作例を説明する。
<S301、S302>
S301、S302は、実施例1のS101、S102と同じである。
S301、S302は、実施例1のS101、S102と同じである。
<S303>
S303において、短期文脈特徴量抽出部111は、前処理部140から1つの短期テキストを受け取り、当該短期テキストが最初の短期テキストか否かを判断する。最初の短期テキストでなければS306に進み、最初の短期テキストであればS304に進む。
S303において、短期文脈特徴量抽出部111は、前処理部140から1つの短期テキストを受け取り、当該短期テキストが最初の短期テキストか否かを判断する。最初の短期テキストでなければS306に進み、最初の短期テキストであればS304に進む。
<S304>
前処理部140から受け取った短期テキストsiが最初の短期テキストである場合のS304において、短期文脈特徴量抽出部111は、短期テキストsiに対する短期文脈特徴量hi∈Rd×Lseqを算出し、短期文脈特徴量hiを中間特徴量vi∈Rd×Lseqとして出力する。すなわち、最初の短期テキストsiについては、vi=hiとする。出力された中間特徴量hiは、外部記憶更新部113に入力される。
前処理部140から受け取った短期テキストsiが最初の短期テキストである場合のS304において、短期文脈特徴量抽出部111は、短期テキストsiに対する短期文脈特徴量hi∈Rd×Lseqを算出し、短期文脈特徴量hiを中間特徴量vi∈Rd×Lseqとして出力する。すなわち、最初の短期テキストsiについては、vi=hiとする。出力された中間特徴量hiは、外部記憶更新部113に入力される。
<S305>
S305において、外部記憶更新部113は、vi(=hi)を用いて、外部記憶部114に格納される外部記憶特徴量mを初期化する。具体的には、hiに対して所定の操作を行うことで、d次元ベクトルであるm(2)∈Rdを作成し、m(2)を外部記憶特徴量の初期値として外部記憶部114に格納する。
S305において、外部記憶更新部113は、vi(=hi)を用いて、外部記憶部114に格納される外部記憶特徴量mを初期化する。具体的には、hiに対して所定の操作を行うことで、d次元ベクトルであるm(2)∈Rdを作成し、m(2)を外部記憶特徴量の初期値として外部記憶部114に格納する。
hiはd×Lseqの行列である。上記の所定の操作は、例えば、dの次元毎に、つまり、行(要素数Lseqのベクトル)毎に、要素の値の平均をとる操作であってもよいし、Lseq個の要素の値のうちの最大値を抽出する操作であってもよいし、これら以外の操作であってもよい。なお、mのインデックスがm(2)のように2から始まるのは、2番目の短期テキストの処理から外部記憶特徴量を用いるためである。
実施例3における初期化方法を用いることで、より適切な値で外部記憶特徴量を初期化できる。
<S306、S307>
前処理部140から受け取った短期テキストsiが最初の短期テキストでない場合のS306における処理と、その次のS307の処理は、実施例1におけるS103、S104と同じである。ただし、S307の中間特徴量viの算出において、外部記憶特徴量mとして、2番目の短期テキストに対しては、S305で初期化した外部記憶特徴量m(2)が使用され、それ以降の短期テキストに対しては、その前の短期テキストに対してS308で更新した外部記憶特徴量m(i)が使用される。
前処理部140から受け取った短期テキストsiが最初の短期テキストでない場合のS306における処理と、その次のS307の処理は、実施例1におけるS103、S104と同じである。ただし、S307の中間特徴量viの算出において、外部記憶特徴量mとして、2番目の短期テキストに対しては、S305で初期化した外部記憶特徴量m(2)が使用され、それ以降の短期テキストに対しては、その前の短期テキストに対してS308で更新した外部記憶特徴量m(i)が使用される。
<S308>
S308において、S306で得られた短期文脈特徴量hiと、外部記憶特徴量m(i)とが外部記憶更新部113へ入力され、外部記憶更新部113は、これらの入力に基づいて新しい外部記憶特徴量m(i+1)を算出して外部記憶部114に出力し、m(i)をm(i+1)で更新する。
S308において、S306で得られた短期文脈特徴量hiと、外部記憶特徴量m(i)とが外部記憶更新部113へ入力され、外部記憶更新部113は、これらの入力に基づいて新しい外部記憶特徴量m(i+1)を算出して外部記憶部114に出力し、m(i)をm(i+1)で更新する。
より詳細には、外部記憶更新部113は、S305での初期化の操作と同じ操作をhiに対して実行することで、hiからd次元のベクトルαを作成する。次に、外部記憶更新部113は、更新前のm(i)とαを用いて新たな外部記憶特徴量であるm(i+1)を以下のようにして作成する。
m(i+1)=[m(i),α]
上記の式における[,]は、列方向にベクトルあるいは行列を追加することを表す。つまり、m(i+1)はm(i)にαを追加することにより得られる。すなわち、m(i)∈Rd×(i-1)(i≧2)である。
上記の式における[,]は、列方向にベクトルあるいは行列を追加することを表す。つまり、m(i+1)はm(i)にαを追加することにより得られる。すなわち、m(i)∈Rd×(i-1)(i≧2)である。
実施例3における更新方法を用いることで、より明示的な情報を外部記憶特徴量として外部記憶部114に格納できる。
(実施例4)
次に、実施例4を説明する。実施例4は、実施例3で使用した言語理解モデルの学習のための実施例である。以下では、実施例2と異なる点を主に説明する。
次に、実施例4を説明する。実施例4は、実施例3で使用した言語理解モデルの学習のための実施例である。以下では、実施例2と異なる点を主に説明する。
実施例4の言語処理装置100の装置構成は、実施例2の言語処理装置100の装置構成と同じであり、図5に示したとおりである。以下、図8に示すフローチャートの手順に沿って、実施例4における言語処理装置100の動作例を説明する。
<S401~S403>
S401~S403は、実施例2のS201~S203と同じである。
S401~S403は、実施例2のS201~S203と同じである。
<S404~S409>
S404~S409において、実施例3のS303~S308と同じ処理により、外部記憶特徴量が初期化されるとともに、短期テキストsiに対する中間特徴量viが得られ、外部記憶特徴量m(i)が更新され、外部記憶特徴量m(i+1)が得られる。
S404~S409において、実施例3のS303~S308と同じ処理により、外部記憶特徴量が初期化されるとともに、短期テキストsiに対する中間特徴量viが得られ、外部記憶特徴量m(i)が更新され、外部記憶特徴量m(i+1)が得られる。
<S410~S412>
S410~S412は、実施例2におけるS207~S209と同じである。
S410~S412は、実施例2におけるS207~S209と同じである。
(ハードウェア構成例)
本実施の形態における言語処理装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。
本実施の形態における言語処理装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。
上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図9は、上記コンピュータのハードウェア構成例を示す図である。図9のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、及び入力装置1007等を有する。なお、当該コンピュータは、CPU1004の代わりに、又はCPU1004と共にGPU(Graphics Processing Unit)を有してもよい。
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004(又はGPU、又はCPU1004とGPU)は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
(実施の形態の効果等)
以上、説明したように、本実施の形態では、長期テキストを分割して得られる短期テキストの情報を順次外部記憶部114に書き込み、新たな短期テキストの特徴量を算出する際に、外部記憶部114に格納されているこれまでに書き込んだテキストの情報(長い文脈の情報)を利用することとしたので、長いテキストを一貫して扱うことができる。
以上、説明したように、本実施の形態では、長期テキストを分割して得られる短期テキストの情報を順次外部記憶部114に書き込み、新たな短期テキストの特徴量を算出する際に、外部記憶部114に格納されているこれまでに書き込んだテキストの情報(長い文脈の情報)を利用することとしたので、長いテキストを一貫して扱うことができる。
すなわち、本実施の形態では、短期的な情報の処理と長期的な情報の処理を分けることで、attention機構にかかる計算コストを抑えることができる。また、外部記憶部114に長期的な情報を格納できるため、長いテキストを系列長の制限なく扱うことができる。
(実施の形態のまとめ)
本明細書には、少なくとも下記の各項に記載した言語処理装置、学習装置、言語処理方法、学習方法、及びプログラムが記載されている。
(第1項)
入力されたテキストを複数の短テキストに分割する前処理部と、
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
1以上の短テキストについての第3の特徴量を格納するための外部記憶部と、を備え、
前記言語処理部は、
前記学習済みモデルを用いて、ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理装置。
(第2項)
前記言語処理部は、前記学習済みモデルを用いて、
短テキストの第2の特徴量の算出を行う度に、当該短テキストについての、短テキスト内の各トークンと前記外部記憶部に格納された情報との間の関連性を反映させた特徴量を用いて前記外部記憶部に格納された第3の特徴量を更新する
第1項に記載の言語処理装置。
(第3項)
前記言語処理部は、学習済みモデルを用いて算出した第1の特徴量に対して所定の操作を実行することにより、前記外部記憶部に格納される第3の特徴量を初期化する
第1項に記載の言語処理装置。
(第4項)
前記言語処理部は、前記学習済みモデルを用いて、
2番目以降の短テキストの第2の特徴量の算出を行う度に、当該短テキストについての第1の特徴量に対して所定の操作を実行することにより第4の特徴量を作成し、更新前の第3の特徴量に当該第4の特徴量を追加することにより、更新した第3の特徴量を作成する
第1項又は第3項に記載の言語処理装置。
(第5項)
入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理部と、
前記一部のトークンが変換又は維持された前記短テキストに対し、モデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
前記一部のトークンが変換又は維持された1以上の前記短テキストについての第3の特徴量を格納するための外部記憶部と、
前記第2の特徴量を用いて、前記一部のトークンを予測するトークン予測部と、
前記一部のトークンと、前記トークン予測部による予測結果とに基づいて、前記言語処理部を構成する前記モデルのモデルパラメータを更新する更新部と、を備え、
前記言語処理部は、前記モデルを用いて、
前記一部のトークンが変換又は維持された前記短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出し、
前記前処理部、前記言語処理部、前記トークン予測部、及び前記更新部の処理を、前記複数の短テキストのそれぞれに対して実行する
学習装置。
(第6項)
言語処理装置が実行する言語処理方法であって、
入力されたテキストを複数の短テキストに分割するステップと、
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理ステップと、を備え、
前記言語処理装置は、1以上の短テキストについての第3の特徴量を格納するための外部記憶部を備えており、
前記言語処理ステップにおいて、前記学習済みモデルを用いて
ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理方法。
(第7項)
モデルを備える学習装置が実行する学習方法であって、
入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理ステップと、
前記一部のトークンが変換又は維持された前記短テキストに対し、前記モデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理ステップと、
前記第2の特徴量を用いて、前記一部のトークンを予測するトークン予測ステップと、
前記一部のトークンと、前記トークン予測ステップによる予測結果とに基づいて、前記モデルのモデルパラメータを更新する更新ステップと、を備え、
前記学習装置は、前記一部のトークンが変換又は維持された1以上の前記短テキストについての第3の特徴量を格納するための外部記憶部を備えており、
前記言語処理ステップにおいて、前記モデルを用いて、
前記一部のトークンが変換又は維持された前記短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出し、
前記前処理ステップ、前記言語処理ステップ、前記トークン予測ステップ、及び前記更新ステップの処理を、前記複数の短テキストのそれぞれに対して実行する
学習方法。
(第8項)
コンピュータを、第1項ないし第4項のうちいずれか1項に記載の言語処理装置における各部として機能させるためのプログラム。
(第9項)
コンピュータを、第5項に記載の学習装置における各部として機能させるためのプログラム。
(実施の形態のまとめ)
本明細書には、少なくとも下記の各項に記載した言語処理装置、学習装置、言語処理方法、学習方法、及びプログラムが記載されている。
(第1項)
入力されたテキストを複数の短テキストに分割する前処理部と、
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
1以上の短テキストについての第3の特徴量を格納するための外部記憶部と、を備え、
前記言語処理部は、
前記学習済みモデルを用いて、ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理装置。
(第2項)
前記言語処理部は、前記学習済みモデルを用いて、
短テキストの第2の特徴量の算出を行う度に、当該短テキストについての、短テキスト内の各トークンと前記外部記憶部に格納された情報との間の関連性を反映させた特徴量を用いて前記外部記憶部に格納された第3の特徴量を更新する
第1項に記載の言語処理装置。
(第3項)
前記言語処理部は、学習済みモデルを用いて算出した第1の特徴量に対して所定の操作を実行することにより、前記外部記憶部に格納される第3の特徴量を初期化する
第1項に記載の言語処理装置。
(第4項)
前記言語処理部は、前記学習済みモデルを用いて、
2番目以降の短テキストの第2の特徴量の算出を行う度に、当該短テキストについての第1の特徴量に対して所定の操作を実行することにより第4の特徴量を作成し、更新前の第3の特徴量に当該第4の特徴量を追加することにより、更新した第3の特徴量を作成する
第1項又は第3項に記載の言語処理装置。
(第5項)
入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理部と、
前記一部のトークンが変換又は維持された前記短テキストに対し、モデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
前記一部のトークンが変換又は維持された1以上の前記短テキストについての第3の特徴量を格納するための外部記憶部と、
前記第2の特徴量を用いて、前記一部のトークンを予測するトークン予測部と、
前記一部のトークンと、前記トークン予測部による予測結果とに基づいて、前記言語処理部を構成する前記モデルのモデルパラメータを更新する更新部と、を備え、
前記言語処理部は、前記モデルを用いて、
前記一部のトークンが変換又は維持された前記短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出し、
前記前処理部、前記言語処理部、前記トークン予測部、及び前記更新部の処理を、前記複数の短テキストのそれぞれに対して実行する
学習装置。
(第6項)
言語処理装置が実行する言語処理方法であって、
入力されたテキストを複数の短テキストに分割するステップと、
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理ステップと、を備え、
前記言語処理装置は、1以上の短テキストについての第3の特徴量を格納するための外部記憶部を備えており、
前記言語処理ステップにおいて、前記学習済みモデルを用いて
ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理方法。
(第7項)
モデルを備える学習装置が実行する学習方法であって、
入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理ステップと、
前記一部のトークンが変換又は維持された前記短テキストに対し、前記モデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理ステップと、
前記第2の特徴量を用いて、前記一部のトークンを予測するトークン予測ステップと、
前記一部のトークンと、前記トークン予測ステップによる予測結果とに基づいて、前記モデルのモデルパラメータを更新する更新ステップと、を備え、
前記学習装置は、前記一部のトークンが変換又は維持された1以上の前記短テキストについての第3の特徴量を格納するための外部記憶部を備えており、
前記言語処理ステップにおいて、前記モデルを用いて、
前記一部のトークンが変換又は維持された前記短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出し、
前記前処理ステップ、前記言語処理ステップ、前記トークン予測ステップ、及び前記更新ステップの処理を、前記複数の短テキストのそれぞれに対して実行する
学習方法。
(第8項)
コンピュータを、第1項ないし第4項のうちいずれか1項に記載の言語処理装置における各部として機能させるためのプログラム。
(第9項)
コンピュータを、第5項に記載の学習装置における各部として機能させるためのプログラム。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 言語処理装置
110 言語処理部
111 短期文脈特徴量抽出部
112 外部記憶読み出し部
113 外部記憶更新部
114 外部記憶部
120 第1モデルパラメータ格納部
130 入力部
140 前処理部
150 出力制御部
160 第2モデルパラメータ格納部
170 トークン予測部
180 更新部
200 テキスト集合データベース
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
110 言語処理部
111 短期文脈特徴量抽出部
112 外部記憶読み出し部
113 外部記憶更新部
114 外部記憶部
120 第1モデルパラメータ格納部
130 入力部
140 前処理部
150 出力制御部
160 第2モデルパラメータ格納部
170 トークン予測部
180 更新部
200 テキスト集合データベース
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
Claims (9)
- 入力されたテキストを複数の短テキストに分割する前処理部と、
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
1以上の短テキストについての第3の特徴量を格納するための外部記憶部と、を備え、
前記言語処理部は、
前記学習済みモデルを用いて、ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理装置。 - 前記言語処理部は、前記学習済みモデルを用いて、
短テキストの第2の特徴量の算出を行う度に、当該短テキストについての、短テキスト内の各トークンと前記外部記憶部に格納された情報との間の関連性を反映させた特徴量を用いて前記外部記憶部に格納された第3の特徴量を更新する
請求項1に記載の言語処理装置。 - 前記言語処理部は、学習済みモデルを用いて算出した第1の特徴量に対して所定の操作を実行することにより、前記外部記憶部に格納される第3の特徴量を初期化する
請求項1に記載の言語処理装置。 - 前記言語処理部は、前記学習済みモデルを用いて、
2番目以降の短テキストの第2の特徴量の算出を行う度に、当該短テキストについての第1の特徴量に対して所定の操作を実行することにより第4の特徴量を作成し、更新前の第3の特徴量に当該第4の特徴量を追加することにより、更新した第3の特徴量を作成する
請求項1又は3に記載の言語処理装置。 - 入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理部と、
前記一部のトークンが変換又は維持された前記短テキストに対し、モデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理部と、
前記一部のトークンが変換又は維持された1以上の前記短テキストについての第3の特徴量を格納するための外部記憶部と、
前記第2の特徴量を用いて、前記一部のトークンを予測するトークン予測部と、
前記一部のトークンと、前記トークン予測部による予測結果とに基づいて、前記言語処理部を構成する前記モデルのモデルパラメータを更新する更新部と、を備え、
前記言語処理部は、前記モデルを用いて、
前記一部のトークンが変換又は維持された前記短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出し、
前記前処理部、前記言語処理部、前記トークン予測部、及び前記更新部の処理を、前記複数の短テキストのそれぞれに対して実行する
学習装置。 - 言語処理装置が実行する言語処理方法であって、
入力されたテキストを複数の短テキストに分割するステップと、
前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理ステップと、を備え、
前記言語処理装置は、1以上の短テキストについての第3の特徴量を格納するための外部記憶部を備えており、
前記言語処理ステップにおいて、前記学習済みモデルを用いて
ある短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出する
言語処理方法。 - モデルを備える学習装置が実行する学習方法であって、
入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理ステップと、
前記一部のトークンが変換又は維持された前記短テキストに対し、前記モデルを用いて第1の特徴量及び第2の特徴量を算出する言語処理ステップと、
前記第2の特徴量を用いて、前記一部のトークンを予測するトークン予測ステップと、
前記一部のトークンと、前記トークン予測ステップによる予測結果とに基づいて、前記モデルのモデルパラメータを更新する更新ステップと、を備え、
前記学習装置は、前記一部のトークンが変換又は維持された1以上の前記短テキストについての第3の特徴量を格納するための外部記憶部を備えており、
前記言語処理ステップにおいて、前記モデルを用いて、
前記一部のトークンが変換又は維持された前記短テキストに対する第2の特徴量を、当該短テキストの第1の特徴量と、前記外部記憶部に格納された第3の特徴量とを用いて算出し、
前記前処理ステップ、前記言語処理ステップ、前記トークン予測ステップ、及び前記更新ステップの処理を、前記複数の短テキストのそれぞれに対して実行する
学習方法。 - コンピュータを、請求項1ないし4のうちいずれか1項に記載の言語処理装置における各部として機能させるためのプログラム。
- コンピュータを、請求項5に記載の学習装置における各部として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/910,717 US20230306202A1 (en) | 2020-03-11 | 2020-08-20 | Language processing apparatus, learning apparatus, language processing method, learning method and program |
JP2022505742A JPWO2021181719A1 (ja) | 2020-03-11 | 2020-08-20 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JPPCT/JP2020/010579 | 2020-03-11 | ||
PCT/JP2020/010579 WO2021181569A1 (ja) | 2020-03-11 | 2020-03-11 | 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021181719A1 true WO2021181719A1 (ja) | 2021-09-16 |
Family
ID=77671330
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/010579 WO2021181569A1 (ja) | 2020-03-11 | 2020-03-11 | 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム |
PCT/JP2020/031522 WO2021181719A1 (ja) | 2020-03-11 | 2020-08-20 | 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/010579 WO2021181569A1 (ja) | 2020-03-11 | 2020-03-11 | 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230306202A1 (ja) |
JP (1) | JPWO2021181719A1 (ja) |
WO (2) | WO2021181569A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4227850A1 (en) | 2022-02-14 | 2023-08-16 | Fujitsu Limited | Program, learning method, and information processing apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150532A1 (en) * | 2010-12-08 | 2012-06-14 | At&T Intellectual Property I, L.P. | System and method for feature-rich continuous space language models |
US20150186361A1 (en) * | 2013-12-25 | 2015-07-02 | Kabushiki Kaisha Toshiba | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus |
US20200073947A1 (en) * | 2018-08-30 | 2020-03-05 | Mmt Srl | Translation System and Method |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101458681A (zh) * | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
-
2020
- 2020-03-11 WO PCT/JP2020/010579 patent/WO2021181569A1/ja active Application Filing
- 2020-08-20 US US17/910,717 patent/US20230306202A1/en active Pending
- 2020-08-20 JP JP2022505742A patent/JPWO2021181719A1/ja active Pending
- 2020-08-20 WO PCT/JP2020/031522 patent/WO2021181719A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150532A1 (en) * | 2010-12-08 | 2012-06-14 | At&T Intellectual Property I, L.P. | System and method for feature-rich continuous space language models |
US20150186361A1 (en) * | 2013-12-25 | 2015-07-02 | Kabushiki Kaisha Toshiba | Method and apparatus for improving a bilingual corpus, machine translation method and apparatus |
US20200073947A1 (en) * | 2018-08-30 | 2020-03-05 | Mmt Srl | Translation System and Method |
Non-Patent Citations (2)
Title |
---|
DEVLIN, JACOB ET AL., BERT: PRE-TRAINING OF DEEP BIDIRECTIONAL TRANSFORMERS FOR LANGUAGE UNDERSTANDING, 24 May 2019 (2019-05-24), pages 1 - 16, XP055723406, Retrieved from the Internet <URL:https://arxiv.org/pdf/1810.04805.pdf> [retrieved on 20200917] * |
TANAKA, HIROTAKA ET AL.: "Construction of document feature vectors using BERT", IPSJ SIG TECHNICAL REPORT (NL, 27 November 2019 (2019-11-27), pages 1 - 6, XP033890154 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4227850A1 (en) | 2022-02-14 | 2023-08-16 | Fujitsu Limited | Program, learning method, and information processing apparatus |
Also Published As
Publication number | Publication date |
---|---|
US20230306202A1 (en) | 2023-09-28 |
WO2021181569A1 (ja) | 2021-09-16 |
JPWO2021181719A1 (ja) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6772213B2 (ja) | 質問応答装置、質問応答方法及びプログラム | |
CN111145718A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
JP7293729B2 (ja) | 学習装置、情報出力装置、及びプログラム | |
WO2020170912A1 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
CN110414003B (zh) | 建立文本生成模型的方法、装置、介质和计算设备 | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
WO2020170906A1 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
CN113268571A (zh) | 一种确定段落中正确答案位置的方法、装置、设备及介质 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
US20220284172A1 (en) | Machine learning technologies for structuring unstructured data | |
WO2021181719A1 (ja) | 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
JP7218803B2 (ja) | モデル学習装置、方法及びプログラム | |
JP5990124B2 (ja) | 略語生成装置、略語生成方法、及びプログラム | |
Chen et al. | Eliciting knowledge from language models with automatically generated continuous prompts | |
KR20220160373A (ko) | 신경망 모델 기반 암호문을 복호화하기 위한 전자 장치 및 전자 장치의 제어 방법 | |
WO2014030258A1 (ja) | 形態素解析装置、テキスト分析方法、及びそのプログラム | |
WO2023067743A1 (ja) | 学習装置、学習方法及びプログラム | |
JP6772393B1 (ja) | 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム | |
WO2022185457A1 (ja) | 特徴量抽出装置、学習装置、特徴量抽出方法、学習方法、及びプログラム | |
WO2024042650A1 (ja) | 学習装置、学習方法及びプログラム | |
Kulshreshtha et al. | Sequential Editing for Lifelong Training of Speech Recognition Models | |
Wang et al. | Research on Russian Cultural Transliteration Algorithm Based on Hidden Markov Model | |
Kamath et al. | Language Models Pre-training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20924751 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022505742 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20924751 Country of ref document: EP Kind code of ref document: A1 |