WO2021010203A1 - 推論器、推論方法および推論プログラム - Google Patents

推論器、推論方法および推論プログラム Download PDF

Info

Publication number
WO2021010203A1
WO2021010203A1 PCT/JP2020/026397 JP2020026397W WO2021010203A1 WO 2021010203 A1 WO2021010203 A1 WO 2021010203A1 JP 2020026397 W JP2020026397 W JP 2020026397W WO 2021010203 A1 WO2021010203 A1 WO 2021010203A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
layer
sequence
representation
inference
Prior art date
Application number
PCT/JP2020/026397
Other languages
English (en)
French (fr)
Inventor
ケハイ チェン
ルイ ワン
将夫 内山
隅田 英一郎
Original Assignee
国立研究開発法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人情報通信研究機構 filed Critical 国立研究開発法人情報通信研究機構
Priority to US17/617,770 priority Critical patent/US20220237380A1/en
Publication of WO2021010203A1 publication Critical patent/WO2021010203A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Definitions

  • the present technology relates to an inference device, an inference method, and an inference program that output an output sequence corresponding to an input sequence containing one or more tokens.
  • Non-Patent Document 1 a model called Transformer, which can be applied to machine translation and the like, has attracted attention.
  • Transformer has high performance by using the self-Attention network (SAN).
  • SAN uses a positional encoding mechanism (see Non-Patent Document 2 etc.) that explicitly encodes the word order dependency between words in a sentence to generate an ordered positional embedding sequence. ..
  • SAN is learned in parallel processing (multi-head) in order to learn sentence expressions for predicting translation, and SAN is configured in multi-layer.
  • the purpose of this technique is to improve the performance of a trained neural network that uses position information indicating at which position in the input sequence each token included in the input sequence exists.
  • an inference device consisting of a trained neural network that outputs a corresponding output sequence for an input sequence.
  • the inferencer is based on a first sentence representation that has information indicating the value of each token contained in the input sequence and first position information indicating where each token is located in the input sequence.
  • the second position information is generated by modifying the first position information, and the second position information is generated.
  • a second generator that generates a hidden state representation based on the position information and the intermediate sentence representation of, and a third generator that generates a second sentence representation based on the intermediate sentence representation and the hidden state representation.
  • the second generator generates a coefficient vector according to an activation function that takes a linear combination of the first sentence expression and the intermediate sentence expression as an input, and multiplies the generated coefficient vector by the first position information.
  • the position information of may be generated.
  • the inferior may further include a position information output unit that outputs a first position information indicating which position in the input sequence each token exists in the input sequence.
  • the first generation unit may input the first sentence expression into the learned self-Attention network to generate the intermediate sentence expression.
  • the inferior may include an encoder that outputs an intermediate sequence from an input sequence, and a decoder that outputs an output sequence based on the sequence of intermediate representations output from the encoder and the output sequence.
  • At least one of the encoder and decoder may include a trained block that includes a first generator, a second generator, and a third generator.
  • an inference program for causing a computer to execute the above inference method is provided.
  • FIG. 1 is a schematic diagram showing an example of Transformer 100 according to the related technology of the present technology.
  • the Transferformer 100 is a trained model and corresponds to a form of a neutral network.
  • the Transferformer 100 includes a stacked encoder block 20 for N layers and a decoder block 40 for M layers.
  • the encoder block 20 and the decoder block 40 correspond to the learned blocks.
  • the stacked encoder blocks 20 for N layers are also collectively referred to as the encoder 200.
  • the stacked M-layer decoder blocks 40 are collectively referred to as a decoder 400.
  • the encoder 200 outputs an intermediate sequence from the input sequence.
  • the decoder 40 outputs an output sequence based on the intermediate representation sequence output from the encoder 20 and the output sequence output earlier.
  • an input token string generated by the input embedding layer 4, the positional embedding layer 6 and the adder 8 is provided. Entered.
  • the encoder 200 (that is, the final layer of the N-layer encoder block 20) outputs an intermediate sentence representation as a calculation result.
  • the input embedding layer 4 divides an input sequence (Inputs) 2 such as a sentence into one or a plurality of tokens in a predetermined unit (for example, a word), and indicates a predetermined value of each divided token. Generate a vector of dimensions.
  • the input sequence 2 corresponds to a sentence (source sentence) of the translation source language.
  • the input embedding layer 4 outputs a sequence containing as many vectors of a predetermined dimension as the number of tokens as word embedding.
  • the position embedding layer 6 outputs a positional embedding, which is a value indicating at which position in the input sequence 2 each token exists.
  • the adder 8 adds the position embedding from the position embedding layer 6 to the sequence from the input embedding layer 4.
  • the adder 8 has a vector indicating the value (for example, a word) of each token included in the sentence, and a value (relative in the input sequence 2) indicating where each token exists in the sentence.
  • Each of the encoder blocks 20 includes an MHA (Multi-head Attention) layer 22, a feed forward layer 26, and add / regularization (Add & Norm) layers 24 and 28.
  • MHA Multi-head Attention
  • the MHA layer 22 calculates the Attention for the input token sequence (vector).
  • Attention means a process of extracting necessary information from memory for a query.
  • Self-Attention means an Attention that uses a tensor with a common query and memory (key and value).
  • the MHA layer 22 includes a plurality of self-Attentions arranged in parallel.
  • the MHA layer 22 divides the query and memory (key and value) by the number of self-attentions, processes each division and the query and memory (key and value), and combines the processing results. That is, in the MHA layer 22, the process of calculating the Attention is parallelized.
  • the addition / regularization layer 24 adds the vector output from the MHA layer 22 to the input token string (vector), and then normalizes it by an arbitrary method.
  • the feedforward layer 26 shifts the position (that is, the input time) with respect to the input vector.
  • the addition / regularization layer 28 adds the vector output from the feedforward layer 26 to the vector output from the addition / regularization layer 24, and then regularizes it by an arbitrary method.
  • the decoder 400 (that is, the first layer of the decoder blocks 40 for the M layer) contains an output token string generated by the output embedding layer 14, the positional embedding layer 16, and the adder 18. Entered.
  • the decoder 400 (that is, the final layer of the decoder blocks 40 for the M layer) outputs an output sequence as a calculation result.
  • the output embedding layer 14 divides the existing output sequence (shifted to match the time with respect to the previous output sequence) (Outputs (Shifted right)) 12 into one or a plurality of tokens in a predetermined unit. At the same time, a vector of a predetermined dimension indicating the value of each divided token is generated. As a result, the output embedding layer 14 outputs a token string including a vector of a predetermined dimension as many as the number of tokens as output embedding.
  • the position embedding layer 16 outputs a positional embedding, which is a value indicating which position in the output sequence 12 each token exists.
  • the adder 18 adds the position embedding from the position embedding layer 16 to the token string from the output embedding layer 14. As a result, the adder 18 has a vector indicating the value of each token contained in the sentence, and a value indicating where each token exists in the sentence (relative or absolute in the output sequence 12). Output the output token string (vector) with the added position).
  • Each of the decoder blocks 40 includes an MMHA (Masked Multi-head Attention) layer 42, an MHA (Multi-head Attention) layer 46, a feed forward layer 50, and an add / regularization (Add & Norm) layer. Includes 44, 48, 52 and. That is, the decoder block 40 has a structure similar to that of the encoder block 20, except that it includes the MMHA layer 42 and the addition / regularization layer 44.
  • the MMHA layer 42 executes mask processing on a vector that cannot exist among the previously calculated vectors.
  • the addition / regularization layer 44 adds the vector output from the MMHA layer 42 to the output token sequence (vector), and then regularizes it by an arbitrary method.
  • the MHA layer 46 calculates the Attention for the intermediate sentence expression output from the addition / regularization layer 28 of the encoder block 20 and the vector output from the addition / regularization layer 44.
  • the basic treatment of the MHA layer 46 is the same as that of the MHA layer 22.
  • the addition / regularization layer 48 adds the vector output from the MHA layer 46 to the vector output from the addition / regularization layer 44, and then regularizes it by an arbitrary method.
  • the feedforward layer 50 shifts the position (that is, the input time) with respect to the input vector.
  • the addition / regularization layer 52 adds the vector output from the feedforward layer 50 to the vector output from the MHA layer 46, and then regularizes the layer 52 by an arbitrary method.
  • the Transformer 100 includes a linear combination layer 60 and a softmax layer 62 as output layers.
  • the linear combination layer 60 is arranged on the output side of the encoder 200 (that is, the final layer of the decoder blocks 40 for the M layer), and linearly combines the output sequences from the decoder 400.
  • the softmax layer 62 determines the result of calculating the vector output from the linear combination layer 60 by the softmax function as the output sequence 64.
  • the output sequence 64 indicates the probability of the translation destination sentence (target sentence) corresponding to the input sequence 2 (source sentence).
  • the sorting model plays an important role in improving translation performance.
  • the sorting model is effective for translations between languages having significantly different word orders, such as Chinese-English translations and Japanese-English translations (see Non-Patent Documents 3 and 4).
  • a sorting model is generated by learning a large-scale sorting rule from a parallel sentence pair between two languages. Such a sorting model is often incorporated into the translation decoding process to ensure a reasonable translation order for the original words.
  • NMT RNN-based neural machine translation
  • the inventors of the present application have found a new problem that in NMT using positional embedding such as Transformer 100, the performance is potentially deteriorated by not considering the word rearrangement information.
  • the inventors of the present application have come up with a new solution method of improving the performance by adding the rearrangement information in the NMT that uses the positional embedding such as the Transferformer100.
  • the Transformer 100A having a configuration for adding the rearrangement information to the Transformer 100 shown in FIG. 1 will be described.
  • the Transformer 100A corresponds to an inferencer composed of a trained neural network that outputs a corresponding output sequence with respect to an input sequence.
  • the technical scope of the present invention is not limited to Transformers, and is applicable to all neural networks using positional embedding.
  • FIG. 2 is a schematic diagram showing a Transferformer 100A according to the present embodiment.
  • the Transferformer 100A shown in FIG. 2 further includes an encoder block 20A including a reordering embedding layer 34 and an adder 36, and a rearrangement embedding layer 54 and an adder 56, as compared with the Transferformer 100 shown in FIG. Includes decoder block 40A including.
  • the rearrangement embedded layer may be arranged in either the encoder block or the decoder block, and does not need to be arranged in both the encoder block and the decoder block.
  • the word rearrangement information is generated inside the model to generate an inference result corresponding to the change in the word order in the input input sequence 2.
  • FIG. 3 is a schematic diagram for explaining an outline of processing in the Transferformer 100A according to the present embodiment. The details of the mathematical processing in the Transferformer 100A according to the present embodiment will be described with reference to FIGS. 3A to 3C.
  • the original position-embedded PE is calculated by the following equation (2).
  • the position-embedded layer 6 and the position-embedded layer 16 output the first position information (original position-embedded PE) indicating which position in the input sequence each token exists in. Corresponds to the department.
  • C2 self-Attention mechanism
  • the self-Attention mechanism is used to learn the sentence representation for the sentence representation H 0 obtained in the previous section.
  • a configuration in which N encoder blocks 20 (or decoder blocks 40) having the same configuration are stacked is used.
  • Each of the encoder blocks 20 (or decoder blocks 40) has two sublayers. That is, one sublayer is a self-attention, and the other sublayer is a feedforward network in which the other sublayers are fully connected in the order of position. Residual coupling is provided between these sublayers and the result is regularized.
  • SelfAtt n ( ⁇ ), LN ( ⁇ ), and FFN n ( ⁇ ) are the network of self-attention, layer regularization, and ford forward in each of the N encoder blocks 20 (or decoder blocks 40). Corresponds to each network. Further,
  • Rule N means a stack for N layers.
  • the SelfAtt n (.) Of the nth layer (encoder block 20 or decoder block 40) is the (n-1) th layer (encoder block 20 or decoder block 40) in the previous stage.
  • the Attention is calculated according to the following equation (5).
  • ⁇ Q, K, V ⁇ means a query, a key, and a value, respectively.
  • ⁇ Q, K, V ⁇ is generated by converting the input intermediate sentence expression H n-1 .
  • d k indicates the number of dimensions of the query and key.
  • the sentence representation H N from N th layer is output as a sentence representation (inference results) from Transformer.
  • the MMHA layer 22 of the encoder block 20 and the MMHA layer 42 of the decoder block 40 are expressed in an intermediate sentence (intermediate sentence expression H 0 or sentence expression H n-1 ) based on the first sentence expression (sentence expression H 0 or sentence expression H n-1 ).
  • the first sentence expression is information indicating the value of each token included in the input sequence (word embedding x J ) and the first position information indicating the position of each token in the input sequence (word embedding x J ). It has an original position embedded PE).
  • the MMHA layer 22 of the encoder block 20 and the MMHA layer 42 of the decoder block 40 have learned the first sentence expression (sentence expression H 0 or sentence expression H n-1 ) self-attention.
  • the position penalty vector is learned based on the given word and the global context of the sentence including the word.
  • the position penalty vector is used to generate a new sort embedding by penalizing the position embedding of a given word.
  • these sort embeddings are added to the intermediate sentence representation to effectively achieve word sort.
  • the process of adding such rearrangement embedding can be realized by the following three steps.
  • an intermediate sentence expression can be generated, and further, as shown in FIG. 3 (b), it is generated.
  • the position penalty vector PP n can be calculated from the intermediate sentence representation.
  • RE n is referred to as reordering embedding.
  • the rearranged embedded RE n can be generated by applying the position penalty vector PP n to the original position embedded PE.
  • LN means layer regularization.
  • the rearranged embedded layer 34 of the encoder block 20 and the rearranged embedded layer 54 of the decoder block 40 are based on the first sentence representation (sentence representation H 0 or sentence representation H n-1 ) and the intermediate sentence representation.
  • the second position information (sorted embedded RE n ) is generated by modifying the first position information (original position embedded PE), and the hidden state expression is expressed based on the second position information and the intermediate sentence expression. corresponds to a second generation unit for generating a (sentence hidden state C n).
  • the rearranged embedded layer 34 and the rearranged embedded layer 54 are linear combinations of the first sentence representation (sentence representation H 0 or sentence representation H n-1 ) and the intermediate sentence representation.
  • a coefficient vector (position penalty vector PP n ) is generated according to an activation function (for example, a sigmod function) that takes a combination as an input, and the generated coefficient vector is multiplied by the first position information (original position embedded PE) to obtain a second. It generates position information of (Sort embedded rE n).
  • H 0 is an initial sentence expression as described above.
  • H N is conscious of sorting for machine translation.
  • the feedforward layer 26 and feedforward layer 50 of decoder block 40 of the encoder block 20 based on the intermediate sentence representation and hidden state representation (sentence hiding state C n), a second sentence representation (sentence representation H Corresponds to the third generation unit that generates n ).
  • FIG. 4 is a schematic diagram showing an example of a hardware configuration that realizes an inference device including a Transferformer 100A according to the present embodiment.
  • the Transferformer 100A is typically realized using an information processing device 500, which is an example of a computer.
  • the information processing device 500 that realizes the Transferformer 100A has a CPU (central processing unit) 502, a GPU (graphics processing unit) 504, a main memory 506, and a display 508 as main hardware components. , A network interface (I / F: interface) 510, a secondary storage device 512, an input device 522, and an optical drive 524. These components are connected to each other via an internal bus 528.
  • the CPU 502 and / or GPU 504 is a processor that executes processing necessary for realizing the Transferformer 100A according to the present embodiment.
  • a plurality of CPU 502 and GPU 504 may be arranged, or may have a plurality of cores.
  • the main memory 506 is a storage area for temporarily storing (or caching) program code, work data, and the like when a processor (CPU 502 and / or GPU 504) executes processing.
  • a processor CPU 502 and / or GPU 504 executes processing.
  • DRAM dynamic random access memory
  • SRAM static random access memory
  • the display 508 is a display unit that outputs a user interface related to processing, a processing result, and the like, and is composed of, for example, an LCD (liquid crystal display) or an organic EL (electroluminescence) display.
  • the network interface 510 exchanges data with any information processing device on the Internet or an intranet.
  • any communication method such as Ethernet (registered trademark), wireless LAN (local area network), and Bluetooth (registered trademark) can be adopted.
  • the input device 522 is a device that receives instructions and operations from the user, and is composed of, for example, a keyboard, a mouse, a touch panel, a pen, and the like.
  • the input device 522 may also include a sound collecting device for collecting audio signals necessary for learning and decoding, or may include an interface for receiving input of the audio signals collected by the sound collecting device. You may be.
  • the optical drive 524 reads information stored in an optical disc 526 such as a CD-ROM (compact disc read only memory) and a DVD (digital versatile disc), and outputs the information to other components via the internal bus 528.
  • the optical disk 526 is an example of a non-transitory recording medium, and is distributed in a non-volatile state in which an arbitrary program is stored.
  • the optical drive 524 reads a program from the optical disk 526 and installs it in the secondary storage device 512 or the like, the computer functions as the information processing device 500. Therefore, the subject of the present invention may be the program itself installed in the secondary storage device 512 or the like, or a recording medium such as an optical disk 526 containing a program for realizing a function or process according to the present embodiment. ..
  • FIG. 4 shows an optical recording medium such as an optical disk 526 as an example of a non-transient recording medium, but the present invention is not limited to this, and a semiconductor recording medium such as a flash memory or a magnetic recording medium such as a hard disk or a storage tape is shown. , MO (magneto-optical disk) or the like may be used.
  • the secondary storage device 512 stores programs and data necessary for the computer to function as the information processing device 500.
  • it is composed of a non-volatile storage device such as a hard disk and an SSD (solid state drive).
  • the secondary storage device 512 includes an OS (operating system) (not shown), a learning program 514 for realizing learning processing, model definition data 516 for defining the structure of the Transferformer 100A, and a Transferformer 100A (learning).
  • a parameter set 518 composed of a plurality of parameters defining the completed model), an inference program 520, and a training data set 90 are stored.
  • the learning program 514 is executed by the processor (CPU502 and / or GPU504) to realize the learning process for determining the parameter set 518. That is, the learning program 514 causes the computer to execute a learning method for learning the Transferformer 100A.
  • the model definition data 516 includes information for defining the components included in the Transferformer 100A and the connection relationship between the components.
  • the parameter set 518 includes parameters for each component constituting the Transferformer 100A. Each parameter contained in the parameter set 518 is optimized by executing the learning program 514.
  • the training data set 90 consists of a combination of data as shown in FIG.
  • the inference program 520 realizes an inference device including the Transferformer 100A and the Transferformer 100A based on the model definition data 516 and the parameter set 518. Further, the inference process using the Transferformer 100A is executed.
  • a part of the library or functional module required when the processor (CPU502 and / or GPU504) executes the program may be replaced with the library or functional module provided as standard by the OS.
  • the program alone does not include all the program modules necessary to realize the corresponding functions, but the desired processing can be realized by being installed under the execution environment of the OS. Even a program that does not include some such libraries or functional modules may be included in the technical scope of the present invention.
  • these programs are not only stored and distributed in any of the recording media as described above, but may also be distributed by downloading from a server device or the like via the Internet or an intranet.
  • FIG. 4 shows an example in which the information processing apparatus 500 is configured by using a single computer, but the present invention is not limited to this, and a plurality of computers connected via a computer network cooperate explicitly or implicitly.
  • a reasoner including a Transformer 100A may be realized.
  • All or part of the functions realized by the processor (CPU502 and / or GPU504) executing the program may be realized by using a hard-wired circuit such as an integrated circuit.
  • a hard-wired circuit such as an integrated circuit.
  • it may be realized by using an ASIC (application specific integrated circuit) or an FPGA (field-programmable gate array).
  • a person skilled in the art will be able to realize an information processing apparatus 500 according to the present embodiment by appropriately using a technique suitable for the times when the present invention is implemented.
  • Non-Patent Document 9 Three types of baselines were adopted: GNMT (see Non-Patent Document 9), CONVS2S (see Non-Patent Document 10), and conventional Transformer (see Non-Patent Document 1).
  • N is the number of layers of the encoder 200
  • M is the number of layers of the decoder 400
  • d model the number of dimensions of the input and output layers
  • d ff the number of dimensions of the feedforward layer
  • H is the number of parallel MHA layer
  • P drop indicates a dropout parameter
  • e ls indicates a Label Smoking (overlearning suppression) parameter.
  • the batch size was 4096 x 4 tokens.
  • Non-Patent Document 1 (F3: Between Chinese and English) As a baseline, conventional Transformer (see Non-Patent Document 1), RNN search + Distortion (see Non-Patent Document 7), two types of DTMT (see Non-Patent Document 12), RNN-based NMT (see Non-Patent Document 13), and RNN-based Six types of configurations in which MEM was added to NMT (see Non-Patent Document 14) were adopted.
  • the Transformer according to the present embodiment is the same as the above (1) English-Germany.
  • FIG. 5 is a graph showing the influence of sorting information between English and Germany.
  • FIG. 6 is a graph showing the influence of the sorting information between Chinese and English.
  • FIG. 7 is a graph showing the influence of the sorting information between Japanese and English.
  • FIGS. 5 to 7 show the results of decoding by randomly changing the order of words in the source sentence included in the test data. That is, it evaluates the inference result when the source sentence in the wrong word order is input.
  • the horizontal axis of the graphs shown in FIGS. 5 to 7 shows the ratio of words randomly rearranged in one source sentence.
  • the sort embedding adopted in the Transformer according to the present embodiment interpolates the information regarding the order between words, and even if the order of the words in the input sentence is incorrect, the correct order is supported.
  • the inference result can be output.
  • the Transformer according to the present embodiment suppresses the influence of the error and produces a correct inference result. It can be said that it can be output.
  • Transformer is exemplified as a typical example of a neural network (trained model) that uses positional embedding, but the present invention is not limited to this, and can be applied to any neural network (trained model). Is.
  • CNN convolutional neural network
  • the technical idea of the present invention can be similarly applied to any neural network (learned model) that uses the position information of tokens in the input sequence, not limited to the translation task.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上させる。推論器は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報とを有する第1のセンテンス表現に基づいて、中間センテンス表現を生成する第1の生成部と、第1のセンテンス表現および中間センテンス表現に基づいて、第1の位置情報を修正することで第2の位置情報を生成するとともに、第2の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成する第2の生成部と、中間センテンス表現および隠れ状態表現に基づいて、第2のセンテンス表現を生成する第3の生成部とを含む。

Description

推論器、推論方法および推論プログラム
 本技術は、1または複数のトークンを含む入力シーケンスに対応する出力シーケンスを出力する推論器、推論方法および推論プログラムに関する。
 自然言語処理の技術分野においては、Attentionベースの様々なモデルが提案されている。このようなAttentionベースのモデルの一例として、機械翻訳などに適用可能なTransformerと呼ばれるモデルが注目されている(非特許文献1)。
 Transformerは、self-Attentionネットワーク(SAN)を用いることで高い性能を有している。Transformerは、センテンス内の単語間の語順依存性を明示的にエンコードする位置エンコーディング(positional encoding)メカニズム(非特許文献2など参照)を用いて、順序付けされた位置埋め込み(positional embedding)シーケンスを生成する。Transformerにおいては、翻訳を予測するためのセンテンス表現を学習するために、SANが並列処理(multi-head)に学習されるとともに、SANは多層的(multi-layer)に構成されている。
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I. Polosukhin, "Attention is all you need," in CoRR abs/1706.03762, 2017. Jonas Gehring, Michael Auli, David Grangier, and Yann Dauphin, "A convolutional encoder model for neural machine translation," In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 123-135, Vancouver, Canada. Association for Computational Linguistics, 2017. Michel Galley and Christopher D. Manning, "A simple and effective hierarchical phrase reordering model," In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 848-856, Honolulu, Hawaii. Association for Computational Linguistics, 2008. Isao Goto, Masao Utiyama, and Eiichiro Sumita, "Post-ordering by parsing with itg for Japanese-English Statistical Machine Translation," ACM Transactions on Asian Language Information Processing, 12(4):17:1-17:22, 2013. Ilya Sutskever, Oriol Vinyals, and Quoc V Le, "Sequence to sequence learning with neural networks," In Advances in neural information processing systems, pages 3104-3112. Curran Associates, Inc, 2014. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, "Neural machine translation by jointly learning to align and translate," In Proceedings of the 3rd International Conference on Learning Representations, San Diego, CA, 2015. Jinchao Zhang, Mingxuan Wang, Qun Liu, and Jie Zhou, "Incorporating word reordering knowledge into attention-based neural machine translation," In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1524-1534, Vancouver, Canada. Association for Computational Linguistics, 2017. Toshiaki Nakazawa, Manabu Yaguchi, Kiyotaka Uchimoto, Masao Utiyama, Eiichiro Sumita, Sadao Kurohashi, and Hitoshi Isahara, "ASPEC: Asian scientific paper excerpt corpus," In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), pages 2204-2208, Portoroz, Slovenia. European Language Resources Association (ELRA), 2016. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Lukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean, "Google’s neural machine translation system: Bridging the gap between human and machine translation,", CoRR, abs/1609.08144, 2016. Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin, "Convolutional sequence to sequence learning," In Proceedings of the 34th International Conference on Machine Learning, volume 70 of Proceedings of Machine Learning Research, pages 1243-1252, International Convention Centre, Sydney, Australia. PMLR, 2017. Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani, "Self-attention with relative position representations," In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 464-468, New Orleans, Louisiana. Association for Computational Linguistics, 2018. Fandong Meng and Jinchao Zhang, "DTMT: A novel deep transition architecture for neural machine translation," CoRR, abs/1812.07807, 2018. Xiang Kong, Zhaopeng Tu, Shuming Shi, Eduard H. Hovy, and Tong Zhang, "Neural machine translation with adequacy-oriented learning," CoRR, abs/1811.08541, 2018. Yang Zhao, Jiajun Zhang, Zhongjun He, Chengqing Zong, and HuaWu, "Addressing troublesome words in neural machine translation," In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 391-400, Brussels, Belgium. Association for Computational Linguistics, 2018.
 Transformerにおいて、位置埋め込みは、単語(word)間の順序関係を順次エンコーディングすることに着目するのみである。しかしながら、人間による現実の発話を考慮すると、文脈や状況に応じて発話される単語の順序は変化し得る。このような発話される単語の順序の変化についてなんら考慮されていない。
 本技術は、入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上させることを目的とする。
 ある実施の形態によれば、入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器が提供される。推論器は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報とを有する第1のセンテンス表現に基づいて、中間センテンス表現を生成する第1の生成部と、第1のセンテンス表現および中間センテンス表現に基づいて、第1の位置情報を修正することで第2の位置情報を生成するとともに、第2の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成する第2の生成部と、中間センテンス表現および隠れ状態表現に基づいて、第2のセンテンス表現を生成する第3の生成部とを含む。
 第2の生成部は、第1のセンテンス表現と中間センテンス表現との線形結合を入力とする活性化関数に従って係数ベクトルを生成し、生成した係数ベクトルを第1の位置情報に乗じることで第2の位置情報を生成するようにしてもよい。
 推論器は、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報を出力する位置情報出力部をさらに含んでいてもよい。
 第1の生成部は、第1のセンテンス表現を学習済self-Attentionネットワークに入力して中間センテンス表現を生成するようにしてもよい。
 推論器は、入力シーケンスから中間シーケンスを出力するエンコーダと、エンコーダから出力される中間表現のシーケンスおよび出力された出力シーケンスに基づいて出力シーケンスを出力するデコーダとを含んでいてもよい。エンコーダおよびデコーダの少なくとも一方は、第1の生成部、第2の生成部および第3の生成部を含む学習済ブロックを含んでいてもよい。
 複数の学習済ブロックがスタックされていてもよい。
 別の実施の形態によれば、学習済ニューラルネットワークを用いて入力シーケンスに対応する出力シーケンスを出力する推論方法が提供される。推論方法は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報とを有する第1のセンテンス表現に基づいて、中間センテンス表現を生成するステップと、第1のセンテンス表現および中間センテンス表現に基づいて、第1の位置情報を修正することで第2の位置情報を生成するとともに、第2の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成するステップと、中間センテンス表現および隠れ状態表現に基づいて、第2のセンテンス表現を生成するステップとを含む。
 さらに別の実施の形態によれば、コンピュータに上記の推論方法を実行させるための推論プログラムが提供される。
 本技術によれば、入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上できる。
本技術の関連技術に従うTransformerの一例を示す模式図である。 本実施の形態に従うTransformerを示す模式図である。 本実施の形態に従うTransformerにおける処理概要を説明するための模式図である。 本実施の形態に従うTransformerを含む推論器を実現するハードウェア構成の一例を示す模式図である。 英語-ドイツ間における並び替え情報の影響を示すグラフである。 中国語-英語間における並び替え情報の影響を示すグラフである。 日本語-英語間における並び替え情報の影響を示すグラフである。
 本技術の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。
 [A.関連技術]
 本技術の関連技術として、一般的なTransformerについて説明する。
 図1は、本技術の関連技術に従うTransformer100の一例を示す模式図である。図1を参照して、Transformer100は、学習済モデルであり、ニュートラルネットワークの一形態に相当する。
 Transformer100は、スタックされたN層分のエンコーダブロック20とM層分のデコーダブロック40とを含む。エンコーダブロック20およびデコーダブロック40は、学習済ブロックに相当する。スタックされたN層分のエンコーダブロック20をまとめてエンコーダ200とも称す。スタックされたM層分のデコーダブロック40をまとめてデコーダ400とも称す。
 エンコーダ200は、入力シーケンスから中間シーケンスを出力する。デコーダ40は、エンコーダ20から出力される中間表現のシーケンスおよび先に出力された出力シーケンスに基づいて出力シーケンスを出力する。
 エンコーダ200(すなわち、N層分のエンコーダブロック20のうち先頭層)には、入力埋め込み(Input Embedding)層4、位置埋め込み層(Positional Embedding)層6および加算器8により生成される入力トークン列が入力される。エンコーダ200(すなわち、N層分のエンコーダブロック20のうち最終層)は、算出結果として、中間センテンス表現を出力する。
 入力埋め込み層4は、センテンスなどの入力シーケンス(Inputs)2を、所定単位(例えば、単語(word)など)の単位で1または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。例えば、入力シーケンス2は、翻訳元の言語のセンテンス(ソースセンテンス)に相当する。その結果、入力埋め込み層4は、単語埋め込み(word embedding)として、所定次元のベクトルをトークンの数だけ含むシーケンスを出力する。
 位置埋め込み層6は、各トークンが入力シーケンス2内のいずれの位置に存在しているのかを示す値である位置埋め込み(positional embedding)を出力する。
 加算器8は、入力埋め込み層4からのシーケンスに、位置埋め込み層6からの位置埋め込みを付加する。その結果、加算器8は、センテンス内に含まれる各トークンの値(例えば、単語)を示すベクトルに、各トークンがセンテンス内のいずれの位置に存在するのかを示す値(入力シーケンス2内の相対的または絶対的な位置)を付加した入力トークン列(ベクトル)を出力する。
 エンコーダブロック20の各々は、MHA(Multi-head Attention)層22と、フィードフォワード(Feed Forward)層26と、加算・正則化(Add & Norm)層24,28とを含む。
 MHA層22は、入力トークン列(ベクトル)についてAttentionを算出する。Attentionは、クエリに対してメモリから必要な情報を抽出する処理を意味する。self-Attentionは、クエリおよびメモリ(キーおよびバリュー)が共通のテンソルを使用するAttentionを意味する。
 MHA層22は、並列配置された複数のself-Attentionを含む。MHA層22は、クエリおよびメモリ(キーおよびバリュー)をself-Attentionの数で分割し、各分割しクエリおよびメモリ(キーおよびバリュー)を処理し、その処理結果を結合する。すなわち、MHA層22においては、Attentionを算出する処理が並列化されている。
 加算・正則化層24は、入力トークン列(ベクトル)にMHA層22から出力されるベクトルを加算した上で、任意の手法で正則化(normalize)する。
 フィードフォワード層26は、入力されたベクトルに対して位置(すなわち、入力される時刻)をシフトする。
 加算・正則化層28は、加算・正則化層24から出力されるベクトルに、フィードフォワード層26から出力されるベクトルを加算した上で、任意の手法で正則化する。
 デコーダ400(すなわち、M層分のデコーダブロック40のうち先頭層)には、出力埋め込み(Output Embedding)層14、位置埋め込み層(Positional Embedding)層16および加算器18により生成される出力トークン列が入力される。デコーダ400(すなわち、M層分のデコーダブロック40のうち最終層)は、算出結果として、出力シーケンスを出力する。
 出力埋め込み層14は、既出力シーケンス(前回の出力シーケンスに対して時刻を一致させるためにシフトされたもの)(Outputs(Shifted right))12を、所定単位の単位で1または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。その結果、出力埋め込み層14は、出力埋め込み(output embedding)として、所定次元のベクトルをトークンの数だけ含むトークン列を出力する。
 位置埋め込み層16は、各トークンが既出力シーケンス12内のいずれの位置に存在しているのかを示す値である位置埋め込み(positional embedding)を出力する。
 加算器18は、出力埋め込み層14からのトークン列に、位置埋め込み層16からの位置埋め込みを付加する。その結果、加算器18は、センテンス内に含まれる各トークンの値を示すベクトルに、各トークンがセンテンス内のいずれの位置に存在するのかを示す値(既出力シーケンス12内の相対的または絶対的な位置)を付加した出力トークン列(ベクトル)を出力する。
 デコーダブロック40の各々は、MMHA(Masked Multi-head Attention)層42と、MHA(Multi-head Attention)層46と、フィードフォワード(Feed Forward)層50と、加算・正則化(Add & Norm)層44,48,52とを含む。すなわち、デコーダブロック40は、エンコーダブロック20と類似した構成となっているが、MMHA層42および加算・正則化層44を含んでいる点が異なっている。
 MMHA層42は、先に算出されたベクトルのうち存在し得ないベクトルに対してマスク処理を実行する。
 加算・正則化層44は、出力トークン列(ベクトル)にMMHA層42から出力されるベクトルを加算した上で、任意の手法で正則化する。
 MHA層46は、エンコーダブロック20の加算・正則化層28から出力される中間センテンス表現、および、加算・正則化層44から出力されるベクトルについて、Attentionを算出する。MHA層46の基本的な処理は、MHA層22と同様である。
 加算・正則化層48は、加算・正則化層44から出力されるベクトルに、MHA層46から出力されるベクトルを加算した上で、任意の手法で正則化する。
 フィードフォワード層50は、入力されたベクトルに対して位置(すなわち、入力される時刻)をシフトする。
 加算・正則化層52は、MHA層46から出力されるベクトルに、フィードフォワード層50から出力されるベクトルを加算した上で、任意の手法で正則化する。
 Transformer100は、出力層として、線形結合(Linear)層60およびソフトマックス(Softmax)層62を含む。線形結合層60は、エンコーダ200の出力側(すなわち、M層分のデコーダブロック40のうち最終層)に配置され、デコーダ400からの出力シーケンスを線形結合する。
 ソフトマックス層62は、線形結合層60から出力されるベクトルをソフトマックス関数で算出した結果を出力シーケンス64として決定する。出力シーケンス64は、入力シーケンス2(ソースセンテンス)に対応する翻訳先のセンテンス(ターゲットセンテンス)の確率を示す。
 [B.課題および解決手段]
 次に、本技術の関連技術に従うTransformer100に対する課題および解決手段について概略する。
 フレーズベース統計機械学習(PBSMT)において、並び替えモデル(recording model)は、翻訳性能を向上させるために重要な役割を果たす。特に、並び替えモデルは、中国語-英語間翻訳、および、日本語-英語間翻訳といった、語順が大きく異なる言語間の翻訳に有効である(非特許文献3および非特許文献4など参照)。従来のPBSMTでは、二言語間のパラレルセンテンスペアから大規模な並び替えルールを学習することで、並び替えモデルを生成する。このような並び替えモデルは、オリジナルの単語の合理的な翻訳順序を保証するために、翻訳デコーディング処理に組み込まれることも多い。
 このようなPBSMTについての明示的な並び替えモデルに対して、RNNベースのニューラル機械翻訳(NMT)をセンテンス内の単語間の語順依存性を黙示的にエンコードするニューラルネットワークに基づかせることで、流ちょうな翻訳を実現することが報告されている(非特許文献5および非特許文献6など参照)。
 さらに、固定サイズのウィンドウ内における位置ベースのAttenntionを、コンテンツベースのAttenntionに追加することで、RNNベースのNMTに対して顕著に性能を向上できることが報告されている(非特許文献7参照)。これは、単語の並び替え情報は、NMTに対しても有効であることを意味する。
 上述したように、単語の並び替え情報は、翻訳タスクに有効であると考えられるものの、図1に示すようなTransformer100においては、センテンス内における並び替え情報については何ら明示的に考慮されていない。また、NMTにおける並び替えによる問題は、非特許文献7に示される以上には深く研究されていない。
 本願発明者らは、Transformer100などの位置埋め込み(positional embedding)を利用するNMTにおいて、単語の並び替え情報を考慮しないことで潜在的に性能を低下させているという新たに課題を見出した。
 そこで、本願発明者らは、Transformer100などの位置埋め込み(positional embedding)を利用するNMTにおいて、並び替え情報を付加することで、性能を高めるという新たな解決手段に想到した。
 以下、このような新たな解決手段を実現するための実施の形態について説明する。
 [C.本実施の形態に従うニューラルネットワーク]
 本実施の形態に従うニューラルネットワークの一例として、図1に示すTransformer100に並び替え情報を付加するための構成を有するTransformer100Aについて説明する。Transformer100Aは、入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器に相当する。但し、本発明の技術的範囲は、Transformerに限定されるものではなく、位置埋め込み(positional embedding)を用いるニューラルネットワークの全般に適用可能である。
 図2は、本実施の形態に従うTransformer100Aを示す模式図である。図2に示すTransformer100Aは、図1に示すTransformer100に比較して、並び替え埋め込み(Reordering Embedding)層34および加算器36をさらに含むエンコーダブロック20A、および、並び替え埋め込み層54および加算器56をさらに含むデコーダブロック40Aを含む。なお、後述するように、並び替え埋め込み層は、エンコーダブロックおよびデコーダブロックのいずれか一方に配置されていればよく、エンコーダブロックおよびデコーダブロックの両方に配置されている必要はない。
 本実施の形態に従うTransformer100Aにおいては、単語の並び替え情報をモデル内部で発生することによって、入力された入力シーケンス2内の単語順序の変更に対応した推論結果を生成する。
 図3は、本実施の形態に従うTransformer100Aにおける処理概要を説明するための模式図である。図3(a)~(c)を参照しつつ、本実施の形態に従うTransformer100Aにおける数学的な処理の詳細について説明する。
 (c1:位置エンコーディング(positional encoding)メカニズム)
 まず、Transformer100Aにおける位置エンコーディングメカニズムについて説明する。Transformer100Aにおいては、センテンス内の単語間の語順依存性をエンコードする。例えば、長さJのソースセンテンスの単語埋め込みX={x,・・・,x}を仮定すると、位置埋め込みシーケンスは、以下の(1)式に従って、単語毎の位置に基づいて算出される。
Figure JPOXMLDOC01-appb-M000001
 ここで、jはセンテンス内の単語位置を示す位置インデックスであり、iは位置インデックスの次元数を示す。したがって、オリジナル位置埋め込みPEは、以下の(2)式のように算出される。
Figure JPOXMLDOC01-appb-M000002
 peの各々は、対応する単語埋め込みxに付加され、結合された埋め込みvは、以下の(3)式のように示される。
Figure JPOXMLDOC01-appb-M000003
 最終的に、結合された埋め込みvのシーケンス{v,・・・,v}は、初期センテンス表現Hとなる。その後、センテンス表現Hは、センテンス表現を学習するためにMHA(Multi-head Attention)層へ入力される。
 このように、位置埋め込み層6および位置埋め込み層16は、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報(オリジナル位置埋め込みPE)を出力する位置情報出力部に相当する。
 (c2:self-Attentionメカニズム)
 次に、MHA層におけるself-Attentionメカニズムについて説明する。MHA層では、複数のself-Attentionが並列配置されており、以下の説明は、self-Attentionのうち1つに着目するものである。
 self-Attentionメカニズムは、1つ前のセクションにおいて取得されたセンテンス表現Hについてセンテンス表現を学習するために用いられる。通常、Transformerメカニズムにおいては、同一構成のエンコーダブロック20(あるいは、デコーダブロック40)がN個スタックされた構成が用いられる。エンコーダブロック20(あるいは、デコーダブロック40)の各々は、2つのサブ層を有している。すなわち、1つのサブ層がself-Attentionであり、もう1つのサブ層が位置順に全結合されたフィードフォワードネットワークである。これらのサブ層の間は残差結合されており、その結果が正則化される。
 最終的に、センテンス表現を学習するスタックは、以下の(4)式のように表現できる。
Figure JPOXMLDOC01-appb-M000004
 ここで、SelfAtt(・)、LN(・)、FFN(・)は、N個のエンコーダブロック20(あるいは、デコーダブロック40)の各々における、self-Attentionのネットワーク、層正則化、フォードフォワードネットワークにそれぞれ対応する。また、[・・・]はN層分のスタックを意味する。Transformerのエンコーダ200およびデコーダ400において、n番目の層(エンコーダブロック20またはデコーダブロック40)のSelfAtt(・)は、前段である(n-1)番目の層(エンコーダブロック20またはデコーダブロック40)の出力Hn-1について、以下の(5)式に従って、Attenntionを算出する。
Figure JPOXMLDOC01-appb-M000005
 ここで、{Q,K,V}は、クエリ、キー、バリューをそれぞれ意味する。入力された中間センテンス表現Hn-1を変換して{Q,K,V}が生成される。dは、クエリおよびキーの次元数を示す。最終的には、N番目の層からのセンテンス表現HがTransformerからセンテンス表現(推論結果)として出力される。
 このように、エンコーダブロック20のMHA層22およびデコーダブロック40のMMHA層42は、第1のセンテンス表現(センテンス表現Hあるいはセンテンス表現Hn-1)に基づいて、中間センテンス表現(中間センテンス表現H)を生成する第1の生成部に相当する。第1のセンテンス表現は、入力シーケンスに含まれる各トークンの値を示す情報(単語埋め込みx)と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報(オリジナル位置埋め込みPE)とを有している。
 本実施の形態に従うTransformer100Aにおいては、エンコーダブロック20のMHA層22およびデコーダブロック40のMMHA層42は、第1のセンテンス表現(センテンス表現Hあるいはセンテンス表現Hn-1)を学習済self-Attentionネットワークに入力して中間センテンス表現(中間センテンス表現H)を生成する。
 (c3:並び替え埋め込み(Reordering Embedding))
 次に、並び替え埋め込み層34および加算器36、あるいは、並び替え埋め込み層54および加算器56によって実現される並び替え情報の抽出および付加に関する処理について説明する。
 並び替え情報を抽出するために、本実施の形態においては、所与の単語およびその単語を含むセンテンスのグローバルコンテキストに基づいて、位置ペナルティベクトルを学習する。位置ペナルティベクトルは、所与の単語の位置埋め込みに対してペナルティを与えることで、新たな並び替え埋め込みを生成するために用いられる。最終的に、これらの並び替え埋め込みは、中間センテンス表現に付加されて、実質的に単語の並び替えを実現する。このような並び替え埋め込みを付加する処理は、以下の3ステップにより実現できる。
 (i)位置ペナルティベクトル
Figure JPOXMLDOC01-appb-M000006
 図3(a)に示すように、オリジナル位置埋め込みPEおよび単語埋め込みXをself-Attentionに適用することで、中間センテンス表現を生成でき、さらに、図3(b)に示すように、生成された中間センテンス表現から位置ペナルティベクトルPPを算出できる。
 (ii)並び替え埋め込み
 位置ペナルティベクトルPPは、以下の(7)式に従って、オリジナル位置埋め込みPEに対してペナルティを与えるために用いられる。
Figure JPOXMLDOC01-appb-M000007
 ここで、位置埋め込みPEの各要素は、ゼロから1までの確率が乗じられるので、REは並び替え埋め込み(Reordering Embedding)と称される。図3(c)に示すように、位置ペナルティベクトルPPをオリジナル位置埋め込みPEに適用することで、並び替え埋め込みREを生成できる。
 (iii)並び替えの実現
Figure JPOXMLDOC01-appb-M000008
 ここで、LNは層正則化を意味する。その結果、並び替えが意識された(reordering-aware)センテンス隠れ状態Cが取得できる。
 このように、エンコーダブロック20の並び替え埋め込み層34およびデコーダブロック40の並び替え埋め込み層54は、第1のセンテンス表現(センテンス表現Hあるいはセンテンス表現Hn-1)および中間センテンス表現に基づいて、第1の位置情報(オリジナル位置埋め込みPE)を修正することで第2の位置情報(並び替え埋め込みRE)を生成するとともに、第2の位置情報および中間センテンス表現に基づいて、隠れ状態表現(センテンス隠れ状態C)を生成する第2の生成部に相当する。
 上述の(6)式に示したように、並び替え埋め込み層34および並び替え埋め込み層54は、第1のセンテンス表現(センテンス表現Hあるいはセンテンス表現Hn-1)と中間センテンス表現との線形結合を入力とする活性化関数(例えば、sigmoid関数)に従って係数ベクトル(位置ペナルティベクトルPP)を生成し、生成した係数ベクトルを第1の位置情報(オリジナル位置埋め込みPE)に乗じることで第2の位置情報(並び替え埋め込みRE)を生成する。
 (c4:並び替え埋め込みを伴うself-Attentionネットワーク(SAN))
 センテンスのオリジナル位置埋め込みは、Transformerが単語間の語順依存性が再帰的に取得されてしまうことを防止するために用いられる。これによって、スタックされたSANがセンテンス表現を完全に並列に学習することを保証する。学習済REは、センテンスのオリジナル位置埋め込みと類似している。そのため、学習済REについても、既存のSANを用いて容易にスタックして、機械翻訳についての並び替えが意識されたセンテンス表現を出力できる。上述の(4)式に従うと、並び替え埋め込みを用いてSANをスタックすると、以下の(9)式のようになる。
Figure JPOXMLDOC01-appb-M000009
 ここで、Hは、上述したように初期センテンス表現である。最終的に、機械翻訳についての並び替えが意識されたセンテンス表現Hが出力される。
 このように、エンコーダブロック20のフィードフォワード層26およびデコーダブロック40のフィードフォワード層50は、中間センテンス表現および隠れ状態表現(センテンス隠れ状態C)に基づいて、第2のセンテンス表現(センテンス表現H)を生成する第3の生成部に相当する。
 [D.ハードウェア構成]
 次に、本実施の形態に従うTransformer100Aを含む推論器を実現するためのハードウェア構成の一例について説明する。
 図4は、本実施の形態に従うTransformer100Aを含む推論器を実現するハードウェア構成の一例を示す模式図である。Transformer100Aは、典型的には、コンピュータの一例である情報処理装置500を用いて実現される。
 図4を参照して、Transformer100Aを実現する情報処理装置500は、主要なハードウェアコンポーネントとして、CPU(central processing unit)502と、GPU(graphics processing unit)504と、主メモリ506と、ディスプレイ508と、ネットワークインターフェイス(I/F:interface)510と、二次記憶装置512と、入力デバイス522と、光学ドライブ524とを含む。これらのコンポーネントは、内部バス528を介して互いに接続される。
 CPU502および/またはGPU504は、本実施の形態に従うTransformer100Aの実現に必要な処理を実行するプロセッサである。CPU502およびGPU504は、複数個配置されてもよいし、複数のコアを有していてもよい。
 主メモリ506は、プロセッサ(CPU502および/またはGPU504)が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納(あるいは、キャッシュ)する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリデバイスなどで構成される。
 ディスプレイ508は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(liquid crystal display)や有機EL(electroluminescence)ディスプレイなどで構成される。
 ネットワークインターフェイス510は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス510としては、例えば、イーサネット(登録商標)、無線LAN(local area network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
 入力デバイス522は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス522は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。
 光学ドライブ524は、CD-ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク526に格納されている情報を読出して、内部バス528を介して他のコンポーネントへ出力する。光学ディスク526は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ524が光学ディスク526からプログラムを読み出して、二次記憶装置512などにインストールすることで、コンピュータが情報処理装置500として機能するようになる。したがって、本発明の主題は、二次記憶装置512などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク526などの記録媒体でもあり得る。
 図4には、非一過的な記録媒体の一例として、光学ディスク526などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。
 二次記憶装置512は、コンピュータを情報処理装置500として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。
 より具体的には、二次記憶装置512は、図示しないOS(operating system)の他、学習処理を実現するための学習プログラム514と、Transformer100Aの構造を定義するモデル定義データ516と、Transformer100A(学習済モデル)を規定する複数のパラメータからなるパラメータセット518と、推論プログラム520と、トレーニングデータセット90とを格納している。
 学習プログラム514は、プロセッサ(CPU502および/またはGPU504)により実行されることで、パラメータセット518を決定するための学習処理を実現する。すなわち、学習プログラム514は、コンピュータにTransformer100Aを学習させるための学習方法を実行させる。
 モデル定義データ516は、Transformer100Aに含まれるコンポーネントおよびコンポーネント間の接続関係などを定義するための情報を含む。パラメータセット518は、Transformer100Aを構成する各コンポーネントについてのパラメータを含む。パラメータセット518に含まれる各パラメータは、学習プログラム514の実行により最適化される。トレーニングデータセット90は、図4に示すようなデータの組み合わせからなる。
 推論プログラム520は、モデル定義データ516およびパラメータセット518に基づいて、Transformer100AおよびTransformer100Aを含む推論器を実現する。さらに、Transformer100Aを用いた推論処理を実行する。
 プロセッサ(CPU502および/またはGPU504)がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
 また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。
 図4には、単一のコンピュータを用いて情報処理装置500を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、Transformer100Aを含む推論器を実現するようにしてもよい。
 プロセッサ(CPU502および/またはGPU504)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などを用いて実現してもよい。
 当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置500を実現できるであろう。
 説明の便宜上、同一の情報処理装置500を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。
 [E.学習処理および推論処理]
 本実施の形態に従うTransformer100Aについての学習処理および推論処理は、本技術の関連技術に従うTransformer100についての学習処理および推論処理と同様である。そのため、学習処理および推論処理の全体処理手順については、ここでは詳細には説明しない。
 [F.性能評価]
 次に、本実施の形態に従う並び替え埋め込み(Reordering Embedding)を含むニューラルネットワークの性能評価の一例を示す。
 (f1:評価条件)
 評価実験としては、(1)英語-ドイツ間、(2)中国語-英語間、(3)日本語-英語間の3種類について行った。
 (1)英語-ドイツ間については、WMT14データセットに含まれる443万個の二言語間のセンテンスペア(Common Crawl,News Commentary,Europarl v7.を含む)をトレーニングデータに用いた。newstest2013データセットおよびnewstest2014データセットを評価データおよびテストデータとして用いた。
 (2)中国語-英語間については、LDCコーパス(LDC2002E18,LDC2003E07,LDC2003E14,LDC2004T07のHansardの部分,LDC2005T06)に含まれる128万個の二言語間のセンテンスペア(Common Crawl,News Commentary,Europarl v7.を含む)をトレーニングデータに用いた。newstest2013データセットおよびnewstest2014データセットを評価データおよびテストデータとして用いた。MT06およびMT02/MT03/MT04/MT05/MT08データセットを評価データおよびテストデータとして用いた。
 (3)日本語-英語間については、ASPECコーパス(非特許文献8参照)に含まれる200万個の二言語間のセンテンスペアをトレーニングデータに用いた。1790個のセンテンスペアを評価データとして用いるとともに、1812個のセンテンスペアをテストデータとして用いた。
 (f2:英語-ドイツ間)
 ベースラインとしては、GNMT(非特許文献9参照)、CONVS2S(非特許文献10参照)および従来Transformer(非特許文献1参照)の3種類を採用した。
 また、本実施の形態に従うTransformerについては、エンコーダ側のみに並び替え埋め込み層を配置した構成(表中の「+Encoder_REs」)、デコーダ側のみに並び替え埋め込み層を配置した構成(表中の「+Decoder_REs」)、エンコーダ側およびデコーダ側の両方に並び替え埋め込み層を配置した構成(表中の「+Both_REs」)についてそれぞれ評価した。
 また、従来Transformerに採用されている位置埋め込み層に代えて、学習済の位置埋め込み層を採用した構成(表中の「+Additional PEs」)、および、従来Transformerに採用されている位置埋め込み層が採用するセンテンス内の絶対位置ではなく相対位置を採用した構成(表中の「+Relative PEs」)(非特許文献11参照)についてもそれぞれ評価した。
 なお、従来Transformerおよび本実施の形態に従うTransformerについては、通常(base)および大型(big)の2種類について評価を行った。それぞれモデルパラメータは以下のTable1の通りである。
Figure JPOXMLDOC01-appb-T000010
 Table1において、Nはエンコーダ200の層数、Mはデコーダ400の層数、dmodelは入力層および出力層の次元数、dffはフィードフォワード層の次元数、HはMHA層の並列数、Pdropはドロップアウトパラメータ、elsはLabel Smoothing(過学習抑制)のパラメータをそれぞれ示す。また、バッチサイズは4096×4個のトークンとした。
 各構成についての評価結果を以下のTable2に示す。性能評価には、評価データについて算出されたBLEUスコアのうち最も高いものを採用した。
Figure JPOXMLDOC01-appb-T000011
 Table2において、「#Spped1」および「#Speed2」は、トレーニング速度(トレーニングに要する時間)およびデコーディング速度(推論処理に要する時間)をそれぞれ示す。「#Params」はモデルパラメータの総数を示す。
 表中に示す数値の後に付随する「+」あるいは「++」は、ベースラインに比較して顕著な性能向上を示した結果を意味する(なお。「+」の数が多い方が性能向上の度合いが高い)。
 Table2の「+Encoder_REs」、「+Decoder_REs」および「+Both_REs」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。特に、エンコーダ側に並び替え埋め込み層を配置することがより有効である。
 また、「Transformer(base)」の「+Both_REs」の性能を「Transformer(big)」(並び替え埋め込み層が存在しない)の性能と比較すると、パラメータサイズを増加させるのではなく、エンコーダ側およびデコーダ側にそれぞれ並び替え埋め込み層を配置することが性能向上には有効であることが示されている。
 (f3:中国語-英語間)
 ベースラインとしては、従来Transformer(非特許文献1参照)、RNNsearch+Distortion(非特許文献7参照)、2種類のDTMT(非特許文献12参照)、RNNベースのNMT(非特許文献13参照)、RNNベースのNMTにMEMを追加した構成(非特許文献14参照)の6種類を採用した。
 また、本実施の形態に従うTransformerについては、上記の(1)英語-ドイツ間と同様である。
 各構成についての評価結果を以下のTable3に示す。性能評価には、評価データについて算出されたBLEUスコアのうち最も高いものを採用した。
Figure JPOXMLDOC01-appb-T000012
 Table3の「+Encoder_REs」、「+Decoder_REs」および「+Both_REs」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。特に、エンコーダ側に並び替え埋め込み層を配置することがより有効である。
 また、「Transformer(base)」の「+Both_REs」の性能を「Transformer(big)」(並び替え埋め込み層が存在しない)の性能と比較すると、パラメータサイズを増加させるのではなく、エンコーダ側およびデコーダ側にそれぞれ並び替え埋め込み層を配置することが性能向上には有効であることが示されている。
 このように、言語にかかわらず、並び替え埋め込み層を採用することで、性能を向上できることが示される。
 (f4:日本語-英語間)
 本実施の形態に従うTransformerについては、上記の(1)英語-ドイツ間および(2)中国語-英語間において採用した構成に加えて、ソース側(翻訳元)の単語順序をターゲット側(翻訳先)の単語順序に近づけるように、前処理を行う構成(表中の「+Pre-Reording」)を採用した。
 各構成についての評価結果を以下のTable4に示す。性能評価には、評価データについて算出されたBLEUスコアのうち最も高いものを採用した。
Figure JPOXMLDOC01-appb-T000013
 Table4においても、「+Encoder_REs」、「+Decoder_REs」および「+Both_REs」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。
 Table4において、「+Pre-Reording」の構成は、ベースラインに比較して性能が劣化していることが分かる。これは、ソース側(翻訳元)の単語順序をターゲット側(翻訳先)の単語順序に近づけるように前処理を行うことで、ソース側に含まれていた単語間の関連性が薄まることが要因であると推定される。
 (f5:並び替え情報の影響)
 次に、並び替え情報を採用することによる性能への影響について示す。
 図5は、英語-ドイツ間における並び替え情報の影響を示すグラフである。図6は、中国語-英語間における並び替え情報の影響を示すグラフである。図7は、日本語-英語間における並び替え情報の影響を示すグラフである。
 図5~図7には、テストデータに含まれるソースセンテンス内でランダムに単語の順序を入れ替えてデコーディングを行った結果を示す。すなわち、誤った語順のソースセンテンスを入力した場合の推論結果を評価したものである。図5~図7に示されるグラフの横軸は、1つのソースセンテンス内でランダムに単語の順序を入れ替えた割合を示す。
 本実施の形態に従うTransformerにおいて採用されている並び替え埋め込みは、単語間の順序に関する情報を補間するものであり、入力されるセンテンス内の単語の順序に誤りがあっても、正しい順序に対応する推論結果を出力し得る。
 図5~図7に示すように、ソースセンテンス内の単語のうち40%程度に順序の誤りがあっても、本実施の形態に従うTransformerは、その誤りの影響を抑制して、正しい推論結果を出力できると言える。
 [G.変形例]
 上述の説明においては、位置埋め込み(positional embedding)を利用するニューラルネットワーク(学習済モデル)の典型例として、Transformerを例示したが、これに限られず、任意のニューラルネットワーク(学習済モデル)に適用可能である。
 例えば、CNN(convolutional neural network)ベースのニューラル翻訳などにも同様に適用可能である。さらに、翻訳タスクに限らず、入力シーケンス内のトークンの位置情報を利用するニューラルネットワーク(学習済モデル)であれば、同様に、本発明の技術思想を適用可能である。
 [H.まとめ]
 本実施の形態に従う学習処理によれば、Transformerなどの、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す位置埋め込みを利用するニューラルネットワークの性能を高めることができる。
 今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 2 入力シーケンス、4 入力埋め込み層、8,18,36,56 加算器、6 位置埋め込み層、14 出力埋め込み層、20,20A エンコーダブロック、22,46 MHA層、24,28,44,48,52 加算・正則化層、26,50 フィードフォワード層、40,40A デコーダブロック、42 MMHA層、60 線形結合層、62 ソフトマックス層、64 出力シーケンス、90 トレーニングデータセット、100,100A Transformer、200 エンコーダ、400 デコーダ、500 情報処理装置、502 CPU、504 GPU、506 主メモリ、508 ディスプレイ、510 ネットワークインターフェイス、512 二次記憶装置、514 学習プログラム、516 モデル定義データ、518 パラメータセット、520 推論プログラム、522 入力デバイス、524 光学ドライブ、526 光学ディスク、528 内部バス。

Claims (6)

  1.  入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器であって、
     前記入力シーケンスに含まれる各トークンの値を示す情報と各トークンが前記入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報とを有する第1のセンテンス表現に基づいて、中間センテンス表現を生成する第1の生成部と、
     前記第1のセンテンス表現および前記中間センテンス表現に基づいて、前記第1の位置情報を修正することで第2の位置情報を生成するとともに、前記第2の位置情報および前記中間センテンス表現に基づいて、隠れ状態表現を生成する第2の生成部と、
     前記中間センテンス表現および前記隠れ状態表現に基づいて、第2のセンテンス表現を生成する第3の生成部とを備える、推論器。
  2.  前記第2の生成部は、前記第1のセンテンス表現と前記中間センテンス表現との線形結合を入力とする活性化関数に従って係数ベクトルを生成し、前記生成した係数ベクトルを前記第1の位置情報に乗じることで前記第2の位置情報を生成する、請求項1に記載の推論器。
  3.  前記第1の生成部は、前記第1のセンテンス表現を学習済self-Attentionネットワークに入力して前記中間センテンス表現を生成する、請求項1または2に記載の推論器。
  4.  前記推論器は、
      前記入力シーケンスから中間シーケンスを出力するエンコーダと、
      前記エンコーダから出力される中間表現のシーケンスおよび先に出力された出力シーケンスに基づいて前記出力シーケンスを出力するデコーダとを備え、
     前記エンコーダおよび前記デコーダの少なくとも一方は、前記第1の生成部、前記第2の生成部および前記第3の生成部を含む学習済ブロックを含む、請求項1~3のいずれか1項に記載の推論器。
  5.  学習済ニューラルネットワークを用いて入力シーケンスに対応する出力シーケンスを出力する推論方法であって、
     前記入力シーケンスに含まれる各トークンの値を示す情報と各トークンが前記入力シーケンス内のいずれの位置に存在しているのかを示す第1の位置情報とを有する第1のセンテンス表現に基づいて、中間センテンス表現を生成するステップと、
     前記第1のセンテンス表現および前記中間センテンス表現に基づいて、前記第1の位置情報を修正することで第2の位置情報を生成するとともに、前記第2の位置情報および前記中間センテンス表現に基づいて、隠れ状態表現を生成するステップと、
     前記中間センテンス表現および前記隠れ状態表現に基づいて、第2のセンテンス表現を生成するステップとを備える、推論方法。
  6.  コンピュータに請求項5に記載の推論方法を実行させるための推論プログラム。
PCT/JP2020/026397 2019-07-18 2020-07-06 推論器、推論方法および推論プログラム WO2021010203A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/617,770 US20220237380A1 (en) 2019-07-18 2020-07-06 Inferencer, inference method and inference program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-133107 2019-07-18
JP2019133107A JP7418780B2 (ja) 2019-07-18 2019-07-18 推論器、推論方法および推論プログラム

Publications (1)

Publication Number Publication Date
WO2021010203A1 true WO2021010203A1 (ja) 2021-01-21

Family

ID=74209815

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/026397 WO2021010203A1 (ja) 2019-07-18 2020-07-06 推論器、推論方法および推論プログラム

Country Status (3)

Country Link
US (1) US20220237380A1 (ja)
JP (1) JP7418780B2 (ja)
WO (1) WO2021010203A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065027A1 (en) * 2021-10-20 2023-04-27 The Toronto-Dominion Bank Translation model with learned position and corrective loss
WO2023209198A1 (en) * 2022-04-28 2023-11-02 Deepmind Technologies Limited Language model for processing a multi-mode query input
WO2024038600A1 (ja) * 2022-08-19 2024-02-22 日本電信電話株式会社 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526680B2 (en) * 2019-02-14 2022-12-13 Google Llc Pre-trained projection networks for transferable natural language representations

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAWARA, YUKI ET AL.: "Analysis of the effects of presorting in neural machine translation", PROCEEDINGS OF THE 25TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 4 March 2019 (2019-03-04), pages 1455 - 1458 *
NING DAI ET AL.: "Style Transformer: Unpaired Text Style Transfer witheout Disentangled Latent Representation", 21 June 2019 (2019-06-21), XP081371016, Retrieved from the Internet <URL:https://arxiv.org/pdf/1905.05621v2.pdf> *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023065027A1 (en) * 2021-10-20 2023-04-27 The Toronto-Dominion Bank Translation model with learned position and corrective loss
WO2023209198A1 (en) * 2022-04-28 2023-11-02 Deepmind Technologies Limited Language model for processing a multi-mode query input
WO2024038600A1 (ja) * 2022-08-19 2024-02-22 日本電信電話株式会社 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム

Also Published As

Publication number Publication date
JP7418780B2 (ja) 2024-01-22
JP2021018545A (ja) 2021-02-15
US20220237380A1 (en) 2022-07-28

Similar Documents

Publication Publication Date Title
Hu et al. Improved lexically constrained decoding for translation and monolingual rewriting
WO2021010203A1 (ja) 推論器、推論方法および推論プログラム
Dewani et al. Cyberbullying detection: advanced preprocessing techniques & deep learning architecture for Roman Urdu data
WO2018203147A2 (en) Multi-lingual semantic parser based on transferred learning
WO2018043598A1 (ja) 文脈解析装置及びそのためのコンピュータプログラム
Wang et al. A transfer-learnable natural language interface for databases
CN114450681A (zh) 文档间注意力机制
US20220129770A1 (en) Implementing relation linking for knowledge bases
Chen et al. Target-aware abstractive related work generation with contrastive learning
Qin et al. A survey on text-to-sql parsing: Concepts, methods, and future directions
Singh et al. Improving neural machine translation for low-resource Indian languages using rule-based feature extraction
Wu et al. Sequence generation with mixed representations
Yang et al. Ccmt 2019 machine translation evaluation report
Guo et al. Lexicon enhanced Chinese named entity recognition with pointer network
Bai et al. Unifying cross-lingual summarization and machine translation with compression rate
JP6476886B2 (ja) キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
Hanu et al. Vtc: Improving video-text retrieval with user comments
Chen et al. Context-aware positional representation for self-attention networks
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
US20220121694A1 (en) Semantic search and response
Zuo Research on the Construction of a Bidirectional Neural Network Machine Translation Model Fused with Attention Mechanism
Bala Das et al. Improving multilingual neural machine translation system for indic languages
WO2021256334A1 (ja) 推論器、推論方法およびプログラム
Zhang et al. Enhanced Chinese named entity recognition with multi-granularity BERT adapter and efficient global pointer
Wang et al. PG-GSQL: Pointer-generator network with guide decoding for cross-domain context-dependent text-to-SQL generation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20840999

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20840999

Country of ref document: EP

Kind code of ref document: A1