WO2022038692A1 - 変換装置、変換方法、およびプログラム - Google Patents

変換装置、変換方法、およびプログラム Download PDF

Info

Publication number
WO2022038692A1
WO2022038692A1 PCT/JP2020/031192 JP2020031192W WO2022038692A1 WO 2022038692 A1 WO2022038692 A1 WO 2022038692A1 JP 2020031192 W JP2020031192 W JP 2020031192W WO 2022038692 A1 WO2022038692 A1 WO 2022038692A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
processing unit
data
conversion
series
Prior art date
Application number
PCT/JP2020/031192
Other languages
English (en)
French (fr)
Inventor
愛 庵
亮 増村
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/031192 priority Critical patent/WO2022038692A1/ja
Priority to JP2022543856A priority patent/JP7375943B2/ja
Publication of WO2022038692A1 publication Critical patent/WO2022038692A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Definitions

  • the present invention relates to a technique for converting a first processing unit series consisting of data of a predetermined processing unit corresponding to a first data series into a second processing unit series consisting of text data of a predetermined processing unit.
  • a neural sequence conversion model such as an encoder-decoder model.
  • a general challenge for models that use deep learning, such as the encoder-decoder model is the need for large amounts of parallel data for input and output data. Therefore, even if there is a large amount of output data, the output data cannot be used for learning if there is no corresponding input data.
  • an external language model created in advance with the transcribed data is used.
  • Non-Patent Document 1 A method called shallow fusion that integrates into the decoder unit has been proposed (see Non-Patent Document 1).
  • a method called cold fusion that integrates such an external language model during learning has also been proposed (see Non-Patent Document 2). It has been confirmed that by using these methods, it is possible to perform series conversion while incorporating a large amount of output data information, which is useful for improving performance.
  • cold fusion which is different from the training data and is suitable for adapting to a new domain.
  • cold fusion by incorporating an external language model into the encoder-decoder model itself, the information contained in the external language model can be utilized even during learning. Therefore, there is an advantage that it is easy to apply to a new domain.
  • cold fusion has a structure that only integrates the external language model before the final layer of the decoder, and it is difficult to select valid information contained in the external language model. That is, in the series conversion using the conventional external language model, the information necessary for the series conversion, which is included in the external language model, cannot be selected.
  • An object of the present invention is to provide a conversion device, a conversion method, and a program that can select information necessary for series conversion, which is included in an external language model.
  • the conversion device uses a first processing unit series consisting of data of a predetermined processing unit corresponding to the first data series as a text of a predetermined processing unit. Convert to a second processing unit series consisting of data.
  • the conversion device converts the first processing unit series into the first embedded vector, which is a vector containing the semantic information of the data of each processing unit in the first data series, by the conversion function based on the model parameter ⁇ h .
  • the second processing unit series consisting of the text data of the processing units up to the n-1th is converted to the n-1th in the second data series.
  • the second embedded vector conversion unit that converts to the second embedded vector, which is a vector containing the semantic information of the data of each processing unit, and the conversion of the first embedded vector and the second embedded vector based on the model parameter ⁇ s .
  • the function gives the trained external language model a second processing unit series consisting of a first context vector conversion unit that converts to a context vector for the first data series and text data of the n-1th processing unit.
  • a second context vector converter that converts the obtained vector and a second embedded vector into a context vector for the output of the external language model by a conversion function based on the model parameter ⁇ q , and a context vector for the first data series.
  • It includes a post-probability converter that transforms the context vector for the output of the external language model into the post-probability for the text data of the nth processing unit of the second data series by a conversion function based on the model parameter ⁇ p .
  • the conversion device uses a first processing unit series consisting of data of a predetermined processing unit corresponding to the first data series as a predetermined processing unit. Convert to a second processing unit series consisting of text data.
  • the converter uses the model parameter ⁇ h to encode the first processing unit sequence into the first embedded vector, which is a vector containing the semantic information of the data of each processing unit in the first data series.
  • the second processing unit series consisting of the text data of the processing units up to the n-1th is converted into the second processing unit series consisting of the text data of the processing units up to the n-1th in the second data series.
  • the second embedded vector converter that decodes to the second embedded vector, which is a vector containing the semantic information of the data, and the first embedded vector and the second embedded vector are integrated using the model parameter ⁇ s , and the first The first context vector conversion unit that obtains the context vector for one data series, and the vector obtained by giving the second processing unit series consisting of the text data of the n-1th processing unit to the trained external language model.
  • the second embedded vector is integrated using the model parameter ⁇ q , and the second context vector converter that obtains the context vector for the output of the external language model, and the context vector for the first data series and the output of the external language model. It includes a posterior probability conversion unit that converts a context vector into a posterior probability for the text data of the nth processing unit of the second data series by a conversion function based on the model parameter ⁇ p .
  • the conversion method determines a first processing unit sequence in which the conversion device comprises data of a predetermined processing unit corresponding to the first data series. Convert to a second processing unit series consisting of text data of the processing unit.
  • the conversion method uses a conversion function based on the model parameter ⁇ h to convert the first processing unit series into the first embedded vector, which is a vector containing the semantic information of the data of each processing unit in the first data series.
  • the second processing unit series consisting of the text data of the processing units up to the n-1th is converted to the n-1th in the second data series.
  • the second embedded vector conversion step that converts to the second embedded vector, which is a vector containing the semantic information of the data of each processing unit, and the conversion of the first embedded vector and the second embedded vector based on the model parameter ⁇ s .
  • the function gives the trained external language model a first context vector conversion step that transforms it into a context vector for the first data series, and a second processing unit sequence consisting of text data for the n-1th processing unit.
  • a second context vector conversion step that converts the resulting vector and a second embedded vector into a context vector for the output of the external language model by a conversion function based on the model parameter ⁇ q , and a context vector for the first data series.
  • It includes a post-probability conversion step that transforms the context vector for the output of the external language model into the post-probability for the text data of the nth processing unit of the second data series by a conversion function based on the model parameter ⁇ p .
  • the conversion method determines a first processing unit sequence in which the conversion device comprises data of a predetermined processing unit corresponding to the first data series. Convert to a second processing unit series consisting of text data of the processing unit.
  • the conversion method uses the model parameter ⁇ h to encode the first processing unit series into the first embedded vector, which is a vector containing the semantic information of the data of each processing unit in the first data series.
  • the second processing unit series consisting of the text data of the processing units up to the n-1th is converted into the second processing unit series consisting of the text data of the processing units up to the n-1th in the second data series.
  • the second embedded vector conversion step of decoding to the second embedded vector which is a vector containing semantic information of the data
  • the first embedded vector and the second embedded vector are integrated by using the model parameter ⁇ s
  • the first context vector conversion step to obtain the context vector for one data series, and the vector obtained by giving the second processing unit series consisting of the text data of the n-1th processing unit to the trained external language model.
  • the second embedded vector is integrated using the model parameter ⁇ q to obtain the context vector for the output of the external language model, the second context vector transformation step, and the context vector for the first data series and the output of the external language model. It includes a post-probability conversion step of transforming a context vector into a post-probability for the text data of the nth processing unit of the second data series by a transform function based on the model parameter ⁇ p .
  • the present invention it is possible to utilize the information of only the output data in the learning of the encoder-decoder model, and it is possible to more appropriately select the information necessary for the sequence conversion included in the external language model. Even when adapting to a new domain, it has the effect that performance improvement can be expected.
  • the functional block diagram of the conversion apparatus which concerns on 1st Embodiment The figure which shows the example of the processing flow of the conversion apparatus which concerns on 1st Embodiment.
  • the functional block diagram of the learning apparatus which concerns on 1st Embodiment The figure which shows the configuration example of the computer to which this method is applied.
  • a model that can select the information necessary for the sequence conversion included in the external language model is introduced.
  • This model has a structure that is more suitable for selecting information from external language models than cold fusion.
  • n is an index indicating the number of conversions
  • the conversion system uses the conversion results up to the n-1th time, that is, the second processing unit series consisting of the text data of the processing units up to the n-1th time, and the nth conversion. Perform processing.
  • the "first data series” is a "spoken language text”
  • the "predetermined processing unit” is a “word unit”
  • the "processing unit data” is a “word”
  • the “processing unit series” is The “word sequence” is defined
  • the “first processing unit sequence” is defined as the “word sequence of spoken language text”
  • the “second processing unit sequence” is defined as the "word sequence of written language text”.
  • the "first data series” can be applied as long as it is a data series that can be converted into a text data series such as a voice signal series, an acoustic feature quantity series, and a phoneme series.
  • the "second processing unit series” needs to be a processing unit series consisting of text data from the viewpoint of using the output (text data) of the trained external language model. Further, as the processing unit, a unit other than the word unit may be used, and for example, a character unit or the like may be used.
  • the first processing unit series and the second processing unit series may be the same processing unit or may be different processing units.
  • the conversion process is not limited to conversion from "spoken language” to "written language”, but can be applied to conversion from "written language” to "spoken language”, conversion from "one language” to “other language”, and the like.
  • a text data series or a data series that can be converted into a text data series may be used as the first data series, and a processing unit series composed of text data may be used as the second processing unit series.
  • the word sequence ⁇ Y of the written word text is obtained by the probability calculation according to q , ⁇ p ⁇ .
  • any neural language model can be used, and for example, one using a recurrent neural network can also be used.
  • the value of the parameter is fixed.
  • the external language model is a model that inputs the word sequence ⁇ y 1 ,..., ⁇ y n-1 of the written word text from the 1st to the n-1st and outputs the vector sequence L 1 ,..., L n-1 . be.
  • the vector series L 1 ,..., L n-1 corresponds to the word embedding vector.
  • the word embedding vector represents a vector in which information possessed by each word is embedded, contains semantic information possessed by the word in the text, and is a vector required for converting spoken language text into written language text.
  • a space-separated expression in the case of English, for example, a space-separated expression, and in the case of Japanese, for example, an expression automatically divided by morphological analysis is used as a word sequence.
  • an expression divided into character units may be used as a word sequence.
  • the conversion process can be realized by inputting the word sequence of the spoken language text into the next conversion device and converting using the trained model parameter ⁇ .
  • Any model can be used as long as it is a neural sequence conversion model.
  • a method using an attention-based encoder-decoder model see Reference 1
  • a method using a Transformer see Reference 2
  • FIG. 1 shows a functional block diagram of the conversion device according to the first embodiment, and FIG. 2 shows a processing flow thereof.
  • the conversion device 100 includes a first embedded vector conversion unit 110, a second embedded vector conversion unit 120, a first context vector conversion unit 130, a second context vector conversion unit 140, a posterior probability conversion unit 150, and a second. Includes data sequence generator and 160.
  • the learning method of the model parameter ⁇ will be described later.
  • the conversion device 100 includes a word sequence X of the spoken word text, a word sequence ⁇ y 1 ,..., ⁇ y n-1 of the written word text from the first to the n-1st, and a word sequence ⁇ y 1 ,..., ⁇ y.
  • the conversion device 100 receives and uses the word sequence ⁇ y 1 , ..., ⁇ Y n-1 which is the result of the n-1st conversion process as an input.
  • the conversion device is, for example, a special device configured by loading a special program into a publicly known or dedicated computer having a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. Is.
  • the conversion device executes each process under the control of the central processing unit, for example.
  • the data input to the conversion device and the data obtained by each process are stored in the main storage device, for example, and the data stored in the main storage device is read out to the central processing unit as needed and used for other processing devices. Used for processing.
  • At least a part of each processing unit of the conversion device may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the conversion device can be configured by, for example, a main storage device such as RAM (RandomAccessMemory) or middleware such as a relational database or a key-value store.
  • a main storage device such as RAM (RandomAccessMemory) or middleware such as a relational database or a key-value store.
  • each storage unit does not necessarily have to be provided inside the conversion device, and is configured by an auxiliary storage device composed of a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, and is outside the conversion device. It may be configured to prepare for.
  • FIG. 3 shows a functional block diagram of the learning device 200.
  • the learning device 200 includes a conversion device 100 and a model parameter learning unit 210.
  • the conversion device 100 performs the word sequence X d of the dth spoken word text and the word sequence of the first to n-1th written word text obtained by performing the n-1st conversion process on the word sequence X d .
  • the vector sequence L obtained by giving ⁇ y d, 1 ,..., ⁇ y d, n-1 and the word sequence ⁇ y d, 1 ,..., ⁇ y d, n-1 to the trained external language model 90.
  • the posterior probability distribution P posterior probability distribution P for the word ⁇ y d, n in the nth written word text y d, n
  • the determination based on the maximum likelihood criterion follows Eq. (1).
  • the processing in the conversion device 100 and the model parameter learning unit 210 is repeated to learn the model parameter ⁇ ⁇ .
  • a general optimization method may be used in the learning of the neural network.
  • the ⁇ ⁇ learned here is used as ⁇ in the conversion device 100.
  • the word embedding vector represents a vector that embeds the information that each word has, contains the semantic information that the word has in the text, and is necessary to convert the spoken word text into the written word text.
  • the larger the number of dimensions of the word embedding vector the more information can be embedded. For example, the number of dimensions is manually determined as a 512-dimensional vector.
  • any function that converts a variable-length symbol string into a variable-length vector can be used as the conversion function.
  • a function that constitutes a frequency vector of words in a text can be used, or a recurrent neural network, a bidirectional recurrent neural network, or the like can be used.
  • a method using a self-attention mechanism as in Reference 2 can also be used.
  • a frequency vector, a vector consisting of outputs such as a recurrent neural network, a bidirectional recurrent neural network, and a self-attention mechanism can be used as a word embedding vector for spoken text.
  • the second embedded vector conversion unit 120 uses a conversion function based on the model parameter ⁇ u to convert the word sequence ⁇ y 1 ,..., ⁇ y n-1 up to the n-1th word of the written word text into the word embedding vector u n of the written word text. Convert to -1 (S120).
  • the second embedded vector conversion unit 120 uses the model parameter ⁇ u to input the word sequence ⁇ y 1 ,..., ⁇ y n-1 up to the n-1th of the written word text into the written word text. Decode to the word embedding vector un -1 (S120).
  • the method of obtaining the word embedding vector for example, the same method as that of the first embedding vector conversion unit 110 can be used.
  • a single vector u n-1 is used as the word embedding vector of the written word text, but the word sequence up to the n-1th of the written word text ⁇ y 1 ,..., ⁇ y n-1 As long as it is a vector with information, it may be a series of two or more vectors.
  • the first context vector conversion unit 130 converts the word embedding vector u n-1 up to the n-1th of the written word text and the word embedding vector series h 1 ,..., h m of the spoken word text based on the model parameter ⁇ s .
  • the function converts it into a context vector s n-1 for spoken text (S130).
  • the first context vector conversion unit 130 models the word embedding vector u n-1 up to the n-1th of the written word text and the word embedding vector series h 1 ,..., h m of the spoken word text. Integrate using the parameter ⁇ s to obtain the context vector s n-1 for spoken text (S130).
  • the context vector is embedded with the semantic information necessary to convert the nth word of the written text, taking into account the spoken text.
  • any conversion function can be used as long as it is a function that converts two types of variable-length vectors into a single vector.
  • the input of the recurrent neural network is used as the word embedding vector.
  • a function that constructs a vector obtained by averaging the frequency vector of the word sequence up to the n-1th of the written text and the frequency vector of the word sequence of the spoken text is used as the word embedding vector.
  • a function that introduces a self-attention mechanism into each of the word sequence of the written word text and the word sequence of the spoken word text and expresses it as a single context vector by adding the attention mechanism can also be used. ..
  • Output Context vector for the output of the external language model q n-1
  • the second context vector conversion unit 140 converts the vector output from the external language model and the word embedding vector u n-1 up to the n-1th of the written word text into the external language by a conversion function based on the model parameter ⁇ q .
  • the second context vector conversion unit 140 uses the model parameter ⁇ q for the vector output from the external language model and the word embedding vector u n-1 up to the n-1th of the written word text. And integrate to obtain the context vector q n-1 for the output of the external language model (S140).
  • the embedded vector sequence L 1 ,..., L n-1 is a vector sequence obtained by giving the word sequence ⁇ y 1 ,..., ⁇ y n-1 up to the n-1th of the written text to the trained external language model. Is.
  • the word ⁇ y n-1 is a word obtained in the n-1th conversion process of the conversion device 100.
  • the vector series L 1 , ..., L n-1 is used as the vector output from the external language model, but it may be a single vector depending on the configuration of the external language model.
  • This context vector is embedded with the semantic information necessary to convert the nth word of the written text, taking into account the output of the external language model.
  • the method of obtaining the context vector for example, the same method as that of the first context vector conversion unit 130 can be used.
  • the posterior probability conversion unit 150 converts the context vector s n-1 for the spoken text and the context vector q n-1 for the output of the external language model into the nth word of the written text by a conversion function based on the model parameter ⁇ p .
  • ⁇ y 1 ,..., ⁇ y n-1 , X, ⁇ ) is converted (S150).
  • ⁇ y 1 ,..., ⁇ y n-1 , X, ⁇ ) can be expressed as a vector with each word as an element, and the posterior probability distribution can be expressed by vector transformation. be.
  • any conversion function can be used as long as it is a function that transforms two types of vectors into posterior probability distributions.
  • it can be realized by a function that transforms a combined vector of two vectors using a softmax function.
  • a function that can convert the sum of the elements of the output vector corresponding to the posterior probability distribution to 1.0 is applicable.
  • the first embedded vector conversion unit 110 corresponds to the encoder
  • the second embedded vector conversion unit 120 corresponds to the decoder
  • the process in the first context vector conversion unit 130 corresponds to the process of integrating the encoder and the decoder.
  • the process in the context vector conversion unit 140 corresponds to the process of integrating the external language model and the decoder.
  • the process in the posterior probability conversion unit 150 corresponds to the process of integrating the decoder integrated with the encoder and the decoder integrated with the external language model.
  • the second context vector conversion unit 140 the external language model and the decoder are integrated, and by using the integrated decoder in the subsequent processing, the information of the external language model is propagated to the decoder, and the information of the external language model is related. , The information required for series conversion can be selected more appropriately.
  • ⁇ y 1 ,..., ⁇ y n-1 , X, ⁇ ) Output: Word sequence of written text ⁇ Y ( ⁇ y 1 ,..., ⁇ y n )
  • the second data sequence generator 160 uses the posterior probability P (y n
  • ⁇ y 1 ,..., ⁇ y n-1 , X, ⁇ ) in the written text to generate the word sequence ⁇ Y ( ⁇ y 1 , ⁇ ). ..., ⁇ Y n ) is generated (S160).
  • the second data sequence generator 160 has posterior probabilities P (y 1
  • any method can be used as long as the method maximizes the probability.
  • it can be realized by using an approximation algorithm such as the greedy algorithm.
  • N indicates the total number of words contained in all written texts.
  • the conversion function may be used to convert the posterior probability P (y n
  • the beginning of the text is indicated instead of the word sequence ( ⁇ y 1 , ..., ⁇ y n-1 ) up to the n-1th of the written word text.
  • the symbol ⁇ y 0 may be given as an input to obtain the vector series u 0 and L 0 , respectively.
  • u 0 , L 0 is given as input to the second context vector conversion unit 140 instead of the word embedding vector u n-1 , the vector series L 1 , ..., L n-1 , and the context.
  • the posterior probability conversion unit 150 q 0 is given as an input instead of the context vector q n-1 , and the posterior probability P (y n
  • the converter 100 may include a trained external language model 90.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the recording medium that can be read by a computer may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via the network.
  • a computer that executes such a program first, for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. You may execute the process according to the received program one by one each time.
  • ASP Application Service Provider
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property that regulates the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

変換装置は、第一処理単位系列を第一埋め込みベクトルに変換し、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を第二埋め込みベクトルに変換し、第一埋め込みベクトルと第二埋め込みベクトルとを、第一のデータ系列に対する文脈ベクトルに変換し、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、外部言語モデルの出力に対する文脈ベクトルに変換し、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する。

Description

変換装置、変換方法、およびプログラム
 本発明は、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する技術に関する。
 ある言語の単語系列を別の言語の単語系列に変換するような機械翻訳などの系列変換を行うモデルでは、encoder-decoderモデルなどのニューラル系列変換モデルを用いることが一般的である。encoder-decoderモデルのような深層学習を用いるモデルの全般的な課題として、入力データと出力データのパラレルデータが大量に必要となることが挙げられる。そのため、出力データのみが大量にあったとしても、それに対応する入力データが無ければ、その出力データを学習に用いることができなかった。これに対して、音響特徴量を入力として、音声の書き起こしテキストを出力とする音声認識のタスクでは、大量の書き起こしデータがある場合に、事前にその書き起こしデータで作成した外部言語モデルをデコーダ部に統合するshallow fusionという方法が提案されている(非特許文献1参照)。また、学習時にもこのような外部言語モデルを統合するcold fusionという方法も提案されている(非特許文献2参照)。これらの方法を用いることで、大量の出力データの情報を取り入れながら系列変換を行うことができ、性能改善に役立つことが確認されている。
A. Kannan, Y. Wu, P. Nguyen, T. Sainath, Z. Chen and R. Prabhavalkar, "An analysis of Incorporating an external language model into a sequence-to-sequence model", In Proc. ICASSP, pp.5824-5827, 2018. A. Sriram, H. Jun, S. Satheesh and A. Coates, "Cold fusion: training seq2seq models together with language models", In Proc. INTERSPEECH, pp387-391, 2018.
 しかしながら、上述のshallow fusionでは、encoder-decoderモデル自体はラベル付きデータで学習されているため、新しいドメインに適応しようとした際に、性能の改善に限りがあった。そこで、学習データとは異なる、新しいドメインに適応することに適しているcold fusionが提案された。cold fusionでは、encoder-decoderモデル自体に外部言語モデルを組み込むことにより、学習時も外部言語モデルに含まれる情報を活用できる。そのため、新しいドメインにも適用しやすいといった利点がある。しかし、cold fusionでは、デコーダの最終層の前に外部言語モデルを統合するのみの構造となっており、外部言語モデルに含まれる有効な情報を取捨選択することは難しい。つまり、従来の外部言語モデルを用いた系列変換では、外部言語モデルに含まれる、系列変換に必要な情報を取捨選択できない。
 本発明は、外部言語モデルに含まれる、系列変換に必要な情報を取捨選択できる変換装置、変換方法、およびプログラムを提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、変換装置は、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換装置は、モデルパラメータθhに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換部と、モデルパラメータθuに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換部と、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθsに基づく変換関数により、第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換部と、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθqに基づく変換関数により、外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換部と、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む。
 上記の課題を解決するために、本発明の他の態様によれば、変換装置は、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換装置は、モデルパラメータθhを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換部と、モデルパラメータθuを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換部と、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθsを用いて統合し、第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換部と、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθqを用いて統合し、外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換部と、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む。
 上記の課題を解決するために、本発明の他の態様によれば、変換方法は、変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換方法は、モデルパラメータθhに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換ステップと、モデルパラメータθuに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換ステップと、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθsに基づく変換関数により、第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換ステップと、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθqに基づく変換関数により、外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換ステップと、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む。
 上記の課題を解決するために、本発明の他の態様によれば、変換方法は、変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する。変換方法は、モデルパラメータθhを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換ステップと、モデルパラメータθuを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換ステップと、第一埋め込みベクトルと第二埋め込みベクトルとを、モデルパラメータθsを用いて統合し、第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換ステップと、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、第二埋め込みベクトルとを、モデルパラメータθqを用いて統合し、外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換ステップと、第一のデータ系列に対する文脈ベクトルと外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む。
 本発明によれば、encoder-decoderモデルの学習において出力データのみの情報を活用することができ、また、外部言語モデルに含まれる系列変換に必要な情報をより適切に取捨選択することができるので、新たなドメインに適応する場合においても、性能の改善が期待できるという効果を奏する。
第一実施形態に係る変換装置の機能ブロック図。 第一実施形態に係る変換装置の処理フローの例を示す図。 第一実施形態に係る学習装置の機能ブロック図。 本手法を適用するコンピュータの構成例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 第一実施形態では、外部言語モデルに含まれる系列変換に必要な情報を取捨選択できるモデルを導入する。このモデルでは、cold fusionよりも外部言語モデルの情報を取捨選択するのに適した構造となっている。encoder-decoderモデルに外部言語モデルを統合する場合において、エンコーダとデコーダを統合させる場合と同じように、外部言語モデルとデコーダを統合することにより、系列変換に必要な情報を取捨選択できるモデルを開発した。具体的には、cold fusionがencoder-decoderモデルの最終出力層の直前の層に外部言語モデルの最終層を統合するのみであったのに対し、本モデルでは、エンコーダの情報がデコーダに伝播されるのと同様に、外部言語モデルの情報をデコーダに伝播する。つまり、エンコーダと統合されたデコーダと、外部言語モデルと統合されたデコーダとをさらに統合させながら学習することで外部言語モデルの情報に関して、より適切に系列変換に必要な情報を取捨選択することができると考えらえる。
<第一実施形態>
<変換システム>
入力:話し言葉テキストの単語系列X,外部言語モデルの出力L,モデルパラメータΘ
出力:書き言葉テキストの単語系列^Y
 変換システムは、第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列と、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルとを入力とし、第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換し、n番目までの処理単位のテキストデータからなる第二処理単位系列を出力する。nは変換回数を示すインデックスであり、変換システムはn-1回目までの変換結果、つまり、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を利用してn回目の変換処理を行う。
 本実施形態では、「第一のデータ系列」を「話し言葉テキスト」とし、「所定の処理単位」を「単語単位」とし、「処理単位のデータ」を「単語」とし、「処理単位系列」を「単語系列」とし、「第一処理単位系列」を「話し言葉テキストの単語系列」とし、「第二処理単位系列」を「書き言葉テキストの単語系列」とする。
 なお、「第一のデータ系列」として、音声信号系列や音響特徴量系列、音素系列などのテキストデータの系列に変換し得るデータ系列であれば適用可能である。「第二処理単位系列」は、学習済みの外部言語モデルの出力(テキストデータ)を利用する観点からテキストデータからなる処理単位系列であることを必要とする。また、処理単位としては、単語単位以外の単位を用いてもよく、例えば、文字単位等であってもよい。第一処理単位系列と第二処理単位系列とで同じ処理単位であってもよいし、異なる処理単位であってもよい。変換処理は、「話し言葉」から「書き言葉」への変換に限らず、「書き言葉」から「話し言葉」への変換や、「ある言語」から「他の言語」への変換等に適用可能である。要は、テキストデータの系列や、テキストデータの系列に変換し得るデータ系列を第一のデータ系列とし、テキストデータからなる処理単位系列を第二処理単位系列とすればよい。
 よって、本実施形態では、話し言葉テキストの単語系列Xと、大量の書き言葉テキストで学習された外部言語モデル90の出力Lとを用いて、モデルパラメータΘ={θhusqp}に従った確率計算により、書き言葉テキストの単語系列^Yを求める。ここで、ニューラル系列変換の入力となるXは、X=(x1,…,xm)として表される。また、出力となる^Yは、^Y=(^y1,…,^yn)として表される。
 また、大量の書き言葉テキストで学習された外部言語モデル90は、ニューラル言語モデルであれば任意のものを利用でき、例えば、リカレントニューラルネットを用いたものを利用することもできる。ここで、この外部言語モデルは、パラメータの値を固定したものとする。外部言語モデルは、1番目からn-1番目までの書き言葉テキストの単語系列^y1,…,^yn-1を入力とし、ベクトル系列L1,…,Ln-1を出力するモデルである。ベクトル系列L1,…,Ln-1は単語埋め込みベクトルに相当する。単語埋め込みベクトルは、各単語が持つ情報を埋め込んだベクトルを表し、テキスト中におけるその単語が持つ意味的な情報を含み、話し言葉テキストを書き言葉テキストに変換するために必要となるベクトルである。ベクトルの次元数を大きくするほど、たくさんの情報を埋め込むことができ、例えば、512次元のベクトルとして人手で次元数を決定する。外部言語モデルの学習には、入力データと出力データとからなる大量のパラレルデータを必要とせず、既存の学習方法により、大量の出力データのみから学習することができる。
 ここで、英語の場合、例えばスペース区切りの表現、日本語の場合、例えば形態素解析により自動分割された表現を単語系列とする。または文字単位に区切った表現を単語系列としてもよい。
 変換処理は、話し言葉テキストの単語系列を次の変換装置に入力し、学習済みのモデルパラメータΘを用いて変換することによって実現できる。
 用いるモデルとしては、ニューラル系列変換モデルであれば何でもよく、例えば、attention-based encoder-decoder modelを用いる方法(参考文献1参照)や、Transformerを用いる方法(参考文献2参照)が考えられる。
(参考文献1)Thang Luong, Hieu Pham, and Christopher D. Manning, "Effective approaches to attention-based neural machine translation", In Proc. EMNLP, pp. 1412-1421, 2015.
(参考文献2)A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, I. Polosukhin, "Attention is all you need", In Proc. NIPS, pp. 5998-6008, 2017.
<変換装置100>
入力:話し言葉テキストの単語系列X,既に話し言葉・書き言葉変換の結果として得られた1番目からn-1番目までの書き言葉テキストの単語系列^y1,…,^yn-1、外部言語モデルの出力(ベクトル系列)L1,…,Ln-1,モデルパラメータΘ
出力:1~n番目の書き言葉テキストの単語系列^y1,…,^yn
 図1は第一実施形態に係る変換装置の機能ブロック図を、図2はその処理フローを示す。
 変換装置100は、第一埋め込みベクトル変換部110と、第二埋め込みベクトル変換部120と、第一文脈ベクトル変換部130と、第二文脈ベクトル変換部140と、事後確率変換部150と、第二データ系列生成部と160を含む。
 変換装置100は、変換処理に先立ち、学習済みのモデルパラメータΘ={θhusqp}を受け取っておく。モデルパラメータΘの学習方法については後述する。
 変換装置100は、話し言葉テキストの単語系列Xと、1番目からn-1番目までの書き言葉テキストの単語系列^y1,…,^yn-1と、単語系列^y1,…,^yn-1を学習済みの外部言語モデル90に与えて得られるベクトル系列L1,…,Ln-1とを入力とし、モデルパラメータΘに従った確率計算により、n番目の書き言葉テキストの単語^ynについての事後確率分布P(yn|^y1,…,^yn-1,X,Θ)を得て、最尤基準によりn番目の話し言葉・書き言葉変換結果の単語^ynを決定する。最尤基準による決定は式(1)に従う。
Figure JPOXMLDOC01-appb-M000001

この処理を再帰的に行うことにより、書き言葉テキストの単語系列^Y=(^y1,…,^yn)を獲得する。P(yn|^y1,…,^yn-1,X,Θ)の詳しい定式化とその詳細な計算方法は、後述する。なお、変換装置100は、n回目の変換処理において、n-1回目の変換処理の結果である単語系列^y1,…,^yn-1を入力として受け取り、利用する。
 変換装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。変換装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。変換装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。変換装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。変換装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも変換装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、変換装置の外部に備える構成としてもよい。
 まず、モデルパラメータΘの学習方法について説明する。
<学習装置200>
入力:学習用の話し言葉テキストの単語系列と書き言葉テキストの単語系列の組の集合D=(X1,Y1),…,(X|D|,Y|D|)、d番目の話し言葉テキストの単語系列Xdに対する1番目からn-1番目までの書き言葉テキストの単語系列^yd,1,…,^yd,n-1、外部言語モデルの出力(ベクトル系列)Ld,1,…,Ld,n-1
出力:モデルパラメータΘ
 図3は、学習装置200の機能ブロック図を示す。学習装置200は、変換装置100と、モデルパラメータ学習部210とを含む。学習装置200では、話し言葉テキストの単語系列と書き言葉テキストの単語系列の組の集合D=(X1,Y1),…,(X|D|,Y|D|)からモデルパラメータ^Θを学習する。集合Dにより最適化されたパラメータ^Θは次式(2)に従う。
Figure JPOXMLDOC01-appb-M000002

ただし、Yd=(yd,1,…yd,n)である。
 変換装置100は、d番目の話し言葉テキストの単語系列Xdと、単語系列Xdに対してn-1回目の変換処理を行って得られる1番目からn-1番目までの書き言葉テキストの単語系列^yd,1,…,^yd,n-1と、単語系列^yd,1,…,^yd,n-1を学習済みの外部言語モデル90に与えて得られるベクトル系列Ld,1,…,Ld,n-1とを入力とし、学習中のモデルパラメータ^Θに従った確率計算により、n番目の書き言葉テキストの単語^yd,nについての事後確率分布P(yd,n|^yd,1,…,^yd,n-1,Xd,Θ)を得て、最尤基準によりn番目の話し言葉・書き言葉変換結果の単語^yd,nを決定する。最尤基準による決定は式(1)に従う。
 モデルパラメータ学習部210は、変換装置100の出力である単語系列^yd,1,…,^yd,nと、d番目の話し言葉テキストの単語系列Xdに対応する書き言葉テキストの単語系列Yd=(yd,1,…,yd,n)とを入力とし、単語系列^yd,1,…,^yd,nと単語系列Yd=(yd,1,…,yd,n)との差が小さくなるように、モデルパラメータ^Θを更新する。
 集合Dを用いて、変換装置100およびモデルパラメータ学習部210における処理を繰り返し、モデルパラメータ^Θを学習する。なお、モデルパラメータ^Θの最適化には、ニューラルネットワークの学習において一般的な最適化手法を用いればよい。ここで学習された^Θを変換装置100におけるΘとして用いる。
 以下、変換装置100の各部について説明する。
<第一埋め込みベクトル変換部110>
入力:話し言葉テキストの単語系列X=(x1,…,xm),モデルパラメータθh
出力:話し言葉テキストの単語埋め込みベクトル系列h1,…,hm
 第一埋め込みベクトル変換部110は、話し言葉テキストの単語系列X=(x1,…,xm)をモデルパラメータθhに基づく変換関数により、話し言葉テキストの単語埋め込みベクトルに変換する(S110)。別の言い方をすると、第一埋め込みベクトル変換部110は、モデルパラメータθhを用いて、話し言葉テキストの単語系列X=(x1,…,xm)を、話し言葉テキストの単語埋め込みベクトルにエンコードする(S110)。前述の通り、単語埋め込みベクトルは、各単語が持つ情報を埋め込んだベクトルを表し、テキスト中におけるその単語が持つ意味的な情報が含まれており、話し言葉テキストを書き言葉テキストに変換するために必要となる。本実施形態では、話し言葉テキストの単語埋め込みベクトルとして、ベクトル系列h1,…,hmを用いているが、話し言葉テキストの単語系列X=(x1,…,xm)の情報を持つベクトルであれば、単一のベクトルであってもよい。単語埋め込みベクトルの次元数を大きくするほど、たくさんの情報を埋め込むことができ、例えば、512次元のベクトルとして人手で次元数を決定する。このとき、変換関数には、可変長の記号列を可変長のベクトルに変換する関数であれば任意のものを利用することができる。例えば、テキスト中の単語の頻度ベクトルを構成する関数を用いることや、リカレントニューラルネットワークや双方向リカレントニューラルネットワーク等を用いることができる。また、参考文献2のような自己注意機構を用いた方法も利用できる。例えば、頻度ベクトルや、リカレントニューラルネットワークや双方向リカレントニューラルネットワーク、自己注意機構等の出力からなるベクトルを話し言葉テキストの単語埋め込みベクトルとして用いることができる。
<第二埋め込みベクトル変換部120>
入力:書き言葉テキストのn-1番目までの単語系列^y1,…,^yn-1,モデルパラメータθu
出力:書き言葉テキストの単語埋め込みベクトルun-1
 第二埋め込みベクトル変換部120は、書き言葉テキストのn-1番目までの単語系列^y1,…,^yn-1をモデルパラメータθuに基づく変換関数により、書き言葉テキストの単語埋め込みベクトルun-1に変換する(S120)。別の言い方をすると、第二埋め込みベクトル変換部120は、モデルパラメータθuを用いて、書き言葉テキストのn-1番目までの単語系列^y1,…,^yn-1を、書き言葉テキストの単語埋め込みベクトルun-1にデコードする(S120)。単語埋め込みベクトルの求め方は、例えば、第一埋め込みベクトル変換部110と同様の方法を用いることができる。本実施形態では、書き言葉テキストの単語埋め込みベクトルとして、単一のベクトルun-1を用いているが、書き言葉テキストのn-1番目までの単語系列^y1,…,^yn-1の情報を持つベクトルであれば、2つ以上のベクトルの系列であってもよい。
<第一文脈ベクトル変換部130>
入力:書き言葉テキストのn-1番目までの単語埋め込みベクトルun-1、話し言葉テキストの単語埋め込みベクトル系列h1,…,hm、モデルパラメータθs
出力:話し言葉テキストに対する文脈ベクトルsn-1
 第一文脈ベクトル変換部130は、書き言葉テキストのn-1番目までの単語埋め込みベクトルun-1と話し言葉テキストの単語埋め込みベクトル系列h1,…,hmとを、モデルパラメータθsに基づく変換関数により、話し言葉テキストに対する文脈ベクトルsn-1に変換する(S130)。別の言い方をすると、第一文脈ベクトル変換部130は、書き言葉テキストのn-1番目までの単語埋め込みベクトルun-1と話し言葉テキストの単語埋め込みベクトル系列h1,…,hmとを、モデルパラメータθsを用いて統合し、話し言葉テキストに対する文脈ベクトルsn-1を得る(S130)。
 文脈ベクトルは、話し言葉テキストを考慮した、書き言葉テキストのn番目の単語を変換するために必要な意味的な情報が埋め込まれている。このとき、変換関数は、2種類の可変長のベクトルを単一ベクトルに変換する関数であれば、任意のものを利用できる。例えば、書き言葉テキストの単語系列と話し言葉テキストの単語系列のそれぞれにリカレントニューラルネットワークを設け、注意機構を加えることにより単一の文脈ベクトルとして表現する関数を用いることもできる。この場合、リカレントニューラルネットワークの入力を単語埋め込みベクトルとして用いる。また、最も単純なものであれば、書き言葉テキストのn-1番目までの単語系列の頻度ベクトルと、話し言葉テキストの単語系列の頻度ベクトルを平均化したベクトルを構成するような関数を用いることもできる。この場合、頻度ベクトルを単語埋め込みベクトルとして用いる。さらに、参考文献2のように、書き言葉テキストの単語系列と話し言葉テキストの単語系列のそれぞれに自己注意機構を導入し、注意機構を加えることにより単一の文脈ベクトルとして表現する関数も用いることもできる。
<第二文脈ベクトル変換部140>
入力:書き言葉テキストのn-1番目までの単語埋め込みベクトルun-1、書き言葉テキストのn-1番目までの単語系列^y1,…,^yn-1を入力した外部言語モデルから出力されたベクトル系列L1,…,Ln-1、モデルパラメータθq
出力:外部言語モデルの出力に対する文脈ベクトルqn-1
 第二文脈ベクトル変換部140は、外部言語モデルから出力されたベクトルと、書き言葉テキストのn-1番目までの単語埋め込みベクトルun-1とを、モデルパラメータθqに基づく変換関数により、外部言語モデルの出力に対する文脈ベクトルqn-1に変換する(S140)。別の言い方をすると、第二文脈ベクトル変換部140は、外部言語モデルから出力されたベクトルと、書き言葉テキストのn-1番目までの単語埋め込みベクトルun-1とを、モデルパラメータθqを用いて統合し、外部言語モデルの出力に対する文脈ベクトルqn-1を得る(S140)。埋め込みベクトル系列L1,…,Ln-1は、書き言葉テキストのn-1番目までの単語系列^y1,…,^yn-1を学習済みの外部言語モデルに与えて得られるベクトル系列である。単語^yn-1は、変換装置100のn-1回目の変換処理で得られる単語である。本実施形態では、外部言語モデルから出力されたベクトルとして、ベクトル系列L1,…,Ln-1を用いているが、外部言語モデルの構成によっては、単一のベクトルであってもよい。
 この文脈ベクトルは、外部言語モデルの出力を考慮した、書き言葉テキストのn番目の単語を変換するために必要な意味的な情報が埋め込まれている。文脈ベクトルの求め方は、例えば、第一文脈ベクトル変換部130と同様の方法を用いることができる。
<事後確率変換部150>
入力:話し言葉テキストに対する文脈ベクトルsn-1、外部言語モデルの出力に対する文脈ベクトルqn-1、モデルパラメータθp
出力:書き言葉テキストのn番目の単語についての事後確率P(yn|^y1,…,^yn-1,X,Θ)
 事後確率変換部150は、話し言葉テキストに対する文脈ベクトルsn-1と外部言語モデルの出力に対する文脈ベクトルqn-1とを、モデルパラメータθpに基づく変換関数により、書き言葉テキストのn番目の単語についての事後確率P(yn|^y1,…,^yn-1,X,Θ)に変換する(S150)。
 事後確率P(yn|^y1,…,^yn-1,X,Θ)は、各単語を要素としてベクトルとして表すことができ、ベクトル変換により事後確率分布を表現することが可能である。このとき、変換関数には、2種類のベクトルを事後確率分布に変換する関数であれば任意のものを利用できる。例えば、2つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行う関数により実現できる。それ以外でも、事後確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関数が適用可能である。
 なお、第一埋め込みベクトル変換部110がエンコーダに相当し、第二埋め込みベクトル変換部120がデコーダに相当し、第一文脈ベクトル変換部130における処理がエンコーダとデコーダを統合する処理に相当し、第二文脈ベクトル変換部140における処理が外部言語モデルとデコーダを統合する処理に相当する。さらに、事後確率変換部150における処理が、エンコーダと統合されたデコーダと外部言語モデルと統合されたデコーダを統合する処理に相当する。なお、第二文脈ベクトル変換部140において外部言語モデルとデコーダを統合し、以降の処理で統合されたデコーダを利用することで、外部言語モデルの情報をデコーダに伝播し、外部言語モデルの情報に関して、系列変換に必要な情報をより適切に取捨選択することができる。
<第二データ系列生成部160>
入力:書き言葉テキストにおける事後確率P(yn|^y1,…,^yn-1,X,Θ)
出力:書き言葉テキストの単語系列^Y=(^y1,…,^yn)
 第二データ系列生成部160は、書き言葉テキストにおける事後確率P(yn|^y1,…,^yn-1,X,Θ)に基づき書き言葉テキストの単語系列^Y=(^y1,…,^yn)を生成する(S160)。例えば、第二データ系列生成部160は、書き言葉テキストにおける1~n番目の単語についての事後確率P(y1|X,Θ),…,P(yn|^y1,…,^yn-1,X,Θ)の積が最大となるように、P(yn|^y1,…,^yn-1,X,Θ)から1つの要素を選択することで、書き言葉テキストの単語系列^Y=(^y1,…,^yn)に変換する。このとき、P(yn|^y1,…,^yn-1,X,Θ)における要素選択には、確率が最大化される手法であれば任意のものを使用できる。例えば、貪欲法などの近似アルゴリズムを用いることで実現できる。
 図2に示すように、これらの処理は、書き言葉テキストのすべての単語が生成されるまで再帰的に繰り返される。ただし、Nは全ての書き言葉テキストに含まれる単語の総数を示す。なお、n=Nではなく、ynがテキストの終わりを示す記号の場合に処理を終了してもよい。また、n=1の場合、S120,S140を省略し、事後確率変換部150は、話し言葉テキストに対する文脈ベクトルsn-1とテキストの始まりを示す記号^y0とを、モデルパラメータθpに基づく変換関数により、書き言葉テキストの1番目の単語についての事後確率P(yn|X,Θ)に変換してもよい。また、第二埋め込みベクトル変換部120および外部言語モデル90に対して、書き言葉テキストのn-1番目までの単語系列(^y1,…,^yn-1)に代えてテキストの始まりを示す記号^y0を入力として与え、それぞれベクトル系列u0,L0を求めてもよい。この場合、さらに、第二文脈ベクトル変換部140に対して、単語埋め込みベクトルun-1、ベクトル系列L1,…,Ln-1に代えて、u0,L0を入力として与え、文脈ベクトルq0を求める。さらに、事後確率変換部150では、文脈ベクトルqn-1に代えて、q0を入力として与え、事後確率P(yn|X,Θ)を求める。
<効果>
 以上の構成により、encoder-decoderモデルの学習において出力データのみの情報を活用することができ、また、外部言語モデルに含まれる系列変換に必要な情報をより適切に取捨選択することができるので、新たなドメインに適応する場合においても、性能の改善が期待できる。
<変形例>
 変換装置100は、学習済みの外部言語モデル90を含んでもよい。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 上述の各種の処理は、図4に示すコンピュータの記憶部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1.  第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換装置であって、
     モデルパラメータθhに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換部と、
     モデルパラメータθuに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換部と、
     前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθsに基づく変換関数により、前記第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換部と、
     n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθqに基づく変換関数により、前記外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換部と、
     前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む、
     変換装置。
  2.  第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換装置であって、
     モデルパラメータθhを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換部と、
     モデルパラメータθuを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換部と、
     前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθsを用いて統合し、前記第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換部と、
     n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθqを用いて統合し、前記外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換部と、
     前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換部とを含む、
     変換装置。
  3.  変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換方法であって、
     モデルパラメータθhに基づく変換関数により、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルに変換する第一埋め込みベクトル変換ステップと、
     モデルパラメータθuに基づく変換関数により、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルに変換する第二埋め込みベクトル変換ステップと、
     前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθsに基づく変換関数により、前記第一のデータ系列に対する文脈ベクトルに変換する第一文脈ベクトル変換ステップと、
     n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθqに基づく変換関数により、前記外部言語モデルの出力に対する文脈ベクトルに変換する第二文脈ベクトル変換ステップと、
     前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む、
     変換方法。
  4.  変換装置が第一のデータ系列に対応する所定の処理単位のデータからなる第一処理単位系列を所定の処理単位のテキストデータからなる第二処理単位系列に変換する変換方法であって、
     モデルパラメータθhを用いて、第一処理単位系列を、第一のデータ系列における各処理単位のデータが持つ意味的な情報を含むベクトルである第一埋め込みベクトルにエンコードする第一埋め込みベクトル変換ステップと、
     モデルパラメータθuを用いて、n-1番目までの処理単位のテキストデータからなる第二処理単位系列を、第二のデータ系列におけるn-1番目までの各処理単位のデータが持つ意味的な情報を含むベクトルである第二埋め込みベクトルにデコードする第二埋め込みベクトル変換ステップと、
     前記第一埋め込みベクトルと前記第二埋め込みベクトルとを、モデルパラメータθsを用いて統合し、前記第一のデータ系列に対する文脈ベクトルを得る第一文脈ベクトル変換ステップと、
     n-1番目までの処理単位のテキストデータからなる第二処理単位系列を学習済みの外部言語モデルに与えて得られるベクトルと、前記第二埋め込みベクトルとを、モデルパラメータθqを用いて統合し、前記外部言語モデルの出力に対する文脈ベクトルを得る第二文脈ベクトル変換ステップと、
     前記第一のデータ系列に対する文脈ベクトルと前記外部言語モデルの出力に対する文脈ベクトルとを、モデルパラメータθpに基づく変換関数により、第二のデータ系列のn番目の処理単位のテキストデータについての事後確率に変換する事後確率変換ステップとを含む、
     変換方法。
  5.  請求項1または請求項2の変換装置として、コンピュータを機能させるためのプログラム。
PCT/JP2020/031192 2020-08-19 2020-08-19 変換装置、変換方法、およびプログラム WO2022038692A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/031192 WO2022038692A1 (ja) 2020-08-19 2020-08-19 変換装置、変換方法、およびプログラム
JP2022543856A JP7375943B2 (ja) 2020-08-19 2020-08-19 変換装置、変換方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031192 WO2022038692A1 (ja) 2020-08-19 2020-08-19 変換装置、変換方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2022038692A1 true WO2022038692A1 (ja) 2022-02-24

Family

ID=80323491

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/031192 WO2022038692A1 (ja) 2020-08-19 2020-08-19 変換装置、変換方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP7375943B2 (ja)
WO (1) WO2022038692A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329785A (zh) * 2022-10-15 2022-11-11 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336884A1 (en) * 2017-05-19 2018-11-22 Baidu Usa Llc Cold fusing sequence-to-sequence models with language models
JP2020086437A (ja) * 2018-11-21 2020-06-04 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336884A1 (en) * 2017-05-19 2018-11-22 Baidu Usa Llc Cold fusing sequence-to-sequence models with language models
JP2020086437A (ja) * 2018-11-21 2020-06-04 三星電子株式会社Samsung Electronics Co.,Ltd. 音声認識方法及び音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIROFUMI INAKUMA; MASATO MIMURA; TATSUYA KAWAHARA: "Speech recognition by streaming attention mechanism type sequence-to-sequence model", IPSJ SIG TECHNICAL REPORT, SLP, vol. 2020-SLP-131, no. 9, 6 February 2020 (2020-02-06), JP, pages 1 - 7, XP009535113 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329785A (zh) * 2022-10-15 2022-11-11 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN115329785B (zh) * 2022-10-15 2023-01-20 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置

Also Published As

Publication number Publication date
JP7375943B2 (ja) 2023-11-08
JPWO2022038692A1 (ja) 2022-02-24

Similar Documents

Publication Publication Date Title
CN109508462B (zh) 一种基于编码器-解码器的神经网络蒙汉机器翻译方法
Le et al. Deep shallow fusion for RNN-T personalization
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
KR20180001889A (ko) 언어 처리 방법 및 장치
WO2021231045A1 (en) Transfer learning system for automated software engineering tasks
US11886813B2 (en) Efficient automatic punctuation with robust inference
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
JP7072178B2 (ja) 自然言語処理のための装置、方法及びプログラム
Qin et al. Towards end-to-end speech recognition with transfer learning
KR20040073398A (ko) 텍스트로부터 워드 에러율을 예측하기 위한 방법 및 시스템
CN112446211A (zh) 文本处理装置、方法、设备和计算机可读存储介质
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
CN114242071A (zh) 一种低资源语音识别方法、系统、语音模型训练方法
WO2022038692A1 (ja) 変換装置、変換方法、およびプログラム
JP2022037862A (ja) テキスト基盤の事前学習モデルを活用した縦断型音声言語理解知識を蒸留するための方法、システム、およびコンピュータ読み取り可能な記録媒体
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
Joshi et al. Attention based end to end speech recognition for voice search in hindi and english
US20220310075A1 (en) Apparatus and method for training dialogue summary model
Bai et al. A public Chinese dataset for language model adaptation
Maqsood Evaluating NewsQA Dataset With ALBERT
CN117524193B (zh) 中英混合语音识别系统训练方法、装置、设备及介质
JP6772393B1 (ja) 情報処理装置、情報学習装置、情報処理方法、情報学習方法及びプログラム
JP3969079B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
US20220129643A1 (en) Method of training real-time simultaneous interpretation model based on external alignment information, and method and system for simultaneous interpretation based on external alignment information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20950258

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022543856

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20950258

Country of ref document: EP

Kind code of ref document: A1