WO2024038600A1 - 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム - Google Patents

機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム Download PDF

Info

Publication number
WO2024038600A1
WO2024038600A1 PCT/JP2022/031435 JP2022031435W WO2024038600A1 WO 2024038600 A1 WO2024038600 A1 WO 2024038600A1 JP 2022031435 W JP2022031435 W JP 2022031435W WO 2024038600 A1 WO2024038600 A1 WO 2024038600A1
Authority
WO
WIPO (PCT)
Prior art keywords
token
sentence
translation
position information
language sentence
Prior art date
Application number
PCT/JP2022/031435
Other languages
English (en)
French (fr)
Inventor
佑依 岡
貴秋 田中
昌明 永田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/031435 priority Critical patent/WO2024038600A1/ja
Publication of WO2024038600A1 publication Critical patent/WO2024038600A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Definitions

  • the present disclosure relates to a technique for increasing the accuracy of machine translation using a neural network.
  • FIG. 12 is a functional configuration diagram of a part of a machine translation device in a learning phase according to the first prior art.
  • the analysis section 132 includes a position information addition section 133, a sentence encoding section 134, a position information addition section 135, and a sentence decoding section 136.
  • the position information adding unit 133 inputs the token string (English) in the source language sentence, shows the position information of each token (vector) in the source language sentence on a virtual circle, as shown in FIG.
  • the position information addition unit 133 substitutes 1, 2, 3, . . . into pos abs in order from the beginning of the sentence.
  • the position information is expressed using sin and cos as shown in (Equation 1) and (Equation 2).
  • the sentence encoding unit 134 generates an encoded feature vector based on the output data of the position information adding unit 133.
  • the position information addition unit 135 inputs the token string (Japanese) in the target language sentence as the correct answer data, and adds the position information of each token (vector) in the target language sentence on the virtual circle. By adding the two-dimensional coordinate values related to the position information on this virtual circle to each token, a token string of the target language sentence to which the position information has been added is generated.
  • the sentence decoding unit 136 generates a translation token string based on the encoded feature vector by the sentence encoding unit 134 and the token string of the target language sentence to which the position information is added by the position information adding unit 135. Note that when the input to the position information addition unit 133 is a source language sentence set, the input to the position information addition unit 135 is a target language sentence set.
  • FIG. 14 is a functional configuration diagram of a part of a machine translation device in a learning phase according to the second prior art. Here, the case of translating from English to Japanese is shown.
  • the analysis section 232 includes a position information addition section 233a, a depth information addition section 233b, a sentence encoding section 234, a position information addition section 235, and a sentence decoding section 236.
  • the position information adding unit 233a inputs the token string (English) in the source language sentence, shows the position information of each token (vector) in the source language sentence on a virtual circle, as shown in FIG. By adding the two-dimensional coordinate values related to the position information on the circumference to each token, a token string of the source language sentence to which the position information has been added is generated. In this case, the position information addition unit 233a substitutes 1, 2, 3, . . . into pos abs in order from the beginning of the sentence.
  • the depth information addition unit 233b expresses each token (vector) by the positional encoding of the depth (pos strc ) of the dependency tree, resulting in positional information and depth. Generates a token string of the source language sentence with added information.
  • the position information addition unit 233a and the depth information addition unit 233b play the role of Positional Encoding.
  • the position information addition section 233a and the depth information addition section 233b may be combined with a normal absolute position using a nonlinear function (f).
  • the position information and depth information are expressed using sin and cos as shown in (Equation 3) and (Equation 4).
  • the sentence encoding unit 234 generates an encoded feature vector based on the output data of the depth information adding unit 233b.
  • the location information addition section 235 inputs the token string (Japanese) in the target language sentence as the correct answer data, and virtualizes the location information of each token (vector) in the target language sentence. By adding the two-dimensional coordinate values related to the position information on the virtual circle to each token, a token string of the target language sentence to which the position information has been added is generated.
  • the sentence decoding unit 236 generates a translation token string based on the encoded feature vector by the sentence encoding unit 234 and the token string of the target language sentence to which the position information is added by the position information adding unit 235. Note that when the input to the position information addition unit 233a is a source language sentence set, the input to the position information addition unit 235 is a target language sentence set.
  • the present invention has been made in view of the above points, and aims to improve the accuracy of machine translation compared to the second prior art.
  • the invention according to claim 1 provides a machine translation device that learns a machine learning model in a learning phase, which inputs each token string of a source language sentence and a target language sentence as correct answer data. and position information of the first token in the source language sentence and depth information of the first token shown in a structure tree on a virtual sphere, and position information of the first token on the virtual sphere. and the first token of the source language sentence to which the position information of the first token and the depth information are added by adding the three-dimensional coordinate value related to the depth information to the first token.
  • a position depth information addition unit that generates a sequence
  • a sentence encoding unit that generates an encoded feature vector based on the first token sequence of the source language sentence generated by the position depth information addition unit
  • the positional information of the second token in the target language sentence is indicated on a virtual circle, and the value of the two-dimensional coordinates related to the positional information of the second token on the virtual circle is added to the second token.
  • the position information adding unit generates the second token string of the target language sentence to which the position information of the second token is added, the encoded feature vector generated by the sentence encoding unit, and the position a sentence decoding section that generates a translation token string based on the second token string of the target language sentence generated by the information addition section; a translation token string generated by the sentence decoding section;
  • the machine translation device includes a parameter learning unit that updates parameters of the machine learning model based on the correct answer data input by an input unit.
  • FIG. 1 is an overall configuration diagram of a communication system according to this embodiment.
  • 1 is an electrical hardware configuration diagram of a machine translation device according to an embodiment.
  • FIG. FIG. 2 is an electrical hardware configuration diagram of a communication terminal according to the present embodiment.
  • FIG. 2 is a functional configuration diagram of a machine translation device in a learning phase according to the present embodiment.
  • FIG. 3 is a conceptual diagram of processing by a position depth information adding section. This is a conceptual diagram of the processing of the positional depth information addition unit, where Positional Encoding is regarded as a point on the circumference (white circle), and the positional encoding is expanded to a point (black circle) based on the three-dimensional coordinates on the virtual sphere.
  • FIG. 2 is a functional configuration diagram of a machine translation device in a translation phase according to the present embodiment. It is a flowchart showing the processing or operation of the machine translation device in the learning phase according to the present embodiment. It is a flowchart which shows the process or operation
  • 1 is a functional configuration diagram of a part of a machine translation device in a learning phase according to a first conventional technique; FIG. FIG.
  • FIG. 3 is a conceptual diagram of processing by a position information adding section. It is a functional block diagram of a part of the machine translation device in the learning phase according to the second conventional technique.
  • FIG. 3 is a conceptual diagram of processing by a position information addition section and a depth information addition section.
  • FIGS. 1 to 11 An embodiment of the present invention will be described using FIGS. 1 to 11. Note that the machine translation device 30 provides certain improvements over the prior art and represents an improvement in the technical field of machine translation using neural networks.
  • FIG. 1 is an overall configuration diagram of a communication system according to this embodiment.
  • the communication system 10 of this embodiment is constructed by a machine translation device 30 and a communication terminal 50.
  • Communication terminal 50 is managed and used by a user. The user refers to the output result of the machine translation device and decides what to do next.
  • the machine translation device 30 and the communication terminal 50 can communicate via a communication network 100 such as the Internet.
  • the connection form of the communication network 100 may be either wireless or wired.
  • the machine translation device 30 is configured by one or more computers. When the machine translation device 30 is configured by a plurality of computers, it may be referred to as a "machine translation device” or a “machine translation system.”
  • the machine translation device 30 uses a neural network to perform machine learning and translation for machine translation from English to Japanese, for example.
  • the communication terminal 50 is a computer, and in FIG. 1, a notebook computer is shown as an example. In FIG. 1, a user operates a communication terminal 50. Note that the machine translation device 30 may perform processing alone without using the communication terminal 50.
  • FIG. 2 is an electrical hardware configuration diagram of the machine translation device.
  • the machine translation device 30 is a computer that includes a CPU (Central Processing Unit) 301 as a processor, a ROM (Read Only Memory) 302, a RAM (Random Access Memory) 303, and an SSD (Solid State drive) 304, external device connection I/F (Interface) 305, network I/F 306, media I/F 309, and bus line 310.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • SSD Solid State drive
  • the CPU 301 controls the operation of the entire machine translation device 30.
  • the ROM 302 stores programs used to drive the CPU 301, such as IPL (Initial Program Loader).
  • RAM 303 is used as a work area for CPU 301.
  • the SSD 304 reads or writes various data under the control of the CPU 301.
  • an HDD Hard Disk Drive
  • an HDD Hard Disk Drive
  • the external device connection I/F 305 is an interface for connecting various external devices.
  • External devices in this case include a display, speaker, keyboard, mouse, USB (Universal Serial Bus) memory, printer, and the like.
  • the network I/F 306 is an interface for data communication via the communication network 100.
  • the media I/F 309 controls reading or writing (storage) of data to a recording medium 309m such as a flash memory.
  • the recording media 309m also include DVDs (Digital Versatile Discs), Blu-ray Discs (registered trademark), and the like.
  • the bus line 310 is an address bus, a data bus, etc. for electrically connecting each component such as the CPU 301 shown in FIG. 2.
  • FIG. 3 is an electrical hardware configuration diagram of the communication terminal.
  • the communication terminal 50 is a computer that includes a CPU 501, ROM 502, RAM 503, SSD 504, external device connection I/F (Interface) 505, network I/F 506, display 507, input device 508, and media. It includes an I/F 509 and a bus line 510.
  • the CPU 501 controls the operation of the entire communication terminal 50.
  • the ROM 502 stores programs used to drive the CPU 501 such as IPL.
  • RAM 503 is used as a work area for CPU 501.
  • the SSD 504 reads or writes various data under the control of the CPU 501. Note that an HDD (Hard Disk Drive) may be used instead of the SSD 504.
  • HDD Hard Disk Drive
  • the external device connection I/F 505 is an interface for connecting various external devices.
  • External devices in this case include a display, speaker, keyboard, mouse, USB memory, printer, and the like.
  • the network I/F 506 is an interface for data communication via the communication network 100.
  • the display 507 is a type of display means such as liquid crystal or organic EL (Electro Luminescence) that displays various images.
  • the input device 508 is a keyboard, a pointing device, or the like, and is a type of input means for selecting and executing various instructions, selecting a processing target, moving a cursor, and the like. Note that when the user uses a keyboard, the pointing device function may be turned off.
  • the media I/F 509 controls reading or writing (storage) of data to a recording medium 509m such as a flash memory.
  • the recording media 509m also include DVDs, Blu-ray Discs (registered trademark), and the like.
  • the bus line 510 is an address bus, a data bus, etc. for electrically connecting each component such as the CPU 501 shown in FIG. 3.
  • FIG. 4 shows the functional configuration of the learning phase
  • FIG. 7 shows the functional configuration of the translation phase
  • the machine translation device 30 may have the respective parts of FIG. 4 and FIG. 7 together.
  • FIG. 4 is a functional configuration diagram of the machine translation device in the learning phase according to the first embodiment.
  • the machine translation device 30 is an example of the machine translation device 30.
  • the machine translation device 30 includes an input section 31, an analysis section 32, and a parameter learning section 38. Each of these units is a function realized by instructions from the CPU 301 in FIG. 2 based on a program. Furthermore, a machine learning model 41a is constructed in the RAM 303 or the SSD 304.
  • the analysis section 32 also includes a position depth information addition section 33, a sentence encoding section 34, a position information addition section 35, and a sentence decoding section 36. The processing of the sentence encoding section 34 and the sentence decoding section 36 is based on the model parameters of the neural network.
  • the input unit 31 inputs learning data to the machine translation device 30 via the communication terminal 7. Alternatively, the input unit 31 directly inputs learning data to the machine translation device 30.
  • the learning data is a token string of a source language sentence (or a source language sentence set) and a token string of a target language sentence (or a target language sentence set) as correct answer data.
  • the positional depth information addition unit 33 has a function that extends Positional Encoding, and indicates the positional information of a predetermined token in the source language sentence and the depth information of the predetermined token shown in the structure tree on a virtual sphere. By adding the three-dimensional coordinate values related to the position information and depth information on the virtual sphere to a predetermined token, a token string of the source language sentence to which the position information and depth information are added is generated.
  • FIG. 5 is a conceptual diagram of the processing of the position depth information adding section. Note that FIG. 5 is a diagram corresponding to FIG. 13 showing the first prior art and FIG. 15 showing the second prior art. Here, the case of translating from English to Japanese is shown.
  • the position depth information addition unit 33 acquires a token string (English) in the source language sentence from the input unit 31, and as shown in FIG. By indicating the position information of on a virtual circle and adding the two-dimensional coordinate value related to the position information on this virtual circle to each token, a token string of the source language sentence to which the position information has been added is generated. .
  • the token in this case is represented by, for example, a 512-dimensional vector.
  • the position depth information adding unit 33 assigns 1, 2, 3, ... to pos abs in order from the beginning of the sentence, and also assigns each token to the depth of the dependency tree (pos strc ).
  • FIG. 5 shows that pos abs and pos strc are fused and have the same vector (dimension) size as pos abs or pos strc in FIG. 13. Note that the fusion of pos abs and pos strc means that the position of the token is indicated in a spherical coordinate system in FIG. 6, which will be described later.
  • FIG. 6 is a conceptual diagram of the processing of the positional depth information addition unit.
  • Positional Encoding is regarded as a point on the circumference (white circle), and Positional Encoding is calculated based on three-dimensional coordinates on the virtual sphere (spherical coordinate system). It is a diagram showing points (black circles) where the formula is expanded.
  • normal Positional Encoding is regarded as a point on the circumference (white circles), and the expression for Positional Encoding is expanded based on the spherical coordinate system (black circles).
  • (Formula 5) and (Formula 6) are obtained by dividing (Formula 1) into two.
  • (Formula 5) and (Formula 6) are expressed as the product of sin and cos, and (Formula 7) maintains the state of (Formula 2).
  • FIG. 5 shows the even-numbered dimensions of the token shown in (Formula 5) and (Formula 6), and the odd-numbered dimension of the token shown in (Formula 7) shows the state in which pos strc is deleted in FIG.
  • (Equation 5) shows the case of a dimension that is a multiple of 4 among even dimensions
  • (Equation 6) shows the case of a dimension that is a multiple of 4 among the even dimensions.
  • the sentence encoding unit 34 has a plurality of transformer layers, and generates an encoded feature vector based on the output data of the position depth information addition unit 33.
  • the encoded feature vector indicates a vector of a predetermined dimension obtained by converting the output data of the position depth information addition unit 33 that is input to the sentence encoding unit 34 based on the model parameters of the neural network.
  • the position information addition unit 35 realizes the same function as the conventional position information addition units 135 and 235, and indicates the position information of a predetermined token in the target language sentence obtained from the input unit 31 on a virtual circle, and By adding the value of two-dimensional coordinates related to positional information on the circumference to a predetermined token, a token string of the target language sentence to which the positional information is added is generated.
  • the sentence decoding unit 36 has a plurality of transformer layers, and uses the encoded feature vector acquired from the sentence encoding unit 34 and the target language sentence token (vector) acquired from the position information addition unit 35.
  • a translation token string is generated by repeatedly generating translation tokens based on the string (to which position information is added).
  • the parameter learning unit 38 inputs the translation token string from the sentence decoding unit 36 and the correct answer data (target language sentence or target language sentence set token string) from the input unit 31, and outputs parameter update information. This updates the parameters of the machine learning model 41.
  • FIG. 7 is a functional configuration diagram of the machine translation device in the inference phase.
  • the machine translation device 30 includes an input section 31, an analysis section 32, and an output section 39. Each of these units is a function realized by instructions from the CPU 301 in FIG. 2 based on a program. Further, a trained machine learning model 42 is stored in the RAM 303 or the SSD 304. The learned machine learning model 42 is a model after the machine learning model 41 has been subjected to machine learning. Functional configurations similar to those in the learning phase are designated by the same reference numerals and description thereof will be omitted.
  • the position information addition unit 35 starts processing by acquiring a translation start token from the analysis unit 32 without acquiring learning data from the input unit 31. Furthermore, the sentence decoding unit 36 repeatedly sends translated tokens to the position information adding unit 35 by translating each token using the trained machine learning model 42 . Furthermore, the sentence decoding unit 36 finally sends a translation token string and a translation end token to the output unit 39.
  • the output unit 39 obtains the translation token string and the translation end token from the sentence decoding unit 36, and outputs the translated sentence. Note that when the input unit 31 inputs a token string of a source language sentence set, the output unit 39 outputs a translated sentence set.
  • FIG. 8 is a flowchart showing the processing or operation of the machine translation device in the learning phase according to this embodiment.
  • the input unit 31 inputs learning data (each token string of the source language sentence (sentence set) and the target language sentence (sentence set)).
  • the position depth information adding unit 33 adds the position information of the predetermined token (first token) in the source language sentence and the depth information of the predetermined token (first token) shown in the structure tree on the virtual spherical surface. By adding the three-dimensional coordinate values related to the position information and depth information on this virtual sphere to a predetermined token (first token), the source language sentence with the position information and depth information added is obtained. A token string (first token string) is generated.
  • S13 An encoded feature vector is generated based on the token string of the source language sentence generated by the position depth information addition unit 33.
  • the position information addition unit 35 indicates the position information of a predetermined token (second token) in the target language sentence on the virtual circle, and calculates the two-dimensional coordinate value related to the position information on this virtual circle as a predetermined value.
  • a token string (second token string) of the target language sentence to which the position information is added is generated.
  • the sentence decoding unit 36 generates a translation token string.
  • the parameter learning unit 38 calculates the loss and updates the parameters.
  • S17 The parameter learning unit 38 determines whether there is any unprocessed data. If there is unprocessed data (S17; YES), the process returns to step S11. On the other hand, if there is no unprocessed data (S17; NO), the learning phase process ends.
  • FIG. 9 is a flowchart showing an answer generation method executed by the machine translation device in the inference phase.
  • the input unit 31 inputs input data (a token string of a source language sentence (sentence set)) from the communication terminal 7 or directly.
  • the position depth information adding unit 33 indicates the position information of a predetermined token in the source language sentence and the depth information of the predetermined token shown in the structure tree on a virtual sphere, and adds the position information and depth on this virtual sphere. By adding the value of three-dimensional coordinates related to depth information to a predetermined token, a token string of a source language sentence to which position information and depth information are added is generated.
  • the sentence encoding unit 34 generates an encoded feature vector based on the token string of the source language sentence generated by the position depth information addition unit 33.
  • the position information addition unit 35 indicates the position information of the translation token in the target language sentence on the virtual circle, and adds the two-dimensional coordinate value related to the position information on this virtual circle to the translation token.
  • the sentence decoding unit 36 uses the trained machine learning model 42 based on the encoded feature vector generated by the sentence encoding unit 34 and the translation token to which position information has been added by the position information addition unit 35. , generates a predetermined translation token (next translation token) in the target language.
  • This predetermined translation token is the result of the sentence decoding unit 36 predicting that the translation token to which position information has been added by the position information addition unit 35 will continue. Thereby, the sentence decoding unit 36 generates a translation token string of the target language sentence.
  • the sentence decoding unit 36 outputs the generated translation token string of the target language sentence to the output unit 39 together with the translation end token.
  • the output unit 39 outputs a translated sentence (translated sentence set) based on the final translation token string generated by the sentence decoding unit.
  • FIG. 10 is a table showing the experimental results of each method in English to Japanese translation, Chinese to Japanese translation, and Chinese to English translation (each test set). From the top, the methods are the first conventional technique (PE), the second conventional technique (Wang et al. (2019)), and the present embodiment (HPE(ours)). Note that HPE is an abbreviation for Hyperspherical Positiona Encoding, and is a name given by the present inventor.
  • the Chinese to English translation experiment includes multiple test sets (NIST). Here, for example, experimental results such as documents (news articles, etc.) specified by NIST03 are shown. Thus, it can be seen that the experimental results of the method according to this embodiment are the best.
  • FIG. 11 is a table showing experimental results for each number of tokens of a predetermined English sentence using each method when translating from English to Japanese. As shown in FIG. 11, it can be seen that the experimental results of the method according to this embodiment are the best for most number of tokens.
  • the present invention is not limited to the above-described embodiments, and may have the following configuration or processing (operation).
  • the machine translation device 30 can be realized by a computer and a program, but this program can also be recorded on a (non-temporary) recording medium or provided via the communication network 100.
  • a notebook computer is shown as an example of the communication terminal 50, but it is not limited to this, and examples include a desktop computer, a tablet terminal, a smartphone, a smart watch, a car navigation device, a refrigerator, A microwave oven or the like may be used.
  • Each CPU 301, 501 may not only be a single CPU, but may also be a plurality of CPUs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本開示は、機械翻訳の精度を上げることを目的とする。 そのため、学習フェーズにおいて機械学習モデルを学習させる機械翻訳装置30は、文符号化(エンコード)の前に、原言語文における第1のトークンの位置情報及び構造木で示した前記第1のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第1のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第1のトークンに加算することで、前記第1のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第1のトークン列を生成する。また、機械翻訳装置30は、文復号化(デコード)の前に、目的言語文における第2のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第2のトークンの位置情報に係る二次元座標の値を前記第2のトークンに加算することで、位置情報が加算された目的言語文の第2のトークン列を生成する。

Description

機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム
 本開示は、ニューラルネットワークを用いた機械翻訳の精度を上げる技術に関する。
 従来、機械翻訳を行う手法として、SPE(Sinusoidal Positional Encoding)手法が存在する(非特許文献1)。ここで、図12を用いて、SPE手法について説明する。図12は、第1の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。ここでは、英語から日本語に翻訳する場合が示されている。図12に示すように、解析部132は、位置情報加算部133、文符号化部134、位置情報加算部135、及び文復号化部136を有している。位置情報加算部133は、原言語文におけるトークン列(英語)を入力し、図13に示すように、原言語文における各トークン(ベクトル)の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された原言語文のトークン列を生成する。この場合、位置情報加算部133は、文の先頭から順に、1,2,3,・・・をposabsに代入していく。そして、位置情報は、(式1)及び(式2)に表すように、sinとcosを使って表現されている。
Figure JPOXMLDOC01-appb-M000001
 次に、文符号化部134は、位置情報加算部133の出力データに基づいて、エンコード特徴ベクトルを生成する。一方、位置情報加算部135は、図13と同様に、正解データとして、目的言語文におけるトークン列(日本語)を入力し、目的言語文における各トークン(ベクトル)の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された目的言語文のトークン列を生成する。文復号化部136は、文符号化部134によるエンコード特徴ベクトル、及び位置情報加算部135による位置情報が加算された目的言語文のトークン列に基づいて、翻訳トークン列を生成する。なお、位置情報加算部133への入力が原言語文集合の場合は、位置情報加算部135への入力は目的言語文集合である。
 また、SPE手法の精度を上げる手法として、SPEを使った構造的位置の表現手法が存在する(非特許文献2)。ここで、図14を用いて、SPEを使った構造的位置の表現手法について説明する。図14は、第2の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。ここでは、英語から日本語に翻訳する場合が示されている。図14に示すように、解析部232は、位置情報加算部233a、深さ情報加算部233b、文符号化部234、位置情報加算部235、及び文復号化部236を有している。位置情報加算部233aは、原言語文におけるトークン列(英語)を入力し、図15に示すように、原言語文における各トークン(ベクトル)の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された原言語文のトークン列を生成する。この場合、位置情報加算部233aは、文の先頭から順に、1,2,3,・・・をposabsに代入していく。
 次に、深さ情報加算部233bは、図15に示すように、各トークン(ベクトル)を依存木の深さ(posstrc)の位置エンコーディングで表現することで、結果的に位置情報及び深さ情報が加算された原言語文のトークン列を生成する。なお、位置情報加算部233a及び深さ情報加算部233bは、Positional Encodingの役割を果たす。また、位置情報加算部233a及び深さ情報加算部233bは、非線形関数(f)を使って通常の絶対位置と組み合わせてもよい。そして、位置情報及び深さ情報は、(式3)及び(式4)に表すように、sinとcosを使って表現されている。
Figure JPOXMLDOC01-appb-M000002
 次に、文符号化部234は、深さ情報加算部233bの出力データに基づいて、エンコード特徴ベクトルを生成する。一方、位置情報加算部235は、位置情報加算部135と同様に、正解データとして、目的言語文におけるトークン列(日本語)を入力し、目的言語文における各トークン(ベクトル)の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された目的言語文のトークン列を生成する。文復号化部236は、文符号化部234によるエンコード特徴ベクトル、及び位置情報加算部235による位置情報が加算された目的言語文のトークン列に基づいて、翻訳トークン列を生成する。なお、位置情報加算部233aへの入力が原言語文集合の場合は、位置情報加算部235への入力は目的言語文集合である。
[1706.03762] Attention Is All You Need (arxiv.org) [2004.10643] Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection (arxiv.org)
 しかしながら、第2の従来技術では、別の単語が仮想円周上で同じ位置に存在するように示されてしまうことがある。例えば、図15において、トークン「The」に加算される位置情報「1」と深さ情報「2」は合計で「3」となり、トークン「boy」に加算される位置情報「2」と深さ情報「1」は合計で「3」となるため、「The」と「boy」が仮想円周上で同じ位置に存在してしまう。これはノイズとなり、翻訳精度が下がる原因となるという課題が生じる。
 本発明は、上述の点に鑑みてなされたものであって、第2の従来技術に比べて、機械翻訳の精度を上げることを目的とする。
 上記課題を解決するため、請求項1に係る発明は、学習フェーズにおいて機械学習モデルを学習させる機械翻訳装置であって、原言語文及び正解データとしての目的言語文の各トークン列を入力する入力部と、前記原言語文における第1のトークンの位置情報及び構造木で示した前記第1のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第1のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第1のトークンに加算することで、前記第1のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第1のトークン列を生成する位置深さ情報加算部と、前記位置深さ情報加算部によって生成された前記原言語文の前記第1のトークン列に基づいて、エンコード特徴ベクトルを生成する文符号化部と、前記目的言語文における第2のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第2のトークンの位置情報に係る二次元座標の値を前記第2のトークンに加算することで、前記第2のトークンの位置情報が加算された目的言語文の第2のトークン列を生成する位置情報加算部と、前記文符号化部によって生成された前記エンコード特徴ベクトルと、前記位置情報加算部によって生成された前記目的言語文の前記第2のトークン列とに基づいて、翻訳トークン列を生成する文復号化部と、前記文復号化部によって生成された翻訳トークン列、及び前記入力部によって入力された前記正解データに基づいて、前記機械学習モデルのパラメータを更新するパラメータ学習部と、を有する機械翻訳装置である。
 以上説明したように本発明によれば、第2の従来技術に比べて、機械翻訳の精度を上げることができるという効果を奏する。
本実施形態に係る通信システムの全体構成図である。 本実施形態に係る機械翻訳装置の電気的なハードウェア構成図である。 本実施形態に係る通信端末の電気的なハードウェア構成図である。 本実施形態に係り、学習フェーズにおける機械翻訳装置の機能構成図である。 位置深さ情報加算部の処理の概念図である。 位置深さ情報加算部の処理を概念図であり、Positional Encodingを円周上の点(白丸)とみなし、仮想球面上における三次元座標に基づいてPositional Encodingの式を拡張した点(黒丸)を示した図である。 本実施形態に係り、翻訳フェーズにおける機械翻訳装置の機能構成図である。 本実施形態に係り、学習フェーズにおける機械翻訳装置の処理又は動作を示すフローチャートである。 本実施形態に係り、翻訳フェーズにおける機械翻訳装置の処理又は動作を示すフローチャートである。 英語から日本語への翻訳、中国語から日本語への翻訳、及び中国語から英語への翻訳(各テストセット)において、各手法の実験結果を示す表である。 英語から日本語に翻訳する場合において、各手法の所定の英語文のトークン数毎の実験結果を示す表である。 第1の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。 位置情報加算部の処理の概念図である。 第2の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。 位置情報加算部及び深さ情報加算部の処理の概念図である。
 以下、図面に基づいて本発明の実施形態を説明する。
 あ図1乃至図11を用いて、本発明の実施形態について説明する。なお、機械翻訳装置30は、従来技術に対して、特定の改善を提供するものであり、ニューラルネットワークを用いた機械翻訳に係る技術分野の向上を示すものである。
 〔実施形態のシステム構成〕
 まず、図1を用いて、本実施形態の通信システムの全体構成について説明する。図1は、本実施形態に係る通信システムの全体構成図である。
 図1に示されているように、本実施形態の通信システム10は、機械翻訳装置30、及び通信端末50によって構築されている。通信端末50は、ユーザによって管理及び使用される。ユーザは、機械翻訳装置の出力結果を参照して、その後の対応を判断する者である。
 また、機械翻訳装置30と通信端末50は、インターネット等の通信ネットワーク100を介して通信することができる。通信ネットワーク100の接続形態は、無線又は有線のいずれでも良い。
 機械翻訳装置30は、単数又は複数のコンピュータによって構成されている。機械翻訳装置30が複数のコンピュータによって構成されている場合には、「機械翻訳装置」と示しても良いし、「機械翻訳システム」と示しても良い。機械翻訳装置30は、ニューラルネットワークを用いて、例えば、英語から日本語へ機械翻訳するための機械学習及び翻訳を行う。
 通信端末50は、コンピュータであり、図1では、一例としてノート型パソコンが示されている。図1では、ユーザが、通信端末50を操作する。なお、通信端末50を用いずに、機械翻訳装置30単独で処理をしてもよい。
 〔ハードウェア構成〕
 <機械翻訳装置のハードウェア構成>
 次に、図2を用いて、機械翻訳装置30の電気的なハードウェア構成を説明する。図2は、機械翻訳装置の電気的なハードウェア構成図である。
 機械翻訳装置30は、コンピュータとして、図2に示されているように、プロセッサとしてのCPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303、SSD(Solid State Drive)304、外部機器接続I/F(Interface)305、ネットワークI/F306、メディアI/F309、及びバスライン310を備えている。
 これらのうち、CPU301は、機械翻訳装置30全体の動作を制御する。ROM302は、IPL(Initial Program Loader)等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。
 SSD304は、CPU301の制御に従って各種データの読み出し又は書き込みを行う。なお、SSD304の代わりに、HDD(Hard Disk Drive)を用いても良い。
 外部機器接続I/F305は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、USB(Universal Serial Bus)メモリ、及びプリンタ等である。
 ネットワークI/F306は、通信ネットワーク100を介してデータ通信をするためのインターフェースである。
 メディアI/F309は、フラッシュメモリ等の記録メディア309mに対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア309mには、DVD(Digital Versatile Disc)やBlu-ray Disc(登録商標)等も含まれる。
 バスライン310は、図2に示されているCPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
 <通信端末のハードウェア構成>
 次に、図3を用いて、通信端末50の電気的なハードウェア構成を説明する。図3は、通信端末の電気的なハードウェア構成図である。
 通信端末50は、コンピュータとして、図3に示されているように、CPU501、ROM502、RAM503、SSD504、外部機器接続I/F(Interface)505、ネットワークI/F506、ディスプレイ507、入力デバイス508、メディアI/F509、及びバスライン510を備えている。
 これらのうち、CPU501は、通信端末50全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。
 SSD504は、CPU501の制御に従って各種データの読み出し又は書き込みを行う。なお、SSD504の代わりに、HDD(Hard Disk Drive)を用いてもよい。
 外部機器接続I/F505は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、USBメモリ、及びプリンタ等である。
 ネットワークI/F506は、通信ネットワーク100を介してデータ通信をするためのインターフェースである。
 ディスプレイ507は、各種画像を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。
 入力デバイス508は、キーボード、ポインティングデバイス等であり、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。なお、ユーザがキーボードを使う場合は、ポインティングデバイスの機能をOFFにしてもよい。
 メディアI/F509は、フラッシュメモリ等の記録メディア509mに対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア509mには、DVDやBlu-ray Disc(登録商標)等も含まれる。
 バスライン510は、図3に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
 〔機械翻訳装置の機能構成〕
 本実施形態に係る機械翻訳装置30の学習フェーズ及び翻訳(推論)フェーズにおける機能構成について説明する。なお、図4に学習フェーズの機能構成、図7に翻訳フェーズの機能構成を示すが、機械翻訳装置30は、図4と図7の各部をまとめて有していてもよい。
 <学習フェーズの機能構成>
 まず、図4を用いて、学習フェーズにおける機械翻訳装置30の各機能について説明する。図4は、第1の実施形態に係り、学習フェーズにおける機械翻訳装置の機能構成図である。なお、機械翻訳装置30は、機械翻訳装置30の一例である。
 図4に示すように、機械翻訳装置30は、入力部31、解析部32、パラメータ学習部38を有する。これら各部は、プログラムに基づき図2のCPU301による命令によって実現される機能である。また、RAM303又はSSD304には、機械学習モデル41aが構築されている。また、解析部32は、位置深さ情報加算部33、文符号化部34、位置情報加算部35、及び文復号化部36を有する。文符号化部34と文復号化部36の処理は、ニューラルネットワークのモデルパラメータに基づいたものである。
 入力部31は、通信端末7を介して、機械翻訳装置30に、学習データを入力する。または、入力部31は、機械翻訳装置30に、直接、学習データを入力する。学習データは、原言語文(又は原言語文集合)のトークン列、及び正解データとしての目的言語文(又は目的言語文集合)のトークン列である。
 位置深さ情報加算部33は、Positional Encodingを拡張した機能を有し、原言語文における所定のトークンの位置情報及び構造木で示した所定のトークンの深さ情報を仮想球面上で示し、この仮想球面上における位置情報及び深さ情報に係る三次元座標の値を所定のトークンに加算することで、位置情報及び深さ情報が加算された原言語文のトークン列を生成する。ここで、図5を用いて、位置深さ情報加算部33について説明する。図5は、位置深さ情報加算部の処理の概念図である。なお、図5は、第1の従来技術を示す図13、及び第2の従来技術を示す図15に対応した図である。ここでは、英語から日本語に翻訳する場合が示されている。
 図4に示すように、位置深さ情報加算部33は、入力部31から、原言語文におけるトークン列(英語)を取得し、図5に示すように、原言語文における各トークン(ベクトル)の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された原言語文のトークン列を生成する。この場合のトークンは、例えば、512次元のベクトルで表されている。
この場合、位置深さ情報加算部33は、文の先頭から順に、1,2,3,・・・をposabsに代入していくと共に、各トークンを依存木の深さ(posstrc)の位置エンコーディングで表現することで、結果的に位置情報と深さ情報との積等により示された原言語文のトークン列を生成する。図5では、posabsとposstrcが融合し、図13のposabs又はposstrcと同じベクトル(次元)の大きさとなることを示している。なお、posabsとposstrcが融合は、後述の図6において、球面座標系でトークンの位置を示すことを意味する。
 また、位置深さ情報加算部33の処理は、図6によっても示すことができる。図6は、位置深さ情報加算部の処理を概念図であり、Positional Encodingを円周上の点(白丸)とみなし、仮想球面上における三次元座標(球面座標系)に基づいてPositional Encodingの式を拡張した点(黒丸)を示した図である。図6に示すように、通常のPositional Encodingを円周上の点(白丸)とみなし、球面座標系に基づいてPositional Encodingの式を拡張する(黒丸)。
 これは、三次元極座標の式
Figure JPOXMLDOC01-appb-M000003
 を流用して、下記(式5)、(式6)、(式7)で表すことができる。
Figure JPOXMLDOC01-appb-M000004
 なお、(式5)及び(式6)は、(式1)を二分割したものである。(式5)及び(式6)はsinとcosの積で表され、(式7)は(式2)の状態を維持している。図5は、(式5)及び(式6)で示すトークンの偶数次元を示し、(式7)で示すトークンの奇数次元は図5においてposstrcを削除した状態を示す。また、(式5)は偶数次元のうち、4の倍数次元の場合を示し、(式6)は、偶数次元のうち、4の倍数次元以外の場合を示す。
 文符号化部34は、複数の変換部層(Transformer)を有しており、位置深さ情報加算部33の出力データに基づいて、エンコード特徴ベクトルを生成する。エンコード特徴ベクトルは、文符号化部34に入力された位置深さ情報加算部33の出力データを、ニューラルネットワークのモデルパラメータに基づいて変換された所定次元のベクトルを示す。
 位置情報加算部35は、従来の位置情報加算部135,235と同様の機能を実現し、入力部31から取得した目的言語文における所定のトークンの位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を所定のトークンに加算することで、位置情報が加算された目的言語文のトークン列を生成する。
 文復号化部36は、複数の変換部層(Transformer)を有しており、文符号化部34から取得したエンコード特徴ベクトルと、位置情報加算部35から取得した目的言語文のトークン(ベクトル)列(位置情報が加算されたもの)に基づいて、翻訳トークンを生成することを繰り返すことで、翻訳トークン列を生成する。
 パラメータ学習部38は、文復号化部36から翻訳トークン列を入力すると共に、入力部31から正解データ(目的言語文又は目的言語文集合のトークン列)を入力して、パラメータ更新情報を出力することで、機械学習モデル41のパラメータを更新する。
 以上により、学習フェーズの機能構成の説明は終了する。
 <翻訳フェーズの機能構成>
 続いて、翻訳フェーズにおける機械翻訳装置30の各機能について説明する。図7は、推論フェーズにおける機械翻訳装置の機能構成図である。
 図7に示すように、機械翻訳装置30は、入力部31、解析部32、及び出力部39を有する。これら各部は、プログラムに基づき図2のCPU301による命令によって実現される機能である。また、RAM303又はSSD304には、学習済み機械学習モデル42が記憶されている。学習済み機械学習モデル42は、機械学習モデル41が機械学習された後のモデルである。学習フェーズにおける機能構成と同様の機能構成については、同一の符号を付して説明を省略する。
 なお、位置情報加算部35は、入力部31から学習データを取得せず、解析部32から翻訳開始トークンを取得することで、処理を開始する。また、文復号化部36は、学習済み機械学習モデル42を用いてトークン毎に翻訳することで、位置情報加算部35に対して翻訳トークンを繰り返し送る。また、文復号化部36は、出力部39に対して、最終的に、翻訳トークン列及び翻訳終了トークンを送る。
 出力部39は、文復号化部36から翻訳トークン列及び翻訳終了トークンを取得し、翻訳文を出力する。なお、入力部31が原言語文集合のトークン列を入力した場合には、出力部39は、翻訳文集合を出力する。
 〔機械翻訳装置の処理又は動作〕
 続いて、図8及び図9を用いて、機械翻訳装置30の学習フェーズ及び推論フェーズにおける処理又は動作について説明する。
 <学習フェーズにおける処理又は動作>
 図8は、本実施形態に係り、学習フェーズにおける機械翻訳装置の処理又は動作を示すフローチャートである。
 S11:入力部31は、学習データ(原言語文(文集合)、目的言語文(文集合)の各トークン列)を入力する。
 S12:位置深さ情報加算部33は、原言語文における所定のトークン(第1のトークン)の位置情報及び構造木で示した所定のトークン(第1のトークン)の深さ情報を仮想球面上で示し、この仮想球面上における位置情報及び深さ情報に係る三次元座標の値を所定のトークン(第1のトークン)に加算することで、位置情報及び深さ情報が加算された原言語文のトークン列(第1のトークン列)を生成する。
 S13:位置深さ情報加算部33によって生成された原言語文のトークン列に基づいて、エンコード特徴ベクトルを生成する。
 S14:位置情報加算部35は、目的言語文における所定のトークン(第2のトークン)の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を所定のトークン(第2のトークン)に加算することで、位置情報が加算された目的言語文のトークン列(第2のトークン列)を生成する。
 S15:文復号化部36は、翻訳トークン列を生成する。
 S16:パラメータ学習部38は、損失を計算してパラメータを更新する。
 S17:パラメータ学習部38は未処理データがあるかを判断する。そして、未処理データがある場合には(S17;YES)、処理S11に戻る。一方、未処理データがない場合には(S17;NO)、学習フェーズの処理は終了する。
 以上により、学習フェーズの処理又は動作の説明は終了する。
 <推論フェーズにおける処理又は動作>
 図9は、推論フェーズにおいて機械翻訳装置が実行する回答生成方法を示すフローチャートである。
 S21:入力部31は、通信端末7から又は直接的に、入力データ(原言語文(文集合)のトークン列)を入力する。
 S22:位置深さ情報加算部33は、原言語文における所定のトークンの位置情報及び構造木で示した所定のトークンの深さ情報を仮想球面上で示し、この仮想球面上における位置情報及び深さ情報に係る三次元座標の値を所定のトークンに加算することで、位置情報及び深さ情報が加算された原言語文のトークン列を生成する。
 S23:文符号化部34は、位置深さ情報加算部33によって生成された原言語文のトークン列に基づいて、エンコード特徴ベクトルを生成する。
 S24:位置情報加算部35は、目的言語文における翻訳トークンの位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を翻訳トークンに加算する。また、文復号化部36は、学習済み機械学習モデル42を用いて、文符号化部34よって生成されたエンコード特徴ベクトル、及び位置情報加算部35によって位置情報が加算された翻訳トークンに基づいて、目的言語である所定の翻訳トークン(次に続く翻訳トークン)を生成する。この所定の翻訳トークンは,位置情報加算部35によって位置情報が加算された翻訳トークンの次に続くと文復号化部36が予測した結果である.
これにより、文復号化部36は、目的言語文の翻訳トークン列を生成する。
 S25:文復号化部36は、生成した目的言語文の翻訳トークン列を、翻訳終了トークンと共に出力部39に出力する。
 S26:出力部39は、文復号化部によって生成された最終的な翻訳トークン列に基づく翻訳文(翻訳文集合)を出力する。
 以上により、翻訳フェーズの処理又は動作の説明が終了する。
 〔実験結果〕
 続いて、図10及び図11を用いて、本実施形態の実験結果について説明する。図10は、英語から日本語への翻訳、中国語から日本語への翻訳、及び中国語から英語への翻訳(各テストセット)において、各手法の実験結果を示す表である。各手法は、上から、第1の従来技術による手法(PE)、第2の従来技術による手法(Wang et al.(2019))、及び本実施形態による手法(HPE(ours))を示す。なお、HPEは、Hyperspherical Positiona Encodingの略称であり、本発明者からが名付けた名称である。中国語から英語への翻訳の実験は、複数のテストセット(NIST)が含まれている。ここでは、例えば、NIST03で特定されるドキュメント(ニュース記事等)等の実験結果が示されている。このように、本実施形態による手法の実験結果が最も良いことが分かる。
 また、図11は、英語から日本語に翻訳する場合において、各手法の所定の英語文のトークン数毎の実験結果を示す表である。図11に示すように、ほとんどのトークン数において、本実施形態による手法の実験結果が最も良いことが分かる。
 〔実施形態の効果〕
 以上説明したように本実施形態によれば、(式5)、(式6)、及び(式7)に示すように、元のトークンの絶対位置と構造的位置をまとめて同じ式で表現し、通常のPEを二次元極座標ととらえ、仮想の三次元球体座標へと拡張することで、別の単語が同じ位置に存在しないため、機械翻訳の精度を上げることができるという効果を奏する。
 ●補足
 本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
 (1)機械翻訳装置30はコンピュータとプログラムによっても実現できるが、このプログラムを(非一時的な)記録媒体に記録することも、通信ネットワーク100を介して提供することも可能である。
 (2)上記実施形態では、通信端末50の一例としてノート型パソコンが示されているが、これに限るものではなく、例えば、デスクトップパソコン、タブレット端末、スマートフォン、スマートウォッチ、カーナビゲーション装置、冷蔵庫、電子レンジ等であってもよい。
 (3)各CPU301,501は、単一だけでなく、複数であってもよい。
10 通信システム
30 機械翻訳装置
31 入力部
32 解析部
33 位置深さ情報加算部
34 文符号化部
35 位置情報加算部
36 文復号化部
38 パラメータ学習部
39 出力部
41 機械学習モデル
42 学習済み機械学習モデル

Claims (6)

  1.  学習フェーズにおいて機械学習モデルを学習させる機械翻訳装置であって、
     原言語文及び正解データとしての目的言語文の各トークン列を入力する入力部と、
     前記原言語文における第1のトークンの位置情報及び構造木で示した前記第1のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第1のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第1のトークンに加算することで、前記第1のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第1のトークン列を生成する位置深さ情報加算部と、
     前記位置深さ情報加算部によって生成された前記原言語文の前記第1のトークン列に基づいて、エンコード特徴ベクトルを生成する文符号化部と、
     前記目的言語文における第2のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第2のトークンの位置情報に係る二次元座標の値を前記第2のトークンに加算することで、前記第2のトークンの位置情報が加算された前記目的言語文の第2のトークン列を生成する位置情報加算部と、
     前記文符号化部によって生成された前記エンコード特徴ベクトルと、前記位置情報加算部によって生成された前記目的言語文の前記第2のトークン列とに基づいて、翻訳トークン列を生成する文復号化部と、
     前記文復号化部によって生成された翻訳トークン列、及び前記入力部によって入力された前記正解データに基づいて、前記機械学習モデルのパラメータを更新するパラメータ学習部と、
     を有する機械翻訳装置。
  2.  学習フェーズにおいて機械翻訳装置が機械学習モデルを学習させる機械学習方法であって、
     前記機械翻訳装置は、
     原言語文及び正解データとしての目的言語文の各トークン列を入力する入力処理と、
     前記原言語文における第1のトークンの位置情報及び構造木で示した前記第1のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第1のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第1のトークンに加算することで、前記第1のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第1のトークン列を生成する位置深さ情報加算処理と、
     前記位置深さ情報加算処理によって生成された前記原言語文の前記第1のトークン列に基づいて、エンコード特徴ベクトルを生成する文符号化処理と、
     前記目的言語文における第2のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第2のトークンの位置情報に係る二次元座標の値を前記第2のトークンに加算することで、位置情報が加算された前記目的言語文の第2のトークン列を生成する位置情報加算処理と、
     前記文符号化処理によって生成された前記エンコード特徴ベクトルと、前記位置情報加算処理によって生成された前記目的言語文の前記第2のトークン列とに基づいて、翻訳トークン列を生成する文復号化処理と、
     前記文復号化処理によって生成された翻訳トークン列、及び前記入力処理によって入力された前記正解データに基づいて、前記機械学習モデルのパラメータを更新するパラメータ学習部と、
     を実行する機械学習方法。
  3.  コンピュータに、請求項2に記載の方法を実行させるプログラム。
  4.  翻訳フェーズにおいて学習済み機械学習モデルを用いて機械翻訳する機械翻訳装置であって、
     原言語文のトークン列を入力する入力部と、
     前記原言語文における所定のトークンの位置情報及び構造木で示した前記所定のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記位置情報及び前記深さ情報に係る三次元座標の値を前記所定のトークンに加算することで、前記位置情報及び前記深さ情報が加算された前記原言語文のトークン列を生成する位置深さ情報加算部と、
     前記位置深さ情報加算部によって生成された前記原言語文の前記トークン列に基づいて、エンコード特徴ベクトルを生成する文符号化部と、
     翻訳トークンの位置情報を仮想円周上で示し、当該仮想円周上における前記翻訳トークンの位置情報に係る二次元座標の値を前記翻訳トークンに加算することで、前記翻訳トークンの位置情報が加算された目的言語文のトークンを生成する位置情報加算部と、
     前記学習済み機械学習モデルを用いて、前記文符号化部によって生成された前記エンコード特徴ベクトル、及び前記位置情報加算部によって前記翻訳トークンの位置情報が加算された前記翻訳トークンに基づいて、所定の翻訳トークンを生成する文復号化部と、
     前記文復号化部によって生成された最終的な翻訳トークン列に基づいて翻訳文を出力する出力部と、
     を有する機械翻訳装置。
  5.  翻訳フェーズにおいて機械翻訳装置が学習済み機械学習モデルを用いて機械翻訳する機械翻訳方法であって、
     前記機械翻訳装置は、
     原言語文のトークン列を入力する入力処理と、
     前記原言語文における所定のトークンの位置情報及び構造木で示した前記所定のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記位置情報及び前記深さ情報に係る三次元座標の値を前記所定のトークンに加算することで、前記位置情報及び前記深さ情報が加算された前記原言語文のトークン列を生成する位置深さ情報加算処理と、
     前記位置深さ情報加算処理によって生成された前記原言語文の前記トークン列に基づいて、エンコード特徴ベクトルを生成する文符号化処理と、
     翻訳トークンの位置情報を仮想円周上で示し、当該仮想円周上における前記翻訳トークンの位置情報に係る二次元座標の値を前記翻訳トークンに加算することで、前記翻訳トークンの位置情報が加算された目的言語文のトークンを生成する位置情報加算処理と、、
     前記学習済み機械学習モデルを用いて、前記文符号化処理によって生成された前記エンコード特徴ベクトル、及び前記位置情報加算処理によって前記翻訳トークンの位置情報が加算された前記翻訳トークンに基づいて、所定の翻訳トークンを生成する文復号化処理と、
     前記文復号化処理によって生成された最終的な翻訳トークン列に基づいて翻訳文を出力する出力処理と、
     を実行する機械翻訳方法。
  6.  コンピュータに、請求項5に記載の方法を実行させるプログラム。
PCT/JP2022/031435 2022-08-19 2022-08-19 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム WO2024038600A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/031435 WO2024038600A1 (ja) 2022-08-19 2022-08-19 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/031435 WO2024038600A1 (ja) 2022-08-19 2022-08-19 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024038600A1 true WO2024038600A1 (ja) 2024-02-22

Family

ID=89941645

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/031435 WO2024038600A1 (ja) 2022-08-19 2022-08-19 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024038600A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021010203A1 (ja) * 2019-07-18 2021-01-21 国立研究開発法人情報通信研究機構 推論器、推論方法および推論プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021010203A1 (ja) * 2019-07-18 2021-01-21 国立研究開発法人情報通信研究機構 推論器、推論方法および推論プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EGEA GÓMEZ SANTIAGO, MCGILL EUAN, SAGGION HORACIO: "Syntax-aware Transformers for Neural Machine Translation: The Case of Text to Sign Gloss Translation", PROCEEDINGS OF THE 14TH WORKSHOP ON BUILDING AND USING COMPARABLE CORPORA (BUCC 2021), INCOMA LTD. SHOUMEN, BULGARIA, 15 June 2021 (2021-06-15), pages 18 - 27, XP093140078, ISBN: 978-954-452-076-2, DOI: 10.26615/978-954-452-076-2_004 *
OKA YUI, KATSUHITO SUDO, SATOSHI NAKAMURA: "Knowledge distillation for non-autoregressive machine translation using length control by perturbing positional encoding", PROCEEDINGS OF THE TWENTY-SEVENTH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 8 March 2021 (2021-03-08), pages 1360 - 1364, XP093140076, Retrieved from the Internet <URL:https://ahcweb01.naist.jp/papers/conference/2021/202103_ANLP_yui-ok/202103_ANLP_yui-ok.paper.pdf> [retrieved on 20240312] *

Similar Documents

Publication Publication Date Title
Gao et al. Deep learning in protein structural modeling and design
US10067939B2 (en) Machine translation method and apparatus
CA3022998A1 (en) Method and device for generative adversarial network training
CN110175336B (zh) 翻译方法、装置和电子设备
WO2019208070A1 (ja) 質問応答装置、質問応答方法及びプログラム
JP2022180282A (ja) ペルソナチャットボット制御方法及びシステム
WO2020240709A1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
CN112395888A (zh) 机器翻译设备和方法
Zhao et al. Curriculum cyclegan for textual sentiment domain adaptation with multiple sources
Chen et al. From words to sentences: A progressive learning approach for zero-resource machine translation with visual pivots
JP2022549418A (ja) 画像記述生成方法、装置、システム、媒体及び電子機器
WO2023168810A1 (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
WO2021117180A1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
JP7103264B2 (ja) 生成装置、学習装置、生成方法及びプログラム
CN115271093A (zh) 用于多任务用户界面建模的基于神经网络的多模态变换器
CN112668347B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
WO2024038600A1 (ja) 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム
JP2024502400A (ja) グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出
JP7000181B2 (ja) 言語処理方法及び言語処理システム
JP7430625B2 (ja) バージョン検証装置、バージョン検証システム及びバージョン検証方法
Prajapati et al. An ai-based pedagogical tool for creating sketched representation of emotive product forms in the conceptual design stages
JP2022548053A (ja) 解釈可能な再帰型マルチホップ質問回答のためのフォローアップ質問の生成
JPWO2020162294A1 (ja) 変換方法、訓練装置及び推論装置
JP6526607B2 (ja) 学習装置、学習方法、および学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22955772

Country of ref document: EP

Kind code of ref document: A1