WO2024038600A1

WO2024038600A1 - 機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム

Info

Publication number: WO2024038600A1
Application number: PCT/JP2022/031435
Authority: WO
Inventors: 佑依岡; 貴秋田中; 昌明永田
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2024-02-22

Abstract

本開示は、機械翻訳の精度を上げることを目的とする。　そのため、学習フェーズにおいて機械学習モデルを学習させる機械翻訳装置３０は、文符号化（エンコード）の前に、原言語文における第１のトークンの位置情報及び構造木で示した前記第１のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第１のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第１のトークンに加算することで、前記第１のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第１のトークン列を生成する。また、機械翻訳装置３０は、文復号化（デコード）の前に、目的言語文における第２のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第２のトークンの位置情報に係る二次元座標の値を前記第２のトークンに加算することで、位置情報が加算された目的言語文の第２のトークン列を生成する。

Description

機械翻訳装置、機械学習方法、機械翻訳方法、及びプログラム

　本開示は、ニューラルネットワークを用いた機械翻訳の精度を上げる技術に関する。

　従来、機械翻訳を行う手法として、SPE(Sinusoidal Positional Encoding)手法が存在する（非特許文献１）。ここで、図１２を用いて、SPE手法について説明する。図１２は、第１の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。ここでは、英語から日本語に翻訳する場合が示されている。図１２に示すように、解析部１３２は、位置情報加算部１３３、文符号化部１３４、位置情報加算部１３５、及び文復号化部１３６を有している。位置情報加算部１３３は、原言語文におけるトークン列（英語）を入力し、図１３に示すように、原言語文における各トークン（ベクトル）の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された原言語文のトークン列を生成する。この場合、位置情報加算部１３３は、文の先頭から順に、１，２，３，・・・をpos_absに代入していく。そして、位置情報は、（式１）及び（式２）に表すように、sinとcosを使って表現されている。

　次に、文符号化部１３４は、位置情報加算部１３３の出力データに基づいて、エンコード特徴ベクトルを生成する。一方、位置情報加算部１３５は、図１３と同様に、正解データとして、目的言語文におけるトークン列（日本語）を入力し、目的言語文における各トークン（ベクトル）の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された目的言語文のトークン列を生成する。文復号化部１３６は、文符号化部１３４によるエンコード特徴ベクトル、及び位置情報加算部１３５による位置情報が加算された目的言語文のトークン列に基づいて、翻訳トークン列を生成する。なお、位置情報加算部１３３への入力が原言語文集合の場合は、位置情報加算部１３５への入力は目的言語文集合である。

　また、SPE手法の精度を上げる手法として、SPEを使った構造的位置の表現手法が存在する（非特許文献２）。ここで、図１４を用いて、SPEを使った構造的位置の表現手法について説明する。図１４は、第２の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。ここでは、英語から日本語に翻訳する場合が示されている。図１４に示すように、解析部２３２は、位置情報加算部２３３ａ、深さ情報加算部２３３ｂ、文符号化部２３４、位置情報加算部２３５、及び文復号化部２３６を有している。位置情報加算部２３３ａは、原言語文におけるトークン列（英語）を入力し、図１５に示すように、原言語文における各トークン（ベクトル）の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された原言語文のトークン列を生成する。この場合、位置情報加算部２３３ａは、文の先頭から順に、１，２，３，・・・をpos_absに代入していく。

　次に、深さ情報加算部２３３ｂは、図１５に示すように、各トークン（ベクトル）を依存木の深さ(pos_strc)の位置エンコーディングで表現することで、結果的に位置情報及び深さ情報が加算された原言語文のトークン列を生成する。なお、位置情報加算部２３３ａ及び深さ情報加算部２３３ｂは、Positional Encodingの役割を果たす。また、位置情報加算部２３３ａ及び深さ情報加算部２３３ｂは、非線形関数(f)を使って通常の絶対位置と組み合わせてもよい。そして、位置情報及び深さ情報は、（式３）及び（式４）に表すように、sinとcosを使って表現されている。

　次に、文符号化部２３４は、深さ情報加算部２３３ｂの出力データに基づいて、エンコード特徴ベクトルを生成する。一方、位置情報加算部２３５は、位置情報加算部１３５と同様に、正解データとして、目的言語文におけるトークン列（日本語）を入力し、目的言語文における各トークン（ベクトル）の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された目的言語文のトークン列を生成する。文復号化部２３６は、文符号化部２３４によるエンコード特徴ベクトル、及び位置情報加算部２３５による位置情報が加算された目的言語文のトークン列に基づいて、翻訳トークン列を生成する。なお、位置情報加算部２３３ａへの入力が原言語文集合の場合は、位置情報加算部２３５への入力は目的言語文集合である。

[1706.03762] Attention Is All You Need (arxiv.org) [2004.10643] Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection (arxiv.org)

　しかしながら、第２の従来技術では、別の単語が仮想円周上で同じ位置に存在するように示されてしまうことがある。例えば、図１５において、トークン「The」に加算される位置情報「１」と深さ情報「２」は合計で「３」となり、トークン「boy」に加算される位置情報「２」と深さ情報「１」は合計で「３」となるため、「The」と「boy」が仮想円周上で同じ位置に存在してしまう。これはノイズとなり、翻訳精度が下がる原因となるという課題が生じる。

　本発明は、上述の点に鑑みてなされたものであって、第２の従来技術に比べて、機械翻訳の精度を上げることを目的とする。

　上記課題を解決するため、請求項１に係る発明は、学習フェーズにおいて機械学習モデルを学習させる機械翻訳装置であって、原言語文及び正解データとしての目的言語文の各トークン列を入力する入力部と、前記原言語文における第１のトークンの位置情報及び構造木で示した前記第１のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第１のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第１のトークンに加算することで、前記第１のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第１のトークン列を生成する位置深さ情報加算部と、前記位置深さ情報加算部によって生成された前記原言語文の前記第１のトークン列に基づいて、エンコード特徴ベクトルを生成する文符号化部と、前記目的言語文における第２のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第２のトークンの位置情報に係る二次元座標の値を前記第２のトークンに加算することで、前記第２のトークンの位置情報が加算された目的言語文の第２のトークン列を生成する位置情報加算部と、前記文符号化部によって生成された前記エンコード特徴ベクトルと、前記位置情報加算部によって生成された前記目的言語文の前記第２のトークン列とに基づいて、翻訳トークン列を生成する文復号化部と、前記文復号化部によって生成された翻訳トークン列、及び前記入力部によって入力された前記正解データに基づいて、前記機械学習モデルのパラメータを更新するパラメータ学習部と、を有する機械翻訳装置である。

　以上説明したように本発明によれば、第２の従来技術に比べて、機械翻訳の精度を上げることができるという効果を奏する。

本実施形態に係る通信システムの全体構成図である。本実施形態に係る機械翻訳装置の電気的なハードウェア構成図である。本実施形態に係る通信端末の電気的なハードウェア構成図である。本実施形態に係り、学習フェーズにおける機械翻訳装置の機能構成図である。位置深さ情報加算部の処理の概念図である。位置深さ情報加算部の処理を概念図であり、Positional Encodingを円周上の点（白丸）とみなし、仮想球面上における三次元座標に基づいてPositional Encodingの式を拡張した点（黒丸）を示した図である。本実施形態に係り、翻訳フェーズにおける機械翻訳装置の機能構成図である。本実施形態に係り、学習フェーズにおける機械翻訳装置の処理又は動作を示すフローチャートである。本実施形態に係り、翻訳フェーズにおける機械翻訳装置の処理又は動作を示すフローチャートである。英語から日本語への翻訳、中国語から日本語への翻訳、及び中国語から英語への翻訳（各テストセット）において、各手法の実験結果を示す表である。英語から日本語に翻訳する場合において、各手法の所定の英語文のトークン数毎の実験結果を示す表である。第１の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。位置情報加算部の処理の概念図である。第２の従来技術に係り、学習フェーズにおける機械翻訳装置の一部の機能構成図である。位置情報加算部及び深さ情報加算部の処理の概念図である。

　以下、図面に基づいて本発明の実施形態を説明する。

　あ図１乃至図１１を用いて、本発明の実施形態について説明する。なお、機械翻訳装置３０は、従来技術に対して、特定の改善を提供するものであり、ニューラルネットワークを用いた機械翻訳に係る技術分野の向上を示すものである。

　〔実施形態のシステム構成〕
　まず、図１を用いて、本実施形態の通信システムの全体構成について説明する。図１は、本実施形態に係る通信システムの全体構成図である。

　図１に示されているように、本実施形態の通信システム１０は、機械翻訳装置３０、及び通信端末５０によって構築されている。通信端末５０は、ユーザによって管理及び使用される。ユーザは、機械翻訳装置の出力結果を参照して、その後の対応を判断する者である。

　また、機械翻訳装置３０と通信端末５０は、インターネット等の通信ネットワーク１００を介して通信することができる。通信ネットワーク１００の接続形態は、無線又は有線のいずれでも良い。

　機械翻訳装置３０は、単数又は複数のコンピュータによって構成されている。機械翻訳装置３０が複数のコンピュータによって構成されている場合には、「機械翻訳装置」と示しても良いし、「機械翻訳システム」と示しても良い。機械翻訳装置３０は、ニューラルネットワークを用いて、例えば、英語から日本語へ機械翻訳するための機械学習及び翻訳を行う。

　通信端末５０は、コンピュータであり、図１では、一例としてノート型パソコンが示されている。図１では、ユーザが、通信端末５０を操作する。なお、通信端末５０を用いずに、機械翻訳装置３０単独で処理をしてもよい。

　〔ハードウェア構成〕
　＜機械翻訳装置のハードウェア構成＞
　次に、図２を用いて、機械翻訳装置３０の電気的なハードウェア構成を説明する。図２は、機械翻訳装置の電気的なハードウェア構成図である。

　機械翻訳装置３０は、コンピュータとして、図２に示されているように、プロセッサとしてのＣＰＵ(Central Processing Unit)３０１、ＲＯＭ(Read Only Memory)３０２、ＲＡＭ(Random Access Memory)３０３、ＳＳＤ(Solid State Drive)３０４、外部機器接続Ｉ／Ｆ(Interface)３０５、ネットワークＩ／Ｆ３０６、メディアＩ／Ｆ３０９、及びバスライン３１０を備えている。

　これらのうち、ＣＰＵ３０１は、機械翻訳装置３０全体の動作を制御する。ＲＯＭ３０２は、ＩＰＬ(Initial Program Loader)等のＣＰＵ３０１の駆動に用いられるプログラムを記憶する。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。

　ＳＳＤ３０４は、ＣＰＵ３０１の制御に従って各種データの読み出し又は書き込みを行う。なお、ＳＳＤ３０４の代わりに、ＨＤＤ(Hard Disk Drive)を用いても良い。

　外部機器接続Ｉ／Ｆ３０５は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、ＵＳＢ(Universal Serial Bus)メモリ、及びプリンタ等である。

　ネットワークＩ／Ｆ３０６は、通信ネットワーク１００を介してデータ通信をするためのインターフェースである。

　メディアＩ／Ｆ３０９は、フラッシュメモリ等の記録メディア３０９ｍに対するデータの読み出し又は書き込み（記憶）を制御する。記録メディア３０９ｍには、ＤＶＤ(Digital Versatile Disc)やＢｌｕ-ｒａｙＤｉｓｃ（登録商標）等も含まれる。

　バスライン３１０は、図２に示されているＣＰＵ３０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

　＜通信端末のハードウェア構成＞
　次に、図３を用いて、通信端末５０の電気的なハードウェア構成を説明する。図３は、通信端末の電気的なハードウェア構成図である。

　通信端末５０は、コンピュータとして、図３に示されているように、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、ＳＳＤ５０４、外部機器接続Ｉ／Ｆ(Interface)５０５、ネットワークＩ／Ｆ５０６、ディスプレイ５０７、入力デバイス５０８、メディアＩ／Ｆ５０９、及びバスライン５１０を備えている。

　これらのうち、ＣＰＵ５０１は、通信端末５０全体の動作を制御する。ＲＯＭ５０２は、ＩＰＬ等のＣＰＵ５０１の駆動に用いられるプログラムを記憶する。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。

　ＳＳＤ５０４は、ＣＰＵ５０１の制御に従って各種データの読み出し又は書き込みを行う。なお、ＳＳＤ５０４の代わりに、ＨＤＤ(Hard Disk Drive)を用いてもよい。

　外部機器接続Ｉ／Ｆ５０５は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、ＵＳＢメモリ、及びプリンタ等である。

　ネットワークＩ／Ｆ５０６は、通信ネットワーク１００を介してデータ通信をするためのインターフェースである。

　ディスプレイ５０７は、各種画像を表示する液晶や有機ＥＬ(Electro Luminescence)などの表示手段の一種である。

　入力デバイス５０８は、キーボード、ポインティングデバイス等であり、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。なお、ユーザがキーボードを使う場合は、ポインティングデバイスの機能をＯＦＦにしてもよい。

　メディアＩ／Ｆ５０９は、フラッシュメモリ等の記録メディア５０９ｍに対するデータの読み出し又は書き込み（記憶）を制御する。記録メディア５０９ｍには、ＤＶＤやＢｌｕ-ｒａｙＤｉｓｃ（登録商標）等も含まれる。

　バスライン５１０は、図３に示されているＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。

　〔機械翻訳装置の機能構成〕
　本実施形態に係る機械翻訳装置３０の学習フェーズ及び翻訳（推論）フェーズにおける機能構成について説明する。なお、図４に学習フェーズの機能構成、図７に翻訳フェーズの機能構成を示すが、機械翻訳装置３０は、図４と図７の各部をまとめて有していてもよい。

　＜学習フェーズの機能構成＞
　まず、図４を用いて、学習フェーズにおける機械翻訳装置３０の各機能について説明する。図４は、第１の実施形態に係り、学習フェーズにおける機械翻訳装置の機能構成図である。なお、機械翻訳装置３０は、機械翻訳装置３０の一例である。

　図４に示すように、機械翻訳装置３０は、入力部３１、解析部３２、パラメータ学習部３８を有する。これら各部は、プログラムに基づき図２のＣＰＵ３０１による命令によって実現される機能である。また、ＲＡＭ３０３又はＳＳＤ３０４には、機械学習モデル４１ａが構築されている。また、解析部３２は、位置深さ情報加算部３３、文符号化部３４、位置情報加算部３５、及び文復号化部３６を有する。文符号化部３４と文復号化部３６の処理は、ニューラルネットワークのモデルパラメータに基づいたものである。

　入力部３１は、通信端末７を介して、機械翻訳装置３０に、学習データを入力する。または、入力部３１は、機械翻訳装置３０に、直接、学習データを入力する。学習データは、原言語文（又は原言語文集合）のトークン列、及び正解データとしての目的言語文（又は目的言語文集合）のトークン列である。

　位置深さ情報加算部３３は、Positional Encodingを拡張した機能を有し、原言語文における所定のトークンの位置情報及び構造木で示した所定のトークンの深さ情報を仮想球面上で示し、この仮想球面上における位置情報及び深さ情報に係る三次元座標の値を所定のトークンに加算することで、位置情報及び深さ情報が加算された原言語文のトークン列を生成する。ここで、図５を用いて、位置深さ情報加算部３３について説明する。図５は、位置深さ情報加算部の処理の概念図である。なお、図５は、第１の従来技術を示す図１３、及び第２の従来技術を示す図１５に対応した図である。ここでは、英語から日本語に翻訳する場合が示されている。

　図４に示すように、位置深さ情報加算部３３は、入力部３１から、原言語文におけるトークン列（英語）を取得し、図５に示すように、原言語文における各トークン（ベクトル）の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を各トークンに加算することで、位置情報が加算された原言語文のトークン列を生成する。この場合のトークンは、例えば、５１２次元のベクトルで表されている。
この場合、位置深さ情報加算部３３は、文の先頭から順に、１，２，３，・・・をpos_absに代入していくと共に、各トークンを依存木の深さ(pos_strc)の位置エンコーディングで表現することで、結果的に位置情報と深さ情報との積等により示された原言語文のトークン列を生成する。図５では、pos_absとpos_strcが融合し、図１３のpos_abs又はpos_strcと同じベクトル（次元）の大きさとなることを示している。なお、pos_absとpos_strcが融合は、後述の図６において、球面座標系でトークンの位置を示すことを意味する。

　また、位置深さ情報加算部３３の処理は、図６によっても示すことができる。図６は、位置深さ情報加算部の処理を概念図であり、Positional Encodingを円周上の点（白丸）とみなし、仮想球面上における三次元座標（球面座標系）に基づいてPositional Encodingの式を拡張した点（黒丸）を示した図である。図６に示すように、通常のPositional Encodingを円周上の点（白丸)とみなし、球面座標系に基づいてPositional Encodingの式を拡張する(黒丸)。

　これは、三次元極座標の式

　を流用して、下記（式５）、（式６）、（式７）で表すことができる。

　なお、（式５）及び（式６）は、（式１）を二分割したものである。（式５）及び（式６）はsinとcosの積で表され、（式７）は（式２）の状態を維持している。図５は、（式５）及び（式６）で示すトークンの偶数次元を示し、（式７）で示すトークンの奇数次元は図５においてpos_strcを削除した状態を示す。また、（式５）は偶数次元のうち、４の倍数次元の場合を示し、(式６)は、偶数次元のうち、４の倍数次元以外の場合を示す。

　文符号化部３４は、複数の変換部層(Transformer)を有しており、位置深さ情報加算部３３の出力データに基づいて、エンコード特徴ベクトルを生成する。エンコード特徴ベクトルは、文符号化部３４に入力された位置深さ情報加算部３３の出力データを、ニューラルネットワークのモデルパラメータに基づいて変換された所定次元のベクトルを示す。

　位置情報加算部３５は、従来の位置情報加算部１３５，２３５と同様の機能を実現し、入力部３１から取得した目的言語文における所定のトークンの位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を所定のトークンに加算することで、位置情報が加算された目的言語文のトークン列を生成する。

　文復号化部３６は、複数の変換部層(Transformer)を有しており、文符号化部３４から取得したエンコード特徴ベクトルと、位置情報加算部３５から取得した目的言語文のトークン（ベクトル）列（位置情報が加算されたもの）に基づいて、翻訳トークンを生成することを繰り返すことで、翻訳トークン列を生成する。

　パラメータ学習部３８は、文復号化部３６から翻訳トークン列を入力すると共に、入力部３１から正解データ（目的言語文又は目的言語文集合のトークン列）を入力して、パラメータ更新情報を出力することで、機械学習モデル４１のパラメータを更新する。

　以上により、学習フェーズの機能構成の説明は終了する。

　＜翻訳フェーズの機能構成＞
　続いて、翻訳フェーズにおける機械翻訳装置３０の各機能について説明する。図７は、推論フェーズにおける機械翻訳装置の機能構成図である。

　図７に示すように、機械翻訳装置３０は、入力部３１、解析部３２、及び出力部３９を有する。これら各部は、プログラムに基づき図２のＣＰＵ３０１による命令によって実現される機能である。また、ＲＡＭ３０３又はＳＳＤ３０４には、学習済み機械学習モデル４２が記憶されている。学習済み機械学習モデル４２は、機械学習モデル４１が機械学習された後のモデルである。学習フェーズにおける機能構成と同様の機能構成については、同一の符号を付して説明を省略する。

　なお、位置情報加算部３５は、入力部３１から学習データを取得せず、解析部３２から翻訳開始トークンを取得することで、処理を開始する。また、文復号化部３６は、学習済み機械学習モデル４２を用いてトークン毎に翻訳することで、位置情報加算部３５に対して翻訳トークンを繰り返し送る。また、文復号化部３６は、出力部３９に対して、最終的に、翻訳トークン列及び翻訳終了トークンを送る。

　出力部３９は、文復号化部３６から翻訳トークン列及び翻訳終了トークンを取得し、翻訳文を出力する。なお、入力部３１が原言語文集合のトークン列を入力した場合には、出力部３９は、翻訳文集合を出力する。

　〔機械翻訳装置の処理又は動作〕
　続いて、図８及び図９を用いて、機械翻訳装置３０の学習フェーズ及び推論フェーズにおける処理又は動作について説明する。

　＜学習フェーズにおける処理又は動作＞
　図８は、本実施形態に係り、学習フェーズにおける機械翻訳装置の処理又は動作を示すフローチャートである。

　Ｓ１１：入力部３１は、学習データ(原言語文(文集合)、目的言語文(文集合)の各トークン列)を入力する。

　Ｓ１２：位置深さ情報加算部３３は、原言語文における所定のトークン（第１のトークン）の位置情報及び構造木で示した所定のトークン（第１のトークン）の深さ情報を仮想球面上で示し、この仮想球面上における位置情報及び深さ情報に係る三次元座標の値を所定のトークン（第１のトークン）に加算することで、位置情報及び深さ情報が加算された原言語文のトークン列（第１のトークン列）を生成する。

　Ｓ１３：位置深さ情報加算部３３によって生成された原言語文のトークン列に基づいて、エンコード特徴ベクトルを生成する。

　Ｓ１４：位置情報加算部３５は、目的言語文における所定のトークン（第２のトークン）の位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を所定のトークン（第２のトークン）に加算することで、位置情報が加算された目的言語文のトークン列（第２のトークン列）を生成する。

　Ｓ１５：文復号化部３６は、翻訳トークン列を生成する。

　Ｓ１６：パラメータ学習部３８は、損失を計算してパラメータを更新する。

　Ｓ１７：パラメータ学習部３８は未処理データがあるかを判断する。そして、未処理データがある場合には（Ｓ１７；ＹＥＳ）、処理Ｓ１１に戻る。一方、未処理データがない場合には（Ｓ１７；ＮＯ）、学習フェーズの処理は終了する。

　以上により、学習フェーズの処理又は動作の説明は終了する。

　＜推論フェーズにおける処理又は動作＞
　図９は、推論フェーズにおいて機械翻訳装置が実行する回答生成方法を示すフローチャートである。

　Ｓ２１：入力部３１は、通信端末７から又は直接的に、入力データ(原言語文(文集合)のトークン列)を入力する。

　Ｓ２２：位置深さ情報加算部３３は、原言語文における所定のトークンの位置情報及び構造木で示した所定のトークンの深さ情報を仮想球面上で示し、この仮想球面上における位置情報及び深さ情報に係る三次元座標の値を所定のトークンに加算することで、位置情報及び深さ情報が加算された原言語文のトークン列を生成する。

　Ｓ２３：文符号化部３４は、位置深さ情報加算部３３によって生成された原言語文のトークン列に基づいて、エンコード特徴ベクトルを生成する。

　Ｓ２４：位置情報加算部３５は、目的言語文における翻訳トークンの位置情報を仮想円周上で示し、この仮想円周上における位置情報に係る二次元座標の値を翻訳トークンに加算する。また、文復号化部３６は、学習済み機械学習モデル４２を用いて、文符号化部３４よって生成されたエンコード特徴ベクトル、及び位置情報加算部３５によって位置情報が加算された翻訳トークンに基づいて、目的言語である所定の翻訳トークン(次に続く翻訳トークン)を生成する。この所定の翻訳トークンは，位置情報加算部３５によって位置情報が加算された翻訳トークンの次に続くと文復号化部３６が予測した結果である．
これにより、文復号化部３６は、目的言語文の翻訳トークン列を生成する。

　Ｓ２５：文復号化部３６は、生成した目的言語文の翻訳トークン列を、翻訳終了トークンと共に出力部３９に出力する。

　Ｓ２６：出力部３９は、文復号化部によって生成された最終的な翻訳トークン列に基づく翻訳文(翻訳文集合)を出力する。

　以上により、翻訳フェーズの処理又は動作の説明が終了する。

　〔実験結果〕
　続いて、図１０及び図１１を用いて、本実施形態の実験結果について説明する。図１０は、英語から日本語への翻訳、中国語から日本語への翻訳、及び中国語から英語への翻訳（各テストセット）において、各手法の実験結果を示す表である。各手法は、上から、第１の従来技術による手法(PE)、第２の従来技術による手法(Wang et al.(2019))、及び本実施形態による手法(HPE(ours))を示す。なお、HPEは、Hyperspherical Positiona Encodingの略称であり、本発明者からが名付けた名称である。中国語から英語への翻訳の実験は、複数のテストセット(NIST)が含まれている。ここでは、例えば、NIST03で特定されるドキュメント（ニュース記事等）等の実験結果が示されている。このように、本実施形態による手法の実験結果が最も良いことが分かる。

　また、図１１は、英語から日本語に翻訳する場合において、各手法の所定の英語文のトークン数毎の実験結果を示す表である。図１１に示すように、ほとんどのトークン数において、本実施形態による手法の実験結果が最も良いことが分かる。

　〔実施形態の効果〕
　以上説明したように本実施形態によれば、（式５）、（式６）、及び（式７）に示すように、元のトークンの絶対位置と構造的位置をまとめて同じ式で表現し、通常のPEを二次元極座標ととらえ、仮想の三次元球体座標へと拡張することで、別の単語が同じ位置に存在しないため、機械翻訳の精度を上げることができるという効果を奏する。

　●補足
　本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理（動作）であってもよい。

　（１）機械翻訳装置３０はコンピュータとプログラムによっても実現できるが、このプログラムを（非一時的な）記録媒体に記録することも、通信ネットワーク１００を介して提供することも可能である。

　（２）上記実施形態では、通信端末５０の一例としてノート型パソコンが示されているが、これに限るものではなく、例えば、デスクトップパソコン、タブレット端末、スマートフォン、スマートウォッチ、カーナビゲーション装置、冷蔵庫、電子レンジ等であってもよい。

　（３）各ＣＰＵ３０１，５０１は、単一だけでなく、複数であってもよい。

１０　通信システム
３０　機械翻訳装置
３１　入力部
３２　解析部
３３　位置深さ情報加算部
３４　文符号化部
３５　位置情報加算部
３６　文復号化部
３８　パラメータ学習部
３９　出力部
４１　機械学習モデル
４２　学習済み機械学習モデル

Claims

　学習フェーズにおいて機械学習モデルを学習させる機械翻訳装置であって、
　原言語文及び正解データとしての目的言語文の各トークン列を入力する入力部と、
　前記原言語文における第１のトークンの位置情報及び構造木で示した前記第１のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第１のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第１のトークンに加算することで、前記第１のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第１のトークン列を生成する位置深さ情報加算部と、
　前記位置深さ情報加算部によって生成された前記原言語文の前記第１のトークン列に基づいて、エンコード特徴ベクトルを生成する文符号化部と、
　前記目的言語文における第２のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第２のトークンの位置情報に係る二次元座標の値を前記第２のトークンに加算することで、前記第２のトークンの位置情報が加算された前記目的言語文の第２のトークン列を生成する位置情報加算部と、
　前記文符号化部によって生成された前記エンコード特徴ベクトルと、前記位置情報加算部によって生成された前記目的言語文の前記第２のトークン列とに基づいて、翻訳トークン列を生成する文復号化部と、
　前記文復号化部によって生成された翻訳トークン列、及び前記入力部によって入力された前記正解データに基づいて、前記機械学習モデルのパラメータを更新するパラメータ学習部と、
　を有する機械翻訳装置。
　学習フェーズにおいて機械翻訳装置が機械学習モデルを学習させる機械学習方法であって、
　前記機械翻訳装置は、
　原言語文及び正解データとしての目的言語文の各トークン列を入力する入力処理と、
　前記原言語文における第１のトークンの位置情報及び構造木で示した前記第１のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記第１のトークンの位置情報及び前記深さ情報に係る三次元座標の値を前記第１のトークンに加算することで、前記第１のトークンの位置情報及び前記深さ情報が加算された前記原言語文の第１のトークン列を生成する位置深さ情報加算処理と、
　前記位置深さ情報加算処理によって生成された前記原言語文の前記第１のトークン列に基づいて、エンコード特徴ベクトルを生成する文符号化処理と、
　前記目的言語文における第２のトークンの位置情報を仮想円周上で示し、当該仮想円周上における前記第２のトークンの位置情報に係る二次元座標の値を前記第２のトークンに加算することで、位置情報が加算された前記目的言語文の第２のトークン列を生成する位置情報加算処理と、
　前記文符号化処理によって生成された前記エンコード特徴ベクトルと、前記位置情報加算処理によって生成された前記目的言語文の前記第２のトークン列とに基づいて、翻訳トークン列を生成する文復号化処理と、
　前記文復号化処理によって生成された翻訳トークン列、及び前記入力処理によって入力された前記正解データに基づいて、前記機械学習モデルのパラメータを更新するパラメータ学習部と、
　を実行する機械学習方法。
　コンピュータに、請求項２に記載の方法を実行させるプログラム。
　翻訳フェーズにおいて学習済み機械学習モデルを用いて機械翻訳する機械翻訳装置であって、
　原言語文のトークン列を入力する入力部と、
　前記原言語文における所定のトークンの位置情報及び構造木で示した前記所定のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記位置情報及び前記深さ情報に係る三次元座標の値を前記所定のトークンに加算することで、前記位置情報及び前記深さ情報が加算された前記原言語文のトークン列を生成する位置深さ情報加算部と、
　前記位置深さ情報加算部によって生成された前記原言語文の前記トークン列に基づいて、エンコード特徴ベクトルを生成する文符号化部と、
　翻訳トークンの位置情報を仮想円周上で示し、当該仮想円周上における前記翻訳トークンの位置情報に係る二次元座標の値を前記翻訳トークンに加算することで、前記翻訳トークンの位置情報が加算された目的言語文のトークンを生成する位置情報加算部と、
　前記学習済み機械学習モデルを用いて、前記文符号化部によって生成された前記エンコード特徴ベクトル、及び前記位置情報加算部によって前記翻訳トークンの位置情報が加算された前記翻訳トークンに基づいて、所定の翻訳トークンを生成する文復号化部と、
　前記文復号化部によって生成された最終的な翻訳トークン列に基づいて翻訳文を出力する出力部と、
　を有する機械翻訳装置。
　翻訳フェーズにおいて機械翻訳装置が学習済み機械学習モデルを用いて機械翻訳する機械翻訳方法であって、
　前記機械翻訳装置は、
　原言語文のトークン列を入力する入力処理と、
　前記原言語文における所定のトークンの位置情報及び構造木で示した前記所定のトークンの深さ情報を仮想球面上で示し、当該仮想球面上における前記位置情報及び前記深さ情報に係る三次元座標の値を前記所定のトークンに加算することで、前記位置情報及び前記深さ情報が加算された前記原言語文のトークン列を生成する位置深さ情報加算処理と、
　前記位置深さ情報加算処理によって生成された前記原言語文の前記トークン列に基づいて、エンコード特徴ベクトルを生成する文符号化処理と、
　翻訳トークンの位置情報を仮想円周上で示し、当該仮想円周上における前記翻訳トークンの位置情報に係る二次元座標の値を前記翻訳トークンに加算することで、前記翻訳トークンの位置情報が加算された目的言語文のトークンを生成する位置情報加算処理と、、
　前記学習済み機械学習モデルを用いて、前記文符号化処理によって生成された前記エンコード特徴ベクトル、及び前記位置情報加算処理によって前記翻訳トークンの位置情報が加算された前記翻訳トークンに基づいて、所定の翻訳トークンを生成する文復号化処理と、
　前記文復号化処理によって生成された最終的な翻訳トークン列に基づいて翻訳文を出力する出力処理と、
　を実行する機械翻訳方法。
　コンピュータに、請求項５に記載の方法を実行させるプログラム。