WO2021010203A1

WO2021010203A1 - 推論器、推論方法および推論プログラム

Info

Publication number: WO2021010203A1
Application number: PCT/JP2020/026397
Authority: WO
Inventors: ケハイチェン; ルイワン; 将夫内山; 隅田　英一郎
Original assignee: 国立研究開発法人情報通信研究機構
Priority date: 2019-07-18
Filing date: 2020-07-06
Publication date: 2021-01-21
Also published as: JP7418780B2; JP2021018545A; US20220237380A1

Abstract

入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上させる。推論器は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現に基づいて、中間センテンス表現を生成する第１の生成部と、第１のセンテンス表現および中間センテンス表現に基づいて、第１の位置情報を修正することで第２の位置情報を生成するとともに、第２の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成する第２の生成部と、中間センテンス表現および隠れ状態表現に基づいて、第２のセンテンス表現を生成する第３の生成部とを含む。

Description

推論器、推論方法および推論プログラム

　本技術は、１または複数のトークンを含む入力シーケンスに対応する出力シーケンスを出力する推論器、推論方法および推論プログラムに関する。

　自然言語処理の技術分野においては、Ａｔｔｅｎｔｉｏｎベースの様々なモデルが提案されている。このようなＡｔｔｅｎｔｉｏｎベースのモデルの一例として、機械翻訳などに適用可能なＴｒａｎｓｆｏｒｍｅｒと呼ばれるモデルが注目されている（非特許文献１）。

　Ｔｒａｎｓｆｏｒｍｅｒは、ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワーク（ＳＡＮ）を用いることで高い性能を有している。Ｔｒａｎｓｆｏｒｍｅｒは、センテンス内の単語間の語順依存性を明示的にエンコードする位置エンコーディング（positional　encoding）メカニズム（非特許文献２など参照）を用いて、順序付けされた位置埋め込み（positional　embedding）シーケンスを生成する。Ｔｒａｎｓｆｏｒｍｅｒにおいては、翻訳を予測するためのセンテンス表現を学習するために、ＳＡＮが並列処理（multi-head）に学習されるとともに、ＳＡＮは多層的（multi-layer）に構成されている。

A.　Vaswani,　N.　Shazeer,　N.　Parmar,　J.　Uszkoreit,　L.　Jones,　A.　Gomez,　L.　Kaiser,　and　I.　Polosukhin,　"Attention　is　all　you　need,"　in　CoRR　abs/1706.03762,　2017. Jonas　Gehring,　Michael　Auli,　David　Grangier,　and　Yann　Dauphin,　"A　convolutional　encoder　model　for　neural　machine　translation,"　In　Proceedings　of　the　55th　Annual　Meeting　of　the　Association　for　Computational　Linguistics　(Volume　1:　Long　Papers),　pages　123-135,　Vancouver,　Canada.　Association　for　Computational　Linguistics,　2017. Michel　Galley　and　Christopher　D.　Manning,　"A　simple　and　effective　hierarchical　phrase　reordering　model,"　In　Proceedings　of　the　2008　Conference　on　Empirical　Methods　in　Natural　Language　Processing,　pages　848-856,　Honolulu,　Hawaii.　Association　for　Computational　Linguistics,　2008. Isao　Goto,　Masao　Utiyama,　and　Eiichiro　Sumita,　"Post-ordering　by　parsing　with　itg　for　Japanese-English　Statistical　Machine　Translation,"　ACM　Transactions　on　Asian　Language　Information　Processing,　12(4):17:1-17:22,　2013. Ilya　Sutskever,　Oriol　Vinyals,　and　Quoc　V　Le,　"Sequence　to　sequence　learning　with　neural　networks,"　In　Advances　in　neural　information　processing　systems,　pages　3104-3112.　Curran　Associates,　Inc,　2014. Dzmitry　Bahdanau,　Kyunghyun　Cho,　and　Yoshua　Bengio,　"Neural　machine　translation　by　jointly　learning　to　align　and　translate,"　In　Proceedings　of　the　3rd　International　Conference　on　Learning　Representations,　San　Diego,　CA,　2015. Jinchao　Zhang,　Mingxuan　Wang,　Qun　Liu,　and　Jie　Zhou,　"Incorporating　word　reordering　knowledge　into　attention-based　neural　machine　translation,"　In　Proceedings　of　the　55th　Annual　Meeting　of　the　Association　for　Computational　Linguistics　(Volume　1:　Long　Papers),　pages　1524-1534,　Vancouver,　Canada.　Association　for　Computational　Linguistics,　2017. Toshiaki　Nakazawa,　Manabu　Yaguchi,　Kiyotaka　Uchimoto,　Masao　Utiyama,　Eiichiro　Sumita,　Sadao　Kurohashi,　and　Hitoshi　Isahara,　"ASPEC:　Asian　scientific　paper　excerpt　corpus,"　In　Proceedings　of　the　Tenth　International　Conference　on　Language　Resources　and　Evaluation　(LREC　2016),　pages　2204-2208,　Portoroz,　Slovenia.　European　Language　Resources　Association　(ELRA),　2016. Yonghui　Wu,　Mike　Schuster,　Zhifeng　Chen,　Quoc　V.　Le,　Mohammad　Norouzi,　Wolfgang　Macherey,　Maxim　Krikun,　Yuan　Cao,　Qin　Gao,　Klaus　Macherey,　Jeff　Klingner,　Apurva　Shah,　Melvin　Johnson,　Xiaobing　Liu,　Lukasz　Kaiser,　Stephan　Gouws,　Yoshikiyo　Kato,　Taku　Kudo,　Hideto　Kazawa,　Keith　Stevens,　George　Kurian,　Nishant　Patil,　Wei　Wang,　Cliff　Young,　Jason　Smith,　Jason　Riesa,　Alex　Rudnick,　Oriol　Vinyals,　Greg　Corrado,　Macduff　Hughes,　and　Jeffrey　Dean,　"Google’s　neural　machine　translation　system:　Bridging　the　gap　between　human　and　machine　translation,",　CoRR,　abs/1609.08144,　2016. Jonas　Gehring,　Michael　Auli,　David　Grangier,　Denis　Yarats,　and　Yann　N.　Dauphin,　"Convolutional　sequence　to　sequence　learning,"　In　Proceedings　of　the　34th　International　Conference　on　Machine　Learning,　volume　70　of　Proceedings　of　Machine　Learning　Research,　pages　1243-1252,　International　Convention　Centre,　Sydney,　Australia.　PMLR,　2017. Peter　Shaw,　Jakob　Uszkoreit,　and　Ashish　Vaswani,　"Self-attention　with　relative　position　representations,"　In　Proceedings　of　the　2018　Conference　of　the　North　American　Chapter　of　the　Association　for　Computational　Linguistics:　Human　Language　Technologies,　Volume　2　(Short　Papers),　pages　464-468,　New　Orleans,　Louisiana.　Association　for　Computational　Linguistics,　2018. Fandong　Meng　and　Jinchao　Zhang,　"DTMT:　A　novel　deep　transition　architecture　for　neural　machine　translation,"　CoRR,　abs/1812.07807,　2018. Xiang　Kong,　Zhaopeng　Tu,　Shuming　Shi,　Eduard　H.　Hovy,　and　Tong　Zhang,　"Neural　machine　translation　with　adequacy-oriented　learning,"　CoRR,　abs/1811.08541,　2018. Yang　Zhao,　Jiajun　Zhang,　Zhongjun　He,　Chengqing　Zong,　and　HuaWu,　"Addressing　troublesome　words　in　neural　machine　translation,"　In　Proceedings　of　the　2018　Conference　on　Empirical　Methods　in　Natural　Language　Processing,　pages　391-400,　Brussels,　Belgium.　Association　for　Computational　Linguistics,　2018.

　Ｔｒａｎｓｆｏｒｍｅｒにおいて、位置埋め込みは、単語（word）間の順序関係を順次エンコーディングすることに着目するのみである。しかしながら、人間による現実の発話を考慮すると、文脈や状況に応じて発話される単語の順序は変化し得る。このような発話される単語の順序の変化についてなんら考慮されていない。

　本技術は、入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上させることを目的とする。

　ある実施の形態によれば、入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器が提供される。推論器は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現に基づいて、中間センテンス表現を生成する第１の生成部と、第１のセンテンス表現および中間センテンス表現に基づいて、第１の位置情報を修正することで第２の位置情報を生成するとともに、第２の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成する第２の生成部と、中間センテンス表現および隠れ状態表現に基づいて、第２のセンテンス表現を生成する第３の生成部とを含む。

　第２の生成部は、第１のセンテンス表現と中間センテンス表現との線形結合を入力とする活性化関数に従って係数ベクトルを生成し、生成した係数ベクトルを第１の位置情報に乗じることで第２の位置情報を生成するようにしてもよい。

　推論器は、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報を出力する位置情報出力部をさらに含んでいてもよい。

　第１の生成部は、第１のセンテンス表現を学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークに入力して中間センテンス表現を生成するようにしてもよい。

　推論器は、入力シーケンスから中間シーケンスを出力するエンコーダと、エンコーダから出力される中間表現のシーケンスおよび出力された出力シーケンスに基づいて出力シーケンスを出力するデコーダとを含んでいてもよい。エンコーダおよびデコーダの少なくとも一方は、第１の生成部、第２の生成部および第３の生成部を含む学習済ブロックを含んでいてもよい。

　複数の学習済ブロックがスタックされていてもよい。
　別の実施の形態によれば、学習済ニューラルネットワークを用いて入力シーケンスに対応する出力シーケンスを出力する推論方法が提供される。推論方法は、入力シーケンスに含まれる各トークンの値を示す情報と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現に基づいて、中間センテンス表現を生成するステップと、第１のセンテンス表現および中間センテンス表現に基づいて、第１の位置情報を修正することで第２の位置情報を生成するとともに、第２の位置情報および中間センテンス表現に基づいて、隠れ状態表現を生成するステップと、中間センテンス表現および隠れ状態表現に基づいて、第２のセンテンス表現を生成するステップとを含む。

　さらに別の実施の形態によれば、コンピュータに上記の推論方法を実行させるための推論プログラムが提供される。

　本技術によれば、入力シーケンスに含まれる各トークンが当該入力シーケンス内のいずれの位置に存在しているのかを示す位置情報を用いる学習済ニューラルネットワークの性能を向上できる。

本技術の関連技術に従うＴｒａｎｓｆｏｒｍｅｒの一例を示す模式図である。本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒを示す模式図である。本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒにおける処理概要を説明するための模式図である。本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒを含む推論器を実現するハードウェア構成の一例を示す模式図である。英語－ドイツ間における並び替え情報の影響を示すグラフである。中国語－英語間における並び替え情報の影響を示すグラフである。日本語－英語間における並び替え情報の影響を示すグラフである。

　本技術の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

　［Ａ．関連技術］
　本技術の関連技術として、一般的なＴｒａｎｓｆｏｒｍｅｒについて説明する。

　図１は、本技術の関連技術に従うＴｒａｎｓｆｏｒｍｅｒ１００の一例を示す模式図である。図１を参照して、Ｔｒａｎｓｆｏｒｍｅｒ１００は、学習済モデルであり、ニュートラルネットワークの一形態に相当する。

　Ｔｒａｎｓｆｏｒｍｅｒ１００は、スタックされたＮ層分のエンコーダブロック２０とＭ層分のデコーダブロック４０とを含む。エンコーダブロック２０およびデコーダブロック４０は、学習済ブロックに相当する。スタックされたＮ層分のエンコーダブロック２０をまとめてエンコーダ２００とも称す。スタックされたＭ層分のデコーダブロック４０をまとめてデコーダ４００とも称す。

　エンコーダ２００は、入力シーケンスから中間シーケンスを出力する。デコーダ４０は、エンコーダ２０から出力される中間表現のシーケンスおよび先に出力された出力シーケンスに基づいて出力シーケンスを出力する。

　エンコーダ２００（すなわち、Ｎ層分のエンコーダブロック２０のうち先頭層）には、入力埋め込み（Input　Embedding）層４、位置埋め込み層（Positional　Embedding）層６および加算器８により生成される入力トークン列が入力される。エンコーダ２００（すなわち、Ｎ層分のエンコーダブロック２０のうち最終層）は、算出結果として、中間センテンス表現を出力する。

　入力埋め込み層４は、センテンスなどの入力シーケンス（Inputs）２を、所定単位（例えば、単語（word）など）の単位で１または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。例えば、入力シーケンス２は、翻訳元の言語のセンテンス（ソースセンテンス）に相当する。その結果、入力埋め込み層４は、単語埋め込み（word　embedding）として、所定次元のベクトルをトークンの数だけ含むシーケンスを出力する。

　位置埋め込み層６は、各トークンが入力シーケンス２内のいずれの位置に存在しているのかを示す値である位置埋め込み（positional　embedding）を出力する。

　加算器８は、入力埋め込み層４からのシーケンスに、位置埋め込み層６からの位置埋め込みを付加する。その結果、加算器８は、センテンス内に含まれる各トークンの値（例えば、単語）を示すベクトルに、各トークンがセンテンス内のいずれの位置に存在するのかを示す値（入力シーケンス２内の相対的または絶対的な位置）を付加した入力トークン列（ベクトル）を出力する。

　エンコーダブロック２０の各々は、ＭＨＡ（Multi-head　Attention）層２２と、フィードフォワード（Feed　Forward）層２６と、加算・正則化（Add　&　Norm）層２４，２８とを含む。

　ＭＨＡ層２２は、入力トークン列（ベクトル）についてＡｔｔｅｎｔｉｏｎを算出する。Ａｔｔｅｎｔｉｏｎは、クエリに対してメモリから必要な情報を抽出する処理を意味する。ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎは、クエリおよびメモリ（キーおよびバリュー）が共通のテンソルを使用するＡｔｔｅｎｔｉｏｎを意味する。

　ＭＨＡ層２２は、並列配置された複数のｓｅｌｆ－Ａｔｔｅｎｔｉｏｎを含む。ＭＨＡ層２２は、クエリおよびメモリ（キーおよびバリュー）をｓｅｌｆ－Ａｔｔｅｎｔｉｏｎの数で分割し、各分割しクエリおよびメモリ（キーおよびバリュー）を処理し、その処理結果を結合する。すなわち、ＭＨＡ層２２においては、Ａｔｔｅｎｔｉｏｎを算出する処理が並列化されている。

　加算・正則化層２４は、入力トークン列（ベクトル）にＭＨＡ層２２から出力されるベクトルを加算した上で、任意の手法で正則化（normalize）する。

　フィードフォワード層２６は、入力されたベクトルに対して位置（すなわち、入力される時刻）をシフトする。

　加算・正則化層２８は、加算・正則化層２４から出力されるベクトルに、フィードフォワード層２６から出力されるベクトルを加算した上で、任意の手法で正則化する。

　デコーダ４００（すなわち、Ｍ層分のデコーダブロック４０のうち先頭層）には、出力埋め込み（Output　Embedding）層１４、位置埋め込み層（Positional　Embedding）層１６および加算器１８により生成される出力トークン列が入力される。デコーダ４００（すなわち、Ｍ層分のデコーダブロック４０のうち最終層）は、算出結果として、出力シーケンスを出力する。

　出力埋め込み層１４は、既出力シーケンス（前回の出力シーケンスに対して時刻を一致させるためにシフトされたもの）（Outputs(Shifted　right)）１２を、所定単位の単位で１または複数のトークンに分割するとともに、各分割したトークンの値を示す所定次元のベクトルを生成する。その結果、出力埋め込み層１４は、出力埋め込み（output　embedding）として、所定次元のベクトルをトークンの数だけ含むトークン列を出力する。

　位置埋め込み層１６は、各トークンが既出力シーケンス１２内のいずれの位置に存在しているのかを示す値である位置埋め込み（positional　embedding）を出力する。

　加算器１８は、出力埋め込み層１４からのトークン列に、位置埋め込み層１６からの位置埋め込みを付加する。その結果、加算器１８は、センテンス内に含まれる各トークンの値を示すベクトルに、各トークンがセンテンス内のいずれの位置に存在するのかを示す値（既出力シーケンス１２内の相対的または絶対的な位置）を付加した出力トークン列（ベクトル）を出力する。

　デコーダブロック４０の各々は、ＭＭＨＡ（Masked　Multi-head　Attention）層４２と、ＭＨＡ（Multi-head　Attention）層４６と、フィードフォワード（Feed　Forward）層５０と、加算・正則化（Add　&　Norm）層４４，４８，５２とを含む。すなわち、デコーダブロック４０は、エンコーダブロック２０と類似した構成となっているが、ＭＭＨＡ層４２および加算・正則化層４４を含んでいる点が異なっている。

　ＭＭＨＡ層４２は、先に算出されたベクトルのうち存在し得ないベクトルに対してマスク処理を実行する。

　加算・正則化層４４は、出力トークン列（ベクトル）にＭＭＨＡ層４２から出力されるベクトルを加算した上で、任意の手法で正則化する。

　ＭＨＡ層４６は、エンコーダブロック２０の加算・正則化層２８から出力される中間センテンス表現、および、加算・正則化層４４から出力されるベクトルについて、Ａｔｔｅｎｔｉｏｎを算出する。ＭＨＡ層４６の基本的な処理は、ＭＨＡ層２２と同様である。

　加算・正則化層４８は、加算・正則化層４４から出力されるベクトルに、ＭＨＡ層４６から出力されるベクトルを加算した上で、任意の手法で正則化する。

　フィードフォワード層５０は、入力されたベクトルに対して位置（すなわち、入力される時刻）をシフトする。

　加算・正則化層５２は、ＭＨＡ層４６から出力されるベクトルに、フィードフォワード層５０から出力されるベクトルを加算した上で、任意の手法で正則化する。

　Ｔｒａｎｓｆｏｒｍｅｒ１００は、出力層として、線形結合（Linear）層６０およびソフトマックス（Softmax）層６２を含む。線形結合層６０は、エンコーダ２００の出力側（すなわち、Ｍ層分のデコーダブロック４０のうち最終層）に配置され、デコーダ４００からの出力シーケンスを線形結合する。

　ソフトマックス層６２は、線形結合層６０から出力されるベクトルをソフトマックス関数で算出した結果を出力シーケンス６４として決定する。出力シーケンス６４は、入力シーケンス２（ソースセンテンス）に対応する翻訳先のセンテンス（ターゲットセンテンス）の確率を示す。

　［Ｂ．課題および解決手段］
　次に、本技術の関連技術に従うＴｒａｎｓｆｏｒｍｅｒ１００に対する課題および解決手段について概略する。

　フレーズベース統計機械学習（ＰＢＳＭＴ）において、並び替えモデル（recording　model）は、翻訳性能を向上させるために重要な役割を果たす。特に、並び替えモデルは、中国語－英語間翻訳、および、日本語－英語間翻訳といった、語順が大きく異なる言語間の翻訳に有効である（非特許文献３および非特許文献４など参照）。従来のＰＢＳＭＴでは、二言語間のパラレルセンテンスペアから大規模な並び替えルールを学習することで、並び替えモデルを生成する。このような並び替えモデルは、オリジナルの単語の合理的な翻訳順序を保証するために、翻訳デコーディング処理に組み込まれることも多い。

　このようなＰＢＳＭＴについての明示的な並び替えモデルに対して、ＲＮＮベースのニューラル機械翻訳（ＮＭＴ）をセンテンス内の単語間の語順依存性を黙示的にエンコードするニューラルネットワークに基づかせることで、流ちょうな翻訳を実現することが報告されている（非特許文献５および非特許文献６など参照）。

　さらに、固定サイズのウィンドウ内における位置ベースのＡｔｔｅｎｎｔｉｏｎを、コンテンツベースのＡｔｔｅｎｎｔｉｏｎに追加することで、ＲＮＮベースのＮＭＴに対して顕著に性能を向上できることが報告されている（非特許文献７参照）。これは、単語の並び替え情報は、ＮＭＴに対しても有効であることを意味する。

　上述したように、単語の並び替え情報は、翻訳タスクに有効であると考えられるものの、図１に示すようなＴｒａｎｓｆｏｒｍｅｒ１００においては、センテンス内における並び替え情報については何ら明示的に考慮されていない。また、ＮＭＴにおける並び替えによる問題は、非特許文献７に示される以上には深く研究されていない。

　本願発明者らは、Ｔｒａｎｓｆｏｒｍｅｒ１００などの位置埋め込み（positional　embedding）を利用するＮＭＴにおいて、単語の並び替え情報を考慮しないことで潜在的に性能を低下させているという新たに課題を見出した。

　そこで、本願発明者らは、Ｔｒａｎｓｆｏｒｍｅｒ１００などの位置埋め込み（positional　embedding）を利用するＮＭＴにおいて、並び替え情報を付加することで、性能を高めるという新たな解決手段に想到した。

　以下、このような新たな解決手段を実現するための実施の形態について説明する。
　［Ｃ．本実施の形態に従うニューラルネットワーク］
　本実施の形態に従うニューラルネットワークの一例として、図１に示すＴｒａｎｓｆｏｒｍｅｒ１００に並び替え情報を付加するための構成を有するＴｒａｎｓｆｏｒｍｅｒ１００Ａについて説明する。Ｔｒａｎｓｆｏｒｍｅｒ１００Ａは、入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器に相当する。但し、本発明の技術的範囲は、Ｔｒａｎｓｆｏｒｍｅｒに限定されるものではなく、位置埋め込み（positional　embedding）を用いるニューラルネットワークの全般に適用可能である。

　図２は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａを示す模式図である。図２に示すＴｒａｎｓｆｏｒｍｅｒ１００Ａは、図１に示すＴｒａｎｓｆｏｒｍｅｒ１００に比較して、並び替え埋め込み（Reordering　Embedding）層３４および加算器３６をさらに含むエンコーダブロック２０Ａ、および、並び替え埋め込み層５４および加算器５６をさらに含むデコーダブロック４０Ａを含む。なお、後述するように、並び替え埋め込み層は、エンコーダブロックおよびデコーダブロックのいずれか一方に配置されていればよく、エンコーダブロックおよびデコーダブロックの両方に配置されている必要はない。

　本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおいては、単語の並び替え情報をモデル内部で発生することによって、入力された入力シーケンス２内の単語順序の変更に対応した推論結果を生成する。

　図３は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおける処理概要を説明するための模式図である。図３（ａ）～（ｃ）を参照しつつ、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおける数学的な処理の詳細について説明する。

　（ｃ１：位置エンコーディング（positional　encoding）メカニズム）
　まず、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａにおける位置エンコーディングメカニズムについて説明する。Ｔｒａｎｓｆｏｒｍｅｒ１００Ａにおいては、センテンス内の単語間の語順依存性をエンコードする。例えば、長さＪのソースセンテンスの単語埋め込みＸ＝｛ｘ_１，・・・，ｘ_Ｊ｝を仮定すると、位置埋め込みシーケンスは、以下の（１）式に従って、単語毎の位置に基づいて算出される。

　ここで、ｊはセンテンス内の単語位置を示す位置インデックスであり、ｉは位置インデックスの次元数を示す。したがって、オリジナル位置埋め込みＰＥは、以下の（２）式のように算出される。

　ｐｅ_ｊの各々は、対応する単語埋め込みｘ_Ｊに付加され、結合された埋め込みｖ_ｊは、以下の（３）式のように示される。

　最終的に、結合された埋め込みｖ_ｊのシーケンス｛ｖ_１，・・・，ｖ_Ｊ｝は、初期センテンス表現Ｈ^０となる。その後、センテンス表現Ｈ^０は、センテンス表現を学習するためにＭＨＡ（Multi-head　Attention）層へ入力される。

　このように、位置埋め込み層６および位置埋め込み層１６は、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報（オリジナル位置埋め込みＰＥ）を出力する位置情報出力部に相当する。

　（ｃ２：ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎメカニズム）
　次に、ＭＨＡ層におけるｓｅｌｆ－Ａｔｔｅｎｔｉｏｎメカニズムについて説明する。ＭＨＡ層では、複数のｓｅｌｆ－Ａｔｔｅｎｔｉｏｎが並列配置されており、以下の説明は、ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎのうち１つに着目するものである。

　ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎメカニズムは、１つ前のセクションにおいて取得されたセンテンス表現Ｈ^０についてセンテンス表現を学習するために用いられる。通常、Ｔｒａｎｓｆｏｒｍｅｒメカニズムにおいては、同一構成のエンコーダブロック２０（あるいは、デコーダブロック４０）がＮ個スタックされた構成が用いられる。エンコーダブロック２０（あるいは、デコーダブロック４０）の各々は、２つのサブ層を有している。すなわち、１つのサブ層がｓｅｌｆ－Ａｔｔｅｎｔｉｏｎであり、もう１つのサブ層が位置順に全結合されたフィードフォワードネットワークである。これらのサブ層の間は残差結合されており、その結果が正則化される。

　最終的に、センテンス表現を学習するスタックは、以下の（４）式のように表現できる。

　ここで、ＳｅｌｆＡｔｔ^ｎ（・）、ＬＮ（・）、ＦＦＮ^ｎ（・）は、Ｎ個のエンコーダブロック２０（あるいは、デコーダブロック４０）の各々における、ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎのネットワーク、層正則化、フォードフォワードネットワークにそれぞれ対応する。また、［・・・］_ＮはＮ層分のスタックを意味する。Ｔｒａｎｓｆｏｒｍｅｒのエンコーダ２００およびデコーダ４００において、ｎ番目の層（エンコーダブロック２０またはデコーダブロック４０）のＳｅｌｆＡｔｔ^ｎ（・）は、前段である（ｎ－１）番目の層（エンコーダブロック２０またはデコーダブロック４０）の出力Ｈ^ｎ－１について、以下の（５）式に従って、Ａｔｔｅｎｎｔｉｏｎを算出する。

　ここで、｛Ｑ，Ｋ，Ｖ｝は、クエリ、キー、バリューをそれぞれ意味する。入力された中間センテンス表現Ｈ^ｎ－１を変換して｛Ｑ，Ｋ，Ｖ｝が生成される。ｄ_ｋは、クエリおよびキーの次元数を示す。最終的には、Ｎ番目の層からのセンテンス表現Ｈ^ＮがＴｒａｎｓｆｏｒｍｅｒからセンテンス表現（推論結果）として出力される。

　このように、エンコーダブロック２０のＭＨＡ層２２およびデコーダブロック４０のＭＭＨＡ層４２は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）に基づいて、中間センテンス表現（中間センテンス表現Ｈ^ｎ）を生成する第１の生成部に相当する。第１のセンテンス表現は、入力シーケンスに含まれる各トークンの値を示す情報（単語埋め込みｘ_Ｊ）と各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報（オリジナル位置埋め込みＰＥ）とを有している。

　本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａにおいては、エンコーダブロック２０のＭＨＡ層２２およびデコーダブロック４０のＭＭＨＡ層４２は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）を学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークに入力して中間センテンス表現（中間センテンス表現Ｈ^ｎ）を生成する。

　（ｃ３：並び替え埋め込み（Reordering　Embedding））
　次に、並び替え埋め込み層３４および加算器３６、あるいは、並び替え埋め込み層５４および加算器５６によって実現される並び替え情報の抽出および付加に関する処理について説明する。

　並び替え情報を抽出するために、本実施の形態においては、所与の単語およびその単語を含むセンテンスのグローバルコンテキストに基づいて、位置ペナルティベクトルを学習する。位置ペナルティベクトルは、所与の単語の位置埋め込みに対してペナルティを与えることで、新たな並び替え埋め込みを生成するために用いられる。最終的に、これらの並び替え埋め込みは、中間センテンス表現に付加されて、実質的に単語の並び替えを実現する。このような並び替え埋め込みを付加する処理は、以下の３ステップにより実現できる。

　（ｉ）位置ペナルティベクトル

　図３（ａ）に示すように、オリジナル位置埋め込みＰＥおよび単語埋め込みＸをｓｅｌｆ－Ａｔｔｅｎｔｉｏｎに適用することで、中間センテンス表現を生成でき、さらに、図３（ｂ）に示すように、生成された中間センテンス表現から位置ペナルティベクトルＰＰ^ｎを算出できる。

　（ｉｉ）並び替え埋め込み
　位置ペナルティベクトルＰＰ^ｎは、以下の（７）式に従って、オリジナル位置埋め込みＰＥに対してペナルティを与えるために用いられる。

　ここで、位置埋め込みＰＥの各要素は、ゼロから１までの確率が乗じられるので、ＲＥ^ｎは並び替え埋め込み（Reordering　Embedding）と称される。図３（ｃ）に示すように、位置ペナルティベクトルＰＰ^ｎをオリジナル位置埋め込みＰＥに適用することで、並び替え埋め込みＲＥ^ｎを生成できる。

　（ｉｉｉ）並び替えの実現

　ここで、ＬＮは層正則化を意味する。その結果、並び替えが意識された（reordering-aware）センテンス隠れ状態Ｃ^ｎが取得できる。

　このように、エンコーダブロック２０の並び替え埋め込み層３４およびデコーダブロック４０の並び替え埋め込み層５４は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）および中間センテンス表現に基づいて、第１の位置情報（オリジナル位置埋め込みＰＥ）を修正することで第２の位置情報（並び替え埋め込みＲＥ^ｎ）を生成するとともに、第２の位置情報および中間センテンス表現に基づいて、隠れ状態表現（センテンス隠れ状態Ｃ^ｎ）を生成する第２の生成部に相当する。

　上述の（６）式に示したように、並び替え埋め込み層３４および並び替え埋め込み層５４は、第１のセンテンス表現（センテンス表現Ｈ^０あるいはセンテンス表現Ｈ^ｎ－１）と中間センテンス表現との線形結合を入力とする活性化関数（例えば、ｓｉｇｍｏｉｄ関数）に従って係数ベクトル（位置ペナルティベクトルＰＰ^ｎ）を生成し、生成した係数ベクトルを第１の位置情報（オリジナル位置埋め込みＰＥ）に乗じることで第２の位置情報（並び替え埋め込みＲＥ^ｎ）を生成する。

　（ｃ４：並び替え埋め込みを伴うｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワーク（ＳＡＮ））
　センテンスのオリジナル位置埋め込みは、Ｔｒａｎｓｆｏｒｍｅｒが単語間の語順依存性が再帰的に取得されてしまうことを防止するために用いられる。これによって、スタックされたＳＡＮがセンテンス表現を完全に並列に学習することを保証する。学習済ＲＥ^ｎは、センテンスのオリジナル位置埋め込みと類似している。そのため、学習済ＲＥ^ｎについても、既存のＳＡＮを用いて容易にスタックして、機械翻訳についての並び替えが意識されたセンテンス表現を出力できる。上述の（４）式に従うと、並び替え埋め込みを用いてＳＡＮをスタックすると、以下の（９）式のようになる。

　ここで、Ｈ^０は、上述したように初期センテンス表現である。最終的に、機械翻訳についての並び替えが意識されたセンテンス表現Ｈ^Ｎが出力される。

　このように、エンコーダブロック２０のフィードフォワード層２６およびデコーダブロック４０のフィードフォワード層５０は、中間センテンス表現および隠れ状態表現（センテンス隠れ状態Ｃ^ｎ）に基づいて、第２のセンテンス表現（センテンス表現Ｈ^ｎ）を生成する第３の生成部に相当する。

　［Ｄ．ハードウェア構成］
　次に、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現するためのハードウェア構成の一例について説明する。

　図４は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現するハードウェア構成の一例を示す模式図である。Ｔｒａｎｓｆｏｒｍｅｒ１００Ａは、典型的には、コンピュータの一例である情報処理装置５００を用いて実現される。

　図４を参照して、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを実現する情報処理装置５００は、主要なハードウェアコンポーネントとして、ＣＰＵ（central　processing　unit）５０２と、ＧＰＵ（graphics　processing　unit）５０４と、主メモリ５０６と、ディスプレイ５０８と、ネットワークインターフェイス（Ｉ／Ｆ：interface）５１０と、二次記憶装置５１２と、入力デバイス５２２と、光学ドライブ５２４とを含む。これらのコンポーネントは、内部バス５２８を介して互いに接続される。

　ＣＰＵ５０２および／またはＧＰＵ５０４は、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａの実現に必要な処理を実行するプロセッサである。ＣＰＵ５０２およびＧＰＵ５０４は、複数個配置されてもよいし、複数のコアを有していてもよい。

　主メモリ５０６は、プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納（あるいは、キャッシュ）する記憶領域であり、例えば、ＤＲＡＭ（dynamic　random　access　memory）やＳＲＡＭ（static　random　access　memory）などの揮発性メモリデバイスなどで構成される。

　ディスプレイ５０８は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、ＬＣＤ（liquid　crystal　display）や有機ＥＬ（electroluminescence）ディスプレイなどで構成される。

　ネットワークインターフェイス５１０は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス５１０としては、例えば、イーサネット（登録商標）、無線ＬＡＮ（local　area　network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの任意の通信方式を採用できる。

　入力デバイス５２２は、ユーザからの指示や操作などを受け付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス５２２は、学習およびデコーディングに必要な音声信号を収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。

　光学ドライブ５２４は、ＣＤ－ＲＯＭ（compact　disc　read　only　memory）、ＤＶＤ（digital　versatile　disc）などの光学ディスク５２６に格納されている情報を読出して、内部バス５２８を介して他のコンポーネントへ出力する。光学ディスク５２６は、非一過的（non-transitory）な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ５２４が光学ディスク５２６からプログラムを読み出して、二次記憶装置５１２などにインストールすることで、コンピュータが情報処理装置５００として機能するようになる。したがって、本発明の主題は、二次記憶装置５１２などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク５２６などの記録媒体でもあり得る。

　図４には、非一過的な記録媒体の一例として、光学ディスク５２６などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、ＭＯ（magneto-optical　disk）などの光磁気記録媒体を用いてもよい。

　二次記憶装置５１２は、コンピュータを情報処理装置５００として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、ＳＳＤ（solid　state　drive）などの不揮発性記憶装置で構成される。

　より具体的には、二次記憶装置５１２は、図示しないＯＳ（operating　system）の他、学習処理を実現するための学習プログラム５１４と、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａの構造を定義するモデル定義データ５１６と、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａ（学習済モデル）を規定する複数のパラメータからなるパラメータセット５１８と、推論プログラム５２０と、トレーニングデータセット９０とを格納している。

　学習プログラム５１４は、プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）により実行されることで、パラメータセット５１８を決定するための学習処理を実現する。すなわち、学習プログラム５１４は、コンピュータにＴｒａｎｓｆｏｒｍｅｒ１００Ａを学習させるための学習方法を実行させる。

　モデル定義データ５１６は、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａに含まれるコンポーネントおよびコンポーネント間の接続関係などを定義するための情報を含む。パラメータセット５１８は、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを構成する各コンポーネントについてのパラメータを含む。パラメータセット５１８に含まれる各パラメータは、学習プログラム５１４の実行により最適化される。トレーニングデータセット９０は、図４に示すようなデータの組み合わせからなる。

　推論プログラム５２０は、モデル定義データ５１６およびパラメータセット５１８に基づいて、Ｔｒａｎｓｆｏｒｍｅｒ１００ＡおよびＴｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現する。さらに、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを用いた推論処理を実行する。

　プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）がプログラムを実行する際に必要となるライブラリや機能モジュールの一部を、ＯＳが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、ＯＳの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

　また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

　図４には、単一のコンピュータを用いて情報処理装置５００を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、Ｔｒａｎｓｆｏｒｍｅｒ１００Ａを含む推論器を実現するようにしてもよい。

　プロセッサ（ＣＰＵ５０２および／またはＧＰＵ５０４）がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路（hard-wired　circuit）を用いて実現してもよい。例えば、ＡＳＩＣ（application　specific　integrated　circuit）やＦＰＧＡ（field-programmable　gate　array）などを用いて実現してもよい。

　当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置５００を実現できるであろう。

　説明の便宜上、同一の情報処理装置５００を用いて、学習処理および推論処理を実行する例を示すが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。

　［Ｅ．学習処理および推論処理］
　本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒ１００Ａについての学習処理および推論処理は、本技術の関連技術に従うＴｒａｎｓｆｏｒｍｅｒ１００についての学習処理および推論処理と同様である。そのため、学習処理および推論処理の全体処理手順については、ここでは詳細には説明しない。

　［Ｆ．性能評価］
　次に、本実施の形態に従う並び替え埋め込み（Reordering　Embedding）を含むニューラルネットワークの性能評価の一例を示す。

　（ｆ１：評価条件）
　評価実験としては、（１）英語－ドイツ間、（２）中国語－英語間、（３）日本語－英語間の３種類について行った。

　（１）英語－ドイツ間については、ＷＭＴ１４データセットに含まれる４４３万個の二言語間のセンテンスペア（Ｃｏｍｍｏｎ　Ｃｒａｗｌ，Ｎｅｗｓ　Ｃｏｍｍｅｎｔａｒｙ，Ｅｕｒｏｐａｒｌ　ｖ７．を含む）をトレーニングデータに用いた。ｎｅｗｓｔｅｓｔ２０１３データセットおよびｎｅｗｓｔｅｓｔ２０１４データセットを評価データおよびテストデータとして用いた。

　（２）中国語－英語間については、ＬＤＣコーパス（ＬＤＣ２００２Ｅ１８，ＬＤＣ２００３Ｅ０７，ＬＤＣ２００３Ｅ１４，ＬＤＣ２００４Ｔ０７のＨａｎｓａｒｄの部分，ＬＤＣ２００５Ｔ０６）に含まれる１２８万個の二言語間のセンテンスペア（Ｃｏｍｍｏｎ　Ｃｒａｗｌ，Ｎｅｗｓ　Ｃｏｍｍｅｎｔａｒｙ，Ｅｕｒｏｐａｒｌ　ｖ７．を含む）をトレーニングデータに用いた。ｎｅｗｓｔｅｓｔ２０１３データセットおよびｎｅｗｓｔｅｓｔ２０１４データセットを評価データおよびテストデータとして用いた。ＭＴ０６およびＭＴ０２／ＭＴ０３／ＭＴ０４／ＭＴ０５／ＭＴ０８データセットを評価データおよびテストデータとして用いた。

　（３）日本語－英語間については、ＡＳＰＥＣコーパス（非特許文献８参照）に含まれる２００万個の二言語間のセンテンスペアをトレーニングデータに用いた。１７９０個のセンテンスペアを評価データとして用いるとともに、１８１２個のセンテンスペアをテストデータとして用いた。

　（ｆ２：英語－ドイツ間）
　ベースラインとしては、ＧＮＭＴ（非特許文献９参照）、ＣＯＮＶＳ２Ｓ（非特許文献１０参照）および従来Ｔｒａｎｓｆｏｒｍｅｒ（非特許文献１参照）の３種類を採用した。

　また、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、エンコーダ側のみに並び替え埋め込み層を配置した構成（表中の「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」）、デコーダ側のみに並び替え埋め込み層を配置した構成（表中の「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」）、エンコーダ側およびデコーダ側の両方に並び替え埋め込み層を配置した構成（表中の「＋Ｂｏｔｈ＿ＲＥｓ」）についてそれぞれ評価した。

　また、従来Ｔｒａｎｓｆｏｒｍｅｒに採用されている位置埋め込み層に代えて、学習済の位置埋め込み層を採用した構成（表中の「＋Ａｄｄｉｔｉｏｎａｌ　ＰＥｓ」）、および、従来Ｔｒａｎｓｆｏｒｍｅｒに採用されている位置埋め込み層が採用するセンテンス内の絶対位置ではなく相対位置を採用した構成（表中の「＋Ｒｅｌａｔｉｖｅ　ＰＥｓ」）（非特許文献１１参照）についてもそれぞれ評価した。

　なお、従来Ｔｒａｎｓｆｏｒｍｅｒおよび本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、通常（base）および大型（big）の２種類について評価を行った。それぞれモデルパラメータは以下のＴａｂｌｅ１の通りである。

　Ｔａｂｌｅ１において、Ｎはエンコーダ２００の層数、Ｍはデコーダ４００の層数、ｄ_{ｍｏｄｅｌ}は入力層および出力層の次元数、ｄ_ｆｆはフィードフォワード層の次元数、ＨはＭＨＡ層の並列数、Ｐ_ｄｒｏｐはドロップアウトパラメータ、ｅ_ｌｓはＬａｂｅｌ　Ｓｍｏｏｔｈｉｎｇ（過学習抑制）のパラメータをそれぞれ示す。また、バッチサイズは４０９６×４個のトークンとした。

　各構成についての評価結果を以下のＴａｂｌｅ２に示す。性能評価には、評価データについて算出されたＢＬＥＵスコアのうち最も高いものを採用した。

　Ｔａｂｌｅ２において、「＃Ｓｐｐｅｄ１」および「＃Ｓｐｅｅｄ２」は、トレーニング速度（トレーニングに要する時間）およびデコーディング速度（推論処理に要する時間）をそれぞれ示す。「＃Ｐａｒａｍｓ」はモデルパラメータの総数を示す。

　表中に示す数値の後に付随する「＋」あるいは「＋＋」は、ベースラインに比較して顕著な性能向上を示した結果を意味する（なお。「＋」の数が多い方が性能向上の度合いが高い）。

　Ｔａｂｌｅ２の「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」、「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」および「＋Ｂｏｔｈ＿ＲＥｓ」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。特に、エンコーダ側に並び替え埋め込み層を配置することがより有効である。

　また、「Ｔｒａｎｓｆｏｒｍｅｒ（ｂａｓｅ）」の「＋Ｂｏｔｈ＿ＲＥｓ」の性能を「Ｔｒａｎｓｆｏｒｍｅｒ（ｂｉｇ）」（並び替え埋め込み層が存在しない）の性能と比較すると、パラメータサイズを増加させるのではなく、エンコーダ側およびデコーダ側にそれぞれ並び替え埋め込み層を配置することが性能向上には有効であることが示されている。

　（ｆ３：中国語－英語間）
　ベースラインとしては、従来Ｔｒａｎｓｆｏｒｍｅｒ（非特許文献１参照）、ＲＮＮｓｅａｒｃｈ＋Ｄｉｓｔｏｒｔｉｏｎ（非特許文献７参照）、２種類のＤＴＭＴ（非特許文献１２参照）、ＲＮＮベースのＮＭＴ（非特許文献１３参照）、ＲＮＮベースのＮＭＴにＭＥＭを追加した構成（非特許文献１４参照）の６種類を採用した。

　また、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、上記の（１）英語－ドイツ間と同様である。

　各構成についての評価結果を以下のＴａｂｌｅ３に示す。性能評価には、評価データについて算出されたＢＬＥＵスコアのうち最も高いものを採用した。

　Ｔａｂｌｅ３の「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」、「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」および「＋Ｂｏｔｈ＿ＲＥｓ」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。特に、エンコーダ側に並び替え埋め込み層を配置することがより有効である。

　このように、言語にかかわらず、並び替え埋め込み層を採用することで、性能を向上できることが示される。

　（ｆ４：日本語－英語間）
　本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒについては、上記の（１）英語－ドイツ間および（２）中国語－英語間において採用した構成に加えて、ソース側（翻訳元）の単語順序をターゲット側（翻訳先）の単語順序に近づけるように、前処理を行う構成（表中の「＋Ｐｒｅ－Ｒｅｏｒｄｉｎｇ」）を採用した。

　各構成についての評価結果を以下のＴａｂｌｅ４に示す。性能評価には、評価データについて算出されたＢＬＥＵスコアのうち最も高いものを採用した。

　Ｔａｂｌｅ４においても、「＋Ｅｎｃｏｄｅｒ＿ＲＥｓ」、「＋Ｄｅｃｏｄｅｒ＿ＲＥｓ」および「＋Ｂｏｔｈ＿ＲＥｓ」に示すように、並び替え埋め込み層を配置することで、ベースラインに比較して顕著な性能向上が見られる。

　Ｔａｂｌｅ４において、「＋Ｐｒｅ－Ｒｅｏｒｄｉｎｇ」の構成は、ベースラインに比較して性能が劣化していることが分かる。これは、ソース側（翻訳元）の単語順序をターゲット側（翻訳先）の単語順序に近づけるように前処理を行うことで、ソース側に含まれていた単語間の関連性が薄まることが要因であると推定される。

　（ｆ５：並び替え情報の影響）
　次に、並び替え情報を採用することによる性能への影響について示す。

　図５は、英語－ドイツ間における並び替え情報の影響を示すグラフである。図６は、中国語－英語間における並び替え情報の影響を示すグラフである。図７は、日本語－英語間における並び替え情報の影響を示すグラフである。

　図５～図７には、テストデータに含まれるソースセンテンス内でランダムに単語の順序を入れ替えてデコーディングを行った結果を示す。すなわち、誤った語順のソースセンテンスを入力した場合の推論結果を評価したものである。図５～図７に示されるグラフの横軸は、１つのソースセンテンス内でランダムに単語の順序を入れ替えた割合を示す。

　本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒにおいて採用されている並び替え埋め込みは、単語間の順序に関する情報を補間するものであり、入力されるセンテンス内の単語の順序に誤りがあっても、正しい順序に対応する推論結果を出力し得る。

　図５～図７に示すように、ソースセンテンス内の単語のうち４０％程度に順序の誤りがあっても、本実施の形態に従うＴｒａｎｓｆｏｒｍｅｒは、その誤りの影響を抑制して、正しい推論結果を出力できると言える。

　［Ｇ．変形例］
　上述の説明においては、位置埋め込み（positional　embedding）を利用するニューラルネットワーク（学習済モデル）の典型例として、Ｔｒａｎｓｆｏｒｍｅｒを例示したが、これに限られず、任意のニューラルネットワーク（学習済モデル）に適用可能である。

　例えば、ＣＮＮ（convolutional　neural　network）ベースのニューラル翻訳などにも同様に適用可能である。さらに、翻訳タスクに限らず、入力シーケンス内のトークンの位置情報を利用するニューラルネットワーク（学習済モデル）であれば、同様に、本発明の技術思想を適用可能である。

　［Ｈ．まとめ］
　本実施の形態に従う学習処理によれば、Ｔｒａｎｓｆｏｒｍｅｒなどの、各トークンが入力シーケンス内のいずれの位置に存在しているのかを示す位置埋め込みを利用するニューラルネットワークの性能を高めることができる。

　今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　２　入力シーケンス、４　入力埋め込み層、８，１８，３６，５６　加算器、６　位置埋め込み層、１４　出力埋め込み層、２０，２０Ａ　エンコーダブロック、２２，４６　ＭＨＡ層、２４，２８，４４，４８，５２　加算・正則化層、２６，５０　フィードフォワード層、４０，４０Ａ　デコーダブロック、４２　ＭＭＨＡ層、６０　線形結合層、６２　ソフトマックス層、６４　出力シーケンス、９０　トレーニングデータセット、１００，１００Ａ　Ｔｒａｎｓｆｏｒｍｅｒ、２００　エンコーダ、４００　デコーダ、５００　情報処理装置、５０２　ＣＰＵ、５０４　ＧＰＵ、５０６　主メモリ、５０８　ディスプレイ、５１０　ネットワークインターフェイス、５１２　二次記憶装置、５１４　学習プログラム、５１６　モデル定義データ、５１８　パラメータセット、５２０　推論プログラム、５２２　入力デバイス、５２４　光学ドライブ、５２６　光学ディスク、５２８　内部バス。

Claims

　入力シーケンスに対して対応する出力シーケンスを出力する学習済ニューラルネットワークからなる推論器であって、
　前記入力シーケンスに含まれる各トークンの値を示す情報と各トークンが前記入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現に基づいて、中間センテンス表現を生成する第１の生成部と、
　前記第１のセンテンス表現および前記中間センテンス表現に基づいて、前記第１の位置情報を修正することで第２の位置情報を生成するとともに、前記第２の位置情報および前記中間センテンス表現に基づいて、隠れ状態表現を生成する第２の生成部と、
　前記中間センテンス表現および前記隠れ状態表現に基づいて、第２のセンテンス表現を生成する第３の生成部とを備える、推論器。
　前記第２の生成部は、前記第１のセンテンス表現と前記中間センテンス表現との線形結合を入力とする活性化関数に従って係数ベクトルを生成し、前記生成した係数ベクトルを前記第１の位置情報に乗じることで前記第２の位置情報を生成する、請求項１に記載の推論器。
　前記第１の生成部は、前記第１のセンテンス表現を学習済ｓｅｌｆ－Ａｔｔｅｎｔｉｏｎネットワークに入力して前記中間センテンス表現を生成する、請求項１または２に記載の推論器。
　前記推論器は、
　　前記入力シーケンスから中間シーケンスを出力するエンコーダと、
　　前記エンコーダから出力される中間表現のシーケンスおよび先に出力された出力シーケンスに基づいて前記出力シーケンスを出力するデコーダとを備え、
　前記エンコーダおよび前記デコーダの少なくとも一方は、前記第１の生成部、前記第２の生成部および前記第３の生成部を含む学習済ブロックを含む、請求項１～３のいずれか１項に記載の推論器。
　学習済ニューラルネットワークを用いて入力シーケンスに対応する出力シーケンスを出力する推論方法であって、
　前記入力シーケンスに含まれる各トークンの値を示す情報と各トークンが前記入力シーケンス内のいずれの位置に存在しているのかを示す第１の位置情報とを有する第１のセンテンス表現に基づいて、中間センテンス表現を生成するステップと、
　前記第１のセンテンス表現および前記中間センテンス表現に基づいて、前記第１の位置情報を修正することで第２の位置情報を生成するとともに、前記第２の位置情報および前記中間センテンス表現に基づいて、隠れ状態表現を生成するステップと、
　前記中間センテンス表現および前記隠れ状態表現に基づいて、第２のセンテンス表現を生成するステップとを備える、推論方法。
　コンピュータに請求項５に記載の推論方法を実行させるための推論プログラム。