WO2022079845A1

WO2022079845A1 - 単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム

Info

Publication number: WO2022079845A1
Application number: PCT/JP2020/038837
Authority: WO
Inventors: 昌明永田; 克己帖佐; 正彬西野
Original assignee: 日本電信電話株式会社
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-04-21
Also published as: US20230367977A1; JPWO2022079845A1

Abstract

第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成する問題生成部と、言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測するスパン予測部とを備える単語対応装置。

Description

単語対応装置、学習装置、単語対応方法、学習方法、及びプログラム

　本発明は、互いに翻訳になっている２文間の単語対応を同定する技術に関連するものである。

　互いに翻訳になっている二つの文において互いに翻訳になっている単語又は単語集合を同定することを単語対応（ｗｏｒｄ　ａｌｉｇｎｍｅｎｔ）という。

　互いに翻訳になっている二つの文を入力とし、自動的に単語対応を同定する技術には、多言語処理や機械翻訳に関連する様々な応用がある。例えば、ある言語（例えば英語）の文において付与された人名・地名・組織名等の固有表現に関する注釈を、単語対応に基づいて別の言語（例えば日本語）へ翻訳された文へ写像することにより、その言語の固有表現抽出器の学習データを生成することができる。

　従来の単語対応付けは、統計的機械翻訳で用いられた参考文献［１］に記載のモデルに基づいて、対訳データに関する統計情報から互いに翻訳になっている単語対を同定する方法が主流であった。なお、参考文献については、本明細書の最後にまとめて記載している。

Elias Stengel-Eskin, Tzu ray Su, Matt Post, and Benjamin Van Durme. A Discriminative Neural Model for Cross-Lingual Word Alignment. In Proceedings of the EMNLP-IJCNLP-2019, pp.910-920, 2019.

　機械翻訳については、ニューラルネットワークを用いる手法により、統計的な手法に比べて大幅な精度向上を達成している。しかし、単語対応では、ニューラルネットワークを用いる手法による精度は、統計的な手法による精度と同等かわずかに上回る程度しかなかった。

　非特許文献１に開示されている従来のニューラル機械翻訳モデルに基づく教師あり単語対応は、統計的機械翻訳モデルに基づく教師なし単語対応に比べて精度が高い。しかし、統計的機械翻訳モデルに基づく方法も、ニューラル機械翻訳モデルに基づく方法も、翻訳モデルの学習のために大量（数百万文程度）の対訳データを必要とするという問題点があった。

　本発明は上記の点に鑑みてなされたものであり、従来技術よりも少量の教師データから、従来技術よりも高精度な教師あり単語対応を実現することを目的とする。

　開示の技術によれば、第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成する問題生成部と、
　言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測するスパン予測部と
　を備える単語対応装置が提供される。

　開示の技術によれば、従来技術よりも少量の教師データから、従来技術よりも高精度な教師あり単語対応を実現できる。

本発明の実施の形態における装置構成図である。処理の全体の流れを示すフローチャートである。言語横断スパン予測モデルを学習する処理を示すフローチャートである。単語対応の生成処理を示すフローチャートである。装置のハードウェア構成図である。単語対応データの例を示す図である。英語から日本語への質問の例を示す図である。スパン予測の例を示す図である。単語対応の対称化の例を示す図である。実験に使用したデータ数を示す図である。従来技術と実施形態に係る技術との比較を示す図である。対称化の効果を示す図である。原言語単語の文脈の重要性を示す図である。中英の訓練データの部分集合を用いて訓練した場合の単語対応精度を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　本実施の形態では、互いに翻訳になっている二つの文において単語対応を求める問題を、ある言語の文の各単語に対応する別の言語の文の単語又は連続する単語列（スパン）を予測する問題（言語横断スパン予測）の集合として捉え、人手により作成された少数の正解データからニューラルネットワークを用いて言語横断スパン予測モデルを学習することにより、高精度な単語対応を実現することとしている。具体的には、後述する単語対応装置１００が、この単語対応に係る処理を実行する。

　なお、単語対応の応用として、前述した固有表現抽出器の学習データの生成に加えて、例えば、次のようなものがある。

　ある言語（例えば日本語）のＷｅｂページを別の言語（例えば英語）へ翻訳する際に、元の言語の文においてＨＴＭＬタグ（例えばアンカータグ＜ａ＞...＜／ａ＞）に囲まれた文字列の範囲と意味的に等価な別の言語の文の文字列の範囲を、単語対応に基づいて同定することにより、ＨＴＭＬタグを正しく写像することができる。

　また、機械翻訳において、対訳辞書等により入力文の特定の語句に対して特定の訳語を指定したい場合、単語対応に基づいて入力文中の語句に対応する出力文の語句を求め、もしその語句が指定された語句でない場合には指定された語句に置き換えることにより、訳語を制御することができる。

　以下では、まず、本実施の形態に係る技術を理解し易くするために、単語対応に関連する種々の参考技術について説明する。その後に、本実施の形態に係る単語対応装置１００の構成及び動作を説明する。

　なお、参考技術等に関連する参考文献の番号と文献名を、明細書の最後にまとめて記載した。下記の説明において関連する参考文献の番号を"［１］"等のように示している。

　（参考技術の説明）
　　＜統計的機械翻訳モデルに基づく教師なし単語対応＞
　参考技術として、まず、統計的機械翻訳モデルに基づく教師なし単語対応について説明する。

　統計的機械翻訳［１］では、原言語（翻訳元言語，ｓｏｕｒｃｅ　ｌａｎｇｕａｇｅ）の文Ｆから目的言語（翻訳先言語，ｔａｒｇｅｔ　ｌａｎｇｕａｇｅ）の文Ｅへ変換する翻訳モデルＰ（Ｅ｜Ｆ）を、ベイズの定理を用いて、逆方向の翻訳モデルＰ（Ｆ｜Ｅ）と目的言語の単語列を生成する言語モデルＰ（Ｅ）の積に分解する。

　統計的機械翻訳では、原言語の文Ｆの単語と目的言語の文Ｅの単語の間の単語対応Ａに依存して翻訳確率が決まると仮定し、全ての可能な単語対応の和として翻訳モデルを定義する。

　なお、統計的機械翻訳では、実際に翻訳が行われる原言語Ｆと目的言語Ｅと、逆方向の翻訳モデルＰ（Ｆ｜Ｅ）の中の原言語Ｅと目的言語Ｆが異なる。このために混乱が生じるので、以後は、翻訳モデルＰ（Ｙ｜Ｘ）の入力Ｘを原言語、出力Ｙを目的言語と呼ぶことにする。

　原言語文Ｘを長さ｜Ｘ｜の単語列ｘ_{１：｜Ｘ｜}＝ｘ_１，ｘ_２，...，ｘ_｜Ｘ｜とし、目的言語文Ｙを長さ｜Ｙ｜の単語列ｙ_{１：｜Ｙ｜}＝ｙ_１，ｙ_２，...，ｙ_｜Ｙ｜とするとき、目的言語から原言語への単語対応Ａをａ_{１：｜Ｙ｜}＝ａ_１，ａ_２，...，ａ_｜Ｙ｜と定義する。ここでａ_ｊは、目的言語文の単語ｙ_ｊが目的言語文の単語ｘ_ａｊに対応することを表す。

　生成的（ｇｅｎｅｒａｔｉｖｅ）な単語対応では、ある単語対応Ａに基づく翻訳確率を、語彙翻訳確率Ｐ_ｔ（ｙ_ｊ｜...）と単語対応確率Ｐ_ａ（ａ_ｊ｜...）の積に分解する。

　例えば、参考文献［１］に記載のモデル２では、まず目的言語文の長さ｜Ｙ｜を決め、目的語文のｊ番目の単語が原言語文のａ_ｊ番目の単語へ対応する確率Ｐ_ａ（ａ_ｊ｜ｊ，...）は、目的言語文の長さ｜Ｙ｜、原言語文の長さ｜Ｘ｜に依存すると仮定する。

　参考文献［１］に記載のモデルとして、最も単純なモデル１から最も複雑なモデル５までの順番に複雑になる５つのモデルがある。単語対応において使用されることが多いモデル４は、ある言語の一つの単語が別の言語のいくつの単語に対応するかを表す繁殖数（ｆｅｒｔｉｌｉｔｙ）や、直前の単語の対応先と現在の単語の対応先の距離を表す歪み（ｄｉｓｔｏｒｔｉｏｎ）を考慮する。

　また、ＨＭＭに基づく単語対応［２５］では、単語対応確率は、目的言語文における直前の単語の単語対応に依存すると仮定する。

　これらの統計的機械翻訳モデルでは、単語対応が付与されていない対訳文対の集合から、ＥＭアルゴリズムを用いて単語対応確率を学習する。すなわち教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄ　ｌｅａｒｎｉｎｇ）により単語対応モデルを学習する。

　参考文献［１］に記載のモデルに基づく教師なし単語対応ツールとして、ＧＩＺＡ＋＋［１６］、ＭＧＩＺＡ［８］、ＦａｓｔＡｌｉｇｎ［６］等がある。ＧＩＺＡ＋＋とＭＧＩＺＡは参考文献［１］に記載のモデル４に基づいており、ＦａｓｔＡｌｉｇｎは参考文献［１］に記載のモデル２に基づいている。

　　＜再帰ニューラルネットワークに基づく単語対応＞
　次に、再帰ニューラルネットワークに基づく単語対応について説明する。ニューラルネットワークに基づく教師なし単語対応の方法として、ＨＭＭに基づく単語対応にニューラルネットワークを適用する方法［２６，２１］と、ニューラル機械翻訳における注意（ａｔｔｅｎｔｉｏｎ）に基づく方法がある［２７，９］。

　ＨＭＭに基づく単語対応にニューラルネットワークを適用する方法について、例えば田村ら［２１］は、再帰ニューラルネットワーク（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ，ＲＮＮ）を用いることにより、直前の単語対応だけでなく、文頭からの単語対応の履歴ａ＜_ｊ＝ａ_{１：ｊ－１}を考慮して現在の単語の対応先を決定し、かつ、語彙翻訳確率と単語対応確率を別々にモデル化するのではなく一つのモデルとして単語対応を求める方法を提案している。

　再帰ニューラルネットワークに基づく単語対応は、単語対応モデルを学習するために大量の教師データ（単語対応が付与された対訳文）を必要とする。しかし、一般に人手で作成した単語対応データは大量には存在しない。教師なし単語対応ソフトウェアＧＩＺＡ＋＋を用いて自動的に単語対応を付与した対訳文を学習データとした場合、再起ニューラルネットワークに基づく単語対応は、ＧＩＺＡ＋＋と同等又はわずかに上回る程度の精度であると報告されている。

　　＜ニューラル機械翻訳モデルに基づく教師なし単語対応＞
　次に、ニューラル機械翻訳モデルに基づく教師なし単語対応について説明する。ニューラル機械翻訳は、エンコーダデコーダモデル（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ　ｍｏｄｅｌ，符号器復号器モデル）に基づいて、原言語文から目的言語文への変換を実現する。

　エンコーダ（ｅｎｃｏｄｅｒ，符号器）は、ニューラルネットワークを用いた非線形変換を表す関数ｅｎｃにより長さ｜Ｘ｜の原言語文Ｘ＝ｘ_{１：｜Ｘ｜}＝ｘ_１，...，ｘ_｜Ｘ｜を、長さ｜Ｘ｜の内部状態の系列ｓ_{１：｜Ｘ｜}＝ｓ_１，...，ｓ_｜Ｘ｜に変換する。各単語に対応する内部状態の次元数をｄとすれば、ｓ_{１：｜Ｘ｜}は｜Ｘ｜×ｄの行列である。

　デコーダ（ｄｅｃｏｄｅｒ，復号器）は、エンコーダの出力ｓ_{１：｜Ｘ｜}を入力として、ニューラルネットワークを用いた非線形変換を表す関数ｄｅｃにより目的言語文のｊ番目の単語ｙ_ｊを文頭から一つずつ生成する。

　ここでデコーダが長さ｜Ｙ｜の目的言語文Ｙ＝ｙ_{１：｜Ｙ｜}＝ｙ_１，...，ｙ_｜Ｙ｜を生成するとき、デコーダの内部状態の系列をｔ_{１：｜Ｙ｜}＝ｔ_１，...，ｔ_｜Ｙ｜と表現する。各単語に対応する内部状態の次元数をｄとすれば、ｔ_{１：｜Ｙ｜}は｜Ｙ｜×ｄの行列である。

　ニューラル機械翻訳では、注意（ａｔｔｅｎｔｉｏｎ）機構を導入することにより、翻訳精度が大きく向上した。注意機構は、デコーダにおいて目的言語文の各単語を生成する際に、エンコーダの内部状態に対する重みを変えることで原言語文のどの単語の情報を利用するかを決定する機構である。この注意の値を、二つの単語が互いに翻訳である確率とみなすのが、ニューラル機械翻訳の注意に基づく教師なし単語対応の基本的な考え方である。

　例として、代表的なニューラル機械翻訳モデルであるＴｒａｎｓｆｏｒｍｅｒ［２３］における、原言語文と目的言語文の間の注意（ｓｏｕｒｃｅ－ｔａｒｇｅｔ　ａｔｔｅｎｔｉｏｎ，原言語目的言語注意）を説明する。Ｔｒａｎｓｆｏｒｍｅｒは、自己注意（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）と順伝播型ニューラルネットワーク（ｆｅｅｄ－ｆｏｒｗａｒｄ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ）を組み合わせてエンコーダやデコーダを並列化したエンコーダデコーダモデルである。Ｔｒａｎｓｆｏｒｍｅｒにおける原言語文と目的言語文の間の注意は、自己注意と区別するためにクロス注意（ｃｒｏｓｓ　ａｔｔｅｎｔｉｏｎ）と呼ばれる。

　Ｔｒａｎｓｆｏｒｍｅｒは注意として縮小付き内積注意（ｓｃａｌｅｄ　ｄｏｔ－ｐｒｏｄｕｃｔ　ａｔｔｅｎｔｉｏｎ）を用いる。縮小付き内積注意は、クエリＱ∈Ｒ^{ｌｑ×ｄｋ}、キーＫ∈Ｒ^{ｌｋ×ｄｋ}、値Ｖ∈Ｒ^{ｌｋ×ｄｖ}に対して次式のように定義される。

　ここでｌ_ｑはクエリの長さ、ｌ_ｋはキーの長さ、ｄ_ｋはクエリとキーの次元数、ｄ_ｖは値の次元数である。

　クロス注意において、Ｑ，Ｋ，Ｖは、Ｗ_Ｑ∈Ｒ^ｄ×ｄｋ，Ｗ_Ｋ∈Ｒ^ｄ×ｄｋ，Ｗ_Ｖ∈Ｒ^ｄ×ｄｖを重みとして以下のように定義される。

ここでｔ_ｊは、デコーダにおいてｊ番目の目的言語文の単語を生成する際の内部状態である。また［］^Ｔは転置行列を表す。

　このときＱ＝［ｔ_{１：｜Ｙ｜}］^ＴＷ_Ｑとして原言語文と目的言語文の間のクロス注意の重み行列Ａ_{｜Ｙ｜×｜Ｘ｜}を定義する。

　これは目的言語文のｊ番目の単語ｙ_ｊの生成に対して原言語文の単語ｘ_ｉが寄与した割合を表すので、目的言語文の各単語ｙ_ｊについて原言語文の単語ｘ_ｉが対応する確率の分布を表すとみなすことができる。

　一般にＴｒａｎｓｆｏｒｍｅｒは複数の層（ｌａｙｅｒ）及び複数のヘッド（ｈｅａｄ，異なる初期値から学習された注意機構）を使用するが、ここでは説明を簡単にするために層及びヘッドの数を１とした。

　Ｇａｒｇらは、上から２番目の層において全てのヘッドのクロス注意を平均したものが単語対応の正解に最も近いと報告し、こうして求めた単語対応分布Ｇ^ｐを用いて複数ヘッドのうちの特定の一つのヘッドから求めた単語対応に対して以下のようなクロスエントロピー損失を定義し、

この単語対応の損失と機械翻訳の損失の重み付き線形和を最小化するようなマルチタスク学習（ｍｕｌｔｉ－ｔａｓｋ　ｌｅａｒｎｉｎｇ）を提案した［９］。式（１５）は、単語対応を、目的言語文の単語に対して原言語文のどの単語が対応しているかを決定する多値分類の問題とみなしていることを表す。

　Ｇａｒｇらの方法は、単語対応の損失を計算する際には式（１０）において、文頭からｊ番目の単語の直前までｔ_{１：ｉ－１}ではなく、目的言語文全体ｔ_{１：｜Ｙ｜}を使用する。また単語対応の教師データＧ^ｐとして、Ｔｒａｎｓｆｏｒｍｅｒに基づくｓｅｌｆ－ｔｒａｉｎｉｎｇではなく、ＧＩＺＡ＋＋から得られた単語対応を用いる。これらにより、ＧＩＺＡ＋＋を上回る単語対応精度を得られると報告している［９］。

　　＜ニューラル機械翻訳モデルに基づく教師あり単語対応＞
　次に、ニューラル機械翻訳モデルに基づく教師あり単語対応について説明する。原言語文Ｘ＝ｘ_{１：｜Ｘ｜}と目的言語文Ｙ＝ｙ_{１：｜Ｙ｜}に対して、単語位置の直積集合の部分集合を単語対応Ａと定義する。

　単語対応は、原言語文の単語から目的言語文の単語への多対多の離散的な写像と考えることができる。

　識別的（ｄｉｓｃｒｉｍｉｎａｔｉｖｅ）な単語対応では、原言語文と目的言語文から単語対応を直接的にモデル化する。

　例えば、Ｓｔｅｎｇｅｌ－Ｅｓｋｉｎらは、ニューラル機械翻訳の内部状態を用いて識別的に単語対応を求める方法を提案した［２０］。Ｓｔｅｎｇｅｌ－Ｅｓｋｉｎらの方法では、まずニューラル機械翻訳モデルにおけるエンコーダの内部状態の系列をｓ_１，...，ｓ_｜Ｘ｜、デコーダの内部状態の系列をｔ_１，...，ｔ_｜Ｙ｜とするとき、パラメータを共有する３層の順伝播ニューラルネットワークを用いて、これらを共通のベクトル空間に射影する。

　共通空間に射影された原言語文の単語系列と目的言語の単語系列の行列積を、ｓ′_ｉとｔ′_ｊの正規化されていない距離尺度として用いる。

　更に単語対応が前後の単語の文脈に依存するように、３×３のカーネルＷ_ｃｏｎｖを用いて畳み込み演算を行って、ａ_ｉｊを得る。

　原言語文の単語と目的言語文の単語の全ての組み合わせについて、それぞれの対が対応するか否かを判定する独立した二値分類問題として、二値クロスエントロピー損失を用いる。

ここで＾ａ_ｉｊは、原言語文の単語ｘ_ｉと目的言語文の単語ｙ_ｊが正解データにおいて対応しているか否かを表す。なお、本明細書のテキストにおいては、便宜上、文字の頭の上に置かれるべきハット"＾"を文字の前に記載している。

　Ｓｔｅｎｇｅｌ－Ｅｓｋｉｎらは、約１００万文の対訳データを用いて翻訳モデルを事前に学習した上で、人手で作成した単語対応の正解データ（１，７００文から５，０００文）を用いることにより、ＦａｓｔＡｌｉｇｎを大きく上回る精度を達成できたと報告している。

　　＜事前訓練済みモデルＢＥＲＴ＞
　続いて、事前訓練済みモデルＢＥＲＴについて説明する。ＢＥＲＴ［５］は、Ｔｒａｎｓｆｏｒｍｅｒに基づくエンコーダを用いて、入力系列の各単語に対して前後の文脈を考慮した単語埋め込みベクトルを出力する言語表現モデル（ｌａｎｇｕａｇｅ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｍｏｄｅｌ）である。典型的には、入力系列は一つの文、又は、二つの文を、特殊記号を挟んで連結したものである。

　ＢＥＲＴでは、入力系列の中でマスクされた単語を、前方及び後方の双方向から予測する穴埋め言語モデル（ｍａｓｋｅｄ　ｌａｎｇｕａｇｅ　ｍｏｄｅｌ）を学習するタスク、及び、与えられた二つの文が隣接する文であるか否かを判定する次文予測（ｎｅｘｔ　ｓｅｎｔｅｎｃｅ　ｐｒｅｄｉｃｔｉｏｎ）タスクを用いて、大規模な言語データから言語表現モデル（ｌａｎｇｕａｇｅ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｍｏｄｅｌ）を事前学習（ｐｒｅ－ｔｒａｉｎ）する。このような事前学習タスクを用いることにより、ＢＥＲＴは、一つの文の内部だけなく二つの文にまたがる言語現象に関する特徴を捉えた単語埋め込みベクトルを出力することができる。なおＢＥＲＴのような言語表現モデルを単に言語モデル（ｌａｎｇｕａｇｅ　ｍｏｄｅｌ）と呼ぶこともある。

　事前学習されたＢＥＲＴに適当な出力層を加え、対象とするタスクの学習データで転移学習（ｆｉｎｅｔｕｎｅ，ファインチューン）すると、意味テキスト類似度、自然言語推論（テキスト含意認識）、質問応答、固有表現抽出等様々なタスクで最高精度を達成できることが報告されている。なお、上記のファインチューンとは、事前学習済みのＢＥＲＴのパラメータを、目的のモデル（ＢＥＲＴに適当な出力層を加えたモデル）の初期値として使用して、目的のモデルの学習を行うことである。

　意味テキスト類似度、自然言語推論、質問応答のような文の対を入力とするタスクでは、'［ＣＬＳ］第１文［ＳＥＰ］第２文［ＳＥＰ］'のように二つの文を、特殊記号を用いて連結した系列をＢＥＲＴに入力として与える。ここで［ＣＬＳ］は二つの入力文の情報を集約するベクトルを作成するための特殊なトークンであり、［ＳＥＰ］は文の区切りを表すトークンである。

　意味テキスト類似度（ｓｅｍａｎｔｉｃ　ｔｅｘｔ　ｓｉｍｉｌａｒｉｔｙ，ＳＴＳ）のように入力された二つの文に対して数値（ＳＴＳでは０から５まで）を出力するタスクでは、［ＣＬＳ］に対してＢＥＲＴが出力するベクトルからニューラルネットワークを用いてその数値を予測する。

　自然言語推論（ｎａｔｕｒａｌ　ｌａｎｇｕａｇｅ　ｉｎｆｅｒｅｎｃｅ，ＮＬＩ）のように入力された二つの文に対して「含意する（ｅｎｔｒａｉｌｍｅｎｔ）」「矛盾する（ｃｏｎｔｒａｄｉｃｔｉｏｎ）」「中立（ｎｅｕｔｒａｌ）」のように複数のクラスから一つのクラスを選択するタスクでは、［ＣＬＳ］に対してＢＥＲＴが出力するベクトルからニューラルネットワークを用いてそのクラスを予測する。

　質問応答（ｑｕｅｓｔｉｏｎ　ａｎｓｗｅｒｉｎｇ，ＱＡ）のように入力された二つの文に対して片方の文に基づいて他方の文のスパンを予測するタスクでは、［ＣＬＳ］に対してＢＥＲＴが出力するベクトルから他方の文に抽出すべきスパンが存在するか否かを予測し、他方の文の各単語に対してＢＥＲＴが出力するベクトルからその単語が抽出すべきスパンの開始点になる確率及びとその単語が抽出すべきスパンの終了点となる確率を予測する。

　ＢＥＲＴはもともと英語を対象として作成されたが、現在では日本語をはじめ様々な言語を対象としたＢＥＲＴが作成され一般に公開されている。またＷｉｋｉｐｅｄｉａから１０４言語の単言語データを抽出し、これを用いて作成された汎用多言語モデルｍｕｌｔｉｌｉｎｇｕａｌ　ＢＥＲＴが一般に公開されている。

　更に対訳文を用いて穴埋め言語モデルにより事前学習した言語横断（ｃｒｏｓｓ　ｌａｎｇｕａｇｅ）言語モデルＸＬＭが提案され、言語横断テキスト分類等の応用ではｍｕｌｔｉｌｉｎｇｕａｌ　ＢＥＲＴより精度が高いと報告されており、事前学習済みのモデルが一般に公開されている［３］。

　（課題について）
　参考技術として説明した従来の再帰ニューラルネットワークに基づく単語対応やニューラル機械翻訳モデルに基づく教師なし単語対応では、統計的機械翻訳モデルに基づく教師なし単語対応と同等又は僅かに上回る精度しか達成できていない。

　従来のニューラル機械翻訳モデルに基づく教師あり単語対応は、統計的機械翻訳モデルに基づく教師なし単語対応に比べて精度が高い。しかし、統計的機械翻訳モデルに基づく方法も、ニューラル機械翻訳モデルに基づく方法も、翻訳モデルの学習のために大量(数百万文程度)の対訳データを必要とするという問題点があった。

　以下、上記の問題点を解決した本実施の形態に係る技術を説明する。

　（実施の形態に係る技術の概要）
　本実施の形態では、単語対応を言語横断スパン予測の問題から回答を算出する処理として実現している。まず、少なくとも単語対応を付与する言語対に関するそれぞれの単言語データから学習された事前学習済み多言語モデルを、人手による単語対応の正解から作成された言語横断スパン予測の正解データを用いてファインチューンすることにより、言語横断スパン予測モデルを学習する。次に、学習された言語横断スパン予測モデルを用いて単語対応の処理を実行する。

　上記のような方法により、本実施の形態では、単語対応を実行するためのモデルの事前学習に対訳データを必要とせず、少量の人手により作成された単語対応の正解データから高精度な単語対応を実現することが可能である。以下、本実施の形態に係る技術をより具体的に説明する。

　（装置構成例）
　図１に、本実施の形態における単語対応装置１００と事前学習装置２００を示す。単語対応装置１００は、本発明に係る技術により、単語対応処理を実行する装置である。事前学習装置２００は、多言語データから多言語モデルを学習する装置である。

　図１に示すように、単語対応装置１００は、言語横断スパン予測モデル学習部１１０と単語対応実行部１２０とを有する。

　言語横断スパン予測モデル学習部１１０は、単語対応正解データ格納部１１１、言語横断スパン予測問題回答生成部１１２、言語横断スパン予測正解データ格納部１１３、スパン予測モデル学習部１１４、及び言語横断スパン予測モデル格納部１１５を有する。なお、言語横断スパン予測問題回答生成部１１２を問題回答生成部と呼んでもよい。

　単語対応実行部１２０は、言語横断スパン予測問題生成部１２１、スパン予測部１２２、単語対応生成部１２３を有する。なお、言語横断スパン予測問題生成部１２１を問題生成部と呼んでもよい。

　事前学習装置２００は、既存技術に係る装置である。事前学習装置２００は、多言語データ格納部２１０、多言語モデル学習部２２０、事前学習済み多言語モデル格納部２３０を有する。多言語モデル学習部２２０が、少なくとも単語対応を求める対象となる二つの言語の単言語テキストを多言語データ格納部２１０から読み出すことにより、言語モデルを学習し、当該言語モデルを事前学習済み多言語モデルとして、事前学習済み多言語モデル格納部２３０に格納する。

　なお、本実施の形態では、何等かの手段で学習された事前学習済みの多言語モデルが言語横断スパン予測モデル学習部１１０に入力されればよいため、事前学習装置２００を備えずに、例えば、一般に公開されている汎用の事前学習済みの多言語モデルを用いることとしてもよい。

　本実施の形態における事前学習済み多言語モデルは、少なくとも単語対応を求める対象となる二つの言語の単言語テキストを用いて事前に訓練された言語モデルである。本実施の形態では、当該言語モデルとして、ｍｕｌｔｉｌｉｎｇｕａｌ　ＢＥＲＴを使用するが、それに限定されない。ＸＬＭ－ＲｏＢＥＲＴａ等、多言語テキストに対して文脈を考慮した単語埋め込みベクトルを出力できる事前学習済み多言語モデルであればどのような言語モデルを使用してもよい。

　なお、単語対応装置１００を学習装置と呼んでもよい。また、単語対応装置１００は、言語横断スパン予測モデル学習部１１０を備えずに、単語対応実行部１２０を備えてもよい。また、言語横断スパン予測モデル学習部１１０が単独で備えられた装置を学習装置と呼んでもよい。

　（単語対応装置１００の動作概要）
　図２は、単語対応装置１００の全体動作を示すフローチャートである。Ｓ１００において、言語横断スパン予測モデル学習部１１０に、事前学習済み多言語モデルが入力され、言語横断スパン予測モデル学習部１１０は、事前学習済み多言語モデルに基づいて、言語横断スパン予測モデルを学習する。

　Ｓ２００において、単語対応実行部１２０に、Ｓ１００で学習された言語横断スパン予測モデルが入力され、単語対応実行部１２０は、言語横断スパン予測モデルを用いて、入力文対（互いに翻訳である二つの文）における単語対応を生成し、出力する。

　　＜Ｓ１００＞
　図３のフローチャートを参照して、上記のＳ１００における言語横断スパン予測モデルを学習する処理の内容を説明する。ここでは、事前学習済み多言語モデルが既に入力され、スパン予測モデル学習部１２４の記憶装置に事前学習済み多言語モデルが格納されているとする。また、単語対応正解データ格納部１１１には、単語対応正解データが格納されている。

　Ｓ１０１において、言語横断スパン予測問題回答生成部１１２は、単語対応正解データ格納部１１１から、単語対応正解データを読み出し、読み出した単語対応正解データから言語横断スパン予測正解データを生成し、言語横断スパン予測正解データ格納部１１３に格納する。言語横断スパン予測正解データは、言語横断スパン予測問題（質問と文脈）とその回答の対の集合からなるデータである。

　Ｓ１０２において、スパン予測モデル学習部１１４は、言語横断スパン予測正解データ及び事前学習済み多言語モデルから言語横断スパン予測モデルを学習し、学習した言語横断スパン予測モデルを言語横断スパン予測モデル格納部１１５に格納する。

　　＜Ｓ２００＞
　次に、図４のフローチャートを参照して、上記のＳ２００における単語対応を生成する処理の内容を説明する。ここでは、スパン予測部１２２に言語横断スパン予測モデルが既に入力され、スパン予測部１２２の記憶装置に格納されているものとする。

　Ｓ２０１において、言語横断スパン予測問題生成部１２１に、第一言語文と第二言語文の対を入力する。Ｓ２０２において、言語横断スパン予測問題生成部１２１は、入力された文の対から言語横断スパン予測問題（質問と文脈）を生成する。

　次に、Ｓ２０３において、スパン予測部１２２は、言語横断スパン予測モデルを用いて、Ｓ２０２で生成された言語横断スパン予測問題に対してスパン予測を行って回答を得る。

　Ｓ２０４において、単語対応生成部１２３は、Ｓ２０３で得られた言語横断スパン予測問題の回答から、単語対応を生成する。Ｓ２０５において、単語対応生成部１２３は、Ｓ２０４で生成した単語対応を出力する。

　なお、本実施の形態における"モデル"は、ニューラルネットワークのモデルであり、具体的には、重みのパラメータ、関数等からなるものである。

　（ハードウェア構成例）
　本実施の形態における単語対応装置及び学習装置（総称して「装置」と呼ぶ）はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。

　上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図５は、上記コンピュータのハードウェア構成例を示す図である。図５のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

　（具体的な処理内容の説明）
　以下、本実施の形態における単語対応装置１００の処理内容をより具体的に説明する。

　　＜単語対応からスパン予測への定式化＞
　前述したように、本実施の形態では、単語対応の処理を言語横断スパン予測問題の処理として実行することとしている。そこで、まず、単語対応からスパン予測への定式化について、例を用いて説明する。単語対応装置１００との関連では、ここでは主に言語横断スパン予測モデル学習部１１０について説明する。

　　　――単語対応データについて――
　図６に、日本語と英語の単語対応データの例を示す。これは一つの単語対応データの例である。図６に示すとおり、一つの単語対応データは、第一言語（日本語）のトークン（単語）列、第二言語（英語）のトークン列、対応するトークン対の列、第一言語の原文、第二言語の原文の５つデータから構成される。

　第一言語（日本語）のトークン列、第二言語（英語）のトークン列はいずれもインデックス付けされている。トークン列の最初の要素（最も左にあるトークン）のインデックスである０から始まり、１、２、３、...のようにインデックス付けされている。

　例えば、３つ目のデータの最初の要素"０－１"は、第一言語の最初の要素"足利"が、第二言語の二番目の要素"ａｓｈｉｋａｇａ"に対応することを表す。また、"２４－２　２５－２　２６－２"は、"で"、"あ"、"る"がいずれも"ｗａｓ"に対応することを表す。

　本実施の形態では、単語対応を、ＳＱｕＡＤ形式の質問応答タスク［１８］と同様の言語横断スパン予測問題として定式化している。

　ＳＱｕＡＤ形式の質問応答タスクを行う質問応答システムには、Ｗｉｋｉｐｅｄｉａから選択された段落等の「文脈（ｃｏｎｔｅｘｔ）」と「質問（ｑｕｅｓｔｉｏｎ）」が与えられ、質問応答システムは、文脈の中の「スパン（ｓｐａｎ，部分文字列）」を「回答（ａｎｓｗｅｒ）」として予測する。

　上記のスパン予測と同様にして、本実施の形態の単語応答装置１００における単語対応実行部１２０は、目的言語文を文脈と見なし、原言語文の単語を質問と見なして、原言語文の単語の翻訳となっている、目的言語文の中の単語又は単語列を、目的言語文のスパンとして予測する。この予測には、本実施の形態における言語横断スパン予測モデルが用いられる。

　　　――言語横断スパン予測問題回答生成部１１２について――
　本実施の形態では、単語対応装置１００の言語横断スパン予測モデル学習部１１０において言語横断スパン予測モデルの教師あり学習を行うが、学習のためには正解データが必要である。

　本実施の形態では、図５に例示したような単語対応データが複数個、言語横断スパン予測モデル学習部１１０の単語対応正解データ格納部１１１に正解データとして格納され、言語横断スパン予測モデルの学習に使用される。

　ただし、言語横断スパン予測モデルは、言語横断で質問から回答（スパン）を予測するモデルであるため、言語横断で質問から回答（スパン）を予測する学習を行うためのデータ生成を行う。具体的には、単語対応データを言語横断スパン予測問題回答生成部１１２への入力とすることで、言語横断スパン予測問題回答生成部１１２が、単語対応データから、ＳＱｕＡＤ形式の言語横断スパン予測問題（質問）と回答（スパン、部分文字列）の対を生成する。以下、言語横断スパン予測問題回答生成部１１２の処理の例を説明する。

　図７に、図６に示した単語対応データをＳＱｕＡＤ形式のスパン予測問題に変換する例を示す。

　まず、図７の（ａ）で示す上半分の部分について説明する。図７における上半分（文脈、質問１、回答の部分）には、単語対応データの第一言語（日本語）の文が文脈として与えられ、第二言語（英語）のトークン"ｗａｓ"が質問１として与えられ、その回答が第一言語の文のスパン"である"であることが示されている。この"である"と"ｗａｓ"との対応は、図６の３つ目のデータの対応トークン対"２４－２　２５－２　２６－２"に相当する。つまり、言語横断スパン予測問題回答生成部１１２は、正解の対応トークン対に基づいて、ＳＱｕＡＤ形式のスパン予測問題（質問と文脈）と回答の対を生成する。

　後述するように、本実施の形態では、単語対応実行部１２０のスパン予測部１２２が、言語横断スパン予測モデルを用いて、第一言語文（質問）から第二言語文（回答）への予測と、第二言語文（質問）から第一言語文（回答）への予測のそれぞれの方向についての予測を行う。従って、言語横断スパン予測モデルの学習時にも、このように双方向で予測を行うように学習を行う。

　なお、上記のように双方向で予測を行うことは一例である。第一言語文（質問）から第二言語文（回答）への予測のみ、又は、第二言語文（質問）から第一言語文（回答）への予測のみの片方向だけの予測を行うこととしてもよい。例えば、英語教育等において、英語文と日本語文が同時に表示されていて、英語文の任意の文字列（単語列）をマウス等で選択してその対訳となる日本語文の文字列（単語列）をその場で計算して表示する処理などの場合には、片方向だけの予測でよい。

　そのため、本実施の形態の言語横断スパン予測問題回答生成部１１２は、一つの単語対応データを、第一言語の各トークンから第二言語の文の中のスパンを予測する質問の集合と、第二言語の各トークンから第一言語の文の中のスパンを予測する質問の集合に変換する。つまり、言語横断スパン予測問題回答生成部１１２は、一つの単語対応データを、第一言語の各トークンからなる質問の集合及びそれぞれの回答（第二言語の文の中のスパン）と、第二言語の各トークンからなる質問の集合及びそれぞれの回答（第一言語の文の中のスパン）とに変換する。

　もしも一つのトークン（質問）が複数のスパン（回答）に対応する場合は、その質問は複数の回答を持つと定義する。つまり、言語横断スパン予測問題回答生成部１１２は、その質問に対して複数の回答を生成する。また、もしも、あるトークンに対応するスパンがない場合、その質問は回答がないと定義する。つまり、言語横断スパン予測問題回答生成部１１２は、その質問に対する回答をなしとする。

　本実施の形態では、質問の言語を原言語（ｓｏｕｒｃｅ　ｌａｎｇｕａｇｅ）と呼び、文脈と回答（スパン）の言語を目的言語（ｔａｒｇｅｔ　ｌａｎｇｕａｇｅ）と呼んでいる。図７に示す例では、原言語は英語であり、目的言語は日本語であり、この質問を「英語から日本語（Ｅｎｇｌｉｓｈ－ｔｏ－Ｊａｐａｎｅｓｅ）」への質問と呼ぶ。

　もしも質問が"ｏｆ"のような高頻度の単語であった場合、原言語文に複数回出現する可能性があるので、原言語文におけるその単語の文脈を考慮しなければ、目的言語文の対応するスパンを見つけることが難しくなる。そこで、本実施の形態の言語横断スパン予測問題回答生成部１１２は、文脈付きの質問を生成することとしている。

　図７の（ｂ）で示す下半分の部分に、原言語文の文脈付きの質問の例を示す。質問２では、質問である原言語文のトークン"ｗａｓ"に対して、文脈の中の直前の二つのトークン"Ｙｏｓｈｉｍｉｔｓｕ　ＡＳＨＩＫＡＧＡ"と直後の二つのトークン"ｔｈｅ　３ｒｄ"が'¶'を境界記号（ｂｏｕｎｄａｒｙ　ｍａｒｋｅｒ）として付加されている。

　また、質問３では、原言語文全体を文脈として使用し、２つの境界記号で質問となるトークンを挟むようにしている。実験で後述するように、質問に付加される文脈は長ければ長いほどよいので、本実施の形態では、質問３のように原言語文全体を質問の文脈として使用している。

　上記のとおり、本実施の形態では、境界記号として段落記号（ｐａｒａｇｒａｐｈ　ｍａｒｋ）'¶'を使用している。この記号は英語ではピルクロウ（ｐｉｌｃｒｏｗ）と呼ばれる。ピルクロウは、ユニコード文字カテゴリ（Ｕｎｉｃｏｄｅ　ｃｈａｒａｃｔｅｒ　ｃａｔｅｇｏｒｙ）の句読点（ｐｕｎｃｔｕａｔｉｏｎ）に所属し、多言語ＢＥＲＴの語彙の中に含まれ、通常のテキストにはほとんど出現しないことから、本実施の形態において、質問と文脈を分ける境界記号としている。同様の性質を満足する文字又は文字列であれば、境界記号は何を使用してもよい。

　また、単語対応データの中には、空対応（ｎｕｌｌ　ａｌｉｇｎｍｅｎｔ，対応先がないこと）が多く含まれている。そこで、本実施の形態では、ＳＱｕＡＤｖ２．０［１７］の定式化を使用している。ＳＱｕＡＤｖ１．１とＳＱｕＡＤＶ２．０の違いは、質問に対する回答が文脈の中に存在しない可能性を明示的に扱うことである。

　つまり、ＳＱｕＡＤＶ２．０の形式では、回答できない質問には回答できないことが明示的に示されるため、単語対応データの中の空対応（ｎｕｌｌ　ａｌｉｇｎｍｅｎｔ，対応先がないこと）に対して、適切に質問と回答（回答できないこと）を生成できる。

　単語対応データに依存して、単語分割を含むトークン化（ｔｏｋｅｎｉｚａｔｉｏｎ）や大文字小文字（ｃａｓｉｎｇ）の扱いが異なるので、本実施の形態では、原言語文のトークン列は、質問を作成する目的だけに使用することとしている。

　そして、言語横断スパン予測問題回答生成部１１２が、単語対応データをＳＱｕＡＤ形式に変換する際には、質問と文脈には、トークン列ではなく、原文を使用する。すなわち、言語横断スパン予測問題回答生成部１１２は、回答として、目的言語文（文脈）からスパンの単語又は単語列とともに、スパンの開始位置と終了位置を生成するが、その開始位置と終了位置は、目的言語文の原文の文字位置へのインデックスとなる。

　なお、従来技術における単語対応手法は、トークン列を入力とする場合が多い。すなわち、図６の単語対応データの例でいえば、最初の２つのデータが入力であることが多い。それに対して本実施の形態では、原文とトークン列の両方を言語横断スパン予測問題回答生成部１１２への入力とすることにより、任意のトークン化に対して柔軟に対応できるシステムになっている。

　言語横断スパン予測問題回答生成部１１２により生成された、言語横断スパン予測問題（質問と文脈）と回答の対のデータは、言語横断スパン予測正解データ格納部１１３に格納される。

　　――スパン予測モデル学習部１１４について――
　スパン予測モデル学習部１１４は、言語横断スパン予測正解データ格納部１１３から読み出した正解データを用いて、言語横断スパン予測モデルの学習を行う。すなわち、スパン予測モデル学習部１１４は、言語横断スパン予測問題（質問と文脈）を言語横断スパン予測モデルに入力し、言語横断スパン予測モデルの出力が正解の回答になるように、言語横断スパン予測モデルのパラメータを調整する。この学習は、第一言語文から第二言語文への言語横断スパン予測と、第二言語文から第一言語文への言語横断スパン予測のそれぞれで行われる。

　学習された言語横断スパン予測モデルは、言語横断スパン予測モデル格納部１１５に格納される。また、単語対応実行部１２０により、言語横断スパン予測モデル格納部１１５から言語横断スパン予測モデルが読み出され、スパン予測部１２２に入力される。

　言語横断スパン予測モデルの詳細を以下で説明する。また、単語対応実行部１２０の処理の詳細も以下で説明する。

　　＜多言語ＢＥＲＴを用いた言語横断スパン予測＞
　既に説明したとおり、本実施の形態における単語対応実行部１２０のスパン予測部１２２は、言語横断スパン予測モデル学習部１１０により学習された言語横断スパン予測モデルを用いて、入力された文の対から単語対応を生成する。つまり、入力された文の対に対して言語横断スパン予測を行うことで、単語対応を生成する。

　　――言語横断スパン予測モデルについて――
　本実施の形態において、言語横断スパン予測のタスクは次のように定義される。

　長さ｜Ｘ｜文字の原言語文Ｘ＝ｘ_１ｘ_２...ｘ_｜Ｘ｜、及び、長さ｜Ｙ｜文字の目的言語文Ｙ＝ｙ_１ｙ_２...ｙ_｜Ｙ｜があるとする。原言語文において文字位置ｉから文字位置ｊまでの原言語トークンｘ_ｉ：ｊ＝ｘ_ｉ...ｘ_ｊに対して、目的言語文において文字位置ｋから文字位置ｌまでの目的言語スパンｙ_ｋ：ｌ＝ｙ_ｋ...ｙ_ｌを抽出することが言語横断スパン予測のタスクである。

　単語対応実行部１２０のスパン予測部１２２は、言語横断スパン予測モデル学習部１１０により学習された言語横断スパン予測モデルを用いて、上記のタスクを実行する。本実施の形態では、言語横断スパン予測モデルとして多言語ＢＥＲＴ［５］を用いている。

　もともとＢＥＲＴは質問応答や自然言語推論のような単言語タスクのために作成された言語モデルであるが、本実施の形態における言語横断タスクに対しても非常に良く機能する。なお、本実施の形態において使用する言語モデルはＢＥＲＴに限定されるわけではない。

　より具体的には、本実施の形態においては、一例として、文献［５］に開示されたＳＱｕＡＤｖ２．０タスク用のモデルと同様のモデルを言語横断スパン予測モデルとして使用している。これらのモデル（ＳＱｕＡＤｖ２．０タスク用のモデル、言語横断スパン予測モデル）は、事前訓練されたＢＥＲＴに文脈中の開始位置と終了位置を予測する二つの独立した出力層を加えたモデルである。

　言語横断スパン予測モデルにおいて、目的言語文の各位置が回答スパンの開始位置と終了位置になる確率をｐ_{ｓｔａｒｔ}及びｐ_ｅｎｄとし、原言語スパンｘ_ｉ：ｊが与えられた際の目的言語スパンｙ_ｋ：ｌのスコアω^Ｘ→Ｙ _ｉｊｋｌを開始位置の確率と終了位置の確率の積と定義し、この積を最大化する（＾ｋ，＾ｌ）を最良回答スパン（ｂｅｓｔ　ａｎｓｗｅｒ　ｓｐａｎ）としている。

　ＳＱｕＡＤｖ２．０タスク用のモデル及び言語横断スパン予測モデルのようなＢＥＲＴのＳＱｕＡＤモデルでは、まず質問と文脈が連結された"［ＣＬＳ］ｑｕｅｓｔｉｏｎ［ＳＥＰ］ｃｏｎｔｅｘｔ［ＳＥＰ］"という系列を入力とする。ここで［ＣＬＳ］と［ＳＥＰ］は、それぞれ分類トークン（ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｔｏｋｅｎ）と分割トークン（ｓｅｐａｒａｔｏｒ　ｔｏｋｅｎ）と呼ぶ。そして開始位置と終了位置はこの系列に対するインデックスとして予測される。回答が存在しない場合を想定するＳＱｕＡＤｖ２．０モデルでは、回答が存在しない場合、開始位置と終了位置は［ＣＬＳ］へのインデックスとなる。

　本実施の形態における言語横断スパン予測モデルと、文献［５］に開示されたＳＱｕＡＤｖ２．０タスク用のモデルとは、ニューラルネットワークとしての構造は基本的には同じであるが、ＳＱｕＡＤｖ２．０タスク用のモデルは単言語の事前学習済み言語モデルを使用し、同じ言語の間でスパンを予測するようなタスクの学習データでｆｉｎｅ－ｔｕｎｅ（追加学習／転移学習／微調整／ファインチューン）するのに対して、本実施の形態の言語横断スパン予測モデルは、言語横断スパン予測に係る二つの言語を含む事前学習済み多言語モデルを使用し、二つの言語の間でスパンを予測するようなタスクの学習データでｆｉｎｅ－ｔｕｎｅする点が異なっている。

　なお、既存のＢＥＲＴのＳＱｕＡＤモデルの実装では、回答文字列を出力するだけであるが、本実施の形態の言語横断スパン予測モデルは、開始位置と終了位置を出力することができるように構成されている。

　ＢＥＲＴの内部において、つまり、本実施の形態の言語横断スパン予測モデルの内部において、入力系列は最初にトークナイザ（例：ＷｏｒｄＰｉｅｃｅ）によりトークン化され、次にＣＪＫ文字（漢字）は一つの文字を単位として分割される。

　既存のＢＥＲＴのＳＱｕＡＤモデルの実装では、開始位置や終了位置はＢＥＲＴ内部のトークンへのインデックスであるが、本実施の形態の言語横断スパン予測モデルではこれを文字位置へのインデックスとしている。これにより単語対応を求める入力テキストのトークン（単語）とＢＥＲＴ内部のトークンとを独立に扱うことを可能としている。

　図８は、本実施の形態の言語横断スパン予測モデルを用いて、質問となる原言語文（英語）の中のトークン"Ｙｏｓｈｉｍｉｔｓｕ"に対して、目的言語文（日本語）の文脈から、回答となる目的言語（日本語）スパンを予測した処理を示している。図８に示すとおり、"Ｙｏｓｈｉｍｉｔｓｕ"は４つのＢＥＲＴトークンから構成されている。なお、ＢＥＲＴ内部のトークンであるＢＥＲＴトークンには、前の語彙との繋がりを表す「＃＃」（接頭辞）が追加されている。また、入力トークンの境界は点線で示されている。なお、本実施の形態では、「入力トークン」と「ＢＥＲＴトークン」を区別している。前者は学習データにおける単語区切りの単位であり、図８において破線で示されている単位である。後者はＢＥＲＴの内部で使用されている区切りの単位であり、図８において空白で区切られている単位である。

　図８に示す例では、回答として、"義満"，"義満（あしかがよしみつ"，"足利義満"，"義満（"，"義満（あしかがよし"の５つの候補が示され、"義満"が正解である。

　ＢＥＲＴにおいては、ＢＥＲＴ内部のトークンを単位としてスパンを予測するので、予測されたスパンは、必ずしも入力のトークン（単語）の境界と一致しない。そこで、本実施の形態では、"義満（あしかがよし"のように目的言語のトークン境界と一致しない目的言語スパンに対しては、予測された目的言語スパンに完全に含まれている目的言語の単語、すなわちこの例では"義満"，"（"，"あしかが"を原言語トークン（質問）に対応させる処理を行っている。この処理は、予測時だけに行われるものであり、単語対応生成部１２３により行われる。学習時には、スパン予測の第１候補と正解を開始位置及び終了位置に関して比較する損失関数に基づく学習が行われる。

　　――言語横断スパン予測問題生成部１２１、スパン予測部１２２について――
　言語横断スパン予測問題生成部１２１は、入力された第一言語文と第二言語文のそれぞれに対し、質問と文脈が連結された"［ＣＬＳ］ｑｕｅｓｔｉｏｎ［ＳＥＰ］ｃｏｎｔｅｘｔ［ＳＥＰ］"の形式のスパン予測問題を質問（入力トークン（単語））毎に作成し、スパン予測部１２２へ出力する。ただし、ｑｕｅｓｔｉｏｎは、前述したように、「"Yoshimitsu ASHIKAGA ¶ was ¶ the 3rd Seii Taishogun of the Muromachi Shogunate and reigned from 1368 to1394.」のように、¶を境界記号に使用した文脈付きの質問としている。

　言語横断スパン予測問題生成部１２１により、第一言語文（質問）から第二言語文（回答）へのスパン予測の問題と、第二言語文（質問）から第一言語文（回答）へのスパン予測の問題が生成される。

　スパン予測部１２２は、言語横断スパン予測問題生成部１２１により生成された各問題（質問と文脈）を入力することで、質問毎に回答（予測されたスパン）と確率を算出し、質問毎の回答（予測されたスパン）と確率を単語対応生成部１２３に出力する。

　なお、上記の確率は、最良回答スパンにおける開始位置の確率と終了位置の確率の積である。単語対応生成部１２３の処理については以下で説明する。

　　＜単語対応の対称化＞
　本実施の形態の言語横断スパン予測モデルを用いたスパン予測では、原言語トークンに対して目的言語スパンを予測するので、参考文献［１］に記載のモデルと同様に、原言語と目的言語は非対称である。本実施の形態では、スパン予測に基づく単語対応の信頼性を高めるために、双方向の予測を対称化する方法を導入している。

　まず、参考として、単語対応を対称化する従来例を説明する。参考文献［１］に記載のモデルに基づく単語対応を対称化する方法は、文献［１６］により最初に提案された。代表的な統計翻訳ツールキットＭｏｓｅｓ［１１］では、集合積（ｉｎｔｅｒｓｅｃｔｉｏｎ）、集合和（ｕｎｉｏｎ）、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌ等のヒューリスティクスが実装され、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌがデフォールトである。二つの単語対応の集合積（共通集合）は、適合率（ｐｒｅｃｉｓｉｏｎ）が高く、再現率（ｒｅｃａｌｌ）が低い。二つの単語対応の集合和（和集合）は、適合率が低く、再現率が高い。ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌは集合積と集合和の中間的な単語対応を求める方法である。

　　――単語対応生成部１２３について――
　本実施の形態では、単語対応生成部１２３が、各トークンに対する最良スパンの確率を、二つの方向について平均し、これが予め定めた閾値以上であれば、対応しているとみなす。この処理は、単語対応生成部１２３が、スパン予測部１２２（言語横断スパン予測モデル）からの出力を用いて実行する。なお、図８を参照して説明したとおり、回答として出力される予測されたスパンは必ずしも単語区切りと一致しないので、単語対応生成部１２３は、予測スパンを片方向の単語単位の対応になるよう調整する処理も実行する。単語対応の対称化について、具体的には下記のとおりである。

　文Ｘにおいて開始位置ｉ、終了位置ｊのスパンをｘ_ｉ：ｊとする。文Ｙにおいて開始位置ｋ、終了位置ｌのスパンをｙ_ｋ：ｌとする。トークンｘ_ｉ：ｊがスパンｙ_ｋ：ｌを予測する確率をω^Ｘ→Ｙ _ｉｊｋｌとし、トークンｙ_ｋ：ｌがスパンｘ_ｉ：ｊを予測する確率をω^Ｙ→Ｘ _ｉｊｋｌとする。トークンｘ_ｉ：ｊとトークンｙ_ｋ：ｌの対応ａ_ｉｊｋｌの確率をω_ｉｊｋｌとするとき、本実施の形態では、ω_ｉｊｋｌを、ｘ_ｉ：ｊから予測した最良スパンｙ_{＾ｋ：＾ｌ}の確率ω^Ｘ→Ｙ _{ｉｊ＾ｋ＾ｌ}と、ｙ_ｋ：ｌから予測した最良スパンｘ_{＾ｉ：＾ｊ}の確率ω^Ｙ→Ｘ _{＾ｉ＾ｊｋｌ}の平均として算出する。

　ここでＩ_Ａ（ｘ）は指標関数（ｉｎｄｉｃａｔｏｒ　ｆｕｎｃｔｉｏｎ）である。Ｉ_Ａ（ｘ）は、Ａが真のときｘを返し、それ以外は０を返す関数である。本実施の形態では、ω_ｉｊｋｌが閾値以上のときにｘ_ｉ：ｊとｙ_ｋ：ｌが対応するとみなす。ここでは閾値を０．４とする。ただし、０．４は例であり、０．４以外の値を閾値として使用してもよい。

　本実施の形態で使用する対称化の方法を双方向平均（ｂｉｄｉｒｅｃｔｉｏｎａｌ　ａｖｅｒａｇｅ，ｂｉｄｉ－ａｖｇ）と呼ぶことにする。双方向平均は、実装が簡単であり、集合和と集合積の中間となる単語対応を求めるという点では、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌと同等の効果がある。なお、平均を用いることは一例である。例えば、確率ω^Ｘ→Ｙ _{ｉｊ＾ｋ＾ｌ}と確率ω^Ｙ→Ｘ _{＾ｉ＾ｊｋｌ}の重み付き平均を用いてもよいし、これらのうちの最大値を用いてもよい。

　図９に、日本語から英語へのスパン予測（ａ）と英語から日本語へのスパン予測（ｂ）を双方向平均により対称化したもの（ｃ）を示す。

　図９の例において、例えば、"言語"から予測した最良スパン"ｌａｎｇｕａｇｅ"の確率ω^Ｘ→Ｙ _{ｉｊ＾ｋ＾ｌ}が０．８であり、"ｌａｎｇｕａｇｅ"から予測した最良スパン"言語"の確率ω^Ｙ→Ｘ _{＾ｉ＾ｊｋｌ}が０．６であり、その平均が０．７である。０．７は閾値以上であるので、"言語"と"ｌａｎｇｕａｇｅ"は対応すると判断できる。よって、単語対応生成部１２３は、"言語"と"ｌａｎｇｕａｇｅ"の単語対を、単語対応の結果の１つとして生成し、出力する。

　図９の例において、"ｉｓ"と"で"という単語対は、片方向（英語から日本語）からしか予測されていないが、双方向平均確率が閾値以上なので対応しているとみなされる。

　閾値０．４は、後述する日本語と英語の単語対応の学習データを半分に分け、片方を訓練データ、もう片方をテストデータとする予備実験により決定した閾値である。後述する全ての実験でこの値を使用した。各方向のスパン予測は独立に行われるので、対称化のためにスコアを正規化する必要が生じる可能性があるが、実験では双方向を一つのモデルで学習しているので正規化の必要はなかった。

　　（実施の形態の効果）
　本実施の形態で説明した単語対応装置１００により、単語対応を付与する言語対に関する大量の対訳データを必要とせず、従来よりも少量の教師データ（人手により作成された正解データ）から、従来よりも高精度な教師あり単語対応を実現できる。

　（実験について）
　本実施の形態に係る技術を評価するために、単語対応の実験を行ったので、以下、実験方法と実験結果について説明する。

　　＜実験データについて＞
　図１０に、中国語－英語（Ｚｈ－Ｅｎ）、日本語－英語（Ｊａ－Ｅｎ）、ドイツ語－英語（Ｄｅ－Ｅｎ）、ルーマニア語－英語（Ｒｏ－Ｅｎ）、英語－フランス語（Ｅｎ－Ｆｒ）の５つの言語対について、人手により作成した単語対応の正解（ｇｏｌｄ　ｗｏｒｄ　ａｌｉｇｎｍｅｎｔ）の訓練データとテストデータの文数を示す。また、図１０の表にはリザーブしておくデータの数も示されている。

　従来技術［２０］を用いた実験では、Ｚｈ－Ｅｎデータを使用し、従来技術［９］の実験では、Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒのデータを使用した。本実施の形態の技術に係る実験では、世界で最も遠い（ｄｉｓｔａｎｔ）言語対の一つであるＪａ－Ｅｎデータを加えた。

　Ｚｈ－Ｅｎデータは、GALE Chinese-English Parallel Aligned Treebank［１２］から得たもので、ニュース放送（ｂｒｏａｄｃａｓｔｉｎｇ　ｎｅｗｓ）、ニュース配信（ｎｅｗｓ　ｗｉｒｅ）、Ｗｅｂデータ等を含む。文献［２０］に記載されている実験条件にできるだけ近付けるために、中国語が文字単位で分割された（ｃｈａｒａｃｔｅｒ　ｔｏｋｅｎｉｚｅｄ）対訳テキストを使用し、対応誤りやタイムスタンプ等を取り除いてクリーニングし、無作為に訓練データ８０％，テストデータ１０％，リザーブ１０％に分割した。

　日本語－英語データとして、ＫＦＴＴ単語対応データ［１４］を用いた。Kyoto Free Translation Task (KFTT)（http://www.phontron.com/kftt/index.html）は、京都に関する日本語Ｗｉｋｉｐｅｄｉａの記事を人手により翻訳したものであり、４４万文の訓練データ、１１６６文の開発データ、１１６０文のテストデータから構成される。ＫＦＴＴ単語対応データは、ＫＦＴＴの開発データとテストデータの一部に対して人手で単語対応を付与したもので、開発データ８ファイルとテストデータ７ファイルからなる。本実施の形態に係る技術の実験では、開発データ８ファイルを訓練に使用し、テストデータのうち４ファイルをテストに使用して、残りはリザーブとした。

　Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒデータは、文献［２７］に記載されているものである、著者らは前処理と評価のためのスクリプトを公開している（https://github.com/lilt/alignment-scripts）。従来技術［９］では、これらのデータを実験に使用している。Ｄｅ－Ｅｎデータは文献［２４］（https://www-i6.informatik.rwth-aachen.de/goldAlignment/）に記載されている。Ｒｏ－ＥｎデータとＥｎ－Ｆｒデータは、HLT-NAACL-2003 workshop on Building and Using Parallel Texts［１３］（https://eecs.engin.umich.edu/）の共通タスクとして提供されたものである。Ｅｎ－Ｆｒデータは、もともと文献［１５］に記載されている。Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒデータの文数は５０８，２４８，４４７である。Ｄｅ－ＥｎとＥｎ－Ｆｒについて、本実施の形態では３００文を訓練に使用し、Ｒｏ－Ｅｎについては１５０　文を訓練に使用した。残りの文はテストに使用した。

　　＜単語対応の精度の評価尺度＞
　単語対応の評価尺度として、本実施の形態では、適合率（ｐｒｅｃｉｓｉｏｎ）と再現率（ｒｅｃａｌｌ）に対して等しい重みをもつＦ１スコアを用いる。

　一部の従来研究はＡＥＲ（ａｌｉｇｎｍｅｎｔ　ｅｒｒｏｒ　ｒａｔｅ，単語誤り率）［１６］しか報告していないので、従来技術と本実施の形態に係る技術との比較のためにＡＥＲも使用する。

　人手で作成した正解単語対応（ｇｏｌｄ　ｗｏｒｄ　ａｌｉｇｎｍｅｎｔ）が確実な対応（ｓｕｒｅ，Ｓ）と可能な対応（ｐｏｓｓｉｂｌｅ，Ｐ）から構成されるとする。ただしＳ⊆Ｐである。単語対応Ａの適合率（ｐｒｅｃｉｓｉｏｎ）、再現率（ｒｅｃａｌｌ）、ＡＥＲを以下のように定義する。

　文献［７］では、ＡＥＲは適合率を重視し過ぎるので欠陥があると指摘している。つまり、システムにとって確信度が高い少数の対応点だけを出力すると、不当に小さい（＝良い）値を出すことができる。従って、本来、ＡＥＲは使用すべきではない。しかし、従来手法では、文献［９］がＡＥＲを使用している。もしも、ｓｕｒｅとｐｏｓｓｉｂｌｅの区別をすると、再現率と適合率は、ｓｕｒｅとｐｏｓｓｉｂｌｅの区別をしない場合と異なることに注意が必要である。５つのデータのうち、Ｄｅ－ＥｎとＥｎ－Ｆｒにはｓｕｒｅ　とｐｏｓｓｉｂｌｅの区別がある。

　　＜単語対応の精度の比較＞
　図１１に、本実施の形態に係る技術と従来技術との比較を示す。５つの全てのデータについて本実施の形態に係る技術は全ての従来技術よりも優れている。

　例えばＺｈ－Ｅｎデータでは、本実施の形態に係る技術はＦ１スコア８６．７を達成し、教師あり学習による単語対応の現在最高精度（ｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔ）である文献［２０］に報告されているＤｉｓｃＡｌｉｇｎのＦ１スコア７３．４より１３．３ポイント高い。文献［２０］の方法は、翻訳モデルを事前訓練するために４百万文対の対訳データを使用しているのに対して、本実施の形態に係る技術では事前訓練に対訳データを必要としない。Ｊａ－Ｅｎデータでは、本実施の形態はＦ１スコア７７．６を達成し、これはＧＩＺＡ＋＋のＦ１スコア５７．８より２０ポイント高い。

　Ｄｅ－ＥＮ，Ｒｏ－ＥＮ，Ｅｎ－Ｆｒデータについては、教師なし学習による単語対応の現在最高精度を達成している文献［９］の方法がＡＥＲのみを報告しているので、本実施の形態でもＡＥＲで評価する。比較のために同じデータに対するＭＧＩＺＡのＡＥＲや従来の他の手法のＡＥＲも記載する［２２，１０］。

　実験に際して、Ｄｅ－Ｅｎデータはｓｕｒｅとｐｏｓｓｉｂｌｅの両方の単語対応点を本実施の形態の学習に使用したが、Ｅｎ－Ｆｒデータはとても雑音が多いのでｓｕｒｅだけを使用した。Ｄｅ－Ｅｎ，Ｒｏ－Ｅｎ，Ｅｎ－Ｆｒデータに対する本実施の形態のＡＥＲは、１１．４，１２．２，４．０であり、文献［９］の方法より明らかに低い。

　教師あり学習の精度と教師なし学習の精度の精度を比較することは、機械学習の評価としては明らかに不公平である。もともと評価用に人手で作成された正解データよりも少ない量の正解データ（１５０文から３００文程度）を使って、従来報告されている最高精度を上回る精度を達成できることができるので、教師あり単語対応は高い精度を得るための実用的な方法であることを示すことがこの実験の目的である。

　　＜対称化の効果＞
　本実施の形態における対称化の方法である双方向平均（ｂｉｄｉ－ａｖｇ）の有効性を示すために、図１２に二方向の予測、集合積、集合和、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌ，ｂｉｄｉ－ａｖｇの単語対応精度を示す。ａｌｉｇｎｍｅｎｔ単語対応精度は目的言語の正書法に大きく影響される。日本語や中国語のように単語と単語の間にスペースを入れない言語では、英語への（ｔｏ－Ｅｎｇｌｉｓｈ）スパン予測精度は、英語からの（ｆｒｏｍ－Ｅｎｇｌｉｓｈ）スパン予測精度より大きく高い。このような場合、ｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌの方がｂｉｄｉ－ａｖｇより良い。一方、ドイツ語、ルーマニア語、フランス語のように単語間にスペースを入れる言語では、英語へのスパン予測と英語からのスパン予測に大きな違いはなく、ｂｉｄｉ－ａｖｇよりｇｒｏｗ－ｄｉａｇ－ｆｉｎａｌの方がよい。Ｅｎ－Ｆｒデータでは集合積が、一番精度が高いが、これはもともとデータに雑音が多いためであると思われる。

　　＜原言語文脈の重要性＞
　図１３に、原言語単語の文脈の大きさを変えた際の単語対応精度の変化を示す。ここではＪａ－Ｅｎデータを使用した。原言語単語の文脈は目的言語スパンの予測に非常に重要であることがわかる。

　文脈がない場合、本実施の形態のＦ１スコアは５９．３であり、ＧＩＺＡ＋＋のＦ１スコア５７．６よりわずかに高い程度である。しかし前後２単語の文脈を与えるだけで７２．０になり、文全体を文脈として与えると７７．６になる。

　　＜学習曲線＞
　図１４に、Ｚｈ－Ｅｎデータを使った場合における本実施の形態の単語対応手法の学習曲線を示す。学習データが多ければ多いほど精度が高いのは当然であるが、少ない学習データでも従来の教師あり学習手法より精度が高い。学習データが３００文の際の本実施の形態に係る技術のＦ１スコア７９．６は、現在最高精度である文献［２０］の手法が４８００文を使って学習した際のＦ１スコア７３．４より６．２ポイント高い。

　（実施の形態のまとめ）
　以上説明したように、本実施の形態では、互いに翻訳になっている二つの文において単語対応を求める問題を、ある言語の文の各単語に対応する別の言語の文の単語又は連続する単語列（スパン）を独立に予測する問題（言語横断スパン予測）の集合として捉え、人手により作成された少数の正解データからニューラルネットワークを用いて言語横断スパン予測器を学習（教師あり学習）することにより、高精度な単語対応を実現している。

　言語横断スパン予測モデルは、複数の言語についてそれぞれの単言語テキストだけを使って作成された事前学習済み多言語モデルを、人手により作成された少数の正解データを用いてファインチューニングすることにより作成する。Ｔｒａｎｓｆｏｒｍｅｒ等の機械翻訳モデルをベースとする従来手法が翻訳モデルの事前学習に数百万文対の対訳データを必要とするのと比較すると、利用できる対訳文の量が少ない言語対や領域に対しても本実施の形態に係る技術を適用することができる。

　本実施の形態では、人手により作成された正解データが３００文程度あれば、従来の教師あり学習や教師なし学習を上回る単語対応精度を達成することができる。文献［２０］によれば、３００文程度の正解データは数時間で作成することができるので、本実施の形態により、現実的なコストで高い精度の単語対応を得ることができる。

　また、本実施の形態では、単語対応を、ＳＱｕＡＤｖ２．０形式の言語横断スパン予測タスクという汎用的な問題に変換したことにより、多言語の事前学習済みモデルや質問応答に関する最先端の技術を容易に取り入れて性能向上を図ることができる。例えば、より高い精度のモデルを作るためにＸＬＭ－ＲｏＢＥＲＴａ［２］を用いたり、より少ない計算機資源で動くコンパクトなモデルを作るためにｄｉｓｔｉｌｍＢＥＲＴ［１９］を使うことが可能である。

　（付記）
　本明細書には、少なくとも下記付記各項の単語対応装置、学習装置、単語対応方法、プログラム、及び記憶媒体が開示されている。なお、下記の付記項１、７、１１の「言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測する」について、「言語横断のスパン予測問題とその回答からなる」は「正解データ」に係り、「...．正解データを用いて作成した」は「言語横断スパン予測モデル」に係る。
（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成し、
　言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測する
　単語対応装置。
（付記項２）
　前記言語横断スパン予測モデルは、前記言語横断のスパン予測問題とその回答からなる前記正解データを用いて事前学習済み多言語モデルの追加学習を行うことにより得られたモデルである
　付記項１に記載の単語対応装置。
（付記項３）
　前記プロセッサは、前記スパン予測問題の回答となるスパンを予測する際に、
　前記第一言語文から前記第二言語文へのスパン予測と、前記第二言語文から前記第一言語文へのスパン予測とからなる双方向の予測を実行する、又は、
　前記第一言語文から前記第二言語文へのスパン予測のみ、あるいは、前記第二言語文から前記第一言語文へのスパン予測のみからなる片方向の予測を実行する
　付記項１又は２に記載の単語対応装置。
（付記項４）
　前記プロセッサは、前記第一言語文から前記第二言語文へのスパン予測における第一スパンの質問により第二スパンを予測する確率と、前記第二言語文から前記第一言語文へのスパン予測における、前記第二スパンの質問により前記第一スパンを予測する確率とに基づいて、前記第一スパンの単語と前記第二スパンの単語とが対応するか否かを判断する
　付記項３に記載の単語対応装置。
（付記項５）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　第一言語文と第二言語文と単語対応情報とを有する単語対応データから、言語横断のスパン予測問題とその回答とを正解データとして生成し、
　前記正解データを用いて、言語横断スパン予測モデルを生成する
　学習装置。
（付記項６）
　前記スパン予測問題は、質問と文脈とを有し、前記質問は、当該質問の言語の文脈が境界記号を介して付された文脈付き質問である
　付記項５に記載の学習装置。
（付記項７）
　コンピュータが、
　第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成する問題生成ステップと、
　言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測するスパン予測ステップと
　を行う単語対応方法。
（付記項８）
　学習装置が実行する学習方法であって、
　第一言語文と第二言語文と単語対応情報とを有する単語対応データから、言語横断のスパン予測問題とその回答とを正解データとして生成する問題回答生成ステップと、
　前記正解データを用いて、言語横断スパン予測モデルを生成する学習ステップと
　を備える学習方法。
（付記項９）
　コンピュータを、付記項１ないし４のうちいずれか１項に記載の単語対応装置における各部として機能させるためのプログラム。
（付記項１０）
　コンピュータを、付記項５又は６に記載の学習装置における各部として機能させるためのプログラム。
（付記項１１）
　単語対応処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記単語対応処理は、
　第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成し、
　言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測する
　非一時的記憶媒体。
（付記項１２）
　学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記学習処理は、
　第一言語文と第二言語文と単語対応情報とを有する単語対応データから、言語横断のスパン予測問題とその回答とを正解データとして生成し、
　前記正解データを用いて、言語横断スパン予測モデルを生成する
　非一時的記憶媒体。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

　（参考文献）
[1] Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics,Vol. 19, No. 2, pp. 263-311, 1993.
[2] Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm´an, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. Unsupervised Cross-lingual Representation Learning at Scale. arXiv:1911.02116, 2019.
[3] Alexis Conneau and Guillaume Lample. Cross-lingual Language Model Pretraining. In Proceedings of NeurIPS-2019, pp. 7059-7069, 2019.
[4] John DeNero and Dan Klein. The Complexity of Phrase Alignment Problems. In Proceedings of the ACL-2008, pp. 25-28, 2008.
[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the NAACL-2019, pp. 4171-4186, 2019.
[6] Chris Dyer, Victor Chahuneau, and Noah A. Smith. A Simple, Fast, and Effective Reparameterization of IBM Model 2. In Proceedings of the NAACL-HLT-2013, pp. 644-648, 2013.
[7] Alexander Fraser and Daniel Marcu. MeasuringWord Alignment Quality for Statistical Machine Translation. Computational Linguistics, Vol. 33, No. 3, pp. 293-303, 2007.
[8] Qin Gao and Stephan Vogel. Parallel Implementations of Word Alignment Tool. In Proceedings of ACL 2008 workshop on Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pp. 49-57, 2008.
[9] Sarthak Garg, Stephan Peitz, Udhyakumar Nallasamy, and Matthias Paulik. Jointly Learning to Align and Translate with Transformer Models. In Proceedings of the EMNLP-IJCNLP-2019, pp.4452-4461, 2019.
[10] Aria Haghighi, John Blitzer, John DeNero, and Dan Klein. Better Word Alignments with Supervised ITG Models. In Proceedings of the ACL-2009, pp. 923-931, 2009.
[11] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the ACL-2007, pp. 177-180, 2007.
[12] Xuansong Li, Stephen Grimes, Stephanie Strassel, Xiaoyi Ma, Nianwen Xue, Mitch Marcus, and Ann Taylor. GALE Chinese-English Parallel Aligned Treebank - Training. Web Download, 2015. LDC2015T06.
[13] Rada Mihalcea and Ted Pedersen. An Evaluation Exercise for Word Alignment. In Proceedings of the HLT-NAACL 2003 Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond, pp. 1-10, 2003.
[14] Graham Neubig. Kyoto Free Translation Task alignment data package. http://www.phontron.com/kftt/, 2011.
[15] Franz Josef Och and Hermann Ney. Improved Statistical Alignment Models. In Proceedings of ACL-2000, pp. 440-447, 2000.
[16] Franz Josef Och and Hermann Ney. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, Vol. 29, No. 1, pp. 19-51, 2003.
[17] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know What You Don't Know: Unanswerable Questions for SQuAD. In Proceedings of the ACL-2018, pp. 784-789, 2018.
[18] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. SQuAD: 100,000+ Questions for Machine Comprehension of Text. In Proceedings of EMNLP-2016, pp. 2383-2392, 2016.
[19] Victor Sanh, Lysandre Debut, Julien Chaumond, and Thomas Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108, 2019.
[20] Elias Stengel-Eskin, Tzu ray Su, Matt Post, and Benjamin Van Durme. A Discriminative Neural Model for Cross-Lingual Word Alignment. In Proceedings of the EMNLP-IJCNLP-2019, pp. 910-920, 2019.
[21] Akihiro Tamura, Taro Watanabe, and Eiichiro Sumita. Recurrent Neural Networks for Word Alignment Model. In Proceedings of the ACL-2014, pp. 1470-1480, 2014.
[22] Ben Taskar, Simon Lacoste-Julien, and Dan Klein. A Discriminative Matching Approach to Word Alignment. In Proceedings of the HLT-EMNLP-2005, pp. 73-80, 2005.
[23] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.
[24] David Vilar, Maja Popovi´c, and Hermann Ney. AER: Do we need to "improve" our alignments? In Proceedings of IWSLT-2006, pp. 2005-212, 2006.
[25] Stephan Vogel, Hermann Ney, and Christoph Tillmann. HMM-Based Word Alignment in Statistical Translation. In Proceedings of COLING-1996, 1996.
[26] Nan Yang, Shujie Liu, Mu Li, Ming Zhou, and Nenghai Yu. Word Alignment Modeling with Context Dependent Deep Neural Network. In Proceedings of the ACL-2013, pp. 166-175, 2013.
[27] Thomas Zenkel, Joern Wuebker, and John DeNero. Adding Interpretable Attention to Neural Translation Models Improves Word Alignment. arXiv:1901.11359, 2019.

１００　単語対応装置
１１０　言語横断スパン予測モデル学習部
１１１　単語対応正解データ格納部
１１２　言語横断スパン予測問題回答生成部
１１３　言語横断スパン予測正解データ格納部
１１４　スパン予測モデル学習部
１１５　言語横断スパン予測モデル格納部
１２０　単語対応実行部
１２１　単言語横断スパン予測問題生成部
１２２　スパン予測部
１２３　単語対応生成部
２００　事前学習装置
２１０　多言語データ格納部
２２０　多言語モデル学習部
２３０　事前学習済み多言語モデル格納部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置

Claims

　第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成する問題生成部と、
　言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測するスパン予測部と
　を備える単語対応装置。
　前記言語横断スパン予測モデルは、前記言語横断のスパン予測問題とその回答からなる前記正解データを用いて事前学習済み多言語モデルの追加学習を行うことにより得られたモデルである
　請求項１に記載の単語対応装置。
　前記スパン予測部は、
　前記第一言語文から前記第二言語文へのスパン予測と、前記第二言語文から前記第一言語文へのスパン予測とからなる双方向の予測を実行する、又は、
　前記第一言語文から前記第二言語文へのスパン予測のみ、あるいは、前記第二言語文から前記第一言語文へのスパン予測のみからなる片方向の予測を実行する
　請求項１又は２に記載の単語対応装置。
　前記第一言語文から前記第二言語文へのスパン予測における第一スパンの質問により第二スパンを予測する確率と、前記第二言語文から前記第一言語文へのスパン予測における、前記第二スパンの質問により前記第一スパンを予測する確率とに基づいて、前記第一スパンの単語と前記第二スパンの単語とが対応するか否かを判断する単語対応生成部
　を備える請求項３に記載の単語対応装置。
　第一言語文と第二言語文と単語対応情報とを有する単語対応データから、言語横断のスパン予測問題とその回答とを正解データとして生成する問題回答生成部と、
　前記正解データを用いて、言語横断スパン予測モデルを生成する学習部と
　を備える学習装置。
　前記スパン予測問題は、質問と文脈とを有し、前記質問は、当該質問の言語の文脈が境界記号を介して付された文脈付き質問である
　請求項５に記載の学習装置。
　単語対応装置が実行する単語対応方法であって、
　第一言語文と第二言語文とを入力とし、前記第一言語文と前記第二言語文との間の言語横断のスパン予測問題を生成する問題生成ステップと、
　言語横断のスパン予測問題とその回答からなる正解データを用いて作成した言語横断スパン予測モデルを用いて、前記スパン予測問題の回答となるスパンを予測するスパン予測ステップと
　を備える単語対応方法。
　学習装置が実行する学習方法であって、
　第一言語文と第二言語文と単語対応情報とを有する単語対応データから、言語横断のスパン予測問題とその回答とを正解データとして生成する問題回答生成ステップと、
　前記正解データを用いて、言語横断スパン予測モデルを生成する学習ステップと
　を備える学習方法。
　コンピュータを、請求項１ないし４のうちいずれか１項に記載の単語対応装置における各部として機能させるためのプログラム、又は、コンピュータを、請求項５又は６に記載の学習装置における各部として機能させるためのプログラム。