WO2023067743A1

WO2023067743A1 - 学習装置、学習方法及びプログラム

Info

Publication number: WO2023067743A1
Application number: PCT/JP2021/038826
Authority: WO
Inventors: 康仁大杉; いつみ斉藤; 京介西田; 仙吉田
Original assignee: 日本電信電話株式会社
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2023-04-27
Also published as: JPWO2023067743A1

Abstract

一実施形態に係る学習装置は、与えられた学習用データに含まれるトークン系列の先頭トークンの位置番号を変更し、変更後の位置番号から順に位置番号を設定した位置番号系列を算出する変更部と、前記位置番号系列と前記トークン系列とを用いて、前記位置番号に対応する特徴量である位置ベクトルが含まれる言語モデルパラメータ又は前記位置ベクトルを得るための言語モデルパラメータを学習する学習部と、を有する。

Description

学習装置、学習方法及びプログラム

　本発明は、学習装置、学習方法及びプログラムに関する。

　近年、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）を始めとした言語モデルに関する研究が盛んに行われている。言語モデルとは、トークンの分散表現を得るニューラルネットワークモデルの一つである。言語モデルでは、単一のトークンではなく、トークンに分割されたテキスト全体がトークン系列として入力されるため、そのトークン系列内の他のトークンとの意味的な関係性を反映した分散表現を得ることができる。このような分散表現は文脈特徴量とも呼ばれ、それを学習するステップは事前学習（pre-training）と呼ばれる。なお、トークンとは、単語やサブワード等といった分散表現の単位のことである。

　また、事前学習済みの分散表現を用いて、テキスト分類タスクや質問応答タスク等の様々なタスクを解くことができる。このようなタスクを解くステップはfine-tuningと呼ばれる。

　ところで、ＢＥＲＴは、非特許文献１に記載されているTransformerと呼ばれるモデルに基づいている。Transformerとは、注意機構や全結合層等によって構成される層を積み重ねたモデルである。Transformerモデルでは、注意として縮小付き内積注意（scaled dot-product attention）と呼ばれる仕組みを用いているが、この仕組みではトークンの順序関係は考慮されていない。このため、Transformerモデルでは、Positional Encodingと呼ばれる、トークンの位置を表す特徴量を定め、トークンの特徴量に足し合わせることでトークンの順序関係を考慮している。以下、このようなトークンの位置を表す特徴量を「位置ベクトル」と呼ぶことにする。位置ベクトルは、トークン系列中におけるトークンの位置番号ｉに対して一意に決まるベクトルである。なお、Positional Encoding以外にも、トークン系列中におけるトークンの位置番号の分散表現、ＢＥＲＴで利用されるPosition Embedding等も位置ベクトルの具体例の一つである。

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention Is All You Need. In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.

　ここで、位置番号ｉの位置ベクトルを学習するには、トークン系列の位置番号ｉに有効なトークンが存在する必要がある。有効なトークンとは、モデル学習に用いられるトークンのことであり、例えば、自然文のテキストを分割して得られた単語やサブワード等のことである。一方で、例えば、パディング用のトークン等といった特殊なトークンは有効なトークンに該当しない。

　しかしながら、学習用データには長いテキストもあれば短いテキストもあることが一般的であり、位置番号ｉが大きい場合にはその位置番号ｉに有効なトークンが存在しないことがある。このため、位置番号ｉが大きい場合には、その位置番号ｉの位置ベクトルが十分に学習できないことがある。

　例えば、学習用データに含まれるテキスト長を或る一定の長さに揃える場合、テキスト長がＬ未満のテキストにはパディング用トークンが追加される。このため、Ｌが或る程度大きい値である場合には、位置番号ｉがＬに近いほど有効なトークンが存在しない可能性が高くなり、位置番号ｉの位置ベクトルの学習が十分にできない可能性も高くなる。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、トークン系列中のトークン位置を表す位置ベクトルの十分な学習を実現することを目的とする。

　上記目的を達成するため、一実施形態に係る学習装置は、与えられた学習用データに含まれるトークン系列の先頭トークンの位置番号を変更し、変更後の位置番号から順に位置番号を設定した位置番号系列を算出する変更部と、前記位置番号系列と前記トークン系列とを用いて、前記位置番号に対応する特徴量である位置ベクトルが含まれる言語モデルパラメータ又は前記位置ベクトルを得るための言語モデルパラメータを学習する学習部と、を有する。

　トークン系列中のトークン位置を表す位置ベクトルの十分な学習を実現することができる。

位置番号の変更例を示す図である。本実施形態に係る学習装置のハードウェア構成の一例を示す図である。本実施形態に係る学習装置の機能構成の一例を示す図である。本実施形態に係る学習処理の一例を示すフローチャートである。

　以下、本発明の一実施形態について説明する。本実施形態では、或るタスクを解くためのモデル学習の際に、トークン系列中のトークン位置を表す特徴量である位置ベクトルの十分な学習を実現することができる学習装置１０について説明する。なお、トークンとは、テキストを分割する際の、単語やサブワード等といった所定の処理単位を指す。テキスト情報をニューラルネットワークで処理する際には、このトークン毎に分散表現に変換して用いる。また、位置ベクトルとは、トークン系列中におけるトークンの位置番号ｉに対して一意に決まる特徴量ベクトルのことであり、具体例としては、非特許文献１に記載されているPositional Encoding、トークン系列中におけるトークンの位置番号の分散表現、参考文献１に記載のＢＥＲＴで利用されるPosition Embedding等が挙げられる。位置ベクトルは、例えば、参考文献１に記載されているPosition Embeddingのように言語モデルのモデルパラメータの一部であることもあれば、非特許文献１に記載されているPositional Encoding ＰＥ_{（ｐｏｓ，２ｉ）}及びＰＥ_{（ｐｏｓ，２ｉ＋１）}のようにモデルパラメータから計算されることもある。

　ここで、本実施形態に係る学習装置１０は、モデル学習の際に、トークン系列の先頭のトークンの位置番号をランダムな値とし、その位置番号から位置ベクトルの割り当てを開始する。例えば、図１に示すように、トークン系列「ＸＹＺ」「クッキング」「の」「時間」「です」「。」「さて」「、」「今日」「の」「料理」「は」が言語モデルに入力されたものとする。この場合、従来技術では、先頭のトークン「ＸＹＺ」の位置番号を「１」、次のトークン「クッキング」の位置番号を「２」、その次のトークン「の」の位置番号を「３」等のように、「１」から順に位置番号が設定される。これに対して、本実施形態に係る学習装置１０では、先頭のトークンの位置番号をランダムな値ｊとして、次のトークンの位置番号を「ｊ＋１」、その次のトークンの位置番号を「ｊ＋２」等のように、ランダムな値である「ｊ」から順に位置番号を設定する。図１に示す例では、ランダムな値ｊとしてｊ＝９１である場合を示している。

　これにより、大きい位置番号ｉに出現する有効なトークンの割合が増えるため、その位置番号ｉの位置ベクトルを十分に学習することが可能となる。例えば、図１に示す例では、位置番号「９１」には有効なトークン「ＸＹＺ」が存在するため、従来技術よりも位置番号「９１」の位置ベクトルの学習を十分に行うことができるようになる。なお、トークンの位置番号は先頭のトークンから順に設定されるため、以下では、先頭のトークンの位置を「開始位置」、その番号を「開始番号」とも言う。

　なお、有効なトークンとは、モデル学習に用いられるトークンのことであり、例えば、自然文のテキストを分割して得られた単語やサブワード等のことである。一方で、例えば、パディング用トークン等といった特殊なトークンは有効なトークンに該当しない。パディング用トークンとは、学習用データのトークン系列を或る一定の長さ（例えば、学習条件として指定した長さ、ミニバッチ学習を行う場合におけるミニバッチ内部の最大長等）に揃えるためのパディング処理でトークン系列の末尾に追加されるトークンである。このパディング用トークンは、モデル学習における計算の効率化等のために追加されるものであるため、その計算結果を０とする等してモデル学習には用いられないような処理がなされる。すなわち、パディング用トークン等のようなモデル学習での計算結果が０となるトークンは有効なトークンに該当せず、それ以外のトークンが有効なトークンに該当する。

　＜学習装置１０のハードウェア構成＞
　本実施形態に係る学習装置１０のハードウェア構成を図２に示す。図２に示すように、本実施形態に係る学習装置１０は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置１０１と、表示装置１０２と、外部Ｉ／Ｆ１０３と、通信Ｉ／Ｆ１０４と、プロセッサ１０５と、メモリ装置１０６とを有する。これらの各ハードウェアは、それぞれがバス１０７を介して通信可能に接続されている。

　入力装置１０１は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置１０２は、例えば、ディスプレイ、表示パネル等である。なお、学習装置１０は、例えば、入力装置１０１及び表示装置１０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ１０３は、記録媒体１０３ａ等の外部装置とのインタフェースである。学習装置１０は、外部Ｉ／Ｆ１０３を介して、記録媒体１０３ａの読み取りや書き込み等を行うことができる。なお、記録媒体１０３ａとしては、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

　通信Ｉ／Ｆ１０４は、学習装置１０を通信ネットワークに接続するためのインタフェースである。プロセッサ１０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。メモリ装置１０６は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等の各種記憶装置である。

　本実施形態に係る学習装置１０は、図２に示すハードウェア構成を有することにより、後述する学習処理を実現することができる。なお、図２に示すハードウェア構成は一例であって、学習装置１０は、例えば、複数のプロセッサ１０５を有していてもよいし、複数のメモリ装置１０６を有していてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。

　＜学習装置１０の機能構成＞
　本実施形態に係る学習装置１０の機能構成を図３に示す。図３に示すように、本実施形態に係る学習装置１０は、入力部２０１と、開始番号変更部２０２と、言語モデル部２０３と、分類部２０４と、更新部２０５と、出力部２０６とを有する。これら各部は、例えば、学習装置１０にインストールされた１以上のプログラムが、プロセッサ１０５に実行させる処理により実現される。なお、これらの１以上のプログラムは、記録媒体１０３ａ等を介してメモリ装置１０６に格納されてもよいし、通信ネットワークを介して接続されるサーバ装置等からダウンロードされた後にメモリ装置１０６に格納されてもよい。

　また、本実施形態に係る学習装置１０は、記憶部２０７を有する。記憶部２０７は、例えば、メモリ装置１０６により実現される。なお、記憶部２０７は、例えば、学習装置１０と通信ネットワークを介して接続されるデータベース等の記憶装置により実現されていてもよい。

　ここで、学習装置１０には、目的とするタスク（以下、目的タスクともいう。）の学習用データの集合（これは「学習用データセット」とも呼ばれる。）が与えられるものとする。これらの学習用データには、テキストデータから作成されたトークン系列とその正解データとが含まれる。

　入力部２０１は、学習装置１０に与えられた学習用データを入力する。

　開始番号変更部２０２は、入力部２０１によって入力された学習用データに含まれるトークン系列の開始位置の位置番号（開始番号）をランダムな値に設定し、その開始番号から始まる位置番号系列を算出する。位置番号系列とは、開始番号をｊとした場合に｛ｊ，ｊ＋１，・・・，Ｊ｝で表される系列のことである。ここで、トークン系列の系列長をＬ、言語モデルが扱うことができる最大系列長をＺとすると、Ｊ＝ｍｉｎ（ｊ＋Ｌ－１，Ｚ）である。すなわち、開始番号をランダムな値にした場合に、位置番号系列の末尾の位置番号が最大系列長Ｚを超えるときには、位置番号系列は位置番号Ｚで打ち切るものとする。

　言語モデル部２０３は、ニューラルネットワークを含む言語モデル（例えば、ＢＥＲＴ等）で実現される。言語モデル部２０３は、開始番号変更部２０２によって開始番号が変更されたトークン系列から文脈特徴量を算出する。以下、言語モデル部２０３を実現する言語モデルのモデルパラメータを「第１のモデルパラメータ」という。

　分類部２０４は、ニューラルネットワークを含み、目的タスク（例えば、単語穴埋めタスクやテキスト分類タスク等といった自然言語処理タスク）を解くための分類モデルで実現される。分類部２０４は、言語モデル部２０３によって算出された文脈特徴量から目的タスクの予測特徴量を算出する。以下、分類部２０４を実現する分類モデルのモデルパラメータを「第２のモデルパラメータ」という。

　更新部２０５は、分類部２０４によって算出された予測特徴量と、入力部２０１によって入力された学習用データに含まれる正解データとを用いて、教師あり学習により第１のモデルパラメータと第２のモデルパラメータとを更新する。

　出力部２０６は、更新部２０５によって学習された学習済み第１のモデルパラメータを出力する。なお、出力部２０６は、予め決められた任意の出力先に学習済み第１のモデルパラメータを出力すればよい。このような出力先としては、例えば、ＨＤＤやＳＳＤ等の補助記憶装置、ディスプレイ、他のプログラム、通信ネットワークを介して接続される他の装置又は端末等が挙げられる。

　記憶部２０７は、第１のモデルパラメータと第２のモデルパラメータとを記憶する。なお、これら以外も、記憶部２０７には、例えば、文脈特徴量や予測特徴量等を算出する際における途中の計算結果、第１のモデルパラメータと第２のモデルパラメータとを更新する際における途中の計算結果等が記憶されてもよい。

　＜学習用データ＞
　以下、目的タスクとして単語穴埋めタスクを想定し、単語穴埋めタスクの学習用データを作成する方法について説明する。なお、単語穴埋めタスクの詳細については、例えば、参考文献１に記載されている「Task #1: Masked LM」等を参照されたい。

　まず、テキストデータを準備する。テキストデータは、任意のテキストに関するデータでよい。例えば、オンライン百科事典等といったＷｅｂ上に公開されているテキストの各段落を１つのテキストデータとして抽出すればよい。

　次に、各テキストデータの各々を適切なトークナイザでトークンに分割し、トークン系列の長さが予め決められた長さＬとなるようにパディング用トークンを末尾に追加する。これにより、例えば、各テキストデータをｎ＝１，・・・，Ｎとした場合、テキストデータｎから長さＬのトークン系列｛ｘ_ｎ１，・・・，ｘ_ｎＬ｝が得られる。

　続いて、各トークン系列｛ｘ_ｎ１，・・・，ｘ_ｎＬ｝からいくつかのトークンを選択し、それら選択したトークンの各々を、マスクトークン［ＭＡＳＫ］若しくはランダムに選んだ別のトークンに置換するか又はそのまま維持する。ここで、置換や維持の条件は参考文献１に記載されている「Task #1: Masked LM」と同様でよい。これにより、トークン系列｛ｘ_ｎ１，・・・，ｘ_ｎＬ｝の一部のトークンが置換や維持されたトークン系列｛ｘ'_ｎ１，・・・，ｘ'_ｎＬ｝が得られる。

　そして、トークン系列｛ｘ'_ｎ１，・・・，ｘ'_ｎＬ｝を作成する際に元のトークン系列｛ｘ_ｎ１，・・・，ｘ_ｎＬ｝において置換又は維持の対象に選ばれたトークンを正解データとして、トークン系列｛ｘ'_ｎ１，・・・，ｘ'_ｎＬ｝とその正解データとが含まれるデータを学習用データｎとする。以下では、トークン系列｛ｘ'_ｎ１，・・・，ｘ'_ｎＬ｝を「置換済みトークン系列」、その正解データを「正解トークン」と呼ぶことにする。なお、置換又は維持の対象に選ばれたトークンが複数存在する場合、正解トークンも複数存在することに留意されたい。

　＜学習処理＞
　次に、本実施形態に係る学習処理について、図４を参照しながら説明する。なお、以下では、目的タスクとして単語穴埋めタスクを想定し、第１のモデルパラメータと第２のモデルパラメータとを同時に学習する場合について説明する。また、第１のモデルパラメータと第２のモデルパラメータは、適当な値（例えば、ランダムな値）で初期化されているものとする。

　入力部２０１は、与えられた学習用データを入力する（ステップＳ１０１）。

　次に、開始番号変更部２０２は、上記のステップＳ１０１で入力された学習用データに含まれる置換済みトークン系列の開始位置の位置番号（開始番号）をランダムな値に設定し、その開始番号から始まる位置番号系列を算出する（ステップＳ１０２）。このとき、開始番号変更部２０２は、予め設定された定数ｍ及びＭ（ただし、ｍ＜Ｍ）を用いて、ｍ≦ｊ≦Ｍとなる開始番号ｊをランダムに選択する。これにより、位置番号系列｛ｊ，ｊ＋１，・・・，Ｊ｝が得られる。ただし、トークン系列の系列長Ｌ、言語モデルが扱うことができる最大系列長Ｚに対して、Ｊ＝ｍｉｎ（ｊ＋Ｌ－１，Ｚ）である。

　なお、ｍ及びＭは任意に設定することが可能であるが、例えば、参考文献１のように位置ベクトルが第１のモデルパラメータの１つである場合には、第１のモデルパラメータの増大を防ぐため、ＭをＺの半分程度の値とすることが考えられる。一方で、ｍについては、通常、ｍ＝１とすればよいが、例えば、大きな位置番号の位置ベクトルの学習を重点的に行いたい場合にはｍを１より大きい値とすることも可能である。

　次に、言語モデル部２０３は、第１のモデルパラメータと、上記のステップＳ１０２で算出された位置番号系列｛ｊ，ｊ＋１，・・・，Ｊ｝とを用いて、上記のステップＳ１０１で入力された学習用データに含まれる置換済みトークン系列から文脈特徴量を算出する（ステップＳ１０３）。このとき、言語モデル部２０３は、位置番号系列｛ｊ，ｊ＋１，・・・，Ｊ｝に対応する位置ベクトル系列を用いる点以外に関しては既知の言語モデルと同様の処理により文脈特徴量を算出すればよい。

　例えば、位置ベクトルが参考文献１のPosition Embeddingである場合、１つの位置番号と１つの位置ベクトルとが対応付けられた辞書のような形となっているため、言語モデル部２０３は、位置番号系列｛ｊ，ｊ＋１，・・・，Ｊ｝に含まれる各位置番号に対応する位置ベクトルをそれぞれ検索することで、位置ベクトル系列を求める。その後は、参考文献１と同様に、言語モデル部２０３は、位置ベクトル系列（Position Embedding）と置換済みトークン系列とをＢＥＲＴに入力し、文脈特徴量を算出すればよい。

　一方で、例えば、位置ベクトルが非特許文献１のPositional Encodingである場合、言語モデル部２０３は、位置番号系列｛ｊ，ｊ＋１，・・・，Ｊ｝に含まれる各位置番号からＰＥ_{（ｐｏｓ，２ｉ）}及びＰＥ_{（ｐｏｓ，２ｉ＋１）}を計算し、位置ベクトル系列を得る。その後は、非特許文献１と同様に、言語モデル部２０３は、位置ベクトル系列と置換済みトークン系列とをTransformerモデルに入力し、文脈特徴量を算出すればよい。なお、ＰＥ_{（ｐｏｓ，２ｉ）}及びＰＥ_{（ｐｏｓ，２ｉ＋１）}ではｐｏｓが位置番号、ｉは次元を表すことに留意されたい。

　次に、分類部２０４は、第２のモデルパラメータを用いて、上記のステップＳ１０３で算出された文脈特徴量から単語穴埋めタスクの予測特徴量を算出する（ステップＳ１０４）。分類モデルは、位置番号系列｛ｊ，ｊ＋１，・・・，Ｊ｝中の位置番号ｋ（ｊ≦ｋ≦Ｊ）のトークンに関する文脈特徴量ｈ_ｋに基づいて、予め決めれた語彙集合の中から位置番号ｋのトークンを予測する機構である。分類モデルでは、例えば、１層の順伝播型ニューラルネットワーク（Feed Forward Network）を用いて、文脈特徴量ｈ_ｋを、次元数が語彙数ｄ'である予測特徴量ｙ_ｋ∈Ｒ^ｄ'に変換する。これにより、例えば、予測特徴量ｙ_ｋの要素のうち、その値が最大となる要素のインデックスに対応する語彙を、位置番号ｋのトークンとして予測することができる。

　続いて、更新部２０５は、上記のステップＳ１０４で算出された予測特徴量と、上記のステップＳ１０１で入力された学習用データに含まれる正解トークンとを用いて、教師あり学習により第１のモデルパラメータと第２のモデルパラメータとを更新する（ステップＳ１０５）。なお、学習方法は、ニューラルネットワークの学習方法として一般的な既知の方法を用いればよい。また、第１のモデルパラメータと第２のモデルパラメータの更新は、学習の収束条件を満たすまで繰り返し実行される。学習の収束条件としては、例えば、予め設定された回数繰り返し実行されたこと、繰り返しの前後でパラメータの更新量が所定の閾値以下となったこと、等が挙げられる。

　そして、出力部２０６は、上記のステップＳ１０５で学習された学習済み第１のモデルパラメータを出力する（ステップＳ１０６）。これにより、学習済みの言語モデルが出力されたことになる。なお、出力部２０６は、学習済み第１のモデルパラメータだけでなく、学習済み第２のモデルパラメータを出力してもよい。

　＜まとめ＞
　以上のように、本実施形態に係る学習装置１０は、言語モデルに入力されるトークン系列の先頭トークンの位置番号にランダムな値を設定した上で、そのトークン系列からモデルパラメータを学習する。これにより、例えば、トークン系列がパディングされている場合であっても、大きな位置番号に有効なトークンが存在する割合を高くすることができる。このため、大きな位置番号の位置ベクトルも十分に学習させることが可能となり、精度の良い言語モデルを獲得することができるようになる。

　ここで、本実施形態では、第１のモデルパラメータ及び第２のモデルパラメータの学習時について説明したが、本実施形態に係る学習装置１０は、更に、学習済み第１のモデルパラメータ及び学習済み第２のモデルパラメータを用いて、目的タスクの推論を行ってもよい。この場合、学習装置１０は、例えば、「推論装置」等と呼ばれてもよい。なお、学習装置１０が推論装置として機能する場合には、開始番号変更部２０２及び更新部２０５は不要であり、入力部２０１、言語モデル部２０３、分類部２０４、出力部２０６及び記憶部２０７を備えていればよい。

　本実施形態に係る学習装置１０は、非特許文献１や参考文献１等に記載されている位置ベクトルに関する従来の学習方法に対して特定の改善を提供するものであり、機械学習モデル（特に、例えば、単語穴埋めタスクやテキスト分類タスク等といった自然言語処理タスクを解くための機械学習モデル）の性能評価に係る技術分野の向上を示すものである。

　以上の実施形態に関し、更に以下の付記を開示する。
（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　与えられた学習用データに含まれるトークン系列の先頭トークンの位置番号を変更し、変更後の位置番号から順に位置番号を設定した位置番号系列を算出し、
　前記位置番号系列と前記トークン系列とを用いて、前記位置番号に対応する特徴量である位置ベクトルが含まれる言語モデルパラメータ又は前記位置ベクトルを得るための言語モデルパラメータを学習する、
　学習装置。
（付記項２）
　前記プロセッサは、
　前記先頭トークンの位置番号ｊをランダムな値に変更し、
　Ｌを前記トークン系列の系列長、Ｚを言語モデルに入力可能な最大系列長、Ｊ＝ｍｉｎ（ｊ＋Ｌ－１，Ｚ）としたとき、｛ｊ，ｊ＋１，・・・，Ｊ｝を前記位置番号系列として算出する、付記項１に記載の学習装置。
（付記項３）
　前記プロセッサは、
　予め設定された定数ｍ及びＭを用いて、前記先頭トークンの位置番号を、ｍ以上Ｍ以下のランダムな値に変更する、付記項１又は２に記載の学習装置。
（付記項４）
　前記定数ｍには１以上の値が設定され、
　前記言語モデルパラメータに前記位置ベクトルが含まれる場合、前記定数Ｍとして、言語モデルに入力可能な最大系列長Ｚの半分又は前記半分の前後の値が設定される、付記項３に記載の学習装置。
（付記項５）
　学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記学習処理は、
　与えられた学習用データに含まれるトークン系列の先頭トークンの位置番号を変更し、変更後の位置番号から順に位置番号を設定した位置番号系列を算出し、
　前記位置番号系列と前記トークン系列とを用いて、前記位置番号に対応する特徴量である位置ベクトルが含まれる言語モデルパラメータ又は前記位置ベクトルを得るための言語モデルパラメータを学習する、
　非一時的記憶媒体。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　［参考文献］
　参考文献１：Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language, arXiv:1810.04805 [cs.CL]

　１０　　　　学習装置
　１０１　　　入力装置
　１０２　　　表示装置
　１０３　　　外部Ｉ／Ｆ
　１０３ａ　　記録媒体
　１０４　　　通信Ｉ／Ｆ
　１０５　　　プロセッサ
　１０６　　　メモリ装置
　１０７　　　バス
　２０１　　　入力部
　２０２　　　開始番号変更部
　２０３　　　言語モデル部
　２０４　　　分類部
　２０５　　　更新部
　２０６　　　出力部
　２０７　　　記憶部

Claims

　与えられた学習用データに含まれるトークン系列の先頭トークンの位置番号を変更し、変更後の位置番号から順に位置番号を設定した位置番号系列を算出する変更部と、
　前記位置番号系列と前記トークン系列とを用いて、前記位置番号に対応する特徴量である位置ベクトルが含まれる言語モデルパラメータ又は前記位置ベクトルを得るための言語モデルパラメータを学習する学習部と、
　を有する学習装置。
　前記変更部は、
　前記先頭トークンの位置番号ｊをランダムな値に変更し、
　Ｌを前記トークン系列の系列長、Ｚを言語モデルに入力可能な最大系列長、Ｊ＝ｍｉｎ（ｊ＋Ｌ－１，Ｚ）としたとき、｛ｊ，ｊ＋１，・・・，Ｊ｝を前記位置番号系列として算出する、請求項１に記載の学習装置。
　前記変更部は、
　予め設定された定数ｍ及びＭを用いて、前記先頭トークンの位置番号を、ｍ以上Ｍ以下のランダムな値に変更する、請求項１又は２に記載の学習装置。
　前記定数ｍには１以上の値が設定され、
　前記言語モデルパラメータに前記位置ベクトルが含まれる場合、前記定数Ｍとして、言語モデルに入力可能な最大系列長Ｚの半分又は前記半分の前後の値が設定される、請求項３に記載の学習装置。
　与えられた学習用データに含まれるトークン系列の先頭トークンの位置番号を変更し、変更後の位置番号から順に位置番号を設定した位置番号系列を算出する変更手順と、
　前記位置番号系列と前記トークン系列とを用いて、前記位置番号に対応する特徴量である位置ベクトルが含まれる言語モデルパラメータ又は前記位置ベクトルを得るための言語モデルパラメータを学習する学習手順と、
　をコンピュータが実行する学習方法。
　コンピュータを、請求項１乃至４の何れか一項に記載の学習装置として機能させるプログラム。