WO2021181719A1

WO2021181719A1 - 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム

Info

Publication number: WO2021181719A1
Application number: PCT/JP2020/031522
Authority: WO
Inventors: 康仁大杉; いつみ斉藤; 京介西田; 久子浅野; 準二富田
Original assignee: 日本電信電話株式会社
Priority date: 2020-03-11
Filing date: 2020-08-20
Publication date: 2021-09-16
Also published as: US20230306202A1; WO2021181569A1; JPWO2021181719A1

Abstract

言語処理装置において、入力されたテキストを複数の短テキストに分割する前処理部と、　前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理部と、１以上の短テキストについての第３の特徴量を格納するための外部記憶部と、を備え、前記言語処理部は、前記学習済みモデルを用いて、ある短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出する。

Description

言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム

　本発明は、言語理解モデルに関連するものである。

　言語理解モデルに関する研究が近年盛んに行われている。言語理解モデルとは、トークンの分散表現を得るニューラルネットワークモデルの一つである。言語理解モデルでは、単一のトークンをモデルに入力するのではなく、トークンが使用されているテキスト全てをモデルに入力するため、テキスト内の他のトークンとの意味的な関係性を反映した分散表現を得ることができる。

　上記のような言語理解モデルとして、例えば、非特許文献１に開示されている言語理解モデルがある。

BERT、https://arxiv.org/abs/1810.04805、インターネット、２０２０年２月２６日検索

　しかし、非特許文献１に開示されている言語理解モデルでは、長いテキスト（長いトークン系列）を上手く扱うことができないという課題がある。なお、長いテキストとは、所定の長さ（例：非特許文献１の言語理解モデルで適切に扱える５１２トークン）よりも長いテキストである。

　本発明は上記の点に鑑みてなされたものであり、長いテキストが入力された場合でも、テキスト内のトークン間の関係性を反映した特徴量を適切に抽出することを可能とする技術を提供することを目的とする。

　開示の技術によれば、入力されたテキストを複数の短テキストに分割する前処理部と、
　前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理部と、
　１以上の短テキストについての第３の特徴量を格納するための外部記憶部と、を備え、
　前記言語処理部は、
　前記学習済みモデルを用いて、ある短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出する
　言語処理装置が提供される。

　開示の技術によれば、長いテキストが入力された場合でも、テキスト内のトークン間の関係性を反映した特徴量を適切に抽出することが可能となる。

　開示の技術によれば、データの分類を精度良く行う技術が提供される。

実施例１における言語処理装置１００の構成図である。実施例１における言語処理装置１００の処理手順を示すフローチャートである。外部記憶読み出し部１１２の構成と処理を説明するための図である。外部記憶更新部１１３の構成と処理を説明するための図である。実施例２における言語処理装置１００の構成図である。実施例２における言語処理装置１００の処理手順を示すフローチャートである。実施例３における言語処理装置１００の処理手順を示すフローチャートである。実施例４における言語処理装置１００の処理手順を示すフローチャートである。言語処理装置１００のハードウェア構成の例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　なお、本実施の形態において、「テキスト」とは文字の羅列であり、「テキスト」を「文」と呼んでもよい。また、「トークン」は、テキスト中の単語などの分散表現の単位を表す。例えば、非特許文献１では、単語を更に細かい単位サブワードへと分割しているため、非特許文献１でのトークンは当該サブワードとなる。

　非特許文献１に開示されている言語理解モデルにおいては、Ｔｒａｎｓｆｏｒｍｅｒのａｔｔｅｎｔｉｏｎ機構とｐｏｓｉｔｉｏｎ　ｅｎｃｏｄｉｎｇが重要な要素となっている。ａｔｔｅｎｔｉｏｎ機構では、あるトークンとその他のトークンがどの程度関連しているかを表す重みを計算し、それに基づいてトークンの分散表現を計算する。ｐｏｓｉｔｉｏｎ　ｅｎｃｏｄｉｎｇでは、あるトークンがテキスト内のどの位置にあるかを表す特徴量を算出する。

　しかし、前述したように、非特許文献１に開示されている従来の言語理解モデルでは、長いテキストを上手く扱うことができない。その理由は２点あり、下記のとおりである。

　１点目の理由は、ｐｏｓｉｔｉｏｎ　ｅｎｃｏｄｉｎｇが予め決められた数しか学習されていないということである。非特許文献１のｐｏｓｉｔｉｏｎ　ｅｎｃｏｄｉｎｇは５１２個学習されており、テキスト内の５１２トークンまでの位置を扱うことができる。従って、もしもテキストが５１２トークンよりも長ければ、５１３番目以降のトークンはそれ以前のトークンと同時に扱うことができない。

　２点目の理由は、ａｔｔｅｎｔｉｏｎ機構における計算コストが大きいということである。すなわち、ａｔｔｅｎｔｉｏｎ機構では、入力テキスト内のトークン毎に全トークンとの間の関連性のスコアを計算するため、トークン系列が長くなればなるほど、スコア計算にかかるコストが増えてしまい、計算機上で計算できなくなってしまう。

　以上の２つの理由から、非特許文献１に開示されている従来の言語理解モデルでは、長いトークン系列で構成されるテキストを上手く扱うことができない。本実施形態では、この課題を解決する言語処理装置１００について説明する。

　以下、学習済の言語理解モデルを備える言語処理装置１００が、入力テキストから文脈特徴量集合を得るための構成及び処理を実施例１として説明し、言語理解モデルの学習のための構成及び処理を実施例２として説明する。また、外部記憶部１１４の初期化方法と、外部記憶部１１４の更新方法として、実施例１、２における方法とは異なる方法を用いた例を実施例３、４として説明する。

　（実施例１）
　＜装置構成例＞
　図１に示すように、実施例１の言語処理装置１００は、言語処理部１１０、第１モデルパラメータ格納部１２０、入力部１３０、前処理部１４０、出力制御部１５０を備える。

　言語処理部１１０は、短期文脈特徴量抽出部１１１、外部記憶読み出し部１１２、外部記憶更新部１１３、外部記憶部１１４を備える。言語処理部１１０による処理の詳細は後述するが、言語処理部１１０を構成する各部の概要は下記のとおりである。なお、外部記憶読み出し部１１２を特徴量算出部と呼んでもよい。また、言語処理装置１００が備える外部記憶部１１４は、言語処理部１１０の外部に備えられてもよい。

　短期文脈特徴量抽出部１１１は、入力されたテキストを分割して得られる短いトークン系列から特徴量を抽出する。外部記憶読み出し部１１２は、外部記憶部１１４に格納されている情報（外部記憶特徴量）を用いて中間特徴量を出力する。外部記憶更新部１１３は、外部記憶部１１４の情報を更新する。外部記憶部１１４には、長期文脈の情報として、長期文脈の中のキーワードやそれらの関係性を表す情報が格納されている。これらの情報は特徴量行列として行列の形で格納される。

　短期文脈特徴量抽出部１１１、外部記憶読み出し部１１２、及び外部記憶更新部１１３は、それぞれ例えばニューラルネットワークのモデルとして実装される。これら３つの機能部に外部記憶部１１４を加えた機能部である言語処理部１１０をメモリ付き言語理解モデルと称してもよい。第１モデルパラメータ格納部１２０には、当該メモリ付き言語理解モデルにおける学習済みのパラメータが格納されている。当該メモリ付き言語理解モデルに、当該学習済みのパラメータが設定されることで、言語処理部１１０は、実施例１の動作を実行することができる。

　入力部１３０は、装置外部から長期テキストを入力し、当該長期テキストを前処理部１４０に渡す。前処理部１４０は、入力された長期テキストを短期テキストの集合に変換し、短期テキストを１つずつ短期文脈特徴量抽出部１１１に入力する。なお、実施例１（及び実施例２～４）における長期テキストを長いテキスト又は長テキストと言い換えてもよい。長いテキストとは、前述したとおり、所定の長さ（例：非特許文献１の言語理解モデルで適切に扱える５１２トークン）よりも長いテキストである。また、短期テキストを短いテキスト又は短テキストと言い換えてもよい。短いテキストは、テキストを分割することにより得られるテキストである。なお、入力部１３０から入力するテキストは、長いテキストに限られず、長いテキストよりも短いテキストであってもよい。

　出力制御部１５０は、外部記憶読み出し部１１２から、短期テキスト毎の中間特徴量を受信し、最後の短期テキストの中間特徴量を受信したら、中間特徴量を結合することで、入力された長期テキストの特徴量である長期文脈特徴量を出力する。

　＜装置の動作例＞
　以下、図２に示すフローチャートの手順に沿って、実施例１における言語処理装置１００の動作例を説明する。実施例１（実施例２～４も同様）において、テキストは適切なトークナイザによって文字列からトークン系列に変換されており、テキストの長さはトークン系列の系列長（トークンの個数）を表すものとする。

　　　＜Ｓ１０１＞
　Ｓ１０１において、入力部１３０により長期テキストを入力する。長期テキストは入力部１３０から前処理部１４０に渡される。

　　　＜Ｓ１０２＞
　Ｓ１０２において、前処理部１４０は、入力された長期テキストを、１以上の予め設定した長さＬ^ｓｅｑ（Ｌ^ｓｅｑは１以上の整数）の短期テキストへ分割し、短期テキスト集合Ｓ＝｛ｓ_１，ｓ_２，…，ｓ_Ｎ｝を得る。例えば、長さ５１２の長期テキストについて、Ｌ^ｓｅｑ＝３２とすると、Ｎ＝１６、すなわち、１６個の短期テキストが含まれた短期テキスト集合Ｓが生成される。

　この集合Ｓの各要素（短期テキストｓ_ｉ）それぞれに対し、以下で説明するＳ１０３～Ｓ１０５の処理が行われる。

　Ｓ１０２において、より詳細には、前処理部１４０は、パディングなどに使用する特殊なトークンを含めて、個々の短期テキストが長さＬ^ｓｅｑになるように分割する。

　例えば、短期文脈特徴量抽出部１１１として、非特許文献１に開示されたモデルを使用する場合には、クラストークン（［ＣＬＳ］）あるいはセパレータトークン（［ＳＥＰ］）をトークン系列の先頭と末尾に追加するため、つまり、２トークンが追加されるため、実際には長期テキストを長さ「Ｌ^ｓｅｑ－２」の１以上のトークン系列に分割することになる。

　　　＜Ｓ１０３＞
　Ｓ１０３において、短期テキストｓ_ｉが短期文脈特徴量抽出部１１１に入力され、短期文脈特徴量抽出部１１１は、短期テキストｓ_ｉに対する短期文脈特徴量ｈ_ｉ∈Ｒ^{ｄ×Ｌｓｅｑ}を算出する。なお、記載の便宜上、Ｒ^{ｄ×Ｌｓｅｑ}（＝ｄ×Ｌ^ｓｅｑの実行列の集合）の右上の添え字「ｄ×Ｌ^ｓｅｑ」を「ｄ×Ｌｓｅｑ」と記載している。ここで、ｄは特徴量の次元数を表す。例えば、ｄ＝７６８である。

　短期文脈特徴量抽出部１１１は、ｓ_ｉ内において各トークンと他の全てのトークンとの関係性を考慮して短期文脈特徴量を算出する。短期文脈特徴量抽出部１１１は、特定のモデルに限定されないが、例えば、短期文脈特徴量抽出部１１１として、非特許文献１に開示されたニューラルネットワークモデル（ＢＥＲＴ）を使用することができる。実施例１（及び実施例２～４）では、短期文脈特徴量抽出部１１１としてＢＥＲＴを用いている。

　ＢＥＲＴは、ａｔｔｅｎｔｉｏｎ機構を用いて、各トークンについて、当該トークンと他のトークンとの関係性を考慮し、それを反映した特徴量を出力することができる。参考文献（Transformer (https://arxiv.org/abs/1706.03762)）に開示されているように、ａｔｔｅｎｔｉｏｎ機構は以下の式（１）で表される。なお、下記の式（１）において、上記参考文献におけるｄ_ｋをｄと記載している。

　短期文脈特徴量抽出部１１１は、ｓ_ｉの特徴量からＱ、Ｋ、Ｖを作成し、上記の式（１）でａｔｔｅｎｔｉｏｎを算出する。式（１）において、ＱはＱｕｅｒｙの略であり、ＫはＫｅｙの略であり、ＶはＶａｌｕｅの略である。短期文脈特徴量抽出部１１１（すなわち、ＢＥＲＴ）において、トークンと他のトークンとの関係性を考慮する場合、上記式（１）におけるＱ、Ｋ、Ｖはそれぞれ各トークンの特徴量を線形変換した行列であり、Ｑ、Ｋ、Ｖ∈Ｒ^{ｄ×Ｌｓｅｑ}となる。なお、本実施例では、線形変換して得られるＱ、Ｋ、Ｖの特徴量次元数を、ｈ_ｉの特徴量次元数ｄと同一としているが、Ｑ、Ｋ、Ｖの特徴量次元数がｈ_ｉの特徴量次元数ｄと異なっていてもよい。

　上記式（１）における、

のソフトマックス関数の計算は、トークンが他のトークンとどの程度関連しているかを表すスコア（確率）をトークンの特徴量間の内積（ＱＫ^Ｔ）に基づいて計算していることを示している。このスコアによってＶを重み付け和したものがａｔｔｅｎｔｉｏｎの出力、すなわち、他のトークンが当該トークンとどの程度関連しているかを表す特徴量となる。短期文脈特徴量抽出部１１１は、このＡｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）と当該トークンの特徴量を足し合わせることで、当該トークンと他のトークンとの関連性を反映した特徴量を得ている。

　　　＜Ｓ１０４＞
　Ｓ１０４において、Ｓ１０３で得られた短期文脈特徴量ｈ_ｉと、外部記憶部１１４に格納されている外部記憶特徴量ｍ∈Ｒ^ｄ×Ｍとが外部記憶読み出し部１１２へ入力され、外部記憶読み出し部１１２は、入力情報から中間特徴量ｖ_ｉ∈Ｒ^{ｄ×Ｌｓｅｑ}を算出し、出力する。本実施例では、ｖ_ｉ、ｍの特徴量次元数は同じｄであるが、特徴量次元数が異なっていてもよい。

　ｍ∈Ｒ^ｄ×ＭにおけるＭは外部記憶特徴量のスロット数を表す。外部記憶特徴量は、｛ｓ_１，…，ｓ_ｉ－１｝から必要な情報を抽出・格納したベクトルである。どのように情報をベクトルとして抽出・格納するかについてはＳ１０５（更新の処理）で説明する。なお、ｓ_１に関する処理を行う前に、外部記憶特徴量ｍはランダムな数値で初期化するなど、予め適切な初期化を行っておく。このような初期化方法は一例であり、実施例３（及び実施例４）では、ランダムな数値で初期化する方法とは異なる方法で初期化を行っている。

　外部記憶読み出し部１１２は、短期文脈特徴量ｈ_ｉと外部記憶特徴量ｍの各要素を比較し、外部記憶特徴量から必要な情報を抽出し、その抽出した情報とｈ_ｉの持つ情報とを足し合わせる。これにより、｛ｓ_１，…，ｓ_ｉ－１｝の情報を反映したｓ_ｉに関する中間特徴量を得ることができる。

　すなわち、外部記憶読み出し部１１２は、２つの特徴量間（ｈ_ｉとｍ間）のマッチングを行い必要な情報を抽出する。この処理を実行するニューラルネットワークモデルは、特定のモデルに限定されないが、例えば、前述した参考文献のａｔｔｅｎｔｉｏｎ機構（式（１）を用いたモデルを使用することができる。本実施例では、当該ａｔｔｅｎｔｉｏｎ機構を用いたモデルを使用している。

　図３は、外部記憶読み出し部１１２に相当するモデルの構成（及び処理内容）を示す図である。

　図３に示すように、当該モデルは、線形変換部１、線形変換部２、線形変換部３、Ａｔｔｅｎｔｉｏｎ機構４（式（１））、及び加算部５を有する。線形変換部１は、短期文脈特徴量ｈ_ｉを線形変換してＱを出力し、線形変換部２、３はそれぞれｍを線形変換してＫ、Ｖを出力する。

　Ｑ、Ｋ、ＶがＡｔｔｅｎｔｉｏｎ機構４（式（１））に入力され、Ａｔｔｅｎｔｉｏｎ機構４（式（１））は、ｕ_ｉ＝Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）を出力する。

　上記のとおり、ｈ_ｉに基づいてＱ（Ｑｕｅｒｙ）が得られ、ｍに基づいてＫ（Ｋｅｙ）、Ｖ（Ｖａｌｕｅ）が得られるため、

は短いテキスト（短期テキスト）の中の各トークンが外部記憶特徴量の各スロットとどの程度関連しているかを表す確率に相当し、その確率で外部記憶特徴量を重み付けて合計したものがｕ_ｉの各ベクトルである。すなわち、ｕ_ｉには短いテキストの各トークンについて関連した外部記憶特徴量の情報が格納されている。図３に示すように、加算部５が、ｕ_ｉとｈ_ｉを加算することで外部記憶特徴量における長期文脈の情報を反映した中間特徴量ｖ_ｉを得ることができる。

　　　＜Ｓ１０５＞
　Ｓ１０５において、Ｓ１０３で得られた短期文脈特徴量ｈ_ｉと、外部記憶特徴量ｍとが外部記憶更新部１１３へ入力され、外部記憶更新部１１３は、これらの入力に基づいて新しい外部記憶特徴量ｍ＾を算出して外部記憶部１１４に出力し、ｍをｍ＾で更新する。なお、記載の便宜上、本明細書では、ｍの上に乗るハット（＾）を、"ｍ＾"のようにｍの後に記載している。

　外部記憶更新部１１３は、短期文脈特徴量ｈ_ｉと外部記憶特徴量ｍの各要素を比較し、ｈ_ｉの情報の中で保存すべき情報を抽出し、ｍに上書きすることで情報の更新を行う。

　すなわち、外部記憶更新部１１３は、２つの特徴量間（ｈ_ｉとｍ間）のマッチングを行い必要な情報を抽出する。この処理を実行するニューラルネットワークモデルは、特定のモデルに限定されないが、例えば、前述した参考文献のａｔｔｅｎｔｉｏｎ機構（式（１）を用いたモデルを使用することができる。本実施例では、当該ａｔｔｅｎｔｉｏｎ機構を用いたモデルを使用している。

　図４は、外部記憶更新部１１３に相当するモデルの構成（及び処理内容）を示す図である。

　図４に示すように、当該モデルは、線形変換部１１、線形変換部１２、線形変換部１３、Ａｔｔｅｎｔｉｏｎ機構１４（式（１））、及び加算部１５を有する。線形変換部１１は、ｍを線形変換してＱを出力し、線形変換部１２、１３はそれぞれ短期文脈特徴量ｈ_ｉを線形変換してＫ、Ｖを出力する。

　Ｑ、Ｋ、ＶがＡｔｔｅｎｔｉｏｎ機構１４（式（１））に入力され、Ａｔｔｅｎｔｉｏｎ機構１４（式（１））は、ｒ＝Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）を得る。

　上記のとおり、ｍに基づいてＱが得られ、ｈ_ｉに基づいてＫ、Ｖが得られるため、

は外部記憶特徴量の各スロットが短期テキストの各トークンとどの程度関連しているかを表す確率に相当し、その確率で短期テキストのトークンの特徴量を重み付けて合計したものがｒの各ベクトルである。すなわち、ｒには外部記憶特徴量の各スロットについて関連した短期テキスト内のトークンの情報が格納されている。図４に示すように、加算部１５が、ｒとｍを加算する。これにより、ｓ_ｉから必要な情報ｒを抜き出し、今まで抽出した情報ｍと加算して特徴量ｍ＾が得られる。すなわち、｛ｓ_１，…，ｓ_ｉ｝から必要な情報を抽出・格納した新しい外部記憶の特徴量ｍ＾を得ることができる。

　なお、上記のようなｍの更新方法は一例であり、実施例３（及び実施例４）では、上記の更新方法とは異なる方法でｍの更新を行っている。

　　　＜Ｓ１０６、Ｓ１０７＞
　Ｓ１０６において、出力制御部１５０は、外部記憶読み出し部１１２から受信した中間特徴量ｖ_ｉが、最後の短期テキストに対する中間特徴量であるか否かを判断し、最後でなければ次の短期テキストに対するＳ１０３からの処理を行うよう制御する。

　中間特徴量ｖ_ｉが、最後の短期テキストに対する中間特徴量である場合、すなわち、Ｓ１０３～Ｓ１０５がＳ＝｛ｓ_１，ｓ_２，…，ｓ_Ｎ｝の全てに対して行われた場合、出力制御部１５０は、得られた中間特徴量の集合｛ｖ_１，…，ｖ_Ｎ｝における各ｖ_ｉを系列長方向に結合することで、長期文脈特徴量Ｖを得て、それを出力する。

　例えば、長さ５１２の長期テキストについてＬ^ｓｅｑ＝３２として、Ｓ１０３～Ｓ１０７を実行すると、｛ｖ_１，…，ｖ_１６｝が得られる。ｄ＝７６８とすれば、ｖ_ｉは７６８次元の列ベクトルが３２個並んだ７６８×３２の行列である。これを列方向に結合した７６８×５１２の行列を、入力された長期テキストに対する長期文脈特徴量Ｖとする。

　（実施例２）
　次に、実施例２を説明する。実施例２では、言語処理部１１０、すなわち、メモリ付き言語理解モデルのモデルパラメータを学習するための構成及び処理内容について説明する。

　メモリ付き言語理解モデルの学習方法は特定の方法に限定されないが、本実施例では、一例として、マスクされたトークンを予測するタスク（例：非特許文献１の３．１節Ｔａｓｋ＃１　Ｍａｓｋｅｄ　ＬＭ）を通じてモデルパラメータを学習する方法について説明する。

　＜装置構成例＞
　図５に示すように、実施例２の言語処理装置１００は、言語処理部１１０、第１モデルパラメータ格納部１２０、入力部１３０、前処理部１４０、第２モデルパラメータ格納部１６０、トークン予測部１７０、更新部１８０を備える。言語処理部１１０は、短期文脈特徴量抽出部１１１、外部記憶読み出し部１１２、外部記憶更新部１１３、外部記憶部１１４を備える。言語処理装置１００が備える外部記憶部１１４は、言語処理部１１０の外部に備えられてもよい。

　すなわち、実施例２の言語処理装置１００は、実施例１の言語処理装置１００と比較して、出力制御部１５０が除かれ、第２モデルパラメータ格納部１６０、トークン予測部１７０、更新部１８０が追加されたものである。追加されたもの以外の構成と動作は基本的に実施例１と同じである。

　なお、実施例１の言語処理装置１００に、第２モデルパラメータ格納部１６０、トークン予測部１７０、更新部１８０を追加した言語処理装置１００を用いることで、モデルパラメータの学習と、実施例１で説明した長期文脈特徴量の取得を１つの言語処理装置１００で行うことができる。また、実施例２の言語処理装置１００と実施例１の言語処理装置１００は別装置であってもよく、その場合、実施例２の言語処理装置１００の学習処理で得られたモデルパラメータを実施例１の言語処理装置１００の第１モデルパラメータ格納部１２０に格納することで、実施例１の言語処理装置１００において、長期文脈特徴量の取得を行うことができる。また、実施例２の言語処理装置１００を学習装置と呼んでもよい。

　トークン予測部１７０は、ｖ_ｉを用いてトークンを予測する。実施例２のトークン予測部１７０は、ニューラルネットワークのモデルとして実装される。更新部１８０は、トークンの正解とトークンの予測結果とに基づいて、短期文脈特徴量抽出部１１１、外部記憶読み出し部１１２、及び外部記憶更新部１１３のモデルパラメータと、トークン予測部１７０のモデルパラメータを更新する。トークン予測部１７０のモデルパラメータは、第２モデルパラメータ格納部１６０に格納されている。

　また、実施例２では、Ｗｅｂ上に公開されている長いテキストを収集し、図５に示すテキスト集合データベース２００に格納しておく。テキスト集合データベース２００から長期テキストが読み出される。例えば、ある文書の１段落の文章（文と呼んでもよい）を１つの長期テキストとして扱うことができる。

　＜装置の動作例＞
　以下、図６に示すフローチャートの手順に沿って、実施例２における言語処理装置１００の動作例を説明する。短期文脈特徴量抽出部１１１、外部記憶読み出し部１１２、及び外部記憶更新部１１３のモデルパラメータ、及びトークン予測部１７０のモデルパラメータは、任意の適当な値で初期化されているとする。

　　　＜Ｓ２０１＞
　Ｓ２０１において、入力部１３０はテキスト集合データベースから長期テキストを読み出し、入力する。長期テキストは入力部１３０から前処理部１４０に渡される。

　　　＜Ｓ２０２＞
　Ｓ１０２において、前処理部１４０は、入力された長期テキストを、１以上の予め設定した長さＬ^ｓｅｑ（Ｌ^ｓｅｑは１以上の整数）の短期テキストへ分割し、短期テキスト集合Ｓ＝｛ｓ_１，ｓ_２，…，ｓ_Ｎ｝を得る。

　Ｓ２０２で得た集合Ｓの各要素（短期テキストｓ_ｉ）それぞれに対し、以下の処理を行う。

　　　＜Ｓ２０３＞
　前処理部１４０は、ｓ_ｉの中のトークンの内、いくつかのトークンを選択し、選択したトークンを、マスクトークン（［ＭＡＳＫ］）やランダムに選んだ別のトークンに置換する、あるいは、選択したトークンそのままのトークンを維持し、マスクされた短期テキストｓ_ｉ＾を得る。ここで、置換や維持の条件は非特許文献１における条件と同じでよい。このとき置換もしくは維持の対象に選ばれたトークンが、トークン予測部１７０での予測対象となる。

　　　＜Ｓ２０４、Ｓ２０５、Ｓ２０６＞
　実施例１のＳ１０３、Ｓ１０４、Ｓ１０５と同じ処理により、短期テキストｓ_ｉ＾に対する中間特徴量ｖ_ｉが得られ、外部記憶特徴量ｍが更新される。

　　　＜Ｓ２０７＞
　外部記憶読み出し部１１２は、中間特徴量ｖ_ｉをトークン予測部１７０へ入力し、トークン予測部１７０が予測トークンを出力する。

　実施例２では、トークン予測部１７０は、ｖ_ｉのｔ番目のトークンに関する特徴量ｖ_ｉ ^（ｔ）∈Ｒ^ｄを基にｔ番目のトークンを予め決められた語彙の中から予測する機構である。ｔ番目のトークンは、置換や維持の対象となったトークンに相当する。当該機構により、例えば、１層のＦｅｅｄ　Ｆｏｒｗａｒｄ　Ｎｅｔｗｏｒｋを用いて、ｖ_ｉ ^（ｔ）を次元数が語彙サイズｄ´である特徴量ｙ^（ｔ）∈Ｒ^ｄ´へと変換しｙ^（ｔ）の要素の値が最大となるインデックスを用いて、語彙からトークンを予測することができる。

　例えば、ｄ´＝３２０００とし、ｔ番目のトークンが３２０００個の語彙セット（リスト）のどの語彙かを予測するとする。３２０００次元のベクトルであるｙ^（ｔ）の要素について、３０００番目の要素が最大値となる場合、語彙リストの３０００番目のトークンが求めるトークンとなる。

　　　＜Ｓ２０８＞
　Ｓ２０８において、マスクされた短期テキストと予測トークンが更新部１８０に入力され、更新部１８０は、教師あり学習で第１モデルパラメータ格納部１２０におけるモデルパラメータと第２モデルパラメータ格納部１６０におけるモデルパラメータを更新する。

　　　＜Ｓ２０９＞
　Ｓ２０９において、トークン予測部１７０は、外部記憶読み出し部１１２から受信した中間特徴量ｖ_ｉが、最後の短期テキストに対する中間特徴量であるか否かを判断し、最後でなければ次の短期テキストに対するＳ２０３からの処理を行うよう制御する。

　中間特徴量ｖ_ｉが、最後の短期テキストに対する中間特徴量である場合、すなわち、Ｓ２０３～Ｓ２０８がＳ＝｛ｓ_１，ｓ_２，…，ｓ_Ｎ｝の全てに対して行われた場合、処理を終了する。

　（実施例３）
　入力テキストから文脈特徴量集合を得るための実施例１では、ランダムな値を入力することにより外部記憶部１１４を初期化していた。また、実施例１では、図４に示した構成を用いて、短期文脈特徴量ｈ_ｉと外部記憶特徴量ｍのマッチングを行い、必要な情報を抽出することで、新しい外部記憶特徴量ｍ＾を算出し、ｍをｍ＾で更新していた。

　実施例３では、実施例１と比較して、外部記憶部１１４の初期化と更新の方法が異なる処理方法について説明する。以下では、実施例１と異なる点を主に説明する。

　実施例３の言語処理装置１００の装置構成は、実施例１の言語処理装置１００の装置構成と同じであり、図１に示したとおりである。以下、図７に示すフローチャートの手順に沿って、実施例１における言語処理装置１００の動作例を説明する。

　＜Ｓ３０１、Ｓ３０２＞
　Ｓ３０１、Ｓ３０２は、実施例１のＳ１０１、Ｓ１０２と同じである。

　＜Ｓ３０３＞
　Ｓ３０３において、短期文脈特徴量抽出部１１１は、前処理部１４０から１つの短期テキストを受け取り、当該短期テキストが最初の短期テキストか否かを判断する。最初の短期テキストでなければＳ３０６に進み、最初の短期テキストであればＳ３０４に進む。

　＜Ｓ３０４＞
　前処理部１４０から受け取った短期テキストｓ_ｉが最初の短期テキストである場合のＳ３０４において、短期文脈特徴量抽出部１１１は、短期テキストｓ_ｉに対する短期文脈特徴量ｈ_ｉ∈Ｒ^{ｄ×Ｌｓｅｑ}を算出し、短期文脈特徴量ｈ_ｉを中間特徴量ｖ_ｉ∈Ｒ^{ｄ×Ｌｓｅｑ}として出力する。すなわち、最初の短期テキストｓ_ｉについては、ｖ_ｉ＝ｈ_ｉとする。出力された中間特徴量ｈ_ｉは、外部記憶更新部１１３に入力される。

　＜Ｓ３０５＞
　Ｓ３０５において、外部記憶更新部１１３は、ｖ_ｉ（＝ｈ_ｉ）を用いて、外部記憶部１１４に格納される外部記憶特徴量ｍを初期化する。具体的には、ｈ_ｉに対して所定の操作を行うことで、ｄ次元ベクトルであるｍ^（２）∈Ｒ^ｄを作成し、ｍ^（２）を外部記憶特徴量の初期値として外部記憶部１１４に格納する。

　ｈ_ｉはｄ×Ｌ^ｓｅｑの行列である。上記の所定の操作は、例えば、ｄの次元毎に、つまり、行（要素数Ｌ^ｓｅｑのベクトル）毎に、要素の値の平均をとる操作であってもよいし、Ｌ^ｓｅｑ個の要素の値のうちの最大値を抽出する操作であってもよいし、これら以外の操作であってもよい。なお、ｍのインデックスがｍ^（２）のように２から始まるのは、２番目の短期テキストの処理から外部記憶特徴量を用いるためである。

　実施例３における初期化方法を用いることで、より適切な値で外部記憶特徴量を初期化できる。

　＜Ｓ３０６、Ｓ３０７＞
　前処理部１４０から受け取った短期テキストｓ_ｉが最初の短期テキストでない場合のＳ３０６における処理と、その次のＳ３０７の処理は、実施例１におけるＳ１０３、Ｓ１０４と同じである。ただし、Ｓ３０７の中間特徴量ｖ_ｉの算出において、外部記憶特徴量ｍとして、２番目の短期テキストに対しては、Ｓ３０５で初期化した外部記憶特徴量ｍ^（２）が使用され、それ以降の短期テキストに対しては、その前の短期テキストに対してＳ３０８で更新した外部記憶特徴量ｍ^（ｉ）が使用される。

　＜Ｓ３０８＞
　Ｓ３０８において、Ｓ３０６で得られた短期文脈特徴量ｈ_ｉと、外部記憶特徴量ｍ^（ｉ）とが外部記憶更新部１１３へ入力され、外部記憶更新部１１３は、これらの入力に基づいて新しい外部記憶特徴量ｍ^{（ｉ＋１）}を算出して外部記憶部１１４に出力し、ｍ^（ｉ）をｍ^{（ｉ＋１）}で更新する。

　より詳細には、外部記憶更新部１１３は、Ｓ３０５での初期化の操作と同じ操作をｈ_ｉに対して実行することで、ｈ_ｉからｄ次元のベクトルαを作成する。次に、外部記憶更新部１１３は、更新前のｍ^（ｉ）とαを用いて新たな外部記憶特徴量であるｍ^{（ｉ＋１）}を以下のようにして作成する。

　ｍ^{（ｉ＋１）}＝［ｍ^（ｉ），α］
　上記の式における［，］は、列方向にベクトルあるいは行列を追加することを表す。つまり、ｍ^{（ｉ＋１）}はｍ^（ｉ）にαを追加することにより得られる。すなわち、ｍ^（ｉ）∈Ｒ^{ｄ×（ｉ－１）}（ｉ≧２）である。

　実施例３における更新方法を用いることで、より明示的な情報を外部記憶特徴量として外部記憶部１１４に格納できる。

　（実施例４）
　次に、実施例４を説明する。実施例４は、実施例３で使用した言語理解モデルの学習のための実施例である。以下では、実施例２と異なる点を主に説明する。

　実施例４の言語処理装置１００の装置構成は、実施例２の言語処理装置１００の装置構成と同じであり、図５に示したとおりである。以下、図８に示すフローチャートの手順に沿って、実施例４における言語処理装置１００の動作例を説明する。

　＜Ｓ４０１～Ｓ４０３＞
　Ｓ４０１～Ｓ４０３は、実施例２のＳ２０１～Ｓ２０３と同じである。

　＜Ｓ４０４～Ｓ４０９＞
　Ｓ４０４～Ｓ４０９において、実施例３のＳ３０３～Ｓ３０８と同じ処理により、外部記憶特徴量が初期化されるとともに、短期テキストｓ_ｉに対する中間特徴量ｖ_ｉが得られ、外部記憶特徴量ｍ^（ｉ）が更新され、外部記憶特徴量ｍ^{（ｉ＋１）}が得られる。

　＜Ｓ４１０～Ｓ４１２＞
　Ｓ４１０～Ｓ４１２は、実施例２におけるＳ２０７～Ｓ２０９と同じである。

　（ハードウェア構成例）
　本実施の形態における言語処理装置１００は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。

　上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図９は、上記コンピュータのハードウェア構成例を示す図である。図９のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、及び入力装置１００７等を有する。なお、当該コンピュータは、ＣＰＵ１００４の代わりに、又はＣＰＵ１００４と共にＧＰＵ（Graphics Processing Unit）を有してもよい。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４（又はＧＰＵ、又はＣＰＵ１００４とＧＰＵ）は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。

　（実施の形態の効果等）
　以上、説明したように、本実施の形態では、長期テキストを分割して得られる短期テキストの情報を順次外部記憶部１１４に書き込み、新たな短期テキストの特徴量を算出する際に、外部記憶部１１４に格納されているこれまでに書き込んだテキストの情報（長い文脈の情報）を利用することとしたので、長いテキストを一貫して扱うことができる。

　すなわち、本実施の形態では、短期的な情報の処理と長期的な情報の処理を分けることで、ａｔｔｅｎｔｉｏｎ機構にかかる計算コストを抑えることができる。また、外部記憶部１１４に長期的な情報を格納できるため、長いテキストを系列長の制限なく扱うことができる。
　（実施の形態のまとめ）
　本明細書には、少なくとも下記の各項に記載した言語処理装置、学習装置、言語処理方法、学習方法、及びプログラムが記載されている。
（第１項）
　入力されたテキストを複数の短テキストに分割する前処理部と、
　前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理部と、
　１以上の短テキストについての第３の特徴量を格納するための外部記憶部と、を備え、
　前記言語処理部は、
　前記学習済みモデルを用いて、ある短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出する
　言語処理装置。
（第２項）
　前記言語処理部は、前記学習済みモデルを用いて、
　短テキストの第２の特徴量の算出を行う度に、当該短テキストについての、短テキスト内の各トークンと前記外部記憶部に格納された情報との間の関連性を反映させた特徴量を用いて前記外部記憶部に格納された第３の特徴量を更新する
　第１項に記載の言語処理装置。
（第３項）
　前記言語処理部は、学習済みモデルを用いて算出した第１の特徴量に対して所定の操作を実行することにより、前記外部記憶部に格納される第３の特徴量を初期化する
　第１項に記載の言語処理装置。
（第４項）
　前記言語処理部は、前記学習済みモデルを用いて、
　２番目以降の短テキストの第２の特徴量の算出を行う度に、当該短テキストについての第１の特徴量に対して所定の操作を実行することにより第４の特徴量を作成し、更新前の第３の特徴量に当該第４の特徴量を追加することにより、更新した第３の特徴量を作成する
　第１項又は第３項に記載の言語処理装置。
（第５項）
　入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理部と、
　前記一部のトークンが変換又は維持された前記短テキストに対し、モデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理部と、
　前記一部のトークンが変換又は維持された１以上の前記短テキストについての第３の特徴量を格納するための外部記憶部と、
　前記第２の特徴量を用いて、前記一部のトークンを予測するトークン予測部と、
　前記一部のトークンと、前記トークン予測部による予測結果とに基づいて、前記言語処理部を構成する前記モデルのモデルパラメータを更新する更新部と、を備え、
　前記言語処理部は、前記モデルを用いて、
　前記一部のトークンが変換又は維持された前記短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出し、
　前記前処理部、前記言語処理部、前記トークン予測部、及び前記更新部の処理を、前記複数の短テキストのそれぞれに対して実行する
　学習装置。
（第６項）
　言語処理装置が実行する言語処理方法であって、
　入力されたテキストを複数の短テキストに分割するステップと、
　前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理ステップと、を備え、
　前記言語処理装置は、１以上の短テキストについての第３の特徴量を格納するための外部記憶部を備えており、
　前記言語処理ステップにおいて、前記学習済みモデルを用いて
　ある短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出する
　言語処理方法。
（第７項）
　モデルを備える学習装置が実行する学習方法であって、
　入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理ステップと、
　前記一部のトークンが変換又は維持された前記短テキストに対し、前記モデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理ステップと、
　前記第２の特徴量を用いて、前記一部のトークンを予測するトークン予測ステップと、
　前記一部のトークンと、前記トークン予測ステップによる予測結果とに基づいて、前記モデルのモデルパラメータを更新する更新ステップと、を備え、
　前記学習装置は、前記一部のトークンが変換又は維持された１以上の前記短テキストについての第３の特徴量を格納するための外部記憶部を備えており、
　前記言語処理ステップにおいて、前記モデルを用いて、
　前記一部のトークンが変換又は維持された前記短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出し、
　前記前処理ステップ、前記言語処理ステップ、前記トークン予測ステップ、及び前記更新ステップの処理を、前記複数の短テキストのそれぞれに対して実行する
　学習方法。
（第８項）
　コンピュータを、第１項ないし第４項のうちいずれか１項に記載の言語処理装置における各部として機能させるためのプログラム。
（第９項）
　コンピュータを、第５項に記載の学習装置における各部として機能させるためのプログラム。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　言語処理装置
１１０　言語処理部
１１１　短期文脈特徴量抽出部
１１２　外部記憶読み出し部
１１３　外部記憶更新部
１１４　外部記憶部
１２０　第１モデルパラメータ格納部
１３０　入力部
１４０　前処理部
１５０　出力制御部
１６０　第２モデルパラメータ格納部
１７０　トークン予測部
１８０　更新部
２００　テキスト集合データベース
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置

Claims

　入力されたテキストを複数の短テキストに分割する前処理部と、
　前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理部と、
　１以上の短テキストについての第３の特徴量を格納するための外部記憶部と、を備え、
　前記言語処理部は、
　前記学習済みモデルを用いて、ある短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出する
　言語処理装置。
　前記言語処理部は、前記学習済みモデルを用いて、
　短テキストの第２の特徴量の算出を行う度に、当該短テキストについての、短テキスト内の各トークンと前記外部記憶部に格納された情報との間の関連性を反映させた特徴量を用いて前記外部記憶部に格納された第３の特徴量を更新する
　請求項１に記載の言語処理装置。
　前記言語処理部は、学習済みモデルを用いて算出した第１の特徴量に対して所定の操作を実行することにより、前記外部記憶部に格納される第３の特徴量を初期化する
　請求項１に記載の言語処理装置。
　前記言語処理部は、前記学習済みモデルを用いて、
　２番目以降の短テキストの第２の特徴量の算出を行う度に、当該短テキストについての第１の特徴量に対して所定の操作を実行することにより第４の特徴量を作成し、更新前の第３の特徴量に当該第４の特徴量を追加することにより、更新した第３の特徴量を作成する
　請求項１又は３に記載の言語処理装置。
　入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理部と、
　前記一部のトークンが変換又は維持された前記短テキストに対し、モデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理部と、
　前記一部のトークンが変換又は維持された１以上の前記短テキストについての第３の特徴量を格納するための外部記憶部と、
　前記第２の特徴量を用いて、前記一部のトークンを予測するトークン予測部と、
　前記一部のトークンと、前記トークン予測部による予測結果とに基づいて、前記言語処理部を構成する前記モデルのモデルパラメータを更新する更新部と、を備え、
　前記言語処理部は、前記モデルを用いて、
　前記一部のトークンが変換又は維持された前記短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出し、
　前記前処理部、前記言語処理部、前記トークン予測部、及び前記更新部の処理を、前記複数の短テキストのそれぞれに対して実行する
　学習装置。
　言語処理装置が実行する言語処理方法であって、
　入力されたテキストを複数の短テキストに分割するステップと、
　前記複数の短テキストのそれぞれに対し、学習済みモデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理ステップと、を備え、
　前記言語処理装置は、１以上の短テキストについての第３の特徴量を格納するための外部記憶部を備えており、
　前記言語処理ステップにおいて、前記学習済みモデルを用いて
　ある短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出する
　言語処理方法。
　モデルを備える学習装置が実行する学習方法であって、
　入力されたテキストから分割して得られた複数の短テキストにおけるある短テキストについて、当該短テキストに含まれる全トークンのうちの一部のトークンを別のトークンに変換する、又は、変換せずに維持する前処理ステップと、
　前記一部のトークンが変換又は維持された前記短テキストに対し、前記モデルを用いて第１の特徴量及び第２の特徴量を算出する言語処理ステップと、
　前記第２の特徴量を用いて、前記一部のトークンを予測するトークン予測ステップと、
　前記一部のトークンと、前記トークン予測ステップによる予測結果とに基づいて、前記モデルのモデルパラメータを更新する更新ステップと、を備え、
　前記学習装置は、前記一部のトークンが変換又は維持された１以上の前記短テキストについての第３の特徴量を格納するための外部記憶部を備えており、
　前記言語処理ステップにおいて、前記モデルを用いて、
　前記一部のトークンが変換又は維持された前記短テキストに対する第２の特徴量を、当該短テキストの第１の特徴量と、前記外部記憶部に格納された第３の特徴量とを用いて算出し、
　前記前処理ステップ、前記言語処理ステップ、前記トークン予測ステップ、及び前記更新ステップの処理を、前記複数の短テキストのそれぞれに対して実行する
　学習方法。
　コンピュータを、請求項１ないし４のうちいずれか１項に記載の言語処理装置における各部として機能させるためのプログラム。
　コンピュータを、請求項５に記載の学習装置における各部として機能させるためのプログラム。