WO2023105596A1

WO2023105596A1 - 言語処理装置、画像処理方法、及びプログラム

Info

Publication number: WO2023105596A1
Application number: PCT/JP2021/044790
Authority: WO
Inventors: 光甫西田; 京介西田; 仙吉田
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2023-06-15

Abstract

予測の信頼度をより適切に算出することを目的とする。　テキストデータから特徴量を抽出する言語理解部（３３）と、前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部（４２）と、前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出するn-best抽出部（４３）と、前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部（４４）と、を有し、前記言語理解部（３３）、前記特徴量変換部（４２）、及び前記調整部（４４）は、ニューラルネットワークのモデルパラメータに基づいて処理を行い、前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置（３）。

Description

言語処理装置、画像処理方法、及びプログラム

　本開示内容は、言語処理装置、画像処理方法、及びプログラムに関する。

　ユーザからの質問に対して自然言語で書かれたテキスト（文字情報）を参照しながら、テキストの一区間を抽出することで回答するタスクは、抽出型機械読解と呼ばれる。抽出型機械読解はBERT(Bidirectional Encoder Representations from Transformers)などの識別型深層学習モデルによって解くことが一般的である（非特許文献１）。抽出型機械読解の代表的なデータセットにSQuAD 2.0がある（非特許文献２）。
識別型深層学習モデルが用いられる代表例に、０から９の数字が１つ書かれた画像を入力し、正しいラベル（ここでは数字）を出力するタスクがある。識別型深層学習モデルでは、ラベル集合を台とする確率分布を、各ラベルが真である確率として出力することができる。ここで「台」とは、確率変数がとりうる値の集合である。ラベル集合は０から９の１０個の数字である。「各ラベルが真である確率」とは、予測の信頼度と言い換えることができる。
抽出型機械読解に対する識別型深層学習モデルでは、ラベル集合をテキストの位置の集合とする。つまり、テキスト長をLとして {1, …, L}がラベル集合である。抽出する区間の始点と終点をそれぞれラベル集合から選ぶことで、抽出する一区間を決定することができる。また、回答可能性を考慮するために{回答不能，回答可能}のラベルを用意することもできる。このように、始点、終点、回答可能性の２または３個の分類器を用意することが抽出型機械読解に対する識別型深層学習モデルの特徴である。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Know What You Don't Know: Unanswerable Questions for SQuAD

　しかしながら、一般に深層学習モデルは自信過剰であることが知られている。つまり、識別型深層学習モデルが出力するラベルmが真である確率p(m)は、実際にmが真である確率よりも大きくなる傾向にある。この自信過剰現象は、ユーザに出力の信頼度を提示する場合に大きな問題となる。

　本発明は、上記の点に鑑みてなされたものであって、従来に比べて、予測の信頼度をより適切に算出することを目的とする。

　上記課題を解決するため、請求項１に係る発明は、テキストデータから特徴量を抽出する言語理解部と、前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部と、前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出するn-best抽出部と、前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部と、を有し、前記言語理解部、前記特徴量変換部、及び前記調整部は、ニューラルネットワークのモデルパラメータに基づいて処理を行い、前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置である。

　以上説明したように本発明によれば、従来に比べて、予測の信頼度をより適切に算出することができるという効果を奏する。

本実施形態の通信システムの概略図である。言語処理装置及び通信端末のハードウェア構成図である。言語処理装置の訓練データにおける学習フェーズの機能構成図である。言語処理装置の開発データにおける学習フェーズの機能構成図である。言語処理装置のテストデータにおける推論フェーズの機能構成図である。訓練データによる学習フェーズの処理を示すフローチャートである。開発データによる学習フェーズの処理を示すフローチャートである。テストデータによる推論フェーズの処理を示すフローチャートである。評価結果を示す図である。

　以下、図面に基づいて本発明の実施形態を説明する。

　〔実施形態のシステム構成〕
　まず、図１を用いて、本実施形態の通信システム１の構成の概略について説明する。図１は、本発明の実施形態に係る通信システムの概略図である。

　図１に示されているように、本実施形態の通信システム１は、言語処理装置３、及び通信端末５によって構築されている。通信端末５は、ユーザによって管理及び使用される。

　また、言語処理装置３と通信端末５は、インターネット等の通信ネットワーク１００を介して通信することができる。通信ネットワーク１００の接続形態は、無線又は有線のいずれでも良い。

　言語処理装置３は、単数又は複数のコンピュータによって構成されている。言語処理装置３が複数のコンピュータによって構成されている場合には、「言語処理装置」と示しても良いし、「言語処理類システム」と示しても良い。

　言語処理装置３は、コンピュータであり、深層学習モデルを用いる場合に予測（推論）の信頼度をより適切に算出する装置である。そして、言語処理装置３は、予測した結果である結果データを出力する。出力方法としては、通信端末５に結果データを送信することにより、通信端末５側で結果データに係るグラフ等を表示又は印刷したり、言語処理装置３に接続されたディスプレイで上記グラフ等を表示したり、言語処理装置３に接続されたプリンタ等で上記グラフ等を印刷したりすることが挙げられる。

　通信端末５は、コンピュータであり、図１では、一例としてノート型パソコンが示されているが、ノード型に限るものではなく、デスクトップパソコンであってもよい。また、通信端末は、スマートフォン、又はタブレット型端末であってもよい。図１では、ユーザが、通信端末５を操作する。

　〔言語処理装置及び通信端末のハードウェア構成〕
　次に、図２を用いて、言語処理装置３及び通信端末５のハードウェア構成を説明する。図２は、言語処理装置及び通信端末のハードウェア構成図である。

　図２に示されているように、言語処理装置３は、プロセッサ３０１、メモリ３０２、補助記憶装置３０３、接続装置３０４、通信装置３０５、ドライブ装置３０６を有する。なお、言語処理装置３を構成する各ハードウェアは、バス３０７を介して相互に接続される。

　プロセッサ３０１は、言語処理装置３全体の制御を行う制御部の役割を果たし、ＣＰＵ（Central Processing Unit）等の各種演算デバイスを有する。プロセッサ３０１は、各種プログラムをメモリ３０２上に読み出して実行する。なお、プロセッサ３０１には、ＧＰＧＰＵ(General-purpose computing on graphics processing units)が含まれていてもよい。

　メモリ３０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ３０１とメモリ３０２とは、いわゆるコンピュータを形成し、プロセッサ３０１が、メモリ３０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。

　補助記憶装置３０３は、各種プログラムや、各種プログラムがプロセッサ３０１によって実行される際に用いられる各種情報を格納する。

　接続装置３０４は、外部装置（例えば、表示装置３１０、操作装置３１１）と言語処理装置３とを接続する接続デバイスである。

　通信装置３０５は、他の装置との間で各種情報を送受信するための通信デバイスである。

　ドライブ装置３０６は記録媒体３３０をセットするためのデバイスである。ここでいう記録媒体３３０には、ＣＤ－ＲＯＭ(Compact Disc Read-Only Memory)、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体３３０には、ＲＯＭ(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置３０３にインストールされる各種プログラムは、例えば、配布された記録媒体３３０がドライブ装置３０６にセットされ、該記録媒体３３０に記録された各種プログラムがドライブ装置３０６により読み出されることでインストールされる。あるいは、補助記憶装置３０３にインストールされる各種プログラムは、通信装置３０５を介してネットワークからダウンロードされることで、インストールされてもよい。

　また、図２には、通信端末５のハードウェア構成が示されているが、符号が３００番台から５００番台に変わっただけで、各構成は同様であるため、これらの説明を省略する。

　〔言語処理装置の機能構成〕
　次に、図３を用いて、言語処理装置の機能構成について説明する。

　＜訓練データにおける学習フェーズの機能構成＞
　図３は、言語処理装置の訓練データにおける学習フェーズの機能構成図である。図３において、言語処理装置３は、受付部３１、選択部３２、言語理解部(BERT)３３、損失計算部３５、パラメータ更新部３６、線形変換層４２を有している。これら各部は、プログラムに基づき図２のプロセッサ３０１による命令によって実現される機能である。

　更に、図２のメモリ３０２又は補助記憶装置３０３には、コーパスｃ、言語理解部のパラメータ３３ｐ、及び線形変換層４２のパラメータ４２ｐが記憶されている。

　受付部３１は、外部から複数の教師データ（入力Xと回答Yの集合）を受け付け、コーパスｃとして入力する。

　選択部３２は、コーパスｃとしての複数の教師データから処理対象として１データ（入力Xと回答Y）を選択する。　なお，回答Ｙは回答の始点、回答の終点、回答可能性の３つのラベルから構成され，前２つをまとめて正解回答区間，残りを正解回答可能性と呼称する．
言語理解部３３は、テキストデータ（入力X）のテキストパターンをベクトル化して、テキストデータの特徴量を抽出する。言語理解部３３のニューラルネットワークモデルとして、例えば、ＢＥＲＴ(Bidirectional Encoder Representations from Transformers)が用いられる。

　具体的には、言語理解部３３は、テキストデータを所定の単語で分割し、単語ベクトルとして表現した状態のものを入力Xとして、この入力Xをニューラルネットワークに入力し、モデルパラメータに基づいて、以下に示す特徴量であるHに変換する。

とする。ｄは中間表現の次元、Lはテキスト長であり、入力Xを所定の処理単位であるトークンに分割した際の、トークン数である。なお、本実施形態では、所定の処理単位であるトークンは「単語」と示され、テキストデータを構成する各単語の先頭から順に降った0からLまでの番号は「単語の位置」として示される。なお、トークンは、言語モデルの処理単位と揃えればよく、BERTを用いる場合はサブワードとするのが一般的である。

　損失計算部３５は、特徴量変換部４２の出力データに基づいて、損失関数値を計算する。

　パラメータ更新部３６は、損失計算部３５からの出力データに基づいて、各パラメータ３３ｐ，４２ｐを更新する。

　特徴量変換部４２は、線形変換層用パラメータ４２ｐを用いることで、言語理解部３３から取得した特徴量を線形変換する。特徴量変換部４２については、後ほど詳細に説明する。

　抽出型機械読解タスクでは、特徴量変換部４２として、変換層を１つまたは２つ（線形変換層４２ａ，４２ｂ）を用意する。
１つの線形変換層４２ａである

では、

が各位置の単語が回答の始点であるスコアを表し、

が各位置の単語が回答の終点であるスコアを表す。

　一方、もう１つの線形変換層４２ｂである

は、回答可能性を考慮したい場合のみ用意する。NAの各次元が、回答不能であるスコア、回答可能であるスコアを表す。

　訓練データにおける学習では、S, E, NAをCrossEntropy損失で学習する。この訓練データにおける学習フェーズで学習されたパラメータ３３ｐ，４２ｐは全て固定される。

　＜開発データにおける学習フェーズの機能構成＞
　図４は、言語処理装置の開発データにおける学習フェーズの機能構成図である。図４において、言語処理装置３は、選択部３２、言語理解部(BERT)３３、損失計算部３５、パラメータ更新部３６、特徴量変換部４２、n-best抽出部４３、及び調整部４４を有している。これら各部は、プログラムに基づき図２のプロセッサ３０１による命令によって実現される機能である。

　更に、図２のメモリ３０２又は補助記憶装置３０３には、コーパスｃ、言語理解部のパラメータ３３ｐ、特徴量変換部４２のパラメータ４２ｐ、調整部４４のパラメータ４４ｐが記憶されている。なお、訓練データにおける学習フェーズの機能構成と同様の機能構成については、同一の符号を付して説明を省略する。

　開発データにおける学習フェーズでは、線形変換層４２ａ(Linear_Ans)の出力に対しTemperature Scalingを用い、線形変換層４２ｂ(Linear_NoAns)の出力に対しBiased Temperature Scalingを用いる。これは、回答不能データと回答可能データの数が不均衡であるためである。ここではTemperature ScalingとBiased Temperature Scalingを用いて説明するが、＜参考文献１＞に紹介されているような任意のcalibration手法も利用可能である。

　＜参考文献１＞On Calibration of Modern Neural Networks
　n-best抽出部４３は、特徴量変換部４２から出力された回答始点スコア、回答終点スコアに基づいて各テキストデータの特徴量のうち、所定のｎ個の回答区間を抽出することで，始点の特徴量と終点の特徴量を回答候補の特徴量として抽出する。回答区間は、数３、数４及び回答適合度スコアを用い、始点が終点より前になるように始点と終点を定めればよい。回答適合度スコアは、始点スコアと終点スコアに基づいた値である。例えば、始点と終点のスコアの和又は積で示され、本実施形態では数１３で和が用いられる。）である。ｎ個の抽出例としては、回答適合度スコアが最も高い順にｎ個の特徴量を抽出する場合が挙げられる。他に任意の抽出方法を用いることができ，例えば抽出した回答候補が、より上位の回答候補と単語が共通している場合はその回答候補を無視するといった抽出方法を採用してもよい．。外部の固有表現抽出ツールなどで抽出した固有表現に相当する区間を負例として採用してもよい。訓練時は，ｎ個の抽出に必ず真の回答（回答Y）を含むようにする．
　調整部４４が実行するTemperature Scalingは、温度パラメータ

を追加し、スコアxを1/T倍する手法である。スコアxを確率分布に変換する際はsoftmax変換

をするため、スコアを1/TにすることでTが大きいときは平坦な確率分布が得られ、Tが小さいときは急な確率分布が得られる。大きいTの値を設定することで、自信過剰現象を抑えることができる。i,ｊは回答となる単語の位置であり、ｉ，jは、1からLの任意の整数である。

　調整部４４が実行するBiased Temperature Scalingは、温度パラメータ

と、バイアスパラメータ

を追加し、スコア

を

する手法である。

　ここでkはラベル数である。線形変換層４２ｂ(Linear_NoAns)ではk=2である。バイアスパラメータBが存在することで、不均衡データでもラベルを均等に扱うことが可能になる。

　本実施形態では、まず、線形変換層４２ｂである

に対し、n-best抽出部４３への絞り込みを行う。真の始点をi_true、終点をj_trueとする。始点iと終点jに対し、回答適合度スコアをs_i+e_jとする。

　真の回答適合度スコアは

であり、負例に対しても回答適合度スコア

が計算可能である。これらn個のスコアを並べたベクトルが回答適合度スコアのベクトル

である。

　負例はn-best抽出部４３によって選ばれた真の回答以外の回答候補である．。

　次に、調整部４４は、得られた回答適合度スコアのベクトルAに対してTemperature Scalingを行う。温度パラメータT_Aを用意し、A/T_AをスコアとしてCrossEntropy損失を計算する。この損失に関する学習可能パラメータは温度パラメータT_Aのみである。T_Aは全てのラベルに関してスコアを均等にスケールするため、学習の前後で最大値を達成するラベルが変化せず、出力する回答も変化しない。モデルはTemperature Scalingによって、出力する確率分布である調整済み回答適合度スコア

が、実際に出力が真である確率と一致するように、スケールT_Aを学習する。

　また、線形変換層４２ｂの出力である回答可能性スコア

に対しては、温度パラメータT_NAとバイアスパラメータB_NAを用意し、CrossEntropy損失を計算する。この損失に関する学習パラメータはT_NA，B_NAのみである。Biased Temperature Scalingはバイアスパラメータがあるため、学習の前後で出力する回答が変化しうる。モデルは調整済み回答可能性スコア

が実際に出力が真である確率と一致するようなスケールとバイアスを学習する。開発データにおける学習では、これら２つのCrossEntropy損失の和を損失関数として勾配を計算し、モデルを学習する。

　また、バイアスパラメータの副次的な効果として、推論時のラベルの出力をスコアが最大のラベルとすることができる。バイアスパラメータがない場合、例えば回答可能の確率が0.7以上のときのみ回答可能と出力する、というように閾値を人手で設定する必要が生じる。

　＜テストデータにおける推論フェーズの機能構成＞
　図５は、言語処理装置のテストデータにおける推論フェーズの機能構成図である。図５において、言語処理装置３は、言語理解部(BERT)３３、特徴量変換部４２、n-best抽出部４３、調整部４４、及び出力部３９を有している。これら各部は、プログラムに基づき図２のプロセッサ３０１による命令によって実現される機能である。

　更に、図２のメモリ３０２又は補助記憶装置３０３には、言語理解部のパラメータ３３ｐ、特徴量変換部４２のパラメータ４２ｐ、調整部４４のパラメータ４４ｐが記憶されている。なお、訓練データにおける学習フェーズの機能構成及び開発データにおける学習フェーズの機能構成と同様の機能構成については、同一の符号を付して説明を省略する。

　推論フェーズでは、出力部３９において、調整部４４が出力する調整済み回答適合度スコア、調整済み回答可能性スコアを用いて予測回答とその予測回答信頼度を算出する。具体的には予測回答とその予測回答信頼度は、

の最大を達成する区間とその最大値で定義する。

　また、予測回答可能性（回答可能か回答不能かの出力）と予測回答可能性信頼度を

の最大を達成する成分とその最大値で定義する。

　最終的に出力部３９は、結果データとして予測回答、予測回答信頼度、予測回答可能性、予測回答可能性信頼度を出力する。

　〔実施形態の処理又は動作〕
　続いて、図６乃至図９を用いて、本実施形態の処理又は動作について詳細に説明する。なお、訓練データによる学習フェーズ、開発データによる学習フェーズ、及びテストデータによる推論フェーズに分けて説明する。

　＜処理又は動作の概略＞
　上述のように、一般に深層学習モデルは自信過剰であることが知られている。つまり、識別型深層学習モデルが出力するラベルmが真である確率p(m)は、実際にmが真である確率よりも大きくなる傾向にある。この自信過剰現象は、ユーザに出力の信頼度を提示する場合に大きな問題となる。

　そこで、自信過剰現象への一般的な対処法は以下の通りである。

　まず、訓練データでモデルを学習し、パラメータを固定する。次に、モデルに少量のパラメータを増やし、増やしたパラメータを開発データで学習する。この学習では、モデルが出力する確率分布を実際にモデルの出力が真である確率と一致させることが目的である。

　追加するパラメータの構成として様々な手法があるが、Temperature Scalingと呼ばれる手法がシンプルかつ高性能であることが知られている（参考文献１）。

　また、各ラベルのデータ数が不均衡な場合の手法として、(Biased) Temperature Scalingがある（参考文献２）。
＜参考文献２＞Calibration with Bias-Corrected Temperature Scaling Improves Domain Adaptation Under Label Shift in Modern Neural Networks
　さらに、抽出型機械読解の回答候補の多さへの対策として、n-bestへの絞り込みを行う。つまり、ラベル集合{1, …, L}×{1, …, L}上での確率分布ではなく、{真の回答，負例1，...，負例n-1}上での学習及び推論を行う。

　＜訓練データによる学習フェーズ＞
　続いて、図６を用いて、訓練データによる学習フェーズについて説明する。図６は、訓練データによる学習フェーズの処理を示すフローチャートである。

　まず、受付部３１は、外部から教師データ（入力Xと回答Yの集合）を受け付ける（Ｓ１１）。

　選択部３２は、教師データから処理対象として１データ（入力Xと回答Y）を選択する（Ｓ１２）。

　そして、入力Xのデータは、言語理解部３３、及び特徴量変換部４２に順次入力され、各部で上述の処理が行われる（Ｓ１３）。

　損失計算部３５が、特徴量変換部４２の出力と、回答である正解データYから損失を計算し、パラメータ更新部３６が、損失の勾配を計算し、言語理解部３３のパラメータ３３ｐと線形変換層４２のパラメータ４２ｐを更新する（Ｓ１４）。

　次に、選択部３２は、これまでの操作で全データに対してステップＳ１３，Ｓ１４の処理が終了しているか否かを判断する（Ｓ１５）。そして、全てのデータの処理が終了していない場合には（Ｓ１５；ＮＯ）、上記ステップＳ１３に戻る。一方、全てのデータの処理が終了している場合には、選択部３２は、ステップＳ１２～Ｓ１５の反復操作を規定回数終了したか否かを判断する（Ｓ１６）。そして、規定回数終了していない場合には（Ｓ１６；ＮＯ）、全てのデータを未処理とみなしてステップＳ１２に戻る。一方、規定回数終了している場合には（Ｓ１６；ＹＥＳ）、訓練データによる学習フェーズの全ての処理が終了する。

　＜開発データによる学習フェーズ＞
　続いて、図７を用いて、開発データによる学習フェーズについて説明する。図７は、開発データによる学習フェーズの処理を示すフローチャートである。

　まず、受付部３１は、外部から教師データ（入力Xと回答Yの集合）を受け付ける（Ｓ２１）。

　選択部３２は、教師データから処理対象として１データ（入力Xと回答Y）を選択する（Ｓ２２）。

　そして選択部３２は、入力Xのデータを、言語理解部３３、特徴量変換部４２、n-best抽出部４３、調整部４４に順次入力し、各部では上述の処理が行われる（Ｓ２３）。

　損失計算部３５が、調整部４４の出力と、回答である正解データYから損失を計算し、パラメータ更新部３６が、損失の勾配を計算し、調整部のパラメータ４４ｐを更新する（Ｓ２４）。

　次に、選択部３３は、これまでの操作で全データに対してステップＳ２３，Ｓ２４の処理が終了しているか否かを判断する（Ｓ２５）。そして、全てのデータの処理が終了していない場合には（Ｓ２５；ＮＯ）、上記ステップＳ２３に戻る。一方、全てのデータの処理が終了している場合には、選択部３２は、ステップＳ２２～Ｓ２５の反復操作を規定回数終了したか否かを判断する（Ｓ２６）。そして、規定回数終了していない場合には（Ｓ２６；ＮＯ）、全てのデータを未処理とみなしてステップＳ２２に戻る。一方、規定回数終了している場合には（Ｓ２６；ＹＥＳ）、開発データによる学習フェーズの全ての処理が終了する。

　＜テストデータによる推論フェーズ＞
　最後に、図８を用いて、テストデータによる推論フェーズについて説明する。図８は、テストデータによる推論フェーズの処理を示すフローチャートである。

　まず、入力部３０は、評価サンプルｓｍ２として評価データ（入力X）の入力を受け付ける（Ｓ３１）。

　次に、入力Xのデータは、言語理解部３３、特徴量変換部４２、及びn-best抽出部４３、調整部４４に順次入力され、各部で上述の処理が行われる（Ｓ３２）。

　次に、出力部３９が、調整部４４の出力から回答と信頼度を計算して、結果データを出力する（Ｓ３３）。

　〔評価例〕
　続いて、本実施形態の言語処理装置を用いた評価例について説明する。図９は、評価結果を示す図である。

　本評価では、SQuAD2.0データセットを、公式訓練データのランダムな９０％を訓練データ、残り１０％を開発データ、公式開発データをテストデータとして評価した。

　本評価例では、訓練時の負例抽出方法と推論時の回答候補抽出方法は、回答適合度スコアaの大きいものとした。nとして3を用いた。また、温度パラメータTを、実装上のモデルのパラメータをT'としてT=exp(T')とした。これは、温度パラメータが正の値を取る必要があるためである。

　回答自体の評価尺度として、回答不能及び回答可能のラベルの完全一致率と、回答可能であった場合の回答区間の完全一致率を用いる。また、信頼度の評価尺度として、ECE(Expected Calibration Error)を用いる。具体的には以下の通り計算する。

　サンプルxに対してモデルが出力する確率をp(x)∈[0,1]とする。次に[0, 1]を１０分割する。たとえば、分割[0, 0.1]について、p(x)∈[0, 0.1]となるサンプル全ての集合に関して、p(x)の平均を計算する。これが分割[0, 0.1)における信頼度の平均である。また、そのサンプル集合に関して、モデル出力の完全一致率を計算する。これが分割[0, 0.1]における実際の正解率である。各分割において信頼度の平均と実際の正解率の差の絶対値を取り、分割に関するミクロ平均を取った値がECE値である。ECE値はモデルが出力する信頼度と実際の正解率の差の期待値に相当するため、小さいほどよい。

　比較手法は、図３の言語処理装置３によって訓練データにおける学習を行って、通常通りの手法で信頼度を出力した手法、同じく図３の言語処理装置３によって訓練データにおける学習を行って推論フェーズのみでn-bestへの絞り込みを行って信頼度を出力した手法、本実施形態の一連の処理の３つである。なお、本実施形態の一連の処理では、学習フェーズ及び推論フェーズの両方において、n-bestへの絞り込みが実行されると共に、Biased Temperature Scaling及びTemperature Scalingが実行される。全ての手法において、回答可能性判定の閾値を0.5に設定した。つまり、スコアの大きい方のラベルを出力した。

　図９に結果を表で示す。単位は全て％である。本実施形態は、回答区間に関する完全一致率を損なうことなくECEを改善している。n-bestによる信頼度はモデルに単に適用した場合はECEを悪化させるが、本実施形態によって学習時にも用いることでECEの改善に貢献している。回答可能性に関しては、バイアスパラメータの存在により完全一致が僅かに向上している。ECEも改善していることがわかる。

　〔実施形態の主な効果〕
　以上説明したように本実施形態によれば、言語処理装置３は、抽出型機械読解における識別型深層学習モデルに、Temperature Scaling（Biased Temperature Scaling）を実施し、n-bestへの絞り込みを行った上で学習することで、モデルの出力する確率分布を実際にラベルが真である確率に近づけることができる。これにより、本実施形態は、従来に比べて、予測の信頼度をより適切に算出することができるという効果を奏する。

　〔補足〕
　本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理（動作）であってもよい。

　言語処理装置３はコンピュータとプログラムによって実現できるが、このプログラムを（非一時的）記録媒体に記録することも、通信ネットワーク１００を介して提供することも可能である。

　〔付記項〕
　上述の実施形態には、以下に示す発明としても表すことができる。

　〔付記項１〕
　プロセッサを有する言語処理装置であって、
　前記プロセッサは、
　ニューラルネットワークのモデルパラメータに基づきテキストデータから特徴量を抽出し、
　前記ニューラルネットワークのモデルパラメータに基づき前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力し、
　前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出し、
　前記ニューラルネットワークのモデルパラメータに基づき前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記ニューラルネットワークのモデルパラメータに基づき前記回答可能性スコアから調整済み回答可能性スコアを求め、前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置。

　〔付記項２〕
　前記n-best抽出ステップは、スコアが最も高い順にｎ個の前記回答適合度スコアを抽出する処理を含む、付記項１に記載の言語処理装置。

　〔付記項３〕
　前記ｎ個の調整済み回答適合度スコアと、前記調整済み回答可能性スコアは、前記ニューラルネットワークによるBiased Temperature Scaling及びTemperature Scalingに基づいて求められることを特徴とする、付記項１又は２に記載の言語処理装置。
〔付記項４〕
　プロセッサを有する言語処理装置であって、
　前記プロセッサは、
　ニューラルネットワークの予め学習済みのモデルパラメータに基づきテキストデータから特徴量を抽出し、
　前記ニューラルネットワークの予め学習済みのモデルパラメータに基づき前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力し、
　前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出し、
　前記ニューラルネットワークの予め学習済みのモデルパラメータに基づき前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記ニューラルネットワークのモデルパラメータに基づき前記回答可能性スコアから調整済み回答可能性スコアを求め、
　前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコアから、予測回答、予測回答信頼度、予測回答可能性、及び予測回答可能性信頼度を算出する、
　言語処理装置。

　〔付記項５〕
　言語処理装置は、
　テキストデータから特徴量を抽出する言語理解ステップと、
　前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換ステップと、
　前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出するn-best抽出ステップと、
　前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整ステップと、
　を実行し、
　前記言語理解ステップ、前記特徴量変換ステップ、及び前記調整ステップは、ニューラルネットワークのモデルパラメータに基づく処理を含み、
　前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに、正解回答区間及び正解回答可能性に基づいて前記モデルパラメータの学習を行う、言語処理方法。

　〔付記項６〕
　コンピュータに、付記項５に記載の方法を実行させるプログラムが記録された非一時的記録媒体。

１　通信システム
３　言語処理装置
５　通信端末
３０　入力部
３１　受付部
３２　選択部
３３　言語理解部
３５　損失計算部
３６　パラメータ更新部
３９　出力部
４２　特徴量変換部
４３　n-best抽出部
４４　調整部

Claims

　テキストデータから特徴量を抽出する言語理解部と、
　前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部と、
　前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出するn-best抽出部と、
　前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部と、
　を有し、
　前記言語理解部、前記特徴量変換部、及び前記調整部は、ニューラルネットワークのモデルパラメータに基づいて処理を行い、
　前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、前記モデルパラメータの学習を行う、言語処理装置。
　前記n-best抽出部は、スコアが最も高い順にｎ個の前記回答適合度スコアを抽出する、請求項１に記載の言語処理装置。
　前記調整部は、Biased Temperature Scaling及びTemperature Scalingに基づく処理を行う、請求項１又は２に記載の言語処理装置。
　テキストデータから特徴量を抽出する言語理解部と、
　前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換部と、
　前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出するn-best抽出部と、
　前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整部と、
　前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコアから、予測回答、予測回答信頼度、予測回答可能性、及び予測回答可能性信頼度を算出する出力部と、
　を有し、
　前記言語理解部及び前記特徴量変換部は、前記ｎ個の回答適合度スコア及び前記回答可能性スコア、並びに正解回答区間及び正解回答可能性に基づいて、予め学習済みのニューラルネットワークの前記モデルパラメータに基づいて処理を行う、言語処理装置。
　請求項１乃至３のいずれか一項に記載の言語処理装置と、
　通信ネットワークを介して前記言語処理装置から結果データを受信する通信端末と、
　有する通信システム。
　言語処理装置は、
　テキストデータから特徴量を抽出する言語理解ステップと、
　前記特徴量を入力として、回答始点スコア、回答終点スコア、及び回答可能性スコアを出力する特徴量変換ステップと、
　前記回答始点スコア及び前記回答終点スコアに基づいて、所定のｎ個の回答適合度スコアを抽出するn-best抽出ステップと、
　前記ｎ個の回答適合度スコアからｎ個の調整済み回答適合度スコアを求め、前記回答可能性スコアから調整済み回答可能性スコアを求める調整ステップと、
　を実行し、
　前記言語理解ステップ、前記特徴量変換ステップ、及び前記調整ステップは、ニューラルネットワークのモデルパラメータに基づく処理を含み、
　前記ｎ個の調整済み回答適合度スコア及び前記調整済み回答可能性スコア、並びに、正解回答区間及び正解回答可能性に基づいて前記モデルパラメータの学習を行う、言語処理方法。
　コンピュータに、請求項６に記載の方法を実行させるプログラム。