WO2023228313A1

WO2023228313A1 - 言語処理方法、言語処理装置及びプログラム

Info

Publication number: WO2023228313A1
Application number: PCT/JP2022/021380
Authority: WO
Inventors: 康仁大杉; いつみ斉藤; 京介西田; 仙吉田
Original assignee: 日本電信電話株式会社
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2023-11-30
Also published as: JPWO2023228313A1

Abstract

本開示の一態様による言語処理方法は、トークン系列と、前記トークン系列と音声的に近いが一部が異なるトークン系列をそれぞれ表す複数の第１の誤りトークン系列とが対応付けられた誤り辞書を用いて、与えられたテキストデータに含まれる原文章のトークン系列を表す原文トークン系列の一部を前記第１の誤りトークン系列で置換し、前記原文トークン系列と音声的に近いが一部が異なるトークン系列を表す第２の誤りトークン系列を言語モデル構築用のデータとして作成する誤り文作成手順、をコンピュータが実行する。

Description

言語処理方法、言語処理装置及びプログラム

　本開示は、言語処理方法、言語処理装置及びプログラムに関する。

　近年、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）等を始めとした言語モデルに関する研究が盛んに行われている（例えば、非特許文献１参照）。言語モデルとは、トークンの分散表現を得るニューラルネットワークモデルの１つである。言語モデルでは、単一のトークンではなく、トークンが使用されているテキスト全てが入力されるため、テキスト内の他のトークンとの意味的な関係性を反映した分散表現を得ることができる。なお、トークンとは、テキスト中の文字を或る程度意味がわかる単位にまとめたものであり、典型的には単語や更に細かい単位であるサブワード等が挙げられる。また、分散表現とは、トークンをベクトル（一般には高次元の実数ベクトル）で表現したものである。分散表現では、意味的に近いトークンが近いベクトルに対応する。

　言語モデルにより上記の分散表現を学習するステップは事前学習（pre-training）と呼ばれる。また、事前学習済みの分散表現を用いてテキスト分類タスクや質問応答タスク等の様々なタスクを解くことができ、このステップはファインチューニング（fine-tuning）と呼ばれる。

　非特許文献１に記載されている言語モデルでは、大規模な言語資源を用いた事前学習により各トークンの精度の良い分散表現を学習しておくことで、ファインチューニングにおける各タスクでも高い性能を発揮している。ただし、ファインチューニングにおける各タスクで高い性能を発揮するためには十分な事前学習を行う必要がある。そのため、事前学習では、単語穴埋めタスクと次文予測タスクという２つのタスクを用いる。単語穴埋めタスクは、トークン系列からランダムにトークンをサンプリングし、マスク用トークンに置換する、ランダムなトークンに置換する、そのままのトークンを保持する、のいずれかの操作を行って入力トークン系列を作成し、この入力トークン系列から元のトークン系列（正解トークン系列）を予測するタスクである。

　例えば、図１に示すように、「今日は良い天気です。」という原文章があったとする。この原文章をトークナイズした結果のトークン系列（正解トークン系列）から新たに「今日／［ＭＡＳＫ］／良／い／消防車／です／。」というトークン系列（入力トークン系列）を得る（ただし、「／」はトークンの切れ目を表す。）。このとき、この入力トークン系列を言語モデルに入力し、正解トークン系列「今日／は／良／い／天気／です／。」を予測できるように言語モデルを学習する。非特許文献１に記載されている言語モデルは、ニューラルネットワークで実装されているため、正解トークン系列を教師ラベルとした一般的な教師ありのニューラルネットワーク学習方法を適用すればよい。なお、トークナイズとは、テキストをトークン単位に分割することをいう。

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding".

　しかしながら、非特許文献１等に記載されている従来の言語モデルには以下の（１）及び（２）の２つの課題が存在する。

　（１）従来の言語モデルを、コールセンタ対話の要約等といった音声発話を入力とするタスクに適用する場合を考える。この場合、従来の言語モデルの入力はテキストであるため、音声発話を音声認識によりテキスト化する必要があり、そこには音声認識誤りが生じ得る。したがって、対話要約等のタスクを精度良く解くためには、音声認識誤りを含む文（誤り文）の内容や意図を正確に理解することが必要となる。一方で、単語穴埋めタスクの入力トークン系列は上述の通り人工的に作られた誤り文と言えるものの、元のトークン系列の音声的な繋がりが全く考慮されていない。このため、音声認識誤りの傾向の１つである「音声的には近いが意味が異なる誤り」に対応できておらず、結果として音声認識結果を用いた対話要約を精度良く解くことができない。例えば、図１に示す例では、「天気」トークンが「消防車」トークンへと置換されることで誤り文が作成されているが、実際の音声認識では、音声的に近しい「転機」トークンの方が間違いとして出現する確率が高いと考えられる。

　（２）音声認識誤りを含む文（誤り文）の内容や意図を正確に理解するためには、誤り文と正解文の２つが必要となる。すなわち、音声データとその書き起こしテキストのペアデータが必要となる。しかしながら、人間の音声を収録した音声データとその書き起こしテキストのペアデータは書き言葉のテキストデータと比較すると非常に少なく、また音声収録及び書き起こしテキスト収集に要するコストも非常に高い。このため、音声データと書き起こしテキストのペアデータにより音声認識誤りに頑強な言語モデルを構築することは困難である。一方で、大量に存在する書き言葉のテキストデータを音声合成して音声データを人工的に作成し、その音声データの音声を音声認識して誤り文を作成する方法も考えられる。しかしながら、この方法は、音声合成と音声認識の両方で大量の時間を要するため現実的でなく、また使用した音声合成及び音声認識に特化され過ぎてしまい汎用的な言語モデルの構築が困難である。

　本開示は、上記の点に鑑みてなされたもので、音声的な繋がりを反映した言語モデルを短時間に構築できる技術を提供する。

　音声的な繋がりを反映した言語モデルを短時間に構築できる技術が提供される。

単語穴埋めタスクにおける入力トークン系列への変換の一例を示す図である。言語処理装置のハードウェア構成の一例を示す図である。誤り辞書作成フェーズ及び言語モデル学習フェーズにおける言語処理装置の機能構成の一例を示す図である。誤り辞書の一例を示す図である。言語モデル学習処理の一例を示すフローチャートである。誤り辞書作成処理の一例を示すフローチャートである。音素変換モデル学習フェーズにおける言語処理装置の機能構成の一例を示す図である。音素変換モデル学習処理の一例を示すフローチャートである。トークン変換モデル学習フェーズにおける言語処理装置の機能構成の一例を示す図である。トークン変換モデル学習処理の一例を示すフローチャートである。

　以下、本発明の一実施形態について説明する。以下の実施形態では、音声的な繋がりを反映した言語モデルを短時間に構築できる言語処理装置１０について説明する。このために、本実施形態に係る言語処理装置１０は、音素を介して誤り文を人工的に作成し、それらの誤り文により音声的な繋がりを反映した言語モデルを構築する。また、本実施形態に係る言語処理装置１０は、誤り文を作成する際に、トークン系列（正しいトークン系列）とそのトークン系列と音声的には近いが誤った部分を含むトークン系列（誤りトークン系列）とを対応付けた辞書（以下、誤り辞書ともいう。）を参照して当該誤り文を作成する。これにより、本実施形態に係る言語処理装置１０は、音声的な繋がりを反映した言語モデルを短時間（例えば、非特許文献１に記載されている言語モデルの事前学習に要する時間と同程度の時間）に構築することができる。なお、音素とは、人間が弁別可能な音声の最小単位のことをいう。

　ここで、本実施形態に係る言語処理装置１０には、誤り辞書を作成するための「誤り辞書作成フェーズ」と、この誤り辞書を用いて言語モデルを構築（事前学習）するための「言語モデル学習フェーズ」とが存在する。

　また、上記の誤り辞書は、トークン系列を音素変換モデルにより音素系列に変換した後、更にその音素系列をトークン変換モデルによりトークン系列に再変換した上で、元のトークン系列と再変換後のトークン系列とを対応付けることで作成される。このため、本実施形態に係る言語処理装置１０には、音素変換モデルを構築（学習）するための「音素変換モデル学習フェーズ」と、トークン変換モデルを構築（学習）するための「トークン変換モデル学習フェーズ」とが存在する。なお、音素変換モデル及びトークン変換モデルはいずれも、系列を入力として系列を出力するニューラルネットワークで実現される。

　＜言語処理装置１０のハードウェア構成例＞
　本実施形態に係る言語処理装置１０のハードウェア構成例を図２に示す。図２に示すように、本実施形態に係る言語処理装置１０は、入力装置１０１と、表示装置１０２と、外部Ｉ／Ｆ１０３と、通信Ｉ／Ｆ１０４と、ＲＡＭ（Random Access Memory）１０５と、ＲＯＭ（Read Only Memory）１０６と、補助記憶装置１０７と、プロセッサ１０８とを有する。これらの各ハードウェアは、それぞれがバス１０９を介して通信可能に接続されている。

　入力装置１０１は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置１０２は、例えば、ディスプレイ、表示パネル等である。なお、言語処理装置１０は、例えば、入力装置１０１及び表示装置１０２の少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ１０３は、記録媒体１０３ａ等の外部装置とのインタフェースである。言語処理装置１０は、外部Ｉ／Ｆ１０３を介して、記録媒体１０３ａの読み取りや書き込み等を行うことができる。記録媒体１０３ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

　通信Ｉ／Ｆ１０４は、言語処理装置１０を通信ネットワークに接続するためのインタフェースである。ＲＡＭ１０５は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。ＲＯＭ１０６は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。補助記憶装置１０７は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等のストレージ装置（記憶装置）である。プロセッサ１０８は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の演算装置である。

　本実施形態に係る言語処理装置１０は、図２に示すハードウェア構成を有することにより、後述する各種処理を実現することができる。なお、図２に示すハードウェア構成は一例であって、言語処理装置１０のハードウェア構成はこれに限られるものではない。例えば、言語処理装置１０は、複数の補助記憶装置１０７や複数のプロセッサ１０８を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。

　［誤り辞書作成フェーズ及び言語モデル学習フェーズ］
　以下、誤り辞書作成フェーズ及び言語モデル学習フェーズについて説明する。なお、誤り辞書作成フェーズ及び言語モデル学習フェーズでは、音素変換モデルのモデルパラメータとトークン変換モデルのモデルパラメータはいずれも学習済みであるものとする。

　＜誤り辞書作成フェーズ及び言語モデル学習フェーズにおける言語処理装置１０の機能構成例＞
　誤り辞書作成フェーズ及び言語モデル学習フェーズにおける言語処理装置１０の機能構成例を図３に示す。図３に示すように、誤り辞書作成フェーズ及び言語モデル学習フェーズにおける言語処理装置１０は、入力データ作成部２０１と、誤り文作成部２０２と、ラベル作成部２０３と、言語モデル部２０４と、更新部２０５と、音素変換部２０６と、トークン変換部２０７と、誤り辞書作成部２０８とを有する。これら各部は、例えば、言語処理装置１０にインストールされた１以上のプログラムが、プロセッサ１０８等に実行させる処理により実現される。また、誤り辞書作成フェーズ及び言語モデル学習フェーズにおける言語処理装置１０は、言語モデルパラメータ記憶部２０９と、音素変換モデルパラメータ記憶部２１０と、トークン変換モデルパラメータ記憶部２１１と、誤り辞書記憶部２１２とを有する。これら各記憶部は、例えば、補助記憶装置１０７等により実現される。なお、これら各記憶部のうちの少なくとも１つの記憶部が、言語処理装置１０と通信ネットワークを介して接続されるデータベースサーバ等の記憶装置により実現されていてもよい。

　入力データ作成部２０１は、言語モデル学習フェーズにおいて、与えられたテキストデータから原文章を作成する。また、入力データ作成部２０１は、誤り辞書作成フェーズにおいて、与えられたテキストデータからトークン系列集合を作成する。

　誤り文作成部２０２は、言語モデル学習フェーズにおいて、誤り辞書記憶部２１２に記憶されている誤り辞書を用いて、原文章から誤りトークン系列を作成する。誤りトークン系列とは、原文章を表すトークン系列と音声的には近いが誤った部分を含むトークン系列（言い換えれば、原文章の誤り文を表すトークン系列）のことである。なお、誤り辞書の具体例については後述する。

　ラベル作成部２０３は、言語モデル学習フェーズにおいて、誤りトークン系列から、単語穴埋めタスクの入力トークン系列と正解ラベルとを作成する。正解ラベルとは、入力トークン系列の誤り（マスク用トークンも含む）をどのように訂正すれば原文章のトークン系列が得られるかの正解を表す情報である。

　言語モデル部２０４は、言語モデル学習フェーズにおいて、言語モデルパラメータ記憶部２０９に記憶されている言語モデルパラメータを用いて、入力トークン系列から予測ラベルを作成する。予測ラベルとは、入力トークン系列の誤り（マスク用トークンも含む）をどのように訂正すれば原文章のトークン系列（正解トークン系列）が得られるかを予測した情報である。ここで、言語モデル部２０４は、例えば、非特許文献１に記載されているＢＥＲＴ等といったニューラルネットワーク（トークン系列を入力として、その分散表現を出力するニューラルネットワーク）を利用した言語モデルにより実現される。

　更新部２０５は、言語モデル学習フェーズにおいて、正解ラベルと予測ラベルから言語モデルパラメータを更新する。

　音素変換部２０６は、誤り辞書作成フェーズにおいて、音素変換モデルパラメータ記憶部２１０に記憶されている音素変換モデルパラメータを用いて、トークン系列集合に含まれるトークン系列から音素系列集合を作成する。ここで、音素変換部２０６は、系列を入力として系列を出力するニューラルネットワークを利用した音素変換モデルにより実現される。例えば、音素変換モデルとして、参考文献１に記載されているＴｒａｎｓｆｏｒｍｅｒモデル等を用いることができる。

　トークン変換部２０７は、誤り辞書作成フェーズにおいて、トークン変換モデルパラメータ記憶部２１１に記憶されているトークン変換モデルパラメータを用いて、音素系列集合からトークン系列集合を作成する。このトークン系列集合は、元のトークン系列（つまり、音素変換部２０６に入力されたトークン系列）の誤りトークン系列の集合である。ここで、トークン変換部２０７は、系列を入力として系列を出力するニューラルネットワークを利用したトークン変換モデルにより実現される。例えば、トークン変換モデルとして、参考文献１に記載されているＴｒａｎｓｆｏｒｍｅｒモデル等を用いることができる。

　誤り辞書作成部２０８は、音素変換部２０６に入力されたトークン系列と、トークン変換部２０７から出力されたトークン系列集合とを対応付けた誤り辞書を作成し、誤り辞書記憶部２１２に格納する。すなわち、誤り辞書作成部２０８は、音素変換部２０６に入力されたトークン系列を「正しいトークン系列」、トークン変換部２０７から出力されたトークン系列集合に含まれる各トークン系列の各々を「誤りトークン系列」として、正しいトークン系列と各誤りトークン系列とを対応付けた誤り辞書を作成及び格納する。

　言語モデルパラメータ記憶部２０９は、言語モデル部２０４を実現する言語モデルのパラメータ（言語モデルパラメータ）を記憶する。なお、言語モデル学習フェーズにおいては、言語モデルパラメータは学習済みでないものとする。

　音素変換モデルパラメータ記憶部２１０は、音素変換部２０６を実現する音素変換モデルのパラメータ（音素変換モデルパラメータ）を記憶する。なお、誤り辞書作成フェーズにおいては、音素変換モデルパラメータは学習済みであるものとする。

　トークン変換モデルパラメータ記憶部２１１は、トークン変換部２０７を実現するトークン変換モデルのパラメータ（トークン変換モデルパラメータ）を記憶する。なお、誤り辞書作成フェーズにおいては、トークン変換モデルパラメータは学習済みであるものとする。

　誤り辞書記憶部２１２は、誤り辞書を記憶する。ここで、誤り辞書の一例を図４に示す。図４に示すように、誤り辞書は、１つのトークン系列（正しいトークン系列）に対して、そのトークン系列に関する複数の誤りトークン系列が対応付けられた情報である。図４に示す例では、「し／て／い／る」とのトークン系列に対して、「って／い／る／［終端］」、「し／て／入れ／［終端］」、「し／て／い／れ」、「し／て／入／れ」等の誤りトークン系列が対応付けられている。なお、［終端］はトークン系列の終端を表す。

　＜言語モデル学習処理＞
　以下、言語モデル学習フェーズで実行される言語モデル学習処理について、図５を参照しながら説明する。

　入力データ作成部２０１は、与えられたテキストデータから原文章をサンプリングする（ステップＳ１０１）。これにより、原文章が作成される。なお、テキストデータとしては、例えば、オンライン百科事典等といったＷｅｂサイトのＷｅｂページから取得したテキストデータ等が考えられる。

　次に、誤り文作成部２０２は、誤り辞書記憶部２１２に記憶されている誤り辞書を用いて、原文章から誤りトークン系列を作成する（ステップＳ１０２）。具体的には、誤り文作成部２０２は、以下の手順１－１～手順１－５により誤りトークン系列を作成する。

　手順１－１：まず、誤り文作成部２０２は、原文章をトークナイズしてトークン系列を作成する。

　手順１－２：次に、誤り文作成部２０２は、手順１－１で作成したトークン系列の一部をサンプリングする。すなわち、誤り文作成部２０２は、当該トークン系列の中から１以上の連続したトークンの系列を部分トークン系列としてサンプリングする。なお、部分トークン系列としてサンプリングされる箇所は１箇所でもよいし、複数箇所でもよい。ただし、複数箇所サンプリングされる場合は、各部分トークン系列のサンプリング箇所が重畳しないようにする。また、サンプリングされる部分トークン系列の系列長は予め決められた範囲の中からサンプリングされてもよいし、固定の系列長であってもよい。以下では、簡単のため、サンプリング箇所は１箇所であるものである。なお、サンプリング箇所が複数である場合、サンプリング箇所毎に手順１－３～手順１－４が実行された後に、手順１－５が実行される。

　手順１－３：次に、誤り文作成部２０２は、手順１－２でサンプリングした部分トークン系列を用いて、誤り辞書から誤りトークン系列集合を得る。すなわち、誤り文作成部２０２は、手順１－２でサンプリングした部分トークン系列を「正しいトークン系列」として、誤り辞書を検索し、当該正しいトークン系列に対応する誤りトークン系列の集合を得る。

　手順１－４：次に、誤り文作成部２０２は、手順１－３で得た誤りトークン系列集合の中から誤りトークン系列を１つサンプリングする。

　手順１－５：そして、誤り文作成部２０２は、元のトークン系列（つまり、手順１－１で作成したトークン系列）中の部分トークン系列を、手順１－４で得られた誤りトークン系列に置換する。これにより、原文章のトークン系列の一部（サンプリング箇所）が誤りトークン系列に置換されたトークン系列（原文章の誤り文を表す誤りトークン系列）が得られる。

　次に、ラベル作成部２０３は、ステップＳ１０２で作成された誤りトークン系列から、単語穴埋めタスクの入力トークン系列と正解ラベルとを作成する（ステップＳ１０３）。具体的には、ラベル作成部２０３は、以下の手順２－１～手順２－３により入力トークン系列と正解ラベルとを作成する。

　手順２－１：まず、ラベル作成部２０３は、ステップＳ１０２で作成された誤りトークン系列からトークンをランダムにサンプリングする。

　手順２－２：次に、ラベル作成部２０３は、手順２－１でサンプリングしたトークンに対して、非特許文献１に記載されている単語穴埋めタスク（ＭＬＭ：Masked Language Model）の操作を行う。すなわち、ラベル作成部２０３は、手順２－１でサンプリングしたトークンに対して、（ａ）マスク用トークンに置換する、（ｂ）ランダムなトークンに置換する、（ｃ）そのままのトークンを保持する、のいずれかの操作を行う。これにより、誤りトークン系列から入力トークン系列が得られる。

　手順２－３：そして、ラベル作成部２０３は、原文章のトークン系列と、入力トークン系列とを比較して正解ラベルを作成する。ここで、正解ラベルの作成方法は限定されず、任意の方法を用いればよい。例えば、誤ったトークンの検出と訂正に重きを置く場合には、入力トークン系列から原文章のトークン系列を得るためにはどのトークンに対して上記の（ａ）～（ｃ）のどの操作を行えばよいかを表す操作ラベルを得た上で、この操作ラベルを参考に、入力トークン系列中の誤ったトークンに対して、原文章のトークン系列を再現するような正解ラベルを得る方法が挙げられる。この方法では、上記の（ｃ）以外の操作を表す操作ラベルが付与されたトークンに対して正解ラベルが付与される。正解ラベルはトークンの語彙集合の要素であり、誤ったトークンをどの語彙のトークンに置換すればよいかを表している。又は、例えば、誤りを訂正し流暢なテキストを得ることに重きを置く場合には、原文書のトークン系列を正解ラベルとしてもよい。

　次に、言語モデル部２０４は、言語モデルパラメータ記憶部２０９に記憶されている言語モデルパラメータを用いて、ステップＳ１０３で作成された入力トークン系列から予測ラベルを作成する（ステップＳ１０４）。

　そして、更新部２０５は、ステップＳ１０３で作成された正解ラベルと、ステップＳ１０４で作成された予測ラベルとを用いて、言語モデルパラメータを更新する（ステップＳ１０５）。この更新は、ニューラルネットワークモデルに対する既知の教師あり学習と同様に行えばよい。これにより、言語モデルパラメータ記憶部２０９に記憶されている言語モデルパラメータが学習され、その結果、音声的な繋がりを反映した言語モデルが構築される。

　＜誤り辞書作成処理＞
　以下、誤り辞書作成フェーズで実行される誤り辞書作成処理について、図６を参照しながら説明する。

　入力データ作成部２０１は、与えられたテキストデータからトークン系列集合を作成する（ステップＳ２０１）。すなわち、入力データ作成部２０１は、与えられたテキストデータ中の各文章をトークナイズしてトークン系列集合を作成する。例えば、入力データ作成部２０１は、与えられたテキストデータ中の各文章のＮ－ｇｒａｍを集計した上で、上位Ｍ個の文章をトークナイズしてトークン系列集合を作成すればよい。なお、テキストデータは、言語モデル学習処理で与えられるテキストデータと言語種別が合致していればよいが、図５のステップＳ１０２で誤りトークン系列が効率的に得られるようにするためには、言語モデル学習処理で与えられるテキストデータと同一であることが好ましい。

　以降のステップＳ２０２～ステップＳ２０４は、トークン系列集合に含まれる各トークン系列に対して繰り返し実行される。以下では、トークン系列集合に含まれる或るトークン系列に対してステップＳ２０２～ステップＳ２０４を実行する場合について説明する。

　次に、音素変換部２０６は、音素変換モデルパラメータ記憶部２１０に記憶されている音素変換モデルパラメータを用いて、当該トークン系列から音素系列集合を作成する（ステップＳ２０２）。すなわち、音素変換部２０６は、当該トークン系列を、そのトークン系列を音声化したときに相応しい音素の系列（読み方の系列）である複数の音素系列に変換し、これら複数の音素系列のうちのいくつかの音素系列で構成される音素系列集合を作成する。例えば、音素変換部２０６は、当該トークン系列を音素変換モデルに入力したときに出力される複数の音素系列のうちのＮ－ｂｅｓｔを音素系列集合として作成すればよい。

　次に、トークン変換部２０７は、トークン変換モデルパラメータ記憶部２１１に記憶されているトークン変換モデルパラメータを用いて、ステップＳ２０２で作成された音素系列集合からトークン系列集合を作成する（ステップＳ２０３）。すなわち、トークン変換部２０７は、音素系列集合に含まれる各音素系列を、その音素系列と同じ読み方のトークン系列にそれぞれ変換し、これら複数のトークン系列で構成されるトークン系列集合を作成する。これにより、元のトークン系列（つまり、ステップＳ２０２で音素変換部２０６に入力されたトークン系列）と音声的には近いが誤った部分を含むトークン系列（誤りトークン系列）の集合が得られる。

　なお、ステップＳ２０３では１つの音素系列を１つのトークン系列に変換しているが、ステップＳ２０２と同様に、１つの音素系列を複数のトークン系列に変換してもよく、また、このとき、これら複数のトークン系列のうちのＮ－ｂｅｓｔのみをトークン系列集合に含まれる要素としてもよい。

　そして、誤り辞書作成部２０８は、当該トークン系列（つまり、ステップＳ２０２で音素変換部２０６に入力されたトークン系列）と、ステップＳ２０３で得られたトークン系列集合に含まれる各トークン系列とを対応付けて誤り辞書を作成した上で、この誤り辞書を誤り辞書記憶部２１２に格納する（ステップＳ２０４）。すなわち、誤り辞書作成部２０８は、当該トークン系列を「正しいトークン系列」、ステップＳ２０３で得られたトークン系列集合に含まれる各トークン系列の各々を「誤りトークン系列」として誤り辞書を作成し、誤り辞書記憶部２１２に格納する。

　［音素変換モデル学習フェーズ］
　以下、音素変換モデル学習フェーズについて説明する。なお、音素変換モデル学習フェーズでは、音素変換モデルパラメータは学習済みでないものとする。

　＜音素変換モデル学習フェーズにおける言語処理装置１０の機能構成例＞
　音素変換モデル学習フェーズにおける言語処理装置１０の機能構成例を図７に示す。図７に示すように、音素変換モデル学習フェーズにおける言語処理装置１０は、入力データ作成部２０１と、更新部２０５と、音素変換部２０６とを有する。これら各部は、例えば、言語処理装置１０にインストールされた１以上のプログラムが、プロセッサ１０８等に実行させる処理により実現される。また、音素変換モデル学習フェーズにおける言語処理装置１０は、音素変換モデルパラメータ記憶部２１０を有する。音素変換モデルパラメータ記憶部２１０は、例えば、補助記憶装置１０７等により実現される。なお、音素変換モデルパラメータ記憶部２１０は、言語処理装置１０と通信ネットワークを介して接続されるデータベースサーバ等の記憶装置により実現されていてもよい。

　入力データ作成部２０１は、音素変換モデル学習フェーズにおいて、与えられたテキストデータからトークン系列と正解音素系列とを作成する。

　音素変換部２０６は、音素変換モデル学習フェーズにおいて、音素変換モデルパラメータ記憶部２１０に記憶されている音素変換モデルパラメータを用いて、トークン系列から、そのトークン系列の読み方を予測した予測音素系列を作成する。

　更新部２０５は、音素変換モデル学習フェーズにおいて、正解音素系列と予測音素系列から音素変換モデルパラメータを更新する。

　音素変換モデルパラメータ記憶部２１０は、音素変換部２０６を実現する音素変換モデルのパラメータ（音素変換モデルパラメータ）を記憶する。なお、音素変換モデル学習フェーズにおいては、音素変換モデルパラメータは学習済みでないものとする。

　＜音素変換モデル学習処理＞
　以下、音素変換モデル学習フェーズで実行される音素変換モデル学習処理について、図８を参照しながら説明する。

　まず、入力データ作成部２０１は、与えられたテキストデータに対して読み方を付与する（ステップＳ３０１）。ここで、テキストデータに対して読み方を付与する方法は任意の方法を用いればよいが、例えば、参考文献２に記載されている方法によりテキストデータに対して読み方を付与すればよい。なお、与えられたテキストデータに対して読み方が既に付与されている場合は、本ステップは不要である。

　入力データ作成部２０１は、テキストデータ内の或るテキストをトークナイズしてトークン系列を作成すると共に、そのテキストに付与されている読み方（例えば、音素系列ラベル）を正解音素系列として作成する（ステップＳ３０２）。

　次に、音素変換部２０６は、音素変換モデルパラメータ記憶部２１０に記憶されている音素変換モデルパラメータを用いて、トークン系列から予測音素系列を作成する（ステップＳ３０３）。例えば、音素変換部２０６は、当該トークン系列を複数の音素系列に変換した上で、それら複数の音素系列のうち最も確からしい音素系列を予測音素系列として作成する。

　そして、更新部２０５は、ステップＳ３０２で作成された正解音素系列と、ステップＳ３０３で作成された予測音素系列とを用いて、音素変換モデルパラメータを更新する（ステップＳ３０４）。この更新は、ニューラルネットワークモデルに対する既知の教師あり学習と同様に行えばよい。これにより、音素変換モデルパラメータ記憶部２１０に記憶されている音素変換モデルパラメータが学習される。

　［トークン変換モデル学習フェーズ］
　以下、トークン変換モデル学習フェーズについて説明する。なお、トークン変換モデル学習フェーズでは、トークン変換モデルパラメータは学習済みでないものとする。

　＜トークン変換モデル学習フェーズにおける言語処理装置１０の機能構成例＞
　トークン変換モデル学習フェーズにおける言語処理装置１０の機能構成例を図９に示す。図９に示すように、トークン変換モデル学習フェーズにおける言語処理装置１０は、入力データ作成部２０１と、更新部２０５と、トークン変換部２０７とを有する。これら各部は、例えば、言語処理装置１０にインストールされた１以上のプログラムが、プロセッサ１０８等に実行させる処理により実現される。また、トークン変換モデル学習フェーズにおける言語処理装置１０は、トークン変換モデルパラメータ記憶部２１１を有する。トークン変換モデルパラメータ記憶部２１１は、例えば、補助記憶装置１０７等により実現される。なお、トークン変換モデルパラメータ記憶部２１１は、言語処理装置１０と通信ネットワークを介して接続されるデータベースサーバ等の記憶装置により実現されていてもよい。

　入力データ作成部２０１は、トークン変換モデル学習フェーズにおいて、与えられたテキストデータから音素系列と正解トークン系列とを作成する。

　トークン変換部２０７は、トークン変換モデル学習フェーズにおいて、トークン変換モデルパラメータ記憶部２１１に記憶されているトークン変換モデルパラメータを用いて、音素系列から、その音素系列と同じ読み方のトークン系列を予測した予測トークン系列を作成する。

　更新部２０５は、トークン変換モデル学習フェーズにおいて、正解トークン系列と予測トークン系列からトークン変換モデルパラメータを更新する。

　トークン変換モデルパラメータ記憶部２１１は、トークン変換部２０７を実現するトークン変換モデルのパラメータ（トークン変換モデルパラメータ）を記憶する。なお、トークン変換モデル学習フェーズにおいては、トークン変換モデルパラメータは学習済みでないものとする。

　＜トークン変換モデル学習処理＞
　以下、トークン変換モデル学習フェーズで実行されるトークン変換モデル学習処理について、図１０を参照しながら説明する。

　まず、入力データ作成部２０１は、与えられたテキストデータに対して読み方を付与する（ステップＳ４０１）。ここで、テキストデータに対して読み方を付与する方法は任意の方法を用いればよいが、例えば、参考文献２に記載されている方法によりテキストデータに対して読み方を付与すればよい。なお、与えられたテキストデータに対して読み方が既に付与されている場合は、本ステップは不要である。

　入力データ作成部２０１は、テキストデータ内の或るテキストをトークナイズして正解トークン系列を作成すると共に、そのテキストに付与されている読み方（例えば、音素系列ラベル）を音素系列として作成する（ステップＳ４０２）。

　次に、トークン変換部２０７は、トークン変換モデルパラメータ記憶部２１１に記憶されているトークン変換モデルパラメータを用いて、音素系列から予測トークン系列を作成する（ステップＳ４０３）。

　そして、更新部２０５は、ステップＳ３０２で作成された正解トークン系列と、ステップＳ３０３で作成された予測トークン系列とを用いて、トークン変換モデルパラメータを更新する（ステップＳ４０４）。この更新は、ニューラルネットワークモデルに対する既知の教師あり学習と同様に行えばよい。これにより、トークン変換モデルパラメータ記憶部２１１に記憶されているトークン変換モデルパラメータが学習される。

　［まとめ］
　以上のように、本実施形態に係る言語処理装置１０は、予め作成された誤り辞書を用いて、或るトークン系列と音声的には近いが誤った部分を含むトークン系列（誤りトークン系列）を作成することができる。このため、音声的な繋がりを反映した言語モデルを構築する際に、従来技術と同程度の時間で構築することが可能となる。

　また、本実施形態に係る言語処理装置１０は、誤り辞書を作成する際に、或るトークン系列を音素系列に変換した上で、更にその音素系列をトークン系列に再変換することで、誤りトークン系列を作成する。これにより、元のトークン系列と音声的には近いが誤った部分を含むトークン系列（誤りトークン系列）の作成が可能となるため、元のトークン系列と対応付けることで誤り辞書を作成することができる。

　本実施形態に係る言語処理装置１０によって構築（事前学習）された言語モデルは、様々なタスクにファインチューニングすることができる。特に、例えば、実際の音声認識結果を入力とする対話要約等といったタスクを精度良く解くことが可能となる。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　［参考文献］
　参考文献１：Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin, "Attention Is All You Need", In Proceedings of the NIPS 2017, pp. 5998-6008, 2017.
　参考文献２：KyTea(京都テキスト解析ツールキット), インターネット＜ＵＲＬ：http://www.phontron.com/kytea/index-ja.html＞

　１０　　　　言語処理装置
　１０１　　　入力装置
　１０２　　　表示装置
　１０３　　　外部Ｉ／Ｆ
　１０３ａ　　記録媒体
　１０４　　　通信Ｉ／Ｆ
　１０５　　　ＲＡＭ
　１０６　　　ＲＯＭ
　１０７　　　補助記憶装置
　１０８　　　プロセッサ
　１０９　　　バス
　２０１　　　入力データ作成部
　２０２　　　誤り文作成部
　２０３　　　ラベル作成部
　２０４　　　言語モデル部
　２０５　　　更新部
　２０６　　　音素変換部
　２０７　　　トークン変換部
　２０８　　　誤り辞書作成部
　２０９　　　言語モデルパラメータ記憶部
　２１０　　　音素変換モデルパラメータ記憶部
　２１１　　　トークン変換モデルパラメータ記憶部
　２１２　　　誤り辞書記憶部

Claims

　トークン系列と、前記トークン系列と音声的に近いが一部が異なるトークン系列をそれぞれ表す複数の第１の誤りトークン系列とが対応付けられた誤り辞書を用いて、与えられたテキストデータに含まれる原文章のトークン系列を表す原文トークン系列の一部を前記第１の誤りトークン系列で置換し、前記原文トークン系列と音声的に近いが一部が異なるトークン系列を表す第２の誤りトークン系列を言語モデル構築用のデータとして作成する誤り文作成手順、
　をコンピュータが実行する言語処理方法。
　与えられたテキストデータに含まれる文章を表す第１のトークン系列を用いて、ニューラルネットワークで実現される音素変換モデルにより、前記第１のトークン系列を音声化したときの音素の系列をそれぞれ表す複数の音素系列を作成する音声変換手順と、
　前記複数の音素系列を用いて、ニューラルネットワークで実現されるトークン変換モデルにより、前記複数の音素系列の各々に関して、前記音素系列が表す読み方と同じ読み方で、かつ、一部が異なるトークン系列を表す第３の誤りトークン系列をそれぞれ作成するトークン変換手順と、
　前記第１のトークン系列と、複数の前記第３の誤りトークン系列とを対応付けて前記誤り辞書を作成する誤り辞書作成手順と、
　をコンピュータが実行する請求項１に記載の言語処理方法。
　前記音素変換モデル及び前記トークン変換モデルのそれぞれは、系列を入力として系列を出力するニューラルネットワークで実現される、請求項２に記載の言語処理方法。
　前記第２の誤りトークン系列を用いて、単語穴埋めタスクの入力トークン系列と前記入力トークン系列に対する正解ラベルとを作成するラベル作成手順と、
　前記入力トークン系列を用いて、ニューラルネットワークで実現される言語モデルにより、前記入力トークン系列の分散表現を表す予測ラベルを作成する言語モデル手順と、
　前記正解ラベルと前記予測ラベルとを用いて、前記言語モデルのパラメータを更新する更新手順と、
　をコンピュータが実行する請求項１乃至３の何れか一項に記載の言語処理方法。
　トークン系列と、前記トークン系列と音声的に近いが一部が異なるトークン系列をそれぞれ表す複数の第１の誤りトークン系列とが対応付けられた誤り辞書を用いて、与えられたテキストデータに含まれる原文章のトークン系列を表す原文トークン系列の一部を前記第１の誤りトークン系列で置換し、前記原文トークン系列と音声的に近いが一部が異なるトークン系列を表す第２の誤りトークン系列を言語モデル構築用のデータとして作成するように構成されている誤り文作成部、
　を有する言語処理装置。
　トークン系列と、前記トークン系列と音声的に近いが一部が異なるトークン系列をそれぞれ表す複数の第１の誤りトークン系列とが対応付けられた誤り辞書を用いて、与えられたテキストデータに含まれる原文章のトークン系列を表す原文トークン系列の一部を前記第１の誤りトークン系列で置換し、前記原文トークン系列と音声的に近いが一部が異なるトークン系列を表す第２の誤りトークン系列を言語モデル構築用のデータとして作成する誤り文作成手順、
　をコンピュータに実行させるプログラム。