WO2022176124A1

WO2022176124A1 - 学習装置、推定装置、それらの方法、およびプログラム

Info

Publication number: WO2022176124A1
Application number: PCT/JP2021/006176
Authority: WO
Inventors: 宏佐藤; 隆朗福冨; 雄介篠原
Original assignee: 日本電信電話株式会社
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2022-08-25
Also published as: JPWO2022176124A1

Abstract

従来技術よりも精度よく発話意図を推定する。学習装置は、学習用の音響信号と、音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する。学習装置は、学習用の音響信号から得られる音響特徴量と、音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、同期後特徴量を用いて、音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部と、学習データに含まれるラベルと、発話意図推定部の推定結果とに基づいて推定モデルのパラメータを更新するパラメータ更新部とを含む。

Description

学習装置、推定装置、それらの方法、およびプログラム

　本発明は、入力信号が所定の対象に向けて発話された音声かどうかを推定する推定モデルを学習する学習装置、学習済みの推定モデルを用いて推定する推定装置、それらの方法、およびプログラムに関する。

　音声対話エージェントにおいて、入力される音声は必ずしもユーザがエージェントに向けて発した発話であるとは限らない。例えばユーザがその場にいる別の人間に向けて発した発話や、背景で再生されているテレビの音声などが入力される場合がある。こうしたユーザの意図しない発話が対話エージェントに入力されると、それによって対話シナリオが起動し、話しかけていないのにエージェントが喋り出す現象や、意図しない認識結果を検索してしまう現象が生じる。こうした誤作動はユーザエクスペリエンス低下の原因となる。

　入力信号が音声か否かを識別する技術として、発話区間検出技術が存在する。発話区間検出技術は入力信号から発話区間（音声区間）のみを検出し、発話していない区間（非音声区間）を除外する。しかし、発話区間検出技術では音声か否かを識別することはできるが、応答すべき音声か否かを識別することはできない。つまり、発話区間検出技術では、テレビの音声や別の話者に向けた発話などを、応答すべきでない音声として識別することはできない。

　応答すべきでない音声を識別する技術として、特に対話ロボットをはじめとする音声対話インターフェースを対象として、入力音声がユーザからロボットに向けられたものであるかどうかを判別し、音声に対して応答をするべきかどうかを識別する技術が存在する。例えば、非特許文献１が知られている。

　非特許文献１ではスマートスピーカを想定し、音声から得られる音響的な特徴と、音声を認識した結果から得られる言語的な特徴とから発話意図の有無を識別する。なお、「発話意図」とは、ユーザが所定の対象に向けて音声を発する意図を意味し、発話意図の有無とは、所定の対象に入力された音声が、ユーザが意図して対象に向けて発した音声であるか否かを意味する。ここで、所定の対象とは、入力された音声が対象に向けて発した音声か否かを識別することで、より適切に対象の目的を達することができるものであり、例えば、対話システムや電話等である。

Mallidi, S. H., Maas, R., Goehner, K., Rastrow, A., Matsoukas, S., & Hoffmeister, B., "Device-directed utterance detection", arXiv preprint arXiv:1808.02504., 2018.

　非特許文献１では、音響的な特徴と認識結果の言語的な特徴とを用いて識別を行うが、音響特徴と言語特徴は別々にモデル化されており、両者の系列間に存在する時間的な対応関係は考慮できない。例えば、認識結果のある単語に対して、入力された音韻が、機械に話しかけているにしては打ち解けすぎている、などのように言語的な特徴量のある一部分が、音響的な特徴量のどの部分に対応するかを考慮した精緻なモデル化ができない。

　本発明は、音響系列と言語系列の対応関係を捉えながら処理を行うことで、両者の系列間に存在する時間的な対応関係を考慮し、従来技術よりも精度よく発話意図を推定することができるモデルを学習する学習装置、モデルを用いた推定装置、それらの方法、プログラムを提供することを目的とする。

　上記の課題を解決するために、本発明の一態様によれば、学習装置は、学習用の音響信号と、音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する。学習装置は、学習用の音響信号から得られる音響特徴量と、音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、同期後特徴量を用いて、音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部と、学習データに含まれるラベルと、発話意図推定部の推定結果とに基づいて推定モデルのパラメータを更新するパラメータ更新部とを含む。

　上記の課題を解決するために、本発明の他の態様によれば、推定装置は、学習用の音響信号と、学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う。推定装置は、推定対象の音響信号から得られる音響特徴量と、推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、同期後特徴量を用いて、推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部とを含む。

　本発明によれば、音響系列と言語系列の対応関係を捉えながら処理を行うことで、両者の系列間に存在する時間的な対応関係が考慮し、従来技術よりも精度よく発話意図を推定することができるという効果を奏する。

第一実施形態に係る推定システムの構成例を示す図。第一実施形態に係る学習装置の機能ブロック図。第一実施形態に係る学習装置の処理フローを示す図。第一実施形態に係るモデル学習部の機能ブロック図。第一実施形態に係るモデル学習部の処理フローを示す図。第一実施形態に係る推定装置の機能ブロック図。第一実施形態に係る推定装置の処理フローを示す図。第一実施形態に係る推定部の機能ブロック図。第一実施形態に係る推定部の処理フローを示す図。変形例２の構成、変形例１と変形例２とを組合せた構成の実験結果を示す図。第二実施形態に係る学習装置の機能ブロック図。第二実施形態に係る学習装置の処理フローを示す図。第二実施形態に係るモデル学習部の機能ブロック図。第二実施形態に係るモデル学習部の処理フローを示す図。第二実施形態に係る推定装置の機能ブロック図。第二実施形態に係る推定装置の処理フローを示す図。第二実施形態に係る推定部の機能ブロック図。第二実施形態に係る推定部の処理フローを示す図。本手法を適用するコンピュータの構成例を示す図。

　以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
(1)音響的な特徴と認識結果の言語的な特徴の両者を時系列上で対応付けながらモデル化することで、より精緻なモデル化を行い、従来のモデルより精度の高い推定を行う。

(2)発話意図のラベリングをする際に、ラベリングの自信度も同時に記録し、自信度も学習時に利用することで、ラベルの信頼性を考慮したモデル学習を行う。これにより、不確実なラベルの影響を低減することができる。

(3)特徴量として、従来考慮されていなかった音源の放射方向や直間比などに着目した新規の特徴量や、所定の対象に入力される発話としての妥当性に関連した新規の特徴量を導入することで、発話意図の有無をより明示的に捉えることができる。

＜第一実施形態に係る推定システム＞
　図１は推定システムの構成例を示す。

　推定システムは、学習装置１００と推定装置２００とを含む。

　学習装置１００は、学習データS_Lを入力とし、学習データS_Lに基づき、推定モデルΘ_Lを学習し、学習済みの推定モデルΘを出力する。なお、学習データS_Lには、学習用のM個の音響信号s_ｍ,Lと、ラベルr_ｍ,Lと、自信度c_ｍ,Lとが含まれる。

S_L=((s_1,L,r_1,L,c_1,L),(s_2,L,r_2,L,c_2,L),…,(s_M,L,r_M,L,c_M,L))
ラベルr_ｍ,Lはm番目の学習用の音響信号s_ｍ,Lが所定の対象に対して発話されたものか否か（発話意図の有無）を表し、例えばr_ｍ,L=0は発話意図が無いことを意味し、r_ｍ,L=1は発話意図が有ることを意味する。自信度c_ｍ,Lは、アノテータ(対象にラベル付けを行うもの)のラベル付与の自信度を表す。

　推定装置２００は、推定処理に先立ち学習済みの推定モデルΘを受け取る。推定装置２００は、推定対象の音響信号s_Tを入力とし、推定モデルΘに基づき、音響信号s_Tが所定の対象に向けられて発話された音声か否かを推定し、推定結果R(発話意図の有無の推定値)を出力する。

　学習装置および推定装置は、例えば、中央演算処理装置（CPU:Central Processing Unit）、主記憶装置（RAM:Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および推定装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および推定装置の外部に備える構成としてもよい。

　まず、学習装置１００について説明する。

＜第一実施形態に係る学習装置１００＞
　図２は第一実施形態に係る学習装置１００の機能ブロック図を、図３はその処理フローを示す。

　学習装置１００は、音声認識部１１０、特徴量算出部１２０、モデル学習部１３０を含む。

　各部について説明する。

＜音声認識部１１０＞
　音声認識部１１０は、学習用の音響信号s_m,Lを入力とし、音声認識を実行し（Ｓ１１０）、音声認識に基づく情報y_m,Lを得、出力する。音声認識に基づく情報は、音声認識結果および、音声認識を実行した際の認識結果の信頼度や音声認識の計算時間などのデータの少なくとも何れかを含む。こうした音声認識結果の言語的な情報や、認識時の信頼度などのデータは、発話意図の有無を推定するために用いられる。

＜特徴量算出部１２０＞
　特徴量算出部１２０は、音響信号s_m,Lおよび音声認識に基づく情報y_m,Lを入力とし、特徴量o_m,Lを算出し（Ｓ１２０）、出力する。特徴量o_m,Lは、発話意図の有無を推定するために用いられる。例えば、m番目の発話の特徴量o_m,Lは、N_m個の特徴量o_m,L,nを含むものとし、n=1,2,…,N_m、o_m,L=(o_m,L,1,…,o_{m,L,N_m})とする。ただし、下付き添え字A_BはA_Bを意味する。

　特徴量o_m,Lは「音響特徴量a_m,L」と「テキスト特徴量t_m,L」と「その他の特徴量v_m,L」とのいずれかあるいは組み合わせを含むベクトルであり、「音響特徴量a_m,L」と「テキスト特徴量t_m,L」と「その他の特徴量v_m,L」はそれぞれ1つ以上の要素(特徴量)を含むベクトルである。

　「音響特徴量」としては短時間のフレームに対して算出されたMFCC(Mel-Frequency Cepstrum Coefficients)やFBANK特徴量などの公知の音響特徴量の、時系列データ、あるいはそれらに対して時間方向に平均を取るなどの処理を施したものを利用することができる。音響特徴量は、音響信号s_m,Lから直接求めてもよいし、音声認識部１１０の音声認識の処理過程で算出される公知の音響特徴量を利用してもよい。なお、音声認識部１１０の音声認識の処理過程で算出される公知の音響特徴量を利用する場合には、音響信号s_m,Lを入力として受け付けなくともよい。

　「テキスト特徴量」としては音声認識に基づく情報y_m,Lに含まれる音声認識結果や認識結果の候補に対して、単語系列や文字の系列をword 2 vecなどの公知の手法でベクトル系列化したものである。音声認識結果や認識結果の候補からは、当該発話が所定の対象に入力されやすいものであるかどうかを推定することができる。

　「その他の特徴量」は、音響信号s_m,Lから得られる特徴量と、音声認識に基づく情報y_m,Lから得られる特徴量とがある。

　音響信号s_m,Lから得られる「その他の特徴量」として、以下の(i),(ii)が考えられる。
　(i)音源の位置あるいは方向、音源までの距離に関する情報:入力音から公知の手法で算出される音源の位置あるいは方向、また入力音から公知の方法で算出される直間比のような遠近感の情報(音源までの距離)を利用できる。加えてこれらの時間変動を特徴量として利用できる。例えば音声から得られる直間比からは音源の遠さを捉えることができ発話意図の推定に有用である。複数チャネルの音声が得られる場合は、精密に音源の距離や方向、音源からの音の放射方向の情報を算出可能である。さらに音源の距離や方向の情報は時間変動を見ることで音源位置に揺らぎがある人間の発話か、固定されたテレビやスピーカー等の音源かを判別できる。

　(ii)音響信号帯域幅または周波数特性に関する情報：入力音の帯域幅や周波数特性などの情報を利用できる。これらの情報は、公知の技術を利用して音響信号s_m,Lを用いて求めることができる。音声の帯域幅からは入力音がラジオやテレビなどの再生音であることを捉えることができる。

　音声認識に基づく情報y_m,Lから得られる「その他の特徴量」として、以下の(iii)～(v)が考えられる。
　(iii)音声認識結果の信頼度または音声認識の計算時間に関する情報：音声認識に基づく情報y_m,Lに含まれる音声認識結果の信頼度や音声認識の計算時間などの情報を利用することができる。発話意図のない発話は一般に音声認識が困難であることから音声認識の信頼度などの情報も特徴量として有用である。

　(iv)音声認識結果から計算される発話のコマンドとしての妥当性に関する情報：音声認識結果から計算される発話のコマンドとしての妥当性などを利用することができる。発言のコマンドとしての妥当性とは、例えばデバイスの持つコマンドのリストの各要素と、認識結果との一致度合いの最大値とする。一致度合いとして例えばコマンドの単語数のうち認識結果に含まれた割合を採用することができる。又はコマンドと認識結果それぞれをTF-IDF(Term Frequency - Inverse Document Frequency)やbag of wordsなど公知の手法でベクトル化したものの距離とすることができる。

　(v)音声認識結果から得られる入力発話の解釈難度に関する情報:音声認識結果から得られる入力発話の解釈難度などを利用することができる。発言の解釈難度は人間が機械にむけて発話する際にわかりやすい言葉を選ぶ特性も捉えるもので、例えば単語数に表れる発話の長さや、認識結果を構文解析した結果から得られる、指示代名詞の有無、助詞の省略の有無とすることができる。

　これらの特徴の一部あるいは組み合わせを「その他の特徴量」として利用できる。

　以上の特徴量をモデル学習部１３０に入力することで、モデルの識別性能を高めることができる。

＜モデル学習部１３０＞
　モデル学習部１３０は、学習データS_Lに含まれるラベルr_ｍ,Lと自信度c_ｍ,Lと特徴量O_L=(o_1,L,o_2,L,…,o_M,L)を入力とし、これらの情報を用いて推定モデルΘ_Lを学習し(Ｓ１３０)、学習済みの推定モデルΘを出力する。推定モデルは特徴量O_Lから発話意図の有無を推定する2値分類モデルであり、公知の深層学習技術を用いて学習することができる。前述の通り、特徴量o_m,Lは、「音響特徴量a_m,L」と「テキスト特徴量t_m,L」と「その他の特徴量v_m,L」とのいずれかあるいは組み合わせを含むベクトルである。

　本実施形態では、1発話分の音響信号に対応する特徴量o_m,Lと、その発話の発話意図ラベルr_m,Lと、発話意図のラベリングを行う際にラベリングの自信度c_m,Lとからなる学習データを用いて学習を行うことができる。この場合、発話意図の識別モデルは、1発話の音声から発話意図の予測ラベルだけでなく、同時にそのデータに対するアノテータのラベリングの自信度も予測を行う。学習時には、発話意図の予測の正誤に関する損失関数と、アノテータのラベリング自信度の予測誤差に関する損失関数の値を重み付け和したものを損失関数とするマルチタスク学習を実施する。これにより、モデルはアノテータのラベリング自信度を考慮しつつ発話意図の学習を行うことができるようになる。

　発話意図の識別モデルは、特徴量算出部１２０で算出された、音響特徴量a_m,Lの時系列データ、またテキスト特徴量t_m,Lの時系列データ、またその他の特徴量v_m,Lの時系列データ、また時系列ではないその他の特徴量v_m,Lを入力に持ち、発話意図の有無を表すラベルの推定値と自信度の推定値を出力に持つDNN(Deep Neural Network)のモデルである。このうち時系列の特徴量については、CNN(Convolutional Neural Network)やLSTM(Long Short Term Memory)、Self - Attentionと呼ばれる技術を用いることで、長時間の系列の関連性を考慮しながら、時系列の長さによらない固定長のベクトルに変換することができる。時系列方向の次元を持たないもともと固定長の特徴量については、例えば時系列方向の情報を持つ特徴量の各時刻と結合したり、時系列方向の情報を持つベクトルを固定長化した後で結合したりすることで統合を行うことができる。各特徴量を統合したベクトルに対して公知のDNNによって発話意図を出力するモデルを構築する。

　特に、音響特徴量の時系列データとテキスト特徴量の時系列データについては両者の間に時間的な対応関係が存在することから、これを考慮しつつモデル化を行うことで、より精緻に発話意図の有無を捉えることができる。これらを固定長化する際にこれを実現するために、与えられた発話意図ラベルから発話意図の識別を学習するのと同時に、両時系列データの時間的な対応関係を捉えることのできるモデル化手法を採用することが有効である。これには、例えば参考文献１のSource Target Attentionと呼ばれるNW構造を採用してもよい。

（参考文献１）Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio,"Neural machine translation by jointly learning to align andtranslate", inInternational Conference on Learning Represen-tations (ICLR), 2015
　具体的には、音響系列、言語系列それぞれをLSTMなどのDNNで処理した時系列X_A、X_Lに対して、
Y_A+L=Source Target Attention (X_A,X_L,X_L)
Y_L+A=Source Target Attention (X_L,X_A,X_A)
とあらわされる処理を行うことで、音響特徴量系列と同期した言語特徴量系列Y_A+Lおよび言語特徴量系列と同期した音響特徴量系列Y_L+Aを得ることができる。ただしここでSource Target Attention (Q,K,V)とはQをクエリ、Kをキー、VをバリューとするSource Target Attentionを示す。こうして得られたY_A+L、Y_L+Aを例えばそれぞれX_A、X_Lと特徴次元方向に結合したり、加算したりすることで統合し、それらに対してLSTMをはじめとするDNNで処理を行うことで、両者の系列の時間的な対応関係を捉える精緻なモデル化が可能である。例えば、音響特徴量にテキスト特徴量を同期させる場合、音響特徴量の各フレームに対し、その時刻に対応するテキスト特徴量のフレームを重み付けて取得する。なお、重みは、ニューラルネットワークにより与えるか、または、音声認識によって得られた音響特徴量系列と言語系列のアラインメント情報をattentionの重みとして利用してもよい。逆に、テキスト特徴量に音響特徴量を同期させる場合、テキスト特徴量の各フレームに対し、その時刻に対応する音響特徴量のフレームを重み付けて取得する。なお、重みは、ニューラルネットワークにより与えるか、または、音声認識によって得られた音響特徴量系列と言語系列のアラインメント情報をattentionの重みとして利用してもよい。

　上述の処理を実現するモデル学習部１３０の構成について説明する。

　図４はモデル学習部１３０の機能ブロック図を、図５はその処理フローの例を示す。

　モデル学習部１３０は、特徴同期部１３９、ラベル自信度推定部１３６Ａ、発話意図推定部１３６Ｂおよびパラメータ更新部１３７を含む。

＜特徴同期部１３９＞
　特徴同期部１３９は、特徴量O_L=(o_1,L,o_2,L,…,o_M,L)を入力とし、音響特徴量a_m,Lと、音響信号a_m,Lに対応するテキスト特徴量t_m,Lとを同期させることによって同期後特徴量を得（Ｓ１３９）、出力する。例えば、特徴同期部１３９は、音響特徴処理部１３１Ａ、テキスト特徴処理部１３１Ｂ、テキスト特徴同期部１３２Ａ、音響特徴同期部１３２Ｂ、統合部１３３Ａ，１３３Ｂ、時間方向圧縮部１３４Ａ，１３４Ｂおよび結合部１３５を含み（図４参照）、以下の処理を行う。

＜音響特徴処理部１３１Ａ＞
　音響特徴処理部１３１Ａは、音響特徴量a_m,Lを入力とし、テキスト特徴同期部１３２Ａおよび統合部１３３Ａにおいて、処理しやすいデータに変換し（Ｓ１３１Ａ）、変換後の音響特徴量を出力する。なお、変換後の音響特徴量を単に音響特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、音響特徴量を変換する。ただし、テキスト特徴同期部１３２Ａおよび統合部１３３Ａが変換前の音響特徴量a_m,Lをそのまま用いる場合には、音響特徴処理部１３１Ａを設けなくともよい。

＜テキスト特徴処理部１３１Ｂ＞
　テキスト特徴処理部１３１Ｂは、テキスト特徴量t_m,Lを入力とし、テキスト特徴同期部１３２Ｂおよび統合部１３３Ｂにおいて、処理しやすいデータに変換し（Ｓ１３１Ｂ）。変換後のテキスト特徴量を出力する。なお、変換後のテキスト特徴量を単にテキスト特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、テキスト特徴量を変換する。ただし、テキスト特徴同期部１３２Ｂおよび統合部１３３Ｂが変換前のテキスト特徴量t_m,Lをそのまま用いる場合には、テキスト特徴処理部１３１Ｂを設けなくともよい。

＜テキスト特徴同期部１３２Ａ＞
　テキスト特徴同期部１３２Ａは、音響特徴量とテキスト特徴量とを入力とし、音響特徴量にテキスト特徴量を同期させ(Ｓ１３２Ａ)、音響特徴量の各フレームに対応付けたテキスト特徴量(以下、同期後テキスト特徴量ともいう)を出力する。例えば、音響特徴量の時系列、テキスト特徴量の時系列それぞれをLSTMなどのDNNで処理した時系列X_A、X_Lに対して、
Y_A+L=Source Target Attention (X_A,X_L,X_L)
とあらわされる処理を行うことで、音響特徴量の時系列X_Aと同期したテキスト特徴量の時系列Y_A+Lを得る。

＜音響特徴同期部１３２Ｂ＞
　音響特徴同期部１３２Ｂは、テキスト特徴量と音響特徴量とを入力とし、テキスト特徴量に音響特徴量を同期させ(Ｓ１３２Ｂ)、テキスト特徴量の各フレーム（各文字や単語）に対応付けた音響特徴量(以下、同期後音響特徴量ともいう)を出力する。例えば、音響特徴量の時系列、テキスト特徴量の時系列それぞれをLSTMなどのDNNで処理した時系列X_A、X_Lに対して、
Y_L+A=Source Target Attention (X_L,X_A,X_A)
とあらわされる処理を行うことで、テキスト特徴量の時系列X_Lと同期した音響特徴量の時系列Y_L+Aを得る。

＜統合部１３３Ａ，１３３Ｂ＞
　統合部１３３Ａは、同期後テキスト特徴量と音響特徴量とを入力とし、これらの特徴量を結合し（Ｓ１３３Ａ）、出力する。

　統合部１３３Ｂは、同期後音響特徴量とテキスト特徴量とを入力とし、これらの特徴量を結合し（Ｓ１３３Ｂ）、出力する。

　統合部１３３Ａは、その他の特徴量v_m,Lを入力とし、同期後テキスト特徴量と音響特徴量と結合し、出力してもよい。同様に、統合部１３３Ｂは、その他の特徴量v_m,Lを入力とし、同期後音響特徴量とテキスト特徴量と結合し、出力してもよい。

　なお、その他の特徴量v_m,Lが時間方向に長さを持つ場合には、統合部１３３Ａは「音響特徴量」と「同期後テキスト特徴量」と「その他の特徴量v_m,L」とを時系列を考慮して結合し、統合部１３３Ｂは「テキスト特徴量」と「同期後音響特徴量」と「その他の特徴量v_m,L」とを時系列を考慮して結合する。

　その他の特徴量v_m,Lが時間方向に長さを持たない場合には、統合部１３３Ａは音響特徴量のフレーム数分、その他の特徴量を複製し、音響特徴量a_m,Lのフレームごとに「音響特徴量a_m,L」と「同期後テキスト特徴量」と「その他の特徴量」を結合し、統合部１３３Ｂはテキスト特徴量のフレーム（各文字や単語）数分、その他の特徴量を複製し、テキスト特徴量t_m,Lのフレームごとに「テキスト特徴量」と「同期後音響特徴量」と「その他の特徴量」を結合する。

＜時間方向圧縮部１３４Ａ，１３４Ｂ＞
　時間方向圧縮部１３４Ａ，１３４Ｂは、それぞれ統合部１３３Ａ，１３３Ｂの出力した特徴量を、言い換えると、時間方向に長さを持つ、音響由来の特徴量、テキスト由来の特徴量、その他の特徴量を入力とし、時間方向に圧縮して（Ｓ１３４Ａ，Ｓ１３４Ｂ）、一次元の固定長のベクトルにし、出力する。時間方向の圧縮処理には、様々な公知の技術を利用することができ、例えばself-attention poolingなどを利用してもよい。時間方向集約部１３４Ａ，１３４Ｂには、一次元の固定長のベクトルにする前に、LSTMなどの時系列モデルを含める構成としてもよい。

＜結合部１３５＞
　結合部１３５は、時間方向圧縮部１３４Ａ，１３４Ｂがそれぞれ出力した一次元の固定長のベクトルを入力とし、これらのベクトルを結合し（Ｓ１３５）、結合後のベクトルである同期後特徴量を出力する。

　なお、結合部１３５は、その他の特徴量v_m,Lのうち時系列方向の次元を持たない特徴量を入力とし、時間方向圧縮部１３４Ａ，１３４Ｂがそれぞれ出力した一次元の固定長のベクトルとその他の特徴量v_m,Lのうち時系列方向の次元を持たない特徴量とを結合し、結合後のベクトルである同期後特徴量を出力してもよい。

＜ラベル自信度推定部１３６Ａ＞
　ラベル自信度推定部１３６Ａは、同期後特徴量を入力とし、同期後特徴量を用いて、ラベル自信度推定モデルに基づき、ラベルを付与する際の自信度を推定し（Ｓ１３６Ａ）、推定結果（ラベル自信度の推定値）を出力する。なお、ラベル自信度推定モデルは、同期後特徴量を入力とし、ラベル自信度の推定値を出力とするモデルであり、例えば、DNNからなる。

＜発話意図推定部１３６Ｂ＞
　発話意図推定部１３６Ｂは、同期後特徴量を入力とし、同期後特徴量を用いて、発話意図推定モデルに基づき、学習用の音響信号が所定の対象に対して発話されたものか否かを推定し(Ｓ１３６Ｂ)、推定結果（発話意図ラベルの推定値）を出力する。なお、発話意図推定モデルは、同期後特徴量を入力とし、発話意図ラベルの推定値を出力とするモデルであり、例えば、DNNからなる。

＜パラメータ更新部１３７＞
　パラメータ更新部１３７は、学習データS_Lに含まれるラベルr_ｍ,Lと自信度c_ｍ,Lと、ラベル自信度の推定値と、発話意図ラベルの推定値とを入力とし、これらの値に基づいて、推定モデルのパラメータを更新する（Ｓ１３７）。なお、推定モデルは、音響信号から得られる音響特徴量とその音響信号に対応するテキスト特徴量とを入力として、その音響信号の発話意図ラベルの推定値を出力とするモデルである。例えば、パラメータ更新部１３７は、ラベルr_ｍ,Lと発話意図ラベルの推定値とが一致し、自信度c_ｍ,Lとラベル自信度の推定値とが一致するように、音響特徴処理部１３１Ａ、テキスト特徴処理部１３１Ｂ、テキスト特徴同期部１３２Ａ、音響特徴同期部１３２Ｂ、時間方向圧縮部１３４Ａ，１３４Ｂ、ラベル自信度推定部１３６Ａ、発話意図推定部１３６Ｂにおいて用いるパラメータを更新する。

　収束条件を満たさない場合には（Ｓ１３７－２のnoの場合）、パラメータ更新部１３７は更新後のパラメータを各部に出力し、更新されたパラメータを用いて、上述の処理Ｓ１３１Ａ～Ｓ１３６Ｂを繰り返す。

　収束条件を満たす場合には（Ｓ１３７－２のyesの場合）、パラメータ更新部１３７は更新後のパラメータを学習済みのパラメータを含む推定モデルΘとして出力する。

　収束条件は、パラメータの更新が収束したか否かを判別するための条件である。例えば、収束条件は、更新回数が所定の回数を超えることや、更新前後のパラメータの差分が所定の閾値未満であることなどである。

　次に、推定装置２００について説明する。

＜第一実施形態に係る推定装置２００＞
　図６は第一実施形態に係る推定装置２００の機能ブロック図を、図７はその処理フローを示す。

　学習装置１００は、音声認識部２１０、特徴量算出部２２０、推定部２３０を含む。

　各部について説明する。

＜音声認識部２１０＞
　音声認識部２１０は、推定対象の音響信号s_Tを入力とし、音声認識を実行し（Ｓ２１０）、音声認識に基づく情報y_Tを得、出力する。例えば、音声認識部２１０は音声認識部１１０と同様の音声認識処理を行う。

＜特徴量算出部２２０＞
　特徴量算出部２２０は、音響信号s_Tおよび音声認識に基づく情報y_Tを入力とし、特徴量o_Tを算出し（Ｓ２２０）、出力する。例えば、特徴量算出部２２０は特徴量算出部１２０と同様の特徴量算出処理を行う。

＜推定部２３０＞
　推定部２３０は、推定処理に先立ち学習済みの推定モデルΘを受け取る。

　推定部２３０は、特徴量o_Tを入力とし、学習済みの推定モデルΘを用いて、発話意図の有無を推定し（Ｓ２３０）、推定結果Rを出力する。学習済みの推定モデルΘに対して入力として特徴量o_Tを与え、出力として発話意図の有無の推定結果Rを得る。推定結果Rは、例えば、発話意図の有無を示す2値のラベルである。

　図８は推定部２３０の機能ブロック図を、図９はその処理フローの例を示す。

　推定部２３０は、特徴同期部２３９および発話意図推定部２３６を含む。さらに、特徴同期部２３９は、音響特徴処理部２３１Ａ、テキスト特徴処理部２３１Ｂ、テキスト特徴同期部２３２Ａ、音響特徴同期部２３２Ｂ、統合部２３３Ａ，２３３Ｂ、時間方向圧縮部２３４Ａ，２３４Ｂおよび結合部２３５を含む。

　特徴同期部２３９および発話意図推定部２３６は、それぞれ特徴同期部１３９および発話意図推定部１３６と同様の処理Ｓ２３９,Ｓ２３６を行う。よって、特徴同期部２３９内の音響特徴処理部２３１Ａ、テキスト特徴処理部２３１Ｂ、テキスト特徴同期部２３２Ａ、音響特徴同期部２３２Ｂ、統合部２３３Ａ，２３３Ｂ、時間方向圧縮部２３４Ａ，２３４Ｂおよび結合部２３５は、それぞれ特徴同期部１３９内の音響特徴処理部１３１Ａ、テキスト特徴処理部１３１Ｂ、テキスト特徴同期部１３２Ａ、音響特徴同期部１３２Ｂ、統合部１３３Ａ，１３３Ｂ、時間方向圧縮部１３４Ａ，１３４Ｂおよび結合部１３５と同様の処理Ｓ２３１Ｓ～Ｓ２３５を行う。ただし、特徴量o_m,Lに基づく値に代えて特徴量o_Tに基づく値に対して各処理を行う。

＜効果＞
　このような構成により、音響系列と言語系列の対応関係を捉えながら処理を行うことで、両者の系列間に存在する時間的な対応関係が考慮し、従来技術よりも精度よく発話意図を推定することができる。

　また、非特許文献１では、モデルを学習する際、人手でアノテーションした発話意図の正解ラベルを必要とする。しかし、音声対話インターフェースの音声ログに対してアノテーションを実施する場合、一部のデータについては人間にも発話意図の識別が困難であることから、不正確なラベルが付与される場合があり、そうした不正確なラベルで学習を行うことで、識別精度が低下する問題がある。ラベルの不正確さに対処する方法として一般に、複数人のアノテータでラベリングを行い、多数決をとる方法がとられるが、アノテータ数に比例したコストがかかる上に、いずれのアノテータも判別が困難な難しいデータについては対処できない。

　本実施形態によれば、人間でもアノテーションが困難なデータを、「正解するのが困難である」という事を認識したうえでモデルを学習することができる。

　また、発話意図を精度よく推定することで、こうしたユーザエクスペリエンス低下の原因となる誤作動の防止に寄与する。

　さらに、音声認識以外のタスクとして電話等のテレコミュニケーションにおいて、本実施形態の推定システムを用いることにより、対話しているユーザの音声のみを精度よく相手に提示できる。

　例えば、本実施形態の推定処理Ｓ２３０を音声認識装置の後段の処理として行い、認識仮説とともにアプリケーションに渡す形での利用などが考えられる。

＜変形例１:自信度を用いない構成＞
　第一実施形態と異なる部分を中心に説明する。

　第一実施形態では、アノテータ(対象にラベル付けを行うもの)のラベル付与の自信度c_ｍ,Lを学習に利用したが、本変形例では自信度c_ｍ,Lを利用しない。

　この場合、学習データS_Lには、学習用のM個の音響信号s_ｍ,Lと、ラベルr_ｍ,Lとが含まれる。

S_L=((s_1,L,r_1,L),(s_2,L,r_2,L),…,(s_M,L,r_M,L))
　モデル学習部１３０は、ラベル自信度推定部１３６Ａを含まない。

　パラメータ更新部１３７は、学習データS_Lに含まれるラベルr_ｍ,Lと、発話意図ラベルの推定値とを入力とし、これらの値に基づいて、推定モデルのパラメータを更新する（Ｓ１３７）。例えば、パラメータ更新部１３７は、ラベルr_ｍ,Lと発話意図ラベルの推定値とが一致するように、音響特徴処理部１３１Ａ、テキスト特徴処理部１３１Ｂ、テキスト特徴同期部１３２Ａ、音響特徴同期部１３２Ｂ、時間方向圧縮部１３４Ａ，１３４Ｂ、発話意図推定部１３６Ｂにおいて用いるパラメータを更新する（Ｓ１３７）。

＜変形例２:その他の特徴量を用いない構成＞
　第一実施形態と異なる部分を中心に説明する。

　第一実施形態では、その他の特徴量を学習および推定に利用したが、本変形例ではその他の特徴量を利用しない。

　特徴量算出部１２０，２２０で算出する特徴量には、その他の特徴量を含まない。そのため、統合部１３３Ａ，１３３Ｂ，２３３Ａ，２３３Ｂ、統合部１３５，２３５でその他の特徴量を統合、結合する処理は行わない。

　図１０は、変形例２の構成、変形例１と変形例２とを組合せた構成の実験結果を示す。何れの構成についても従来技術よりも精度よく発話意図を推定することができる。

＜変形例３＞
　第一実施形態と異なる部分を中心に説明する。

　ラベル自信度推定部１３６Ａおよび発話意図推定部１３６Ｂは、必ずしも結合後のベクトルを入力としなくともよく、時間方向圧縮部１３４Ａの出力するベクトルと時間方向圧縮部１３４Ｂの出力するベクトルとの少なくとも何れか一方を入力とし、ラベル自信度および発話意図ラベルの推定値を求める構成としてもよい。この場合、同期後特徴量は、時間方向圧縮部１３４Ａの出力するベクトルと時間方向圧縮部１３４Ｂの出力するベクトルとの少なくとも何れか一方を含む。モデル学習部１３０は、時間方向圧縮部１３４Ａの出力するベクトルを同期後特徴量とする場合、音響特徴同期部１３２Ｂ、統合部１３３Ｂ、時間方向圧縮部１３４Ｂ、結合部１３５を含まなくともよく、時間方向圧縮部１３４Ｂの出力するベクトルを同期後特徴量とする場合、音響特徴同期部１３２Ａ、統合部１３３Ａ、時間方向圧縮部１３４Ａ、結合部１３５を含まなくともよい。この場合、ラベル自信度推定モデルは、時間方向圧縮部１３４Ａの出力するベクトルと時間方向圧縮部１３４Ｂの出力するベクトルとの少なくとも何れか一方を含む同期後特徴量を入力とし、ラベル自信度の推定値を出力とするモデルである。同様に、発話意図推定モデルは、時間方向圧縮部１３４Ａの出力するベクトルと時間方向圧縮部１３４Ｂの出力するベクトルとの少なくとも何れか一方を含む同期後特徴量を入力とし、発話意図ラベルの推定値を出力とするモデルである。

　発話意図推定部２３６も同様に、必ずしも結合後のベクトルを入力としなくともよく、時間方向圧縮部２３４Ａの出力するベクトルと時間方向圧縮部２３４Ｂの出力するベクトルとの少なくとも何れか一方を含む同期後特徴量を入力とし、発話意図ラベルの推定値を求める構成としてもよい。推定部２３０は、時間方向圧縮部２３４Ａの出力するベクトルを同期後特徴量とする場合、音響特徴同期部２３２Ｂ、統合部２３３Ｂ、時間方向圧縮部２３４Ｂ、結合部２３５を含まなくともよく、時間方向圧縮部２３４Ｂの出力するベクトルを同期後特徴量とする場合、音響特徴同期部２３２Ａ、統合部２３３Ａ、時間方向圧縮部２３４Ａ、結合部２３５を含まなくともよい。

　このような構成により、音響特徴量とテキスト特徴量との何れか一方を他方に同期させ、音響系列と言語系列の対応関係を捉えながら処理を行っており、第一実施形態と同様の効果を得ることができる。なお、時間方向圧縮部１３４Ａ，２３４Ａの出力するベクトル、つまり、音響特徴量にテキスト特徴量を同期させて得られる同期後テキスト特徴量と、音響特徴量とに基づき得られる固定長のベクトルを用いたほうが、推定精度が高い。

＜変形例４＞
　第一実施形態と異なる部分を中心に説明する。

　本実施形態では、学習データに学習用の音響信号が含まれるが、Ｓ１１０、Ｓ１２０を外部の装置で行い、学習用の音響信号に代えて、対応する音響特徴量及びテキスト特徴量が学習データに含まれる構成としてもよい。なお、音響特徴処理１３１Ａおよびテキスト特徴処理１３１Ｂは、必要に応じて、学習装置１００内で行ってもよいし、外部の装置で行ってもよい。推定装置２００についても同様であり、Ｓ２１０、Ｓ２２０を外部の装置で行い、推定対象の音響信号に代えて、対応する音響特徴量及びテキスト特徴量を入力としてもよい。

＜第二実施形態＞
　第一実施形態と異なる部分を中心に説明する。

＜第二実施形態に係る学習装置１００＞
　図１１は第二実施形態に係る学習装置１００の機能ブロック図を、図１２はその処理フローを示す。

　学習装置１００は、特徴量算出部１２０、モデル学習部１３０を含む。つまり、第二実施形態に係る学習装置１００は、音声認識部１１０を含まない。

＜特徴量算出部１２０＞
　特徴量算出部１２０は、音響信号s_m,Lを入力とし、特徴量o_m,Lを算出し（Ｓ１２０）、出力する。特徴量o_m,Lは、発話意図の有無を推定するために用いられる。

　特徴量o_m,Lは「音響特徴量a_m,L」と「その他の特徴量v_m,L」とのいずれかあるいは組み合わせを含むベクトルであり、「音響特徴量a_m,L」と「その他の特徴量v_m,L」はそれぞれ1つ以上の要素(特徴量)を含むベクトルである。

　「音響特徴量」は第一実施形態で説明した通りである。

　「その他の特徴量」は、第一実施形態で説明した音響信号s_m,Lから得られる特徴量のみからなる。また、本実施形態では、その他の特徴量は、固定長のベクトルとする。

＜モデル学習部１３０＞
　モデル学習部１３０は、学習データS_Lに含まれるラベルr_ｍ,Lと自信度c_ｍ,Lと、特徴量O_L=(o_1,L,o_2,L,…,o_M,L)を入力とし、これらの情報を用いて推定モデルΘ_Lを学習し(Ｓ１３０)、学習済みの推定モデルΘを出力する。

　第二実施形態において音響特徴量と出力ラベルの関係は、公知のLSTMやself-attention機構つきLSTMといった技術を用いることで学習可能である。MFCCやFBANK特徴量のように時系列の情報を保持した特徴量については、公知のLSTMやself-attention機構つきLSTMといったモデルに入力して固定長のベクトル化し、出力されたベクトルと、時系列の情報を保持しない特徴量を結合したベクトルをDNNなどのモデルに入力して、対象に向けた発話かどうかを0から1で出力するモデルを学習する。

　図１３はモデル学習部１３０の機能ブロック図を、図１４はその処理フローの例を示す。

　モデル学習部１３０は、音響特徴処理部１３１Ａ、時間方向圧縮部１３４Ａ、ラベル自信度推定部１３６Ａ、発話意図推定部１３６Ｂおよびパラメータ更新部１３７を含む。

　また、モデル学習部１３０は、結合部１３３Ｃ，１３３Ｄ，１３３Ｅの少なくとも１つを含む。さらに、モデル学習部１３０は、必要に応じて付加特徴量処理部１３８を含む。

＜付加特徴量処理部１３８＞
　付加特徴量処理部１３８は、その他の特徴量v_m,Lを入力とし、結合部１３３Ｃ，１３３Ｄ，１３３Ｅにおいて、処理しやすいデータに変換し（Ｓ１３８）、変換後のその他の特徴量を出力する。なお、変換後のその他の特徴量を単にその他の特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、その他の特徴量を変換する。ただし、結合部１３３Ｃ，１３３Ｄ，１３３Ｅが変換前のその他の特徴量v_m,Lをそのまま用いる場合には、付加特徴量処理部１３８を設けなくともよい。

＜結合部１３３Ｃ＞
　結合部１３３Ｃは、音響特徴量a_m,Lとその他の特徴量とを入力とし、音響特徴量a_m,Lのフレーム数分、その他の特徴量を複製し、音響特徴量a_m,Lの各フレームにその他の特徴量を結合し（Ｓ１３３Ｃ）、出力する。なお、その他の特徴量を結合した音響特徴量a_m,Lを、単に音響特徴量a_m,Lともいう。

＜音響特徴処理部１３１Ａ＞
　音響特徴処理部１３１Ａは、音響特徴量a_m,Lを入力とし、結合部１３３Ｄまたは時間方向圧縮部１３４Ａにおいて、処理しやすいデータに変換し（Ｓ１３１Ａ）、変換後の音響特徴量を出力する。なお、変換後の音響特徴量を単に音響特徴量ともいう。例えば、時系列モデリングを行うDNNを用いて、音響特徴量を変換する。ただし、結合部１３３Ｄまたは時間方向圧縮部１３４Ａが変換前の音響特徴量a_m,Lをそのまま用いる場合には、音響特徴処理部１３１Ａを設けなくともよい。

＜結合部１３３Ｄ＞
　結合部１３３Ｄは、音響特徴量a_m,Lとその他の特徴量とを入力とし、音響特徴量a_m,Lのフレーム数分、その他の特徴量を複製し、音響特徴量a_m,Lの各フレームにその他の特徴量を結合し（Ｓ１３３Ｄ）、出力する。なお、その他の特徴量を結合した音響特徴量a_m,Lを、単に音響特徴量a_m,Lともいう。

＜時間方向圧縮部１３４Ａ＞
　時間方向圧縮部１３４Ａは、音響特徴量処理部１３１Ａまたは結合部１３３Ｄの出力した特徴量を、言い換えると、時間方向に長さを持つ音響由来の特徴量を、時間方向に圧縮して（Ｓ１３４Ａ）、一次元の固定長のベクトルにし、出力する。

＜結合部１３３Ｅ＞
　結合部１３５は、時間方向圧縮部１３４Ａが出力した一次元の固定長のベクトルと、その他の特徴量v_m,Lとを結合し（Ｓ１３３Ｅ）、結合後のベクトルを出力する。

　ラベル自信度推定部１３６Ａおよび発話意図推定部１３６Ｂにおける処理は第一実施形態と同様である。

＜パラメータ更新部１３７＞
　パラメータ更新部１３７は、学習データS_Lに含まれるラベルr_ｍ,Lと自信度c_ｍ,Lと、ラベル自信度の推定値と、発話意図ラベルの推定値とを入力とし、これらの値に基づいて、推定モデルのパラメータを更新する（Ｓ１３７）。例えば、パラメータ更新部１３７は、ラベルr_ｍ,Lと発話意図ラベルの推定値とが一致し、自信度c_ｍ,Lとラベル自信度の推定値とが一致するように、音響特徴処理部１３１Ａ、時間方向圧縮部１３４Ａ、ラベル自信度推定部１３６Ａ、発話意図推定部１３６Ｂにおいて用いるパラメータを更新する（Ｓ１３７）。

　収束条件を満たさない場合には（Ｓ１３７－２のnoの場合）、パラメータ更新部１３７は更新後のパラメータを各部に出力し、更新されたパラメータを用いて、上述の処理Ｓ１３８～Ｓ１３６Ｂを繰り返す。

　収束条件を満たす場合には（Ｓ１３７－２のyesの場合）、パラメータ更新部１３７は更新後のパラメータを学習済みのパラメータとして出力する。

＜第二実施形態に係る推定装置２００＞
　図１５は第二実施形態に係る推定装置２００の機能ブロック図を、図１６はその処理フローを示す。

　学習装置１００は、特徴量算出部２２０、推定部２３０を含む。

　各部について説明する。

＜特徴量算出部２２０＞
　特徴量算出部２２０は、音響信号s_Tを入力とし、特徴量o_Tを算出し（Ｓ２２０）、出力する。例えば、特徴量算出部２２０は第二実施形態に係る特徴量算出部１２０と同様の特徴量算出処理を行う。

　推定部２３０は、特徴量o_Tを入力とし、学習済みのモデルを用いて、発話意図の有無を推定し（Ｓ２３０）、推定結果Rを出力する。学習済みのモデルに対して入力として特徴量o_Tを与え、出力として発話意図の有無の推定結果Rを得る。推定結果Rは、例えば、発話意図の有無を示す2値のラベルである。

　図１７は推定部２３０の機能ブロック図を、図１８はその処理フローの例を示す。

　推定部２３０は、音響特徴処理部２３１Ａ、時間方向圧縮部２３４Ａおよび発話意図推定部２３６を含む。

　また、モデル学習部１３０の結合部１３３Ｃ，１３３Ｄ，１３３Ｅ、付加特徴量処理部１３８に対応する結合部２３３Ｃ，２３３Ｄ，２３３Ｅ、付加特徴量処理部２３８を含む。

　音響特徴処理部２３１Ａ、時間方向圧縮部２３４Ａ、発話意図推定部２３６、結合部２３３Ｃ，２３３Ｄ，２３３Ｅ、付加特徴量処理部２３８は、それぞれ第二実施形態に係る音響特徴処理部１３１Ａ、時間方向圧縮部１３４Ａ、発話意図推定部１３６Ｂ、結合部１３３Ｃ，１３３Ｄ，１３３Ｅ、付加特徴量処理部１３８と同様の処理Ｓ２３８～Ｓ２３６を行う。ただし、特徴量o_m,Lに基づく値に代えて特徴量o_Tに基づく値に対して各処理を行う。

＜効果＞
　このような構成により、従来考慮されていなかった音源の放射方向や直間比などに着目した新規の特徴量を導入することで、発話意図の有無をより明示的に捉えることができる。例えば音声認識のポストフィルタとして利用する場合など、音声認識の仮説出力を待たずに発話者の意図を捉えたい場合に利用すると良い。

＜その他の変形例＞
　本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
　上述の各種の処理は、図１９に示すコンピュータの記憶部２０２０に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行したプログラムを、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、プログラムを、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　学習用の音響信号と、前記音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する学習装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　学習用の音響信号から得られる音響特徴量と、前記音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得、
　前記同期後特徴量を用いて、前記音響信号が所定の対象に対して発話されたものか否かを推定し、
　学習データに含まれるラベルと、前記発話意図推定部の推定結果とに基づいて前記推定モデルのパラメータを更新する。

　（付記項２）
　学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う推定装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　推定対象の音響信号から得られる音響特徴量と、前記推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得、
　前記同期後特徴量を用いて、前記推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する、
　推定装置。

Claims

　学習用の音響信号と、前記音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する学習装置であって、
　学習用の音響信号から得られる音響特徴量と、前記音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、
　前記同期後特徴量を用いて、前記音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部と、
　学習データに含まれるラベルと、前記発話意図推定部の推定結果とに基づいて前記推定モデルのパラメータを更新するパラメータ更新部とを含む、
　学習装置。
　請求項１の学習装置であって、
　前記同期後特徴量は、
　前記音響特徴量に、前記テキスト特徴量を同期させて得られる同期後テキスト特徴量と、前記音響特徴量とに基づき得られる固定長のベクトルと、
　前記テキスト特徴量に、前記音響特徴量を同期させて得られる同期後音響特徴量と、前記テキスト特徴量とに基づき得られる固定長のベクトルとの、少なくとも一方を含む、
　学習装置。
　請求項１または請求項２の学習装置であって、
　学習データには、学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルと、ラベルを付与する際の自信度とが含まれるものとし、
　前記同期後特徴量を用いて、ラベルを付与する際の自信度を推定するラベル自信度推定部を含み、
　前記パラメータ更新部は、前記ラベルと前記発話意図推定部の推定結果、および、学習データに含まれる自信度と前記ラベル自信度推定部の推定結果に基づいて、前記推定モデルのパラメータを更新する、
　学習装置。
　請求項１から請求項３の何れかの学習装置であって、
　その他の特徴量は、
　(i)音源の位置あるいは方向、音源までの距離に関する情報、
　(ii)音響信号帯域幅または周波数特性に関する情報、
　(iii)音声認識結果の信頼度または音声認識の計算時間に関する情報、
　(iv)音声認識結果から計算される発話のコマンドとしての妥当性に関する情報、
　(v)音声認識結果から得られる入力発話の解釈難度に関する情報、
の少なくとも何れかを含むものとし、
　学習データに含まれるラベルと、前記音響特徴量と前記テキスト特徴量とその他の特徴量とを用いて、前記推定モデルを学習する、
　学習装置。
　学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う推定装置であって、
　推定対象の音響信号から得られる音響特徴量と、前記推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期部と、
　前記同期後特徴量を用いて、前記推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定部とを含む、
　推定装置。
　学習用の音響信号と、前記音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データに基づき、推定モデルを学習する学習方法であって、
　学習用の音響信号から得られる音響特徴量と、前記音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期ステップと、
　前記同期後特徴量を用いて、前記音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定ステップと、
　学習データに含まれるラベルと、前記発話意図推定ステップの推定結果とに基づいて前記推定モデルのパラメータを更新するパラメータ更新ステップとを含む、
　学習方法。
　学習用の音響信号と、前記学習用の音響信号が所定の対象に対して発話されたものか否かを表すラベルとが含まれる学習データを用いて予め学習された推定モデルに基づき推定を行う推定方法であって、
　推定対象の音響信号から得られる音響特徴量と、前記推定対象の音響信号に対応するテキスト特徴量とを同期させることによって同期後特徴量を得る特徴同期ステップと、
　前記同期後特徴量を用いて、前記推定対象の音響信号が所定の対象に対して発話されたものか否かを推定する発話意図推定ステップとを含む、
　推定方法。
　請求項１から請求項４の何れかの学習装置、または、請求項５の推定装置としてコンピュータを機能させるためのプログラム。