WO2023162107A1

WO2023162107A1 - 学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム

Info

Publication number: WO2023162107A1
Application number: PCT/JP2022/007726
Authority: WO
Inventors: 輝森川; 亮石井; 肇能登
Original assignee: 日本電信電話株式会社
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2023-08-31

Abstract

学習装置（１０）は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、聞き手の会話データに含まれる相槌の分類ラベルを取得する。そして、学習装置（１０）は、取得した情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する。

Description

学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラム

　本発明は、学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラムに関する。

　従来、ユーザの発話に対して応答する発話を生成し、ユーザとシステム間でのスムーズな対話を実現する会話システムの技術が存在する。このような会話システムにおいて、相槌は重要な要素であり、例えば、相槌をランダムに生成する技術が存在する（例えば、特許文献１参照）。

特開２０１８－２２０７５号公報

　しかしながら、従来の技術では、聞き手役としてより自然な相槌を生成することが出来ない場合があるという課題があった。例えば、従来の技術では、適切なタイミングでの発話を行うことが限界であり、発話の内容は自然な相槌からは程遠いという課題があった。

　本発明は、上記に鑑みてなされたものであって、聞き手役としてより自然な相槌を生成することができる学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明の学習装置は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、前記聞き手の会話データに含まれる相槌の分類ラベルを取得する取得部と、前記取得部によって取得された情報を用いて、前記相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成部とを有することを特徴とする。

　また、推定装置は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得する取得部と、前記取得部によって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する推定部とを有することを特徴とする。

　本発明によれば、聞き手役としてより自然な相槌を生成することが可能となる。

図１は、本実施形態の学習装置の構成を例示するブロック図である。図２は、学習済みモデルを作成する処理を示す図である。図３は、本実施形態の推定装置の構成を例示するブロック図である。図４は、話し手の会話に対する聞き手の相槌の種類を推定する処理を示す図である。図５は、相槌の種類を例示する図である。図６は、学習処理の処理手順の一例を示すフローチャートである。図７は、推定処理の処理手順の一例を示すフローチャートである。図８は、プログラムを実行するコンピュータを示す図である。

　以下に、本願に係る学習装置、推定装置、学習方法、推定方法、学習プログラムおよび推定プログラムの実施の形態を図面に基づいて詳細に説明する。また、本発明は、以下に説明する実施の形態により限定されるものではない。

［学習装置の構成］
　図１は、本実施形態の学習装置の構成を例示するブロック図である。図１に例示するように、本実施形態の学習装置１０は、通信処理部１１、入力部１２、出力部１３、制御部１４、および記憶部１５を有する。

　通信処理部１１は、ＮＩＣ（Network　Interface　Card）等で実現され、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介して通信を制御する。

　入力部１２は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１４に対して処理開始などの各種指示情報を入力する。出力部１３は、液晶ディスプレイなどの表示装置等によって実現される。

　記憶部１５は、制御部１４による各種処理に必要なデータおよびプログラムを格納し、学習済みモデル記憶部１５ａを有する。例えば、記憶部１５は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

　学習済みモデル記憶部１５ａは、後述する作成部１４ｂによって学習された学習済みモデルを記憶する。例えば、学習済みモデル記憶部１５ａは、学習済みモデルとして、話し手の会話に対する聞き手の相槌の種類を推定するための分類器を記憶する。

　制御部１４は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部１４は、学習データ取得部１４ａおよび作成部１４ｂを有する。ここで、制御部１４は、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）などの電子回路やＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）などの集積回路である。

　学習データ取得部１４ａは、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、聞き手の会話データに含まれる相槌の分類ラベルを取得する。例えば、学習データ取得部１４ａは、話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得する。なお、学習データ取得部１４ａは、話し手および聞き手の表情および動作の情報として、例えば、話し手の顔や全体の画像データを取得してもよいし、表情「笑顔」、動作「なし」等の情報を取得してもよい。

　作成部１４ｂは、学習データ取得部１４ａによって取得された情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成する。つまり、作成部１４ｂは、話し手、聞き手双方の発声と聞き手の会話データに含まれる相槌の種類を推定する学習済みモデルを作成する作成する。なお、作成部１４ｂは、モデルを学習方法として、どのような手法を用いてもよい。また、ここで、聞き手の会話データに含まれる相槌とは、例えば、会話データに含まれる「うんうん」、「そうそう」、「それいい」、「なるほど」、「たしかに」、「うん」、「はい」、「おお」、「うーん」、「ふーん」、「すごい」、「えっ」等の発話である。また、その後、作成部１４ｂは、作成した学習済みモデルを学習済みモデル記憶部１５ａに格納する。

　ここで、図２を用いて、学習済みモデルを作成する処理を説明する。図２は、学習済みモデルを作成する処理を示す図である。図２に示すように、学習装置１０は、話し手と聞き手の会話データおよび会話の際の両者の各種情報（表情、動作、音声等）と、聞き手の相槌の分類ラベルを入力とし、話し手と聞き手の会話内容から、聞き手の相槌がどの種類に分類されるかを判定する学習モデルを作成する。

［推定装置の構成］
　図３は、本実施形態の推定装置の構成を例示するブロック図である。図３に例示するように、本実施形態の推定装置２０は、通信処理部２１、入力部２２、出力部２３、制御部２４、および記憶部２５を有する。

　通信処理部２１は、ＮＩＣ等で実現され、ＬＡＮやインターネットなどの電気通信回線を介して通信を制御する。入力部２２は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部２４に対して処理開始などの各種指示情報を入力する。出力部２３は、液晶ディスプレイなどの表示装置等によって実現される。

　記憶部２５は、制御部２４による各種処理に必要なデータおよびプログラムを格納し、学習済みモデル記憶部２５ａを有する。例えば、記憶部２５は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

　学習済みモデル記憶部２５ａは、作成部１４ｂによって学習された学習済みモデルを記憶する。例えば、学習済みモデル記憶部２５ａは、学習済みモデルとして、話し手の会話に対する聞き手の相槌の種類を推定するための分類器を記憶する。

　制御部２４は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部２４は、入力データ取得部２４ａおよび推定部２４ｂを有する。ここで、制御部２４は、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）などの電子回路やＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）などの集積回路である。

　入力データ取得部２４ａは、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得する。例えば、入力データ取得部２４ａは、話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得する。

　推定部２４ｂは、入力データ取得部２４ａによって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する。そして、推定部２４ｂは、分類した相槌の種類を出力する。

　ここで図４を用いて、話し手の会話に対する聞き手の相槌の種類を推定する処理について説明する。図４は、話し手の会話に対する聞き手の相槌の種類を推定する処理を示す図である。図４に示すように、推定装置２０は、話し手の発話（発声、発話文等）を含むマルチモーダル、および聞き手の相槌（発声、発話文等）を含むマルチモーダルを学習済みモデルに入力し、聞き手の相槌に対する８種類の分類結果を出力する。

　例えば、推定装置２０の推定部２４ｂは、図５に例示するように、相槌の種類として、予め設定された８種類のうち、いずれの種類であるかを推定する。図５の例では、相槌の種類として、「話し手への肯定的な応答」、「話し手への感情を含まない応答」、「否定的、または悩んでいるような応答」、「感情の動きを表す応答」、「話し手の発話を繰り返す応答」、「話し手の発話を繰り返す応答（文言が完全に一致していなくても許容。ただし、言い換えは含まない）」、「話し手がまだ言っていない内容の応答、および聞き手からの話題提供」、「話し手の話の要約、および言い換え」が設定されている。なお、相槌の種類はこの８種類に限定されるものではなく、種類数も８に限定されるものではない。

　これにより、推定装置２０が、相槌という多種多様な様態を示す発声を、体系的に分類することで、コミュニケーションにおける相互理解の向上や、対話の分析の高精度化に役立てることが可能である。つまり、例えば、相槌は同じ音節でも異なる意味合いを持つものが多数あり、言語、文化によるニュアンスの差異も大きく、しばしば誤解の原因となる。そこで、推定装置２０が、聞き手の発する相槌を体系化し、分類することで、相槌の発声者の心情、意図を明確化することができる。また、例えば、推定装置２０が、リアルタイムで相槌を分類し表示するシステムがあれば、話し手が聞き手の心情や意図を正確に理解することが可能である。さらに、対話の分析においても、推定装置２０が相槌の分類を行うことで、言外に含まれた意図の解明や、心境の変化をより鮮明にとらえることが可能となる。

［学習装置の処理手順］
　次に、図６を用いて、学習装置１０が実行する処理の処理手順の一例について説明する。図６は、事前処理の処理手順の一例を示すフローチャートである。

　図６に例示するように、学習装置１０の学習データ取得部１４ａは、話し手の発話データおよび話し手に関する情報を取得する（ステップＳ１０１）。そして、学習データ取得部１４ａは、聞き手の会話データおよび聞き手に関する情報を取得する（ステップＳ１０２）。続いて、学習データ取得部１４ａは、相槌の分類ラベルを取得する（ステップＳ１０３）。

　そして、作成部１４ｂは、学習データ取得部１４ａによって取得された情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌を分類する学習済みモデルを作成する（ステップＳ１０４）。その後、作成部１４ｂは、作成した学習済みモデルを学習済みモデル記憶部１５ａに格納する（ステップＳ１０５）。

［推定装置の処理手順］
　次に、図７を用いて、推定装置２０が実行する処理の処理手順の一例について説明する。図７は、推定処理の処理手順の一例を示すフローチャートである。

　図７に例示するように、推定装置２０の入力データ取得部２４ａは、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを入力データとして取得する（ステップＳ２０１）。そして、推定部２４ｂは、入力データを学習済みモデルに入力して、相槌の種類を特定し（ステップＳ２０２）、相槌の種類を出力する（ステップＳ２０３）。

［実施の形態の効果］
　このように、実施形態に係る学習装置１０は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、聞き手の会話データに含まれる相槌の分類ラベルを取得し、取得した情報を用いて、相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する。このため、学習装置１０は、話し手の発話に対して聞き手が発した相槌の内容の分類について学習することで、相槌の内容を適切に分類することが可能になり、適切な相槌の生成に役立てることが可能となる。

　また、推定装置２０は、話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得し、取得した情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する。このため、推定装置２０は、相槌の内容を適切に分類することが可能になり、適切な相槌の生成に役立てることで、聞き手役としてより自然な相槌を生成することが可能となる。

〔システム構成等〕
　上記実施形態に係る図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のごとく構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

〔プログラム〕
　また、上記実施形態において説明した学習装置１０または推定装置２０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。

　図８は、プログラムを実行するコンピュータを示す図である。図８に例示するように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有し、これらの各部はバス１０８０によって接続される。

　メモリ１０１０は、図８に例示するように、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、図８に例示するように、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、図８に例示するように、ディスクドライブ１０４１に接続される。例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０４１に挿入される。シリアルポートインタフェース１０５０は、図８に例示するように、例えば、マウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、図８に例示するように、例えばディスプレイ１０６１に接続される。

　ここで、図８に例示するように、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記のプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、例えば、ハードディスクドライブ１０３１に記憶される。

　また、上記実施形態で説明した各種データは、プログラムデータとして、例えば、メモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出し、各種処理手順を実行する。

　なお、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

　１０　学習装置
　１１、２１　通信処理部
　１２、２２　入力部
　１３、２３　出力部
　１４、２４　制御部
　１４ａ　学習データ取得部
　１４ｂ　作成部
　１５、２５　記憶部
　１５ａ、２５ａ　学習済みモデル記憶部
　２４ａ　入力データ取得部
　２４ｂ　推定部

Claims

　話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、前記聞き手の会話データに含まれる相槌の分類ラベルを取得する取得部と、
　前記取得部によって取得された情報を用いて、前記相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成部と
　を有することを特徴とする学習装置。
　前記取得部は、前記話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、前記聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得することを特徴とする請求項１に記載の学習装置。
　話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報とを取得する取得部と、
　前記取得部によって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する推定部と
　を有することを特徴とする推定装置。
　前記取得部は、前記話し手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得し、前記聞き手に関する情報として、話し手の表情、動作および音声のうち、いずれか一つまたは複数を取得することを特徴とする請求項３に記載の推定装置。
　学習装置によって実行される学習方法であって、
　話し手の発話データおよび話し手に関する情報と、聞き手の会話データおよび聞き手に関する情報と、前記聞き手の会話データに含まれる相槌の分類ラベルを取得する取得工程と、
　前記取得工程によって取得された情報を用いて、前記相槌の分類ラベルを正解データとして、話し手の会話に対する聞き手の相槌の種類を推定する学習済みモデルを作成する作成工程と
　を含むことを特徴とする学習方法。
　推定装置によって実行される推定方法であって、
　話し手の発話データおよび話し手に関する情報を取得する取得工程と、
　前記取得工程によって取得された情報を入力データとして、話し手の会話に対する聞き手の相槌の種類を推定する予測する学習済みモデルに入力し、話し手の会話に対する聞き手の相槌の種類を推定する推定工程と
　を含むことを特徴とする推定方法。
　コンピュータを請求項１または２に記載の学習装置として機能させるための学習プログラム。
　コンピュータを請求項３または４に記載の推定装置として機能させるための推定プログラム。