WO2021172039A1

WO2021172039A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2021172039A1
Application number: PCT/JP2021/005167
Authority: WO
Inventors: 裕美倉沢; 侑理網本
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-28
Filing date: 2021-02-12
Publication date: 2021-09-02
Also published as: JP2021135960A

Abstract

本技術は、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにする情報処理装置、情報処理方法、及びプログラムに関する。複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置が提供される。本技術は、例えば、対話を採点する対話採点装置、又は対話に応じた応答を生成する応答生成装置に適用することができる。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、情報処理装置、情報処理方法、及びプログラムに関し、特に、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにした情報処理装置、情報処理方法、及びプログラムに関する。

　医療現場の専門職では、対人コミュニケーションに関する試験がある。また、営業職や、介護、保育、医療従事者など、その職種によっても、好ましい表現方法や話し方がある。

　このように、様々な職種ごとに、様々な対人スキルをトレーニングする必要があり、対人トレーニングはコストが高く、また、何を直すべきかを客観的に評価することが一人では難しい。

　特許文献１には、コールセンタのオペレータと顧客の会話をコールセンタの特徴に合わせて評価できる方法として、評価パラメータの入力を元に採点を行うオペレータ対顧客会話自動採点装置が開示されている。

　この装置では、採点時には、言語分析、対話分析、及び感情分析が行われるが、言語分析では、あらかじめ定められたキーワードを検出し、対話分析では、対話の重複や発話割合、沈黙、話速を検出し、感情分析では、声の高さや音量から感情レベルを検出している。

特開2014-123813号公報

　特許文献１に開示されている技術では、採点時に、言語分析、対話分析、及び感情分析を行っているが、これらの分析からは会話の表面的な様子はうかがい知ることができるものの発話内容や発話の表現スタイルなどは考慮されておらず、対人コミュニケーションの評価に際して必要とされる情報として十分あるとは言い難い。そのため、対人コミュニケーションに関する情報として、有用な情報を提供することが求められていた。

　本技術はこのような状況に鑑みてなされたものであり、対人コミュニケーションに関する情報として、より有用な情報を提供することができるようにするものである。

　本技術の一側面の情報処理装置は、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置である。

　本技術の一側面の情報処理方法は、情報処理装置が、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する情報処理方法である。

　本技術の一側面のプログラムは、コンピュータを、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、対象の話者の解析結果に応じた出力情報を生成する処理部を備える情報処理装置として機能させるプログラムである。

　本技術の一側面の情報処理装置、情報処理方法、及びプログラムにおいては、複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類が解析され、対象の話者の解析結果に応じた出力情報が生成される。

　なお、本技術の一側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本技術を適用した情報処理装置の一実施の形態の構成例を示すブロック図である。図１の特徴情報群処理部の詳細な構成例を示すブロック図である。図１の情報処理装置の他の構成例を示すブロック図である。図１の情報処理装置のさらに他の構成例を示すブロック図である。図４の音声特徴情報群処理部の詳細な構成例を示すブロック図である。図４の画像特徴情報群処理部の詳細な構成例を示すブロック図である。第１の処理の流れを説明するフローチャートである。第２の処理の流れを説明するフローチャートである。出力情報の第１の例を示す図である。出力情報の第２の例を示す図である。出力情報の第３の例を示す図である。出力情報の第４の例を示す図である。出力情報の第５の例を示す図である。出力情報の第６の例を示す図である。出力情報の第７の例を示す図である。知識情報の第１の例を示す図である。知識情報の第２の例を示す図である。知識情報の第３の例を示す図である。知識情報の第４の例を示す図である。知識情報の第５の例を示す図である。話者と患者による対話とその解析の例を示す図である。設定情報の第１の例を示す図である。設定情報の第１の例を示す図である。設定情報の第１の例を示す図である。設定情報の第２の例を示す図である。設定情報の第３の例を示す図である。設定情報の第４の例を示す図である。設定情報の第４の例を示す図である。設定情報の第５の例を示す図である。本技術を適用した情報処理装置の一実施の形態の他の構成例を示すブロック図である。第３の処理の流れを説明するフローチャートである。本技術を適用した情報処理システムの一実施の形態の構成例を示すブロック図である。コンピュータの構成例を示すブロック図である。

＜１．第１の実施の形態＞

（装置の構成）
　図１は、本技術を適用した情報処理装置の一実施の形態の構成例を示している。

　図１において、情報処理装置は、対話を採点する対話採点装置などとして構成される。この情報処理装置は、入力部１０１、特徴情報群処理部１０２、スコア計算部１０３、出力部１０４、及び第１知識データベース１１７を有する。

　入力部１０１は、ユーザ（話者）の発話に応じたテキストデータを、特徴情報群処理部１０２に入力する。このテキストデータは、マイクロフォンにより集音された発話の音声を解析することで得られるものである。入力部１０１では、入力されるテキストデータに対し、話者情報を付加したり、あるいは、話者判定部により話者判定を行ったりしてもよい。

　特徴情報群処理部１０２は、入力部１０１から入力されたテキストデータに対し、様々な特徴を解析する構成要素を１つ以上含んでいる。特徴情報群処理部１０２では、１以上の構成要素により、テキストデータに対する解析処理が施され、その処理結果が、スコア計算部１０３に供給される。また、特徴情報群処理部１０２は、第１知識データベース１１７に格納された情報を取得して利用することができる。

　スコア計算部１０３は、特徴情報群処理部１０２から供給される処理結果に基づいて、スコアを計算し、そのスコアの計算結果を出力部１０４に供給する。また、スコア計算部１０３では、スコアの計算結果を直ぐには出力せず、次の発話に応じたテキストデータの入力を受けて、様々な特徴の解析結果に基づき、繰り返しスコアを計算して、その計算結果を最後に出力してもよい。

　出力部１０４は、スコア計算部１０３から供給される計算結果に基づいて、出力情報を生成する。出力部１０４は、生成した出力情報を、ディスプレイに表示するなどして出力する。

　なお、図１においては、入力部１０１からのテキストデータが、出力部１０４に供給され、テキストが出力されるようにしてもよい。また、出力部１０４は、出力情報を生成するに際して、スコアの計算結果以外の情報を用いてもよい。

　図２は、図１の特徴情報群処理部１０２の詳細な構成例を示している。

　特徴情報群処理部１０２は、対話行為推定部１０５、シーン判定部１０６、難易度測定部１０７、共感度測定部１０８、丁寧度測定部１０９、理解度確認状況判定部１１０、シーン切替適切度判定部１１１、大人度測定部１１２、性別指向性判定部１１３、性格指向性判定部１１４、及び確認事項判定部１１５を有する。

　対話行為推定部１０５は、挨拶（GRT：Greeting）、情報開示（DEC：Description）、質問（QUE：Question）、応答（RES：Response）、願望（DSR：Desire）、依頼（REQ：Request）、などの対話行為を推定する。この対話行為の推定に際しては、判定対象の発話文やその前の発話文を条件として、"GRT"、"DEC"、"QUE"、"RES"、"DSR"、"REQ"といった分類ラベルを機械学習して推定するなどの方法を用いることができる。

　シーン判定部１０６は、対話全体で想定されるシーンのいずれに属するかを判定する。このシーン判定に際しては、シーンの切り替え文となる特徴的な文の存在の有無により切り替わりを判定し、その前後を特定のシーンとしてもよいし、あるいは、特定のシーンのための切り替わり文を判定する方法を用いることができる。この判定では、特徴語を用いてもよいし、切り替わりを判断するための機械学習を行ってもよい。あるいは、各文に対しシーン分類を機械学習し、各文のシーン分類推定結果を元に、全体のシーンの推定結果を元に複数の文の塊に対しシーンを判定する方法でもよい。あるいは、複数の文を入力として与え、その部分となる複数の文に対しシーンを判定する方法でもよい。

　難易度測定部１０７は、専門用語や熟語等の多さ、日常語彙で使わない語を多く含む、説明表現の特徴などから難易度の高さを測定する。この難易度の測定に際しては、例えば、専門用語を使わずとも済むような表現として、「治る」、「改善する」といった意味合いで、「寛解する」を使うことを避けて説明することを期待する場合に、このような専門用語を辞書にあらかじめ登録しておき、専門用語を使った場合に減点していくといった方法を用いることができる。

　共感度測定部１０８は、「おつらいですね」などの特徴的な共感語彙や、相手の行動を褒めるような語彙、相手の言葉を繰り返す行為などの特徴から、共感性の高さを測定する。この共感度の測定に際しては、共感的な定型表現リストを辞書に保持しておき、その定型表現の出現により加点する方法や、直前の別の話者の内容と高類似の内容を話したかの類似度判定により加点する方法などを用いることができる。あるいは、回復や別の話者を望む状態を自己の願望として伝える共感方法をとったかという話者行為推定による条件として、「願望（DSR）」と「回復」を意図する表現を言ったかを機械学習等により判定して加点する方法などを用いても構わない。

　丁寧度測定部１０９は、敬語や丁寧語の特徴から、どの程度の丁寧な表現を使ったかを測定する。この丁寧度の測定に際しては、機械学習により丁寧度合いを学習してもよい。

　理解度確認状況判定部１１０は、一方的に説明をし続けるのではなく間を取りながら話をする（相手の応答を待つなど）、又は相手の説明を聞く際に相槌を打つなどの確認を示すといった、相手の理解の確認や自分の理解を示すことにより、コミュニケーションのやり取りが上手くいっているかを確認する。理解度の確認に際しては、対話行為推定部１０５での"RES"の入るタイミングや、"DEC"の連続性などの割合を測定して判定することができる。具体的には、"RES"の入るタイミングの測定では、相手が"DEC"を連続している間に適宜"RES"を挟んでいるかを判定したり、"DEC"の連続性の測定では、自分が"DEC"/"REQ"を連続している間に、"QUE"をして相手の発話を促したり、自然と相手が"RES"を挟んだりしたかを判定したりすることができる。

　シーン切替適切度判定部１１１は、異なるシーンに進む場合に、唐突ではなく移り変わっているかを確認する。シーン切替の適切度の確認に際しては、例えば、シーン判定部１０６と確認事項判定部１１５と連携して、挨拶のシーンから本題に入るなどの場合には適切なシーンの切り替えがされていると判定する一方で、通常起こりうる組み合わせと異なるシーンで確認事項が発言された場合には、適切なシーンの切り替えがされていないと判定する。

　大人度測定部１１２は、ビジネスシーンなどの大人っぽさを必要とする場合から、幼児などを相手にするような親近感を抱かせた方が良い場合もあり、発言の表現から大人らしさを測定する。大人度の測定に際しては、例えば、大人らしさ、幼児性などが表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比較的に高いかにより、全体的な大人度を判定することができる。

　性別指向性判定部１１３は、男性らしさ、女性らしさといった性別的特徴を意識した話し方をしているかを判定し、それぞれの性別に対する偏りを推定する。この性別の指向性の判定に際しては、性別傾向が表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比率的に高いかによって、全体的な性別の傾向を判定するなどの方法を用いることができる。

　性格指向性判定部１１４は、例えば分析的、共感的、主観的などの性格的な傾向を推定する。この性格の指向性の判定に際しては、性格傾向が表れている発話にそれらのラベルを付与して機械学習を行い、どのような発話傾向が比率的に高いかによって、全体的な性格の傾向を判定するなどの方法を用いることができる。

　確認事項判定部１１５は、相手から特定の情報を聞き出し、関連する確認すべき事項を確認したかを判定する。確認事項判定部１１５は、確認事項の判定に際して、適宜、第１知識データベース１１７に格納された情報を参照することができる。第１知識データベース１１７は、確認事項判定部１１５に付属する知識として機能する。この確認事項の判定に際しては、特徴的なキーワードやフレーズの出現による判定を行ったり、あるいは、機械学習により推定したりしてもよい。

　以上のように構成される特徴情報群処理部１０２では、対話行為推定部１０５乃至確認事項判定部１１５のうち、いずれか１以上を有し、入力されるテキストデータに基づき、様々な特徴が解析される。なお、対話行為推定部１０５乃至確認事項判定部１１５は、特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。

　なお、特徴情報群処理部１０２において、対話行為推定部１０５、シーン判定部１０６、及び確認事項判定部１１５による解析の詳細な例は、後述する図２１の対話例を参照しながら説明する。

（装置の他の構成）
　図３は、図１の情報処理装置の他の構成例を示している。

　なお、以下の説明において、同一の符号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。

　図３において、情報処理装置は、図１の構成と比べて、入力部１０１、特徴情報群処理部１０２、スコア計算部１０３、出力部１０４、及び第１知識データベース１１７のほかに、文分割部１１６及びスコア記憶部１１８をさらに有している。

　文分割部１１６は、入力部１０１から入力されたテキストデータに基づき、入力テキストを文単位等の所定の単位で分割し、分割したテキストデータを、特徴情報群処理部１０２に供給する。以下、分割したテキストを分割テキストとも称し、入力テキストと区別する。

　特徴情報群処理部１０２では、文分割部１１６から供給される分割テキストデータに基づき、様々な特徴が解析され、その処理結果が、スコア計算部１０３に供給される。

　スコア計算部１０３は、特徴情報群処理部１０２から供給される処理結果に基づいて、スコアを計算する際に、計算したスコア等の情報を、スコア記憶部１１８に記録することができる。

　なお、図３においては、入力部１０１からのテキストデータのほかに、文分割部１１６からの分割テキストデータが、出力部１０４に供給され、分割テキストが出力されるようにしてもよい。

　図４は、図１の情報処理装置のさらに他の構成例を示している。

　図４において、情報処理装置は、音声や画像を入力に用いた対話採点装置などとして構成される。この情報処理装置は、図１の構成と比べて、入力部１０１、特徴情報群処理部１０２、スコア計算部１０３、出力部１０４、及び第１知識データベース１１７のほかに、音声認識部２０１、音声特徴情報群処理部２０２、及び画像特徴情報群処理部２０３をさらに有している。

　入力部１０１は、話者の発話に応じた音声データを、音声認識部２０１、及び音声特徴情報群処理部２０２に入力する。また、入力部１０１は、話者やその周辺を撮影した画像データを、画像特徴情報群処理部２０３に入力する。

　音声認識部２０１は、入力部１０１から入力される音声データに対し、音声認識処理を行い、その認識結果のテキストデータを、特徴情報群処理部１０２に供給する。

　特徴情報群処理部１０２は、音声認識部２０１から供給されるテキストデータに基づき、様々な特徴が解析され、その処理結果が、スコア計算部１０３に供給される。

　音声特徴情報群処理部２０２は、入力部１０１から入力される音声データに対し、様々な音声の特徴を解析する構成要素を１つ以上含んでいる。音声特徴情報群処理部２０２では、１つ以上の構成要素により、音声データに対する解析処理が施され、その処理結果がスコア計算部１０３に供給される。

　例えば、音声特徴情報群処理部２０２は、図５に示すように、音量判定部２０４、第１感情判定部２０５、及び話速測定部２０６を有する。

　音量判定部２０４は、音声データを解析して話者の発話の音量を測定する。第１感情判定部２０５は、音声データを解析して話者の声から認識可能な感情情報を推定し、感情ごとのスコアを出力する。話速測定部２０６は、音声データを解析して話者の話す速度を測定する。

　以上のように、音声特徴情報群処理部２０２では、音量判定部２０４乃至話速測定部２０６のうち、いずれか１以上を有し、入力される音声データに基づき、様々な音声の特徴が解析される。なお、音量判定部２０４乃至話速測定部２０６は、音声の特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。

　図４に戻り、画像特徴情報群処理部２０３は、入力部１０１から入力される画像データに対し、様々な画像の特徴を解析する構成要素を１つ以上含んでいる。画像特徴情報群処理部２０３では、１つ以上の構成要素により、画像データに対する解析処理が施され、その処理結果がスコア計算部１０３に供給される。

　例えば、画像特徴情報群処理部２０３は、図６に示すように、笑顔判定部２０７、目線判定部２０８、及び第２感情判定部２０９を有する。

　笑顔判定部２０７は、画像データを解析しての解析結果を用いて笑顔認識により話者の笑顔らしさを測定する。目線判定部２０８は、画像データを解析して、話者の目線を測定し、採点対象の話者がどこを見ているかを判定する。第２感情判定部２０９は、画像データを解析して、話者の顔の表情から分かる感情情報を推定し、感情ごとのスコアを出力する。

　以上のように、画像特徴情報群処理部２０３では、笑顔判定部２０７乃至第２感情判定部２０９のうち、いずれか１以上を有し、入力される画像データに基づき、様々な画像の特徴が解析される。なお、笑顔判定部２０７乃至第２感情判定部２０９は、画像の特徴を解析する構成要素の一例であり、他の構成要素が含まれても構わない。

　図４に戻り、スコア計算部１０３は、特徴情報群処理部１０２、音声特徴情報群処理部２０２、及び画像特徴情報群処理部２０３から供給される処理結果に基づいて、スコアを計算し、そのスコアの計算結果を出力部１０４に供給する。

　なお、図４においては、図３の構成に含まれる文分割部１１６と、スコア記憶部１１８をさらに設けても構わない。その場合、文分割部１１６は、音声認識部２０１の後段に設けられる。

（処理の流れ）
　次に、図７のフローチャートを参照して、情報処理装置により実行される第１の処理の流れを説明する。

　情報処理装置では、入力部１０１に入力されたテキストTi（0 < i <= N）を、入力として受け付ける（Ｓ１０１）。また、文分割部１１６が、テキストTiを、tj（0 < j <= n）に分割する（Ｓ１０２）。ここでは、まず、先頭の分割テキストtjが処理対象とされる。

　ステップＳ１０３では、特徴情報群処理部１０２に１つ以上含まれる構成要素を用い、処理対象の分割テキストtjに対し、当該構成要素それぞれから１つ以上の分類名とそのスコアが、出力結果として得られる。

　ステップＳ１０４では、特徴情報群処理部１０２が、ステップＳ１０３の処理で得られた複数の構成要素の出力結果の組み合わせに該当する、第１知識データベース１１７の項目を検索し、そこから得られる値を取得する。

　ステップＳ１０５の判定処理で、j < n であると判定された場合、処理は、ステップＳ１０３に戻り、jの値をインクリメント（j = j + 1）して、次の分割テキストtjを処理対象として、上述したステップＳ１０３，Ｓ１０４の処理が繰り返される。そして、j = n であると判定された場合、すなわち、最後の分割テキストまで処理対象となった場合、ステップＳ１０３乃至Ｓ１０５の繰り返しを終了して、処理は、ステップＳ１０６に進められる。

　ステップＳ１０６の判定処理で、i < N であると判定された場合、処理は、ステップＳ１０１に戻り、iの値をインクリメント（i = i + 1）して、次の入力テキストTiを処理対象として、上述したステップＳ１０１乃至Ｓ１０５の処理が実行される。そして、i = N であると判定された場合、ステップＳ１０１乃至Ｓ１０６の繰り返しを終了して、処理は、ステップＳ１０７に進められる。

　ステップＳ１０７では、出力部１０４が、ステップＳ１０４の処理で得られた値に基づき、出力情報を生成して出力する。ステップＳ１０４の処理の具体的な例は、図８又は図３１のフローチャートを参照して後述する。ステップＳ１０７の処理で、出力情報が出力されると、第１の処理は終了する。

　なお、図７では、文分割部１１６を設けた図３の構成に対応した処理の流れを説明したが、図１の構成に対応する場合には、ステップＳ１０２の処理をスキップして、n=1と読み替えればよい。

　以上、第１の処理の流れを説明した。この第１の処理では、入力されたテキストに対し、特徴情報群処理部１０２に１つ以上含まれる構成要素のそれぞれから得られる１つ以上の分類名とそのスコアが得られ、当該分類名とそのスコアの複数の構成要素の出力結果の組み合わせに該当する第１知識データベース１１７の項目が検索され、そこから得られる値が取得され、取得された値に基づき出力情報が生成される。

　次に、図８のフローチャートを参照して、図１の情報処理装置により実行される第２の処理の流れを説明する。

　ステップＳ２０１乃至Ｓ２０３においては、図７のステップＳ１０１乃至Ｓ１０３と同様に、入力されたテキストTiが分割され、処理対象の分割テキストtjに対し、当該構成要素それぞれから１つ以上の分類名とそのスコアが出力結果として得られる。ステップＳ２０３が終了すると、処理は、ステップＳ２０４に進められる。

　ステップＳ２０４では、スコア計算部１０３が、複数の構成要素の出力結果の組み合わせに該当する、第１知識データベース１１７の項目を検索し、そこから得られる採点スコアを取得する。続いて、ステップＳ２０５では、スコア計算部１０３が、取得した採点スコアを、スコア記憶部１１８に記録する。

　すなわち、ステップＳ２０４の処理は、図７のステップＳ１０４の処理を具体化したもので、得られる値として、採点スコアが取得される例である。ステップＳ２０５で、採点スコアが記録されると、処理は、ステップＳ２０６に進められる。なお、ステップＳ２０６乃至Ｓ２０８の処理は、必須の処理ではなく、ステップＳ２０６からステップＳ２０９に、直接進んでも構わない。

　ステップＳ２０６では、対話行為が、質問（QUE）、応答（RES）、又はその他（Other）のいずれであるかが判定される。

　すなわち、ステップＳ２０６の判定処理は、対話行為が質問（QUE）である場合の分岐の例となる。これ以外の何らかの条件に基づき、フラグ処理等を行いながら、連続する系列の条件により、さらにスコア記憶部１１８に記録してもよい。

　例えば、対話行為が、第１話者の質問（QUE）、第２話者の情報開示（DEC）、第１話者の応答（RES）という連続した流れを検出した場合、自己が質問した場合に相手が回答内容を答え、それを受けて応答することは丁寧な対話姿勢であるとして、採点スコアを計算するものとする。

　ステップＳ２０６の判定処理で、対話行為が質問（QUE）であると判定された場合、処理は、ステップＳ２０７に進められる。ステップＳ２０７では、スコア計算部１０３が、話者交代の後に、採点対象者が再度話者になり、さらに話者交代が起こるまでのフラグ（期間フラグ）を上げるとともに、スコア記憶部１１８に保持されるQUEカウンタを１つ増やす。

　一方で、ステップＳ２０６の判定処理で、対話行為が応答（RES）であると判定された場合、処理は、ステップＳ２０８に進められる。ステップＳ２０８では、スコア計算部１０３が、ステップＳ２０７の処理で上げられる可能性があるフラグ（期間フラグ）が上がっている場合、質問（QUE）、情報開示（DEC）、応答（RES）の流れに該当するとして、スコア記憶部１１８に保持されるRESカウンタを１つ増やす。

　なお、ステップＳ２０６の判定処理で、対話行為が質問（QUE）と応答（RES）のいずれにも該当しないと判定された場合、処理は、ステップＳ２０９に進められる。

　ステップＳ２０９，Ｓ２１０においては、図７のステップＳ１０５，Ｓ１０６と同様に、処理対象の入力テキストTiに対し、ステップＳ２０１乃至Ｓ２１０の処理が繰り返され、さらに、処理対象の分割テキストtjに対し、ステップＳ２０３乃至Ｓ２０９の処理が繰り返される。

　ステップＳ２０１で受け付けた入力テキストTiに対する処理が終了して、ステップＳ２１０の判定処理で、i = N であると判定された場合、処理は、ステップＳ２１１に進められる。

　ステップＳ２１１においては、出力情報が生成されるが、ここでは、スコア記憶部１１８に保持されるRESカウンタとQUEカウンタの割合によって、適切な丁寧度であるかを判定してその判定結果が利用される。なお、第２話者は、情報開示（DEC）を１回だけでなく、情報開示（DEC）に加えて、応答（RES）や願望（DSR）などを含めても構わない。

　なお、図８においても、文分割部１１６を設けた図３の構成に対応した処理の流れを説明したが、図１の構成に対応する場合には、ステップＳ２０２の処理をスキップして、n=1と読み替えればよい。

　以上、第２の処理の流れを説明した。この第２の処理は、上述した図７の第１の処理を具体化した処理であり、図７のステップＳ１０４の処理で得られる値として、採点スコアを取得するものである。

（出力情報の例）
　図１等の情報処理装置において、出力部１０４では、スコアの計算結果等に基づき、数値、文章、表、グラフ、及び図形のうち、少なくとも１つを含む表示形式で表現された出力情報が生成される。次に、図９乃至図１５を参照して、出力情報の例を説明する。

（ａ）第１の例
　図９は、出力情報の第１の例を示している。

　図９において、出力情報４０１は、出力部１０４によって、ディスプレイの画面に表示される。出力情報４０１では、「87点」、「判定Ａ」などの総合的な得点や判定結果を示している。

　なお、図９に示した表示形式は一例であり、評価対象の全項目数分の上手くできた項目数などのような形式で得点を表現しても構わない。

（ｂ）第２の例
　図１０は、出力情報の第２の例を示している。

　図１０において、出力情報４０２は、ディスプレイの画面に表示されるレーダチャートにより、採点対象の話者のスキルを幾つかの観点で示している。

　出力情報４０２では、スキルＡ乃至Ｅの５つのスキルのそれぞれについて、５段階の評価で示している。出力情報４０２では、図中の一点鎖線で示した自己のスキルのほかに、図中の破線で示した平均のスキルが合わせて示される。なお、自己のスキルとの比較のために示されるスキルとしては、平均のスキルのほかにも、例えば、理想的なスコア分布などを示してもよい。

　スキルＡ乃至Ｅの各スキルは、例えば、対話構成要素によるバランス、概略評価による一般的な対話スキル、個別内容に基づく知識のスキル、といった観点ごとに１つのスキルとして総和をとって、表示しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、他人の解析結果に応じた出力情報を表示することができる。

（ｃ）第３の例
　図１１は、出力情報の第３の例を示している。

　図１１において、出力情報４０３は、ディスプレイの画面に表示される棒グラフにより、採点対象の話者の発話特徴を表す要素の割合を示している。

　出力情報４０３では、採点対象の話者の発話特徴を表す要素として、挨拶（GRT）、依頼（REQ）、質問（QUE）、情報開示（DEC）としての説明、及び応答（RES）としての相槌の割合が、棒グラフにより示されている。出力情報４０３では、自己の発話特徴を表す要素の割合を示した棒グラフのほかに、平均的な要素の割合を示した棒グラフが合わせて示される。

　なお、自己の発話特徴を表す要素の割合との比較のために示される要素の割合としては、平均的な分布のほかにも、例えば、理想的な分布などを示してもよいし、あるいは、シーンごとなどの複数の条件項目ごとに算出された分布を複数表示しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、他人の解析結果に応じた出力情報を表示することができる。

（ｄ）第４の例
　図１２は、出力情報の第４の例を示している。

　図１２において、出力情報４０４は、ディスプレイの画面に表示されるリストにより、対話全体での概略評価を示している。

　出力情報４０４では、対話全体での概略評価として、「挨拶をした」、「自己紹介をした」、「共感を示した」、「丁寧に接した」、及び「分かりやすく説明した」のように、評価対象とする特徴について文章で説明し、それに対して出来ていた、又は出来ていなかったという２値で表現している。

　なお、対話全体での概略評価は、２値で表現する場合に限らず、例えば、それぞれに対して数値で採点結果を示しても構わない。

（ｅ）第５の例
　図１３は、出力情報の第５の例を示している。

　図１３において、出力情報４０５は、ディスプレイの画面に表示されるリストにより、対話内容の評価を示している。

　出力情報４０５では、対話内容の評価として、「既往歴を確認した」、「痛みの開始時期を確認した」、「痛みの程度を確認した」、及び「家族の病歴を確認した」のように、評価対象とする内容について、言及すべき項目がある場合に、それらの項目について文章で説明し、それに対して出来ていた、又は出来ていなかったという２値で表現している。

　なお、対話内容の評価は、２値で表現する場合に限らず、例えば、それぞれに対して数値で採点結果を示しても構わない。また、出力情報４０５では、「痛み」についての質問事項に対する採点状態を細かく表示してもよいし、あるいは、内部的に細かく採点しているいくつかの項目をまとめて「痛みについて確認できていた」などのように総括して表示してもよい。

（ｆ）第６の例
　図１４は、出力情報の第６の例を示している。

　図１４において、出力情報４０６は、ディスプレイの画面に表示される折れ線グラフにより、採点計測時期と採点結果の時系列の変化を示している。

　出力情報４０６では、スキルＡ乃至Ｃの３つのスキルのそれぞれについて、例えば１年間などの所定の期間内での月単位での採点結果の変化が、折れ線グラフにより示されている。なお、採点結果の時系列の変化を示す際には、総合得点について示してもよいし、あるいは、個別のスキル項目や概略評価、内容評価について個別に表しても構わない。このように、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報を表示することができる。

（ｇ）第７の例
　図１５は、出力情報の第７の例を示している。

　図１５において、出力情報４０７は、ディスプレイの画面に表示される文章により、総括コメントを示している。

　出力情報４０７では、総括コメントとして、「全体的に傾聴姿勢をもって取り組めていますが、服薬指導など専門知識が十分に発揮できていません。患者さんに対して十分な情報を提供できるように心がけましょう。」のように、２文構成で出力されている。

　すなわち、この２文構成の出力では、前段の１文目で、１要素目として出来ていることを、２要素目として出来ていないことを出力する。また、その後段の２文目で、出来ていないことを改善するアドバイスを表示する。

　ここでは、文テンプレートとして、「全体的に、＜要素１＞取り組めていますが、＜要素２＞が十分に発揮できていません。＜要素３＞」といったものをあらかじめ用意しておくようにする。次に、１文目の１要素目は、図１０の出力情報４０２で自己のスキル（スキルＡ乃至Ｅ）の中で最も高い評価になる、あるいは、平均に比べて乖離して強いと言えるスキル（例えばスキルＤ）を選択する。また、１文目の２要素目は、図１０の出力情報４０２で自己のスキル（スキルＡ乃至Ｅ）の中で最も低い評価になる、あるいは、平均に比べて乖離して低いと言えるスキル（例えばスキルＥ）を選択する。

　また、具体的な事例として、それぞれのスキルに該当する個別項目で、特に評価の高いものを選択し、＜要素１＞に「傾聴姿勢をもって」、＜要素２＞に「服薬指導など専門知識」といったあらかじめ用意されたワードで、文テンプレートの文中に埋め込む。＜要素３＞は、＜要素２＞で選ばれたものに対してのアドバイスをあらかじめ用意しておき、その前段の文と当てはめる。

（知識の例）
　次に、図１６乃至図２０を参照して、特徴情報群処理部１０２の確認事項判定部１１５により用いられる第１知識データベース１１７に格納される知識情報の例を説明する。

（ａ）第１の例
　図１６は、知識情報の第１の例を示している。

　図１６において、知識情報５０１は、挨拶の採点に関する知識の例を示している。

　知識情報５０１では、シーンと対話行為と対話行為ごとの分類の３条件で、挨拶の採点を行う例を示している。この例では、知識情報５０１を用い、挨拶（GRT）である対話行為として、最初の導入部（Intro）のシーンで、「こんにちは（Hello）」に相当する挨拶をしたか、最後の終結（Closing）のシーンで、「さようなら（Goodbye）」に相当する挨拶をしたかを判定する。

　「こんにちは」と「さようなら」である挨拶をしたと判定された場合の配点は、それぞれ１点とされる。なお、シーンはシーン判定部１０６で、対話行為は対話行為推定部１０５で、対話行為ごとの分類は確認事項判定部１１５でそれぞれ判定される。

（ｂ）第２の例
　図１７は、知識情報の第２の例を示している。

　図１７において、知識情報５０２は、自己紹介の採点に関する知識の例を示している。

　知識情報５０２では、シーンと対話行為と対話行為ごとの分類の３条件で、自己紹介の採点を行う例を示している。この例では、知識情報５０２を用い、最初の導入部（Intro）のシーンでの情報開示（DEC）である対話行為として、自己紹介の内容で、名前を言ったか、肩書を言ったか、名前と肩書きの両方を言ったかを判定する。

　自己紹介で名前を言ったと判定された場合の配点は２点、自己紹介で肩書を言ったと判定された場合の配点は１点、自己紹介で名前と肩書きの両方を言ったと判定された場合の配点は３点とされる。なお、シーンはシーン判定部１０６で、対話行為は対話行為推定部１０５で、対話行為ごとの分類は確認事項判定部１１５でそれぞれ判定される。

（ｃ）第３の例
　図１８は、知識情報の第３の例を示している。

　図１８において、知識情報５０３は、アレルギーについて確認できたかの採点に関する知識の例を示している。

　知識情報５０３では、シーンと対話行為と対話行為ごとの分類の３条件で、アレルギーについて確認できたかの採点を行う例を示している。この例では、知識情報５０３を用い、問診（History Taking）のシーンでの質問（QUE）である対話行為として、質問タイプとして"YN"や"WHAT"を判定するとともに、アレルギーについての質問であることを判定する。ここで、"YN"は、Yes/No形式の質問を意味し、"WHAT"は、WHAT形式の質問を意味する。

　問診でYes/No形式とWHAT形式のアレルギーに関する質問をしたと判定された場合の配点は、それぞれ１点とされる。なお、シーンはシーン判定部１０６で、対話行為は対話行為推定部１０５で、対話行為ごとの分類は確認事項判定部１１５でそれぞれ判定される。

（ｄ）第４の例
　図１９は、知識情報の第４の例を示している。

　図１９において、知識情報５０４は、症状について確認できたかの採点に関する知識の例を示している。

　知識情報５０４では、シーンと対話行為と対話行為ごとの分類の３条件で、症状について確認できたかの採点を行う例を示している。この例では、知識情報５０４を用い、問診（History Taking）のシーンでの質問（QUE）である対話行為として、質問タイプとして"WHEN"や"YN"を判定するとともに、湿疹の開始や湿疹の罹患についての質問であることを判定する。ここで、"WHEN"はWHEN形式の質問を意味し、"YN"は、Yes/No形式の質問を意味する。

　問診でWHEN形式とYes/No形式の湿疹の症状に関する質問をしたと判定された場合の配点は、それぞれ１点とされる。なお、シーンはシーン判定部１０６で、対話行為は対話行為推定部１０５で、対話行為ごとの分類は確認事項判定部１１５でそれぞれ判定される。

（ｅ）第５の例
　図２０は、知識情報の第５の例を示している。

　図２０において、知識情報５０５は、共感の採点に関する知識の例を示している。

　知識情報５０５では、シーンと対話行為と対話行為ごとの分類の３条件で、共感の採点を行う例を示している。この例では、知識情報５０５を用い、任意のシーンでの願望（DSR）や挨拶（GRT）等の対話行為として回復や病人向けの共感をしたか、最後の終結（Closing）のシーンで「病人向けのさようなら（Goodbye）」に相当する挨拶をしたかを判定する。なお、図２０の表において、シーンで「-」が記述されているレコードは、どのシーンでも構わないことを表している。

　回復や病人向けの共感をしたと判定された場合、及び「病人向けのさようなら」である挨拶をしたと判定された場合の配点は、それぞれ１点とされる。なお、シーンはシーン判定部１０６で、対話行為は対話行為推定部１０５で、対話行為ごとの分類は確認事項判定部１１５でそれぞれ判定される。

　なお、上述した知識情報のうち、知識情報５０１，５０２のようにどのような対話内容であっても、常に利用するような知識もあれば、知識情報５０３乃至５０５のように提供されたシナリオによって使用する知識を変える必要があるものがある。いわば、前者の知識情報は、固定的な表で表される知識であり、後者の知識情報は、動的な表で表される知識である。

（対話と解析の例）
　図２１は、採点対象の話者と患者による対話とその解析の例を示している。

　図２１においては、「話者」の列で"1"と"2"で区別される、採点対象の話者である第１話者と、患者である第２話者とが、「湿疹」と「塗り薬（コロイド）」に関する対話を行っているが、「発話」の列のうち、第１話者の発話が、解析対象となる。

　「シーン切り替え文」の列は、発話のうち、シーンを切り替えるトリガとなった文を含む発話に対し、丸印（○）を記述している。「シーン」の列には、導入部（Intro）、問診（History Taking）、説明（Explanation）、終結（Closing）などのシーンが付与されている。

　シーン判定部１０６では、各発話が、対話全体で想定されるシーンのいずれに属するかを判定する。また、シーン判定部１０６では、各発話から特徴語を検出するなどして、「シーン切り替え文」の列で丸印（○）を付しているような、シーンを切り替えるトリガとなる発話を検出する。

　具体的には、第１話者による「えー、では、先ほどコロイドについてのご相談でしたが、湿疹の症状について教えて下さい」である発話がトリガとして検出され、シーンが最初の導入部（Intro）から問診（History Talking）に切り替わっている。

　また、話者単位でシーンをまとめて扱う場合には、この見つけたシーン切り替え文から遡って、同一の話者の範囲に対してシーンを割り振るようにする。具体的には、第１話者による「先生のおっしゃる通り、ロコイドが良いと思います」である発話がトリガとして検出された場合、図中の上向きの矢印で示したように、このシーン切り替え文から遡って、第１話者の発話に対し、説明（Explanation）であるシーンが割り振られる。

　この例では、シーンの切り替えのポイントとなる文を見つける方法を示したが、特定のシーンに切り替わることを判定する方法など、他の方法を用いてもよい。例えば、第１話者の発話が、問診（History Taking）の開始ポイントとなる文を含むかどうかを判定する方法を用いることができる。あるいは、各文に対しシーン分類を機械学習し、各文のシーン分類推定結果を元に、全体のシーンの推定結果を元に複数の文の塊に対しシーンを判定する方法でもよい。あるいは、複数の文を入力として与え、その部分となる複数の文に対しシーンを判定する方法でもよい。

　次に、「対話行為」の列には、挨拶（GRT）、情報開示（DEC）、質問（QUE）、応答（RES）、願望（DSR）、及び依頼（REQ）などのラベルが付与されている。対話行為推定部１０５では、発話の内容から、挨拶等の対話行為を推定し、その推定結果に基づき、各文に対して、挨拶（GRT）等のラベルを付与する。

　次に、「対話行為ごとの分類」には、質問（QUE）、情報開示（DEC）、挨拶（GRT）、応答（RES）、依頼（REQ）、及び願望（DSR）であるラベルの列ごとに、確認事項の判定結果が記述されている。ただし、質問（QUE）と情報開示（DEC）には、タイプと内容の組み合わせからなる。

　確認事項判定部１１５では、採点対象の話者である第１話者が、患者である第２話者から特定の情報を聞き出して、質問（QUE）や情報開示（DEC）等の確認事項を確認したかを判定する。

　具体的には、導入部（Intro）において、第１話者による「こんにちは」である発話から、対話行為として、"Hello"である挨拶（GRT）が行われたことが判定される。また、第１話者による「本日担当の薬剤師です」である発話から、"自己紹介"で"肩書き"である情報開示（DEC）がなされ、「今日はどうされましたか」である発話から、"来院"の"理由"である質問（QUE）がなされたと判定される。

　また、導入部（Intro）において、第１話者による「なるほど」と「分かりました」である発話から、"相槌"である応答（RES）がなされたと判定される。さらに、第１話者による「早く良くなるようにしたいですね」である発話から、"回復"である願望（DSR）がなされ、「それではこちらにおかけください」である発話から、"着席"である依頼（REQ）がなされたと判定される。

　その後、問診（History Talking）において、第１話者による「えー、では、先ほどコロイドについてのご相談でしたが、湿疹の症状について教えて下さい」である発話から、"説明"である依頼（REQ）がなされたと判定される。また、第１話者による「いつ頃始まりましたか？」である発話から、"When"の"開始（湿疹）"である質問（QUE）がなされたと判定される。

　また、問診（History Talking）において、第１話者による「今までかかったことがありますか？」と「何かアレルギーがありますか？」である発話から、"YN"の"罹患（湿疹）"又は"アレルギー"である質問（QUE）がなされたと判定される。

　その後、説明（Explanation）において、第１話者による「なるほど」である発話から、"相槌"である応答（RES）がなされ、「ありがとうございます」である発話から、"Thanks"である挨拶（GRT）がなされたと判定される。また、第１話者による「１ヶ月ほど前から湿疹が続いていて、今まで治療はされていないということですね」である発話から、"確認"として"情報整理"である情報開示（DEC）がなされたと判定される。

　また、説明（Explanation）において、第１話者による「先生のおっしゃる通り、ロコイドが良いと思います」である発話から、"薬の選択"である情報開示（DEC）がなされたと判定される。また、第１話者による「使い方についてご説明します」と「使う前には手を石鹸で洗ってください」である発話から、"服薬指導"である情報開示（DEC）がなされたと判定される。

　そして、終結（Closing）において、第１話者による「お大事に」である発話から、"病気の人向けのGoodbye"である挨拶（GRT）が行われたことが判定される。

　以上のようにして、採点対象の話者と患者による対話が、第１知識データベース１１７に格納される知識情報を参照しながら解析されて、シーンと対話行為と対話行為ごとの分類の３条件で判定され、その判定結果に応じた配点から得られる採点スコアが取得される。

　なお、確認事項判定部１１５では、各ラベルを、図２１の例のように対話行為ごとの分類として扱ってもよいし、あるいは、対話行為の下位概念としてではなく、対話行為とは独立したラベルとして用意しても構わない。また、質問（QUE）や情報開示（DEC）として示したように、タイプと内容の組み合わせで解析してもよし、あるいは、挨拶（GRT）等のように、単一のラベルを割り振るといった方法でも構わない。

　さらに、図２１の例では、シーンと対話行為と対話行為ごとの分類の３条件を用いた場合を例示したが、シーンは必ずしも必須ではなく、少なくとも対話行為と対話行為ごとの分類の２条件を用いていればよい。

（条件設定の例）
　次に、図２２乃至図２９を参照して、確認事項判定部１１５により用いられる第１知識データベース１１７に格納される設定情報の例を説明する。この設定情報では、採点対象の話者が話しかける相手（患者）の条件設定を行う場合に、その条件設定に関する情報が含まれる。

（ａ）第１の例
　図２２乃至図２４は、設定情報の第１の例を示している。

　図２２乃至図２４において、設定情報８０１乃至８０３は、患者の背景に関する設定の例を示している。この患者の背景の設定では、年齢、性別、アレルギー、家族の病歴、既往歴、妊娠、授乳、喫煙、アルコール、服薬などの属性に対する値と、詳細な値が設定される。

　例えば、図２２の設定情報８０１では、ある幼児（女の子）の背景として、卵アレルギーがあることや、小児喘息にかかっていることなどが設定されている。また、図２３の設定情報８０２では、ある成人女性の背景として、これまでに大きな病気にかかったことがなく、週3回、500ml程度飲酒することなどが設定されている。また、図２４の設定情報８０３では、ある成人男性の背景として、高血圧の病歴と、花粉のアレルギーがあり、週3回、500ml程度飲酒することなどが設定されている。

（ｂ）第２の例
　図２５は、設定情報の第２の例を示している。

　図２５において、設定情報８０４は、属性ごとの値により変化する質問量や知識についての例を示している。設定情報８０４では、図２２乃至図２４に示した属性ごとの対応知識への影響度として、属性ごとの値によって変化する質問量や知識などの例を示している。

　例えば、年齢である属性に関して、子供（0～18歳）、大人（18～65歳）、高齢者（65歳～）の別で、対応知識への影響度が異なる。また、患者の性別が女性の場合には、採点対象の話者が聞くべき質問が増えるが、その質問は、妊娠、授乳の有無など定型的に決まる質問群であり、それに対する質問を解釈し採点できればよい。

　また、アレルギーや既往歴、服薬などがある患者の場合、採点対象の話者には個別知識が必要となる。家族の病歴、喫煙、アルコールがある場合、採点対象の話者が聞くべき質問が増える。

（ｃ）第３の例
　図２６は、設定情報の第３の例を示している。

　図２６において、設定情報８０５は、個別知識の例を示している。図２２の設定情報８０１では、ある幼児の背景として、卵アレルギーがあることが設定されていたが、採点対象の話者が聞くべき項目として、摂取した際のアレルギーの程度や何歳頃に発症したか、何か特別な療法や服薬をしているかなど聞くべき項目があり、猫アレルギーなどとは対応が異なる、といった場合に相当し、値ごとに個別知識を用意することが想定される。

　設定情報８０５では、ある幼児の卵アレルギーに関して、蕁麻疹の程度は軽く、卵を食べた30分後に出ることと、発症してから７ヶ月程度であること、何か特別な療法や服薬はしていないことなどが設定されている。

（ｄ）第４の例
　図２７，図２８は、設定情報の第４の例を示している。

　図２７，図２８において、設定情報８０６，８０７は、あらかじめ指定されたシナリオ（問題）に基づき、知識が異なるタイプの採点対象の話者が話しかける相手（患者）の条件設定の例を示している。この患者のタイプの設定では、湿疹という病気（症状）である前提で話をする際の属性として、開始時期、罹患有無、及び部位といった属性に対し、それぞれ値が設定されている。

　例えば、図２７の設定情報８０６では、ある湿疹患者のタイプとして、開始時期が１年前で、罹患はなく、発症部位は顔であることなどが設定されている。また、図２８の設定情報８０７では、ある湿疹患者のタイプとして、開始時期が１ヶ月前で、罹患しており、発症部位は背中であることなどが設定されている。

（ｅ）第５の例
　図２９は、設定情報の第５の例を示している。

　図２９において、設定情報８０８は、属性ごとの値によって変化する質問量や知識についての例を示している。設定情報８０８では、図２７，図２８に示した属性ごとの対応知識への影響度として、属性ごとの値によって変化する質問量や知識などの例を示している。

　設定情報８０８では、開始時期と部位は変化せず、罹患がある場合のみ質問が増えるとなっているが、例えば、いつ頃（何歳ごろ）にかかったことがあるか、といった定型的に決まる質問群が含まれる。

　以上、第１の実施の形態では、本技術を適用した情報処理装置として、対話に関する採点を行う対話採点装置を中心に説明し、人間（採点対象の話者）が、人間（患者）と対話を行う場合に、その人間（採点対象の話者）の発話の評価（対話の採点）を行う事例を説明した。

　なお、第１の実施の形態では、人間（採点対象の話者）が、人間（患者）と対話する場合を中心に説明したが、対話の相手は人間に限らず、機械（擬人エージェント、キャラクタ、アバタ、又はチャットボットなどを含む）と会話を行う場合で、その人間の発話の評価を行うようにしても構わない。

＜２．第２の実施の形態＞

（装置の構成）
　図３０は、本技術を適用した情報処理装置の一実施の形態の他の構成例を示している。

　図３０において、情報処理装置は、ユーザ（話者）の対話スキルの評価を行うに際して応答を返すことが可能な応答生成装置として構成される。この情報処理装置は、図１の構成と比べて、音声認識部２０１のほかに、応答生成部６０１、第２知識データベース６０２、及び音声合成部６０３をさらに有している。

　応答生成部６０１は、入力文（テキストデータ）に対し、特徴情報群処理部１０２からの採点に用いる特徴情報群を用いながら、応答文（応答テキストデータ）を生成し、音声合成部６０３に供給する。応答生成部６０１は、第２知識データベース６０２に格納された応答用の知識情報を用いても構わない。

　例えば、第２知識データベース６０２に、自分の名前や既病歴などの知識情報を保持しておくことで、質問に答える際にこの知識情報を利用することができる。なお、このときの知識情報が、第１知識データベース１１７に格納された知識情報や設定情報と同一であってもよい。

　例えば、図１８の知識情報５０３におけるYes/No形式のアレルギーに関する質問は、図２２乃至図２４の設定情報８０１乃至８０３におけるアレルギーの値を回答することに相当し、この値のあり／なしを、Yes/Noの回答に用いることができる。さらに、この値が"あり"の場合の詳細な値の"卵"は、図１８の知識情報５０３におけるWHAT形式のアレルギーに関する質問の回答に相当する。

　このような処理が可能となるのは、採点時に用いる判定条件とその判定条件に設定された値を回答するのに使える形で、第１知識データベース１１７と第２知識データベース６０２が同一の知識の形で保持されている場合とされる。

　あるいは、特定の発話内容に関しては、特定の応答メッセージを返すような知識でもよい。例えば、「何かアレルギーはありますか」と聞かれたら、「卵です」と答えるような単純な知識でもよい。あるいは、特定の対話行為に対し、何らかの応答を用意しておくなど、特徴に対する応答でもよい。例えば、依頼（REQ）に対しては、必ず、「はい」と相槌を打つような応答でもよい。なお、上記の様々な応答方法の複数の組み合わせであっても構わない。

　音声合成部６０３は、応答生成部６０１から供給される応答テキストデータを音声データに変換し、出力部１０４に供給する。音声合成部６０３では、テキストから音声への変換に際して、声色などを指定できるようにしてもよい。出力部１０４は、音声合成部６０３から供給される音声データに応じた音声（音）を、スピーカなどから出力する。

（処理の流れ）
　次に、図３１のフローチャートを参照して、図３０の情報処理装置により実行される第３の処理の流れを説明する。

　ステップＳ３０１乃至Ｓ３０３においては、図７のステップＳ１０１乃至Ｓ１０３と同様に、入力されたテキストTiが分割され、処理対象の分割テキストtjに対し、当該構成要素それぞれから１つ以上の分類名とそのスコアが出力結果として得られる。ステップＳ３０３が終了すると、処理は、ステップＳ３０４に進められる。

　ステップＳ３０４では、応答生成部６０１が、複数の構成要素の出力結果の組み合わせに該当する、第２知識データベース６０２の項目を検索し、そこから得られる応答値を取得する。

　ステップＳ３０５では、応答生成部６０１が、複数の構成要素の出力結果の組み合わせに該当する、あるいは、入力テキストに対応する応答パターンを生成する際に、取得した応答値を利用して応答文を生成する。

　すなわち、ステップＳ３０４，Ｓ３０５は、図７のステップＳ１０４の処理を具体化したもので、得られる値として、応答値が取得される例であって、ステップＳ３０４の処理で取得された応答値を用いて、応答生成部６０１で応答文を生成する際に、当該応答値を埋め込んだり、そこからさらに第２知識データベース６０２の項目を検索した結果を用いたりして、応答文全体を生成することができる。

　ステップＳ３０６，Ｓ３０７においては、図７のステップＳ１０５，Ｓ１０６と同様に、処理対象の入力テキストTiに対し、ステップＳ３０１乃至Ｓ３０７の処理が繰り返され、さらに、処理対象の分割テキストtjに対し、ステップＳ３０３乃至Ｓ３０６の処理が繰り返される。

　ステップＳ３０１で受け付けた入力テキストTiに対する処理が終了して、ステップＳ３０７の判定処理で、i = N であると判定された場合、処理は、ステップＳ３０８に進められる。ステップＳ３０８においては、出力情報として、応答テキストデータが音声データに変換され、その音声が出力される。

　すなわち、話者の対話スキルの評価を行うに際して、応答生成装置等の機械が、音声により応答を返すことになる。このとき、擬人エージェント、キャラクタ、アバタなどを表示して、それらが音声により応答を返すようにしてもよい。ただし、ここでは、テキストから音声への変換を行わずに、応答テキストデータに応じた応答文が、チャットボットなどとして表示されるようにしても構わない。このように、物体（人の顔又は全身等を含む）の静止画、動画、又はCG(Computer Graphics)などが、応答文とともに、出力情報として出力されることになる。

　なお、図３１においても、文分割部１１６を設けた図３の構成に対応した処理の流れを説明したが、図１の構成に対応する場合には、ステップＳ３０２の処理をスキップして、n=1と読み替えればよい。

　以上、第３の処理の流れを説明した。この第３の処理は、上述した図７の第１の処理を具体化した処理であり、図７のステップＳ１０４の処理で得られる値として、応答値を取得するものである。

　以上、第２の実施の形態では、本技術を適用した情報処理装置として、対話に関する応答の生成を行う応答生成装置を中心に説明し、人間（採点対象の話者）の対話スキルの評価を行う際に、機械が応答を返す事例を説明した。

＜３．変形例＞

（システムの構成）
　上述した説明では、対話採点装置や応答生成装置等の情報処理装置が、単独の装置として構成されるとして説明したが、インターネット等のネットワークを介して複数の装置から構成されるようにしても構わない。

　図３２は、本技術を適用した情報処理システムの一実施の形態の構成例を示している。

　図３２において、情報処理システムは、情報処理装置１０と情報処理装置２０から構成される。情報処理装置１０と情報処理装置２０は、ネットワーク３０を介して相互に接続される。

　情報処理装置１０は、PC(Personal Computer)、タブレット型端末、スマートフォン、専用の端末などの機器であり、対話採点装置や応答生成装置等として構成される。情報処理装置１０は、処理部１１、通信部１２、入力部１０１、及び出力部１０４から構成される。

　処理部１１は、各部の動作の制御や各種の演算処理を行う中心的な制御装置（処理装置）である。処理部１１は、CPU(Central Processing Unit)等のプロセッサから構成される。

　処理部１１は、図１の構成のうち、特徴情報群処理部１０２及びスコア計算部１０３のうち、少なくとも１つの構成要素を含む。なお、図３に示したように、処理部１１は、文分割部１１６を含んでも構わない。

　また、図４に示したように、処理部１１は、特徴情報群処理部１０２及びスコア計算部１０３のほかに、音声認識部２０１、音声特徴情報群処理部２０２、及び画像特徴情報群処理部２０３のうち、少なくとも１つの構成要素を含んでもよい。さらに、図３０に示したように、処理部１１は、特徴情報群処理部１０２及びスコア計算部１０３のほかに、応答生成部６０１及び音声合成部６０３のうち、少なくとも１つの構成要素を含んでもよい。

　通信部１２は、処理部１１からの制御に従い、ネットワーク３０を介して、情報処理装置２０等の他の機器と通信を行う。通信部１２は、無線LAN(Local Area Network)などの無線通信や、セルラー方式の通信（例えばLTE-Advancedや5G等）、又は有線通信に対応した通信モジュールとして構成される。

　入力部１０１と出力部１０４は、上述した図１等の入力部１０１と出力部１０４に対応しているが、処理部１１に含まれるようにしてもよい。

　また、入力部１０１は、入力インタフェースや各種の処理部を含んで構成されるほか、マイクロフォン、カメラ、センサなどの入力デバイスを含んで構成されてもよい。出力部１０４は、各種の制御部や出力インタフェースを含んで構成されるほか、ディスプレイ、スピーカ、プロジェクタなどの出力デバイスを含んで構成されてもよい。なお、これらの入力デバイスと出力デバイスは、外部装置として設けても構わない。

　情報処理装置２０は、処理部２１、通信部２２、及びデータベース２３から構成される。

　処理部２１は、各部の動作の制御や各種の演算処理を行う中心的な制御装置（処理装置）である。処理部２１は、CPU等のプロセッサから構成される。

　処理部２１は、図１の構成のうち、特徴情報群処理部１０２及びスコア計算部１０３のうち、少なくとも１つの構成要素を含む。なお、図３に示したように、処理部２１は、文分割部１１６を含んでも構わない。また、処理部２１は、入力部１０１と出力部１０４の一部の機能を含んでも構わない。

　また、図４に示したように、処理部２１は、特徴情報群処理部１０２及びスコア計算部１０３のほかに、音声認識部２０１、音声特徴情報群処理部２０２、及び画像特徴情報群処理部２０３のうち、少なくとも１つの構成要素を含んでもよい。さらに、図３０に示したように、処理部２１は、特徴情報群処理部１０２及びスコア計算部１０３のほかに、応答生成部６０１及び音声合成部６０３のうち、少なくとも１つの構成要素を含んでもよい。

　すなわち、情報処理装置２０側の処理部２１では、全ての構成要素のうち、情報処理装置１０側の処理部１１に設けられた構成要素を除いた構成要素が設けられる。

　通信部２２は、処理部２１からの制御に従い、ネットワーク３０を介して、情報処理装置１０等の他の機器と通信を行う。通信部２２は、無線LANなどの無線通信や、セルラー方式の通信、又は有線通信に対応した通信モジュールとして構成される。

　データベース２３は、HDD(Hard Disk Drive)や半導体メモリ等から構成される補助記憶装置に記憶される。データベース２３は、内部ストレージとして構成されてもよいし、外部ストレージであってもよい。

　データベース２３は、図１等の第１知識データベース１１７、図３等のスコア記憶部１１８、及び図３０等の第２知識データベース６０２を含む。なお、データベース２３の一部又は全部を、情報処理装置１０側に設けても構わない。

　ネットワーク３０は、インターネット、イントラネット、又は携帯電話網などの通信網を含んで構成され、TCP/IP(Transmission Control Protocol / Internet Protocol)等の通信プロトコルを用いた機器間の相互接続を可能にしている。

（採点対象の他の例）
　上述した説明では、採点対象の話者による患者との対話を採点して、試験や対人スキルのトレーニング等に用いる例を説明したが、例えば、特定の品物を売る営業職を対象として顧客との対話に関する対人トレーニングに用いたり、ホテルのレストランでの接客作業を担当する従業員を対象として客との対話に関する対人トレーニングに用いたり、幼児や高齢者などの特定のカテゴリの相手に話す保育や介護などの対人トレーニングに用いたりしても構わない。第１知識データベース１１７や第２知識データベース６０２には、対人トレーニングの内容に応じた知識情報等の情報が格納される。

（機械学習の例）
　上述した機械学習の方法としては、例えば、ニューラルネットワークや、ディープラーニング（深層学習）が用いられる。

　ニューラルネットワークとは、人間の脳神経回路を模倣したモデルであって、入力層、中間層（隠れ層）、出力層の３種類の層からなる。また、ディープラーニングとは、多層構造のニューラルネットワークを用いたモデルであって、各層で特徴的な学習を繰り返し、大量データの中に潜んでいる複雑なパターンを学習することができる。

　また、機械学習の問題設定には、教師あり学習、教師なし学習、半教師学習、強化学習、逆強化学習、能動学習、転移学習等がある。教師あり学習では、与えられたラベル付きの学習データ（教師データ）に基づいて特徴量を学習する。これにより、未知のデータのラベルを導くことが可能となる。

　なお、上述した説明では、画像に関する説明を行ったが、映像は、複数の画像フレームから構成されるものであるため、「画像」を、「映像」と読み替えても構わない。

　以上のように、本技術を適用した情報処理装置では、複数の話者（例えば採点対象の話者と患者）の発話に関する入力データ（例えばテキストデータ、音声データ、又は画像データ）に基づいて、対話行為（例えば挨拶（GRT）や情報開示（DEC）等）とその対話行為ごとの分類（例えばこんにちは（Hello）／さようなら（Goodbye）や、自己紹介／名前、肩書等）が解析され、対象の話者の解析結果に応じた出力情報（例えば図９乃至図１５の出力情報４０１乃至４０７）が生成される。これにより、対人コミュニケーションに関する情報として、より有用な情報を提供することができる。

　なお、上述した特許文献１では、コールセンタのオペレータと顧客の会話をコールセンタの特徴に合わせて評価できる方法として、評価パラメータの入力を元に採点を行うものとしている。また、採点時には、言語分析、対話分析、及び感情分析を行うとしている。対話分析では、発話割合、沈黙、話速を検出し、時間などの数値化を行ったものである。感情分析は、声の高さ、音量などを用い、声のはり、活舌、声の大きさ、高さなどを数値化したものである。言語分析では、キーワード、アクセントなどである。

　感情分析は音響情報を元に、また、対話分析は時間情報又は話者による判定を想定している。しかしながら、これらの分析からは、会話の表面的な様子はうかがい知ることができるものの、発話内容や発話の表現スタイルによる情報は考慮されない。また、言語分析でキーワードなど単語量を想定しているが、これらからは特徴的な単語の出現の有無や頻度しか分からず、発話内容や発話の表現スタイルによる文や対話の流れによって表現される情報は考慮できない。本技術を適用した情報処理装置では、テキスト情報を対象に、言及すべき内容を適切に話したかや表現方法による印象など、様々な情報を考慮した採点を行うことができる。

　例えば、医療現場の専門職については、医師、看護師、薬剤師などでは、客観的臨床能力試験（OSCE：Objective Structured Clinical Examination）という試験の中で、対人コミュニケーションに関する試験がある。また、営業職では、売る品物によってどのような説明の仕方や振る舞い方が好ましいかという方向性が異なる。さらに、幼児や高齢者など特定のカテゴリの相手に話す保育や介護、あるいは医療従事者において、好ましい表現方法や話し方がある。このように様々な職種ごとに、様々な対人スキルをトレーニングする必要があり、対人トレーニングはコストが高くまた何を直すべきかを客観的に評価することが一人では難しい。また、スピーチの練習など比較的一方通行の対話に関しても、練習相手と評価を行うのに一人では難しい。

　そこで、本技術を適用した情報処理装置では、様々な対人スキルを測定し採点できるように、様々な観点の特徴の測定とターゲットとなる対人スキルに向けた指標の重要度を鑑みた採点を可能にしている。

＜４．コンピュータの構成＞

　上述した情報処理装置の一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。

　図３３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記憶部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

　入力部１００６は、マイクロフォン、キーボード、マウスなどよりなる。出力部１００７は、スピーカ、ディスプレイなどよりなる。記憶部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

　以上のように構成されるコンピュータでは、CPU１００１が、ROM１００２や記憶部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

　また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものでもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されてもよい。

　さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートの各ステップは、１つの装置で実行するほか、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行するほか、複数の装置で分担して実行することができる。

　また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　なお、本技術は、以下のような構成をとることができる。

（１）
　複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
　対象の話者の解析結果に応じた出力情報を生成する
　処理部を備える
　情報処理装置。
（２）
　前記処理部は、
　　前記発話がなされたシーンをさらに解析し、
　　前記シーン、前記対話行為、及び前記分類の解析結果に応じた出力情報を生成する
　前記（１）に記載の情報処理装置。
（３）
　前記処理部は、
　　対象の話者の解析結果に基づいて、採点スコアを取得し、
　　取得した前記採点スコアに応じた出力情報を生成する
　前記（１）又は（２）に記載の情報処理装置。
（４）
　前記処理部は、
　　対象の話者の解析結果に基づいて、応答値を取得し、
　　取得した前記応答値に応じた出力情報を生成する
　前記（１）又は（２）に記載の情報処理装置。
（５）
　前記処理部は、
　　話者による対話行為を推定する対話行為推定部と、
　　対話全体で想定されるシーンのいずれに属するかを判定するシーン判定部と、
　　前記分類に応じて、採点対象の第１の話者が第２の話者に対して確認すべき事項を確認したかを判定する確認事項判定部と
　を含む特徴情報群処理部を有する
　前記（２）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記特徴情報群処理部は、
　　専門用語を含む特定の表現に応じた難易度を測定する難易度測定部、
　　共感語彙を含む特定の表現に応じた共感度を測定する共感度測定部、
　　敬語又は丁寧語を含む特定の表現に応じた丁寧度を測定する丁寧度測定部、
　　間又は相槌を含む特定の動作に応じた理解度の確認状況を判定する理解度確認状況判定部、
　　シーンを切り替えるに際して当該切り替えの適切度を判定するシーン切り替え適切度判定部、
　　発話の表現に応じた大人度を測定する大人度測定部、
　　発話の表現に応じた性別指向性を判定する性別指向性判定部、及び、
　　発話の表現に応じた性格指向性を判定する性格指向性判定部
　のうち、少なくとも１つをさらに含む
　前記（５）に記載の情報処理装置。
（７）
　前記処理部は、
　　前記採点スコアを用いて、スコアを計算するスコア計算部を有し、
　　計算した前記スコアに応じた出力情報を生成する
　前記（３）に記載の情報処理装置。
（８）
　前記処理部は、
　　前記入力データを入力する入力部と、
　　前記出力情報を生成して出力する出力部と
　をさらに有する前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記入力データは、テキストデータを含み、
　前記処理部は、入力された前記テキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
　前記（８）に記載の情報処理装置。
（１０）
　前記処理部は、
　　入力された前記テキストデータに基づいて、テキストを文単位に分割する文分割部をさらに有し、
　　分割したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
　前記（９）に記載の情報処理装置。
（１１）
　前記入力データは、音声データを含み、
　前記処理部は、
　　入力された前記音声データを、テキストデータに変換する音声認識部をさらに有し、
　　変換したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
　前記（８）に記載の情報処理装置。
（１２）
　前記入力データは、音声データを含み、
　前記処理部は、
　　入力された前記音声データに基づいて、発話の音声に関する解析を行う音声特徴情報群処理部をさらに有し、
　　発話の音声の解析結果に応じた出力情報を生成する
　前記（８）に記載の情報処理装置。
（１３）
　前記入力データは、画像データを含み、
　前記処理部は、
　　入力された前記画像データに基づいて、画像に含まれる話者に関する解析を行う画像特徴群処理部をさらに有し、
　　画像に含まれる話者の解析結果に応じた出力情報を生成する
　前記（８）に記載の情報処理装置。
（１４）
　前記出力部は、前記出力情報を、数値、文章、表、グラフ、及び図形のうち、少なくとも１つを含む所定の表示形式で表示するように表示を制御する
　前記（８）に記載の情報処理装置。
（１５）
　前記出力部は、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報、又は他人の解析結果に応じた出力情報を表示する
　前記（１４）に記載の情報処理装置。
（１６）
　前記処理部は、
　　前記応答値を用いて、応答文を生成する応答生成部をさらに有し、
　　生成した前記応答文に応じた出力情報を生成する
　前記（４）に記載の情報処理装置。
（１７）
　前記処理部は、
　前記応答文を音声合成する音声合成部をさらに有し、
　音声合成で得られた合成音が、前記出力情報として出力される
　前記（１６）に記載の情報処理装置。
（１８）
　物体の静止画、動画、又はCGが、前記応答文とともに、前記出力情報として出力される
　前記（１６）又は（１７）に記載の情報処理装置。
（１９）
　情報処理装置が、
　複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
　対象の話者の解析結果に応じた出力情報を生成する
　情報処理方法。
（２０）
　コンピュータを、
　複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
　対象の話者の解析結果に応じた出力情報を生成する
　処理部を備える
　情報処理装置として機能させるプログラム。

　１０，２０　情報処理装置，　３０　ネットワーク，　１１　処理部，　１２　通信部，　２１　処理部，　２２　通信部，　２３　データベース，　１０１　入力部，　１０２　特徴情報群処理部，　１０３　スコア計算部，　１０４　出力部，　１０５　対話行為推定部，　１０６　シーン判定部，　１０７　難易度測定部，　１０８　共感度測定部，　１０９　丁寧度測定部，　１１０　理解度確認状況判定部，　１１１　シーン切替適切度判定部，　１１２　大人度測定部，　１１３　性別指向性判定部，　１１４　性格指向性判定部，　１１５　確認事項判定部，　１１６　文分割部，　１１７　第１知識データベース，　１１８　スコア記憶部，　２０１　音声認識部，　２０２　音声特徴情報群処理部，　２０３　画像特徴情報群処理部，　２０４　音量判定部，　２０５　第１感情判定部，　２０６　話速測定部，　２０７　笑顔判定部，　２０８　目線判定部，　２０９　第２感情判定部，　６０１　応答生成部，　６０２　第２知識データベース，　６０３　音声合成部，　１００１　CPU

Claims

　複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
　対象の話者の解析結果に応じた出力情報を生成する
　処理部を備える
　情報処理装置。
　前記処理部は、
　　前記発話がなされたシーンをさらに解析し、
　　前記シーン、前記対話行為、及び前記分類の解析結果に応じた出力情報を生成する
　請求項１に記載の情報処理装置。
　前記処理部は、
　　対象の話者の解析結果に基づいて、採点スコアを取得し、
　　取得した前記採点スコアに応じた出力情報を生成する
　請求項１に記載の情報処理装置。
　前記処理部は、
　　対象の話者の解析結果に基づいて、応答値を取得し、
　　取得した前記応答値に応じた出力情報を生成する
　請求項１に記載の情報処理装置。
　前記処理部は、
　　話者による対話行為を推定する対話行為推定部と、
　　対話全体で想定されるシーンのいずれに属するかを判定するシーン判定部と、
　　前記分類に応じて、採点対象の第１の話者が第２の話者に対して確認すべき事項を確認したかを判定する確認事項判定部と
　を含む特徴情報群処理部を有する
　請求項２に記載の情報処理装置。
　前記特徴情報群処理部は、
　　専門用語を含む特定の表現に応じた難易度を測定する難易度測定部、
　　共感語彙を含む特定の表現に応じた共感度を測定する共感度測定部、
　　敬語又は丁寧語を含む特定の表現に応じた丁寧度を測定する丁寧度測定部、
　　間又は相槌を含む特定の動作に応じた理解度の確認状況を判定する理解度確認状況判定部、
　　シーンを切り替えるに際して当該切り替えの適切度を判定するシーン切り替え適切度判定部、
　　発話の表現に応じた大人度を測定する大人度測定部、
　　発話の表現に応じた性別指向性を判定する性別指向性判定部、及び、
　　発話の表現に応じた性格指向性を判定する性格指向性判定部
　のうち、少なくとも１つをさらに含む
　請求項５に記載の情報処理装置。
　前記処理部は、
　　前記採点スコアを用いて、スコアを計算するスコア計算部を有し、
　　計算した前記スコアに応じた出力情報を生成する
　請求項３に記載の情報処理装置。
　前記処理部は、
　　前記入力データを入力する入力部と、
　　前記出力情報を生成して出力する出力部と
　をさらに有する請求項１に記載の情報処理装置。
　前記入力データは、テキストデータを含み、
　前記処理部は、入力された前記テキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
　請求項８に記載の情報処理装置。
　前記処理部は、
　　入力された前記テキストデータに基づいて、テキストを文単位に分割する文分割部をさらに有し、
　　分割したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
　請求項９に記載の情報処理装置。
　前記入力データは、音声データを含み、
　前記処理部は、
　　入力された前記音声データを、テキストデータに変換する音声認識部をさらに有し、
　　変換したテキストデータに基づいて、対話行為とその対話行為ごとの分類を解析する
　請求項８に記載の情報処理装置。
　前記入力データは、音声データを含み、
　前記処理部は、
　　入力された前記音声データに基づいて、発話の音声に関する解析を行う音声特徴情報群処理部をさらに有し、
　　発話の音声の解析結果に応じた出力情報を生成する
　請求項８に記載の情報処理装置。
　前記入力データは、画像データを含み、
　前記処理部は、
　　入力された前記画像データに基づいて、画像に含まれる話者に関する解析を行う画像特徴群処理部をさらに有し、
　　画像に含まれる話者の解析結果に応じた出力情報を生成する
　請求項８に記載の情報処理装置。
　前記出力部は、前記出力情報を、数値、文章、表、グラフ、及び図形のうち、少なくとも１つを含む所定の表示形式で表示するように表示を制御する
　請求項８に記載の情報処理装置。
　前記出力部は、現時点で得られた自己の解析結果に応じた出力情報とともに、過去に得られた自己の解析結果に応じた出力情報、又は他人の解析結果に応じた出力情報を表示する
　請求項１４に記載の情報処理装置。
　前記処理部は、
　　前記応答値を用いて、応答文を生成する応答生成部をさらに有し、
　　生成した前記応答文に応じた出力情報を生成する
　請求項４に記載の情報処理装置。
　前記処理部は、
　前記応答文を音声合成する音声合成部をさらに有し、
　音声合成で得られた合成音が、前記出力情報として出力される
　請求項１６に記載の情報処理装置。
　物体の静止画、動画、又はCGが、前記応答文とともに、前記出力情報として出力される
　請求項１６に記載の情報処理装置。
　情報処理装置が、
　複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
　対象の話者の解析結果に応じた出力情報を生成する
　情報処理方法。
　コンピュータを、
　複数の話者の発話に関する入力データに基づいて、対話行為とその対話行為ごとの分類を解析し、
　対象の話者の解析結果に応じた出力情報を生成する
　処理部を備える
　情報処理装置として機能させるプログラム。