WO2016088557A1

WO2016088557A1 - 会話評価装置および方法

Info

Publication number: WO2016088557A1
Application number: PCT/JP2015/082435
Authority: WO
Inventors: 嘉山　啓
Original assignee: ヤマハ株式会社
Priority date: 2014-12-01
Filing date: 2015-11-18
Publication date: 2016-06-09
Also published as: JP2016105142A; CN107004428A; CN107004428B; US20190156857A1; JP6464703B2; EP3229233A1; EP3229233B1; US10553240B2; US10229702B2; EP3229233A4; US20170263270A1

Abstract

　問いの音声に関する情報及び該問いに対する回答の音声に関する情報が受信される。解析部（１０６）は、該受信した情報に基づき、前記問いの代表的音高（例えば末尾の音高）及び前記回答の代表的音高（例えば平均音高）を取得する。評価部（１１０）は、問いの代表的音高と回答の代表的音高との比較に基づいて、該問いに対してなされた回答の音声を評価する。評価部は、問い及び回答の代表的音高との差（音程）が所定の基準値（例えば５度下のような協和音程）からどれだけ離れるかによって、該問いに対する回答を評価する。更に、前記問いが終了してから前記回答が開始するまでの時間である会話間隔を検出する会話間隔検出部（１０９）が設けられてよい。評価部は、更に、前記検出された会話間隔に基づいて、前記問いに対する前記回答を評価する。こうして、問いに対する回答が持つ非言語的特徴（回答が与える印象の善し悪し）を客観的に評価できる。

Description

会話評価装置および方法

　本発明は、会話評価装置および方法に関し、さらには該方法を実行するためのプログラムを記憶した記憶媒体に関する。

　従来、話し手が発言した音声自体を分析することで、話し手の心理状態などを分析するものが提案されている。例えば特許文献１では、話し手の音声シーケンスを取得し、その音声シーケンス中にある基音（１つの基本トーン：ｆｕｎｄａｍｅｎｔａｌ　ｔｏｎｅ）の間隔や音程を検出することで、話し手の心理状態や健康状態などを診断する技術が提案されている。

特許第４４９５９０７号公報

　ところで、少なくとも二人からなる人同士の会話では、一方の話し手から問い（話掛け）が発言されたとき、他方の話し手は、それに対して相槌を含め何らかの回答を発言する。このとき、同じ文言で回答する場合であっても、どのような雰囲気又はニュアンス（つまり非言語的特徴）で回答するかによって、相手に与える印象が異なる。しかるに、上述した特許文献１の技術は、１人の話し手の音声シーケンスの中での基音間隔や音程によって、話し手の心理状態などを分析するものである。すなわち、特許文献１の技術は、２人の会話中の問いと回答の音声特徴を比較するものではなく、従って、特定の問いに対してなされた回答の非言語的特徴を評価するものでもない。このため、特許文献１の技術では、会話中における特定の問いに対する回答が、該問いに対する回答がどのような非言語的特徴を持っているかを評価することはできない。

　本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、問いに対する回答が持つ非言語的特徴（例えば問いを発した相手に対して該回答が与える印象の善し悪し）を客観的に評価できる会話評価装置を提供することにあり、さらにはそのような会話評価のための方法、及び該方法を実行するためのプログラムを記憶した記憶媒体を提供しようとするものである。

　会話中の問いに対する回答を評価するに当たって、まず人同士でどのような会話（対話）がなされるかについて、言語的情報以外の情報、とりわけ対話を特徴付ける音高（周波数）に着目して考察する。人同士の対話として、一方の人（ａとする）による問い（問い掛け）に対し、他方の人（ｂとする）が回答（返答）する場合について検討する。この場合において、ａが問いを発したとき、ａだけなく、当該問いに対して回答しようとするｂも、当該問いのうちの、特定区間における音高を強い印象で残していることが多い。ｂは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問いの音高に対し、当該回答を特徴付ける部分の音高が、特定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたａは、自己の問いについて印象に残っている音高と当該問いに対する回答を特徴付ける部分の音高とが上記関係にあるので、ｂの回答に対して心地良く、安心するような好印象を抱くことになる、と考えられる。このように人同士の対話では、問いの音高と回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。このような考察を踏まえて、問いに対する回答を評価する会話評価システムを検討したときに、上記目的を達成するために、次のような構成とした。

　すなわち、上記目的を達成するために、本発明に係る会話評価装置は、問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信するように構成された受信部と、前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成された解析部と、前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価するように構成された評価部と、を具備する。

　上述したように問いの音高に対する回答の音高の音程は、問いを発した相手に対して該回答が与える印象と密接に関連しているので、本発明に従って問いの代表的音高と回答の代表的音高とを比較することにより、問いに対する回答が持つ非言語的特徴（例えば問いを発した相手に対して該回答が与える印象の善し悪し）を客観的に評価することができるものとなり、かつ高い信頼性でそのような評価を行うことができる。

　一実施例において、前記評価部は、前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との差分値が所定の範囲内に入るか否かを判定し、前記所定の範囲内に入らない場合は、前記所定の範囲内に入るように音高シフト量をオクターブ単位で決定し、前記問いの代表的音高と前記回答の代表的音高の少なくとも一方を前記音高シフト量だけシフトし、シフト後の前記問い及び前記回答の代表的音高の比較に基づいて前記問いに対する前記回答を評価するように構成されていてよい。これによれば、問いと回答の音高が所定範囲以上かけ離れている場合、両者の音高差が所定範囲内に入るようにオクターブ単位で音高シフト制御を行うので、適切な比較処理を行うことができるようになる。従って、例えば男性と女性の会話や大人と子どもの会話のように、問いと回答の発話音声の音程が１オクターブ以上離れているような場合においても、問いに対する回答を適正に評価できる。一実施例において、前記評価部は、前記問いの代表的音高と前記回答の代表的音高との差が所定の基準値からどれだけ離れるかによって、前記問いに対する前記回答を評価するように構成されていてよい。

　一実施例において、前記問いが終了してから前記回答が開始するまでの時間である会話間隔を検出する会話間隔検出部を更に備えてよく、前記評価部は、更に前記検出された会話間隔に基づいて、前記問いに対する前記回答を評価するように構成されていてよい。問いに対する回答の音声特徴として、上述した音高の他にも、問いの終了から回答の開始までの時間（会話間隔）は相手に与える印象に密接な関係がある。このため、問いと回答の音高のみならず、問いと回答の会話間隔についても評価することで、問いに対する回答についてより信頼性の高い評価をすることができる。

　本発明は、上述したような装置の発明のみならず方法の発明としても構成され具体化され得る。また、本発明は、コンピュータ又はＤＳＰ（デジタル信号処理器）のようなプロセッサによって実行可能なソフトウェアプログラムとして、また、そのようなソフトウェアプログラムを記憶した非一過性のコンピュータ読み取り可能な記憶媒体としても、構成され具体化され得る。その場合、該プログラムは該記憶媒体内においてユーザに提供され、それから該ユーザのコンピュータ内にインストールされるか、若しくは、サーバ装置から通信ネットワークを介してクライアントのコンピュータに配信され、それから該クライアントのコンピュータ内にインストールされるようになっていてよい。更に、本発明において使用されるプロセッサとは、任意のソフトウェアプログラムを起動させることができるコンピュータ又はその他の汎用プロセッサのみを言うのではなく、ハードウェアで組み立てられた専用ロジック回路を具備した専用プロセッサであってもよい。

　なお、本発明において「問い」とは、「質問」に限るものではなく、単なる「話掛け」も含み、「回答」とは「問い」（話掛け）に対する何らかの言語的反応を指す。要するに、二人以上の会話における一方の話し手の発話を「問い」と言い、それに対する他方の話し手の言語的反応を「回答」と言う。

　以下、本発明の実施形態について図面を参照して詳細に説明する。

本発明の第１実施形態に係る会話評価装置の構成を示すブロック図である。

図１に示す会話評価装置の動作の一例を示すメインルーチンのフローチャートである。

図２に示す会話の評価を行う際のサブルーチンを示すフローチャートである。

本実施形態における問いと回答との音高例を示す図である。

本実施形態における問いと回答との音高例を示す図であって、問いと回答との音高差分値が１オクターブ以上ある場合の例を示す。

本実施形態における音高評価点の算出基準の具体例を説明するための図である。

本実施形態における会話間隔評価点の算出基準の具体例を説明するための図である。

本発明の第２実施形態に係る会話評価装置の構成を示すブロック図である。

図８に示す会話評価装置の動作の一例を示すメインルーチンのフローチャートである。

本発明の第３実施形態に係る会話評価装置の構成を示すブロック図である。

図１０に示す会話評価装置の動作の一例を示すメインルーチンのフローチャートである。

＜第１実施形態＞
　図１は、本発明の第１実施形態に係る会話評価装置１０の構成を示す図である。ここでの会話評価装置１０は、２人の会話音声を１つの音声入力部１０２のマイクロフォンで入力し、会話中の問いに対する回答を評価して表示する会話トレーニング装置に適用した場合を例に挙げる。またここでの問いに対する回答には、問いの質問に答える回答のみならず、例えば「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような質問に対する返事や相槌（間投詞）も含まれる。

　図１に示すように、会話評価装置１０は、ＣＰＵ（Central Processing Unit）、メモリやハードディスク装置などの記憶部、１つの音声入力部１０２、表示部１１２などを有し、当該ＣＰＵが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。詳細には、会話評価装置１０では、音声取得部１０４、解析部１０６、判別部１０８、言語データベース１２２、会話間隔検出部１０９および評価部１１０が構築される。

　なお、特に図示しないが、このほかにも会話評価装置１０は、操作入力部などを備え、利用者が装置に対して各種の操作を入力し、各種の設定などができるようになっている。また、会話評価装置１０は、会話トレーニング装置に限られず、スマートフォンや携帯電話機のような端末装置やタブレット型のパーソナルコンピュータなどであっても良い。また、３人以上の会話音声を１つの音声入力部１０２のマイクロフォンで入力する場合に適用してもよい。この場合、例えば１人が問いを発話したときに、その問いに対する回答は、他の２人のうちの誰が回答してもよい。

　音声入力部１０２は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をリアルタイムでデジタル信号に変換するＡ／Ｄ変換器とで構成される。音声取得部１０４は、音声入力部１０２から出力されたデジタル音声信号を受信してその音声信号を一時的にメモリに記憶する。この第１実施形態において、音声入力部１０２と音声取得部１０４が、問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信するように構成された受信部として機能する。

　解析部１０６は、デジタル信号に変換された音声信号の解析処理を行って発話（問いや回答）の音声特徴（音高や音量など）を抽出するものであり、少なくとも、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成されている。一例として、解析部１０６は、問いのうち特定区間の音高（ピッチ）を検出し、この検出に基づき問いの音声特徴（典型的には、代表的音高）を取得する第１音高取得部１０６Ａと、回答の音声に含まれる音高を検出し、この検出に基づき回答の音声特徴（典型的には、代表的音高）を取得する第２音高取得部１０６Ｂとを備える。

　第１音高取得部１０６Ａは、問いの音声信号において発話開始から発話終了までの発話区間のうち、有声区間における特定区間の音高（問いの代表的音高）を検出し、当該音高（代表的音高）を示すデータを評価部１１０に供給する。この特定区間とは、問いの音声が持つ音高的特徴を抽出するのに適した代表的区間である。一例として、前記特定区間（代表的区間）は、発話が終了する直前の所定時間の末尾区間（例えば１８０ｍｓｅｃ）であり、第１音高取得部１０６Ａは、当該末尾区間における最高音高を前記代表的音高として検出する。この特定区間（代表的区間）は、末尾区間に限らず、発話区間の全部又は一部であってもよい。また、該特定区間（代表的区間）における最高音高に限らず、最低音高あるいは平均音高等を、前記代表的音高として検出するようにしてもよい。

　本実施形態のようにリアルタイムで音声を入力する場合、発話開始は例えば音声信号の音量が閾値以上になったことで判断することができ、発話終了は例えば音声信号の音量が一定期間閾値未満となったことで判断することができる。なお、チャタリングを防止するため、複数の閾値を用い、ヒステリシス特性を付与してもよい。また、有声区間とは、発話区間のうち、音声信号の音高（ピッチ）が検出可能な区間をいう。音高が検出可能な区間とは、音声信号に周期的な部分があって、その部分が検出可能であることを意味する。

　なお、問いの有声区間の末尾区間が無声音（端的にいえば、発声の際に声帯の振動を伴わない音）である場合、直前の有声音部分から、当該無声音部分の音高を推定しても良い。問いの特定区間（代表的区間）については、有声区間の末尾区間に限られるものではなく、例えば語頭区間であっても良い。また、問いのうちのどの部分の音高を特定するかについて、利用者が任意に設定できる構成としても良い。また、有声区間の検出のために音量および音高の２つを用いるのではなく、いずれか一方を用いて検出しても良いし、どれを用いて有声区間の検出をするのかを利用者が選択しても良い。

　第２音高取得部１０６Ｂは、回答の音声信号からその音高を検出し、これに基づき該回答の音声の代表的音高（例えば発話区間の平均音高）を取得し、当該代表的音高を示すデータを評価部１１０に供給する。なお、第２音高取得部１０６Ｂは、前記平均音高に限らず、回答の音声の全区間若しくは所定の部分的区間における最高音高又は最低音高を、前記代表的音高として取得するようにしてもよい。また、回答の音声の所定の部分的区間における平均音高を、前記代表的音高として取得するようにしてもよい。あるいは、回答の音声の全区間若しくは所定の部分的区間における音高軌跡をそのまま回答の音声の代表的音高

　解析部１０６は、前記第１及び第２音高取得部１０６Ａ，１０６Ｂに係る処理を行うに際して、前記音声取得部１０４によってメモリ内に記憶された音声信号を用いて、特定区間の検出やその特定区間の音高を検出してもよく、あるいは、前記音声取得部１０４を介してリアルタイムに受信した音声信号を用いて音高を検出してもよい。リアルタイムで問いの音高を検出する場合には、例えば入力した音声信号の音高を、直前の音声信号の音高と比較して高い方の音高を記憶して更新する。これを問いの発話終了まで続けることで、最終的に更新された音高を問いの音高として特定する。これにより、発話終了までで最高の音高を問いの音高として特定できる。また、回答の音高を検出する場合は、音節によって特定してもよい。例えば相槌の回答の場合は第２音節あたりの音高が全体の平均に近くなることが多いので、第２音節開始時の音高を回答の音高として特定するようにしてもよい。

　判別部１０８は、デジタル信号に変換された発話の音声信号を解析し、文字列に変換する音声認識を行うことで、発話の言葉の意味を特定する。これにより、その発話が問いか回答かを判別し、判別結果を示すデータを解析部１０６に供給する。判別部１０８は、発話の意味を特定する際に、その発話の音声信号がどの音素に近いのかを、言語データベース１２２に予め作成された音素モデルを参照することにより判定して、音声信号で規定される言葉の意味を特定する。このような音素モデルには、例えば隠れマルコフモデルを用いることができる。

　なお、判別部１０８による発話中の問いと回答の判別は、上記のような言語的意味解析方法に限られるもではなく、非言語的音声特徴に基づいて行うようにしてもよい。例えば語尾区間の音高が上昇した発話であればそれは問いと判別でき、その次の発話の音声が２音節であれば相槌の回答と判別できる。また、通常は発話が問いであれば、次の発話は回答である。このため、判別部１０８では、少なくとも発話が問いか否かを判別できればよい。その場合、問いと判別された発話の後の発話は該問いに対する回答であると自動的にみなされる。

　ところで、人同士の対話において問いに対して回答する場合、音高以外にも考慮される要素として、問いの終了から回答の開始までの時間（会話間隔）がある。例えば、二択で回答を迫るような問いに対して「いいえ」と回答する場合、慎重を期するために、一呼吸遅れるように間を取る点も、経験上よく見られる行為である。一方、人同士の対話において、二択ではなく、例えばＷｈｏ（誰が）、Ｗｈａｔ（何を）、Ｗｈｅｎ（いつ）、Ｗｈｅｒｅ（どこで）、Ｗｈｙ（なぜ）、Ｈｏｗ（どのようにして）のような５Ｗ１Ｈの問いに対しては、ゆっくりと時間をかけて具体的内容を回答する場合がある。いずれの場合でも、問いの終了から回答の開始までの時間が空くと、問いを発話した相手に一種の不安感を与えてしまうとともに、以降の会話が弾まない。また、逆に回答までの間が詰まり過ぎると、意識的に被されているかのような感覚、または、人の話をまともに聞いていないのではないかという感覚になり、不快感を与えてしまう。

　そこで、本実施形態では、問いに対する回答の評価を行う際に、音高だけではなく、或る問いの終了時から該問いに対する回答の開始時までの時間間隔（これを「会話間隔」という）を測定して、これを評価できるようにしている。詳細には、会話間隔検出部１０９において、問いの終了から回答の開始までの時間（会話間隔）を検出する。会話間隔は、会話評価装置１０に内蔵されるタイマまたはリアルタイムクロックで計時する。タイマで計時する場合には、問いの終了により計時を開始し、回答の開始により計時を終了することで、その間の時間を会話間隔として検出する。リアルタイムクロックで計時する場合には、問いの終了時と回答の開始時の時刻を取得しておき、その間の時間を会話間隔として検出する。検出された会話間隔の時間データは、評価部１１０に供給され、上述した問いと回答の音高データとともに評価の対象とされる。

　評価部１１０は、解析部１０６からの問いと回答の音高データと、会話間隔検出部１０９からの時間データにより、問いに対する回答の評価を行って評価点（スコア）を算出する。詳細には、音高データの評価は、問いの代表的音高と回答の代表的音高との差（音程）を求め、この差（音程）が所定の基準値からどれだけ離れているかという観点から音高評価点を算出する。会話間隔の時間データの評価は、会話間隔の時間が所定の基準値（基準間隔）からどれだけ離れているかという観点から会話間隔評価点を算出する。評価部１１０は、これら音高評価点と会話間隔評価点の合計を最終的な回答の評価点として算出し、表示部１１２に表示する。これにより、回答者は、問いに対して自らが行った回答の評価を確認することができる。なお、評価部１１０による評価の詳細は後述する。

　次に、会話評価装置１０の動作について説明する。図２は、会話評価装置１０における処理動作を示すフローチャートである。はじめに、利用者が所定の操作をしたとき、例えば当該対話のための処理に対応したアイコンなどをメインメニュー画面（図示省略）において選択したとき、ＣＰＵが当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムを実行することによって、ＣＰＵは、図１で示した機能ブロックを構築する。

　ここでは、１つの音声入力部１０２のマイクロフォンで２人の自然の会話の音声を入力し、リアルタイムで音声特徴を取得しながら、問いに対する回答の評価を行う場合を例にとって説明する。このように自然の会話を１つの音声入力部１０２で入力する場合には、発話が問いか回答か不明なため、発話が問いか否かの判別が必要となる。なお、ここでは説明の便宜のため、発話が問いであると判別されれば、その直後の発話は回答であると自動的にみなし、その発話が回答であるか否かの格別の判別処理は行わない。ただし、これに限られるものではなく、問いと判別された発話の直後の発話が回答であるか否かについて格別の判別処理するようにしてもよい。

　まず、ステップＳａ１１において、音声入力部１０２によって変換された音声信号が音声取得部１０４を介して解析部１０６に供給され、発話が開始されたか否かが判断される。例えば発話が開始されたか否かは、音声信号の音量が閾値以上になったか否かで判断される。なお、音声取得部１０４は音声信号をメモリに記憶する。

　発話が開始されたと判断されると、ステップＳａ１２において、解析部１０６の第１音高取得部１０６Ａにより、音声取得部１０４からの音声信号に対して発話の音高を音声特徴として取得する解析処理が行われる。ステップＳａ１１において発話が開始されたと判断されなければ、発話が開始されたと判断されるまでステップＳａ１１が繰り返される。

　ステップＳａ１３において、解析部１０６によって発話中か否かが判断される。発話中か否かは、閾値以上の音量の音声信号が続いているか否かで判断される。ステップＳａ１３において発話中であると判断されると、ステップＳａ１２に戻り、音高を取得するための解析処理が継続される。ステップＳａ１３において発話中でないと判断されると、ステップＳａ１４において、前記判別部１０８により最新の発話が問いであると判別されたか否かが判断される。ステップＳａ１４において最新の発話は問いでないと判断されると、ステップＳａ１１に戻り、次の発話の開始待ちとなる。

　これに対して、ステップＳａ１４において最新の発話は問いであると判断されると、ステップＳａ１５において、発話（問い）が終了したか否かを判断する。問いが終了したか否かは、例えば音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判断される。

　ステップＳａ１５において発話（問い）が終了していないと判断されると、ステップＳａ１２に戻り、音高を取得するための解析処理が継続される。第１音高取得部１０６Ａは、音声信号の解析処理によって、発話（問い）の音高（例えば問いの語尾区間の最高音高）を音声特徴として取得すると、その問いの音高データを評価部１１０に供給する。

　ステップＳａ１５において発話（問い）が終了したと判断されると、ステップＳａ１６において、会話間隔検出部１０９により会話間隔の計時が開始される。

　次に、ステップＳａ１７において、回答が開始されたか否かが判断される。このときには既に問いの終了後であるため、次の発話は回答になる。このため、回答が開始されたか否かは、問いの終了後の音声信号の音量が閾値以上になったか否かで判断される。

　ステップＳａ１７において回答が開始されたと判断されると、ステップＳａ１８において、会話間隔検出部１０９により会話間隔の計時が終了される。これにより、問いの終了から回答の開始までの会話間隔の時間を計時することができる。会話間隔検出部１０９は計時した会話間隔の時間データを評価部１１０に供給する。

　ステップＳａ１９において、解析部１０６の第２音高取得部１０６Ｂにより、音声取得部１０４からの音声信号に対して回答の音高を音声特徴として取得する解析処理が行われる。

　ステップＳａ２０において、回答が終了したか否かを判断する。回答が終了したか否かは、例えば音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判断される。

　ステップＳａ２０において回答が終了していないと判断されると、ステップＳａ１９に戻り、音高を取得するための解析処理が継続される。第２音高取得部１０６Ｂは、音声信号の解析処理によって、回答の音高（例えば回答の平均音高）を音声特徴として取得すると、その回答の音高データを評価部１１０に供給する。ステップＳａ２０において発話（回答）が終了したと判断されると、ステップＳａ２１において、評価部１１０によって会話の評価が実行される。

　図３は、図２におけるステップＳａ２１の会話評価の処理の詳細を示すフローチャートである。まず、ステップＳｂ１１において、評価部１１０は、第１音高取得部１０６Ａから取得した問いの音高データと第２音高取得部１０６Ｂから取得した回答の音高データとに基づいて問いの音高（代表的音高）と回答の音高（代表的音高）との差分値（問いの音高から回答の音高を減算した音高減算値の絶対値）を算出する。

　ステップＳｂ１２において、評価部１１０は、算出された音高差分値が所定の範囲内か否かを判断する。この音高差分値が所定の範囲外であると判断されると、ステップＳｂ１３において、評価部１１０は、回答の音高の調整を行う。具体的には、評価部１１０は、上記音高差分値が所定の範囲内（例えば１オクターブの範囲内）に入るように、回答の音高の音高シフト量をオクターブ単位で決定する。評価部１１０は、回答の音高を音高シフト量だけ調整して、ステップＳｂ１１に戻り、問いの音高とシフト後の回答の音高とにより音高差分値を算出し直す。これによれば、地声が高い音声の人（例えば女性や子供）と地声が低い音声の人（例えば男性）との会話のように、地声で１オクターブ以上の音高差があるような場合においても、その地声などの音高差を修正して、問いに対する回答を適正に評価できるようにしたものである。なお、上述した男性と女性の会話のみならず、男性同士の会話でも、また女性同士の会話においても、地声で１オクターブ以上の音高差がある場合もあるので、このような場合にも、問いに対する回答を適正に評価できる。

　なお、上記音高差分値が所定の範囲内（例えば１オクターブの範囲内）に入るまで、ステップＳｂ１３において回答の音高を１オクターブずつ調整するようにしてもよい。また、ここでは、問いの音高はそのままで回答の音高の方を調整する場合を例に挙げたが、これに限られるものではなく、回答の音高はそのままで問いの音高の方を調整するようにしてもよく、あるいは問い及び回答の両方の音高を調整するようにしてもよい。

　ステップＳｂ１２において、評価部１１０は、上記音高差分値が所定の範囲であると判断されると、ステップＳｂ１４において、評価部１１０は、問いの音高から回答の音高を減算した音高減算値に基づいて音高の評価点（スコア）を算出する。このとき、ステップＳｂ１３において音高の調整を行った場合には、その音高の調整後の音高減算値を用いて音高の評価点を算出する。ここでの音高減算値は、問いの音高から回答の音高を減算したものであるから、回答の音高が問いの音高より低い場合はプラス値になり、回答の音高が問いの音高より高い場合はマイナス値になる。これは、回答の音高が問いの音高より低い場合を、問いの音高より高い場合よりも高評価にするためである。ステップＳｂ１４における音高評価点は、上記音高減算値が所定の基準値からどれだけ離れているかという観点から算出される。例えば所定の基準値を７００ｃｅｎｔとすれば、上記音高減算値が７００ｃｅｎｔのときを満点（１００点）とし、上記音高減算値が７００ｃｅｎｔから離れるほど評価点の減算をすることで、問いに対する回答の音高評価点を算出する。これによれば、音高評価点が１００点に近いほど、問いに対する回答が良好である。なお、上記音高減算値が所定の基準値に近づくほど評価点の加算をするようにしてもよい。

　次に、ステップＳｂ１５において、評価部１１０は、会話間隔検出部１０９からの会話間隔の時間データに基づいて、会話間隔の評価点を算出する。このような会話間隔の評価は、問い終了から回答開始までの会話間隔の時間が所定の基準値からどれだけ離れているかという観点から算出される。例えば所定の基準値を１８０ｍｓｅｃとすれば、会話間隔の時間が１８０ｍｓｅｃのときを満点（１００点）とし、会話間隔の時間が１８０ｍｓｅｃから離れるほど評価点の減算をすることで、会話間隔評価点を算出する。これによれば、会話間隔評価点が１００点に近いほど、問いに対する回答が良好である。なお、会話間隔の時間が所定の基準値に近づくほど評価点の加算をするようにしてもよい。

　続いて、ステップＳｂ１６において、評価部１１０は、問いに対する回答の音高評価点と会話間隔評価点から総合評価点を算出する。総合評価点は、単純に音高評価点と会話間隔評価点を加算して算出する。なお、総合評価点は、音高評価点と会話間隔評価点に所定の重み付けを付加してから加算して算出してもよい。

　次に、ステップＳｂ１７において、評価部１１０は、問いに対する回答の評価結果を表示部１１２に表示させて、図２のステップＳａ２１に戻る。評価結果は、総合評価点のみを表示させる。これにより、問いに対する回答の評価を、評価点というスコア値で客観的に確認することができる。なお、総合評価点だけでなく、音高評価点と会話間隔評価点とを区別して表示させるようにしてもよい。

　また、問いに対する回答の評価結果の表示は、評価点の数値のみならず、表示部１１２に評価点に応じたイルミネーションやアニメーションなどの図形又は象徴若しくはマークを表示するようにしてもよい。また、問いに対する回答の評価結果は、表示部１１２の画面表示だけに限られるものではない。例えば会話評価装置１０を携帯端末に適用した場合には、その携帯端末の振動機能や音発生機能を利用して、評価点に応じた振動パターンで会話評価装置１０を振動させたり、評価点に応じた音響音を発生させたりするようにしてもよい。

　また、会話評価装置１０をぬいぐるみなどの玩具やロボットに適用した場合には、問いに対する回答の評価結果を、ぬいぐるみやロボットの動作（ジェスチャ）で表すようにしてもよい。例えば評価点が高い場合には、ぬいぐるみやロボットにばんざい動作をさせることができ、評価点が低い場合には、ぬいぐるみやロボットにがっかり動作をさせることもできる。これにより、問いに対する回答による会話トレーニングをより楽しく行うことができる。

　ここで、本実施形態における評価部１１０が行う音高の調整（ステップＳｂ１２、Ｓｂ１３）について図面を参照しながらより詳細に説明する。ここでは、問いと回答の音高差分値が、１オクターブ以内である場合（音高を調整しない場合）と、１オクターブ以内でない場合（音高を調整する場合）とを比較しながら説明する。

　図４と図５はそれぞれ、音声入力された問いと回答との関係を、音高を縦軸にとり、時間を横軸にとって例示した図である。図４は音高差分値が１オクターブ以内である場合であり、図５は音高差分値が１オクターブ以内でない場合である。

　図４および図５において、符号Ｑで示される実線は、問いの音高変化を簡易的に直線で示している。符号ｄＱは、この問いＱにおける特定区間の音高（語尾区間の最高音高）である。また、図４において、符号Ａで示される実線は、問いＱに対する回答の音高変化を簡易的に直線で示しており、符号ｄＡはこの回答Ａの平均音高である。符号Ｄは、問いＱの音高ｄＱと回答Ａの音高ｄＡとの差分値である。なお、図４の符号ｔＱは問いＱの終了時刻であり、符号ｔＡは回答Ａの開始時刻である。符号Ｔは、ｔＱとｔＡとの間の時間であり、問いＱの終了から回答Ａの開始までの時間に相当する。

　図５において、符号Ａ'で示される点線は、回答Ａの音高を１オクターブだけシフトさせた音高調整後の回答の音高変化を直線で示したものである。符号ｄＡ'はこの音高調整後の回答Ａ'の平均音高である。符号Ｄ'は、問いの音高ｄＱと音高調整後の回答Ａ'の音高ｄＡ'との差分値である。

　図４においては、音高差分値Ｄが１オクターブ（１２００ｃｅｎｔ）以内である場合である。この場合には、音高の調整は不要であるため、図３のステップＳｂ１１で音高差分値Ｄが算出された後は、ステップＳｂ１３が実行されずに、ステップＳｂ１４にて問いＱの音高ｄＱから回答Ａの音高ｄＡを減算した音高減算値によって音高評価点が算出される。ここでの音高減算値は、回答Ａの音高ｄＡが問いＱの音高ｄＱよりも低いのでその音高差はプラス値となるため、音高差分値Ｄと同値になる。

　これに対して、図５においては、音高差分値Ｄが１オクターブ（１２００ｃｅｎｔ）を超える場合である。この場合には、音高の調整が必要となる。図５では、回答Ａの音高が問いＱの音高よりも低い方に大きくずれているので、例えば地声が高い人の問いＱに対して、１オクターブ以上地声が低い人が回答Ａをしたような場合である。このように同じ音量で同じ音声を発した場合でも、地声で１オクターブ以上の音高差がある場合には、そのまま問いと回答の音高差で評価しても、地声の差異の分だけ評価点が大きくずれてしまい、適切な評価ができない可能性がある。そこで、本実施形態においては、図３のステップＳｂ１３で回答Ａの音高ｄＡを、高い方に１オクターブＲだけシフトさせて、回答Ａ'の音高ｄＡ'に調整する。このように、問いＱの音高ｄＱと調整後の回答の音高ｄＡ'との音高差分値Ｄ'は、１オクターブ（１２００ｃｅｎｔ）以内にする。これにより、発話機構の影響を少なくすることができるので、適切な音高評価点を算出することができる。なお、音高調整は、音高が高い方にオクターブ単位でシフトする場合に限られず、音高が低い方にオクターブ単位でシフトするようにしてもよい。

　次に、本実施形態における評価部１１０が行う音高評価点の算出（ステップＳｂ１４）について図面を参照しながらより詳細に説明する。図６は、音高評価点の算出基準の具体例を説明するための図であり、横軸には問いと回答との音高減算値Ｄをとり、縦軸には音高評価点をとっている。図６において、符号Ｄ０は、音高減算値の基準値であり、例えば７００ｃｅｎｔである。図６に示す実線は、音高評価点の算出基準線であり、音高減算値Ｄが高い方にも低い方にも、音高基準値Ｄ０から離れるほど評価点が低くなるような直線で示したものである。音高評価点の算出基準線は、基準値Ｄ０から所定範囲（下限値ＤＬ～上限値ＤＨ）外は、音高評価点が０になるように設定されている。このため、例えば音高減算値が基準値Ｄ０である場合を１００点とすれば、所定範囲（下限値ＤＬ～上限値ＤＨ）内において基準値Ｄ０から離れるほど点数が低くなり、所定範囲（下限値ＤＬ～上限値ＤＨ）外では０になる。なお、図６の音高評価点の算出基準線は、基準値Ｄ０を通る縦軸に平行な直線に対して線対称となる場合を例に挙げているが、必ずしも線対称でなくてもよい。例えば基準値Ｄ０の前後で直線の傾きを変えるようにしてもよい。また、音高評価点の算出基準線は、直線に限られるものではなく、曲線であってもよい。また音高評価点の算出基準線は、線形に限られず、非線形であってもよい。

　図６に示す音高評価点の算出基準線によって音高評価点を算出する場合には、算出された問いＱの音高から回答Ａの音高を減算した音高減算値をＤｘとすれば、算出基準線でＤｘに対応するＳｄｘが音高評価点の加算点または減算点となる。例えば初期の音高評価点を０点とすれば、その０点に加算点（減算点）を加算（減算）することによって、音高評価点を算出する。

　音高減算値の基準値Ｄ０は、問いに対する最適な回答の音高になるように設定することが好ましい。ここでは、基準値Ｄ０を７００ｃｅｎｔに設定した場合を例に挙げている。これは、問いの音高に対して回答の音高が略５度下の関係、すなわち協和音程の関係になる音高減算値である。このように、基準値Ｄ０は、問いと回答の音高減算値が協和音程の関係になる音高減算値であることが好ましい。これは人同士の会話において、問いに対して完全肯定をする場合には、問いと回答の音高減算値が協和音程の関係に近いほど、心地良く、安心するような好印象を抱く適切な回答になるからである。これにより、問いの音高から回答の音高を減算した音高減算値が基準値に近いほど、問いに対して良好な回答であると評価できる。なお、問いの音高に対する回答の音高の関係は、上述した略５度下の協和音程の関係に限られるものではなく、略５度下以外の協和音程の関係としてもよい。例えば、完全８度、完全５度、完全４度、長・短３度、長・短６度であっても良い。さらに、協和音程の関係でなくても、経験的に良い印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係にしても良い。

　次に、本実施形態における評価部１１０が行う会話間隔評価点の算出（ステップＳｂ１５）について図面を参照しながらより詳細に説明する。図７は、会話間隔評価点の算出基準の具体例を説明するための図であり、横軸には会話間隔の時間Ｔをとり、縦軸には会話間隔評価点をとっている。図７において、符号Ｔ０は、会話間隔評価の基準値（基準間隔）であり、例えば１８０ｍｓｅｃである。図７に示す実線は、会話間隔評価点の算出基準線であり、会話間隔の時間Ｔが長くなる方にも短くなる方にも、会話間隔基準値Ｔ０から離れるほど評価点が低くなるような直線で示したものである。会話間隔評価点の算出基準線は、基準値Ｔ０から所定範囲（下限値ＴＬ～上限値ＴＨ）外になると、会話間隔評価点が０になるように設定されている。このため、例えば会話間隔の時間が基準値Ｔ０である場合を１００点とすれば、所定範囲（下限値ＴＬ～上限値ＴＨ）内において基準値Ｔ０から離れるほど点数が低くなり、所定範囲（下限値ＴＬ～上限値ＴＨ）外では０になる。なお、図７の会話間隔評価点の算出基準線は、基準値Ｔ０を通る縦軸に平行な直線に対して線対称となる場合を例に挙げているが、必ずしも線対称でなくてもよい。例えば基準値Ｔ０の前後で直線の傾きを変えるようにしてもよい。また、会話間隔評価点の算出基準線は、直線に限られるものではなく、曲線であってもよい。また会話間隔評価点の算出基準線は、線形に限られず、非線形であってもよい。

　図７に示す会話間隔評価点の算出基準線によって会話間隔評価点を算出する場合には、算出された問いＱと回答Ａの会話間隔時間をＴｘとすれば、算出基準線でＴｘに対応するＳｔｘが会話間隔評価点の加算点または減算点となる。例えば初期の会話間隔評価点を０点とすれば、その０点に加算点（減算点）を加算（減算）することによって、会話間隔評価点を算出する。

　会話間隔の基準値Ｔ０は、問い終了から回答開始までの最適な時間を設定することが好ましい。ここでは、基準値Ｔ０を１８０ｍｓｅｃに設定した場合を例に挙げている。これは問いに対する回答が相手に心地良く、安心するような好印象を抱かせる会話間隔の時間である。これによれば、問い終了から回答開始までの会話間隔の時間が、基準値に近いほど、問いに対して良好な回答であると評価できる。

　なお、音高減算値の基準値Ｄ０、会話間隔の時間の基準値Ｔ０は、必ずしも完全肯定の回答を評価する場合の基準値に限られるものではない。怒りの回答、気のない回答のような感情を伴った回答など回答の種類に応じて会話間隔の基準値Ｔ０を変更するようにしてもよい。これにより、問いに対する回答の種類に応じて、適切な回答の評価が可能となる。例えば怒りの回答を評価する場合には、会話間隔の時間の基準値Ｔ０を完全肯定の場合（１８０ｍｓｅｃ）よりも短くする。これにより、問いに対する回答の怒りの度合いを評価することができる。また気のない回答を評価する場合には、会話間隔の時間の基準値Ｔ０を完全肯定の場合（１８０ｍｓｅｃ）よりも長くする。これにより、問いに対する回答の気のない度合いを評価することができる。

　また、音高減算値の基準値Ｄ０、会話間隔の時間の基準値（基準間隔）Ｔ０は、上記のような回答の種類に応じて複数設けるようにしてもよい。例えば完全肯定の回答の場合の基準値（基準間隔）、怒りの回答の場合の基準値（基準間隔）、気のない回答の場合の基準値（基準間隔）を別々に設けるようにしてもよい。

　また、問いと回答の音声特徴として、音高の他に音量についても評価するようにしてもよい。詳細には、例えば問いと回答の音量を音声特徴として取得し、問いの音量と回答の音量の差分値を求め、この差分値が所定の基準値からどれだけ離れているかという観点から音量評価点を算出する。音量評価点は、音高評価点と会話間隔評価点に加算して総合評価点を算出する。音量差分値の基準値についても、上記回答の種類に応じて変更したり、複数の基準値を設けたりしてもよい。例えば気のない回答の場合は、完全肯定の回答の場合よりも基準値を低くする。これにより、問いに対する回答の気のない度合いを評価することができる。

　また、問いと回答を繰り返し音声入力し、各回答について評価点を算出した場合には、図３のステップＳｂ１４、Ｓｂ１５、Ｓｂ１６においては、各回答について算出した評価点を加算するようにしてもよい。

　以上詳述したように，本実施形態に係る会話評価装置１０によれば、問いに対する回答の音声特徴を問いの音声特徴との比較で評価することができる。これにより、その問いに対する回答として相手に与える印象を客観的に確認することができる。また、問いと回答の音声特徴として、問いの音高と回答の音高とは、相手に与える印象に密接な関係があるので、回答の音高を問いの音高との比較で評価することで、問いに対する回答について信頼性の高い評価をすることができる。さらに、問いと回答の音声特徴として、音高の他にも、問いの終了から回答の開始までの時間（会話間隔）は相手に与える印象に密接な関係がある。このため、問いと回答の音高のみならず、問いと回答の会話間隔についても評価することで、問いに対する回答についてより信頼性の高い評価をすることができる。

　なお、第１実施形態にかかる会話評価装置１０をスマートフォンや携帯電話機のような端末装置に適用した場合には、音声の入力と特徴の取得は携帯端末で行い、会話の評価については携帯端末とネットワークで接続された外部サーバが行うようにしてもよい。また、音声の入力は携帯端末で行い、入力した音声の特徴の取得と会話の評価については外部サーバが行うようにしてもよい。

＜第２実施形態＞
　次に、第２実施形態について説明する。図８は、第２実施形態に係る会話評価装置１０の構成を示すブロック図である。第１実施形態では、人が発話した問いに対して人が発話した回答を１つの音声入力部１０２のマイクロフォンで入力してその回答を評価する場合を例に挙げたが、第２実施形態では、合成音声でスピーカ１３４から再生した問いに対して、人が発話した回答を１つの音声入力部１０２のマイクロフォンで入力して評価する。なお、第１実施形態に係る会話評価装置１０の構成と同様の機能を有する部分については同一符号を付してその詳細な説明を省略する。

　第２実施形態に係る会話評価装置１０は、問い選択部１３０、問い再生部１３２、問いデータベース１２４を備える。なお、第２実施形態に係る会話評価装置１０では、図１に示す判別部１０８、言語データベース１２２が設けられていない。これは、第２実施形態に係る会話評価装置１０では、問いは予め音高が決められている音声データが選択され、スピーカ１３４から再生されるので、発話が問いである否かの判定は不要だからである。

　問いデータベース１２４は、問いの音声データを、予め複数記憶する。この音声データは、モデルとなる人物の音声を録音したものである。問いの音声データについては、例えばｗａｖやｍｐ３などのフォーマットであり、標準で再生したときの波形サンプル毎（または波形周期毎）の音高と、特定区間（代表的区間）の代表的音高（例えば語尾区間の最高音高）が予め求められていて、その特定区間の代表的音高を示すデータが音声データに対応付けられて問いデータベース１２４に記憶されている。なお、ここでいう標準で再生とは、音声データを録音時の条件（音高・音量・音色・話速など）と同じ条件で再生する、という意味である。

　なお、問いデータベース１２４に記憶する問いの音声データについては、人物Ａ、Ｂ、Ｃ、・のように複数人にわたって、同一内容の問いを記憶させても良い。人物Ａ、Ｂ、Ｃ、・については例えば有名人、タレント、歌手などとして、各人物毎に音声データをデータベース化する。また、このようにデータベース化する場合、メモリーカードなどの媒体を介して問いの音声データを問いデータベース１２４に格納させても良いし、会話評価装置１０にネットワーク接続機能を持たせて、特定のサーバから問いの音声データをダウンロードし、問いデータベース１２４に格納させても良い。メモリーカードやサーバから問いの音声データを入手する場合、無償であっても良いし、有償であっても良い。

　また、問いの音声データは、どの人物をモデルとして欲しいのかを、利用者が操作入力部等によって選択可能な構成としても良いし、各種条件（日、週、月など）毎にランダムで決定する構成としても良い。また、問いの音声データは、音声入力部１０２のマイクロフォンを介して、利用者自身や、当該利用者の家族、知人の音声を録音したもの（または別途の装置によってデータ化したもの）をデータベース化しても良い。このように身近な人物の音声で問いが発話されると、あたかも当該人物と対話しているかのような感覚を得ることができる。

　問い選択部１３０は、問いの音声データを、問いデータベース１２４から１つを選択し、当該選択した問いの音声データを、それに対応付けられた前記代表的音高データとともに、読み出して取得する。問い選択部１３０は、取得した音声データは問い再生部１３２に供給し、代表的音高データは解析部１０６に供給する。なお、問い選択部１３０が、複数の音声データのうち、１つの音声データをどのようなルールで選択するかについては、例えばランダムでも良いし、図示しない操作部から選ぶようにしても良い。問い再生部１３２は、問い選択部１３０からの問いの音声データをスピーカ１３４で再生する。

　次に、このような第２実施形態に係る会話評価装置１０の動作について説明する。図９は、第２実施形態に係る会話評価装置１０における処理動作を示すフローチャートである。まず、ステップＳｃ１１において、問い選択部１３０は問いデータベース１２４から問いを選択する。続いて、ステップＳｃ１２において、問い選択部１３０は、選択した問いの音声データと特徴データ（音高データ）を取得する。問い選択部１３０は、取得した音声データを問い再生部１３２に供給し、音高データは解析部１０６に供給する。解析部１０６の第１音高取得部１０６Ａは、問い選択部１３０から供給された問いの代表的音高データを取得し、評価部１１０に供給する。

　続いて、ステップＳｃ１３において、問い再生部１３２は、選択された問いの音声データをスピーカ１３４で再生する。そして、ステップＳｃ１４において、問いの再生が終了したか否かを判断する。ステップＳｃ１４において、問いの再生が終了したと判断すると、ステップＳｃ１５にて会話間隔の計時を開始する。以降は、回答の発話の処理（ステップＳｃ１６～Ｓｃ２０）であり、図２における回答の発話の処理（ステップＳａ１７～Ｓａ２１）と同様である。

　このような第２実施形態に係る会話評価装置１０によれば、スピーカ１３４を介して問いの音声が再生発音され、その問いに対する回答の音声を音声入力部１０２のマイクロフォンを介して入力すると、その回答の評価値が表示部１１２に表示される。これによれば、問いがスピーカ１３４で再生されるので、問いを発話する相手がいなくても、１人で問いに対する回答を訓練することができる。また、問いがスピーカ１３４で再生されるので、回答だけを音声入力部１０２のマイクロフォンで入力すれば足りるため、音声入力部１０２から入力される発話が問いか否かの判別が不要になる。

　なお、本実施形態における解析部１０６において、第１音高取得部１０６Ａは、音声入力部１０２を介さずに、問い選択部１３０により選択された問いの音声データを解析して、当該音声データを標準で再生したときの平均音高を算出し、該算出した平均音高を示すデータを代表的音高データとして評価部１１０に供給する構成としても良い。この構成によれば、代表的音高データを問いの音声データに予め関連付けて問いデータベース１２４に記憶させておく必要がなくなる。

　上述した第２実施形態において、音声入力部１０２及び音声取得部１０４が、回答の音声の音響信号を受信する受信部として機能し、問い選択部１３０及び第１音高取得部１０６Ａが、問いの音声を合成するためのデータに関連する音声合成関連データ（前記記憶された代表的音高データ又は前記選択された問いの音声データ）を受信する受信部として機能する。

　なお、第２実施形態の変形例として、上記とは逆に、問いの音声を音声入力部１０２のマイクロフォンを介して入力し、それに対する回答の音声を合成音声にてスピーカ１３４を介して再生発音するようにしてもよい。その場合は、音声入力部１０２及び音声取得部１０４が、問いの音声の音響信号を受信する受信部として機能し、音声合成すべき回答の音声を選択するための回答選択部及び第２音高取得部１０６Ｂが、回答の音声を合成するためのデータに関連する音声合成関連データ（記憶された代表的音高データ又は前記選択された回答の音声データ）を受信する受信部として機能する。

＜第３実施形態＞
　次に、第３実施形態について説明する。図１０は、第３実施形態に係る会話評価装置１０の構成を示すブロック図である。第１実施形態では、２人の会話音声を１つの音声入力部１０２のマイクロフォンで入力する場合を例に挙げたが、第３実施形態では、２人の会話音声を２つの音声入力部１０２Ａ、１０２Ｂのそれぞれのマイクロフォンで別々に入力する。なお、第１実施形態に係る会話評価装置１０の構成と同様の機能を有する部分については同一符号を付してその詳細な説明を省略する。

　第３実施形態に係る会話評価装置１０では、図１に示す判別部１０８、言語データベース１２２が設けられていない。これは、第３実施形態に係る会話評価装置１０では、各人の音声を別々の（問い専用及び回答専用の）音声入力部１０２Ａ、１０２Ｂを介して入力するように構成されているので、問いを発する人が問い専用の音声入力部１０２Ａを用い、回答をする人が回答専用の音声入力部１０２Ｂを用いるようにすれば、発話が問いである否かの格別の判定処理を行うことは不要だからである。この第３実施形態において、音声入力部１０２Ａ，１０２Ｂと音声取得部１０４が、問いの音声の音響信号及び回答の音声の音響信号を区別して受信するように構成された受信部として機能する。

　次に、このような第３実施形態に係る会話評価装置１０の動作について説明する。図１１は、第３実施形態に係る会話評価装置１０における処理動作を示すフローチャートである。図１１に示すフローチャートは、図２に示すフローチャートから発話が問いか否かの判断処理を除外したものに相当する。さらに図１１に示すステップＳｄ１１、Ｓｄ１２、Ｓｄ１３は、図２に示すステップＳａ１１、Ｓａ１２、Ｓａ１５において「発話」とあるのを「問い」に変更してある。以降の図１１に示すステップＳｄ１４～Ｓｄ１９は、図２に示すステップＳａ１６～Ｓａ２１と同様である。

　このような第３実施形態に係る会話評価装置１０によれば、問いの音声が音声入力部１０２Ａのマイクロフォンで入力されると、その回答の音声は別の音声入力部１０２Ｂのマイクロフォンで入力される。これに応じて、該入力された問いの音声に対する該入力された回答の音声が解析部１０６及び評価部１１０によって評価され、回答の評価値が表示部１１２に表示される。これによれば、問いと回答が音声入力部１０２Ａ、１０２Ｂのそれぞれのマイクロフォンから別々に入力されるので、各音声入力部１０２Ａ、１０２Ｂから入力される発話が問いか否かの判別が不要になる。

Claims

　問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信するように構成された受信部と、
　前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成された解析部と、
　前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価するように構成された評価部と、
を具備することを特徴とする会話評価装置。
　前記評価部は、
　前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との差分値が所定の範囲内に入るか否かを判定し、
　前記所定の範囲内に入らない場合は、前記所定の範囲内に入るように音高シフト量をオクターブ単位で決定し、
　前記問いの代表的音高と前記回答の代表的音高の少なくとも一方を前記音高シフト量だけシフトし、シフト後の前記問い及び前記回答の代表的音高の比較に基づいて前記問いに対する前記回答を評価するように構成されている、請求項１に記載の会話評価装置。
　前記評価部は、前記問いの代表的音高と前記回答の代表的音高との差が所定の基準値からどれだけ離れるかによって、前記問いに対する前記回答を評価するように構成されている、請求項１又は２に記載の会話評価装置。
　前記所定の基準値は協和音程を示す値である、請求項３に記載の会話評価装置。
　前記協和音程は、前記回答の代表的音高が前記問いの代表的音高の５度下となる音程である、請求項４に記載の音声合成装置。
　前記問いが終了してから前記回答が開始するまでの時間である会話間隔を検出する会話間隔検出部を更に備え、
　前記評価部は、更に前記検出された会話間隔に基づいて、前記問いに対する前記回答を評価するように構成されている、請求項１乃至５のいずれかに記載の会話評価装置。
　前記評価部は、前記検出された会話間隔が所定の基準間隔からどれだけ離れるかによって、前記問いに対する前記回答を評価するように構成されている、請求項６に記載の会話評価装置。
　前記所定の基準間隔は特定の回答種類に対応づけられており、
　前記評価部は、前記問いに対する前記回答を、該特定の回答種類を考慮して評価するように構成されている、請求項７に記載の会話評価装置。
　複数回答種類に対応づけて複数の基準間隔が用意されており、
　前記評価部は、各基準間隔に対する前記検出された会話間隔の距離に基づき、前記問いに対する前記回答を、回答種類を考慮して評価するように構成されている、請求項７に記載の会話評価装置。
　前記解析部は、前記問いの音声の代表的区間の音高を解析することに基づき前記問いの代表的音高を取得するように構成されている、請求項１乃至９のいずれかに記載の会話評価装置。
　前記解析部は、前記回答の音声における最高音高又は最低音高若しくは平均音高を解析することに基づき前記回答の代表的音高を取得するように構成されている、請求項１乃至１０のいずれかに記載の会話評価装置。
　前記受信部は、前記問いの音声及び前記回答の音声を含む音響信号を受信するように構成され、
　前記解析部は、前記受信した音響信号から前記問いの音声の音響信号及び前記回答の音声の音響信号をそれぞれ抽出し、抽出した各音響信号に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得するように構成されている、請求項１乃至１１のいずれかに記載の会話評価装置。
　前記受信部は、前記問いの音声及び前記回答の音声の一方の音響信号を受信し、他方の音声を合成するためのデータに関連する音声合成関連データを受信するように構成され、
　前記解析部は、前記受信した音響信号に基づき前記問い及び回答の一方の代表的音高を取得し、前記受信した音声合成関連データに基づき前記問い及び回答の他方の代表的音高を取得するように構成されている、請求項１乃至１１のいずれかに記載の会話評価装置。
　前記受信部は、前記問いの音声の音響信号及び前記回答の音声の音響信号を区別して受信するように構成され、
　前記解析部は、前記受信した問いの音声の音響信号に基づき前記問いの代表的音高を取得し、前記受信した回答の音声の音響信号に基づき前記回答の代表的音高を取得するように構成されている、請求項１乃至１１のいずれかに記載の会話評価装置。
　問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信することと、
　前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得することと、
　前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価すること、
からなる会話評価のためのコンピュータにより実装される方法。
　非一過性のコンピュータ読み取り可能な記憶媒体であって、会話評価のための方法を実行するためにプロセッサ実行可能な命令群を内容としており、前記方法は、
　問いの音声に関する情報及び前記問いに対する回答の音声に関する情報を受信することと、
　前記受信した情報に基づき、前記問いの代表的音高及び前記回答の代表的音高を取得することと、
　前記解析部で取得された前記問いの代表的音高と前記回答の代表的音高との比較に基づいて、前記問いに対する前記回答を評価すること、
からなる前記記憶媒体。