以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、発話テキストの音声発話を行うときに、発話音声の再生に合わせて発話音声再生全体に対する進捗状況を聴覚的に表す音声出力を行うことで、ユーザに対して発話音声(音声再生)の進捗状況を提示することができるようにするものである。
具体的には、例えば音声発話中に発話の進捗に合わせて音像位置を移動させることにより、ユーザが発話の全体量と、現時点で発話音声の再生がどこまで進んでいるのかを音像位置により聴覚的に認知できるようにした。
例えば発話進捗に合わせた音像位置の移動、つまり音像の定位方法の例として、一般的にユーザが見慣れている視覚によるプログレスバーに対応するように、ユーザから見て音像が左から右へと移動するように制御することが考えられる。
このようにして音像位置を移動させれば、ユーザは音像位置から発話全体の長さと、音声発話の進捗状況とを聴覚的に認識することができるので、それらの認識結果に基づいて発話音声の再生に関する操作を行うことができる。これにより、ユーザは、例えば発話音声の残り時間等を考慮して発話音声の再生の打ち切り(停止)や、所定区間の繰り返し再生、発話速度の上げ下げなど、自分自身の状況に適した音声再生操作を行うことができる。
それでは、以下、本技術についてより具体的に説明する。
例えば、ユーザがシステムからディスプレイなどの表示デバイスを通して情報を得る場合、表示された文章全体の俯瞰や、Webブラウザでのスクロールバーのような視覚情報により、情報全体の量と今現在どこまで読み進んでいるかを把握することができる。
一方で、システムからの音声発話による情報を視覚情報なしで得る場合には、音声は聴覚に対して時系列にしか入力されないため、ユーザは発話の全体量と今現在どこまで読み進んでいるのかを認識することができない。そのため、ユーザは発話自体がいつ終わるかも知ることができないので、心理的に最後まで音声発話を聞くことができないことがある。そうすると、ユーザは必要な情報を得ることができなくなってしまう。
そこで、本技術では音像移動により、すなわち各時刻における音像の位置により音声発話の全体量と聞き取り進捗状況を提示するUI(User Interface)を実現できるようにした。換言すれば、音像が位置する方向によって音声再生の進捗が表されるUIを実現できるようにした。
一般的に、視覚情報による進捗提示のUIとして図1に示すようなプログレスバーがコンピュータなどの機器で使用されている。本技術を適用したUIは、このような一般的な視覚による進捗提示UIとして慣れ親しんだプログレスバーを、発話音声の音像移動によりユーザに聴覚のみで認知させるUIである。
ここで、図2に音像移動による音声発話の進捗提示例を示す。
図2に示す例は、音声エージェント等のシステムがユーザU11に対して登録しておいた買い物リスト情報を音声発話により提供する例である。
ここでは、システムにより発話される内容は「今日の買い物は、ニンジン2本、玉ねぎ3個、じゃがいも、牛肉300g、塩、胡椒、醤油、ビールです」となっている。
ユーザU11はヘッドホンやステレオスピーカシステム、またはサラウンドスピーカシステムなどの左右の音像の定位が認識できる視聴環境にあるものとする。
このとき、システムが音声発話を行うと、つまり発話音声を再生すると最初は発話音声がユーザU11から見て左側から聞こえる。すなわち、発話音声の最初の部分である「今日の買い物は」では、発話音声の音像がユーザU11の左側の位置に定位している。
その後、発話音声の再生が進むにつれて徐々に音像が右方向に移動する。例えば発話音声の中間部分である「じゃがいも」はユーザU11の真正面から聞こえてくるように再生が行われる。すなわち、発話音声の「じゃがいも」の部分では音像がユーザU11の真正面の方向(位置)に定位する。
そして、発話音声の再生がさらに進み、最後は発話音声がユーザU11の右側から聞こえて音声発話が終了する。この例では、発話音声の最後の部分である「ビールです」はユーザU11の右側から聞こえることになる。つまり、発話音声の「ビールです」の部分では、音像がユーザU11の右側の位置に定位する。
なお、より詳細には、例えば発話音声の「今日の買い物は」の部分など、各部分の再生中にも音像はほぼ連続的に右方向へと移動していく。
このように音声発話の再生状況、つまり発話の進捗状況に応じて発話音声の音像をユーザU11の左側から右側へとほぼ連続的に移動させることで、ユーザU11は発話が開始された後の音像の右方向へと進む速度によって、音声発話全体のおおよその時間を認識することができる。
また、ユーザU11は、音声発話の最中に発話音声がどの方向から聞こえてくるか、つまり発話音声の音像位置によって、今現在、音声発話全体のどこまで聞けているか、つまりどこまで発話音声の再生が行われたかを認識することができる。これにより、ユーザU11は残りの発話時間を把握することができる。
例えば、発話音声の音像位置がユーザU11から見て左斜め前ならまだ前半の4分の1くらい、音像位置がユーザU11から見て正面なら半分、音像位置がユーザU11から見て右斜め前なら後半の4分の3くらいであるなど、ユーザU11は音像位置から発話音声の進捗状況を知ることができる。また、ユーザU11は、発話音声をこれまで聞いていた時間の感覚から、発話音声の残りの再生時間はどの程度であるかを感覚的に把握することができるので、ユーザU11が最後まで発話を聞く意識を強めることができる。
さらに、発話音声の再生の繰り返し、発話速度の上げ下げ、再生停止などの再生操作を可能とする手段がユーザU11に提供されている場合には、ユーザU11は自身が置かれている時間的余裕がどれくらいあるかの状況と残りの発話時間の把握によって、適切な再生操作を選択することができる。例えばユーザU11は、時間があまりないが、発話音声の最後までまだ長いので発話速度を上げて集中して聞くようにしたり、時間があるので発話速度を下げて繰り返しゆっくりと聞くようにしたり、時間がなくて発話音声の残りも多すぎるのであきらめて再生停止したりするといった操作の誘導も可能となる。
なお、ここでは発話音声の音像がユーザから見て左から右方向に移動する例について説明するが、音像の移動方向は右から左方向や上下方向、前後方向など、どのような方向であってもよい。例えば発話音声の言語がペルシャ語であるときには、音像が右から左方向に移動するようにしたり、発話音声の言語が中国語であるときには、音像が上から下方向に移動するようにしたりするなど、発話音声の言語に応じて音像の移動方向を変化させてもよい。
また、ここでは発話音声の音像がユーザから見て左側から右側まで180度分だけ移動する例について説明したが、これに限らずユーザから見て左側から真正面まで90度分だけ音像が移動するなど、任意の角度分だけ音像を移動させることができる。
〈音声発話進捗提示UIシステムの構成例〉
図3は、本技術を適用した音声発話進捗提示UIシステムの一実施の形態の構成例を示す図である。
本技術を適用した音声発話進捗提示UIシステムは、サーバ11およびクライアントデバイス12からなり、ユーザに対して音声発話を行うシステムである。この例では、サーバ11と、スマートホンなどの端末装置からなるクライアントデバイス12とが有線や無線などにより直接的に、または通信網を介して間接的に接続されている。
サーバ11は音声処理装置として機能し、発話内容を示すテキストデータである発話テキストに基づいて、音像の移動により音声発話の進捗状況を聴覚的に提示しつつ発話音声を再生するための音像定位音声データファイルを生成し、クライアントデバイス12に出力する。クライアントデバイス12は、サーバ11から供給された音像定位音声データファイルに基づいてユーザに対して発話音声を出力する。
サーバ11は、自然言語解析部21、音声合成エンジン22、音像位置マッピング部23、音像定位エンジン24、音像定位音声データファイル記録部25、および再生制御部26を有している。また、クライアントデバイス12は、音声再生デバイス27、および音声再生操作部28を有している。
なお、ここでは再生制御部26がサーバ11に設けられる例について説明するが、再生制御部26はクライアントデバイス12に設けられるようにしてもよい。
サーバ11の自然言語解析部21および音声合成エンジン22には、音声発話によってユーザに対して提示する情報内容の全文章である発話テキストが入力される。
自然言語解析部21は、入力された発話テキストに対して言語的な解析処理である自然言語解析を行って、その解析結果を音声合成エンジン22および音像位置マッピング部23に供給する。例えば自然言語解析では、発話テキストの文章内の文節の係り受け構造を示す情報と、各文節の言語的な格を示す情報とが得られる。
音声合成エンジン22は、供給された発話テキストに対して音声合成処理を行い、発話文言を音声で再生するための音声データが含まれる発話音声データファイルを生成する。
また、音声合成エンジン22は、発話音声データファイルの生成時には、適宜、自然言語解析部21から供給された解析結果を用いて、発話テキストの文章における所望位置の発話音声の再生時刻を示す再生時刻情報を生成し、発話音声データファイルに格納する。
例えば音声合成エンジン22は、自然言語解析の結果に基づいて、発話テキストの文章における文節の区切り位置にmarkupタグを埋め込むことにより、音声合成処理時に発話音声の音声データのどの再生時刻にmarkupタグ、つまり文節の区切り位置があるかを示す再生時刻情報を発話音声データファイルに付加することができる。
音声合成エンジン22により生成された発話音声データファイルは、音像位置マッピング部23および音像定位エンジン24に供給される。
音像位置マッピング部23は、自然言語解析部21からの解析結果と、音声合成エンジン22からの発話音声データファイルとに基づいて、時系列の音像位置に関する情報である音像位置情報とメタデータとを生成し、音像定位エンジン24に供給する。
ここで、音像位置情報は、発話音声データファイルに含まれる音声データの全再生区間を分割して得られた分割再生区間と、分割再生区間における音像の位置、つまり音像が位置する方向とに関する情報である。以下では、音像が位置する方向を音像方向や音像の方向とも称する。
より具体的には音像位置情報には、各分割再生区間について、分割再生区間を示す分割再生区間情報と、分割再生区間がマッピングされた方向に音像を定位させるための、左チャネルと右チャネルなどの各チャネルの音声データのサンプルの位相差を示す位相差情報とが含まれている。
また、メタデータには、発話音声の各再生区間の再生開始時刻を示す情報と、各再生区間における音像の方向に関する情報とが含まれている。より具体的には、例えばメタデータには発話テキストの文章を複数の文節に区切ったときの各文節の先頭位置に対応する音声データの再生時刻を示す文節再生開始時刻情報と、各文節の終了位置における音像方向を示す角度情報である文節終了角度情報とが含まれている。
このようなメタデータを生成しておけば、発話音声の再生時に任意の文節から再生を行うことが可能である。このメタデータは、音像定位音声データファイルに含まれる音像定位音声データのメタデータである。
なお、以下、文節再生開始時刻情報により示される再生時刻を文節再生開始時刻とも称することとし、文節終了角度情報により示される角度を文節終了角度とも称することとする。
音像定位エンジン24は、音声合成エンジン22からの発話音声データファイルと、音像位置マッピング部23からの音像位置情報およびメタデータとに基づいて音像定位音声データファイルを生成し、音像定位音声データファイル記録部25に供給する。
ここで、音像定位音声データファイルには、発話テキストの発話音声の各分割再生区間における音像が、音像位置マッピング部23によりマッピングされた音像方向に定位するように発話音声を再生するための音像定位音声データと、音像位置マッピング部23で生成されたメタデータとが含まれている。例えば音像定位音声データは、左右の2チャネル、つまりステレオの音声データや、マルチチャネルの音声データとされる。
音像定位音声データファイル記録部25は、音像定位エンジン24から供給された音像定位音声データファイルを記録するとともに、必要に応じて記録している音像定位音声データファイルを再生制御部26に供給する。
再生制御部26は、音声再生操作部28からの操作信号に応じて音像定位音声データファイル記録部25から音像定位音声データファイルを読み出して音声再生デバイス27に出力することで、音像定位音声データに基づく発話音声の再生を制御する。
換言すれば、再生制御部26は、発話の進捗に合わせて音像方向(音像位置)が移動していく発話音声の音像定位音声データファイルを出力することで、発話音声の再生に合わせて発話音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する。
音声再生デバイス27は、例えばステレオやマルチチャネルのホームシアターシステムのサラウンドスピーカ、ヘッドホンなどからなり、再生制御部26から出力された音像定位音声データファイルに基づいて発話音声を再生する。これにより、ユーザは音声再生状況、つまり発話の進捗に応じて音像が移動する発話音声を聞くことができる。
音声再生操作部28は、例えばキー(ボタン)や音声認識ユニットなどからなり、ユーザの入力操作に応じて、再生停止や繰り返し再生、再生速度の上げ下げなどの再生操作を指示する操作信号を生成し、再生制御部26に供給する。
例えばユーザが自身の時間的な余裕の度合いに応じて、キー操作や音声入力などによって、発話音声の再生停止や繰り返し再生、再生速度の上げ下げなどを指示すると、音声再生操作部28から再生制御部26には、ユーザの指示に応じた操作信号が出力される。すると、再生制御部26は、音声再生操作部28からの操作信号に応じて発話音声の再生を制御する。
なお、例えば発話音声の再生停止時には、再生制御部26が再生を停止させた位置、すなわち再生時刻を記録しておき、発話音声の再生を再開するときに、最後に再生を停止させた位置から再生を開始させるようにしてもよい。
また、音声再生操作部28は、指定方向特定部31を有している。指定方向特定部31は、例えばカメラやセンサ、認識器などからなり、画像認識や顔認識、ジェスチャ認識、視線認識などにより、ユーザによって指定された方向を特定する。なお、以下、ユーザによって指定された方向を特に指定方向とも称することとする。
例えばユーザは、所望の方向に視線を向けたり、所望の方向に指を向けるジェスチャを行ったり、自身の顔を所望方向に向けるなどして所望の方向を指定方向として指定する。このようにして指定された指定方向は、例えば音像定位音声データに基づく発話音声のランダムアクセス再生に用いられる。
例えば音像定位音声データファイル内のメタデータには、文節再生開始時刻を示す文節再生開始時刻情報と、文節終了角度を示す文節終了角度情報とが含まれている。そのため、ユーザが所望の文節に対応する方向を指定方向として指定することで、発話音声における任意の文節に対応する位置から再生が可能である。つまり、発話音声のランダムアクセス再生が可能である。
ユーザがランダムアクセス再生を行うために指定方向を指定すると、指定方向特定部31は、画像認識等によりユーザにより指定された指定方向を特定する。また、音声再生操作部28は指定方向特定部31により特定された指定方向を示す情報を含む操作信号を生成し、再生制御部26に供給する。これにより、再生制御部26は、指定方向に対応する文節の文節再生開始時刻から発話音声の再生を開始させることができる。
このようなランダムアクセス再生は、発話音声の聞き直し時などに有効である。なお、ランダムアクセス再生では、指定方向に対応する再生時刻から再生を開始してもよいが、ユーザによる指定方向の指定精度には限界があるため、指定方向に対応する文節の先頭位置から再生が開始される。
なお、クライアントデバイス12においては、音声再生操作部28は音声再生デバイス27と一体的に設けられているようにしてもよいし、音声再生デバイス27とは別に設けられてもよい。
〈再生処理について〉
次に、以上において説明した音声発話進捗提示UIシステムの動作について説明する。すなわち、以下、図4のフローチャートを参照して、音声発話進捗提示UIシステムによる再生処理について説明する。この再生処理は、音声発話すべき発話テキストがサーバ11に供給されたり、発話テキストが指定されたりすると開始される。
ステップS11において、自然言語解析部21は、入力された発話テキストに対して自然言語解析を行って、その解析結果を音声合成エンジン22および音像位置マッピング部23に供給する。例えばステップS11では、形態素解析などが行われ、発話テキストの文章内の文節の係り受け構造を示す情報と、各文節の言語的な格を示す情報とが解析結果として得られる。
ステップS12において、音声合成エンジン22は、供給された発話テキストに対して音声合成処理を行って発話音声データファイルを生成し、音像位置マッピング部23および音像定位エンジン24に供給する。
なお、発話音声データファイルの生成時には、音声合成エンジン22は自然言語解析部21からの解析結果に基づいて、発話テキストの文章における文節の区切り位置に対応する発話音声の再生時刻を示す再生時刻情報を生成し、発話音声データファイルに格納する。
ステップS13において、音像位置マッピング部23は、自然言語解析部21からの解析結果と、音声合成エンジン22からの発話音声データファイルとに基づいて音像位置情報およびメタデータを生成し、音像定位エンジン24に供給する。
例えば音像位置マッピング部23は、音声データの全再生区間を複数の分割再生区間へと分割するとともに、それらの各分割再生区間を所定の音像方向にマッピングすることで、音像位置情報を生成する。また、音像位置マッピング部23は、分割再生区間のマッピング結果と、自然言語解析の結果と、再生時刻情報とに基づいてメタデータを生成する。
ステップS14において、音像定位エンジン24は、音声合成エンジン22からの発話音声データファイルと、音像位置マッピング部23からの音像位置情報およびメタデータとに基づいて音像定位音声データファイルを生成する。
すなわち、音像定位エンジン24は、発話音声データファイルと音像位置情報とに基づいて、所望の音像方向に音像を定位させた音像定位音声データを生成するとともに、得られた音像定位音声データと、メタデータとから音像定位音声データファイルを生成する。音像定位エンジン24は、このようにして得られた音像定位音声データファイルを音像定位音声データファイル記録部25に供給し、記録させる。
ステップS15において、再生制御部26は、音像定位音声データファイル記録部25に記録されている音像定位音声データファイルを読み出して音声再生デバイス27に供給し、音像定位音声データに基づく発話音声を再生させる。
音声再生デバイス27は、再生制御部26から供給された音像定位音声データファイルに基づいて発話音声を再生する。これにより、ユーザは、音像が再生の進捗に応じて左から右方向へとほぼ連続的に移動していく発話音声を聞くことができる。
また、ユーザは、発話音声を聞きながら、適宜、音声再生操作部28に対する操作を行い、音声再生操作部28は、ユーザの操作に応じた操作信号を生成して再生制御部26へと供給する。そして、再生制御部26は、音声再生操作部28からの操作信号に応じて音像定位音声データファイルの出力を停止させるなどして、適宜、再生停止や発話速度の変更等、ユーザの操作に応じた再生制御を行う。
音像定位音声データファイルに基づく発話音声が再生されると、再生処理は終了する。
以上のようにして音声発話進捗提示UIシステムは、発話テキストから、音声発話の進捗に合わせて音像が移動する発話音声を再生するための音像定位音声データファイルを生成し、発話音声を再生する。
このように発話音声の再生の進捗に応じて音像を移動させるといった、発話音声全体に対する進捗を聴覚的に表す音声出力を行うことで、ユーザに対して音声再生の進捗状況を提示することができる。
これにより、ユーザは音声発話の再生が全体に対してあとどれくらいで終わるかを認識することができるので最後まで発話を聞く意識を持つことができ、発話により伝達される全情報を受け取りやすくなる。
また、ユーザは、音声発話を聞いている最中の時間的な余裕の度合い、つまりどの程度発話を聞く時間をとることができるかに応じて、全体発話量の把握結果から発話速度などを変化させたりして、自身に合った対応を行うことができる。
例えば、十分に時間が有る場合には、ユーザは発話速度を遅くしたり、繰り返し再生を行ったりして、十分に発話内容を理解できるようにじっくりと音声発話を聞くようにすることができる。また、例えばあまり時間的な余裕がない場合には、ユーザは発話速度を速くし、集中して短時間で音声発話を聞くようにすることもできる。
音声発話進捗提示UIシステムによる音声発話では、音声発話の進捗に応じた位置(方向)に音像が定位するため、例えばユーザが音声発話を途中から聞いた場合に、音像の位置から発話全体に対してどこまで再生が進んだ状態であるのかを把握することができる。
さらに、音声発話進捗提示UIシステムによる音声発話では、ディスプレイなどの視覚情報を出力するデバイスがなくても音声発話の進捗を提示することができるので、本技術を適用した製品のデバイスや視覚情報領域のコストを削減することができる。
〈マッピング処理について〉
ここで、図4のステップS13において、音像位置情報とメタデータを生成するときのより詳細な処理例について説明する。すなわち、以下、図5のフローチャートを参照して、音像位置マッピング部23によるマッピング処理について説明する。
このマッピング処理は、音像位置マッピング部23が分割再生区間を音像方向にマッピングして音像位置情報とメタデータを生成する処理であり、図4のステップS13の処理に対応する。
ステップS41において、音像位置マッピング部23は、音声合成エンジン22からの発話音声データファイルに含まれる発話音声の音声データのデータ長と、その音声データのサンプリングレートとに基づいて、発話音声の全体の再生時間長である発話全体時間を算出する。この発話全体時間は、音声データに基づいて発話音声を最初から最後まで再生したときの再生時間の長さである。
ステップS42において、音像位置マッピング部23は、音声データのサンプリングレートに基づいて、発話音声の再生中に発話音声をいくつの方向に音像定位させるか、すなわちいくつの音像方向に分割するかを示す音像方向の分割数を算出する。
この音像方向の分割数は、発話音声の再生中に移動(定位)させる音像の方向の数、つまり音像方向の分割の粒度を示すものである。
例えば音像方向の分割数を多くするほど、発話音声の再生中に音像が滑らかに移動している感覚をユーザに与えることができる。
ここでは、発話音声の音像を定位させる方法として、ユーザの左右の耳に、それぞれ位相差を有する同一音源を出力する方法、つまり左右の各チャネルの音声データに位相差を設けて再生することで音像を定位させる方法が用いられる場合について説明する。
このような音像定位方法は、例えば再生デバイスとしてヘッドホンなどを用いるときの音像定位方法として一般的に知られている。この音像定位方法によれば、左右の各チャネルの音声データに、それらの音声データのサンプルの粒度で位相差をつけるだけであるのでサンプル間の補完処理が不要であり、少ない演算量で音像定位を実現可能である。
特に音声データのサンプリングレートが高いほど細かく位相差をつけることができるので、より滑らかな音像移動を実現することができる。
また、ユーザから見て、ユーザの真左の方向を−90度(90°)の方向とし、ユーザの真正面の方向を0度の方向とし、ユーザの真右の方向を+90度の方向であるとする。
さらに、音速をcとし、音声データのサンプリングレートをfとし、ユーザの左右の耳の間の距離、つまりユーザの両耳間の距離をdとする。なお、両耳間の距離dは一般的な人の距離を用いればよい。
このような場合、ユーザから見て真左の方向、つまり−90度の方向に発話音声の音像を定位させるには、左右のチャネルの音声データの位相差をd/(c/f)サンプルとすればよい。
例えば両耳間の距離d=25[cm]であり、音速c=340[m/s]であり、サンプリングレートf=16[kHz]である場合には、左右のチャネルの音声データに約12サンプルの位相差をつけると、音声データに基づく発話音声の再生時に音像がユーザの真左の方向に定位する。
ここでは、発話時の音像は、ユーザの真左方向、すなわち−90度の方向から、真正面の方向(0度の方向)、真右方向(+90度の方向)へと180度分だけ移動していくものとする。また、サンプル粒度での位相差により音像を定位させるとすると、すなわち1サンプル分の位相差の粒度で音像を移動させていくものとすると、音像方向の分割数は、次式(1)により求めることができる。
なお、式(1)において、(真左の位相差サンプル数)は、音像を真左方向に定位させるために必要な位相差を示すサンプル数であり、(真右の位相差サンプル数)は、音像を真右方向に定位させるために必要な位相差を示すサンプル数である。ここでは、真左の位相差サンプル数と真右の位相差サンプル数はともにd/(c/f)サンプルとなる。また、式(1)で加算されている「1」は真正面の方向に対応する。
音像位置マッピング部23は、音声データのサンプリングレートに基づいて、上述した式(1)を算出することで、発話音声再生時における音像方向の分割数を算出する。
ステップS43において、音像位置マッピング部23は、ステップS41で得られた発話全体時間をステップS42で得られた分割数で除算することで、音像方向1つあたりの時間を算出する。
ここで、音像方向1つあたりの時間とは、発話音声再生時に1つの音像方向に音像が定位している期間における発話音声の再生時間である。換言すれば、その再生時間の間だけ、音像が1つの音像方向に定位することになる。
音像位置マッピング部23は、発話音声の音声データの先頭から、音像方向1つあたりの時間の長さの区間を先頭の分割再生区間とし、その分割再生区間の終了位置を先頭とする音像方向1つあたりの時間の長さの区間を次の分割再生区間とし、以降同様にして音声データの全区間を複数の分割再生区間に分割する。
すなわち、音像位置マッピング部23は、発話音声の音声データの全再生区間を音像方向の分割数に等分に分割して得られた各区間を分割再生区間とする。このとき、各分割再生区間を再生したときの再生時間は、ステップS43で得られた音像方向1つあたりの時間となる。
ステップS44において、音像位置マッピング部23は、発話音声の音声データの先頭にある分割再生区間を真左の方向にマッピングする。
すなわち、音像位置マッピング部23は発話音声の音声データの各分割再生区間を先頭側から順番に処理対象の分割再生区間としていく。
したがって、まず先頭の分割再生区間が処理対象の分割再生区間とされ、音像位置マッピング部23は、処理対象の分割再生区間をユーザから見て真左の方向にマッピングすることで、その分割再生区間の再生時には音像が真左方向に定位するようにする。
具体的には、音像位置マッピング部23は、処理対象の分割再生区間を示す分割再生区間情報と、真左方向に音像を定位させるために必要となる左右のチャネルの音声データの位相差であるサンプル数d/(c/f)を示す位相差情報とを対応付けて、処理対象の分割再生区間についての音像位置情報とする。この場合、処理対象である先頭の分割再生区間の音像方向は真左方向となる。
音像位置マッピング部23は、現在の処理対象の分割再生区間の時間的に次に隣接する分割再生区間を、次の処理対象の分割再生区間として処理はステップS45へと進む。
ステップS45において、音像位置マッピング部23は次の分割再生区間、すなわち新たに処理対象とされた分割再生区間を、その分割再生区間の時間的に直前の分割再生区間の音像方向の角度に移動角度を加算した方向にマッピングする。
ここで、音像方向の移動角度とは、ある音像方向から次の音像方向へと音像が移動するときの移動量を示す角度、つまりある音像方向の角度と次の音像方向の角度との差分の角度である。この移動角度は、ステップS42で得られた音像方向の分割数により定まる。つまり、移動角度は、180/(分割数−1)度となる。
したがって、例えば先頭から2番目の分割再生区間の音像方向は、真左方向の角度(−90度)に移動角度を加算して得られる角度の方向となる。
音像位置マッピング部23は、処理対象の分割再生区間を示す分割再生区間情報と、処理対象の分割再生区間の音像方向に音像を定位させるために必要となる左右のチャネルの音声データの位相差を示す位相差情報とを対応付けて、処理対象の分割再生区間についての音像位置情報とする。
この場合、処理対象の分割再生区間の位相差情報は、その処理対象の分割再生区間の直前の分割再生区間の位相差情報により示されるサンプル数を1サンプルだけずらした値とすればよい。
したがって、ステップS45では処理対象の分割再生区間は、その直前の分割再生区間の音像方向を1サンプル時間の位相差分だけ正の方向、つまりユーザから見て右方向に移動させた方向に定位することになる。
ステップS46において、音像位置マッピング部23は、処理対象の分割再生区間の音像方向が真右方向であるか否かを判定する。すなわち、全ての分割再生区間について音像方向のマッピングが行われたか否かを判定する。
ステップS46において、真右方向ではないと判定された場合、音像位置マッピング部23は、現在の処理対象の分割再生区間の時間的に次に隣接する分割再生区間を、新たな処理対象の分割再生区間として処理はステップS45へと戻り、上述した処理が繰り返し行われる。
これに対して、ステップS46において、真右方向であると判定された場合、全ての分割再生区間について処理が行われたので、処理はステップS47へと進む。
この場合、これまでの処理により、全分割再生区間についての音像位置情報が得られたことになる。
すなわち、以上のステップS41乃至ステップS46の処理により、例えば図6に示すようにして音像位置情報が生成されたことになる。
まず、ステップS41では矢印A11に示すように発話音声の全区間AD11の再生時間、すなわち発話全体時間が算出される。なお、ここでは全区間AD11の図中、左端が先頭位置を示しており、全区間AD11の図中、右端が終了位置を示している。
ステップS43では、矢印A12に示すように音像方向1つあたりの時間を算出することで、全区間AD11がステップS42で得られた分割数の分割再生区間に分割される。ここでは、全区間AD11内の四角形は1つの分割再生区間を表しており、各分割再生区間の長さは同じ長さとなっている。
ステップS44では、矢印A13に示すように先頭の分割再生区間が真左方向にマッピングされる。
その後、ステップS45およびステップS46では、矢印A14に示すようにマッピングが行われた分割再生区間の次の分割再生区間が、直前の分割再生区間の音像方向を1サンプル時間の位相差分だけ右方向に移動させた方向にマッピングされる処理が繰り返し行われる。このような処理が繰り返し行われると、矢印A15に示すように最後の分割再生区間が真右方向にマッピングされ、これにより、各分割再生区間についての分割再生区間情報と位相差情報とからなる音像位置情報が得られる。
このようにして音像位置情報が得られると、この音像位置情報を用いて得られた発話音声の再生時には、次のように音像が定位することになる。
すなわち、発話音声の先頭部分では音像が真左方向に定位し、その後、音像方向の分割数の粒度で、つまり上述した移動角度ずつ音像が右方向へと移動していく。このとき、1つの分割再生区間の再生中には、音像は1つの音像方向に定位したままとなる。
発話音声の再生が進み、発話音声の中間部分、つまり真ん中部分となると音像がユーザから見て真正面の方向に定位し、発話音声の終端部分では音像が真右方向に定位して発話音声の再生が終了する。
図5のフローチャートの説明に戻り、ステップS47において音像位置マッピング部23は、自然言語解析部21からの解析結果と、音声合成エンジン22からの発話音声データファイルと、分割再生区間のマッピング結果とに基づいてメタデータを生成する。
具体的には、例えば図7に示すように、発話テキストの文章が「今日の買い物は、ニンジン2本、玉ねぎ3個、じゃがいも、牛肉300g、塩、胡椒、醤油、ビールです」であったとする。
また、自然言語解析の結果、音声発話の文章が「今日の買い物は、」、「ニンジン2本、」、「玉ねぎ3個、」、「じゃがいも、」、「牛肉300g、」、「塩、」、「胡椒、」、「醤油、」、および「ビールです」のそれぞれの文節に区切られたとする。
このような場合、音像位置情報に基づいて音像定位音声データファイルを生成し、発話音声を再生したときには、図7に示すように発話音声を聞くユーザU21には、発話が進むにつれて自身の左側から右側へと音像が移動していくことになる。
音像位置マッピング部23は音声発話の文節ごとに、それらの文節の部分の再生時において音像が位置する範囲を音像範囲として特定する。すなわち、文節単位で音像の方向が分割される。
例えば文節「今日の買い物は、」、「ニンジン2本、」、「玉ねぎ3個、」、「じゃがいも、」、「牛肉300g、」、「塩、」、「胡椒、」、「醤油、」、および「ビールです」のそれぞれを文節C1乃至文節C9とする。また、それらの文節C1乃至文節C9を特定するための番号を文節番号1乃至文節番号9とするものとする。なお、文節番号の付与時には、発話音声の先頭の文節から最後の文節まで順番に、先頭の文節の文節番号が1とされ、後ろ側にある文節ほど大きい文節番号となるように連続した番号が付与されるものとする。
図7の例では、文節C1乃至文節C9のそれぞれの音像範囲として、音像範囲AR11乃至音像範囲AR19が特定される。
音像範囲AR11は、矢印W11に示す方向から矢印W12に示す方向までの範囲となっている。
同様に、音像範囲AR12は、矢印W12に示す方向から矢印W13に示す方向までの範囲であり、音像範囲AR13は、矢印W13に示す方向から矢印W14に示す方向までの範囲であり、音像範囲AR14は、矢印W14に示す方向から矢印W15に示す方向までの範囲である。
また、音像範囲AR15は、矢印W15に示す方向から矢印W16に示す方向までの範囲であり、音像範囲AR16は、矢印W16に示す方向から矢印W17に示す方向までの範囲であり、音像範囲AR17は、矢印W17に示す方向から矢印W18に示す方向までの範囲である。さらに、音像範囲AR18は、矢印W18に示す方向から矢印W19に示す方向までの範囲であり、音像範囲AR19は、矢印W19に示す方向から矢印W20に示す方向までの範囲である。
ここで、矢印W11に示す方向乃至矢印W20に示す方向のそれぞれは、発話音声の文節C1乃至文節C9の区切り位置部分の再生時刻における音像方向のそれぞれとなっている。例えば矢印W11に示す方向は、文節C1の先頭部分の再生時刻における音像方向である。また、例えば矢印W12に示す方向は、文節C1の終了部分かつ文節C2の先頭部分の再生時刻における音像方向である。
したがって、例えば発話音声再生時において、文節C1である「今日の買い物は、」を再生(発話)するときには、音像は音像範囲AR11内を移動していくことになる。換言すれば、音像は矢印W11に示す方向から、矢印W12に示す方向まで移動することになる。
より具体的には、文節C1の再生開始時には音像が矢印W11に示す方向に定位しており、その音像が再生とともに右方向へと移動していき、文節C1の再生終了時点では、音像が矢印W12に示す方向に定位していることになる。
音像位置マッピング部23は、自然言語解析の結果から文節C1乃至文節C9を特定することができる。
また、発話音声データファイルには再生時刻情報が含まれており、音像位置マッピング部23は、この再生時刻情報から、文節C1乃至文節C9のそれぞれの区切り位置に対応する再生時刻を知ることができる。特に、各文節の先頭部分の再生時刻が上述した文節再生開始時刻となる。
さらに、音像位置マッピング部23は、各文節の区切り位置に対応する再生時刻が分かるので、音像位置情報の生成時における各分割再生区間のマッピング結果から、各文節の区切り位置における音像方向を特定することができる。すなわち、この例では、音像位置マッピング部23は矢印W11に示す方向乃至矢印W20に示す方向を特定することができる。
このようにして各文節の区切り位置における音像方向、すなわち矢印W11に示す方向乃至矢印W20に示す方向が特定されると、音像位置マッピング部23は、矢印W11に示す方向乃至矢印W20に示す方向の特定結果と、各文節の区切り位置の再生時刻情報とから矢印Q11に示すメタデータを生成する。
矢印Q11に示すメタデータには、各文節C1乃至文節C9のそれぞれについて、文節再生開始時刻を示す文節再生開始時刻情報と、文節の終了部分の位置の音像方向、つまり文節終了角度を示す文節終了角度情報とが含まれている。
例えば矢印Q11に示すメタデータにおける「文節1の再生開始時刻」は、文節番号が1である文節C1の文節再生開始時刻情報を示している。
また、例えば矢印Q11に示すメタデータにおける「文節1の終了角度」は、文節C1の終了部分、すなわち文節C1と文節C2との区切りの位置部分の再生時刻における音像方向の角度を示す文節終了角度情報を示している。
このようなメタデータを生成しておけば、発話音声のランダムアクセス再生が可能となる。例えば指定方向特定部31において、ユーザU21により指定された指定方向として、矢印DG11に示す方向が特定されたとする。
この場合、矢印DG11に示す指定方向は、音像範囲AR15に含まれる方向であるので、ユーザU21によって文節C5が指定されたことになる。
再生制御部26では、矢印Q11に示すメタデータを参照して、矢印DG11に示す指定方向の角度が、文節C4の文節終了角度から文節C5の文節終了角度の間の角度であることを特定できるので、指定方向が音像範囲AR15内の方向であることが特定できる。すなわち、文節C5が指定されたことを特定することが可能である。
したがって、この場合、再生制御部26は、ランダムアクセス再生として矢印B11に示すように、特定された文節C5の文節再生開始時刻から発話音声を再生することができる。
図5のフローチャートの説明に戻り、以上のようにしてステップS47でメタデータが生成され、音像位置情報およびメタデータが得られると、音像位置マッピング部23は、これらの音像位置情報およびメタデータを音像定位エンジン24に供給し、マッピング処理は終了する。
また、音像位置マッピング部23から音像定位エンジン24に音像位置情報およびメタデータが供給されると、図4のステップS14では音像定位エンジン24により音像定位音声データが生成される。
その際、音像定位エンジン24は、発話音声データファイルの音声データの各分割再生区間を、それらの分割再生区間の位相差情報により示されるサンプル数だけ位相差をつけて左右のチャネルの音声データを生成し、音像定位音声データとする。これにより、例えばモノラルの音声データから、左右の2チャネルの音像定位音声データが得られる。
なお、音像定位音声データの生成にあたっては、音像定位のために左右のチャネルの音声データに位相差をつけることに加えて、さらに左右のチャネルの音声データの振幅を変化させることで左右の音声に音量差を設けて音像を定位させてもよい。
以上のようにして音声発話進捗提示UIシステムは、発話音声の各分割再生区間のマッピングを行って音像方向を定め、音像位置情報を生成するとともに、メタデータも生成する。このようにすることで、発話音声の再生時に適切に音像を移動させて進捗を提示することができるようになる。
〈ランダムアクセス再生処理について〉
また、上述したように音像定位音声データファイルにはメタデータが含まれているので、このメタデータを用いて、発話音声の任意の文節の先頭部分から再生を開始するランダムアクセス再生が可能である。
以下、図8のフローチャートを参照して、音声発話進捗提示UIシステムによるランダムアクセス再生処理について説明する。
ステップS71において、指定方向特定部31はユーザによる指定方向を取得する。
例えばユーザは、所望の方向を指で指示したり、ユーザが所望の方向に顔や視線を向けたりすることで指定方向の指定を行う。すると、指定方向特定部31は、カメラから得られた画像やセンサから得られたセンシング結果に基づいて、画像認識等によりユーザによって指定された指定方向を特定する。音声再生操作部28は、このようにして得られた指定方向の角度を示す情報を含む操作信号を再生制御部26に出力する。このとき、必要に応じて操作信号により音像定位音声データファイルの指定も行われる。
ステップS72において、再生制御部26は、処理対象とする文節の文節番号を示すパラメータNの値を1とする。なお、以下、パラメータNにより示される文節番号の文節を文節Nとも称することとする。
ステップS73において、再生制御部26は、ステップS71で音声再生操作部28から供給された操作信号に含まれる指定方向の角度が、文節Nの文節終了角度以下であるか否かを判定する。
すなわち、再生制御部26は、これからランダムアクセス再生しようとする音像定位音声データファイルを音像定位音声データファイル記録部25から読み出す。そして、再生制御部26は、音像定位音声データファイルのメタデータを参照することで文節Nの文節終了角度を特定し、その文節終了角度と指定方向の角度とを比較することで、指定方向の角度が文節Nの文節終了角度以下であるかの判定を行う。
ステップS73において指定方向の角度が文節Nの文節終了角度以下でない、つまり文節Nの文節終了角度よりも指定方向がユーザから見て右側にある方向である場合、処理はステップS74へと進む。
ステップS74において、再生制御部26はパラメータNの値を1だけインクリメントする。
ステップS75において、再生制御部26は新たなパラメータNにより示される文節Nが最終文節であるか否かを判定する。
ここでいう最終文節とは、音像定位音声データファイルに含まれる音像定位音声データに基づく発話音声の文節のうちの最後の文節である。例えば最終文節は、メタデータに含まれる文節再生開始時刻情報の数、または文節終了角度情報の数から特定可能である。
ステップS75において最終文節であると判定された場合、指定方向が正しく指定されなかったので、ランダムアクセス再生処理は終了する。
これに対して、ステップS75において最終文節でないと判定された場合、処理はステップS73に戻り、上述した処理が繰り返し行われる。
また、ステップS73において、指定方向の角度が文節Nの文節終了角度以下であると判定された場合、処理はステップS76へと進む。
この場合、ユーザにより指定された指定方向は、文節Nの音像範囲内の方向であることが分かるので、ユーザによって文節Nが指定されたことになる。
ステップS76において、再生制御部26は、音像定位音声データファイルのメタデータを参照することで文節Nの文節再生開始時刻を特定し、その文節再生開始時刻以降の音像定位音声データを音声再生デバイス27に供給して再生させることで、文節Nの文節再生開始時刻から発話音声の再生を開始させる。音声再生デバイス27は、再生制御部26から供給された音像定位音声データに基づいて、発話音声を再生する。
このようにしてユーザにより指定された文節の先頭部分から発話音声を再生させると、ランダムアクセス再生処理は終了する。
以上のようにして音声発話進捗提示UIシステムは、ユーザにより指定された指定方向に対応する文節を特定し、その文節の先頭部分から発話音声の再生を開始する。音声発話進捗提示UIシステムでは、メタデータとして文節再生開始時刻情報と文節終了角度情報とを記録しておくことで、ランダムアクセス再生を実現することができる。これにより、ユーザの使い勝手を向上させることができる。
〈第2の実施の形態〉
〈音像定位について〉
また、以上においては、発話音声の全再生区間が等分されて分割再生区間とされ、各分割再生区間が音像方向にマッピングされる例について説明した。しかし、その他、自然言語解析の結果として得られる発話テキストの文章内の文節の係り受け構造に基づいてマッピングを行うようにしてもよい。
具体的には、例えば発話テキストが買い物リストに関する文章であり、自然言語解析の結果として、文章から買い物のときに購入すべき複数のアイテム、つまり発話によりユーザに提示される提示アイテムが羅列情報として検出されたとする。ここで、羅列情報としての購入すべきアイテムは、同一の述語節に係る複数の対象格の文節のそれぞれに含まれるアイテムなどとされる。
このような場合、音声発話進捗提示UIシステムは、文章に含まれる羅列情報の数を音像方向の分割数とし、羅列情報が含まれる発話文言の再生区間、つまり提示アイテムの発話を含む再生区間を分割再生区間とする。
これにより、発話音声の再生時には羅列情報が含まれる発話の再生区間では継続して同じ位置(方向)に音像が定位する。すなわち、羅列情報(アイテム)の発話を含む再生区間ごとに音像位置が分離され、音像が移動していくことになり、アイテム数、つまり羅列情報数に応じた音像定位が可能となる。
具体例として、例えば図9に示すように発話テキストの文章が「今日の買い物は、ニンジン2本、玉ねぎ3個、じゃがいも、牛肉300g、塩です」であったとする。
また、自然言語解析の結果、羅列情報、つまり買い物の提示アイテムとして「ニンジン2本」、「玉ねぎ3個」、「じゃがいも」、「牛肉300g」、および「塩」のそれぞれが含まれていることが特定されたとする。
この場合、音像位置マッピング部23は、特定された1つのアイテム(羅列情報)の文節を含む1または複数の文節からなる発話音声の区間を1つの分割再生区間とする。このとき、例えば1つの分割再生区間には、必ず1つのアイテムの発話が含まれるようにされる。
この例では「今日の買い物は、ニンジン2本、」、「玉ねぎ3個、」、「じゃがいも、」、「牛肉300g、」、および「塩です」のそれぞれの区間が1つの分割再生区間とされる。なお、発話音声の全区間における各分割再生区間の区切りの位置は、発話音声データファイルに含まれる再生時刻情報から特定することが可能である。
このようにして1つの分割再生区間に1つの羅列情報に対応するアイテムの発話が含まれるようにすることで、音像方向、つまりユーザU31から見た音像の定位位置の方向がアイテムごとに異なる方向となる。
この例では、最初の分割再生区間である「今日の買い物は、ニンジン2本、」の発話時には、音像がユーザU31から見て真左の方向に定位する。このとき、分割再生区間の再生中は音像は真左方向に定位したままとなる。
また、次の分割再生区間である「玉ねぎ3個、」の発話時には音像はユーザU31の左斜め前に定位し、その後、次の分割再生区間である「じゃがいも、」の発話時には音像はさらに右方向へと移動し、ユーザU31の真正面の方向に定位する。
さらに次の分割再生区間である「牛肉300g、」の発話時には音像はユーザU31の右斜め前に定位し、最後の分割再生区間である「塩です」の発話時には音像はユーザU31の真右方向に定位して発話音声の再生が終了する。
このようにアイテム単位で音像を移動させることで、すなわちアイテム単位で音声発話の進捗を提示することで、ユーザはアイテムと音像方向とを関連付けることができるので、ユーザに対して発話内容を記憶しやすく提示することができる。
また、提示アイテムの数を音像方向の分割数とする場合においても、図7を参照して説明した場合と同様にしてメタデータを生成しておくことで、アイテム単位でランダムアクセス再生を実現することができる。
すなわち、例えば図9に示した例と同じ発話テキストが供給され、「今日の買い物は、ニンジン2本、」、「玉ねぎ3個、」、「じゃがいも、」、「牛肉300g、」、および「塩です」のそれぞれの区間が分割再生区間とされたとする。
そのような場合、例えば図10に示すようにメタデータが生成される。なお、図10において図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図10に示す例では、羅列情報としてのアイテムの個数で音像の方向が均等に分割され、音像範囲AR31乃至音像範囲AR35とされる。
すなわち、音像位置マッピング部23は発話テキストから検出されたアイテム(羅列情報)ごとに、それらのアイテムを含む分割再生区間の再生時において音像が定位する方向を含む音像範囲AR31乃至音像範囲AR35を特定する。
例えば文節「今日の買い物は、」と文節「ニンジン2本、」からなる分割再生区間内に含まれているアイテム「ニンジン2本」をアイテムIT1とする。
また、文節「玉ねぎ3個、」、「じゃがいも、」、「牛肉300g、」、および「塩です」のそれぞれからなる分割再生区間内に含まれているアイテム「玉ねぎ3個」、「じゃがいも」、「牛肉300g」、および「塩」のそれぞれをアイテムIT2乃至アイテムIT5とする。
さらに、それらのアイテムIT1乃至アイテムIT5を特定するための番号をアイテム番号1乃至アイテム番号5とするものとする。なお、アイテム番号の付与時には、発話音声の先頭の分割再生区間に含まれるアイテムから最後の分割再生区間に含まれるアイテムまで順番に、先頭のアイテムのアイテム番号が1とされ、後ろ側にあるアイテムほど大きいアイテム番号となるように連続した番号が付与されるものとする。
図10の例では、アイテムIT1乃至アイテムIT5のそれぞれの音像範囲、すなわちアイテムIT1乃至アイテムIT5のそれぞれの発話が含まれる分割再生区間の音像範囲として、音像範囲AR31乃至音像範囲AR35が特定される。
音像範囲AR31は、矢印W31に示す方向から矢印W32に示す方向までの範囲となっている。
同様に、音像範囲AR32は、矢印W32に示す方向から矢印W33に示す方向までの範囲であり、音像範囲AR33は、矢印W33に示す方向から矢印W34に示す方向までの範囲である。また、音像範囲AR34は、矢印W34に示す方向から矢印W35に示す方向までの範囲であり、音像範囲AR35は、矢印W35に示す方向から矢印W36に示す方向までの範囲である。
ここで、矢印W31に示す方向は、最初のアイテムIT1の発話が含まれる分割再生区間のマッピング先とされた音像方向となっており、矢印W36に示す方向は、最後のアイテムIT5の発話が含まれる分割再生区間のマッピング先とされた音像方向となっている。
また、例えば矢印W32に示す方向は、最初のアイテムIT1の発話が含まれる分割再生区間のマッピング先とされた音像方向と、2番目のアイテムIT2の発話が含まれる分割再生区間のマッピング先とされた音像方向との間の方向となっている。より具体的には、例えばアイテムIT1の発話が含まれる分割再生区間のマッピング先とされた音像方向と、2番目のアイテムIT2の発話が含まれる分割再生区間のマッピング先とされた音像方向との中間の方向が矢印W32に示す方向とされる。
矢印W33に示す方向は、2番目のアイテムIT2の発話が含まれる分割再生区間のマッピング先とされた音像方向と、3番目のアイテムIT3の発話が含まれる分割再生区間のマッピング先とされた音像方向との間の方向となっている。
さらに矢印W34に示す方向および矢印W35に示す方向についても、矢印W33に示す方向と同様に、連続する2つの分割再生区間のそれぞれのマッピング先とされた音像方向の間の方向となっている。
以下では、アイテムの音像範囲の境界となる方向のうち、より右方向にある方向、つまりより角度が大きい方向を音像範囲の終了部分の方向とも称することとする。例えばアイテムIT1の音像範囲AR31であれば、矢印W32に示す方向が、音像範囲AR31の終了部分の方向となる。
音像位置マッピング部23は、自然言語解析の結果からアイテムIT1乃至アイテムIT5を特定することができる。
また、発話音声データファイルには再生時刻情報が含まれており、音像位置マッピング部23は、この再生時刻情報から、アイテムIT1乃至アイテムIT5のそれぞれの発話が含まれる分割再生区間のそれぞれの区切り位置の再生時刻を知ることができる。
特に、以下では、各アイテムの発話を含む分割再生区間の先頭部分の再生時刻をアイテム再生開始時刻とも称することとする。
さらに、音像位置マッピング部23は、各アイテムの分割再生区間の音像方向へのマッピング結果から、各アイテム(分割再生区間)の音像範囲の境界となる方向、すなわち矢印W31に示す方向乃至矢印W36に示す方向を特定することができる。
このようにして各アイテムのアイテム再生開始時刻と、各アイテムの音像範囲の境界となる方向とが特定されると、音像位置マッピング部23は、それらの特定結果から矢印Q31に示すメタデータを生成する。
矢印Q31に示すメタデータには、各アイテムIT1乃至アイテムIT5のそれぞれについて、アイテム再生開始時刻を示すアイテム再生開始時刻情報と、アイテムの音像範囲の終了部分の方向の角度を示すアイテム終了角度情報とが含まれている。
例えば矢印Q31に示すメタデータにおける「アイテム1の再生開始時刻」は、アイテム番号が1であるアイテムIT1のアイテム再生開始時刻を示すアイテム再生開始時刻情報である。
また、例えば矢印Q31に示すメタデータにおける「アイテム1の終了角度」は、アイテムIT1の音像範囲AR31の終了部分の方向の角度、すなわち音像範囲AR31と音像範囲AR32との境界となる方向の角度を示すアイテム終了角度情報である。
以下では、アイテムの音像範囲の終了部分の方向の角度をアイテム終了角度とも称することとする。
このようなメタデータを生成しておけば、発話音声のランダムアクセス再生が可能となる。例えば指定方向特定部31において、ユーザU31により指定された指定方向として、矢印DG31に示す方向が特定されたとする。
この場合、矢印DG31に示す指定方向は、音像範囲AR32に含まれる方向であるので、ユーザU31によってアイテムIT2が指定されたことになる。
再生制御部26では、矢印Q31に示すメタデータを参照して、矢印DG31に示す指定方向の角度が、アイテムIT1のアイテム終了角度からアイテムIT2のアイテム終了角度の間の角度であることを特定できる。これにより、指定方向が音像範囲AR32内の方向であることが特定される。すなわち、アイテムIT2の分割再生区間が指定されたことが特定されたことになる。
したがって、この場合、再生制御部26はランダムアクセス再生として矢印B31に示すように、特定されたアイテムIT2の分割再生区間のアイテム再生開始時刻から発話音声を再生させることができる。
〈マッピング処理について〉
次に、以上において説明したように羅列情報、すなわちアイテムが含まれる発話の再生区間を分割再生区間とする場合に行われるマッピング処理について説明する。
すなわち、以下、図11のフローチャートを参照して、音像位置マッピング部23により行われる、図4のステップS13の処理に対応するマッピング処理について説明する。
なお、ステップS101の処理は図5のステップS41の処理と同様であるので、その説明は省略する。
ステップS102において、音像位置マッピング部23は、自然言語解析部21からの自然言語解析の結果に基づいて、音像方向の分割数を算出する。
例えば音像位置マッピング部23は、自然言語解析の結果から同一の述語節に係る複数の対象格の文節の数を羅列情報の数、すなわちアイテム数として検出し、検出されたアイテム数を音像方向の分割数とする。
ステップS103において、音像位置マッピング部23は、音声合成エンジン22からの発話音声データファイルに基づいて、発話音声の音声データの全再生区間の、ステップS102で得られた分割数への時間分割を行う。
例えば音像位置マッピング部23は、発話音声データファイルに含まれる再生時刻情報に基づいて羅列情報、すなわちアイテムを含む文節の区切り位置の再生時刻を特定し、その区切り位置で発話音声の全再生区間を分割する。このときアイテムを含まない文節については、その文節に隣接するアイテムを含む文節と同じ分割再生区間に含まれるように、文節の係り受け構造に基づいて全再生区間の分割が行われる。これにより、全再生区間の分割された複数の区間のそれぞれが1つのアイテムを含む分割再生区間のそれぞれとされる。
このようにして発話音声の全再生区間がアイテムごとの分割再生区間に分割されると、その後、ステップS104乃至ステップS106の処理が行われて音像位置情報が生成されるが、これらの処理は図5のステップS44乃至ステップS46の処理と同様であるので、その説明は省略する。
なお、ステップS104乃至ステップS106では、音声データのサンプリングレートから真左方向に音像を定位させるのに必要となる左右のチャネルの音声データの位相差を示すサンプル数d/(c/f)が求められ、真左方向についての位相差情報とされる。
また、音像方向の分割数から180/(分割数−1)度を算出することで音像の移動角度が算出され、音像が移動角度ずつ右方向に移動していくように分割再生区間のマッピングが行われる。このとき、各音像方向に音像を定位させるのに必要となる位相差は、真左方向に音像を定位させるのに必要となる位相差に基づいて求めることができる。
さらに、ステップS106において真右方向であると判定された場合、全ての分割再生区間について処理が行われ、音像位置情報が得られたので処理はステップS107へと進む。
ステップS107において音像位置マッピング部23は、自然言語解析部21からの解析結果と、音声合成エンジン22からの発話音声データファイルと、分割再生区間のマッピング結果とに基づいてメタデータを生成する。
例えば音像位置マッピング部23は、自然言語解析の結果と、発話音声データファイルの再生時刻情報とから、各アイテムの分割再生区間の区切り位置の再生時刻を特定し、メタデータに含まれるアイテム再生開始時刻情報を生成する。
また、音像位置マッピング部23は、各アイテムの分割再生区間の音像方向へのマッピング結果から音像範囲の境界となる方向を特定し、メタデータに含まれるアイテム終了角度情報を生成する。その結果、各アイテムのアイテム再生開始時刻情報とアイテム終了角度情報とからなるメタデータが得られることになる。
以上のようにして音像位置情報およびメタデータが得られると、音像位置マッピング部23は、これらの音像位置情報およびメタデータを音像定位エンジン24に供給し、マッピング処理は終了する。
以上のようにして音声発話進捗提示UIシステムは、自然言語解析の結果に基づいて音像方向の分割数を算出して発話音声の全再生区間を分割数の分割再生区間に分割する。また、音声発話進捗提示UIシステムは、各分割再生区間のマッピングを行って音像方向を定め、音像位置情報を生成するとともにメタデータも生成する。このようにすることで、発話音声の再生時に適切に音像を移動させて進捗を提示することができるようになる。
〈ランダムアクセス再生処理について〉
続いて、アイテムの発話が含まれる再生区間を分割再生区間とする場合に行われるランダムアクセス再生処理について説明する。
すなわち、以下、図12のフローチャートを参照して、音声発話進捗提示UIシステムによるランダムアクセス再生処理について説明する。なお、ステップS131の処理は図8のステップS71の処理と同様であるので、その説明は省略する。
ステップS132において、再生制御部26は、処理対象とするアイテム番号を示すパラメータNの値を1とする。なお、以下、パラメータNにより示されるアイテム番号のアイテムをアイテムNとも称することとする。
ステップS133において、再生制御部26は、ステップS131で音声再生操作部28から供給された操作信号に含まれる指定方向の角度が、アイテムNのアイテム終了角度以下であるか否かを判定する。
すなわち、再生制御部26は、これからランダムアクセス再生しようとする音像定位音声データファイルを音像定位音声データファイル記録部25から読み出す。そして、再生制御部26は、音像定位音声データファイルのメタデータを参照することでアイテムNのアイテム終了角度を特定し、そのアイテム終了角度と指定方向の角度とを比較することで、指定方向の角度がアイテムNのアイテム終了角度以下であるかの判定を行う。
ステップS133において指定方向の角度がアイテムNのアイテム終了角度以下でない、つまりアイテムNのアイテム終了角度よりも指定方向がユーザから見て右側にある方向である場合、処理はステップS134へと進む。
ステップS134において、再生制御部26はパラメータNの値を1だけインクリメントする。
ステップS135において、再生制御部26は新たなパラメータNにより示されるアイテムNが最終アイテムであるか否かを判定する。
ここでいう最終アイテムとは、音像定位音声データにおける時間的に最後の分割再生区間のアイテムである。例えば最終アイテムは、メタデータに含まれるアイテム再生開始時刻情報の数、またはアイテム終了角度情報の数から特定可能である。
ステップS135において最終アイテムであると判定された場合、指定方向が正しく指定されなかったので、ランダムアクセス再生処理は終了する。
これに対して、ステップS135において最終アイテムでないと判定された場合、処理はステップS133に戻り、上述した処理が繰り返し行われる。
また、ステップS133において、指定方向の角度がアイテムNのアイテム終了角度以下であると判定された場合、処理はステップS136へと進む。
この場合、ユーザにより指定された指定方向は、アイテムNの音像範囲内の方向であることが分かるので、ユーザによってアイテムNが指定されたことになる。
ステップS136において、再生制御部26は、音像定位音声データファイルのメタデータを参照することでアイテムNのアイテム再生開始時刻を特定し、そのアイテム再生開始時刻以降の音像定位音声データを音声再生デバイス27に供給して再生させることで、アイテムNのアイテム再生開始時刻から発話音声の再生を開始させる。音声再生デバイス27は、再生制御部26から供給された音像定位音声データに基づいて、発話音声を再生する。
このようにしてユーザにより指定されたアイテムの分割再生区間の先頭部分から発話音声を再生させると、ランダムアクセス再生処理は終了する。
以上のようにして音声発話進捗提示UIシステムは、ユーザにより指定された指定方向に対応するアイテムを特定し、そのアイテムの分割再生区間の先頭部分から発話音声の再生を開始する。音声発話進捗提示UIシステムでは、メタデータとしてアイテム再生開始時刻情報とアイテム終了角度情報とを記録しておくことで、ランダムアクセス再生を実現することができる。これにより、ユーザの使い勝手を向上させることができる。
〈第2の実施の形態の変形例1〉
〈音像範囲について〉
また、第2の実施の形態では、各アイテムに対して均等な広さの音像範囲が定められる例について説明したが、アイテムの重要度に応じて音像範囲の広さを定めるようにしてもよい。すなわち、アイテムの重要度に応じて音像定位の角度の分解能を変更してマッピングを行うようにしてもよい。この場合、アイテムの重要度が高いほど、より広い音像範囲が割り当てられるようにすればよい。
具体的には、例えば図13の矢印A51に示すように、発話テキストの文章が「今日の持ち物は、財布、携帯電話、時計、たばこ、社員証です。」であったとする。
また、この発話テキストに対する自然言語解析の結果、矢印A52に示すようにアイテムとして「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」が検出されたとする。
この場合、音像位置マッピング部23は、それらの各アイテムに対して重要度を定める。ここで、重要度は、重要度の値が大きいほど、つまり重要度が高いほど重要なアイテムであることを示している。
この例では、アイテム「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」のそれぞれに対して重要度2、重要度2、重要度1、重要度1、および重要度3のそれぞれが定められている。
ここで、各アイテムの重要度は、例えばユーザ等によってアイテムごとに予め定められているようにしてもよいし、自然言語解析の結果に基づいて動的に定められるようにしてもよい。
また、例えば音像位置マッピング部23が、ユーザの行うべき事項やユーザの予定を示すリスト、すなわち、いわゆるto doリスト等の予定情報を取得し、その予定情報に基づいてアイテムの重要度を定めるようにしてもよい。具体的には、例えば直近1週間の予定情報に子供の誕生日などを示す情報が含まれている場合、アイテムとして検出された「プレゼント」の重要度が最も高い値となるようにすることができる。
図13に示すように各アイテムの重要度が定められると、例えば音像位置マッピング部23は、以下のようにしてアイテム「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」のそれぞれの音像範囲の広さを決定する。
すなわち、まず音像位置マッピング部23は、全アイテムの重要度の値を加算(積算)し、その結果得られた加算値で、音像方向の取り得る角度の範囲である180度を除算することで、全角度である180度に対する最小分解能の角度を算出する。
この例では各アイテム「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」のそれぞれの重要度の値である2、2、1、1、および3が加算されて加算値「9」が算出される。そして、その加算値により180度が除算されて、最小分解能の角度として20(=180/9)度が算出される。
音像位置マッピング部23は、このようにして求めた最小分解能の角度である20度に対して、各アイテムの重要度の値を乗算することでアイテムの音像範囲の広さの角度を算出し、その算出結果に応じて各アイテムの発話を含む分割再生区間のマッピングを行う。
例えば図13に示した例では、アイテム「財布」および「携帯電話」の重要度はそれぞれ「2」であるので、それらのアイテムの音像範囲の広さの角度は40(=2×20)度とされる。
また、アイテム「時計」および「たばこ」の重要度はそれぞれ「1」であるので、それらのアイテムの音像範囲の広さの角度は20(=1×20)度とされ、アイテム「社員証」の重要度は「3」であるので、そのアイテムの音像範囲の広さの角度は60(=3×20)度とされる。
このようにして各アイテムの音像範囲の広さを定める場合、例えば図14に示すように各分割再生区間のマッピングが行われる。すなわち、各アイテムの分割再生区間に対して、定められた広さの音像範囲が割り当てられる。このとき、各音像範囲同士が重ならないように割り当てが行われる。
図14に示す例では、発話テキストの文章「今日の持ち物は、財布、携帯電話、時計、たばこ、社員証です。」に対して、発話音声の「今日の持ち物は、財布、」、「携帯電話、」、「時計、」、「たばこ、」、および「社員証です。」のそれぞれの発話が含まれる区間が分割再生区間とされている。
そして、それらの「今日の持ち物は、財布、」、「携帯電話、」、「時計、」、「たばこ、」、および「社員証です。」が含まれる分割再生区間のそれぞれの音像範囲として、音像範囲AR51乃至音像範囲AR55のそれぞれが定められている。
例えばアイテム「財布」を含む「今日の持ち物は、財布、」の部分の分割再生区間の音像範囲AR51は40度の広さの範囲となっている。
また、例えばアイテム「社員証」を含む「社員証です。」の部分の分割再生区間の音像範囲AR55は60度の広さの範囲となっている。
このとき、各分割再生区間がマッピングされる音像方向はユーザU41から見て、それらの分割再生区間の音像範囲内に含まれる方向であれば、どのような方向であってもよい。
具体的には、例えば分割再生区間の音像範囲の真ん中の方向を、その分割再生区間の音像方向とするようにしてもよい。
この場合、例えばユーザU41から見て最も左側に位置する、アイテム「財布」の分割再生区間の音像方向は、その分割再生区間の音像範囲AR51の真ん中の方向である−70度の方向とされる。
なお、時間的に最初の分割再生区間の音像方向はユーザU41から見て真左の方向とされ、時間的に最後の分割再生区間の音像方向はユーザU41から見て真右の方向とされるようにしてもよい。
以上のようにしてアイテムの重要度に応じて音像範囲を定める場合、図11を参照して説明したマッピング処理のステップS103では、全再生区間の分割再生区間への時間分割だけでなく音像範囲も定められる。すなわち、音像位置マッピング部23は各アイテム、つまり各分割再生区間の重要度を定めるとともに、重要度に基づいて各分割再生区間の音像範囲の広さを定める。
そして、ステップS104乃至ステップS106では、各分割再生区間の音像範囲の角度(広さ)に基づいて、処理対象の分割再生区間の音像方向へのマッピングが行われる。このとき、移動角度は、各分割再生区間の音像範囲の角度(広さ)に基づいて分割再生区間ごとに求められることになる。
以上のようにアイテムの重要度に応じて音像範囲を定めることで、重要なアイテムほど音像範囲を広くすることができる。その結果、例えばランダムアクセス再生などにおいて、重要なアイテムほどユーザによる指定を行いやすくすることができる。
なお、ランダムアクセス再生時には、図12を参照して説明したランダムアクセス再生処理が行われることになる。
さらに、例えば発話音声によってユーザの予定リストなどを提示する場合には、予定の時間に応じて、各予定に対応する分割再生区間のマッピングを行うようにしてもよい。
そのような場合、予定の時間により定まる方向へとマッピングが行われる。例えば真左方向に朝の予定、すなわち朝の予定の分割再生区間がマッピングされ、正面方向に昼の予定がマッピングされ、夜の予定が真右方向にマッピングされるようにすることができる。この場合、ユーザは発話音声の音像位置から、発話される予定がどの時間帯の予定であるかを聴覚的に簡単に把握することができる。
また、例えば発話音声として、ニュースの複数のトピックを互いに異なる音像方向で提示する音声を再生し、ユーザから指定方向が指定されたときに、その指定方向に対応するトピックのより詳細なニュース原稿の音声を再生するようにしてもよい。
そのような場合、発話音声におけるニュースの1つのトピックの区間が1つの分割再生区間とされ、分割再生区間ごとに異なる音像方向へのマッピングが行われる。また、メタデータとして分割再生区間、すなわちトピックを示す情報と、そのトピックの終了角度情報と、トピックのより詳細なニュース原稿の音声データの記録先を示す情報とが含まれるデータが生成される。このようにすれば、上述したランダムアクセス再生と同様にして、ユーザにより選択された任意のトピックの詳細なニュース原稿の音声を選択的に再生することができるようになる。
さらに、発話音声の音像位置、すなわち音像方向へのマッピングは、ユーザの顔の向きに対して相対的な方向へのマッピングに限らず、空間上の絶対的な方向へのマッピングを行うようにしてもよい。このとき、例えば指定方向特定部31により、ユーザの顔の向きや実物体の位置等を検出し、その検出結果も発話音声の再生制御や音像定位に用いるようにしてもよい。
例えば発話音声を複数のスピーカからなるスピーカシステムで再生するような再生環境である場合、複数人のユーザが同時に発話を聞くときに空間上の絶対的な方向へと分割再生区間をマッピングすると特に有効である。
また、例えば絶対的な空間位置にある実物体の位置を、例えば指定方向特定部31が有するカメラなどで認識し、発話の音像を実物体の位置に定位させて、発話のアイテムと実物体との関連付けによりユーザの記憶補助を行うようにしてもよい。
さらに、例えば指定方向特定部31によりユーザの顔の向きを検出し、その顔の向きに応じて発話音声の再生制御を行うこともできる。この場合、例えばユーザが自身から見て左側を向いた時には、現在再生中の発話音声の1つ前の発話音声の再生を開始するなどの制御を行うことができる。
また、発話音声の音像方向は左右方向だけでなく、サラウンドシステムなどの再生環境によっては前後方向や上下方向など、ある任意の方向から他の方向へと音像を移動させて発話進捗を提示してもよい。
〈第3の実施の形態〉
〈進捗提示の他の例〉
さらに、以上においてはある方向から他の方向へと音像を移動させることにより、音声発話の進捗を提示する場合について説明したが、音像の移動に限らず、聴覚的な方法により進捗を提示できれば、どのような音声出力により進捗提示を行うようにしてもよい。
例えば発話の進捗提示として、音像ではなく、発話音声の背景音としてユーザが聞き慣れた、すなわちユーザが慣れ親しんでいる、発話音声の再生時間とほぼ同じ長さの再生時間の楽曲を再生することにより発話の進捗を聴覚的に提示してもよい。
この場合、発話音声とは異なる背景音により、発話音声の再生の進捗が提示されることになる。換言すれば、発話音声を再生するとともに、発話音声の再生の進捗を表す背景音を再生することによって、発話音声の再生の進捗が表される音声出力が行われる。
なお、背景音は楽曲の他、発話の再生終了までの残り時間をカウントダウンしていくカウントダウン音声、発話の再生終了までの残り時間や発話の進捗率(例えばパーセンテージなど)を所定時間間隔で発話する音声や効果音などとすることもできる。
以下では、発話テキストから得られる音声発話、つまりユーザに対して伝達する主たる情報が発話内容として含まれている発話を目的発話とも称することとする。また、目的発話とは異なる、ユーザに対して目的発話の進捗を聴覚的に提示するための音声を背景音とも称することとする。
例えば、目的発話の音声とともに背景音を再生して、ユーザに目的発話の進捗提示を行う場合、ユーザが聞き慣れている楽曲や一般的に広く知られている有名な楽曲などを背景音として選択して再生することができる。
この場合、ユーザは事前知識として持っている楽曲のフレーズやメロディ、すなわち例えば曲の1番や2番、AメロディやBメロディ、サビなどにより曲があとどれくらいで終わるかを認知し、全体に対する進捗や発話終了までの残り時間を知ることができる。
この場合においても、例えば背景音としての音楽のパートなどと、目的発話の文節やアイテム(羅列情報)とが関連付けられるので、ユーザがアイテム等を記憶しやすくすることができる。このような背景音を利用した進捗提示は、特に目的発話の音声の再生時間が長い場合などに有効である。
〈音声発話進捗提示UIシステムの構成例〉
このように背景音を用いて目的発話の進捗提示を行う場合、音声発話進捗提示UIシステムは、例えば図15に示すように構成される。なお、図15において、図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図15に示す音声発話進捗提示UIシステムの構成は、図3に示した音声発話進捗提示UIシステムの構成に新たに背景音生成部61を設けた構成となっており、その他の点では図3に示した音声発話進捗提示UIシステムと同様の構成となっている。
背景音生成部61は、音声合成エンジン22から供給された目的発話の音声データに基づいて、目的発話の再生時間とほぼ同じ再生時間の楽曲等を選択して背景音の背景音データを生成し、音声合成エンジン22に供給する。
なお、背景音は、上述したように楽曲などであってもよいし、カウントダウン音声、発話の残り時間や進捗率を発話する音声、効果音などであってもよい。また、背景音データの生成時には、背景音生成部61が背景音の再生時間が、目的発話の再生時間とほぼ同じとなるように、適宜、背景音の再生速度を一定の速度だけ変化させるようにしてもよい。
音声合成エンジン22は、目的発話の音声データと、再生時刻情報と、背景音生成部61からの背景音データとを含む発話音声データファイルを生成し、音像位置マッピング部23および音像定位エンジン24に供給する。
また、音像定位エンジン24では、音声合成エンジン22から供給された発話音声データファイルと、音像位置マッピング部23から供給された音像位置情報およびメタデータとに基づいて音像定位音声データファイルが生成される。
このとき、音像定位音声データファイルには少なくとも目的発話の音像定位音声データと、背景音データとが含まれるようにされるが、音像定位音声データに基づく目的発話の音声は、進捗とともに音像が移動するものであってもよいし、継続して音像が一定の方向に定位するようなものであってもよい。すなわち、音像の移動による進捗提示は行われてもよいし行われなくてもよい。
また、例えば背景音がカウントダウン音声、発話の残り時間や進捗率を発話する音声などである場合には、音像位置マッピング部23により背景音の音像位置情報が生成されるようにしてもよい。そのような場合、音像定位エンジン24では、その音像位置情報と背景音データとから、目的発話の進捗に応じて音像が移動していく背景音の背景音データが生成され、音像定位音声データファイルに格納される。
この場合、例えば目的発話の音像は継続して正面方向等の同じ方向に定位するようにしてもよいし、背景音の音像と目的発話の音声の音像とが同じ位置に定位し、かつ進捗に合わせてそれらの音像が移動していくようにしてもよい。
例えば目的発話の音像と同じ位置に背景音の音像を定位させ、目的発話の音像とともに背景音の音像も移動していく場合、音像の移動により進捗提示を行いつつ、背景音を進捗提示の補助情報としてユーザに提示することができる。これにより、ユーザはより正確に発話の進捗状況を把握することができる。このような進捗提示では、例えば図2や図9を参照して説明した例のように発話音声の進捗に合わせて音像が移動し、それと同時に背景音声の音像も同じように移動していくことになる。
さらに目的発話の音像と背景音の音像が移動せずに背景音によってのみ目的発話の進捗状況を提示するようにしてもよい。また、目的発話の音像を移動させて進捗状況を提示しつつ、背景音の音像は移動させずに背景音の再生によっても進捗提示を行うようにしてもよい。なお、背景音の音像を移動させる場合には、音像位置マッピング部23においては、目的発話の音像位置情報の生成と同様の処理が行われて、背景音の音像位置情報が生成されることになる。また、音像定位エンジン24では、音像定位音声データの生成と同様の処理により、背景音の音像位置情報と背景音データとから、音像の位置が所定方向へと移動していく背景音を再生するための背景音データが生成されることになる。
〈再生処理の説明〉
次に、図15に示した音声発話進捗提示UIシステムが目的発話の音声と背景音を再生する処理である再生処理について説明する。
すなわち、以下、図16のフローチャートを参照して、音声発話進捗提示UIシステムによる再生処理について説明する。なお、ここでは目的発話の音像も背景音の音像もユーザから見て正面方向に定位する例について説明する。つまり、音像が移動しない例について説明する。
ステップS161において、音声合成エンジン22は、供給された発話テキストに対して音声合成処理を行って目的発話の音声データを生成し、背景音生成部61に供給する。
ステップS162において、背景音生成部61は、音声合成エンジン22から供給された目的発話の音声データに基づいて、目的発話の再生時間とほぼ同じ再生時間の楽曲等の音声データを背景音データとして生成し、音声合成エンジン22に供給する。
ステップS163において、音声合成エンジン22は、ステップS161で生成した目的発話の音声データと、背景音生成部61から供給された背景音データとを含む発話音声データファイルを生成し、音像定位エンジン24に供給する。
音像定位エンジン24は、音声合成エンジン22から供給された発話音声データファイルに基づいて音像定位音声データファイルを生成して音像定位音声データファイル記録部25に供給し、記録させる。例えば音像定位エンジン24は、モノラルの音声データおよび背景音データを、左右の2チャネルの音声データおよび背景音データに変換し、それらの2チャネルの目的発話の音声データと背景音データとからなる音像定位音声データファイルを生成する。
ステップS164において、再生制御部26は、音像定位音声データファイル記録部25に記録されている音像定位音声データファイルを読み出して音声再生デバイス27に供給し、目的発話と背景音を再生させる。このようにして、目的発話と背景音を再生させることで、再生制御部26により目的発話の全体に対する進捗を聴覚的に表す音声出力が制御されることになる。
音声再生デバイス27は、再生制御部26から供給された音像定位音声データファイルに含まれている音声データと背景音データとに基づいて目的発話の音声と背景音とを同時に再生する。すると、ユーザは目的発話とともに背景音を聞くことができる。また、ユーザは背景音により、目的発話の進捗状況を知ることができる。
なお、背景音の再生にあたっては、背景音の音量によっても目的発話の進捗を把握することができるように、進捗に応じた音声出力として、目的発話の進捗が進むにつれて背景音の再生音量が次第に小さくなるようにしてもよい。
また、背景音や目的発話の音声にエコー等の音響効果を施し、目的発話の進捗が進むにつれて背景音や目的発話の音声に施される音響効果が小さくなっていくようにしてもよいし、目的発話の進捗が進むにつれて背景音の声色等が変化していくようにしてもよい。
以上のようにして音声発話進捗提示UIシステムは、目的発話の音声データと背景音の背景音データとを含む音像定位音声データファイルを生成し、目的発話とともに背景音を再生させる。このように目的発話の音声とともに背景音を再生するといった、発話音声全体に対する進捗を聴覚的に表す音声出力を行うことで、ユーザに対して音声再生の進捗状況を提示することができる。
なお、例えば図15に示した音声発話進捗提示UIシステムにおいて、目的発話の音声とともに、カウントダウン音声、発話の残り時間や進捗率を発話する音声などを背景音として再生する場合、目的発話が聞き取りにくくならないようにしてもよい。
具体的には、例えば目的発話の音声と、背景音の発話音声とで音像の定位する方向(位置)を異なる方向とすれば、それらの目的発話の音声と背景音とが混ざり合ってしまうことを抑止し、それらの両方の音声を聞き取りやすくすることができる。
その他、例えば目的発話の音声と、背景音の発話音声とで音声の声色性別が異なるようにすることでも、それらの目的発話の音声と背景音とが混ざり合ってしまうことを抑止し、各音声を聞き取りやすくすることができる。このとき、例えば目的発話の音声は女性の声で再生され、背景音の音声は男性の声で再生されるなどとすることができる。
さらに、以上においては発話テキストから発話音声を生成するシステム音声発話に本技術を適用する例について説明した。しかし、その他、音楽の再生や動画像の再生で、視覚的な進捗バーが非表示であるときに音像や背景音により再生の進捗を提示する場合など、本技術は何らかの音声再生の進捗を聴覚的に提示する場合に適用することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する制御部を備える
音声処理装置。
(2)
前記音声は発話テキストに基づく発話音声である
(1)に記載の音声処理装置。
(3)
前記制御部は、音像位置により前記進捗が表される前記音声出力を制御する
(1)または(2)に記載の音声処理装置。
(4)
前記制御部は、提示アイテムの発話を含む再生区間ごとに音像の定位位置が異なり、前記音声の再生の進捗に応じて音像が所定方向に移動していく前記音声の出力を制御する
(3)に記載の音声処理装置。
(5)
前記制御部は、前記音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
(4)に記載の音声処理装置。
(6)
重要度が高い前記提示アイテムの前記再生区間ほどより広い範囲が割り当てられるように、前記再生区間ごとに前記再生区間における音像の方向を含む範囲が定められ、
前記制御部は、前記メタデータに基づいて、前記範囲に前記指定方向が含まれる前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
(5)に記載の音声処理装置。
(7)
前記制御部は、前記音声の再生の進捗に応じて音像が連続的に所定方向に移動していく前記音声の出力を制御する
(3)に記載の音声処理装置。
(8)
前記制御部は、前記音声を再生させるとともに、前記音声の再生の前記進捗を表す背景音を再生させることにより、前記進捗が表される前記音声出力を制御する
(1)または(2)に記載の音声処理装置。
(9)
前記背景音は、再生時間が前記音声とほぼ同じ長さの楽曲である
(8)に記載の音声処理装置。
(10)
前記背景音は、前記音声の再生終了までの時間をカウントダウンしていく音声である
(8)に記載の音声処理装置。
(11)
前記背景音は、前記音声の再生終了までの時間、または前記音声の再生の進捗率を所定時間間隔で発話する音声である
(8)に記載の音声処理装置。
(12)
音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する
ステップを含む音声処理方法。
(13)
再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる再生制御部を備える
音声処理装置。
(14)
再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
ステップを含む音声処理方法。