JPWO2018034168A1

JPWO2018034168A1 - 音声処理装置および方法

Info

Publication number: JPWO2018034168A1
Application number: JP2018534341A
Authority: JP
Inventors: 広岩瀬; 真里斎藤; 真一河野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-08-17
Filing date: 2017-08-03
Publication date: 2019-06-13
Anticipated expiration: 2037-08-03
Also published as: JP7036014B2; WO2018034168A1; EP3503090A1; EP3503090A4; CN109643539A; US11081100B2; US20190164534A1

Abstract

本技術は、音声再生の進捗状況を提示することができるようにする音声処理装置および方法に関する。音声処理装置は、音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する制御部を備える。本技術は音声発話進捗提示UIシステムに適用することができる。

Description

本技術は音声処理装置および方法に関し、特に、音声再生の進捗状況を提示することができるようにした音声処理装置および方法に関する。

従来、TTS（Text To Speech）などの音声合成処理により、発話テキストの文章の音声データを生成し、その音声データを再生することで音声発話を行うシステムが知られている。このようなシステムを用いれば、任意の発話テキストをシステムに入力し、ユーザとの音声対話などを行うことができる。

また、音声の再生に関する技術として、編集加工時に任意の位置に音像を移動させる技術もある。例えば、そのような技術として、音像が移動する軌跡を設定し、その設定に基づいて音像の移動速度を定め、時間とともに音像が移動する音声信号を生成する技術が提案されている（例えば、特許文献１参照）。

特開平７−２２２２９９号公報

ところで、上述したシステムによる音声発話では、時系列に音声発話の内容を提示していくことしかできないため、ユーザはいつ音声発話が終了するのかを知ることができなかった。そのため、例えば再生時間が長いときには、ユーザが最後まで音声発話を聞かずに再生を停止させてしまうこともあり、そのような場合には音声発話による正確な情報伝達ができなくなってしまう。

例えば音声発話により選択メニュー項目や予定リストなどの羅列情報をユーザに伝達する場合に、ユーザが途中で音声発話の再生を停止させてしまうと、全ての情報をユーザに伝達することができなくなってしまう。

また、例えば音声発話の発話意図を伝える述語部分などの文の後半に重要な意味があるときにも、ユーザが途中で音声発話の再生を停止させると、重要箇所をユーザに伝えることができなくなってしまう。

本技術は、このような状況に鑑みてなされたものであり、音声再生の進捗状況を提示することができるようにするものである。

本技術の第１の側面の音声処理装置は、音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する制御部を備える。

前記音声を発話テキストに基づく発話音声とすることができる。

前記制御部には、音像位置により前記進捗が表される前記音声出力を制御させることができる。

前記制御部には、提示アイテムの発話を含む再生区間ごとに音像の定位位置が異なり、前記音声の再生の進捗に応じて音像が所定方向に移動していく前記音声の出力を制御させることができる。

前記制御部には、前記音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定させ、特定された前記再生区間から前記音声の再生を開始させることができる。

重要度が高い前記提示アイテムの前記再生区間ほどより広い範囲が割り当てられるように、前記再生区間ごとに前記再生区間における音像の方向を含む範囲が定められるようにし、前記制御部には、前記メタデータに基づいて、前記範囲に前記指定方向が含まれる前記再生区間を特定させ、特定された前記再生区間から前記音声の再生を開始させることができる。

前記制御部には、前記音声の再生の進捗に応じて音像が連続的に所定方向に移動していく前記音声の出力を制御させることができる。

前記制御部には、前記音声を再生させるとともに、前記音声の再生の前記進捗を表す背景音を再生させることにより、前記進捗が表される前記音声出力を制御させることができる。

前記背景音を、再生時間が前記音声とほぼ同じ長さの楽曲とすることができる。

前記背景音を、前記音声の再生終了までの時間をカウントダウンしていく音声とすることができる。

前記背景音を、前記音声の再生終了までの時間、または前記音声の再生の進捗率を所定時間間隔で発話する音声とすることができる。

本技術の第１の側面の音声処理方法は、音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御するステップを含む。

本技術の第１の側面においては、音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力が制御される。

本技術の第２の側面の音声処理装置は、再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる再生制御部を備える。

本技術の第２の側面の音声処理方法は、再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させるステップを含む。

本技術の第２の側面においては、再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間が特定され、特定された前記再生区間から前記音声の再生が開始される。

本技術の第１の側面および第２の側面によれば、音声再生の進捗状況を提示することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

プログレスバーについて説明する図である。進捗に応じた音像の移動について説明する図である。音声発話進捗提示UIシステムの構成例を示す図である。再生処理を説明するフローチャートである。マッピング処理を説明するフローチャートである。音像位置情報の生成について説明する図である。メタデータの生成について説明する図である。ランダムアクセス再生処理を説明するフローチャートである。進捗に応じた音像の移動について説明する図である。メタデータの生成について説明する図である。マッピング処理を説明するフローチャートである。ランダムアクセス再生処理を説明するフローチャートである。重要度について説明する図である。重要度に応じた音像範囲について説明する図である。音声発話進捗提示UIシステムの構成例を示す図である。再生処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
本技術は、発話テキストの音声発話を行うときに、発話音声の再生に合わせて発話音声再生全体に対する進捗状況を聴覚的に表す音声出力を行うことで、ユーザに対して発話音声（音声再生）の進捗状況を提示することができるようにするものである。

具体的には、例えば音声発話中に発話の進捗に合わせて音像位置を移動させることにより、ユーザが発話の全体量と、現時点で発話音声の再生がどこまで進んでいるのかを音像位置により聴覚的に認知できるようにした。

例えば発話進捗に合わせた音像位置の移動、つまり音像の定位方法の例として、一般的にユーザが見慣れている視覚によるプログレスバーに対応するように、ユーザから見て音像が左から右へと移動するように制御することが考えられる。

このようにして音像位置を移動させれば、ユーザは音像位置から発話全体の長さと、音声発話の進捗状況とを聴覚的に認識することができるので、それらの認識結果に基づいて発話音声の再生に関する操作を行うことができる。これにより、ユーザは、例えば発話音声の残り時間等を考慮して発話音声の再生の打ち切り（停止）や、所定区間の繰り返し再生、発話速度の上げ下げなど、自分自身の状況に適した音声再生操作を行うことができる。

それでは、以下、本技術についてより具体的に説明する。

例えば、ユーザがシステムからディスプレイなどの表示デバイスを通して情報を得る場合、表示された文章全体の俯瞰や、Webブラウザでのスクロールバーのような視覚情報により、情報全体の量と今現在どこまで読み進んでいるかを把握することができる。

一方で、システムからの音声発話による情報を視覚情報なしで得る場合には、音声は聴覚に対して時系列にしか入力されないため、ユーザは発話の全体量と今現在どこまで読み進んでいるのかを認識することができない。そのため、ユーザは発話自体がいつ終わるかも知ることができないので、心理的に最後まで音声発話を聞くことができないことがある。そうすると、ユーザは必要な情報を得ることができなくなってしまう。

そこで、本技術では音像移動により、すなわち各時刻における音像の位置により音声発話の全体量と聞き取り進捗状況を提示するUI（User Interface）を実現できるようにした。換言すれば、音像が位置する方向によって音声再生の進捗が表されるUIを実現できるようにした。

一般的に、視覚情報による進捗提示のUIとして図１に示すようなプログレスバーがコンピュータなどの機器で使用されている。本技術を適用したUIは、このような一般的な視覚による進捗提示UIとして慣れ親しんだプログレスバーを、発話音声の音像移動によりユーザに聴覚のみで認知させるUIである。

ここで、図２に音像移動による音声発話の進捗提示例を示す。

図２に示す例は、音声エージェント等のシステムがユーザＵ１１に対して登録しておいた買い物リスト情報を音声発話により提供する例である。

ここでは、システムにより発話される内容は「今日の買い物は、ニンジン２本、玉ねぎ３個、じゃがいも、牛肉300ｇ、塩、胡椒、醤油、ビールです」となっている。

ユーザＵ１１はヘッドホンやステレオスピーカシステム、またはサラウンドスピーカシステムなどの左右の音像の定位が認識できる視聴環境にあるものとする。

このとき、システムが音声発話を行うと、つまり発話音声を再生すると最初は発話音声がユーザＵ１１から見て左側から聞こえる。すなわち、発話音声の最初の部分である「今日の買い物は」では、発話音声の音像がユーザＵ１１の左側の位置に定位している。

その後、発話音声の再生が進むにつれて徐々に音像が右方向に移動する。例えば発話音声の中間部分である「じゃがいも」はユーザＵ１１の真正面から聞こえてくるように再生が行われる。すなわち、発話音声の「じゃがいも」の部分では音像がユーザＵ１１の真正面の方向（位置）に定位する。

そして、発話音声の再生がさらに進み、最後は発話音声がユーザＵ１１の右側から聞こえて音声発話が終了する。この例では、発話音声の最後の部分である「ビールです」はユーザＵ１１の右側から聞こえることになる。つまり、発話音声の「ビールです」の部分では、音像がユーザＵ１１の右側の位置に定位する。

なお、より詳細には、例えば発話音声の「今日の買い物は」の部分など、各部分の再生中にも音像はほぼ連続的に右方向へと移動していく。

このように音声発話の再生状況、つまり発話の進捗状況に応じて発話音声の音像をユーザＵ１１の左側から右側へとほぼ連続的に移動させることで、ユーザＵ１１は発話が開始された後の音像の右方向へと進む速度によって、音声発話全体のおおよその時間を認識することができる。

また、ユーザＵ１１は、音声発話の最中に発話音声がどの方向から聞こえてくるか、つまり発話音声の音像位置によって、今現在、音声発話全体のどこまで聞けているか、つまりどこまで発話音声の再生が行われたかを認識することができる。これにより、ユーザＵ１１は残りの発話時間を把握することができる。

例えば、発話音声の音像位置がユーザＵ１１から見て左斜め前ならまだ前半の４分の１くらい、音像位置がユーザＵ１１から見て正面なら半分、音像位置がユーザＵ１１から見て右斜め前なら後半の４分の３くらいであるなど、ユーザＵ１１は音像位置から発話音声の進捗状況を知ることができる。また、ユーザＵ１１は、発話音声をこれまで聞いていた時間の感覚から、発話音声の残りの再生時間はどの程度であるかを感覚的に把握することができるので、ユーザＵ１１が最後まで発話を聞く意識を強めることができる。

さらに、発話音声の再生の繰り返し、発話速度の上げ下げ、再生停止などの再生操作を可能とする手段がユーザＵ１１に提供されている場合には、ユーザＵ１１は自身が置かれている時間的余裕がどれくらいあるかの状況と残りの発話時間の把握によって、適切な再生操作を選択することができる。例えばユーザＵ１１は、時間があまりないが、発話音声の最後までまだ長いので発話速度を上げて集中して聞くようにしたり、時間があるので発話速度を下げて繰り返しゆっくりと聞くようにしたり、時間がなくて発話音声の残りも多すぎるのであきらめて再生停止したりするといった操作の誘導も可能となる。

なお、ここでは発話音声の音像がユーザから見て左から右方向に移動する例について説明するが、音像の移動方向は右から左方向や上下方向、前後方向など、どのような方向であってもよい。例えば発話音声の言語がペルシャ語であるときには、音像が右から左方向に移動するようにしたり、発話音声の言語が中国語であるときには、音像が上から下方向に移動するようにしたりするなど、発話音声の言語に応じて音像の移動方向を変化させてもよい。

また、ここでは発話音声の音像がユーザから見て左側から右側まで１８０度分だけ移動する例について説明したが、これに限らずユーザから見て左側から真正面まで９０度分だけ音像が移動するなど、任意の角度分だけ音像を移動させることができる。

〈音声発話進捗提示UIシステムの構成例〉
図３は、本技術を適用した音声発話進捗提示UIシステムの一実施の形態の構成例を示す図である。

本技術を適用した音声発話進捗提示UIシステムは、サーバ１１およびクライアントデバイス１２からなり、ユーザに対して音声発話を行うシステムである。この例では、サーバ１１と、スマートホンなどの端末装置からなるクライアントデバイス１２とが有線や無線などにより直接的に、または通信網を介して間接的に接続されている。

サーバ１１は音声処理装置として機能し、発話内容を示すテキストデータである発話テキストに基づいて、音像の移動により音声発話の進捗状況を聴覚的に提示しつつ発話音声を再生するための音像定位音声データファイルを生成し、クライアントデバイス１２に出力する。クライアントデバイス１２は、サーバ１１から供給された音像定位音声データファイルに基づいてユーザに対して発話音声を出力する。

サーバ１１は、自然言語解析部２１、音声合成エンジン２２、音像位置マッピング部２３、音像定位エンジン２４、音像定位音声データファイル記録部２５、および再生制御部２６を有している。また、クライアントデバイス１２は、音声再生デバイス２７、および音声再生操作部２８を有している。

なお、ここでは再生制御部２６がサーバ１１に設けられる例について説明するが、再生制御部２６はクライアントデバイス１２に設けられるようにしてもよい。

サーバ１１の自然言語解析部２１および音声合成エンジン２２には、音声発話によってユーザに対して提示する情報内容の全文章である発話テキストが入力される。

自然言語解析部２１は、入力された発話テキストに対して言語的な解析処理である自然言語解析を行って、その解析結果を音声合成エンジン２２および音像位置マッピング部２３に供給する。例えば自然言語解析では、発話テキストの文章内の文節の係り受け構造を示す情報と、各文節の言語的な格を示す情報とが得られる。

音声合成エンジン２２は、供給された発話テキストに対して音声合成処理を行い、発話文言を音声で再生するための音声データが含まれる発話音声データファイルを生成する。

また、音声合成エンジン２２は、発話音声データファイルの生成時には、適宜、自然言語解析部２１から供給された解析結果を用いて、発話テキストの文章における所望位置の発話音声の再生時刻を示す再生時刻情報を生成し、発話音声データファイルに格納する。

例えば音声合成エンジン２２は、自然言語解析の結果に基づいて、発話テキストの文章における文節の区切り位置にmarkupタグを埋め込むことにより、音声合成処理時に発話音声の音声データのどの再生時刻にmarkupタグ、つまり文節の区切り位置があるかを示す再生時刻情報を発話音声データファイルに付加することができる。

音声合成エンジン２２により生成された発話音声データファイルは、音像位置マッピング部２３および音像定位エンジン２４に供給される。

音像位置マッピング部２３は、自然言語解析部２１からの解析結果と、音声合成エンジン２２からの発話音声データファイルとに基づいて、時系列の音像位置に関する情報である音像位置情報とメタデータとを生成し、音像定位エンジン２４に供給する。

ここで、音像位置情報は、発話音声データファイルに含まれる音声データの全再生区間を分割して得られた分割再生区間と、分割再生区間における音像の位置、つまり音像が位置する方向とに関する情報である。以下では、音像が位置する方向を音像方向や音像の方向とも称する。

より具体的には音像位置情報には、各分割再生区間について、分割再生区間を示す分割再生区間情報と、分割再生区間がマッピングされた方向に音像を定位させるための、左チャネルと右チャネルなどの各チャネルの音声データのサンプルの位相差を示す位相差情報とが含まれている。

また、メタデータには、発話音声の各再生区間の再生開始時刻を示す情報と、各再生区間における音像の方向に関する情報とが含まれている。より具体的には、例えばメタデータには発話テキストの文章を複数の文節に区切ったときの各文節の先頭位置に対応する音声データの再生時刻を示す文節再生開始時刻情報と、各文節の終了位置における音像方向を示す角度情報である文節終了角度情報とが含まれている。

このようなメタデータを生成しておけば、発話音声の再生時に任意の文節から再生を行うことが可能である。このメタデータは、音像定位音声データファイルに含まれる音像定位音声データのメタデータである。

なお、以下、文節再生開始時刻情報により示される再生時刻を文節再生開始時刻とも称することとし、文節終了角度情報により示される角度を文節終了角度とも称することとする。

音像定位エンジン２４は、音声合成エンジン２２からの発話音声データファイルと、音像位置マッピング部２３からの音像位置情報およびメタデータとに基づいて音像定位音声データファイルを生成し、音像定位音声データファイル記録部２５に供給する。

ここで、音像定位音声データファイルには、発話テキストの発話音声の各分割再生区間における音像が、音像位置マッピング部２３によりマッピングされた音像方向に定位するように発話音声を再生するための音像定位音声データと、音像位置マッピング部２３で生成されたメタデータとが含まれている。例えば音像定位音声データは、左右の２チャネル、つまりステレオの音声データや、マルチチャネルの音声データとされる。

音像定位音声データファイル記録部２５は、音像定位エンジン２４から供給された音像定位音声データファイルを記録するとともに、必要に応じて記録している音像定位音声データファイルを再生制御部２６に供給する。

再生制御部２６は、音声再生操作部２８からの操作信号に応じて音像定位音声データファイル記録部２５から音像定位音声データファイルを読み出して音声再生デバイス２７に出力することで、音像定位音声データに基づく発話音声の再生を制御する。

換言すれば、再生制御部２６は、発話の進捗に合わせて音像方向（音像位置）が移動していく発話音声の音像定位音声データファイルを出力することで、発話音声の再生に合わせて発話音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する。

音声再生デバイス２７は、例えばステレオやマルチチャネルのホームシアターシステムのサラウンドスピーカ、ヘッドホンなどからなり、再生制御部２６から出力された音像定位音声データファイルに基づいて発話音声を再生する。これにより、ユーザは音声再生状況、つまり発話の進捗に応じて音像が移動する発話音声を聞くことができる。

音声再生操作部２８は、例えばキー（ボタン）や音声認識ユニットなどからなり、ユーザの入力操作に応じて、再生停止や繰り返し再生、再生速度の上げ下げなどの再生操作を指示する操作信号を生成し、再生制御部２６に供給する。

例えばユーザが自身の時間的な余裕の度合いに応じて、キー操作や音声入力などによって、発話音声の再生停止や繰り返し再生、再生速度の上げ下げなどを指示すると、音声再生操作部２８から再生制御部２６には、ユーザの指示に応じた操作信号が出力される。すると、再生制御部２６は、音声再生操作部２８からの操作信号に応じて発話音声の再生を制御する。

なお、例えば発話音声の再生停止時には、再生制御部２６が再生を停止させた位置、すなわち再生時刻を記録しておき、発話音声の再生を再開するときに、最後に再生を停止させた位置から再生を開始させるようにしてもよい。

また、音声再生操作部２８は、指定方向特定部３１を有している。指定方向特定部３１は、例えばカメラやセンサ、認識器などからなり、画像認識や顔認識、ジェスチャ認識、視線認識などにより、ユーザによって指定された方向を特定する。なお、以下、ユーザによって指定された方向を特に指定方向とも称することとする。

例えばユーザは、所望の方向に視線を向けたり、所望の方向に指を向けるジェスチャを行ったり、自身の顔を所望方向に向けるなどして所望の方向を指定方向として指定する。このようにして指定された指定方向は、例えば音像定位音声データに基づく発話音声のランダムアクセス再生に用いられる。

例えば音像定位音声データファイル内のメタデータには、文節再生開始時刻を示す文節再生開始時刻情報と、文節終了角度を示す文節終了角度情報とが含まれている。そのため、ユーザが所望の文節に対応する方向を指定方向として指定することで、発話音声における任意の文節に対応する位置から再生が可能である。つまり、発話音声のランダムアクセス再生が可能である。

ユーザがランダムアクセス再生を行うために指定方向を指定すると、指定方向特定部３１は、画像認識等によりユーザにより指定された指定方向を特定する。また、音声再生操作部２８は指定方向特定部３１により特定された指定方向を示す情報を含む操作信号を生成し、再生制御部２６に供給する。これにより、再生制御部２６は、指定方向に対応する文節の文節再生開始時刻から発話音声の再生を開始させることができる。

このようなランダムアクセス再生は、発話音声の聞き直し時などに有効である。なお、ランダムアクセス再生では、指定方向に対応する再生時刻から再生を開始してもよいが、ユーザによる指定方向の指定精度には限界があるため、指定方向に対応する文節の先頭位置から再生が開始される。

なお、クライアントデバイス１２においては、音声再生操作部２８は音声再生デバイス２７と一体的に設けられているようにしてもよいし、音声再生デバイス２７とは別に設けられてもよい。

〈再生処理について〉
次に、以上において説明した音声発話進捗提示UIシステムの動作について説明する。すなわち、以下、図４のフローチャートを参照して、音声発話進捗提示UIシステムによる再生処理について説明する。この再生処理は、音声発話すべき発話テキストがサーバ１１に供給されたり、発話テキストが指定されたりすると開始される。

ステップＳ１１において、自然言語解析部２１は、入力された発話テキストに対して自然言語解析を行って、その解析結果を音声合成エンジン２２および音像位置マッピング部２３に供給する。例えばステップＳ１１では、形態素解析などが行われ、発話テキストの文章内の文節の係り受け構造を示す情報と、各文節の言語的な格を示す情報とが解析結果として得られる。

ステップＳ１２において、音声合成エンジン２２は、供給された発話テキストに対して音声合成処理を行って発話音声データファイルを生成し、音像位置マッピング部２３および音像定位エンジン２４に供給する。

なお、発話音声データファイルの生成時には、音声合成エンジン２２は自然言語解析部２１からの解析結果に基づいて、発話テキストの文章における文節の区切り位置に対応する発話音声の再生時刻を示す再生時刻情報を生成し、発話音声データファイルに格納する。

ステップＳ１３において、音像位置マッピング部２３は、自然言語解析部２１からの解析結果と、音声合成エンジン２２からの発話音声データファイルとに基づいて音像位置情報およびメタデータを生成し、音像定位エンジン２４に供給する。

例えば音像位置マッピング部２３は、音声データの全再生区間を複数の分割再生区間へと分割するとともに、それらの各分割再生区間を所定の音像方向にマッピングすることで、音像位置情報を生成する。また、音像位置マッピング部２３は、分割再生区間のマッピング結果と、自然言語解析の結果と、再生時刻情報とに基づいてメタデータを生成する。

ステップＳ１４において、音像定位エンジン２４は、音声合成エンジン２２からの発話音声データファイルと、音像位置マッピング部２３からの音像位置情報およびメタデータとに基づいて音像定位音声データファイルを生成する。

すなわち、音像定位エンジン２４は、発話音声データファイルと音像位置情報とに基づいて、所望の音像方向に音像を定位させた音像定位音声データを生成するとともに、得られた音像定位音声データと、メタデータとから音像定位音声データファイルを生成する。音像定位エンジン２４は、このようにして得られた音像定位音声データファイルを音像定位音声データファイル記録部２５に供給し、記録させる。

ステップＳ１５において、再生制御部２６は、音像定位音声データファイル記録部２５に記録されている音像定位音声データファイルを読み出して音声再生デバイス２７に供給し、音像定位音声データに基づく発話音声を再生させる。

音声再生デバイス２７は、再生制御部２６から供給された音像定位音声データファイルに基づいて発話音声を再生する。これにより、ユーザは、音像が再生の進捗に応じて左から右方向へとほぼ連続的に移動していく発話音声を聞くことができる。

また、ユーザは、発話音声を聞きながら、適宜、音声再生操作部２８に対する操作を行い、音声再生操作部２８は、ユーザの操作に応じた操作信号を生成して再生制御部２６へと供給する。そして、再生制御部２６は、音声再生操作部２８からの操作信号に応じて音像定位音声データファイルの出力を停止させるなどして、適宜、再生停止や発話速度の変更等、ユーザの操作に応じた再生制御を行う。

音像定位音声データファイルに基づく発話音声が再生されると、再生処理は終了する。

以上のようにして音声発話進捗提示UIシステムは、発話テキストから、音声発話の進捗に合わせて音像が移動する発話音声を再生するための音像定位音声データファイルを生成し、発話音声を再生する。

このように発話音声の再生の進捗に応じて音像を移動させるといった、発話音声全体に対する進捗を聴覚的に表す音声出力を行うことで、ユーザに対して音声再生の進捗状況を提示することができる。

これにより、ユーザは音声発話の再生が全体に対してあとどれくらいで終わるかを認識することができるので最後まで発話を聞く意識を持つことができ、発話により伝達される全情報を受け取りやすくなる。

また、ユーザは、音声発話を聞いている最中の時間的な余裕の度合い、つまりどの程度発話を聞く時間をとることができるかに応じて、全体発話量の把握結果から発話速度などを変化させたりして、自身に合った対応を行うことができる。

例えば、十分に時間が有る場合には、ユーザは発話速度を遅くしたり、繰り返し再生を行ったりして、十分に発話内容を理解できるようにじっくりと音声発話を聞くようにすることができる。また、例えばあまり時間的な余裕がない場合には、ユーザは発話速度を速くし、集中して短時間で音声発話を聞くようにすることもできる。

音声発話進捗提示UIシステムによる音声発話では、音声発話の進捗に応じた位置（方向）に音像が定位するため、例えばユーザが音声発話を途中から聞いた場合に、音像の位置から発話全体に対してどこまで再生が進んだ状態であるのかを把握することができる。

さらに、音声発話進捗提示UIシステムによる音声発話では、ディスプレイなどの視覚情報を出力するデバイスがなくても音声発話の進捗を提示することができるので、本技術を適用した製品のデバイスや視覚情報領域のコストを削減することができる。

〈マッピング処理について〉
ここで、図４のステップＳ１３において、音像位置情報とメタデータを生成するときのより詳細な処理例について説明する。すなわち、以下、図５のフローチャートを参照して、音像位置マッピング部２３によるマッピング処理について説明する。

このマッピング処理は、音像位置マッピング部２３が分割再生区間を音像方向にマッピングして音像位置情報とメタデータを生成する処理であり、図４のステップＳ１３の処理に対応する。

ステップＳ４１において、音像位置マッピング部２３は、音声合成エンジン２２からの発話音声データファイルに含まれる発話音声の音声データのデータ長と、その音声データのサンプリングレートとに基づいて、発話音声の全体の再生時間長である発話全体時間を算出する。この発話全体時間は、音声データに基づいて発話音声を最初から最後まで再生したときの再生時間の長さである。

ステップＳ４２において、音像位置マッピング部２３は、音声データのサンプリングレートに基づいて、発話音声の再生中に発話音声をいくつの方向に音像定位させるか、すなわちいくつの音像方向に分割するかを示す音像方向の分割数を算出する。

この音像方向の分割数は、発話音声の再生中に移動（定位）させる音像の方向の数、つまり音像方向の分割の粒度を示すものである。

例えば音像方向の分割数を多くするほど、発話音声の再生中に音像が滑らかに移動している感覚をユーザに与えることができる。

ここでは、発話音声の音像を定位させる方法として、ユーザの左右の耳に、それぞれ位相差を有する同一音源を出力する方法、つまり左右の各チャネルの音声データに位相差を設けて再生することで音像を定位させる方法が用いられる場合について説明する。

このような音像定位方法は、例えば再生デバイスとしてヘッドホンなどを用いるときの音像定位方法として一般的に知られている。この音像定位方法によれば、左右の各チャネルの音声データに、それらの音声データのサンプルの粒度で位相差をつけるだけであるのでサンプル間の補完処理が不要であり、少ない演算量で音像定位を実現可能である。

特に音声データのサンプリングレートが高いほど細かく位相差をつけることができるので、より滑らかな音像移動を実現することができる。

また、ユーザから見て、ユーザの真左の方向を−９０度（９０°）の方向とし、ユーザの真正面の方向を０度の方向とし、ユーザの真右の方向を＋９０度の方向であるとする。

さらに、音速をｃとし、音声データのサンプリングレートをｆとし、ユーザの左右の耳の間の距離、つまりユーザの両耳間の距離をｄとする。なお、両耳間の距離ｄは一般的な人の距離を用いればよい。

このような場合、ユーザから見て真左の方向、つまり−９０度の方向に発話音声の音像を定位させるには、左右のチャネルの音声データの位相差をｄ／（ｃ／ｆ）サンプルとすればよい。

例えば両耳間の距離ｄ＝25［cm］であり、音速ｃ＝340［m/s］であり、サンプリングレートｆ＝16［kHz］である場合には、左右のチャネルの音声データに約12サンプルの位相差をつけると、音声データに基づく発話音声の再生時に音像がユーザの真左の方向に定位する。

ここでは、発話時の音像は、ユーザの真左方向、すなわち−９０度の方向から、真正面の方向（０度の方向）、真右方向（＋９０度の方向）へと１８０度分だけ移動していくものとする。また、サンプル粒度での位相差により音像を定位させるとすると、すなわち１サンプル分の位相差の粒度で音像を移動させていくものとすると、音像方向の分割数は、次式（１）により求めることができる。

なお、式（１）において、（真左の位相差サンプル数）は、音像を真左方向に定位させるために必要な位相差を示すサンプル数であり、（真右の位相差サンプル数）は、音像を真右方向に定位させるために必要な位相差を示すサンプル数である。ここでは、真左の位相差サンプル数と真右の位相差サンプル数はともにｄ／（ｃ／ｆ）サンプルとなる。また、式（１）で加算されている「１」は真正面の方向に対応する。

音像位置マッピング部２３は、音声データのサンプリングレートに基づいて、上述した式（１）を算出することで、発話音声再生時における音像方向の分割数を算出する。

ステップＳ４３において、音像位置マッピング部２３は、ステップＳ４１で得られた発話全体時間をステップＳ４２で得られた分割数で除算することで、音像方向１つあたりの時間を算出する。

ここで、音像方向１つあたりの時間とは、発話音声再生時に１つの音像方向に音像が定位している期間における発話音声の再生時間である。換言すれば、その再生時間の間だけ、音像が１つの音像方向に定位することになる。

音像位置マッピング部２３は、発話音声の音声データの先頭から、音像方向１つあたりの時間の長さの区間を先頭の分割再生区間とし、その分割再生区間の終了位置を先頭とする音像方向１つあたりの時間の長さの区間を次の分割再生区間とし、以降同様にして音声データの全区間を複数の分割再生区間に分割する。

すなわち、音像位置マッピング部２３は、発話音声の音声データの全再生区間を音像方向の分割数に等分に分割して得られた各区間を分割再生区間とする。このとき、各分割再生区間を再生したときの再生時間は、ステップＳ４３で得られた音像方向１つあたりの時間となる。

ステップＳ４４において、音像位置マッピング部２３は、発話音声の音声データの先頭にある分割再生区間を真左の方向にマッピングする。

すなわち、音像位置マッピング部２３は発話音声の音声データの各分割再生区間を先頭側から順番に処理対象の分割再生区間としていく。

したがって、まず先頭の分割再生区間が処理対象の分割再生区間とされ、音像位置マッピング部２３は、処理対象の分割再生区間をユーザから見て真左の方向にマッピングすることで、その分割再生区間の再生時には音像が真左方向に定位するようにする。

具体的には、音像位置マッピング部２３は、処理対象の分割再生区間を示す分割再生区間情報と、真左方向に音像を定位させるために必要となる左右のチャネルの音声データの位相差であるサンプル数ｄ／（ｃ／ｆ）を示す位相差情報とを対応付けて、処理対象の分割再生区間についての音像位置情報とする。この場合、処理対象である先頭の分割再生区間の音像方向は真左方向となる。

音像位置マッピング部２３は、現在の処理対象の分割再生区間の時間的に次に隣接する分割再生区間を、次の処理対象の分割再生区間として処理はステップＳ４５へと進む。

ステップＳ４５において、音像位置マッピング部２３は次の分割再生区間、すなわち新たに処理対象とされた分割再生区間を、その分割再生区間の時間的に直前の分割再生区間の音像方向の角度に移動角度を加算した方向にマッピングする。

ここで、音像方向の移動角度とは、ある音像方向から次の音像方向へと音像が移動するときの移動量を示す角度、つまりある音像方向の角度と次の音像方向の角度との差分の角度である。この移動角度は、ステップＳ４２で得られた音像方向の分割数により定まる。つまり、移動角度は、１８０／（分割数−１）度となる。

したがって、例えば先頭から２番目の分割再生区間の音像方向は、真左方向の角度（−９０度）に移動角度を加算して得られる角度の方向となる。

音像位置マッピング部２３は、処理対象の分割再生区間を示す分割再生区間情報と、処理対象の分割再生区間の音像方向に音像を定位させるために必要となる左右のチャネルの音声データの位相差を示す位相差情報とを対応付けて、処理対象の分割再生区間についての音像位置情報とする。

この場合、処理対象の分割再生区間の位相差情報は、その処理対象の分割再生区間の直前の分割再生区間の位相差情報により示されるサンプル数を１サンプルだけずらした値とすればよい。

したがって、ステップＳ４５では処理対象の分割再生区間は、その直前の分割再生区間の音像方向を１サンプル時間の位相差分だけ正の方向、つまりユーザから見て右方向に移動させた方向に定位することになる。

ステップＳ４６において、音像位置マッピング部２３は、処理対象の分割再生区間の音像方向が真右方向であるか否かを判定する。すなわち、全ての分割再生区間について音像方向のマッピングが行われたか否かを判定する。

ステップＳ４６において、真右方向ではないと判定された場合、音像位置マッピング部２３は、現在の処理対象の分割再生区間の時間的に次に隣接する分割再生区間を、新たな処理対象の分割再生区間として処理はステップＳ４５へと戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ４６において、真右方向であると判定された場合、全ての分割再生区間について処理が行われたので、処理はステップＳ４７へと進む。

この場合、これまでの処理により、全分割再生区間についての音像位置情報が得られたことになる。

すなわち、以上のステップＳ４１乃至ステップＳ４６の処理により、例えば図６に示すようにして音像位置情報が生成されたことになる。

まず、ステップＳ４１では矢印Ａ１１に示すように発話音声の全区間ＡＤ１１の再生時間、すなわち発話全体時間が算出される。なお、ここでは全区間ＡＤ１１の図中、左端が先頭位置を示しており、全区間ＡＤ１１の図中、右端が終了位置を示している。

ステップＳ４３では、矢印Ａ１２に示すように音像方向１つあたりの時間を算出することで、全区間ＡＤ１１がステップＳ４２で得られた分割数の分割再生区間に分割される。ここでは、全区間ＡＤ１１内の四角形は１つの分割再生区間を表しており、各分割再生区間の長さは同じ長さとなっている。

ステップＳ４４では、矢印Ａ１３に示すように先頭の分割再生区間が真左方向にマッピングされる。

その後、ステップＳ４５およびステップＳ４６では、矢印Ａ１４に示すようにマッピングが行われた分割再生区間の次の分割再生区間が、直前の分割再生区間の音像方向を１サンプル時間の位相差分だけ右方向に移動させた方向にマッピングされる処理が繰り返し行われる。このような処理が繰り返し行われると、矢印Ａ１５に示すように最後の分割再生区間が真右方向にマッピングされ、これにより、各分割再生区間についての分割再生区間情報と位相差情報とからなる音像位置情報が得られる。

このようにして音像位置情報が得られると、この音像位置情報を用いて得られた発話音声の再生時には、次のように音像が定位することになる。

すなわち、発話音声の先頭部分では音像が真左方向に定位し、その後、音像方向の分割数の粒度で、つまり上述した移動角度ずつ音像が右方向へと移動していく。このとき、１つの分割再生区間の再生中には、音像は１つの音像方向に定位したままとなる。

発話音声の再生が進み、発話音声の中間部分、つまり真ん中部分となると音像がユーザから見て真正面の方向に定位し、発話音声の終端部分では音像が真右方向に定位して発話音声の再生が終了する。

図５のフローチャートの説明に戻り、ステップＳ４７において音像位置マッピング部２３は、自然言語解析部２１からの解析結果と、音声合成エンジン２２からの発話音声データファイルと、分割再生区間のマッピング結果とに基づいてメタデータを生成する。

具体的には、例えば図７に示すように、発話テキストの文章が「今日の買い物は、ニンジン２本、玉ねぎ３個、じゃがいも、牛肉300ｇ、塩、胡椒、醤油、ビールです」であったとする。

また、自然言語解析の結果、音声発話の文章が「今日の買い物は、」、「ニンジン２本、」、「玉ねぎ３個、」、「じゃがいも、」、「牛肉300ｇ、」、「塩、」、「胡椒、」、「醤油、」、および「ビールです」のそれぞれの文節に区切られたとする。

このような場合、音像位置情報に基づいて音像定位音声データファイルを生成し、発話音声を再生したときには、図７に示すように発話音声を聞くユーザＵ２１には、発話が進むにつれて自身の左側から右側へと音像が移動していくことになる。

音像位置マッピング部２３は音声発話の文節ごとに、それらの文節の部分の再生時において音像が位置する範囲を音像範囲として特定する。すなわち、文節単位で音像の方向が分割される。

例えば文節「今日の買い物は、」、「ニンジン２本、」、「玉ねぎ３個、」、「じゃがいも、」、「牛肉300ｇ、」、「塩、」、「胡椒、」、「醤油、」、および「ビールです」のそれぞれを文節Ｃ１乃至文節Ｃ９とする。また、それらの文節Ｃ１乃至文節Ｃ９を特定するための番号を文節番号１乃至文節番号９とするものとする。なお、文節番号の付与時には、発話音声の先頭の文節から最後の文節まで順番に、先頭の文節の文節番号が１とされ、後ろ側にある文節ほど大きい文節番号となるように連続した番号が付与されるものとする。

図７の例では、文節Ｃ１乃至文節Ｃ９のそれぞれの音像範囲として、音像範囲ＡＲ１１乃至音像範囲ＡＲ１９が特定される。

音像範囲ＡＲ１１は、矢印Ｗ１１に示す方向から矢印Ｗ１２に示す方向までの範囲となっている。

同様に、音像範囲ＡＲ１２は、矢印Ｗ１２に示す方向から矢印Ｗ１３に示す方向までの範囲であり、音像範囲ＡＲ１３は、矢印Ｗ１３に示す方向から矢印Ｗ１４に示す方向までの範囲であり、音像範囲ＡＲ１４は、矢印Ｗ１４に示す方向から矢印Ｗ１５に示す方向までの範囲である。

また、音像範囲ＡＲ１５は、矢印Ｗ１５に示す方向から矢印Ｗ１６に示す方向までの範囲であり、音像範囲ＡＲ１６は、矢印Ｗ１６に示す方向から矢印Ｗ１７に示す方向までの範囲であり、音像範囲ＡＲ１７は、矢印Ｗ１７に示す方向から矢印Ｗ１８に示す方向までの範囲である。さらに、音像範囲ＡＲ１８は、矢印Ｗ１８に示す方向から矢印Ｗ１９に示す方向までの範囲であり、音像範囲ＡＲ１９は、矢印Ｗ１９に示す方向から矢印Ｗ２０に示す方向までの範囲である。

ここで、矢印Ｗ１１に示す方向乃至矢印Ｗ２０に示す方向のそれぞれは、発話音声の文節Ｃ１乃至文節Ｃ９の区切り位置部分の再生時刻における音像方向のそれぞれとなっている。例えば矢印Ｗ１１に示す方向は、文節Ｃ１の先頭部分の再生時刻における音像方向である。また、例えば矢印Ｗ１２に示す方向は、文節Ｃ１の終了部分かつ文節Ｃ２の先頭部分の再生時刻における音像方向である。

したがって、例えば発話音声再生時において、文節Ｃ１である「今日の買い物は、」を再生（発話）するときには、音像は音像範囲ＡＲ１１内を移動していくことになる。換言すれば、音像は矢印Ｗ１１に示す方向から、矢印Ｗ１２に示す方向まで移動することになる。

より具体的には、文節Ｃ１の再生開始時には音像が矢印Ｗ１１に示す方向に定位しており、その音像が再生とともに右方向へと移動していき、文節Ｃ１の再生終了時点では、音像が矢印Ｗ１２に示す方向に定位していることになる。

音像位置マッピング部２３は、自然言語解析の結果から文節Ｃ１乃至文節Ｃ９を特定することができる。

また、発話音声データファイルには再生時刻情報が含まれており、音像位置マッピング部２３は、この再生時刻情報から、文節Ｃ１乃至文節Ｃ９のそれぞれの区切り位置に対応する再生時刻を知ることができる。特に、各文節の先頭部分の再生時刻が上述した文節再生開始時刻となる。

さらに、音像位置マッピング部２３は、各文節の区切り位置に対応する再生時刻が分かるので、音像位置情報の生成時における各分割再生区間のマッピング結果から、各文節の区切り位置における音像方向を特定することができる。すなわち、この例では、音像位置マッピング部２３は矢印Ｗ１１に示す方向乃至矢印Ｗ２０に示す方向を特定することができる。

このようにして各文節の区切り位置における音像方向、すなわち矢印Ｗ１１に示す方向乃至矢印Ｗ２０に示す方向が特定されると、音像位置マッピング部２３は、矢印Ｗ１１に示す方向乃至矢印Ｗ２０に示す方向の特定結果と、各文節の区切り位置の再生時刻情報とから矢印Ｑ１１に示すメタデータを生成する。

矢印Ｑ１１に示すメタデータには、各文節Ｃ１乃至文節Ｃ９のそれぞれについて、文節再生開始時刻を示す文節再生開始時刻情報と、文節の終了部分の位置の音像方向、つまり文節終了角度を示す文節終了角度情報とが含まれている。

例えば矢印Ｑ１１に示すメタデータにおける「文節１の再生開始時刻」は、文節番号が１である文節Ｃ１の文節再生開始時刻情報を示している。

また、例えば矢印Ｑ１１に示すメタデータにおける「文節１の終了角度」は、文節Ｃ１の終了部分、すなわち文節Ｃ１と文節Ｃ２との区切りの位置部分の再生時刻における音像方向の角度を示す文節終了角度情報を示している。

このようなメタデータを生成しておけば、発話音声のランダムアクセス再生が可能となる。例えば指定方向特定部３１において、ユーザＵ２１により指定された指定方向として、矢印ＤＧ１１に示す方向が特定されたとする。

この場合、矢印ＤＧ１１に示す指定方向は、音像範囲ＡＲ１５に含まれる方向であるので、ユーザＵ２１によって文節Ｃ５が指定されたことになる。

再生制御部２６では、矢印Ｑ１１に示すメタデータを参照して、矢印ＤＧ１１に示す指定方向の角度が、文節Ｃ４の文節終了角度から文節Ｃ５の文節終了角度の間の角度であることを特定できるので、指定方向が音像範囲ＡＲ１５内の方向であることが特定できる。すなわち、文節Ｃ５が指定されたことを特定することが可能である。

したがって、この場合、再生制御部２６は、ランダムアクセス再生として矢印Ｂ１１に示すように、特定された文節Ｃ５の文節再生開始時刻から発話音声を再生することができる。

図５のフローチャートの説明に戻り、以上のようにしてステップＳ４７でメタデータが生成され、音像位置情報およびメタデータが得られると、音像位置マッピング部２３は、これらの音像位置情報およびメタデータを音像定位エンジン２４に供給し、マッピング処理は終了する。

また、音像位置マッピング部２３から音像定位エンジン２４に音像位置情報およびメタデータが供給されると、図４のステップＳ１４では音像定位エンジン２４により音像定位音声データが生成される。

その際、音像定位エンジン２４は、発話音声データファイルの音声データの各分割再生区間を、それらの分割再生区間の位相差情報により示されるサンプル数だけ位相差をつけて左右のチャネルの音声データを生成し、音像定位音声データとする。これにより、例えばモノラルの音声データから、左右の２チャネルの音像定位音声データが得られる。

なお、音像定位音声データの生成にあたっては、音像定位のために左右のチャネルの音声データに位相差をつけることに加えて、さらに左右のチャネルの音声データの振幅を変化させることで左右の音声に音量差を設けて音像を定位させてもよい。

以上のようにして音声発話進捗提示UIシステムは、発話音声の各分割再生区間のマッピングを行って音像方向を定め、音像位置情報を生成するとともに、メタデータも生成する。このようにすることで、発話音声の再生時に適切に音像を移動させて進捗を提示することができるようになる。

〈ランダムアクセス再生処理について〉
また、上述したように音像定位音声データファイルにはメタデータが含まれているので、このメタデータを用いて、発話音声の任意の文節の先頭部分から再生を開始するランダムアクセス再生が可能である。

以下、図８のフローチャートを参照して、音声発話進捗提示UIシステムによるランダムアクセス再生処理について説明する。

ステップＳ７１において、指定方向特定部３１はユーザによる指定方向を取得する。

例えばユーザは、所望の方向を指で指示したり、ユーザが所望の方向に顔や視線を向けたりすることで指定方向の指定を行う。すると、指定方向特定部３１は、カメラから得られた画像やセンサから得られたセンシング結果に基づいて、画像認識等によりユーザによって指定された指定方向を特定する。音声再生操作部２８は、このようにして得られた指定方向の角度を示す情報を含む操作信号を再生制御部２６に出力する。このとき、必要に応じて操作信号により音像定位音声データファイルの指定も行われる。

ステップＳ７２において、再生制御部２６は、処理対象とする文節の文節番号を示すパラメータＮの値を１とする。なお、以下、パラメータＮにより示される文節番号の文節を文節Ｎとも称することとする。

ステップＳ７３において、再生制御部２６は、ステップＳ７１で音声再生操作部２８から供給された操作信号に含まれる指定方向の角度が、文節Ｎの文節終了角度以下であるか否かを判定する。

すなわち、再生制御部２６は、これからランダムアクセス再生しようとする音像定位音声データファイルを音像定位音声データファイル記録部２５から読み出す。そして、再生制御部２６は、音像定位音声データファイルのメタデータを参照することで文節Ｎの文節終了角度を特定し、その文節終了角度と指定方向の角度とを比較することで、指定方向の角度が文節Ｎの文節終了角度以下であるかの判定を行う。

ステップＳ７３において指定方向の角度が文節Ｎの文節終了角度以下でない、つまり文節Ｎの文節終了角度よりも指定方向がユーザから見て右側にある方向である場合、処理はステップＳ７４へと進む。

ステップＳ７４において、再生制御部２６はパラメータＮの値を１だけインクリメントする。

ステップＳ７５において、再生制御部２６は新たなパラメータＮにより示される文節Ｎが最終文節であるか否かを判定する。

ここでいう最終文節とは、音像定位音声データファイルに含まれる音像定位音声データに基づく発話音声の文節のうちの最後の文節である。例えば最終文節は、メタデータに含まれる文節再生開始時刻情報の数、または文節終了角度情報の数から特定可能である。

ステップＳ７５において最終文節であると判定された場合、指定方向が正しく指定されなかったので、ランダムアクセス再生処理は終了する。

これに対して、ステップＳ７５において最終文節でないと判定された場合、処理はステップＳ７３に戻り、上述した処理が繰り返し行われる。

また、ステップＳ７３において、指定方向の角度が文節Ｎの文節終了角度以下であると判定された場合、処理はステップＳ７６へと進む。

この場合、ユーザにより指定された指定方向は、文節Ｎの音像範囲内の方向であることが分かるので、ユーザによって文節Ｎが指定されたことになる。

ステップＳ７６において、再生制御部２６は、音像定位音声データファイルのメタデータを参照することで文節Ｎの文節再生開始時刻を特定し、その文節再生開始時刻以降の音像定位音声データを音声再生デバイス２７に供給して再生させることで、文節Ｎの文節再生開始時刻から発話音声の再生を開始させる。音声再生デバイス２７は、再生制御部２６から供給された音像定位音声データに基づいて、発話音声を再生する。

このようにしてユーザにより指定された文節の先頭部分から発話音声を再生させると、ランダムアクセス再生処理は終了する。

以上のようにして音声発話進捗提示UIシステムは、ユーザにより指定された指定方向に対応する文節を特定し、その文節の先頭部分から発話音声の再生を開始する。音声発話進捗提示UIシステムでは、メタデータとして文節再生開始時刻情報と文節終了角度情報とを記録しておくことで、ランダムアクセス再生を実現することができる。これにより、ユーザの使い勝手を向上させることができる。

〈第２の実施の形態〉
〈音像定位について〉
また、以上においては、発話音声の全再生区間が等分されて分割再生区間とされ、各分割再生区間が音像方向にマッピングされる例について説明した。しかし、その他、自然言語解析の結果として得られる発話テキストの文章内の文節の係り受け構造に基づいてマッピングを行うようにしてもよい。

具体的には、例えば発話テキストが買い物リストに関する文章であり、自然言語解析の結果として、文章から買い物のときに購入すべき複数のアイテム、つまり発話によりユーザに提示される提示アイテムが羅列情報として検出されたとする。ここで、羅列情報としての購入すべきアイテムは、同一の述語節に係る複数の対象格の文節のそれぞれに含まれるアイテムなどとされる。

このような場合、音声発話進捗提示UIシステムは、文章に含まれる羅列情報の数を音像方向の分割数とし、羅列情報が含まれる発話文言の再生区間、つまり提示アイテムの発話を含む再生区間を分割再生区間とする。

これにより、発話音声の再生時には羅列情報が含まれる発話の再生区間では継続して同じ位置（方向）に音像が定位する。すなわち、羅列情報（アイテム）の発話を含む再生区間ごとに音像位置が分離され、音像が移動していくことになり、アイテム数、つまり羅列情報数に応じた音像定位が可能となる。

具体例として、例えば図９に示すように発話テキストの文章が「今日の買い物は、ニンジン２本、玉ねぎ３個、じゃがいも、牛肉300ｇ、塩です」であったとする。

また、自然言語解析の結果、羅列情報、つまり買い物の提示アイテムとして「ニンジン２本」、「玉ねぎ３個」、「じゃがいも」、「牛肉300ｇ」、および「塩」のそれぞれが含まれていることが特定されたとする。

この場合、音像位置マッピング部２３は、特定された１つのアイテム（羅列情報）の文節を含む１または複数の文節からなる発話音声の区間を１つの分割再生区間とする。このとき、例えば１つの分割再生区間には、必ず１つのアイテムの発話が含まれるようにされる。

この例では「今日の買い物は、ニンジン２本、」、「玉ねぎ３個、」、「じゃがいも、」、「牛肉300ｇ、」、および「塩です」のそれぞれの区間が１つの分割再生区間とされる。なお、発話音声の全区間における各分割再生区間の区切りの位置は、発話音声データファイルに含まれる再生時刻情報から特定することが可能である。

このようにして１つの分割再生区間に１つの羅列情報に対応するアイテムの発話が含まれるようにすることで、音像方向、つまりユーザＵ３１から見た音像の定位位置の方向がアイテムごとに異なる方向となる。

この例では、最初の分割再生区間である「今日の買い物は、ニンジン２本、」の発話時には、音像がユーザＵ３１から見て真左の方向に定位する。このとき、分割再生区間の再生中は音像は真左方向に定位したままとなる。

また、次の分割再生区間である「玉ねぎ３個、」の発話時には音像はユーザＵ３１の左斜め前に定位し、その後、次の分割再生区間である「じゃがいも、」の発話時には音像はさらに右方向へと移動し、ユーザＵ３１の真正面の方向に定位する。

さらに次の分割再生区間である「牛肉300ｇ、」の発話時には音像はユーザＵ３１の右斜め前に定位し、最後の分割再生区間である「塩です」の発話時には音像はユーザＵ３１の真右方向に定位して発話音声の再生が終了する。

このようにアイテム単位で音像を移動させることで、すなわちアイテム単位で音声発話の進捗を提示することで、ユーザはアイテムと音像方向とを関連付けることができるので、ユーザに対して発話内容を記憶しやすく提示することができる。

また、提示アイテムの数を音像方向の分割数とする場合においても、図７を参照して説明した場合と同様にしてメタデータを生成しておくことで、アイテム単位でランダムアクセス再生を実現することができる。

すなわち、例えば図９に示した例と同じ発話テキストが供給され、「今日の買い物は、ニンジン２本、」、「玉ねぎ３個、」、「じゃがいも、」、「牛肉300ｇ、」、および「塩です」のそれぞれの区間が分割再生区間とされたとする。

そのような場合、例えば図１０に示すようにメタデータが生成される。なお、図１０において図９における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１０に示す例では、羅列情報としてのアイテムの個数で音像の方向が均等に分割され、音像範囲ＡＲ３１乃至音像範囲ＡＲ３５とされる。

すなわち、音像位置マッピング部２３は発話テキストから検出されたアイテム（羅列情報）ごとに、それらのアイテムを含む分割再生区間の再生時において音像が定位する方向を含む音像範囲ＡＲ３１乃至音像範囲ＡＲ３５を特定する。

例えば文節「今日の買い物は、」と文節「ニンジン２本、」からなる分割再生区間内に含まれているアイテム「ニンジン２本」をアイテムＩＴ１とする。

また、文節「玉ねぎ３個、」、「じゃがいも、」、「牛肉300ｇ、」、および「塩です」のそれぞれからなる分割再生区間内に含まれているアイテム「玉ねぎ３個」、「じゃがいも」、「牛肉300ｇ」、および「塩」のそれぞれをアイテムＩＴ２乃至アイテムＩＴ５とする。

さらに、それらのアイテムＩＴ１乃至アイテムＩＴ５を特定するための番号をアイテム番号１乃至アイテム番号５とするものとする。なお、アイテム番号の付与時には、発話音声の先頭の分割再生区間に含まれるアイテムから最後の分割再生区間に含まれるアイテムまで順番に、先頭のアイテムのアイテム番号が１とされ、後ろ側にあるアイテムほど大きいアイテム番号となるように連続した番号が付与されるものとする。

図１０の例では、アイテムＩＴ１乃至アイテムＩＴ５のそれぞれの音像範囲、すなわちアイテムＩＴ１乃至アイテムＩＴ５のそれぞれの発話が含まれる分割再生区間の音像範囲として、音像範囲ＡＲ３１乃至音像範囲ＡＲ３５が特定される。

音像範囲ＡＲ３１は、矢印Ｗ３１に示す方向から矢印Ｗ３２に示す方向までの範囲となっている。

同様に、音像範囲ＡＲ３２は、矢印Ｗ３２に示す方向から矢印Ｗ３３に示す方向までの範囲であり、音像範囲ＡＲ３３は、矢印Ｗ３３に示す方向から矢印Ｗ３４に示す方向までの範囲である。また、音像範囲ＡＲ３４は、矢印Ｗ３４に示す方向から矢印Ｗ３５に示す方向までの範囲であり、音像範囲ＡＲ３５は、矢印Ｗ３５に示す方向から矢印Ｗ３６に示す方向までの範囲である。

ここで、矢印Ｗ３１に示す方向は、最初のアイテムＩＴ１の発話が含まれる分割再生区間のマッピング先とされた音像方向となっており、矢印Ｗ３６に示す方向は、最後のアイテムＩＴ５の発話が含まれる分割再生区間のマッピング先とされた音像方向となっている。

また、例えば矢印Ｗ３２に示す方向は、最初のアイテムＩＴ１の発話が含まれる分割再生区間のマッピング先とされた音像方向と、２番目のアイテムＩＴ２の発話が含まれる分割再生区間のマッピング先とされた音像方向との間の方向となっている。より具体的には、例えばアイテムＩＴ１の発話が含まれる分割再生区間のマッピング先とされた音像方向と、２番目のアイテムＩＴ２の発話が含まれる分割再生区間のマッピング先とされた音像方向との中間の方向が矢印Ｗ３２に示す方向とされる。

矢印Ｗ３３に示す方向は、２番目のアイテムＩＴ２の発話が含まれる分割再生区間のマッピング先とされた音像方向と、３番目のアイテムＩＴ３の発話が含まれる分割再生区間のマッピング先とされた音像方向との間の方向となっている。

さらに矢印Ｗ３４に示す方向および矢印Ｗ３５に示す方向についても、矢印Ｗ３３に示す方向と同様に、連続する２つの分割再生区間のそれぞれのマッピング先とされた音像方向の間の方向となっている。

以下では、アイテムの音像範囲の境界となる方向のうち、より右方向にある方向、つまりより角度が大きい方向を音像範囲の終了部分の方向とも称することとする。例えばアイテムＩＴ１の音像範囲ＡＲ３１であれば、矢印Ｗ３２に示す方向が、音像範囲ＡＲ３１の終了部分の方向となる。

音像位置マッピング部２３は、自然言語解析の結果からアイテムＩＴ１乃至アイテムＩＴ５を特定することができる。

また、発話音声データファイルには再生時刻情報が含まれており、音像位置マッピング部２３は、この再生時刻情報から、アイテムＩＴ１乃至アイテムＩＴ５のそれぞれの発話が含まれる分割再生区間のそれぞれの区切り位置の再生時刻を知ることができる。

特に、以下では、各アイテムの発話を含む分割再生区間の先頭部分の再生時刻をアイテム再生開始時刻とも称することとする。

さらに、音像位置マッピング部２３は、各アイテムの分割再生区間の音像方向へのマッピング結果から、各アイテム（分割再生区間）の音像範囲の境界となる方向、すなわち矢印Ｗ３１に示す方向乃至矢印Ｗ３６に示す方向を特定することができる。

このようにして各アイテムのアイテム再生開始時刻と、各アイテムの音像範囲の境界となる方向とが特定されると、音像位置マッピング部２３は、それらの特定結果から矢印Ｑ３１に示すメタデータを生成する。

矢印Ｑ３１に示すメタデータには、各アイテムＩＴ１乃至アイテムＩＴ５のそれぞれについて、アイテム再生開始時刻を示すアイテム再生開始時刻情報と、アイテムの音像範囲の終了部分の方向の角度を示すアイテム終了角度情報とが含まれている。

例えば矢印Ｑ３１に示すメタデータにおける「アイテム１の再生開始時刻」は、アイテム番号が１であるアイテムＩＴ１のアイテム再生開始時刻を示すアイテム再生開始時刻情報である。

また、例えば矢印Ｑ３１に示すメタデータにおける「アイテム１の終了角度」は、アイテムＩＴ１の音像範囲ＡＲ３１の終了部分の方向の角度、すなわち音像範囲ＡＲ３１と音像範囲ＡＲ３２との境界となる方向の角度を示すアイテム終了角度情報である。

以下では、アイテムの音像範囲の終了部分の方向の角度をアイテム終了角度とも称することとする。

このようなメタデータを生成しておけば、発話音声のランダムアクセス再生が可能となる。例えば指定方向特定部３１において、ユーザＵ３１により指定された指定方向として、矢印ＤＧ３１に示す方向が特定されたとする。

この場合、矢印ＤＧ３１に示す指定方向は、音像範囲ＡＲ３２に含まれる方向であるので、ユーザＵ３１によってアイテムＩＴ２が指定されたことになる。

再生制御部２６では、矢印Ｑ３１に示すメタデータを参照して、矢印ＤＧ３１に示す指定方向の角度が、アイテムＩＴ１のアイテム終了角度からアイテムＩＴ２のアイテム終了角度の間の角度であることを特定できる。これにより、指定方向が音像範囲ＡＲ３２内の方向であることが特定される。すなわち、アイテムＩＴ２の分割再生区間が指定されたことが特定されたことになる。

したがって、この場合、再生制御部２６はランダムアクセス再生として矢印Ｂ３１に示すように、特定されたアイテムＩＴ２の分割再生区間のアイテム再生開始時刻から発話音声を再生させることができる。

〈マッピング処理について〉
次に、以上において説明したように羅列情報、すなわちアイテムが含まれる発話の再生区間を分割再生区間とする場合に行われるマッピング処理について説明する。

すなわち、以下、図１１のフローチャートを参照して、音像位置マッピング部２３により行われる、図４のステップＳ１３の処理に対応するマッピング処理について説明する。

なお、ステップＳ１０１の処理は図５のステップＳ４１の処理と同様であるので、その説明は省略する。

ステップＳ１０２において、音像位置マッピング部２３は、自然言語解析部２１からの自然言語解析の結果に基づいて、音像方向の分割数を算出する。

例えば音像位置マッピング部２３は、自然言語解析の結果から同一の述語節に係る複数の対象格の文節の数を羅列情報の数、すなわちアイテム数として検出し、検出されたアイテム数を音像方向の分割数とする。

ステップＳ１０３において、音像位置マッピング部２３は、音声合成エンジン２２からの発話音声データファイルに基づいて、発話音声の音声データの全再生区間の、ステップＳ１０２で得られた分割数への時間分割を行う。

例えば音像位置マッピング部２３は、発話音声データファイルに含まれる再生時刻情報に基づいて羅列情報、すなわちアイテムを含む文節の区切り位置の再生時刻を特定し、その区切り位置で発話音声の全再生区間を分割する。このときアイテムを含まない文節については、その文節に隣接するアイテムを含む文節と同じ分割再生区間に含まれるように、文節の係り受け構造に基づいて全再生区間の分割が行われる。これにより、全再生区間の分割された複数の区間のそれぞれが１つのアイテムを含む分割再生区間のそれぞれとされる。

このようにして発話音声の全再生区間がアイテムごとの分割再生区間に分割されると、その後、ステップＳ１０４乃至ステップＳ１０６の処理が行われて音像位置情報が生成されるが、これらの処理は図５のステップＳ４４乃至ステップＳ４６の処理と同様であるので、その説明は省略する。

なお、ステップＳ１０４乃至ステップＳ１０６では、音声データのサンプリングレートから真左方向に音像を定位させるのに必要となる左右のチャネルの音声データの位相差を示すサンプル数ｄ／（ｃ／ｆ）が求められ、真左方向についての位相差情報とされる。

また、音像方向の分割数から１８０／（分割数−１）度を算出することで音像の移動角度が算出され、音像が移動角度ずつ右方向に移動していくように分割再生区間のマッピングが行われる。このとき、各音像方向に音像を定位させるのに必要となる位相差は、真左方向に音像を定位させるのに必要となる位相差に基づいて求めることができる。

さらに、ステップＳ１０６において真右方向であると判定された場合、全ての分割再生区間について処理が行われ、音像位置情報が得られたので処理はステップＳ１０７へと進む。

ステップＳ１０７において音像位置マッピング部２３は、自然言語解析部２１からの解析結果と、音声合成エンジン２２からの発話音声データファイルと、分割再生区間のマッピング結果とに基づいてメタデータを生成する。

例えば音像位置マッピング部２３は、自然言語解析の結果と、発話音声データファイルの再生時刻情報とから、各アイテムの分割再生区間の区切り位置の再生時刻を特定し、メタデータに含まれるアイテム再生開始時刻情報を生成する。

また、音像位置マッピング部２３は、各アイテムの分割再生区間の音像方向へのマッピング結果から音像範囲の境界となる方向を特定し、メタデータに含まれるアイテム終了角度情報を生成する。その結果、各アイテムのアイテム再生開始時刻情報とアイテム終了角度情報とからなるメタデータが得られることになる。

以上のようにして音像位置情報およびメタデータが得られると、音像位置マッピング部２３は、これらの音像位置情報およびメタデータを音像定位エンジン２４に供給し、マッピング処理は終了する。

以上のようにして音声発話進捗提示UIシステムは、自然言語解析の結果に基づいて音像方向の分割数を算出して発話音声の全再生区間を分割数の分割再生区間に分割する。また、音声発話進捗提示UIシステムは、各分割再生区間のマッピングを行って音像方向を定め、音像位置情報を生成するとともにメタデータも生成する。このようにすることで、発話音声の再生時に適切に音像を移動させて進捗を提示することができるようになる。

〈ランダムアクセス再生処理について〉
続いて、アイテムの発話が含まれる再生区間を分割再生区間とする場合に行われるランダムアクセス再生処理について説明する。

すなわち、以下、図１２のフローチャートを参照して、音声発話進捗提示UIシステムによるランダムアクセス再生処理について説明する。なお、ステップＳ１３１の処理は図８のステップＳ７１の処理と同様であるので、その説明は省略する。

ステップＳ１３２において、再生制御部２６は、処理対象とするアイテム番号を示すパラメータＮの値を１とする。なお、以下、パラメータＮにより示されるアイテム番号のアイテムをアイテムＮとも称することとする。

ステップＳ１３３において、再生制御部２６は、ステップＳ１３１で音声再生操作部２８から供給された操作信号に含まれる指定方向の角度が、アイテムＮのアイテム終了角度以下であるか否かを判定する。

すなわち、再生制御部２６は、これからランダムアクセス再生しようとする音像定位音声データファイルを音像定位音声データファイル記録部２５から読み出す。そして、再生制御部２６は、音像定位音声データファイルのメタデータを参照することでアイテムＮのアイテム終了角度を特定し、そのアイテム終了角度と指定方向の角度とを比較することで、指定方向の角度がアイテムＮのアイテム終了角度以下であるかの判定を行う。

ステップＳ１３３において指定方向の角度がアイテムＮのアイテム終了角度以下でない、つまりアイテムＮのアイテム終了角度よりも指定方向がユーザから見て右側にある方向である場合、処理はステップＳ１３４へと進む。

ステップＳ１３４において、再生制御部２６はパラメータＮの値を１だけインクリメントする。

ステップＳ１３５において、再生制御部２６は新たなパラメータＮにより示されるアイテムＮが最終アイテムであるか否かを判定する。

ここでいう最終アイテムとは、音像定位音声データにおける時間的に最後の分割再生区間のアイテムである。例えば最終アイテムは、メタデータに含まれるアイテム再生開始時刻情報の数、またはアイテム終了角度情報の数から特定可能である。

ステップＳ１３５において最終アイテムであると判定された場合、指定方向が正しく指定されなかったので、ランダムアクセス再生処理は終了する。

これに対して、ステップＳ１３５において最終アイテムでないと判定された場合、処理はステップＳ１３３に戻り、上述した処理が繰り返し行われる。

また、ステップＳ１３３において、指定方向の角度がアイテムＮのアイテム終了角度以下であると判定された場合、処理はステップＳ１３６へと進む。

この場合、ユーザにより指定された指定方向は、アイテムＮの音像範囲内の方向であることが分かるので、ユーザによってアイテムＮが指定されたことになる。

ステップＳ１３６において、再生制御部２６は、音像定位音声データファイルのメタデータを参照することでアイテムＮのアイテム再生開始時刻を特定し、そのアイテム再生開始時刻以降の音像定位音声データを音声再生デバイス２７に供給して再生させることで、アイテムＮのアイテム再生開始時刻から発話音声の再生を開始させる。音声再生デバイス２７は、再生制御部２６から供給された音像定位音声データに基づいて、発話音声を再生する。

このようにしてユーザにより指定されたアイテムの分割再生区間の先頭部分から発話音声を再生させると、ランダムアクセス再生処理は終了する。

以上のようにして音声発話進捗提示UIシステムは、ユーザにより指定された指定方向に対応するアイテムを特定し、そのアイテムの分割再生区間の先頭部分から発話音声の再生を開始する。音声発話進捗提示UIシステムでは、メタデータとしてアイテム再生開始時刻情報とアイテム終了角度情報とを記録しておくことで、ランダムアクセス再生を実現することができる。これにより、ユーザの使い勝手を向上させることができる。

〈第２の実施の形態の変形例１〉
〈音像範囲について〉
また、第２の実施の形態では、各アイテムに対して均等な広さの音像範囲が定められる例について説明したが、アイテムの重要度に応じて音像範囲の広さを定めるようにしてもよい。すなわち、アイテムの重要度に応じて音像定位の角度の分解能を変更してマッピングを行うようにしてもよい。この場合、アイテムの重要度が高いほど、より広い音像範囲が割り当てられるようにすればよい。

具体的には、例えば図１３の矢印Ａ５１に示すように、発話テキストの文章が「今日の持ち物は、財布、携帯電話、時計、たばこ、社員証です。」であったとする。

また、この発話テキストに対する自然言語解析の結果、矢印Ａ５２に示すようにアイテムとして「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」が検出されたとする。

この場合、音像位置マッピング部２３は、それらの各アイテムに対して重要度を定める。ここで、重要度は、重要度の値が大きいほど、つまり重要度が高いほど重要なアイテムであることを示している。

この例では、アイテム「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」のそれぞれに対して重要度２、重要度２、重要度１、重要度１、および重要度３のそれぞれが定められている。

ここで、各アイテムの重要度は、例えばユーザ等によってアイテムごとに予め定められているようにしてもよいし、自然言語解析の結果に基づいて動的に定められるようにしてもよい。

また、例えば音像位置マッピング部２３が、ユーザの行うべき事項やユーザの予定を示すリスト、すなわち、いわゆるto doリスト等の予定情報を取得し、その予定情報に基づいてアイテムの重要度を定めるようにしてもよい。具体的には、例えば直近１週間の予定情報に子供の誕生日などを示す情報が含まれている場合、アイテムとして検出された「プレゼント」の重要度が最も高い値となるようにすることができる。

図１３に示すように各アイテムの重要度が定められると、例えば音像位置マッピング部２３は、以下のようにしてアイテム「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」のそれぞれの音像範囲の広さを決定する。

すなわち、まず音像位置マッピング部２３は、全アイテムの重要度の値を加算（積算）し、その結果得られた加算値で、音像方向の取り得る角度の範囲である１８０度を除算することで、全角度である１８０度に対する最小分解能の角度を算出する。

この例では各アイテム「財布」、「携帯電話」、「時計」、「たばこ」、および「社員証」のそれぞれの重要度の値である２、２、１、１、および３が加算されて加算値「９」が算出される。そして、その加算値により１８０度が除算されて、最小分解能の角度として２０（＝180/9）度が算出される。

音像位置マッピング部２３は、このようにして求めた最小分解能の角度である２０度に対して、各アイテムの重要度の値を乗算することでアイテムの音像範囲の広さの角度を算出し、その算出結果に応じて各アイテムの発話を含む分割再生区間のマッピングを行う。

例えば図１３に示した例では、アイテム「財布」および「携帯電話」の重要度はそれぞれ「２」であるので、それらのアイテムの音像範囲の広さの角度は４０（＝2×20）度とされる。

また、アイテム「時計」および「たばこ」の重要度はそれぞれ「１」であるので、それらのアイテムの音像範囲の広さの角度は２０（＝1×20）度とされ、アイテム「社員証」の重要度は「３」であるので、そのアイテムの音像範囲の広さの角度は６０（＝3×20）度とされる。

このようにして各アイテムの音像範囲の広さを定める場合、例えば図１４に示すように各分割再生区間のマッピングが行われる。すなわち、各アイテムの分割再生区間に対して、定められた広さの音像範囲が割り当てられる。このとき、各音像範囲同士が重ならないように割り当てが行われる。

図１４に示す例では、発話テキストの文章「今日の持ち物は、財布、携帯電話、時計、たばこ、社員証です。」に対して、発話音声の「今日の持ち物は、財布、」、「携帯電話、」、「時計、」、「たばこ、」、および「社員証です。」のそれぞれの発話が含まれる区間が分割再生区間とされている。

そして、それらの「今日の持ち物は、財布、」、「携帯電話、」、「時計、」、「たばこ、」、および「社員証です。」が含まれる分割再生区間のそれぞれの音像範囲として、音像範囲ＡＲ５１乃至音像範囲ＡＲ５５のそれぞれが定められている。

例えばアイテム「財布」を含む「今日の持ち物は、財布、」の部分の分割再生区間の音像範囲ＡＲ５１は４０度の広さの範囲となっている。

また、例えばアイテム「社員証」を含む「社員証です。」の部分の分割再生区間の音像範囲ＡＲ５５は６０度の広さの範囲となっている。

このとき、各分割再生区間がマッピングされる音像方向はユーザＵ４１から見て、それらの分割再生区間の音像範囲内に含まれる方向であれば、どのような方向であってもよい。

具体的には、例えば分割再生区間の音像範囲の真ん中の方向を、その分割再生区間の音像方向とするようにしてもよい。

この場合、例えばユーザＵ４１から見て最も左側に位置する、アイテム「財布」の分割再生区間の音像方向は、その分割再生区間の音像範囲ＡＲ５１の真ん中の方向である−７０度の方向とされる。

なお、時間的に最初の分割再生区間の音像方向はユーザＵ４１から見て真左の方向とされ、時間的に最後の分割再生区間の音像方向はユーザＵ４１から見て真右の方向とされるようにしてもよい。

以上のようにしてアイテムの重要度に応じて音像範囲を定める場合、図１１を参照して説明したマッピング処理のステップＳ１０３では、全再生区間の分割再生区間への時間分割だけでなく音像範囲も定められる。すなわち、音像位置マッピング部２３は各アイテム、つまり各分割再生区間の重要度を定めるとともに、重要度に基づいて各分割再生区間の音像範囲の広さを定める。

そして、ステップＳ１０４乃至ステップＳ１０６では、各分割再生区間の音像範囲の角度（広さ）に基づいて、処理対象の分割再生区間の音像方向へのマッピングが行われる。このとき、移動角度は、各分割再生区間の音像範囲の角度（広さ）に基づいて分割再生区間ごとに求められることになる。

以上のようにアイテムの重要度に応じて音像範囲を定めることで、重要なアイテムほど音像範囲を広くすることができる。その結果、例えばランダムアクセス再生などにおいて、重要なアイテムほどユーザによる指定を行いやすくすることができる。

なお、ランダムアクセス再生時には、図１２を参照して説明したランダムアクセス再生処理が行われることになる。

さらに、例えば発話音声によってユーザの予定リストなどを提示する場合には、予定の時間に応じて、各予定に対応する分割再生区間のマッピングを行うようにしてもよい。

そのような場合、予定の時間により定まる方向へとマッピングが行われる。例えば真左方向に朝の予定、すなわち朝の予定の分割再生区間がマッピングされ、正面方向に昼の予定がマッピングされ、夜の予定が真右方向にマッピングされるようにすることができる。この場合、ユーザは発話音声の音像位置から、発話される予定がどの時間帯の予定であるかを聴覚的に簡単に把握することができる。

また、例えば発話音声として、ニュースの複数のトピックを互いに異なる音像方向で提示する音声を再生し、ユーザから指定方向が指定されたときに、その指定方向に対応するトピックのより詳細なニュース原稿の音声を再生するようにしてもよい。

そのような場合、発話音声におけるニュースの１つのトピックの区間が１つの分割再生区間とされ、分割再生区間ごとに異なる音像方向へのマッピングが行われる。また、メタデータとして分割再生区間、すなわちトピックを示す情報と、そのトピックの終了角度情報と、トピックのより詳細なニュース原稿の音声データの記録先を示す情報とが含まれるデータが生成される。このようにすれば、上述したランダムアクセス再生と同様にして、ユーザにより選択された任意のトピックの詳細なニュース原稿の音声を選択的に再生することができるようになる。

さらに、発話音声の音像位置、すなわち音像方向へのマッピングは、ユーザの顔の向きに対して相対的な方向へのマッピングに限らず、空間上の絶対的な方向へのマッピングを行うようにしてもよい。このとき、例えば指定方向特定部３１により、ユーザの顔の向きや実物体の位置等を検出し、その検出結果も発話音声の再生制御や音像定位に用いるようにしてもよい。

例えば発話音声を複数のスピーカからなるスピーカシステムで再生するような再生環境である場合、複数人のユーザが同時に発話を聞くときに空間上の絶対的な方向へと分割再生区間をマッピングすると特に有効である。

また、例えば絶対的な空間位置にある実物体の位置を、例えば指定方向特定部３１が有するカメラなどで認識し、発話の音像を実物体の位置に定位させて、発話のアイテムと実物体との関連付けによりユーザの記憶補助を行うようにしてもよい。

さらに、例えば指定方向特定部３１によりユーザの顔の向きを検出し、その顔の向きに応じて発話音声の再生制御を行うこともできる。この場合、例えばユーザが自身から見て左側を向いた時には、現在再生中の発話音声の１つ前の発話音声の再生を開始するなどの制御を行うことができる。

また、発話音声の音像方向は左右方向だけでなく、サラウンドシステムなどの再生環境によっては前後方向や上下方向など、ある任意の方向から他の方向へと音像を移動させて発話進捗を提示してもよい。

〈第３の実施の形態〉
〈進捗提示の他の例〉
さらに、以上においてはある方向から他の方向へと音像を移動させることにより、音声発話の進捗を提示する場合について説明したが、音像の移動に限らず、聴覚的な方法により進捗を提示できれば、どのような音声出力により進捗提示を行うようにしてもよい。

例えば発話の進捗提示として、音像ではなく、発話音声の背景音としてユーザが聞き慣れた、すなわちユーザが慣れ親しんでいる、発話音声の再生時間とほぼ同じ長さの再生時間の楽曲を再生することにより発話の進捗を聴覚的に提示してもよい。

この場合、発話音声とは異なる背景音により、発話音声の再生の進捗が提示されることになる。換言すれば、発話音声を再生するとともに、発話音声の再生の進捗を表す背景音を再生することによって、発話音声の再生の進捗が表される音声出力が行われる。

なお、背景音は楽曲の他、発話の再生終了までの残り時間をカウントダウンしていくカウントダウン音声、発話の再生終了までの残り時間や発話の進捗率（例えばパーセンテージなど）を所定時間間隔で発話する音声や効果音などとすることもできる。

以下では、発話テキストから得られる音声発話、つまりユーザに対して伝達する主たる情報が発話内容として含まれている発話を目的発話とも称することとする。また、目的発話とは異なる、ユーザに対して目的発話の進捗を聴覚的に提示するための音声を背景音とも称することとする。

例えば、目的発話の音声とともに背景音を再生して、ユーザに目的発話の進捗提示を行う場合、ユーザが聞き慣れている楽曲や一般的に広く知られている有名な楽曲などを背景音として選択して再生することができる。

この場合、ユーザは事前知識として持っている楽曲のフレーズやメロディ、すなわち例えば曲の１番や２番、ＡメロディやＢメロディ、サビなどにより曲があとどれくらいで終わるかを認知し、全体に対する進捗や発話終了までの残り時間を知ることができる。

この場合においても、例えば背景音としての音楽のパートなどと、目的発話の文節やアイテム（羅列情報）とが関連付けられるので、ユーザがアイテム等を記憶しやすくすることができる。このような背景音を利用した進捗提示は、特に目的発話の音声の再生時間が長い場合などに有効である。

〈音声発話進捗提示UIシステムの構成例〉
このように背景音を用いて目的発話の進捗提示を行う場合、音声発話進捗提示UIシステムは、例えば図１５に示すように構成される。なお、図１５において、図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１５に示す音声発話進捗提示UIシステムの構成は、図３に示した音声発話進捗提示UIシステムの構成に新たに背景音生成部６１を設けた構成となっており、その他の点では図３に示した音声発話進捗提示UIシステムと同様の構成となっている。

背景音生成部６１は、音声合成エンジン２２から供給された目的発話の音声データに基づいて、目的発話の再生時間とほぼ同じ再生時間の楽曲等を選択して背景音の背景音データを生成し、音声合成エンジン２２に供給する。

なお、背景音は、上述したように楽曲などであってもよいし、カウントダウン音声、発話の残り時間や進捗率を発話する音声、効果音などであってもよい。また、背景音データの生成時には、背景音生成部６１が背景音の再生時間が、目的発話の再生時間とほぼ同じとなるように、適宜、背景音の再生速度を一定の速度だけ変化させるようにしてもよい。

音声合成エンジン２２は、目的発話の音声データと、再生時刻情報と、背景音生成部６１からの背景音データとを含む発話音声データファイルを生成し、音像位置マッピング部２３および音像定位エンジン２４に供給する。

また、音像定位エンジン２４では、音声合成エンジン２２から供給された発話音声データファイルと、音像位置マッピング部２３から供給された音像位置情報およびメタデータとに基づいて音像定位音声データファイルが生成される。

このとき、音像定位音声データファイルには少なくとも目的発話の音像定位音声データと、背景音データとが含まれるようにされるが、音像定位音声データに基づく目的発話の音声は、進捗とともに音像が移動するものであってもよいし、継続して音像が一定の方向に定位するようなものであってもよい。すなわち、音像の移動による進捗提示は行われてもよいし行われなくてもよい。

また、例えば背景音がカウントダウン音声、発話の残り時間や進捗率を発話する音声などである場合には、音像位置マッピング部２３により背景音の音像位置情報が生成されるようにしてもよい。そのような場合、音像定位エンジン２４では、その音像位置情報と背景音データとから、目的発話の進捗に応じて音像が移動していく背景音の背景音データが生成され、音像定位音声データファイルに格納される。

この場合、例えば目的発話の音像は継続して正面方向等の同じ方向に定位するようにしてもよいし、背景音の音像と目的発話の音声の音像とが同じ位置に定位し、かつ進捗に合わせてそれらの音像が移動していくようにしてもよい。

例えば目的発話の音像と同じ位置に背景音の音像を定位させ、目的発話の音像とともに背景音の音像も移動していく場合、音像の移動により進捗提示を行いつつ、背景音を進捗提示の補助情報としてユーザに提示することができる。これにより、ユーザはより正確に発話の進捗状況を把握することができる。このような進捗提示では、例えば図２や図９を参照して説明した例のように発話音声の進捗に合わせて音像が移動し、それと同時に背景音声の音像も同じように移動していくことになる。

さらに目的発話の音像と背景音の音像が移動せずに背景音によってのみ目的発話の進捗状況を提示するようにしてもよい。また、目的発話の音像を移動させて進捗状況を提示しつつ、背景音の音像は移動させずに背景音の再生によっても進捗提示を行うようにしてもよい。なお、背景音の音像を移動させる場合には、音像位置マッピング部２３においては、目的発話の音像位置情報の生成と同様の処理が行われて、背景音の音像位置情報が生成されることになる。また、音像定位エンジン２４では、音像定位音声データの生成と同様の処理により、背景音の音像位置情報と背景音データとから、音像の位置が所定方向へと移動していく背景音を再生するための背景音データが生成されることになる。

〈再生処理の説明〉
次に、図１５に示した音声発話進捗提示UIシステムが目的発話の音声と背景音を再生する処理である再生処理について説明する。

すなわち、以下、図１６のフローチャートを参照して、音声発話進捗提示UIシステムによる再生処理について説明する。なお、ここでは目的発話の音像も背景音の音像もユーザから見て正面方向に定位する例について説明する。つまり、音像が移動しない例について説明する。

ステップＳ１６１において、音声合成エンジン２２は、供給された発話テキストに対して音声合成処理を行って目的発話の音声データを生成し、背景音生成部６１に供給する。

ステップＳ１６２において、背景音生成部６１は、音声合成エンジン２２から供給された目的発話の音声データに基づいて、目的発話の再生時間とほぼ同じ再生時間の楽曲等の音声データを背景音データとして生成し、音声合成エンジン２２に供給する。

ステップＳ１６３において、音声合成エンジン２２は、ステップＳ１６１で生成した目的発話の音声データと、背景音生成部６１から供給された背景音データとを含む発話音声データファイルを生成し、音像定位エンジン２４に供給する。

音像定位エンジン２４は、音声合成エンジン２２から供給された発話音声データファイルに基づいて音像定位音声データファイルを生成して音像定位音声データファイル記録部２５に供給し、記録させる。例えば音像定位エンジン２４は、モノラルの音声データおよび背景音データを、左右の２チャネルの音声データおよび背景音データに変換し、それらの２チャネルの目的発話の音声データと背景音データとからなる音像定位音声データファイルを生成する。

ステップＳ１６４において、再生制御部２６は、音像定位音声データファイル記録部２５に記録されている音像定位音声データファイルを読み出して音声再生デバイス２７に供給し、目的発話と背景音を再生させる。このようにして、目的発話と背景音を再生させることで、再生制御部２６により目的発話の全体に対する進捗を聴覚的に表す音声出力が制御されることになる。

音声再生デバイス２７は、再生制御部２６から供給された音像定位音声データファイルに含まれている音声データと背景音データとに基づいて目的発話の音声と背景音とを同時に再生する。すると、ユーザは目的発話とともに背景音を聞くことができる。また、ユーザは背景音により、目的発話の進捗状況を知ることができる。

なお、背景音の再生にあたっては、背景音の音量によっても目的発話の進捗を把握することができるように、進捗に応じた音声出力として、目的発話の進捗が進むにつれて背景音の再生音量が次第に小さくなるようにしてもよい。

また、背景音や目的発話の音声にエコー等の音響効果を施し、目的発話の進捗が進むにつれて背景音や目的発話の音声に施される音響効果が小さくなっていくようにしてもよいし、目的発話の進捗が進むにつれて背景音の声色等が変化していくようにしてもよい。

以上のようにして音声発話進捗提示UIシステムは、目的発話の音声データと背景音の背景音データとを含む音像定位音声データファイルを生成し、目的発話とともに背景音を再生させる。このように目的発話の音声とともに背景音を再生するといった、発話音声全体に対する進捗を聴覚的に表す音声出力を行うことで、ユーザに対して音声再生の進捗状況を提示することができる。

なお、例えば図１５に示した音声発話進捗提示UIシステムにおいて、目的発話の音声とともに、カウントダウン音声、発話の残り時間や進捗率を発話する音声などを背景音として再生する場合、目的発話が聞き取りにくくならないようにしてもよい。

具体的には、例えば目的発話の音声と、背景音の発話音声とで音像の定位する方向（位置）を異なる方向とすれば、それらの目的発話の音声と背景音とが混ざり合ってしまうことを抑止し、それらの両方の音声を聞き取りやすくすることができる。

その他、例えば目的発話の音声と、背景音の発話音声とで音声の声色性別が異なるようにすることでも、それらの目的発話の音声と背景音とが混ざり合ってしまうことを抑止し、各音声を聞き取りやすくすることができる。このとき、例えば目的発話の音声は女性の声で再生され、背景音の音声は男性の声で再生されるなどとすることができる。

さらに、以上においては発話テキストから発話音声を生成するシステム音声発話に本技術を適用する例について説明した。しかし、その他、音楽の再生や動画像の再生で、視覚的な進捗バーが非表示であるときに音像や背景音により再生の進捗を提示する場合など、本技術は何らかの音声再生の進捗を聴覚的に提示する場合に適用することができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する制御部を備える
音声処理装置。
（２）
前記音声は発話テキストに基づく発話音声である
（１）に記載の音声処理装置。
（３）
前記制御部は、音像位置により前記進捗が表される前記音声出力を制御する
（１）または（２）に記載の音声処理装置。
（４）
前記制御部は、提示アイテムの発話を含む再生区間ごとに音像の定位位置が異なり、前記音声の再生の進捗に応じて音像が所定方向に移動していく前記音声の出力を制御する
（３）に記載の音声処理装置。
（５）
前記制御部は、前記音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
（４）に記載の音声処理装置。
（６）
重要度が高い前記提示アイテムの前記再生区間ほどより広い範囲が割り当てられるように、前記再生区間ごとに前記再生区間における音像の方向を含む範囲が定められ、
前記制御部は、前記メタデータに基づいて、前記範囲に前記指定方向が含まれる前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
（５）に記載の音声処理装置。
（７）
前記制御部は、前記音声の再生の進捗に応じて音像が連続的に所定方向に移動していく前記音声の出力を制御する
（３）に記載の音声処理装置。
（８）
前記制御部は、前記音声を再生させるとともに、前記音声の再生の前記進捗を表す背景音を再生させることにより、前記進捗が表される前記音声出力を制御する
（１）または（２）に記載の音声処理装置。
（９）
前記背景音は、再生時間が前記音声とほぼ同じ長さの楽曲である
（８）に記載の音声処理装置。
（１０）
前記背景音は、前記音声の再生終了までの時間をカウントダウンしていく音声である
（８）に記載の音声処理装置。
（１１）
前記背景音は、前記音声の再生終了までの時間、または前記音声の再生の進捗率を所定時間間隔で発話する音声である
（８）に記載の音声処理装置。
（１２）
音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する
ステップを含む音声処理方法。
（１３）
再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる再生制御部を備える
音声処理装置。
（１４）
再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
ステップを含む音声処理方法。

１１サーバ，１２クライアントデバイス，２１自然言語解析部，２２音声合成エンジン，２３音像位置マッピング部，２４音像定位エンジン，２６再生制御部，２７音声再生デバイス，２８音声再生操作部，３１指定方向特定部，６１背景音生成部

Claims

音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する制御部を備える
音声処理装置。
前記音声は発話テキストに基づく発話音声である
請求項１に記載の音声処理装置。
前記制御部は、音像位置により前記進捗が表される前記音声出力を制御する
請求項１に記載の音声処理装置。
前記制御部は、提示アイテムの発話を含む再生区間ごとに音像の定位位置が異なり、前記音声の再生の進捗に応じて音像が所定方向に移動していく前記音声の出力を制御する
請求項３に記載の音声処理装置。
前記制御部は、前記音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
請求項４に記載の音声処理装置。
重要度が高い前記提示アイテムの前記再生区間ほどより広い範囲が割り当てられるように、前記再生区間ごとに前記再生区間における音像の方向を含む範囲が定められ、
前記制御部は、前記メタデータに基づいて、前記範囲に前記指定方向が含まれる前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
請求項５に記載の音声処理装置。
前記制御部は、前記音声の再生の進捗に応じて音像が連続的に所定方向に移動していく前記音声の出力を制御する
請求項３に記載の音声処理装置。
前記制御部は、前記音声を再生させるとともに、前記音声の再生の前記進捗を表す背景音を再生させることにより、前記進捗が表される前記音声出力を制御する
請求項１に記載の音声処理装置。
前記背景音は、再生時間が前記音声とほぼ同じ長さの楽曲である
請求項８に記載の音声処理装置。
前記背景音は、前記音声の再生終了までの時間をカウントダウンしていく音声である
請求項８に記載の音声処理装置。
前記背景音は、前記音声の再生終了までの時間、または前記音声の再生の進捗率を所定時間間隔で発話する音声である
請求項８に記載の音声処理装置。
音声の再生に応じて、音声再生の全体に対する進捗を聴覚的に表す音声出力を制御する
ステップを含む音声処理方法。
再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる再生制御部を備える
音声処理装置。
再生区間ごとに音像の定位位置が異なり、音声再生の全体に対する進捗に応じて音像が所定方向に移動していく音声の前記再生区間の再生開始時刻を示す情報と、前記再生区間における音像の方向に関する情報とからなるメタデータに基づいて、指定方向に対応する前記再生区間を特定し、特定された前記再生区間から前記音声の再生を開始させる
ステップを含む音声処理方法。