JPWO2018179209A1

JPWO2018179209A1 - 電子機器、音声制御方法、およびプログラム

Info

Publication number: JPWO2018179209A1
Application number: JP2018564426A
Authority: JP
Inventors: 啓吾川島; 貴弘大塚; 知宏成田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-03-30
Filing date: 2017-03-30
Publication date: 2019-04-11
Anticipated expiration: 2037-03-30
Also published as: WO2018179209A1; JP6486582B2

Abstract

電子機器は、それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部と、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第１の区間の第１の読み上げ速度より遅い第２の区間の第２の読み上げ速度を、前記第１の読み上げ速度に近づける又は一致させるように調整する調整部と、前記調整部で読み上げ速度の調整を実施した区間では前記調整部で調整した読み上げ速度の、前記調整部で読み上げ速度の調整を実施していない区間では前記算出部で算出された読み上げ速度の音声を生成する音声生成部と、を備えたので音声読み上げが完了すべき区間内で音声の読み上げを完了させつつ、速度の違いによる音声読み上げの聞き取りづらさを低減することができる。

Description

本発明は、音声の読み上げ速度を制御する電子機器、音声制御方法、およびプログラムに関する。

近年、音声制御技術が進歩しており、映像やロボット動作等と同期した音声の読み上げ制御技術が求められている。

映像と同期して音声の読み上げを行うような場合、同期すべきシーン（区間）が終わって、違うシーンが始まっているのに前のシーンで完了すべき音声の読み上げが続いていると、ユーザに混乱をきたす可能性がある。このため、同期すべきシーン内で音声の読み上げを完了させるための技術も開発されている。

特開２００７−２９８６２１号公報

読み上げられる音声を所定の区間（例えば映像区間やロボットの動作の区間）と同期させる場合、区間それぞれの時間長に合わせて、その区間に対応した音声の読み上げが完了するように当該区間の音声読み上げの速度を個別に調整すると、読み上げられる音声の速さが区間によって大きく異なってしまう場合があり、ユーザにとって聞きづらい音声読み上げとなってしまう可能性がある。

本発明は上記課題を解決するためになされたものであり、音声読み上げが完了すべき区間内で音声の読み上げを完了させつつ、速度の違いによる音声読み上げの聞き取りづらさを低減する電子機器、音声制御方法、およびプログラムを得るものである。

上述した課題を解決し、目的を達成するために、本発明の電子機器は、それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部と、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第１の区間の第１の読み上げ速度より遅い第２の区間の第２の読み上げ速度を、前記第１の読み上げ速度に近づける又は一致させるように調整する調整部と、前記調整部で読み上げ速度の調整を実施した区間では前記調整部で調整した読み上げ速度の、前記調整部で読み上げ速度の調整を実施していない区間では前記算出部で算出された読み上げ速度の音声を生成する音声生成部と、を備えた。

本発明によれば、音声読み上げが完了すべき区間内で音声の読み上げを完了させつつ、速度の違いによる音声読み上げの聞き取りづらさを低減することができる。

実施の形態１における電子機器のハードウェア構成図の一例を示すブロック図。実施の形態１におけるコンテンツフレームワーク、読み上げデータ、および映像データを概念的に示した図。実施の形態１における音声読み上げ処理の一例を示す図。実施の形態１におけるコンテンツ生成処理を実行するための機能構成の一例を示すブロック図。実施の形態１におけるサブシーン毎の時間情報の一例を示す図。実施の形態１における読み上げ音声情報の一例を示す図。実施の形態１における時間長情報一例を示す図。実施の形態１における伸縮パラメータ算出処理の一例を示す図。実施の形態１における伸縮パラメータ調整処理の一例を示す図。実施の形態１における電子機器が実行するコンテンツ生成の処理フローの一例を示すフローチャート。実施の形態２におけるコンテンツ生成処理を実行するための機能構成の一例を示すブロック図。実施の形態２における伸縮パラメータ調整処理の一例を示す図。実施の形態２における電子機器が実行するコンテンツ生成の処理フローの一例を示すフローチャート。実施の形態２における電子機器が実行する伸縮パラメータの調整の処理フローの一例を示すフローチャート。実施の形態３におけるコンテンツ生成処理を実行するための機能構成の一例を示すブロック図。実施の形態３における伸縮パラメータ調整処理の一例を示す図。実施の形態３における伸縮パラメータ調整処理の一例を示す図。実施の形態３における電子機器が実行するコンテンツ生成の処理フローの一例を示すフローチャート。実施の形態３における電子機器が実行する伸縮パラメータの調整の処理フローの一例を示すフローチャート。実施の形態４における電子機器のハードウェア構成図の一例を示すブロック図。

以下にて、本発明にかかる電子機器、音声制御方法、およびプログラムの実施の形態について、図面に基づいて詳細に説明する。

実施の形態１．
まず、本実施の形態にかかるハードウェア構成について説明する。

図１は、本実施の形態における電子機器のハードウェア構成の一例を示すブロック図である。

電子機器１０は内蔵したプロセッサ１１０等により情報処理を実行する装置である。電子機器１０の具体的な例としては、ＰＣ（Personal Computer）が考えられるがこれに限定されず、例えばサーバ、タブレット、スマートフォン、デジタルＴＶ（Television）、または光ディスクプレーヤ等の情報処理を実行することのできる種々のプロダクトが考えられる。

電子機器１０は、プロセッサ１１０、メモリ１２０、ストレージ１３０、ディスプレイ１４０、スピーカ１５０、通信部１６０、入力部１７０、マイク１８０、およびバス１９０を有している。

プロセッサ１１０は、電子機器１０全体を制御する演算処理装置である。プロセッサ１１０はストレージ１３０に格納されたコンテンツ生成プログラム１３１、音声生成プログラム１３２、言語辞書１３３、および音声辞書１３４に基づいて読み上げ音声を生成し、この音声を含むコンテンツを生成する機能を有している。プロセッサ１１０は電子機器１０の中央処理装置（Central Processing Unit）であり、情報を処理する機能を有するが、制御部（Controller）、処理部（Processor）等の種々の呼称にて呼ぶことができる。また、プロセッサ１１０はハードウェアとして一つの回路、制御部、または処理部で構成されている必要はなく、一つまたは複数の回路、制御部、または処理部にて構成される。

メモリ１２０は、例えばRAM(Random Access Memory)と呼ばれる半導体で構成された揮発性の記憶装置（記憶媒体）であり、プロセッサ１１０が各種プログラムを実行する際にプログラムを展開する領域や、各種のキャッシュやバッファとして用いられる。

ストレージ１３０は、例えばHDD（Hard Disk Drive）、又はSSD（Solid State Disk）等で例示される大容量の不揮発性記憶装置（媒体）であり、プロセッサ１１０が実行する各種プログラムや、各プログラムを実行する際にプロセッサ１１０が参照するデータを格納している。本実施の形態では、プログラムとしてコンテンツ生成プログラム１３１および音声生成プログラム１３２がストレージ１３０に記憶されている。また、プロセッサ１１０が参照するデータとして言語辞書１３３および音声辞書１３４がストレージ１３０に記憶されている
コンテンツ生成プログラム１３１はプロセッサ１１０によって実行されるプログラムであり、コンテンツを生成する機能を有するソフトウェアである。ここでのコンテンツとは、例えば動画再生プログラム等により再生可能な、映像と音声が同期された動画音声データである。

音声生成プログラム１３２はプロセッサ１１０によって実行されるプログラムであって、音声生成するためのもととなる情報である言語辞書１３３、音声辞書１３４等に基づいて、音声を生成する機能を有するソフトウェアである。

言語辞書１３３はテキストデータの読みやアクセントなどの情報を含むデータベースである。電子機器１０が任意のテキストデータから読み上げ方を表すテキストデータへの変換を行う際に、言語辞書１３３は参照される。

音声辞書１３４は音声データを生成するために必要な音声素片または音響パラメータを記憶したデータベースである。音声合成の方式がデータベース内の音声（波形）を変形しながら接続を行って音声合成を行う方式であれば、音声辞書１３４には音声素片が含まれる。音声素片とは読み上げ音声を生成するために必要な、文単位、文節単位、音節単位、および音素単位等で構成された音声データ（波形データ）である。また、音声合成の方式がフォルマント合成方式のような、人間の音声を使用せずに波形を生成する方式であれば、音声辞書１３４には波形生成に必要な音響パラメータが含まれる。音響パラメータとは、言語辞書１３３に含まれる単語の周波数や読み上げの速度を示す情報である。

ディスプレイ１４０は、電子機器１０の筐体から露出して設けられる、例えばＬＣＤ（Liquid Crystal Display）やＯＥＬＤ（Organic Electroluminescence Display）等の表示装置（表示手段）である。ディスプレイ１４０はプロセッサ１１０から表示指示された映像を表示する機能を有している。

スピーカ１５０は、プロセッサ１１０からの音声出力指示に基づいて、電気信号を物理振動に変えて、音声を出力する装置である。

通信部１６０は内蔵されたアンテナによって、例えばワイヤレスＬＡＮ（Local Area Network）によって他の機器と通信を行う通信装置である。本実施の形態ではワイヤレスＬＡＮを例示して説明するが、当然これに限定されず、他の無線通信規格により他の機器と通信するとしても良いし、有線ＬＡＮによって通信を実行するとしてもよい。また通信部１６０は、例えば３Ｇ（3rd Generation）やＬＴＥ（Long Term Evolution）等の移動体通信網を介して他の機器との通信を実行する通信装置であってもよい。

入力部１７０は、ユーザが文字データを入力可能なキーボードである。

マイク１８０は、周囲の音を電気信号に変換して電子機器１０に入力する集音装置（マイクロフォン）である。

バス１９０は、接続される各構成を互いに通信可能に接続する機能を有する伝送回路である。

本実施の形態の電子機器１０は、例えば通信部１６０からコンテンツフレームワーク、読み上げデータ、および映像データを受信し、読み上げデータに基づいて読み上げ音声を生成する。そして電子機器１０は、コンテンツフレームワークに基づいて映像データと読み上げデータに基づいて生成された読み上げ音声の音声データを同期させたコンテンツを生成し、出力する機能を有している。以下では、これらのコンテンツフレームワーク、読み上げデータ、および映像データ等について説明を行う。

図２は、本実施の形態におけるコンテンツフレームワーク、読み上げデータ、および映像データを概念的に示した図である。

コンテンツフレームワーク３０１は、電子機器１０がコンテンツを生成する際に使用される、コンテンツのタイムテーブルを有するデータである。コンテンツのタイムテーブルは、コンテンツ内の映像や音声の時間の枠組み（区切り、サブシーン）を定義する。

読み上げデータ３０２は、コンテンツにて読み上げられる文言を示すデータである。読み上げデータ３０２は、例えば任意のテキストデータであり、これには漢字やアルファベット、数字、または記号等が含まれていてもよい。

映像データ３０３は、コンテンツを生成するために用いられる映像の情報である。映像データ３０３のフォーマットとしては種々の形式が考えられるが、電子機器１０がコンテンツを生成できるフォーマットであればどのような形式でもよい。

コンテンツフレームワーク３０１、読み上げデータ３０２、および映像データ３０３はそれぞれ映像と音声とを同期させる区間に基づいて管理されている。つまり、読み上げデータ３０２は、それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報と呼ぶことができる。また、映像データ３０３は、それぞれが割り当てられた区間で表示される複数の映像を示す情報と呼ぶことができる。

コンテンツフレームワーク３０１には、上記区間の時間情報が定義されており、本実施の形態ではこの区間の幾つかをサブシーンと呼ぶ。サブシーンとは、コンテンツを提供されるユーザがコンテンツの内容を理解しやすいタイミングで区切ったコンテンツの一部区間や、コンテンツが示すべき一連の意図が示されるコンテンツの一部区間のことである。

読み上げデータ３０２のデータ形式は、サブシーンの番号と当該サブシーンで読み上げられる音声のテキストデータとが対応付けられた形式となっている。

映像データ３０３のデータ形式は、サブシーンの番号と当該サブシーンで表示される映像のデータとが対応付けられた形式となっている。

図２の例では電子機器１０によってコンテンツの生成がなされた場合、サブシーン１として0:00から0:03まで区間が継続し、この区間において「全国のお天気です。」という音声が発話され、全国地図の映像が表示される。このようにコンテンツフレームワーク３０１に示されるサブシーンの区間において、読み上げデータ３０２が示す音声と、映像データ３０３が示す映像が出力されるようコンテンツは生成される。

次に、コンテンツフレームワーク３０１、読み上げデータ３０２、および映像データ３０３に基づいてコンテンツを生成するときの音声の読み上げの速度について説明する。

図３は、本実施の形態における音声読み上げ処理の一例を示す図である。

本実施の形態の電子機器１０は読み上げデータ３０２に基づいた音声を生成する。生成の際には読み上げデータ３０２、言語辞書１３３、および音声辞書１３４に基づいて音声生成を行う。音声生成処理は後述にて詳細に説明するが、これらに基づいて生成された音声には速度の初期値（デフォルト）が存在する。速度調整を行っていない音声は初期値の速度にて生成および再生され、再生される音声の再生時間は一般的に、文章が長い場合には長時間、短い場合は短時間となる。

本実施の形態における電子機器１０は３つの音声読み上げ方式で読み上げ音声を生成してコンテンツ生成することができる。以下では、これらの３つの音声読み上げ方式を音声読み上げパターン１〜３と呼ぶ。尚、ここでは電子機器１０は３つの音声読み上げ方式で音声を生成することができるとするが、３つの音声読み上げ方式全てを実行できることは電子機器１０の必須の構成ではなく、電子機器１０は例えば読み上げパターン３のみを実行できる等のように、音声読み上げパターン３を含む１つ又は２つの読み上げパターンで読み上げ音声を生成できる構成であってもよい。

まず、音声読み上げパターン１は、音声を初期値の速度で読み上げる方式である。図３に示されるように初期値にて音声を読み上げる場合には、基本的に読み上げられる文字数に応じて読み上げに必要となる読み上げ時間が長くなる。例えば、サブシーン３は文字数が多いため、初期値の読み上げ速度では音声の読み上げに８秒要する。このため、サブシーン３の音声読み上げは、６秒で終了するサブシーン３の区間に入りきらず、サブシーン３の区間が終わった後も（サブシーン３の映像の表示が終わった後も）、音声の読み上げが継続していることとなる。このような場合、対応する映像が終わった後にも音声の読み上げが継続してしまうため、コンテンツを視聴しているユーザは映像と音声の対応関係を認識しづらく、音声読み上げパターン１はユーザに混乱を生じさせてしまう可能性がある。

次に、音声読み上げパターン２は、初期値の速度で音声の読み上げを行った場合にはサブシーンを超過してしまう読み上げ音声に対して、サブシーン区間内に収まるように速度調整を行って音声読み上げを実行する方式である。図３の例では、サブシーン３以外は音声の読み上げがそれぞれのサブシーンの区間内で完了するため、電子機器１０はサブシーン３以外の区間では読み上げの速度を変化させない。しかし、サブシーン３では初期値の速度のままでは音声読み上げの時間がサブシーン区間を超過するため、電子機器１０は音声読み上げがサブシーン３の区間内に完了するように音声読み上げの速度を変化させる。具体的には、初期値で読み上げた場合、サブシーン３の音声の読み上げには８秒がかかるが、サブシーン３は６秒しかないので、電子機器１０は読み上げが６秒で収まるようにサブシーン３の音声読み上げを加速させる。これにより、全てのサブシーンについて、対応する映像が表示されている間に音声の読み上げが完了することになり、ユーザに混乱を生じさせることがなくなる。しかし、この読み上げパターンではサブシーン３のみ音声読み上げの速度が速く、他のサブシーンとサブシーン３との間で大きく音声読み上げの速度が変化してしまうので、ユーザに違和感を与えたり、聞き取りづらい音声となってしまったりする可能性がある。

音声読み上げパターン３は、速度調整を行った音声読み上げ速度の向上を他のサブシーンの音声読み上げにも同様に適用して、他のサブシーンの音声読み上げも加速させる音声読み上げ方法である。音声読み上げパターン３では、サブシーン３の区間に収めるためサブシーン３の音声読み上げ速度を向上させるとき、もともとサブシーン区間に収まっているサブシーン１、２、および４にもサブシーン３と同様の音声読み上げの速度向上を施す。例えば、サブシーン３の音声読み上げをサブシーン区間に収めるために、３３％の音声読み上げの加速を行った場合、電子機器１０はサブシーン１、２、および４にも同様に３３％の音声読み上げの加速を施す。これにより、全体を通しての音声読み上げの速度が統一される。このため、各サブシーンの音声はそれぞれサブシーンの時間に収まり、さらに読み上げ速度の変化によるユーザの違和感や聞き取りづらさが防止される。

また、電子機器１０は上述のように読み上げ速度を一致させるサブシーン群を適宜決定することができる。例えば、コンテンツに含まれる全てのサブシーンで音声の読み上げ速度を統一するとしても良いし、コンテンツ内の所定の区間（例えばサブシーン２〜４のみ等）の中で読み上げ速度を統一するとしても良い。

次に、本実施の形態において電子機器１０がコンテンツ生成処理を実行するための構成や処理の詳細について図４から図９の図面を用いて詳細に説明する。

図４は、本実施の形態においてコンテンツ生成処理を実行するための機能構成の一例を示すブロック図である。

本実施の形態の電子機器１０は、コンテンツフレームワーク３０１、読み上げデータ３０２、および映像データ３０３に基づいて、映像と音声とが含まれるコンテンツを生成し、出力する機能を有している。電子機器１０は、読み上げデータ３０２に基づいて音声生成を行って読み上げ音声の音声データを生成し、生成した音声データと映像データ３０３と同期させたコンテンツを生成する。この機能を実行するために、ストレージ１３０に格納されていたコンテンツ生成プログラム１３１および音声生成プログラム１３２がプロセッサ１１０によって実行され、言語辞書１３３および音声辞書１３４はメモリ１２０に展開されてプロセッサ１１０の処理に活用される。図４ではプロセッサ１１０によって実行されるコンテンツ生成プログラム１３１および音声生成プログラム１３２の各機能の構成がブロックによって示されている。

プロセッサ１１０（コンテンツ生成プログラム１３１）は、通信部１６０が受信したコンテンツフレームワーク３０１、読み上げデータ３０２、および映像データ３０３を取得する。ここではコンテンツフレームワーク３０１、読み上げデータ３０２、および映像データ３０３を通信部１６０から受信する場合を例示して説明するがこれに限定されず、例えば光メディア等の媒体を読み込んで利用するとしても良い。また、コンテンツフレームワーク３０１はストレージ１３０に予め格納しておき、読み上げデータ３０２および映像データ３０３を、通信部１６０を介して取得するとしても良い。また、これらの方法を組み合わせた方法で情報を取得してもよい。

コンテンツ生成プログラム１３１のサブシーン時間設定部２０１は、コンテンツフレームワーク３０１、読み上げデータ３０２、および映像データ３０３を受信し、コンテンツフレームワーク３０１からサブシーンの時間長情報５０１を取得する機能を有している。サブシーンの時間長情報５０１とは図５に示されるように各サブシーンと当該サブシーンの時間長情報とが対応付けられた情報であり、ここでのサブシーンの時間長とはサブシーンの開始から終了までの時間の長さである。サブシーン時間設定部２０１は、読み上げデータ３０２を音声生成部２０２に、サブシーンの時間長情報５０１を伸縮パラメータ算出部２０４に送信する。

音声生成部２０２は、サブシーン時間設定部２０１から取得する読み上げデータ３０２に基づいてサブシーン毎の読み上げ音声情報６０１を生成する機能を有している。ここでサブシーン毎の読み上げ音声情報６０１とは、初期値（デフォルト）の速度で生成された音声の波形を示す情報であり、再生されるべきサブシーンと波形情報とが対応付けられている。

音声生成部２０２は、テキストデータである読み上げデータ３０２に形態素解析による言語解析を行った後、この解析結果より読み上げのフレーズ単位を決める。音声生成部２０２は読み上げのフレーズ単位を決めると、言語辞書１３３を参照して、このフレーズ単位での読みとアクセント位置を決定する。さらに、音声生成部２０２は、フレーズ単位で決定された読みとアクセント位置に基づいて文章におけるポーズ位置を予測し、この後に複数のフレーズ単位を含む文章についてイントネーション（ピッチ周期系列）およびリズム（音素の継続時間長）を決定する。音声生成部２０２は、このイントネーションおよびリズムを決定することで、読み上げ音声の初期値（デフォルト）の速度を定めている。最後に、音声生成部２０２は上記処理によって決定した文章の読み、アクセント、ポーズ位置、イントネーション、およびリズムに適合する音声素片を音声辞書１３４より選択し、これらの音声素片の波形を波形接続して読み上げ音声の波形を生成する。上記の言語解析の詳細処理については、例えば参考文献１や参考文献２に示す技術を利用してもよい。

参考文献１：特開２００２−３３３８９６号公報
参考文献２：特開２００３−４４０７３号公報
また、波形接続処理についても例えば参考文献３で開示されているＰＳＯＬＡ（Pitch-Synchronous Overlap and Add）法を用いて素片の基本周波数および継続時間長を変形させながら、素片を順次配置すればよい。また、波形の連続性を考慮し、先行する波形の端の形状と後続する波形の端の形状を考慮して配置位置を決めて（例えば、ピッチ単位の相関値が高くなる位置）、波形同士を重ねあわせる（加算して平均する）よう処理してもよい。

参考文献３：F.J.Charpentier and M.G.Stella、ICASSP86、pp2015-2018、Tokyo、1986
音声生成部２０２は、上述の方法で図６に示すサブシーン毎の読み上げ音声情報６０１を生成し、時間長算出部２０３に送信する機能を有している。

時間長算出部２０３は、音声生成部２０２から入力されるサブシーン毎の読み上げ音声情報６０１を再生した場合の各読み上げ音声の読み上げ時間長を算出する機能を有している。時間長算出部２０３は、サブシーン毎の読み上げ音声情報６０１を読み上げた時間をシミュレートして、初期値の速度でサブシーン毎の音声が再生された場合に必要となる読み上げ時間長を図７で示す時間長情報７０１のようにそれぞれ算出し、この時間長情報７０１を伸縮パラメータ算出部２０４に送信する。時間長算出部２０３は、音声の再生時間を算出して読み上げ時間長を算出するのではなく、読み上げデータ３０２を解析することで、音声の時間を算出するとしても良い。読み上げデータ３０２を解析する場合には、時間長算出部２０３は読み上げデータ３０２のヘッダ情報やデータ長から音声の時間を算出するとしても良い。

上述では、音声生成部２０２は読み上げ音声情報６０１を生成し、この読み上げ音声情報６０１に基づいて時間長算出部２０３はサブシーン毎の音声が再生された場合に必要となる読み上げ時間長を算出するものとして例示したが、本実施の形態はこれに限定されない。音声生成部２０２は音声の波形自体を生成せず、時間長算出部２０３がサブシーン毎の音声が再生された場合に必要となる時間長を算出するのに必要な情報を生成して、時間長算出部２０３に送信するとしてもよい。この時間長を算出するのに必要な情報としては、例えば、音声の読み上げ方を表す表話文字やアクセント記号、ポーズ記号、制御記号等の組み合わせの情報が考えられる。これらの情報は初期値の速度で読み上げに要する時間が定められており、時間長算出部２０３は各表話文字等の読み上げに要する時間を加算することで、読み上げられる各音声が再生された場合に必要となる時間を算出することができる。

伸縮パラメータ算出部２０４は、時間長算出部２０３より入力されるサブシーン毎の読み上げ時間長情報７０１とサブシーン時間設定部２０１から入力されるサブシーンの時間長情報５０１に基づいて、伸縮パラメータ算出する機能を有している。

伸縮パラメータとは、音声読み上げの速度を向上させた場合の、速度向上前の（初期値の読み上げ速度での）読み上げに要する時間に対する、速度向上後の読み上げで要する時間の比率である。例えば、初期値での読み上げに8.0秒かかる音声読み上げについて、読み上げ時間が6.0秒になるように読み上げ速度の向上を施した場合、上記比率は0.75なので伸縮パラメータは0.75となる。また、伸縮パラメータは速度向上前の読み上げ速度に対する、速度向上後の読み上げ速度の比率（速度向上率）の逆数とも定義できる。つまり、伸縮パラメータの値が小さくなると音声読み上げの速度の向上率は大きくなり、結果として速度変更後の読み上げ速度は速くなる。

伸縮パラメータ算出部２０４は直接的には伸縮パラメータを算出するが、前述のとおり伸縮パラメータは初期値の速度から区間内で読み上げを完了するための速度への速度向上率の逆数である。読み上げ速度の初期値は音声生成部２０２にて決まっているため、伸縮パラメータが決まると、速度変更後の読み上げ速度も一義的に定められる。つまり、伸縮パラメータ算出部２０４は伸縮パラメータを算出することで、実質的に速度変更後の読み上げ速度を算出しているということになる。換言すれば、伸縮パラメータ算出部２０４は、割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部ともいえる。

伸縮パラメータ算出部２０４は、対応するサブシーン内で読み上げが完了するために読み上げ音声の速度向上を要する場合（サブシーンの時間長が初期値の速度での読み上げ時間長より短い場合）には、サブシーンの時間長を初期値の読み上げ時間長で割った値を伸縮パラメータとして算出する。また、対応するサブシーン内で読み上げが完了するために読み上げ音声の速度向上を要しない場合（サブシーンの時間長が初期値の速度での読み上げ時間長以上の場合）には、音声は初期値の速度にて読み上げられることが好適なので、伸縮パラメータを「１」として算出する（図８参照）。

図３の説明にて述べたように、電子機器１０は音声読み上げの読み上げ速度を変更する機能を有している。そして、音声読み上げの速度変更処理は、この伸縮パラメータに基づいて実行される。

伸縮パラメータ算出部２０４は、サブシーン毎の伸縮パラメータ情報８０１を算出し、算出した伸縮パラメータ情報８０１を伸縮パラメータ調整部２０５に送信する。

伸縮パラメータ調整部２０５は、伸縮パラメータ算出部２０４より入力されるサブシーン毎の伸縮パラメータ情報８０１に基づいて、各サブシーンの音声の読み上げ時間の伸縮率（換言すれば、読み上げ速度変化率）を調整する機能を有している。本実施の形態における伸縮パラメータ調整部２０５は、伸縮パラメータが最も小さい（最も読み上げ速度が速い）サブシーンの伸縮パラメータを他のサブシーンの伸縮パラメータにも適用して（一致させて）、調整伸縮パラメータ情報９０１を出力する（図９参照）。

伸縮パラメータが最も小さいサブシーンとはつまり、読み上げ速度が最も速い読み上げのサブシーンのことであり、伸縮パラメータ調整部２０５は、この伸縮パラメータを他のサブシーンの伸縮パラメータにも適用する。つまり、伸縮パラメータ調整部２０５は、読み上げ速度が最も速いサブシーンの読み上げ速度に、他のサブシーンの読み上げ速度を一致させる。言い換えると、伸縮パラメータ調整部２０５は、第１の区間の第１の読み上げ速度より遅い第２の区間の第２の読み上げ速度を、前記第１の読み上げ速度に一致させるように調整する調整部とも呼ぶことができる。

また、伸縮パラメータ調整部２０５は、伸縮パラメータを調整するサブシーンの範囲を適宜設定することができる。例えば、コンテンツ全体で音声速度を統一させる場合には、伸縮パラメータ調整部２０５はコンテンツ全体を対象として、読み上げ速度が最も速いサブシーンを検出し、他のサブシーンの読み上げ速度をこのサブシーンに一致させる。また、所定の複数サブシーンで音声速度を統一させる場合には、伸縮パラメータ調整部２０５はこの所定の複数サブシーンを対象として、読み上げ速度が最も速いサブシーンを検出し、他のサブシーンの読み上げ速度をこの最も速い読み出し速度に一致させる。例えば、読み上げ速度を一致させる所定の複数サブシーンがサブシーン２〜４であった場合には、伸縮パラメータ調整部２０５は読み上げ速度が最も速いサブシーンであるサブシーン３の読み上げ速度をサブシーン２および４に適用するように伸縮パラメータを調整し、サブシーン１にはこれを適用しない。

伸縮パラメータ調整部２０５は、調整伸縮パラメータ情報９０１を調整後音声生成部２０６に送信する。

調整後音声生成部２０６は、調整伸縮パラメータ情報９０１の値を用いて速度調整を行った読み上げ音声を生成する機能を有している。調整後音声生成部２０６は、各サブシーンについて、再生時間が初期値の調整伸縮パラメータ倍となるように読み上げ音声の速度調整を行って読み上げ音声を生成する。言い換えると、調整後音声生成部２０６は、読み上げ速度の初期値からの向上率が、調整伸縮パラメータの逆数倍となる速度の読み上げ音声を生成する。

つまり、本実施の形態における電子機器１０は初期値の速度ではサブシーン区間内に読み上げ速度が収まらないサブシーンが存在する場合、サブシーン区間に収まるように当該区間の読み上げ音声の速度を変更し、この変更（音声の読み上げ速度変化率の変更又は音声の読み上げ時間の変化率の変更）を他のサブシーンの音声読み上げにも適用する構成となっている。

ここで、調整後音声生成部２０６は上記の速度となるように言語辞書１３３および音声辞書１３４を用いて新たに読み上げ音声を生成する。調整後音声生成部２０６は音声生成部２０２より、音声生成部２０２が決定した文章の読み、アクセント、ポーズ位置、イントネーション、およびリズムの情報を受け取り、イントネーションおよびリズムを変更することで、読み上げ速度を上記の調整後の速度に変更し、変更したイントネーションおよびリズムと、文章の読み、アクセント、ポーズ位置に適合する音声素片を音声辞書１３４より選択し、これらの音声素片の波形を波形接続して速度変更後の読み上げ音声の波形を生成する。

また、調整後音声生成部２０６は、読み上げ音声の話速の変化に応じて、イントネーション（音高の平均値や分散値）を調整するとしても良い。例えば、話速を速くする場合に音高の平均値を低くする、あるいは音高の分散値を大きくすることにより、知覚上の話速の変化を抑えることが可能である。この場合、話速の変化と知覚上のイントネーションの関係を学習した統計モデルやマッピングテーブルを用意し、話速の変化量に応じたイントネーションの制御を行えば良い。また、話速の変化量が予め設定した閾値を超える場合に音高を変化させるように制御しても良い。

調整後音声生成部２０６は生成した読み上げ音声データをコンテンツ生成部２０７に送信する。

コンテンツ生成部２０７は、サブシーン時間設定部２０１から入力されるコンテンツフレームワーク３０１および映像データ３０３と、調整後音声生成部２０６から入力される読み上げ音声データの情報とに基づいてコンテンツを生成する機能を有している。コンテンツ生成部２０７はコンテンツフレームワーク３０１に基づいて、各サブシーンに対応する音声と映像とを同期してコンテンツを生成する。ここでは読み上げデータ３０２や映像データ３０３に含まれるサブシーン番号に基づいて、コンテンツフレームワーク３０１で定められたサブシーン番号と対応する時間から、当該サブシーンと対応する映像データ３０３と読み上げ音声データとが同時に再生開始されるように同期処理を実行する。本同期処理は、上述のようにサブシーン番号に基づいて、映像データ３０３と読み上げ音声データの開始時間を決定して、同期するとしても良いし、もともとの映像データ３０３や読み上げデータ３０２に再生開始時間のタイムスタンプがふられている場合には、タイムスタンプで定められた時間から映像データ３０３と読み上げ音声データとが再生開始されるように同期処理を実行するとしてもよい。コンテンツは例えばMPEG等の規格に準拠した動画プレーヤ等で再生可能なフォーマットとなっていてもよい。

またコンテンツ生成部２０７は、生成したコンテンツをそのままストレージ１３０に格納するとしても良いし、自身が生成したコンテンツを再生して、映像と音声をそれぞれディスプレイ１４０とスピーカ１５０から出力することもできる。

次に、本実施の形態の電子機器１０が実行するコンテンツ生成の処理フローについて説明する。

図１０は、本実施の形態における電子機器１０が実行するコンテンツ生成の処理フローの一例を示すフローチャートである。

まず、プロセッサ１１０は通信部１６０等を介してコンテンツフレームワーク３０１、読み上げデータ３０２、および映像データ３０３を取得し（ステップＳＴ１００１）、サブシーン時間設定部２０１に渡す。

次に、サブシーン時間設定部２０１はコンテンツフレームワーク３０１からサブシーンの時間長情報５０１を取得し（ステップＳＴ１００２）、読み上げデータ３０２を音声生成部２０２に、サブシーンの時間長情報５０１を伸縮パラメータ算出部２０４に送信する。

読み上げデータ３０２が入力された音声生成部２０２は、読み上げデータ３０２に基づいて初期値の速度での読み上げ音声情報６０１を生成し（ステップＳＴ１００３）、時間長算出部２０３に送る。

時間長算出部２０３は、読み上げ音声情報６０１を取得すると、初期値の速度で音声を再生した場合に必要となる音声読み上げ時間長をそれぞれのサブシーンで算出し（ステップＳＴ１００４）、算出した時間長情報７０１を伸縮パラメータ算出部２０４に送信する。

次に、伸縮パラメータ算出部２０４は、時間長算出部２０３より入力される時間長情報７０１とサブシーン時間設定部２０１から入力されるサブシーンの時間長情報５０１に基づいて、サブシーン毎の伸縮パラメータ情報８０１を算出する（ステップＳＴ１００５）。伸縮パラメータ算出部２０４は、算出した伸縮パラメータ情報８０１を伸縮パラメータ調整部２０５に送信する。

伸縮パラメータ情報８０１が入力された伸縮パラメータ調整部２０５は、伸縮パラメータが最も小さい（最も読み上げ速度が速い）サブシーンの伸縮パラメータを他のサブシーンの伸縮パラメータにも適用するように伸縮パラメータの調整を行い（ステップＳＴ１００６）、調整した伸縮パラメータである調整伸縮パラメータ情報９０１を調整後音声生成部２０６に出力する。

調整後音声生成部２０６は、調整伸縮パラメータ情報９０１の値、音声生成部２０２から受信する文章の読み、アクセント、ポーズ位置、イントネーション、およびリズムの情報を用いて、速度調整を行った読み上げ音声の音声データを生成する（ステップＳＴ１００７）。次に調整後音声生成部２０６は生成した速度調整を行った読み上げ音声データをコンテンツ生成部２０７に送信する。

次に、コンテンツ生成部２０７は、サブシーン時間設定部２０１から入力されるコンテンツフレームワーク３０１および映像データ３０３と、調整後音声生成部２０６から入力される読み上げ音声データとをコンテンツフレームワーク３０１に従って同期させてコンテンツを生成し（ステップＳＴ１００８）、これを再生して、映像と音声をそれぞれディスプレイ１４０とスピーカ１５０から出力する（ステップＳＴ１００９）。

以上に一連のコンテンツ生成の処理フローは終了となる。

上述の処理フローでは図３を参照して説明した読み上げパターン３の音声読み上げを行ったコンテンツを生成することができる。

伸縮パラメータ調整部２０５の機能をオフとして各サブシーンの伸縮パラメータ情報８０１の調整を行わなければ（ステップＳＴ１００６をスキップすれば）、読み上げパターン２の音声読み上げを行ったコンテンツを生成することができ、さらに時間長算出部２０３、伸縮パラメータ算出部２０４、調整後音声生成部２０６の機能をオフとして、ステップＳＴ１００４からステップＳＴ１００７までの処理をスキップすれば、読み上げパターン１の音声読み上げを行ったコンテンツを生成することができる。

本実施の形態では、伸縮パラメータ算出部２０４は伸縮パラメータを算出し、伸縮パラメータ調整部２０５は伸縮パラメータを調整する。伸縮パラメータ算出部２０４が算出する伸縮パラメータは上述のようにサブシーン区間内に音声読み上げが収まるための音声読み上げ時間の伸縮の比率であり、初期値の音声読み上げ速度からサブシーン区間内に音声読み上げが収まるための音声読み上げ速度への速度変化率の逆数である。変化前の初期値の読み上げ速度は音声生成部２０２で定められるため、伸縮パラメータ算出部２０４はつまり、伸縮パラメータを算出することでサブシーン区間内に音声読み上げが収まるための音声読み上げ速度を算出しているということができる。また、伸縮パラメータ調整部２０５はこの伸縮パラメータを調整するので、音声読み上げの速度を調整しているということができる。

本実施の形態では読み上げデータ３０２は通信部１６０より入力されるとして例示したが、これに限定されず、例えば電子機器１０の入力装置１７０（キーボード）からテキストデータを入力し、これを読み上げるとしてもよい。

また、本実施の形態では読み上げデータ３０２がテキストデータであり、電子機器１０が言語辞書１３３、音声辞書１３４を参照して音声データを生成する場合を例示して説明したが、これに限定されず、読み上げデータをＩＤ（Identifier、識別子）の形式で取得するとしても良い。この場合、音声生成部２０２および調整後音声生成部２０６はＩＤと音声情報とが対応付けられて記憶されているデータベースをストレージ１３０から取得し、ＩＤに基づいて音声情報を生成することとなる。

さらに、読み上げデータはマイク１８０を介して取得した人間の発話に基づくテキストデータであってもよい。人間の発話に基づいたテキストデータの取得には公知の音声認識技術を用いればよく、ＤＰマッチング（Dynamic Programming Matching）、ＨＭＭ(Hidden Markov Model)法、ニューラルネットワーク法等の種々の技術が考えられる。

上記の実施の形態では、電子機器１０はイントネーションおよびリズムを変更して読み上げ音声の速度調整を行ったが、これに限定されない。例えば、読み上げ音声内の発話のない区間である非発話区間の長さを調整することで、音声読み上げの速度向上を実現することもできる。この方法では、プロセッサ１１０はサブシーン区間内で音声信号のパワーが閾値以下の区間を非発話区間と推定し、調整後音声生成部２０６は、この非発話区間の時間を短縮した音声波形を生成することで音声読み上げの読み上げ開始から読み上げ完了までの時間を短くする。つまり、非発話区間の短縮のみでの読み上げ速度の向上方法では、各サブシーン内の音声の中の発話区間の発話速度は変化しないが、非発話区間の時間が短縮されて、サブシーン内の音声の読み上げ開始から読み上げ完了までの時間が短縮される。この場合、同じ文章量を読み上げるための、開始から終了までの時間が短縮されることで、音声の読み上げ速度が向上したと定義することができる。尚、非発話区間は単に短くしてもよいし、一部を省略して挿入頻度を低くしてもよい。本方式では、例えば参考文献４のような公知技術を用いることができる。このように構成した場合、話速の変化による音節の認識の低下を軽減することができる。

参考文献４：特開２０１３−１６０９７３号公報
また、発話速度の速度調整と非発話区間の長さ調整の両方を実行するとしても良い。このように構成することで、文意の理解と音節の認識性を統合的に考慮して劣化の少ない音声読み上げの速度向上が可能となる。

さらに本実施の形態では映像と音声を同期させてコンテンツを生成、出力する場合を例示して説明したが、これに限定されない。例えば、ロボットの動作と音声を同期させる際の音声読み上げの制御にも本実施の形態の電子機器１０は適用可能である。この場合、読み上げが完了すべき区間として、ロボットの一連の動作区間を設定すればよい。そのように構成する場合、サブシーン時間設定部２０１はロボットの一連の動作区間の時間情報を取得し、伸縮パラメータ算出部２０４はこの動作区間と読み上げ音声情報６０１に基づいて、この動作区間内で読み上げが完了するように音声の伸縮パラメータを調整する。調整後音声生成部２０６は調整後の伸縮パラメータに基づいた速度の読み上げ音声を生成し、プロセッサ１１０はロボットの動作開始時間と音声読み上げの開始時間が同じタイミングとなるように、ロボットの動作に音声の読み上げを同期して出力する。

本実施の形態の電子機器１０によれば、それぞれの区間で音声の読み上げを完了できる速度を算出し、算出結果に基づいて遅い読み上げ速度の音声読み上げを速い読み上げ速度に一致させるように調整して、調整した区間については調整後の読み上げ速度で、調整していない区間についてはそれぞれの区間で音声の読み上げを完了できる読み上げ速度で音声を読み上げるため、全ての対象区間で、完了すべき区間内での音声の読み上げを完了させつつ、音声読み上げの速度変化による音声の聞き取りづらさを低減することができる。

また本実施の形態では音声読み上げの速度の向上率を複数区間で一律とするため、読み上げ速度の速度変化がなくユーザが聞き取り易い音声読み上げを実現できる。

実施の形態２．
次に、本発明の実施の形態２について説明する。

実施の形態２の電子機器１０は、音声読み上げの速度調整を実行する際、各サブシーンの読み上げ速度を一律で向上させるのではなく、サブシーン間の速度変化が小さくなるように各サブシーンの読み上げ速度を個別に調整する。本処理について図面を用いて説明を行う。

尚、実施の形態１と同一又は相当の機能を有する構成については実施の形態１と同様の名称、符号を付している。異なる機能を有する構成には同じ名称であっても異なる符号を付している。また以下では、実施の形態１と重複する説明は省略し、異なる構成及び処理について重点的に説明を行う。尚、ハードウェア構成については実施の形態１と同様のため、説明を割愛する。

図１１は、本実施の形態においてコンテンツ生成処理を実行するための機能構成の一例を示すブロック図である。

音声生成プログラム１１０１は、許容差情報１１０３を有している。

許容差情報１１０３は、各サブシーン間に許容する伸縮パラメータの許容差に関する情報である。許容差情報１１０３はコンテンツ全体の中で許容する各サブシーンの伸縮パラメータの差の情報と、隣接するサブシーン間（隣り合う区間）で許容する伸縮パラメータの差の情報とを含んでいる。

そして、伸縮パラメータ調整部１１０２は、各サブシーンの伸縮パラメータの差が許容差情報１１０３にて許容されている差以下となるように、伸縮パラメータの調整を実行する機能を有している。

次に、伸縮パラメータ調整部１１０２が許容差情報１１０３を用いて実行する伸縮パラメータの調整処理の詳細について説明する。

図１２は、本実施の形態における伸縮パラメータ調整処理の一例を示す図である。

伸縮パラメータ調整部１１０２は、伸縮パラメータ算出部２０４から入力される伸縮パラメータ情報８０１と許容差情報１１０３とに基づいて、各サブシーンの伸縮パラメータを調整する。

本実施の形態の許容差情報１１０３は、コンテンツ全体での伸縮パラメータの許容差が0.2、隣接するサブシーン間の伸縮パラメータの許容差が0.1であることを示したデータである。つまり、許容差情報１１０３ではコンテンツ全体に含まれる、サブシーン毎の伸縮パラメータの最大値と最小値との差を0.2以下とするように、伸縮パラメータを調整することが規定されている。同様に、許容差情報１１０３では、隣接するサブシーン間の伸縮パラメータの差を0.1以下とするように、伸縮パラメータを調整することが規定されている。

伸縮パラメータ調整部１１０２は、この許容差情報１１０３が規定するように各サブシーンの伸縮パラメータを調整する。

図１２に示す例では、伸縮パラメータの最小値がサブシーン１の0.7、最大値がサブシーン４の0.95となっているので、伸縮パラメータ調整部１１０２はこの伸縮パラメータ同士の差が0.2となるようサブシーン４の伸縮パラメータを0.9に調整する。この処理により全てのサブシーン間（３つ以上の区間）の伸縮パラメータの差が0.2以下となったので、全体の調整処理は以上となる。

次に、伸縮パラメータ調整部１１０２は隣接するサブシーン間の伸縮パラメータの差を算出し、隣接するサブシーン間の伸縮パラメータの差が0.1より大きい場合は、大きい方の値を調整する。つまり、図１２では、伸縮パラメータ調整部１１０２はサブシーン１の伸縮パラメータとの差が0.1以下となるように、サブシーン２の伸縮パラメータを0.8に調整する。また、サブシーン３の伸縮パラメータとの差が0.1以下となるように、サブシーン４の伸縮パラメータを0.88に調整する。

伸縮パラメータ調整部１１０２は、上述のように伸縮パラメータの調整を行い、調整伸縮パラメータ情報１２０１を調整後音声生成部２０６に送信する。以降、電子機器１０は実施の形態１と同様に調整伸縮パラメータ情報１２０１に基づいて読み上げ音声データを生成し、コンテンツを生成および出力する。

次に本実施の形態の処理フローについて説明する。

図１３は、本実施の形態における電子機器１０が実行するコンテンツ生成の処理フローの一例を示すフローチャートである。

処理フローは実施の形態１と多くの部分で同様だがステップＳＴ１３０６では、伸縮パラメータ情報８０１が入力された伸縮パラメータ調整部１１０２は、伸縮パラメータ情報８０１と許容差情報１１０３とに基づいて伸縮パラメータの調整を行う。

この伸縮パラメータの調整処理の処理フローについて詳細に説明を行う。

図１４は、本実施の形態における電子機器１０が実行する伸縮パラメータの調整の処理フローの一例を示すフローチャートである。

伸縮パラメータの調整処理としてまず、伸縮パラメータ調整部１１０２は、伸縮パラメータ算出部２０４から入力される伸縮パラメータ情報８０１と許容差情報１１０３に基づいて、許容差情報１１０３の全体での伸縮パラメータの許容差に収まらないサブシーンを検出する（ステップＳＴ１４０１）。この時、伸縮パラメータ調整部１１０２は、最小値の伸縮パラメータを基準として、この許容差情報１１０３の全体での伸縮パラメータの許容差に収まらないサブシーンを検出する。つまり、最小値の伸縮パラメータとの差が、許容差情報１１０３の全体での伸縮パラメータの許容差以上となるサブシーンを検出する。

次に、伸縮パラメータ調整部１１０２は、検出したサブシーンの伸縮パラメータの差がコンテンツ全体の許容差に収まるように高い方（最小値でない方）の伸縮パラメータの値を下げるよう調整する（ステップＳＴ１４０２）。この時、高い方の伸縮パラメータの値は、最小値の伸縮パラメータの値とコンテンツ全体の許容差の値の和となるよう調整される。

次に、伸縮パラメータ調整部１１０２は、隣接するサブシーンの伸縮パラメータの調整処理に入り、最小値のサブシーンに隣接するサブシーンの伸縮パラメータを隣接サブシーンの許容差に収まる値に調整する（ステップＳＴ１４０３）。

ステップＳＴ１４０３の後、伸縮パラメータ調整部１１０２は、調整の基準となったサブシーンの次に伸縮パラメータの値が小さいサブシーンを検出し（ステップＳＴ１４０４）、隣接サブシーンの許容差に収まるように、このサブシーンに隣接するサブシーンの伸縮パラメータを調整（ステップＳＴ１４０５）する（隣接するサブシーンの伸縮パラメータを許容差内迄下げるように調整する）。図１２の例では、伸縮パラメータ調整部１１０２は、隣接するサブシーン同士の値の差が0.1となるように、高い方の伸縮パラメータの値を調整する。

伸縮パラメータ調整部１１０２が、全てのサブシーンが確認されたと判断しない場合（ステップＳＴ１４０６：Ｎｏ）には処理フローはステップＳＴ１４０４に戻り、伸縮パラメータ調整部１１０２が、全てのサブシーンが確認されたと判断した場合（ステップＳＴ１４０６：Ｙｅｓ）には伸縮パラメータの調整処理の処理フローは終了となる。

上記処理フローではコンテンツ全体での許容差に基づいた調整処理を先に実行し、その後に隣接サブシーン間での許容差に基づいた調整処理を実行する例を示したが、これに限定されず、例えばこの処理を逆の順番に実行するとしてもよい。

上述では、許容差情報１１０３はコンテンツ全体と隣接サブシーン間での伸縮パラメータの許容差を規定していたが、これに限定されず、例えば所定の期間に含まれる複数サブシーンにおける許容差を規定するとしても良い。また、許容差情報１１０３は離れたサブシーン間での許容差を規定するとしても良い。さらに、許容差情報１１０３は異なるコンテンツにおける許容差を規定するとしても良い。

本実施の形態において伸縮パラメータ調整部１１０２は伸縮パラメータの調整を実行しているが、実施の形態１に記載したように、本調整処理は実質的に各サブシーンの読み上げ速度の調整をしていることと同義である。

本実施の形態では、読み上げ音声の速度の変化を一律とするのではなく、サブシーン毎の読み上げ速度の変化を人間の聴覚上気にならない程度の変化量に設定できる構成とした。

この構成により、完了すべき区間内で音声の読み上げを完了させつつ、速度変化による読み上げ音声の聞き取りづらさを改善することができる。さらに、読み上げ音声の速度を高い変化率で一律に調整する場合と比較して、読み上げ速度をあまり変化させる必要のないサブシーン（聞き取りづらさにあまり影響を与えないサブシーン）については、初期値に近い速度での読み上げを行うことができ、サブシーン毎の読み上げ音声のそれぞれは初期値の速度に近く、ユーザに聞き取り易い音声となる可能性がある。

また、サブシーン毎の読み上げ音声のそれぞれがユーザに聞き取り易くなるという効果を奏しつつ、隣接するサブシーンの読み上げ音声の速度の変化量は小さく抑えることができるので、サブシーンが切り替わった際にユーザに与える違和感や聞き取りづらさを低減することができる。

実施の形態３．
次に、本発明の実施の形態３について説明する。

実施の形態３の電子機器１０は、読み上げられる音声の内容に基づいて、伸縮パラメータの調整を行う。具体的には、聞き手が聞きなれている文言については音声読み上げの速度を速くしても聞き手は内容を容易に理解できるため、この文言の読み上げ速度の向上は他のサブシーンより優先して実行する。また、重要な情報を含む読み上げ音声は、読み上げ速度を速くし過ぎないように伸縮パラメータの調整を行う。本処理について以下で図面を用いて説明を行う。

尚、実施の形態１と同一又は相当の機能を有する構成については実施の形態１と同様の名称、符号を付している。異なる機能を有する構成には同様の名称であっても異なる符号を付している。また以下では、実施の形態１と重複する説明は省略し、異なる構成及び処理について重点的に説明を行う。尚、ハードウェア構成については実施の形態１と同様のため、説明を割愛する。

図１５は、本実施の形態においてコンテンツ生成処理を実行するための機能構成の一例を示すブロック図である。

音声生成プログラム１５０１は、特殊扱い情報１５０３を有している。

特殊扱い情報１５０３は、読み上げ速度の向上を他のサブシーンより優先して実行するサブシーンを判別するための情報（優先短縮情報）と、他のサブシーンの伸縮パラメータに基づく伸縮パラメータの調整を行わないサブシーンを判別するための情報（非調整情報）とを有している。

コンテンツ生成プログラム１５０４のサブシーン時間設定部１５０５は、伸縮パラメータ調整部１５０２に読み上げデータ３０２を送信する機能を有している。

伸縮パラメータ調整部１５０２は、サブシーン時間設定部１５０５から送信される読み上げデータ３０２および特殊扱い情報１５０３に含まれる優先短縮情報と非調整情報とに基づいて、各サブシーンの伸縮パラメータの調整を実行する機能を有している。

まず、優先短縮情報に基づいた各サブシーンの伸縮パラメータの調整処理について説明する。

図１６は、本実施の形態における伸縮パラメータ調整処理の一例を示す図である。

伸縮パラメータ調整部１５０２は、伸縮パラメータ算出部２０４から入力される伸縮パラメータ情報８０１、サブシーン時間設定部１５０５から送信される読み上げデータ３０２、および特殊扱い情報１５０３に基づいて各サブシーンの伸縮パラメータを調整する。

特殊扱い情報１５０３には、優先短縮情報として聞き手が聞き慣れている可能性の高い文言が記憶されている。ここで、聞き手が聞き慣れている文言としてはコンテンツ内の定型的な文言があげられる。図１６では電子機器１０が天気予報のコンテンツを生成する例を示しており、天気予報の定型文である「全国のお天気です。」、「以上、全国のお天気でした。本日もよい一日をお過ごしください。」という文言が優先短縮情報として登録されている。

伸縮パラメータ調整部１５０２は、優先短縮情報として登録されている文言（第１の文言）と一致する又はこの文言を含む文言が読み上げられるサブシーン（第１の文言を含んでいる第３の区間）については他のサブシーンより優先して読み上げ速度の向上処理を実行する。つまり、優先短縮情報と文言が一致するサブシーン１、４については読み上げ速度の向上を行っても聞き手の文言の聞き取りづらさへの影響は少ないので、伸縮パラメータ調整部１５０２は、これらのサブシーンにはより伸縮パラメータの小さい（読み上げ速度の速い）サブシーンの伸縮パラメータを適用するが、これらの以外のサブシーンには対して、これらの伸縮パラメータに基づいた伸縮パラメータの調整（読み上げ速度の調整）は実行しない。図１６にて具体的に説明すると、サブシーン４は伸縮パラメータが0.8であり最小の伸縮パラメータだが、サブシーン４は優先短縮情報と文言が一致するサブシーンであるため、この伸縮パラメータを他のサブシーンには適用せず、優先短縮情報と文言が一致しないサブシーン（読み上げられる音声が第１の文言を含んでいない区間）のうち、伸縮パラメータが最も小さいサブシーン３の伸縮パラメータ0.9をサブシーン１およびサブシーン２に適用する。このように構成することで、聞き取り手が聞き取りなれていないと考えられる他のサブシーンの音声読み上げについては、初期値からの速度の変化が小さくなる可能性がある。

次に、非調整情報に基づいた各サブシーンの伸縮パラメータの調整処理について説明する。

図１７は、本実施の形態における伸縮パラメータ調整処理の一例を示す図である。

特殊扱い情報１５０３には、非調整情報として聞き手にとって重要な情報を指す可能性の高い文言（第２の文言）が記憶されている。図１７の例では電子機器１０が天気予報のコンテンツを生成する例を示しており、「台風情報」「大雪情報」という文言が非調整情報として登録されている。

伸縮パラメータ調整部１５０２は、非調整情報として登録されている文言（第２の文言）を含むサブシーン（読み上げられる音声が第２の文言を含む第５の区間）については他のサブシーンの調整パラメータを適用しないように伸縮パラメータを調整する。

つまり、「台風情報」という文言を含むサブシーン４は他のサブシーンより情報の重要度が高く、聞き手の認識性を高めるために読み上げの速度を速くし過ぎるべきではないので、サブシーン４については、他のサブシーンの伸縮パラメータに基づいた伸縮パラメータ（読み上げ速度）の調整は実行しない。

図１７の例では非調整情報の文言を含まないサブシーン１から３（読み上げられる音声が第２の文言を含んでいない区間）は、最も伸縮パラメータの値が低いサブシーン３の伸縮パラメータ0.8を適用して伸縮パラメータの調整を行うが、非調整情報の文言を含むサブシーン４については他のサブシーンの伸縮パラメータに基づいた伸縮パラメータの調整を実行しない。

このように構成することで、重要な情報の読み上げ速度が他のサブシーンの読み上げ速度に影響を受けて早くなりすぎるような事態を回避することができ、ユーザは重要な情報の読み上げ内容を理解しやすくなる。

伸縮パラメータ調整部１５０２は、伸縮パラメータ情報８０１、読み上げデータ３０２、および特殊扱い情報１５０３に基づいて各サブシーンの伸縮パラメータを調整し、調整伸縮パラメータ情報１７０１を調整後音声生成部２０６に送信する。

次に本実施の形態の処理フローについて説明する。

図１８は、本実施の形態における電子機器１０が実行するコンテンツ生成の処理フローの一例を示すフローチャートである。

処理フローは実施の形態１と多くの部分で同様だがステップＳＴ１８０６では、伸縮パラメータ情報８０１が入力された伸縮パラメータ調整部１５０２は、サブシーン時間設定部１５０５から読み上げデータ３０２を受信し、この読み上げデータ３０２、伸縮パラメータ情報８０１、および特殊扱い情報１５０３に基づいて各サブシーンの伸縮パラメータを調整し、調整伸縮パラメータ情報１７０１を出力する。

図１９は、本実施の形態における電子機器１０が実行する伸縮パラメータの調整の処理フローの一例を示すフローチャートである。

まず、伸縮パラメータ情報８０１および読み上げデータ３０２が入力された伸縮パラメータ調整部１５０２は、特殊扱い情報１５０３と各サブシーンの読み上げデータ３０２とを比較し（ステップＳＴ１９０１）、各サブシーンの読み上げデータ３０２に特殊扱い情報１５０３の優先短縮情報と非調整情報の文言との一致があるか否かを判別する（ステップＳＴ１９０２）。

ステップＳＴ１９０２において、読み上げデータ３０２が優先短縮情報として登録されている文言を含む場合（優先短縮情報の文言と一致するまたは文言を含む文言のサブシーンが存在する場合）、伸縮パラメータ調整部１５０２は、優先短縮情報の文言に一致したまたは文言を含んだサブシーンの伸縮パラメータは他サブシーンに適用せず、一致したサブシーン以外の最小の伸縮パラメータを用いて、各サブシーンの伸縮パラメータを調整する（ステップＳＴ１９０３）。尚、文言が一致した又は文言を含んだサブシーンについては、当該サブシーンの伸縮パラメータが他の伸縮パラメータより低ければ、伸縮パラメータ調整部１５０２はこのサブシーンの伸縮パラメータに調整は行わず、当該サブシーンの伸縮パラメータが他の伸縮パラメータより高ければ、他のサブシーンの伸縮パラメータを当該サブシーンに適用する。

ステップＳＴ１９０２において、読み上げデータ３０２が非調整情報として登録されている文言を含む場合（非調整情報の文言を含む文言のサブシーンが存在する場合）、伸縮パラメータ調整部１５０２は、非調整情報として登録されている文言を含むサブシーン以外のサブシーン間でパラメータ調整を実行し（ステップＳＴ１９０４）、非調整情報として登録されている文言を含むサブシーンには伸縮パラメータの調整を行わない。

ステップＳＴ１９０２おいて、各サブシーンの読み上げデータ３０２が特殊扱い情報１５０３に登録されている文言を含まない場合、各サブシーンの中の最小の伸縮パラメータを他のサブシーンの伸縮パラメータに適用するパラメータ調整を行う（ステップＳＴ１９０５）。

ステップＳＴ１９０３、ステップＳＴ１９０４、又はステップＳＴ１９０５が完了すると、伸縮パラメータの調整処理フローは終了となる。

本実施の形態において、特殊扱い情報１５０３は電子機器１０が予め有するものとして例示して説明したが、これに限定されず、通信部１６０を介して入力されてもよいし、アップデートされるものであってもよい。また、電子機器１０は類似するコンテンツに基づいて、頻出する形態素や文字列を学習した統計モデルを持ち、閾値以上の頻度で出現している形態素や文字列を優先短縮情報として登録するとしても良い。さらに、類似するコンテンツではなくても、ユーザがよく視聴するコンテンツに基づいて、頻出する形態素や文字列を学習した統計モデルを持ち、閾値以上の頻度で出現している形態素や文字列を優先短縮情報として登録するとしても良い。

また、同じサブシーンで同期して表示される映像に含まれる文字を参照して優先短縮情報を決定するとしても良い。この場合、図示しない文字認識部で、同サブシーンで表示されている映像に含まれた文字の文字認識やクローズドキャプションの解析を行い、表示されている文言を優先短縮情報として決定してもよい。さらに、表示されている文字が重要であると判断した場合は、このサブシーンを非調整情報の対象として、同サブシーンの音声読み上げの速度を向上させないという構成にしてもよい。

本実施の形態では、読み上げ音声の速度の変化を一律とするのではなく、読み上げ速度が速くてもユーザが理解しやすい文章と、重要情報を含む文章の読み上げ速度の調整を他の読み上げ文章と異ならせた。これらのユーザが理解しやすい文章と、重要情報を含む文章以外の区間では読み上げ速度の速い区間の読み上げ速度に他の区間の読み上げ速度を一致させるように読み上げ速度の調整を行い、ユーザが理解しやすい文章や重要情報を含む文章についても、当該区間にて読み上げが完了するように読み上げ速度の調整を行っている。この構成により、全ての区間内で音声の読み上げを完了させつつ、ユーザが理解しやすい文章や重要情報を含む文章以外の区間の間での読み上げ速度の変化による読み上げ音声の聞き取りづらさを改善することができる。さらに、ユーザが理解しやすい文章はその文章に応じた読み上げ速度で読み上げつつ、他の区間は他の区間同士の間で適切に速度調整を行うので、他の区間の読み上げ速度の向上率が上昇する可能性を低減させ、ユーザの文言理解度の低減を抑えつつ、ユーザが聞き取り易い音声読み上げを実現することができる。また、重要情報を含む文章はその文章に対応する区間に応じた読み上げ速度で読み上げつつ、他の区間は他の区間同士の間で適切に速度調整を行うので、ユーザが傾聴すべき重要な情報の読み上げ速度を速くし過ぎることなく、ユーザが聞き取り易い音声読み上げを実現することができる。

実施の形態４．
次に、本発明の実施の形態４について説明する。

実施の形態４の電子機器１０は、機器動作は実施の形態１と同様であるが、コンテンツ生成機能と音声生成機能とがプログラムとしてストレージ１３０に保存されているのではなく、計算処理を実行するハードウェアである回路上に実装されている点が実施の形態１と異なる。

図２０は、本実施の形態における電子機器１０のハードウェア構成図の一例を示すブロック図である。

回路２０１０は、計算処理を実行する半導体回路であり、回路２０１０にはコンテンツ生成モジュール２０１１と音声生成モジュール２０１２が実装されている。

コンテンツ生成モジュール２０１１は、実施の形態１のコンテンツ生成プログラム１３１と同様の機能を有するアルゴリズムである。

音声生成モジュール２０１２は、実施の形態１の音声生成プログラム１３２と同様の機能を有するアルゴリズムである。

回路２０１０は、コンテンツ生成モジュール２０１１および音声生成モジュール２０１２に基づいた処理により、実施の形態１と同様の動作を実行し、同様の機能を発揮することができる。機能ブロックの構成や処理内容および処理フローは実施の形態１にて説明された内容と重複するため、ここでは説明を割愛する。

本実施の形態のように、電子機器１０が機能を発揮するための構成はソフトウェアのみではなく、ハードウェアによる実現も可能である。

以上、本発明について実施の形態をもとに説明した。これらの実施の形態の各構成要素や各処理プロセスの組み合わせに種々の変形例が可能なことは、言うまでもない。

１０電子機器、１１０プロセッサ、１２０メモリ、１３０ストレージ、１３１コンテンツ生成プログラム、１３２音声生成プログラム、１３３言語辞書、１３４音声辞書、１４０ディスプレイ、１５０スピーカ、１６０通信部、１７０入力部、１８０マイク、１９０バス、３０１コンテンツフレームワーク、３０２読み上げデータ、３０３映像データ、２０１サブシーン時間設定部、２０２音声生成部、２０３時間長算出部、２０４伸縮パラメータ算出部、２０５伸縮パラメータ調整部、２０６調整後音声生成部、２０７コンテンツ生成部、５０１サブシーンの時間長情報、６０１読み上げ音声情報、７０１時間長情報、８０１伸縮パラメータ情報、９０１調整伸縮パラメータ情報、１１０１音声生成プログラム、１１０２伸縮パラメータ調整部、１１０３許容差情報、１２０１調整伸縮パラメータ情報、１５０１音声生成プログラム、１５０２伸縮パラメータ調整部、１５０３特殊扱い情報、１５０４コンテンツ生成プログラム、１５０５サブシーン時間設定部、１７０１調整伸縮パラメータ情報、２０１０回路、２０１１コンテンツ生成モジュール、２０１２音声生成モジュール

Claims

それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出する算出部と、
前記算出部の算出結果に基づいて、前記それぞれの区間の内の第１の区間の第１の読み上げ速度より遅い第２の区間の第２の読み上げ速度を、前記第１の読み上げ速度に近づける又は一致させるように調整する調整部と、
前記調整部で読み上げ速度の調整を実施した区間では前記調整部で調整した読み上げ速度の、前記調整部で読み上げ速度の調整を実施していない区間では前記算出部で算出された読み上げ速度の音声を生成する音声生成部と、を備えた電子機器。
前記調整部は、前記第２の区間の読み上げ速度を前記第１の読み上げ速度に一致させる請求項１記載の電子機器。
前記調整部は、読み上げ速度の許容差を規定した許容差情報に基づいて、前記第２の区間の読み上げ速度と前記第１の読み上げ速度との差が前記許容差に収まるように前記第２の区間の読み上げ速度を調整する請求項１記載の電子機器。
前記許容差情報には、３つ以上の区間の読み上げ速度の最大値と最小値の許容差が規定されており、
前記調整部は、前記許容差情報に基づいて読み上げ速度の最大値と最小値との差が、前記許容差内に収まるように、読み上げの速度が最小の区間の読み上げ速度を調整する請求項３記載の電子機器。
前記許容差情報には、隣り合う区間の読み上げの速度の許容差が規定されており、
前記調整部は、前記許容差情報に基づいて隣り合う区間の読み上げの速度の差が、前記許容差内に収まるように、前記隣り合う区間の内の読み上げ速度の遅い区間の読み上げ速度を調整する、請求項３又は請求項４のいずれか１項に記載の電子機器。
前記調整部は、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第３の区間の第３の読み上げ速度が、算出された第４の区間の前記第４の読み上げ速度より速い場合であって、前記第３の区間で読み上げられる音声が第１の文言を含んでいない場合、前記第４の区間の読み上げ速度を前記第３の区間の前記第３の読み上げ速度に近づける又は一致させる調整を実行し、
前記それぞれの区間の内の前記第３の区間の前記第３の読み上げ速度が、算出された前記第４の区間の前記第４の読み上げ速度より速い場合であって、前記第３の区間で読み上げられる音声が前記第１の文言を含んでいる場合、前記第４の区間の読み上げ速度を前記第３の区間の前記第３の読み上げ速度に近づける又は一致させる調整を実行しない請求項１から請求項５のいずれか１項に記載の電子機器。
前記調整部は、前記算出部の算出結果に基づいて、前記それぞれの区間の内の第５の区間の第５の読み上げ速度が前記第１の区間の前記第１の読み上げ速度より遅い場合であって、前記第５の区間で読み上げられる音声が第２の文言を含んでいない場合、前記第５の区間の読み上げ速度を、前記第１の区間の前記第１の読み上げ速度に近づける又は一致させる調整を実行し、
前記それぞれの区間の内の前記第５の区間の前記第５の読み上げ速度が前記第１の区間の前記第１の読み上げ速度より遅い場合であって、前記第５の区間で読み上げられる音声が前記第２の文言を含む場合、前記第５の区間の読み上げ速度を、前記第１の区間の読み上げ速度に近づける又は一致させる調整を実行しない請求項１から請求項６のいずれか１項に記載の電子機器。
それぞれが割り当てられた区間で表示される複数の映像を示す情報の入力を受け付け、それぞれの区間に割り当てられた映像と、それぞれの区間に割り当てられ、前記音声生成部で生成された音声とを同期させたコンテンツを生成するコンテンツ生成部を更に備えた請求項１から請求項７のいずれか１項に記載の電子機器。
前記コンテンツ生成部で生成されたコンテンツの映像を表示するディスプレイと、
前記コンテンツ生成部で生成されたコンテンツの音声を出力するスピーカと、を更に備えた請求項８に記載の電子機器。
それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付け、
前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出し、
前記算出結果に基づいて、前記それぞれの区間の内の第１の区間の第１の読み上げ速度より遅い第２の区間の第２の読み上げ速度を、前記第１の読み上げ速度に近づける又は一致させるように調整し、
前記読み上げ速度の調整を実施した区間では調整した読み上げ速度の、前記読み上げ速度の調整を実施していない区間では前記算出された読み上げ速度の音声を生成する音声制御方法。
処理装置を有する電子機器で実行されるプログラムであって、前記処理装置に、
それぞれが割り当てられた区間で読み上げられる複数の音声を示す情報の入力を受け付けさせ、
前記割り当てられた区間内で読み上げを完了することのできる音声の読み上げ速度をそれぞれの区間で算出させ、
前記算出結果に基づいて、前記それぞれの区間の内の第１の区間の第１の読み上げ速度より遅い第２の区間の第２の読み上げ速度を、前記第１の読み上げ速度に近づける又は一致させるように調整させ、
前記読み上げ速度の調整を実施した区間では調整した読み上げ速度の、前記読み上げ速度の調整を実施していない区間では前記算出された読み上げ速度の音声を生成させるプログラム。