JPWO2012104952A1

JPWO2012104952A1 - 音声読上げ装置、音声出力装置、音声出力システム、音声読上げ方法および音声出力方法

Info

Publication number: JPWO2012104952A1
Application number: JP2012555583A
Authority: JP
Inventors: 拓真足立
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2011-02-03
Filing date: 2011-12-28
Publication date: 2014-07-03
Anticipated expiration: 2031-12-28
Also published as: WO2012104952A1; US20130311188A1; JP5677470B2; US9472181B2

Abstract

テレビは、シアター機器が音声ミュート状態であるか否かを、音声ミュート状態取得コマンドおよび音声ミュート状態通知コマンドを用いて検出する。シアター機器が音声ミュート状態であると、音声ミュート状態でなくなるまで、読上げ音声信号を含まない放送音声信号のみからなる合成音声信号をシアター機器へ出力する。音声ミュート状態でなくなると、合成音声信号に読上げ音声信号を重畳してシアター機器へ出力する。合成音声信号をテレビからシアター機器へ出力中に、シアター機器が音声ミュート状態に切り替わると、テレビは読上げ音声信号を含まない合成音声信号の出力に切り替え、シアター機器が音声ミュート状態でなくなると、読上げ音声信号を所定部分から重畳した合成音声信号をシアター機器へ出力する。

Description

テレビまたはレコーダ等の音声読上げ装置をホームシアターシステム（以下、単にシアター機器と記載）等の音声出力装置に接続して、音声出力装置が音声読上げ装置から入力された合成音声信号を出力する技術に関し、特に、合成音声信号に重畳された読上げ音声信号を途切れなく出力することのできる技術に関する。

テレビとシアター機器とを光デジタルケーブルで接続して、テレビの音声をシアター機器のスピーカから出力するシステムが近年増えている。たとえば、特許文献１（特開２０１０−２０５１３６号公報）は、文字を音声読上げする音声読上げ装置を開示する。この特許文献１には、音声出力装置と音声読上げ装置とを専用線またはネットワークを介して接続する場合は、音声読上げ装置が、音声出力したい読上げ音声信号を専用線またはネットワークを介して外部の音声出力装置へ出力すればよいことを開示する。このような技術を、音声読上げ装置であるテレビと音声出力装置であるシアター機器とに適用することが考えられる。

日本国公開特許公報「特開２０１０−２０５１３６号公報」

しかしながら、特許文献１に開示された技術では、音声読上げ装置（テレビ）と音声出力装置（シアター機器）とは非同期で動作しており、音声読上げ装置は音声出力装置の音声出力状態を考慮しないで、放送等の音声信号に読上げ音声信号を重畳して合成音声信号として音声出力装置へ送信する。音声出力装置においては、音声読上げ装置から入力される合成音声信号が、たとえばＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）からリニアＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）へ変化した場合は、音声出力装置の内部に設けられたデコーダの設定をＡＡＣからＰＣＭに切り替えるために音声が出力できない音声ミュート状態になる。このように音声読み上げ装置が出力する合成音声信号の圧縮の種類または有無が変化し得る場合の典型例として、同じチャンネルでの番組の切替わりや、チャンネルを切換えることにより生じる番組の切替わりに伴う場合が挙げられる。上述のように非同期で動作すると、このような音声ミュート状態であっても、読上げ音声信号は合成音声信号に重畳されて音声出力装置へ送信されるために、音声出力装置から出力される読上げ音声信号に頭切れが発生してしまう。このように、従来の技術では、送信した読上げ音声信号の一部が音声出力されない問題（頭切れしてしまう問題）、または、送信した読上げ音声信号全部が音声出力されない問題がある。

本発明は、上述した問題点を解決するためになされたものであって、その目的は、テレビまたはレコーダ等の音声読上げ装置をシアター機器等の音声出力装置に接続した場合に、途切れさせることなく読上げ音声信号を出力する技術を提供することである。

本発明の第１の局面に係る音声出力システムは、以下の音声読上げ装置および音声出力装置を含む。

音声読上げ装置は、読上げ音声信号を出力する音声出力装置とネットワークで接続される。この音声読上げ装置は、文字情報から読上げ音声信号を生成する音声信号生成部と、ネットワークを介して、音声出力装置から音声出力可否情報を受信する第１情報受信部と、ネットワークを介して、音声信号生成部が生成した読上げ音声信号を音声出力装置へ送信する第１情報送信部と、第１情報受信部が音声出力不可を示す音声出力可否情報を受信した場合に、音声出力可を示す音声出力可否情報を受信するまで第１情報送信部に読上げ音声信号の送信を待機させ、第１情報受信部が音声出力可を示す音声出力可否情報を受信した場合に、第１情報送信部に前記読上げ音声信号を送信させる第１制御部と、を具備することを特徴とする。

音声出力装置は、合成音声信号を出力する音声読上げ装置とネットワークで接続される。この音声出力装置は、音声読上げ装置から合成音声信号を受信する音声信号入力部と、音声読上げ装置から音声状態取得要求を受信する第２情報受信部と、音声出力可否情報を音声読上げ装置へ送信する第２情報送信部と、音声信号入力部が受信した合成音声信号をデコードするデコード部と、デコード部がデコードした合成音声信号を出力する音声出力部と、第２情報受信部が音声状態取得要求を受信した場合に、デコード部が合成音声信号をデコードできるか否かに応じて音声出力可否情報を生成して第２情報送信部に送信させるとともに、音声出力可否情報に応じて音声出力部の合成音声信号の出力を制御する第２制御部と、を具備することを特徴とする。

本発明の第２の局面に係る音声出力システムは、以下の音声読上げ装置および音声出力装置を含む。

音声読上げ装置は、読上げ音声信号を出力する音声出力装置とネットワークで接続される。この音声読上げ装置は、ネットワークを介して、音声出力装置へ文字情報及び読上げ状態通知要求を送信する第１情報送信部と、ネットワークを介して、音声出力装置から読上げ状態通知応答を受信する第１情報受信部と、第１情報受信部が文字情報受理を示す読上げ状態通知応答を受信するまで第１情報送信部に文字情報を送信させ続け、第１情報受信部が読上げ完了を示す読上げ状態通知応答を受信するまで第１情報送信部に読上げ状態通知要求を送信させ続ける第１制御部と、を具備することを特徴とする。

音声出力装置は、文字情報を出力する音声読上げ装置とネットワークで接続される。この音声出力装置は、放送音声信号を受信する音声信号入力部と、ネットワークを介して、音声読上げ装置から文字情報及び読上げ状態通知要求を受信する第２情報受信部と、ネットワークを介して、音声読上げ装置へ読上げ状態通知応答を送信する第２情報送信部と、音声信号入力部が受信した放送音声信号をデコードするデコード部と、第２情報受信部が受信した文字情報から読上げ音声信号を生成する音声信号生成部と、デコード部がデコードした放送音声信号と音声信号生成部が生成した読上げ音声信号を合成して合成音声信号を生成する合成音声信号生成部と、合成音声信号生成部が生成した合成音声信号を出力する音声出力部と、第２情報受信部が読上げ状態通知要求を受信した場合において文字情報の受信が完了した場合は文字情報受理を示す読上げ状態通知応答を第２情報送信部に送信させ、音声出力部が読上げ音声信号の出力を完了させた場合は読上げ完了を示す読上げ状態通知応答を第２情報送信部に送信させる第２制御部と、を具備することを特徴とする。

上述した第１の局面に係る音声出力システムによると、音声出力装置が音声出力可能な場合にのみ、音声読上げ装置から読上げ音声信号が音声出力装置へ送信される。音声出力装置は、音声出力が可能な場合にのみ読上げ音声信号を出力する。上述した第２の局面に係る音声出力システムによると、音声読上げ装置は音声出力装置が音声出力可能であるか否かに関わらず、音声読上げ装置から文字情報が音声出力装置へ送信される。音声出力装置は音声出力が可能な場合にのみ文字情報から読上げ音声信号を生成して出力する。このため、いずれのシステムにおいても、テレビまたはレコーダ等の音声読上げ装置をシアター機器等の音声出力装置に接続した場合に、途切れさせることなく音声出力装置から読上げ音声信号を出力することができる。

図１は、本発明の第１の実施の形態に係る音声出力システムの全体構成図である。図２は、図１の音声読上げ装置（テレビ１０００）の制御ブロック図である。図３は、図１の音声出力装置（シアター機器３０００）の制御ブロック図である。図４は、図１の音声出力システムにおける通信シーケンスを示す図である。図５は、図１の音声読上げ装置（テレビ１０００）および音声出力装置（シアター機器３０００）のクレームがで実行されるプログラムの制御構造を示すフローチャート（その１）である。図６は、図１の音声読上げ装置（テレビ１０００）および音声出力装置（シアター機器３０００）の制御部で実行されるプログラムの制御構造を示すフローチャート（その２）である。図７は、本発明の第２の実施の形態に係る音声出力システムの全体構成図である。図８は、図７の音声読上げ装置（テレビ１１００）の制御ブロック図である。図９は、図７の音声出力装置（シアター機器３１００）の制御ブロック図である。図１０は、図７の音声出力システムにおける通信シーケンスを示す図である。図１１は、図７の音声読上げ装置（テレビ１１００）および音声出力装置（シアター機器３１００）の制御部で実行されるプログラムの制御構造を示すフローチャート（その１）である。図１２は、図７の音声読上げ装置（テレビ１１００）および音声出力装置（シアター機器３１００）の制御部で実行されるプログラムの制御構造を示すフローチャート（その２）である。

以下、図面を参照して、本発明の実施の形態に係る音声出力システムについて説明する。なお、以下の説明においては、同一の構成については同一の符号を付してある。それらの名称および機能は同じである。従って、それらについての詳細な説明は繰り返さない。

＜第１の実施の形態＞
図１〜図６を参照して、本発明の第１の実施の形態に係る音声出力システムについて説明する。本実施の形態に係る音声出力システムにおいては、実際に音声をスピーカから出力する音声出力装置（たとえばシアター機器、テレビ）の音声ミュート状態を、音声読上げ装置（たとえばレコーダ、テレビ）に通知して、読上げ音声を読上げるタイミングを調整する。

（全体システム構成）
本実施の形態に係る音声出力システムは、限定されるものではないが、図１に示す（Ａ）および（Ｂ）の２つの態様が考えられる。図１（Ａ）に示す音声出力システムは、音声出力装置がシアター機器３０００であって、音声読上げ装置がテレビ１０００およびレコーダ２０００である。図１（Ｂ）に示す音声出力システムは、音声出力装置がテレビ１００１、音声読上げ装置がレコーダ２０００である。このように、スピーカを備えるテレビは、音声出力装置としても、音声を読み上げる音声読上げ装置（この場合には音声出力装置はシアター機器）としても機能する。これらの装置は、ネットワーク接続され、放送等の音声信号（放送の音声信号、録画された放送の音声信号、メディアを再生した音声信号などを含む。以下、放送音声信号と記載する。）に読上げ音声信号を重畳した合成音声信号、ならびに、音声出力装置の音声出力可能状態であるか否かを示す情報（音声出力可否情報、後述するコマンド、フラグに対応する）を送受信する。ここで、放送音声信号の符号化方式が、たとえばＡＡＣからリニアＰＣＭに切り替わった場合、音声読上げ装置は、リニアＰＣＭの放送音声信号に読上げ音声信号を重畳したリニアＰＣＭの合成音声信号を音声出力装置へ出力する。ところが合成音声信号がＡＡＣからリニアＰＣＭへ切り替わった場合に音声出力装置では音声ミュートするため、読上げ音声信号を重畳した合成音声信号が音声ミュートで出力されなかったり、頭切れしたりする。本実施の形態に係る音声出力システムは、このような問題を解決する。

図１（Ａ）に示す場合には、
（１）シアター機器３０００は、音声ミュート状態に対応する音声ミュート状態通知コマンド（音声ミュート状態［ＭｕｔｅＯＮ］／非音声ミュート状態［ＭｕｔｅＯＦＦ］）を保持する。
（２）テレビ１０００およびレコーダ２０００は、読上げ音声の読上げ前にシアター機器３０００の音声ミュート状態を確認する。このとき、テレビ１０００およびレコーダ２０００はシアター機器３０００へ音声ミュート状態を取得する音声ミュート状態取得コマンドを送信する。シアター機器３０００は、音声ミュート状態取得コマンドを受信すると、自己の音声ミュート状態に対応する音声ミュート状態通知コマンドを送信する。
（３）テレビ１０００およびレコーダ２０００は、シアター機器３０００が音声ミュート状態であれば、放送音声信号のみから構成される合成音声信号をシアター機器３０００へ出力し、音声ミュート状態が解除されると（非音声ミュート状態になると）、読上げ音声信号を放送音声信号に重畳した合成音声信号をシアター機器３０００へ出力する。
（４）テレビ１０００およびレコーダ２０００は、音声読上げ途中にシアター機器３０００から音声ミュート状態通知コマンド（音声ミュート状態［ＭｕｔｅＯＮ］）を受信すると、読上げ音声の読上げを一時的に停止し（この状態では放送音声信号のみから構成される合成音声信号を出力する）、音声ミュート状態が解除されると、読上げ音声信号を放送音声信号に重畳した合成音声信号をシアター機器３０００へ出力して読上げ音声の読上げを再開（途中から読上げ）またはリトライ（最初から読上げ）する。

図１（Ｂ）に示す場合には、
（１）テレビ１００１は、音声ミュート状態に対応する音声ミュート状態通知コマンド（音声ミュート状態［ＭｕｔｅＯＮ］／非音声ミュート状態［ＭｕｔｅＯＦＦ］）を保持する。
（２）レコーダ２０００は、読上げ音声の読上げ前にテレビ１００１の音声ミュート状態を確認する。このとき、レコーダ２０００はテレビ１００１へ音声ミュート状態を取得する音声ミュート状態取得コマンドを送信する。テレビ１００１は、音声ミュート状態取得コマンドを受信すると、自己の音声ミュート状態に対応する音声ミュート状態通知コマンドを送信する。
（３）レコーダ２０００は、テレビ１００１が音声ミュート状態であれば、放送音声信号のみから構成される合成音声信号をテレビ１００１へ出力し、音声ミュート状態が解除されると（非音声ミュート状態になると）、読上げ音声信号を放送音声信号に重畳した合成音声信号をテレビ１００１へ出力する。
（４）レコーダ２０００は、音声読上げ途中にテレビ１００１から音声ミュート状態通知コマンド（音声ミュート状態［ＭｕｔｅＯＮ］）を受信すると、読上げ音声の読上げを一時的に停止し（この状態では放送音声信号のみから構成される合成音声信号を出力する）、音声ミュート状態が解除されると、読上げ音声信号を放送音声信号に重畳した合成音声信号をテレビ１００１へ出力して読上げ音声の読上げを再開（途中から読上げ）またはリトライ（最初から読上げ）する。

なお、音声読上げ装置と音声出力装置との間で通知するコマンドは、音声読上げ許可および音声読上げ禁止フラグ等であっても、同じ機能が実現できる。また、音声読上げ装置と音声出力装置との間の通信線は、ＨＤＭＩ（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）、住宅内ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等である。なお、ＨＤＭＩで接続する場合、ＨＤＭＩで規格化されている機器制御信号および制御プロトコルであるＣＥＣ（ＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓＣｏｎｔｒｏｌ）を用いることができる。

以下においては、図１（Ａ）の態様であって、音声読上げ装置がテレビ１０００であり、音声出力装置がシアター機器３０００であるとして説明する。なお、図１（Ａ）のレコーダ２０００は、音声読上げ装置としての部分はテレビ１０００と同じ構成であるため、説明を繰り返さない。

（ハードウェア構成：制御ブロック図）
図２に音声読上げ装置の一例であるテレビ１０００の制御ブロック図を示す。このテレビ１０００は、デジタル放送信号を受信してデコードして映像および音声を出力する機能を実現する。このような機能を実現する構成に加えて、このテレビ１０００は、図２に示す制御ブロックを備える。

図２に示すように、テレビ１０００は、このテレビ１０００を制御するＣＰＵ(Ｃｅｎ
ｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)等で構成される制御部１０１０（第１制御部
）と、その制御部１０１０に接続された複数のユニットで構成される。これらのユニットは、たとえば、ユーザからの音声の読上げ指示を制御部１０１０へ入力するユーザインターフェイス１０２０と、設定された時間になると音声の読上げ指示を制御部１０１０へ入力するタイマ１０２２と、制御部１０１０からの要求に従い音声出力装置（ここではシアター機器３０００）のミュート状態を取得する制御コマンド（音声ミュート状態取得コマンド）を送信する制御コマンド送信部１０３０と、音声ミュート状態取得コマンドに応答して音声出力装置のミュート状態を示す制御コマンド（音声ミュート状態通知コマンド）を受信して制御部１０１０へ通知する制御コマンド受信部１０３２（第１情報受信部）と、を含む。

さらに、これらのユニットは、シアター機器３０００で読上げるテキストデータを記憶した読上げテキストデータ記憶部１０４０と、制御部１０１０からの指令（読上げテキスト音声信号生成・出力要求）に従って読上げテキストデータから読上げ音声信号を生成する音声信号生成部１０５０と、制御部１０１０からの指令（合成要求）に従ってオーディオソース１０６０から入力された放送音声信号と音声信号生成部１０５０から入力された読上げ音声信号とを合成する音声合成部１０７０と、制御部１０１０からの指令（音声信号出力要求）に従って音声合成部１０７０から入力された合成音声信号を音声出力装置へ出力する音声信号出力部１０９０（第１情報送信部）と、を含む。

図３に音声出力装置の一例であるシアター機器３０００の制御ブロック図を示す。このシアター機器３０００は、合成音声信号を受信してデコードして合成音声（放送音声および読上げ音声）を出力する機能を実現する。このような機能を実現するために、このシアター機器３０００は、図３に示す制御ブロックを備える。

図３に示すように、シアター機器３０００は、このシアター機器３０００を制御するＣＰＵ等で構成される制御部３０１０（第２制御部）と、その制御部３０１０に接続された複数のユニットで構成される。これらのユニットは、たとえば、音声読上げ装置（ここではテレビ１０００）からの制御コマンド（音声ミュート状態取得コマンド）を受信する制御コマンド受信部３０２０（第２情報受信部）と、シアター機器３０００の音声ミュート状態を示す制御コマンド（音声ミュート状態通知コマンド）をテレビ１０００へ送信する制御コマンド送信部３０２２（第２情報送信部）とを含む。

さらに、これらのユニットは、ネットワークを介してテレビ１０００から合成音声信号を受信し、合成音声信号の状態を制御部３０１０へ通知する音声信号入力部３０３０と、制御部３０１０からの指令（デコード要求）に従って音声信号入力部３０３０から入力された合成音声信号をデコードするデコーダ３０５０（デコード部）と、制御部３０１０からの指令（音声ミュート制御要求）に従ってデコーダ３０５０から入力されたデコードされた合成音声信号を音声ミュートする音声ミュート部３０６０と、制御部３０１０からの指令（音声出力制御要求）に従って音声ミュート部３０６０から入力されたデコードされた合成音声信号をスピーカ３０８０へ出力する音声出力部３０７０と、を含む。

制御部３０１０は、音声信号入力部３０３０へ入力された合成音声信号の状態を取得する。ＡＡＣからリニアＰＣＭへ合成音声信号の符号化が変化した場合には、デコーダ３０５０の符号化設定を切り替える必要がある。デコーダ３０５０では符号化設定を切り替えている間は正規のデコード処理ができないので、デコーダ３０５０での符号化設定の切替が完了するまで、制御部３０１０は、音声ミュートをオンすることを示す音声ミュート制御要求を音声ミュート部３０６０へ出力して、デコーダ３０５０から入力されるデコードされた合成音声信号を音声出力部３０７０へ出力させないようにする。この状態において、テレビ１０００から音声ミュート状態取得コマンドを受信した場合、制御部３０１０は、制御コマンド送信部３０２２を介して音声ミュート状態通知コマンドとして［Ｍｕｔｅ
ＯＮ］コマンドをテレビ１０００へ送信する。デコーダ３０５０での符号化設定情報の切替が完了すると、制御部３０１０は、音声ミュートを解除することを示す音声ミュート制御要求を音声ミュート部３０６０に出力して、デコーダ３０５０から入力された合成音声信号を音声出力部３０７０へ出力させる。この状態において、テレビ１０００から音声ミュート状態取得コマンドを受信した場合、制御部３０１０は、制御コマンド送信部３０２２を介して音声ミュート状態通知コマンドとして［ＭｕｔｅＯＦＦ］コマンドをテレビ１０００へ送信する。

なお、テレビ１０００の制御部１０１０およびシアター機器３０００の制御部３０１０のいずれも、フラグ等を記憶するフラグ記憶部および後述するプログラムを記憶するプログラム記憶部を備える。

（通信シーケンス）
図４を参照して、本実施の形態に係る音声出力システムにおける通信シーケンスについて説明する。図４に示す音声読上げ装置は、テレビ１０００であったりレコーダ２０００であったりして、音声出力装置は、シアター機器３０００であったりテレビ１００１であったりする。ここでは、音声読上げ装置がテレビ１０００であり、音声出力装置がシアター機器３０００であるとして説明する。

テレビ１０００は、定期的にまたは不定期的に音声ミュート状態取得コマンドをシアター機器３０００へ送信する。シアター機器３０００は、受信した音声ミュート状態取得コマンドに応答して、音声ミュート状態通知コマンドをテレビ１０００へ送信する。このとき、シアター機器３０００が、音声ミュート状態であると音声ミュート状態通知コマンドとして［ＭｕｔｅＯＮ］コマンドをテレビ１０００へ送信する。シアター機器３０００が、音声ミュート状態でなくなると音声ミュート状態通知コマンドとして［ＭｕｔｅＯＦＦ］コマンドをテレビ１０００へ送信する。

テレビ１０００は、音声ミュート状態通知コマンドとして［ＭｕｔｅＯＮ］コマンドを受信すると、音声ミュート状態通知コマンドとして［ＭｕｔｅＯＦＦ］コマンドを受信するまで、読上げ音声信号の出力をポーリングする。すなわち、［ＭｕｔｅＯＮ］コマンドを受信している間は、放送音声信号のみからなる合成音声信号をシアター機器３０００へ出力する。そして、音声ミュート状態通知コマンドとして［ＭｕｔｅＯＦＦ］コマンドを受信すると、読上げ音声信号を放送音声信号に重畳した合成音声信号をシアター機器３０００へ出力する（読上げ音声信号出力）。

読上げ音声信号が合成音声信号に重畳されてテレビ１０００からシアター機器３０００へ出力されている間において、シアター機器３０００が音声ミュート状態になると音声ミュート状態通知コマンドとして［ＭｕｔｅＯＮ］コマンドをテレビ１０００へ送信する。テレビ１０００は、この状態では読上げ音声信号を放送音声信号に合成せず（読上げ音声信号出力停止）、放送音声信号のみから構成される合成音声信号をシアター機器３０００に出力する。

シアター機器３０００が、音声ミュート状態でなくなると音声ミュート状態通知コマンドとして［ＭｕｔｅＯＦＦ］コマンドをテレビ１０００へ送信する。テレビ１０００は、［ＭｕｔｅＯＦＦ］コマンドを受信すると、読上げ音声信号を放送音声信号に重畳した合成音声信号のシアター機器３０００への出力を再開する（読上げ音声信号出力再開）。このように、テレビ１０００は、合成音声信号の出力中に音声ミュート状態通知コマンドとして［ＭｕｔｅＯＮ］コマンドを受信すると、［ＭｕｔｅＯＦＦ］コマンドを受信するまで、読上げ音声信号を合成音声信号に重畳せずに放送音声信号のみから構成される合成音声信号をシアター機器３０００へ出力し続ける。

（フローチャート構成）
図５および図６を参照して、本実施の形態に係る音声出力システムを構成する音声読上げ装置であるテレビ１０００および音声出力装置であるシアター機器３０００で実行される音声出力処理の制御構造について説明する。ここでは、図１（Ａ）に示すように、音声読上げ装置がテレビ１０００であり、音声出力装置がシアター機器３０００であり、レコーダ２０００が存在しないものとして説明する。なお、以下においては、通信トラブル等に起因する通信タイムアウトエラーは想定しないものとする。

図５の左側のフローチャートを参照して、ステップ（以下、ステップをＳと記載）３０００にて、シアター機器３０００の制御部３０１０（以下、単に制御部３０１０と記載）は、音声ミュート設定するか否かを判定する。このとき、制御部３０１０は、音声信号入力部３０３０に入力された合成音声信号の符号化がＡＡＣからリニアＰＣＭへ切り替わったと判断した場合、シアター機器３０００を音声ミュート状態に設定する。音声ミュートが設定されると（Ｓ３０００にてＹＥＳ）、処理はＳ３００２へ移される。一方、音声信号入力部３０３０に入力された合成音声信号の符号化に変更がないと判断した場合、あるいはデコーダ３０５０において符号化設定の切替が完了したと判断した場合は、音声ミュート状態が解除されるので（Ｓ３０００にてＮＯ）、この処理はＳ３００４へ移される。

Ｓ３００２にて、制御部３０１０は、音声ミュート状態通知コマンドを［ＭｕｔｅＯＮ］に設定する。その後、この処理はＳ３００６へ移される。Ｓ３００４にて、制御部３０１０は、音声ミュート状態通知コマンドを［ＭｕｔｅＯＦＦ］に設定する。その後、この処理はＳ３００６へ移される。

Ｓ３００６にて、制御部３０１０は、制御コマンド受信部３０２０が音声ミュート状態取得コマンドをテレビ１０００から受信したか否かを判定する。音声ミュート状態取得コマンドをテレビ１０００から受信すると（Ｓ３００６にてＹＥＳ）、処理はＳ３００８へ移される。もしそうでないと（Ｓ３００６にてＮＯ）、この処理はＳ３０００へ移される。

Ｓ３００８にて、制御部３０１０は、制御コマンド送信部３０２２に音声ミュート状態通知コマンド（［ＭｕｔｅＯＮ］または［ＭｕｔｅＯＦＦ］）をテレビ１０００へ送信させる。

図５の右側のフローチャートを参照して、Ｓ１０００にて、テレビ１０００の制御部１０１０（以下、単に制御部１０１０と記載）は、たとえば一定の時間間隔で、制御コマンド送信部１０３０に音声ミュート状態通知コマンドをシアター機器３０００へ送信させる。

Ｓ１００２にて、制御部１０１０は、制御コマンド受信部１０３２が音声ミュート状態通知コマンド（［ＭｕｔｅＯＮ］）をシアター機器３０００から受信したか否かを判定する。音声ミュート状態通知コマンド（［ＭｕｔｅＯＮ］）をシアター機器３０００から受信すると（Ｓ１００２にてＹＥＳ）、処理はＳ１００４へ移される。もしそうでないと（Ｓ１００２にてＮＯ）、この処理はＳ１００６へ移される。Ｓ１００４にて、制御部１０１０は、フラグ記憶部に記憶された音声ミュートフラグ（以下、単にミュートフラグまたはフラグと記載する場合がある）をオンにセットする。その後、処理はＳ１０００へ移される。

Ｓ１００６にて、制御部１０１０は、制御コマンド受信部１０３２が音声ミュート状態通知コマンド（［ＭｕｔｅＯＦＦ］）をシアター機器３０００から受信したか否かを判定する。音声ミュート状態通知コマンド（［ＭｕｔｅＯＦＦ］）をシアター機器３０００から受信すると（Ｓ１００６にてＹＥＳ）、処理はＳ１００８へ移される。もしそうでないと（Ｓ１００６にてＮＯ）、この処理はＳ１０００へ移される。Ｓ１００８にて、制御部１０１０は、フラグ記憶部に記憶されたミュートフラグをオフにセットする。その後、処理はＳ１０００へ移される。

図６の左側のフローチャートを参照して、Ｓ１０２０にて、制御部１０１０は、音声読上げ指示を検出したか否かを判定する。このとき、制御部１０１０は、ユーザインターフェイス１０２０を介して音声読上げ指示を検出したり、タイマ１０２２から指示に基づいて音声読上げ指示を検出したりする。音声読上げ指示を検出すると（Ｓ１０２０にてＹＥＳ）、処理はＳ１０２２へ移される。もしそうでないと（Ｓ１０２０にてＮＯ）、この処理はＳ１０２０へ移される。

Ｓ１０２２にて、制御部１０１０は、フラグ記憶部に記憶されたミュートフラグの状態を判定する。ミュートフラグがオン状態であれば（Ｓ１０２２にてＹＥＳ）、放送音声信号のみから構成される合成音声信号を生成させて出力させる（Ｓ１０２３）。一方、ミュートフラグがオフ状態であれば（Ｓ１０２２にてＮＯ）、放送音声信号に読上げ音声信号を重畳した合成音声信号を生成させて出力させる（Ｓ１０２４）。なお、このとき、制御部１０１０は、タイムアウト前の読上げ音声信号のみを合成音声信号に重畳してシアター機器３０００へ出力する。読上げ音声信号の中にはある時間までに読上げを終了しないと意味がない読上げ音声もあるため、シアター機器３０００で、タイムアウト前のみの読上げ音声を読み上げて、意味のないタイムアウト後の読上げ音声は読上げないようにする。

Ｓ１０２６にて、制御部１０１０は、ミュートフラグが切り替わったか否かを判定する。図５および図６に示すフローチャートは同時に実行されており、Ｓ１０２３、Ｓ１０２４の処理中であっても、Ｓ１０００〜Ｓ１００８の処理が実行されているので、合成音声信号の出力中であっても、ミュートフラグが切り替わることがある。ミュートフラグが切り替わると（Ｓ１０２６にてＹＥＳ）、処理はＳ１０２８へ移される。もしそうでないと（Ｓ１０２６にてＮＯ）、この処理はＳ１０３２へ移される。

Ｓ１０２８にて、制御部１０１０は、ミュートフラグがオン状態からオフ状態に切り替わったか否かを判定する。ミュートフラグがオン状態からオフ状態に切り替わると（Ｓ１０２８にてＹＥＳ）、処理はＳ１０３０へ移される。ミュートフラグがオフ状態からオン状態に切り替わると（Ｓ１０２８にてＮＯ）、この処理はＳ１０３１へ移される。

Ｓ１０３０にて、制御部１０１０は、放送音声信号に読上げ音声信号を重畳した合成音声信号を生成させて出力させる。このとき、制御部１０１０は、テレビ１０００からシアター機器３０００へ読上げ音声信号を再伝送する。ここで、音声読上げ文章の最初から、段落の最初から、または、単語の最初から等の予め定められた部分から、再伝送される。なお、再伝送する開始部分は特に限定されない。Ｓ１０３１にて、制御部１０１０は、放送音声信号のみから構成される合成音声信号を生成させて出力させる。

Ｓ１０３２にて、制御部１０１０は、合成音声信号の出力が終了したか否かを判定する。送信すべき合成音声信号の出力が終了すると（Ｓ１０３２にてＹＥＳ）、処理はＳ１０２０へ移される。もしそうでないと（Ｓ１０３２にてＮＯ）、この処理はＳ１０２２へ移され、ミュート状態に応じた合成音声信号の出力が継続される。

図６の右側のフローチャートを参照して、Ｓ３０２０にて、制御部３０１０は、テレビ１０００から合成音声信号を受信したか否かを判定する。合成音声信号を受信すると（Ｓ３０２０にてＹＥＳ）、処理はＳ３０２２へ移される。もしそうでないと（Ｓ３０２０にてＮＯ）、この処理はＳ３０２０へ移される。

Ｓ３０２２にて、制御部３０１０は、テレビ１０００から受信した合成音声信号をデコードしてスピーカ３０８０から合成音声を出力させる。

（動作）
以上のような構造およびフローチャートに基づく本実施の形態に係る音声出力システムの動作について説明する。

・音声ミュートフラグがオフを維持している場合
この動作の説明においては、たとえば、シアター機器３０００へ送信される合成音声信号の符号化がＡＡＣからリニアＰＣＭへ変化しない場合を説明する。テレビ１０００のリモコンでユーザが音声読上げを指示すると（Ｓ１０２０にてＹＥＳ）、音声ミュートフラグがオンであるか否かが検出され、この場合、音声ミュートフラグがオフであるので（Ｓ１０２２にてＮＯ）、テレビ１０００からシアター機器３０００へ読上げ音声信号を重畳した合成音声信号が出力される（Ｓ１０２４）。

このとき、シアター機器３０００においては音声ミュート設定されていない（Ｓ３０００にてＮＯ、Ｓ３００４）。シアター機器３０００は、テレビ１０００から音声ミュート状態取得コマンドを受信すると（Ｓ３００６にてＹＥＳ）、音声ミュート状態通信コマンド（［ＭｕｔｅＯＦＦ］）をテレビ１０００へ送信する（Ｓ３００８）。テレビ１０００は、音声ミュート状態取得コマンドを送信すると（Ｓ１０００）、音声ミュート状態通知コマンドとして［ＭｕｔｅＯＦＦ］を受信するので（Ｓ１００６にてＹＥＳ）、音声ミュートフラグをオフの状態として維持する（Ｓ１００８）。つまり、合成音声信号の出力中において、音声ミュートフラグがオンにならない（Ｓ１０３２にてＹＥＳになるまでＳ１０２６にてＮＯ）。

音声出力装置であるシアター機器３０００には、読上げ音声信号と放送音声信号とを重畳した合成音声信号が途切れることなく送信されてくるとともに、シアター機器３０００へ送信された合成音声信号の符号化も変化しないので音声ミュート状態にならない。このため、テレビ１０００から送信された読上げ音声信号は、シアター機器３０００で途切れることなく出力される。

・音声ミュートフラグがオンを維持している場合
この動作の説明においては、たとえば、シアター機器３０００へ送信される合成音声信号の符号化がＡＡＣからリニアＰＣＭへ変化し、シアター機器３０００のデコーダ３０５０での符号化設定の切替が完了するまでの間の処理を説明する。この場合、音声ミュートフラグがオンであるので（Ｓ１０２２にてＹＥＳ）、放送音声信号のみから構成される合成音声信号（読上げ音声信号が重畳されていない合成音声信号）の出力が行われている（Ｓ１０２３）。

このとき、シアター機器３０００においては音声ミュート設定されている（Ｓ３０００にてＹＥＳ、Ｓ３００２）。シアター機器３０００は、テレビ１０００から音声ミュート状態取得コマンドを受信すると（Ｓ３００６にてＹＥＳ）、音声ミュート状態通信コマンド（［ＭｕｔｅＯＮ］）をテレビ１０００へ送信する（Ｓ３００８）。テレビ１０００は、音声ミュート状態取得コマンドを送信すると（Ｓ１０００）、音声ミュート状態通知コマンドとして［ＭｕｔｅＯＮ］を受信するので（Ｓ１００２にてＹＥＳ）、音声ミュートフラグがオンの状態となる（Ｓ１００４）。

つまり、シアター機器３０００のデコーダ３０５０での符号化設定の切替が完了するまでの間は、音声ミュートフラグはオンを維持する。このため、合成音声信号の出力中において、音声ミュートフラグがオフにならない（Ｓ１０３２にてＹＥＳになるまでＳ１０２６にてＮＯ）。

音声出力装置であるシアター機器３０００には、放送音声信号のみから構成される合成音声信号が途切れることなく送信されてくるが、音声ミュート状態であるので、受信した合成音声信号は音声ミュートされ音声出力されない。

・合成音声信号の出力後に、音声ミュートフラグが変化する場合
この動作の説明においては、たとえば、合成音声信号出力中に、シアター機器３０００へ送信される放送音声信号の符号化がＡＡＣからリニアＰＣＭへ変化した場合（すなわち、音声ミュートフラグがオフからオンに変化し、その後、オンからオフに変化する場合）を説明する。この場合、まず、テレビ１０００が合成音声信号の出力中に音声ミュートフラグがオフからオンへ変化する（Ｓ１０３２にてＹＥＳになる前にＳ１０２６にてＹＥＳ）。このため、読上げ音声信号を重畳した合成放送信号の出力（Ｓ１０２４）から、読上げ音声信号を重畳しない合成音声信号の出力に切り替わる（Ｓ１０３１）。

このとき、テレビ１０００がシアター機器３０００へ合成音声信号を出力している最中に、シアター機器３０００において音声ミュート設定される（Ｓ３０００にてＹＥＳ、Ｓ３００２）。シアター機器３０００は、テレビ１０００から音声ミュート状態取得コマンドを受信し（Ｓ３００６にてＹＥＳ）、応答として音声ミュート状態通信コマンド（［ＭｕｔｅＯＮ］）をテレビ１０００へ送信する（Ｓ３００８）。テレビ１０００は、音声ミュート状態取得コマンドを送信すると（Ｓ１０００）、音声ミュート状態通知コマンドとして［ＭｕｔｅＯＮ］を受信するので（Ｓ１００２にてＹＥＳ）、音声ミュートフラグをオンの状態に切り替える（Ｓ１００４）。音声出力装置であるシアター機器３０００には、放送音声信号のみから構成される合成音声信号が途切れることなく送信されてくるが、音声ミュート状態であるので、受信した合成音声信号は音声ミュートされ音声出力されない。

その後、デコーダ３０５０での符号化設定の切替が完了したときにシアター機器３０００において音声ミュート設定されなくなる（Ｓ３０００にてＮＯ、Ｓ３００４）。シアター機器３０００は、テレビ１０００から音声ミュート状態取得コマンドを受信すると（Ｓ３００６にてＹＥＳ）、音声ミュート状態通信コマンド（［ＭｕｔｅＯＦＦ］）をテレビ１０００へ送信する（Ｓ３００８）。テレビ１０００は、音声ミュート状態取得コマンドを送信すると（Ｓ１０００）、音声ミュート状態通知コマンドとして［ＭｕｔｅＯＦＦ］を受信するので（Ｓ１００６にてＹＥＳ）、音声ミュートフラグがオンからオフの状態へ切り替わる（Ｓ１００８）。

合成音声信号の出力が開始されてから（Ｓ０１０２３、Ｓ１０２４）、音声ミュートフラグがオフからオンになり（Ｓ１０２８にてＮＯ）、音声ミュートフラグがオンからオフになるまで（Ｓ１０２８にてＹＥＳ）、読上げ音声信号の合成出力は中断状態になるが、音声ミュートフラグがオンからオフへ切り替わると（Ｓ１０２８にてＹＥＳ）、読上げ音声信号の合成出力は再開される。

音声出力装置であるシアター機器３０００では、テレビ１０００から読上げ音声信号と放送音声信号を重畳した合成音声信号が出力された後において、合成音声信号の符号化がＡＡＣからリニアＰＣＭへ切り替わり音声ミュート設定されると、テレビ１０００からの読上げ音声信号の合成出力が一時的に停止される。その後、シアター機器３０００での音声ミュート状態が解除されると、テレビ１０００からの読上げ音声信号の合成出力が再開される。このため、シアター機器３０００が音声ミュート設定されていて音声出力できない場合には、テレビ１０００は読上げ音声信号の送信を一時的に停止して、シアター機器３０００が音声ミュート設定されなくなり音声出力できるようになると、テレビ１０００は読上げ音声信号の送信を再開して、読上げ音声信号を再伝送する。このため、シアター機器３０００は、音声ミュート状態であるときにテレビ１０００から読上げ音声信号を受信しないで、音声ミュート状態でなくなるとテレビ１０００から読上げ音声信号を受信するので、テレビ１０００から送信された読上げ音声は、シアター機器３０００で途切れることなく出力される。

以上のようにして、本実施の形態に係る音声出力システムによると、音声出力装置であるシアター機器が音声ミュート状態（音声出力不可能）であるか否かを音声読上げ装置であるテレビまたは／およびレコーダが、放送等の音声信号および読上げ音声信号を含む合成音声信号を出力する前に検出しておく。シアター機器が音声ミュート状態でないと、この合成音声信号をシアター機器へ出力して、シアター機器が音声ミュート状態であると、読上げ音声信号を含まない合成音声信号をシアター機器へ出力する。合成音声信号をシアター機器へ出力中に、シアター機器が音声ミュート状態に切り替わると、読上げ音声信号のシアター機器への合成出力を一時的に停止して、シアター機器が音声ミュート状態でなくなると、読上げ合成音声信号のシアター機器への合成出力を再開する。このように、一時的な停止を含めて、シアター機器が音声出力可能な状態であるときにのみ、テレビが読上げ音声信号を含む合成音声信号をシアター機器へ出力するので、シアター機器は特別な制御を行うことなく受信した合成音声信号に基づき合成音声を出力する。その結果、テレビから送信された読上げ音声を含む合成音声は、シアター機器で途切れることなく、全ての読上げ音声が放送等の音声とともに出力される。

なお、本実施の形態に係る音声出力システムは、以下のように変形することができる。音声ミュート状態だけでなく、音量、サラウンド等の音声設定状態を通知することにより、設定状態を最適な音声読上げ状態に変更した後で読上げ音声を出力する。さらに、音声ミュート状態を通知する信号線および読上げ音声を出力する信号線は、有線として説明したが、有線である必要はなく、無線であっても構わない。さらに、音声出力装置は、音声読上げ装置と別体で説明したが、一体であってもよい。

＜第２の実施の形態＞
図７〜図１２を参照して、本発明の第２の実施の形態に係る音声出力システムについて説明する。本実施の形態に係る音声出力システムにおいては、読上げるテキストを、音声読上げ装置（たとえばレコーダ、テレビ）から、実際に音声をスピーカから出力する音声出力装置（たとえばシアター機器、テレビ）にテキストデータとして通知し、音声出力装置がタイミングを調整して読上げ音声を出力する。なお、以下の本実施の形態についての説明において、上述した第１の実施の形態と同じ構成については、ここでは説明を繰り返さない。

（全体システム構成）
本実施の形態に係る音声出力システムは、限定されるものではないが、図７に示す（Ａ）および（Ｂ）の２つの態様が考えられる。図７（Ａ）に示す音声出力システムは、音声出力装置がシアター機器３１００であって、音声読上げ装置がテレビ１１００およびレコーダ２１００である。図７（Ｂ）に示す音声出力システムは、音声出力装置がテレビ１１０１であって、音声読上げ装置がレコーダ２１００である。このように、第１の実施の形態と同様に、スピーカを備えるテレビは、音声出力装置としても、音声を読み上げる音声読上げ装置（この場合には音声出力装置はシアター機器）としても機能する。これらの装置は、ネットワーク接続され、放送等の音声信号（放送の音声信号、録画された放送の音声信号、メディアを再生した音声信号などを含む。以下、放送音声信号と記載する。）、読上げ音声のテキストデータ、および、音声出力装置におけるテキストデータの受信状態または読上げ完了状態を示す情報を送受信する。

図７（Ａ）に示す場合には、
（１）テレビ１１００およびレコーダ２１００は、シアター機器３１００へ、読上げ音声の読上げテキスト通知コマンド（テキストデータ）を通知する。
（２）シアター機器３１００は、音声ミュート状態に対応する音声ミュート状態を示すミュートフラグ（音声ミュート状態［ＭｕｔｅＯＮ］／非音声ミュート状態［ＭｕｔｅＯＦＦ］）を保持する。シアター機器３１００は、自己が音声ミュート状態であれば、通知されたテキストデータを音声データに変換して出力することも、テレビ１１００から入力された放送音声信号をスピーカから出力することもしない。音声ミュート状態が解除されると（非音声ミュート状態になると）、入力されたテキストデータを読み上げ音声信号に変換して、変換した読上げ音声信号と入力された放送音声信号とを合成して合成音声信号としてスピーカから出力する。なお、シアター機器３１００は、自己が音声ミュート状態でなく、テキストデータが通知されていなければ、入力された放送音声信号をスピーカから出力している。
（３）テレビ１１００、レコーダ２１００、または複数のレコーダ２１００などの複数の音声読上げ装置から、複数のテキストデータがシアター機器３１００に通知された場合には、テキストデータをバッファしておいて、順次読上げることもできる。なお、テレビ１１００、レコーダ２１００がテキストデータを通知する際、遅延許容量(タイムアウト時間)なども通知して、その通知されたデータに基づいて音声を出力するようにしてもよい。

図７（Ｂ）に示す場合には、
（１）レコーダ２１００は、テレビ１１０１へ、読上げ音声の読上げテキスト通知コマンド（テキストデータ）を通知する。
（２）テレビ１１０１は、音声ミュート状態に対応する音声ミュート状態を示すミュートフラグ（音声ミュート状態［ＭｕｔｅＯＮ］／非音声ミュート状態［ＭｕｔｅＯＦＦ］）を保持する。テレビ１１０１は、自己が音声ミュート状態であれば、通知されたテキストデータを音声データに変換して出力することも、レコーダ１１０１から入力された放送音声信号をスピーカから出力することもしない。音声ミュート状態が解除されると（非音声ミュート状態になると）、入力されたテキストデータを読上げ音声信号に変換して、変換した読上げ音声信号と入力された放送音声信号とを合成して合成音声信号としてスピーカから出力する。なお、テレビ１１０１は、自己が音声ミュート状態でなく、テキストデータが通知されていなければ、入力された放送音声信号をスピーカから出力している。

以下においては、図７（Ａ）の態様であって、音声読上げ装置がテレビ１１００であり、音声出力装置がシアター機器３１００であるとして説明する。なお、図７（Ａ）のレコーダ２１００は、音声読上げ装置としての部分はテレビ１１００と同じ構成であるため、説明を繰り返さない。

（ハードウェア構成：制御ブロック図）
図８に音声読上げ装置の一例であるテレビ１１００の制御ブロック図を示す。このテレビ１１００は、デジタル放送信号を受信してデコードして映像および音声を出力する機能を実現する。このような機能を実現する構成に加えて、このテレビ１１００は、図８に示す制御ブロックを備える。

図８に示すように、テレビ１１００は、このテレビ１１００を制御するＣＰＵ等で構成される制御部１１１０（第１制御部）と、その制御部１１１０に接続された複数のユニットで構成される。これらのユニットは、たとえば、音声出力装置であるシアター機器３１００へ読上げテキストデータを送信する読上げテキスト送信部１１３０（第１情報送信部）と、シアター機器３１００から音声読上げ状態および音声読上げ結果を受信する音声出力装置状態通知受信部１１３２（第１情報受信部）と、シアター装置３１００で読上げるテキストデータを記憶した読上げテキストデータ記憶部１０４０と、を含む。なお、読上げテキスト送信部１１３０（第１情報送信部）は、シアター機器３１００へ読上げ状態取得コマンドも送信する。

図９に音声出力装置の一例であるシアター機器３１００の制御ブロック図を示す。このシアター機器３１００は、音声読上げ装置であるテレビ１１００から読上げ音声テキストデータを受信して、テキストデータを読上げ音声信号に変換し、変換した読上げ音声信号を放送音声信号に重畳した合成音声信号を出力する機能を実現する。このような機能を実現するために、このシアター機器３１００は、図９に示す制御ブロックを備える。

図９に示すように、シアター機器３１００は、このシアター機器３０００を制御するＣＰＵ等で構成される制御部３１１０（第２制御部）と、その制御部３１１０に接続された複数のユニットで構成される。これらのユニットは、たとえば、音声読上げ装置（ここではテレビ１１００）からの読上げ音声テキストデータを受信する読上げテキスト受信部３１２０（第２情報受信部）と、音声読上げ状態および読上げ結果をテレビ１１００へ送信する読上げ装置への状態通知送信部３１２２（第２情報送信部）と、を含む。なお、読上げテキスト受信部３１２０（第２情報受信部）は、音声読上げ装置（ここではテレビ１１００）からの読上げ状態取得コマンドも受信する。

さらに、これらのユニットは、制御部３１１０からの指令（読上げテキスト音声信号生成・出力／停止要求）に従ってテレビ１１００から送信された読上げテキストデータから読上げ音声信号を生成して出力したり読上げ音声信号の生成を停止したりする音声信号生成部３１３０と、テレビ１１００から送信された放送音声信号をデコードするデコーダ３０５０からの音声信号と音声信号生成部３１３０からの音声信号とを合成して、合成音声信号を生成する音声合成部３１４０と、を含む。音声合成部３１４０で合成された合成音声信号は、音声ミュート部３０６０および音声出力部３０７０を経由してスピーカ３０８０から合成音声として出力される。

なお、テレビ１１００の制御部１１１０およびシアター機器３１００の制御部３１１０のいずれも、フラグ等を記憶するフラグ記憶部および後述するプログラムを記憶するプログラム記憶部を備える。さらに制御部３１１０は、テレビ１１００から受信したデータを一時的に記憶するデータ一時記憶部を備える。

（通信シーケンス）
図１０を参照して、本実施の形態に係る音声出力システムにおける通信シーケンスについて説明する。図１０に示す音声読上げ装置は、テレビ１１００であったりレコーダ２１００であったりして、音声出力装置は、シアター機器３１００であったりテレビ１１０１であったりする。ここでは、音声読上げ装置がテレビ１１００であり、音声出力装置がシアター機器３１００であるとして説明する。

テレビ１１００は、音声読上げ指示を検出すると、読上げテキスト通知コマンドをシアター機器３１００へ出力する。この読上げテキスト通知コマンドは、たとえば、［機器識別子］[優先順位］[テキストｉｄ］［ｐａｇｅ番号］［ｐａｇｅ数］［ｔｅｘｔ］から構成される。なお、通知するコマンドが１コマンドに収まらない場合は複数の読上げテキスト通知コマンドに分割して出力しても構わない。なお、［機器識別子］は、音声出力システムに複数の音声読上げ装置を含む場合、複数の中の１台を特定するための識別データである。

シアター機器３１００は、テレビ１１００から読上げテキスト通知コマンドを受信すると、読上げ状態通知コマンド（［テキストｉｄ］［受理］）をテレビ１１００へ送信する。テレビ１１００は、シアター機器３１００から読上げ状態通知コマンド（［テキストｉｄ］［受理］）（読上げ状態通知応答）を受信するまでは読上げテキスト通知コマンドの出力をリトライすることが好ましい。

テレビ１１００は、読上げ状態通知コマンド（［テキストｉｄ］［受理］）をシアター機器３１００から受信すると、読上げ状態取得コマンド（［機器識別子］［テキストｉｄ］）（読上げ状態通知要求）をシアター機器３１００へ送信する。

シアター機器３１００は、テレビ１１００から読上げ状態取得コマンド（［機器識別子］［テキストｉｄ］）を受信すると、読上げテキスト通知コマンドの［ｔｅｘｔ］として入力されたテキストを読上げ音声として読上げたか否かをテレビ１１００へ送信する。シアター機器３１００は、音声ミュート設定されていると音声出力できないので、テキストデータを読上げ音声として読上げていない。この場合には、読上げ状態通知コマンド（［テキストｉｄ］［受理］）をテレビ１１００へ送信する。一方、音声ミュート設定されておらず音声出力できる場合は、テキストを読上げ音声として読上げている。この場合には、読上げ状態通知コマンド（［テキストｉｄ］［完了］）（読上げ状態通知応答）をテレビ１１００へ送信する。この音声出力システムの中に複数のテレビ１１００があっても、読上げ状態通知コマンドの送信先であるテレビ１１００は、機器識別子により特定できる。

（フローチャート構成）
図１１および図１２を参照して、本実施の形態に係る音声出力システムを構成する音声読上げ装置であるテレビ１１００および音声出力装置であるシアター機器３１００で実行される音声出力処理の制御構造について説明する。ここでは、図７（Ａ）に示すように、音声読上げ装置がテレビ１１００であり、音声出力装置がシアター機器３１００であり、レコーダ２１００が存在しないものとして説明する。

図１１のフローチャートを参照して、Ｓ３１００にて、シアター機器３１００の制御部３１１０（以下、単に制御部３１１０と記載）は、音声ミュート設定するか否かを判定する。このとき、制御部３１１０は、音声信号入力部３０３０に入力された放送音声信号の符号化がＡＡＣからリニアＰＣＭへ切り替わったと判断した場合、シアター機器３１００を音声ミュート状態に設定する。音声ミュートが設定されると（Ｓ３１００にてＹＥＳ）、処理はＳ３１０２へ移される。一方、音声信号入力部３０３０に入力された放送音声信号の符号化に変更がないと判断した場合、あるいはデコーダ３０５０において符号化設定の切替が完了したと判断した場合は、音声ミュート状態が解除されるので（Ｓ３１００にてＮＯ）、この処理はＳ３１０４へ移される。

Ｓ３１０２にて、制御部３１１０は、フラグ記憶部に記憶されたミュートフラグをオンにセットする。これで、［ＭｕｔｅＯＮ］状態になる。その後、処理はＳ３１００へ移される。Ｓ３１０４にて、制御部３１１０は、フラグ記憶部に記憶されたミュートフラグをオフにセットする。これで、［ＭｕｔｅＯＦＦ］状態になる。その後、処理はＳ３１００へ移される。

図１２の右側のフローチャートを参照して、Ｓ１１２０にて、制御部１１１０は、音声読上げ指示を検出したか否かを判定する。このとき、制御部１１１０は、ユーザインターフェイス１０２０を介して音声読上げ指示を検出したり、タイマ１０２２から指示に基づいて音声読上げ指示を検出したりする。音声読上げ指示を検出すると（Ｓ１１２０にてＹＥＳ）、処理はＳ１１２２へ移される。もしそうでないと（Ｓ１１２０にてＮＯ）、この処理はＳ１１２０へ移される。

Ｓ１１２２にて、制御部１１１０は、読上げテキストデータ記憶部１０４０から読上げテキストデータを取得し、読上げテキスト通知コマンド（［機器識別子］［優先順位］［テキストｉｄ］［ｐａｇｅ番号］［ｐａｇｅ数］［ｔｅｘｔ］）を作成して、読上げテキスト送信部１１３０を介してシアター機器３１００へ送信する。

Ｓ１１２６にて、制御部１１１０は、音声出力装置状態通知受信部１１３２を介して読上げ状態通知コマンド（［テキストｉｄ］［受理］）をシアター機器３１００から受信したか否かを判定する。読上げ状態通知コマンド（［テキストｉｄ］［受理］）を受信すると（Ｓ１１２６にてＹＥＳ）、処理はＳ１１３０へ移される。もしそうでないと（Ｓ１１２６にてＮＯ）、この処理はＳ１１２８へ移される。

Ｓ１１２８にて、制御部１１１０は、読上げテキスト通知コマンド（［機器識別子］［優先順位］［テキストｉｄ］［ｐａｇｅ番号］［ｐａｇｅ数］［ｔｅｘｔ］）をシアター機器３１００へ再送信（リトライ）するか否かを判定する。このとき、制御部１１１０は、予め定められたリトライ回数に到達するまではリトライすると判定する。リトライすると判定されると（Ｓ１１２８にてＹＥＳ）、処理はＳ１１２２へ移される。もしそうでないと（Ｓ１１２８にてＮＯ）、この処理はＳ１１３０へ移される。なお、本実施の形態の説明においては、テレビ１１００が、予め定められたリトライ回数だけ読上げテキスト通知コマンド（［機器識別子］［優先順位］［テキストｉｄ］［ｐａｇｅ番号］［ｐａｇｅ数］［ｔｅｘｔ］）をシアター機器３１００へ送信しても、テレビ１１００が、読上げ状態通知コマンド（［テキストｉｄ］［受理］）をシアター機器３１００から受信しないことは想定しないものとする。

Ｓ１１３０にて、制御部１１１０は、読上げ状態取得コマンド（［機器識別子］［テキストｉｄ］）を作成して、読上げテキスト送信部１１３０を介してシアター機器３１００へ送信する。

Ｓ１１３２にて、制御部１１１０は、音声出力装置状態通知受信部１１３２を介して読上げ状態通知コマンド（［テキストｉｄ］［完了］）をシアター機器３１００から受信したか否かを判定する。読上げ状態通知コマンド（［テキストｉｄ］［完了］）を受信すると（Ｓ１１３２にてＹＥＳ）、処理はＳ１１２０へ移される。もしそうでないと（Ｓ１１３２にてＮＯ）、この処理はＳ１１３０へ移される。なお、本実施の形態の説明においては、読上げ状態通知コマンド（［テキストｉｄ］［完了］）をシアター機器３１００から受信しないことは想定しないものとする。さらに、Ｓ１１３２にてＮＯの場合、処理をＳ１１３２へ移すようにしても構わない。すなわち、読上げ状態取得コマンド（［機器識別子］［テキストｉｄ］）をシアター機器３１００へ再送信しないで、読上げ状態通知コマンド（［テキストｉｄ］［完了］）の受信を待つ。

図１２の左側のフローチャートを参照して、Ｓ３１２０にて、制御部３１１０は、読上げテキスト受信部３１２０を介して読上げテキスト通知コマンド（［機器識別子］［優先順位］［テキストｉｄ］［ｐａｇｅ番号］［ｐａｇｅ数］［ｔｅｘｔ］）をテレビ１１００から受信したか否かを判定する。読上げテキスト通知コマンドを受信すると（Ｓ３１２０にてＹＥＳ）、処理はＳ３１２２へ移される。もしそうでないと（Ｓ３１２０にてＮＯ）、この処理はＳ３１２０へ移される。

Ｓ３１２２にて、制御部３１１０は、テレビ１１００からの読上げテキスト通知コマンドの受信が完了すると、読上げ状態通知コマンド（［テキストｉｄ］［受理］）を作成し、読上げ装置への状態通知送信部３１２２を介して、機器識別子で特定されるテレビ１１００へ送信する。

Ｓ３１２４にて、制御部３１１０は、フラグ記憶部に記憶されたミュートフラグがオン状態であるか否かを判定する。ミュートフラグがオン状態であると判定されると（Ｓ３１２４にてＹＥＳ）、処理はＳ３１２６へ移される。もしそうでないと（Ｓ３１２４にてＮＯ）、この処理はＳ３１３２へ移される。Ｓ３１２６にて、制御部３１１０は、テレビ１１００から受信した読上げテキスト通知コマンドのテキストデータをデータ一時記憶部に一時的に記憶させる。

Ｓ３１２８にて、制御部３１１０は、データ一時記憶部に複数のテキストデータを記憶したか否かを判定する。このとき、通知するテキストが長くて複数のコマンドに分割して送信されたテキストデータは１つのデータとして扱う。複数のテキストデータを記憶したと判定されると（Ｓ３１２８にてＹＥＳ）、処理はＳ３１３０へ移される。もしそうでないと（Ｓ３１２８にてＮＯ）、この処理はＳ３１２４へ移される。

Ｓ３１３０にて、制御部３１１０は、複数のテキストデータの音声出力優先順位を決定する。このとき、たとえば、制御部３１１０は、読上げテキスト通知コマンドの優先順位に従って、テキストデータの音声出力優先順位を決定する。そして決定した音声出力優先順位をデータ一時記憶部に記憶しておく。その後、この処理はＳ３１２４へ移される。なお、音声読上げ装置の種類による優先順位（たとえばテレビ１１１０からのテキストデータはレコーダ２１００からのテキストデータよりも優先順位が高い）に従って、［機器識別子］で音声読上げ装置とレコーダとを区別して、テキストデータの音声出力優先順位を決定することもできる。

Ｓ３１３２にて、制御部３１１０は、データ一時記憶部に音声出力優先順位が記憶されている場合は記憶された音声出力優先順位に従って、読上げテキスト受信部３１２０から入力されたテキストデータのうちタイムアウト前のみのテキストデータを抽出し、音声信号生成部３１３０に対応する読上げ音声信号を生成させ、スピーカ３０８０から読上げ音声信号が重畳された合成音声信号を出力させる。ここで、タイムアウトについて説明する。タイムアウトは、たとえば複数の音声読上げ装置（テレビ１１００、レコーダ２１００）から音声出力装置（シアター機器３１００）に対して、同時に読上げテキストが通知された場合、音声出力装置は（音声出力優先順位があればその順位に従って）順次読上げ処理を実行する。読上げテキストの中にはある時間までに読上げを終了しないと意味がないテキストデータもあるため、タイムアウト前のみのテキストデータのみを読み上げて、意味のないタイムアウト後のテキストデータは読上げないようにする。なお、タイムアウト時間は、テレビ１１００から読上げテキスト通知コマンドに付随するデータとしてシアター機器へ出力される。

Ｓ３１３４にて、制御部３１１０は、読上げテキスト（複数のテキストがあれば全てのテキストを）の音声出力が完了して、かつ、テレビ１１００からの読上げ状態取得コマンド（［機器識別子］［テキストｉｄ］）を受信すると、読上げ状態通知コマンド（［テキストｉｄ］［完了］）を読上げ装置への状態通知送信部３１２２を介して機器識別子で特定されるテレビ１１００へ送信する。その後、処理はＳ３１２０へ移される。

（動作）
以上のような構造およびフローチャートに基づく本実施の形態に係る音声出力システムの動作について説明する。なお、以下の説明においても、上述した第１の実施の形態における動作と同じ説明は繰り返さない。また、以下においては、通信トラブル等に起因する通信タイムアウトエラーは想定しないものとする。

・音声ミュートフラグがオフを維持している場合
この動作の説明においては、たとえば、シアター機器３１００へ送信される放送音声信号の符号化がＡＡＣからリニアＰＣＭへ変更しない場合を説明する。テレビ１１００のリモコンでユーザが音声読上げを指示すると（Ｓ１１２０にてＹＥＳ）、シアター機器３１００の音声ミュートフラグがオンであるか否かに関わらず、読上げテキスト通知コマンド（［機器識別子］［優先順位］［テキストｉｄ］［ｐａｇｅ番号］［ｐａｇｅ数］［ｔｅｘｔ］）が、テレビ１１００からシアター機器３１００へ送信される（Ｓ１１２２）。

シアター機器３１００は、読上げテキスト通知コマンドを受信する（Ｓ３１２０にてＹＥＳ）。そして、テレビ１１００からの読上げ状態取得コマンド（［機器識別子］［テキストｉｄ］）の受信が完了すると、読上げ状態通知コマンド（［テキストｉｄ］［受理］）が、シアター機器３１００からテレビ１１００へ送信される（Ｓ３１２２）。

テレビ１１００が読上げ状態通知コマンド（［テキストｉｄ］［受理］）を受信すると（Ｓ１１２６にてＹＥＳ）、読上げテキスト通知コマンドがシアター機器３１００へ再送信されることなく、読上げ状態取得コマンド（［機器識別子］［テキストｉｄ］）がテレビ１１００からシアター機器３１００へ送信される（Ｓ１１３０）。その後、テレビ１１００は、読上げ状態通知コマンド（［テキストｉｄ］［完了］）がシアター機器３１００から送信されるのを待つ（Ｓ１１３２）。

一方、読上げテキスト通知コマンドを受信したシアター機器３１００は、ミュートフラグがオンではないので（Ｓ３１２４にてＮＯ）、読上げテキスト通知コマンドと受信したテキストデータから音声信号生成部３１３０で読上げ音声信号を生成し、生成した読上げ音声信号を放送音声信号に重畳した合成音声信号をスピーカ３０８０から出力する（Ｓ３１３２）。スピーカ３０８０からの合成音声の出力が完了すると、読上げ状態通知コマンド（［テキストｉｄ］［完了］）がテレビ１１００からシアター機器３１００へ送信される（Ｓ３１３４）。

音声出力装置であるシアター機器３１００へ送信された放送音声信号の符号化が変化しないので音声ミュート状態にならない。音声読上げ装置であるテレビ１１００から送信されてきたテキストデータから読上げ音声データが生成されて、放送音声信号に重畳されて合成音声信号として出力される。このため、テレビ１１００から送信されたテキストデータは、シアター機器３１００で途切れることなく音声信号へ変換されて、合成音声信号に含まれる読上げ音声信号として出力される。

・音声ミュートフラグがオンの場合
この動作の説明においては、シアター機器３１００へ入力されたテレビ１１００からの放送音声信号の符号化がＡＡＣからリニアＰＣＭへ切り替わり、シアター機器３１００のデコーダ３０５０での符号化設定の切替が完了するまでの間の処理を説明する。上述のように、シアター機器３１００の音声ミュート状態に関係なく、読上げテキスト通知コマンド（［機器識別子］［優先順位］［テキストｉｄ］［ｐａｇｅ番号］［ｐａｇｅ数］［ｔｅｘｔ］）が、テレビ１１００からシアター機器３１００へ送信される（Ｓ１１２２）。

一方、シアター機器３１００においては、音声ミュートが設定され（Ｓ３１００にてＹＥＳ）、音声ミュートフラグがオンにセットされている（Ｓ３１０２）。読上げテキスト通知コマンドをテレビ１１００から受信したシアター機器３１００においては、音声ミュートフラグがオンにセットされているので（Ｓ３１２４にてＹＥＳ）、受信したテキストデータを一時的にデータ一時記憶部に記憶する（Ｓ３１２６）。なお、音声ミュートフラグがオンにセットされている状態においては、シアター機器３１００が受信したテキストデータの全てが一時的にデータ一時記憶部に記憶される（Ｓ３１２４にてＮＯになるまでＳ３１２６〜Ｓ３１３０）。このような状態で複数のテキストデータを記憶すると（Ｓ３１２８にてＹＥＳ）、音声出力優先順位が決定される（Ｓ３１３０）。

シアター機器３１００のデコーダ３０５０の内部処理が終わると、音声ミュートが解除され（Ｓ３１００にてＮＯ、Ｓ３１０４）、ミュートフラグがオンからオフに切り替わる（Ｓ３１２４にてＮＯ）。音声ミュートフラグがオフになると、シアター機器３１００で、データ一時記憶部に記憶した１または複数のテキストデータから対応する１または複数の読上げ音声信号を生成して、読上げ音声信号の出力が開始される（Ｓ３１３２）。このとき、音声出力優先順位およびタイムアウト時間を考慮して、読上げ音声信号が出力される。テキストデータ（複数のテキストがあれば全てのテキストを）の音声を出力が完了すると、読上げ状態通知コマンド（［テキストｉｄ］［完了］）がテレビ１１００からシアター機器３１００へ送信される（Ｓ３１３４）。

音声出力装置であるシアター機器３１００へ送信された放送音声信号の符号化が変化して音声ミュート状態であるときには、テキストデータは一時的に記憶される。音声ミュート状態でなくなると、一時的に記憶しておいたテキストデータから読上げ音声信号が生成されて出力される。このため、テレビ１１００から送信されたテキストデータは、シアター機器３０００で途切れることなく読上げ音声信号へ変換されて、合成音声信号に含まれる読上げ音声信号として出力される。

以上のようにして、本実施の形態に係る音声出力システムによると、音声出力装置であるシアター機器が音声ミュート状態（音声出力不可能）であるか否かに関わらず、音声読上げ装置であるテレビまたは／およびレコーダは、読上げテキストデータをシアター機器へ送信する。シアター機器が音声ミュート状態でないと、テキストデータから読上げ音声信号を生成してシアター機器から合成音声（放送音声および読上げ音声）を出力する。シアター機器が音声ミュート状態であると、音声ミュート状態でなくなるまで、受信したテキストデータを一時的に記憶しておく。シアター機器が音声ミュート状態から音声ミュート状態でなくなると、一時的に記憶したテキストデータから読上げ音声信号を生成してシアター機器から合成音声（放送音声および読上げ音声）を出力する。その結果、テレビから送信されたテキストデータは、シアター機器で途切れることなく読上げ音声信号に変換されて、合成音声信号に含まれる読上げ音声信号として出力される。

なお、本実施の形態に係る音声出力システムは、以下のように変形することができる。音声ミュート状態を通知する信号線および読上げ音声を出力する信号線は、有線として説明したが、有線である必要はなく、無線であっても構わない。さらに、音声出力装置は、音声読上げ装置と別体で説明したが、一体であってもよい。さらに、音声読上げ装置は、音声読上げテキストだけでなく、たとえば、アクセント、話速、音量等の音声読上げ設定データを送信するようにしてもよい。

本発明は、例えば、音声出力できないタイミングが発生する音声出力装置であっても、読上げ装置からの読上げ音声信号を途切れることなく出力可能な音声出力システムに好適に利用できる。

１０００、１００１、１１００、１１０１テレビ
２０００、２１００レコーダ
３０００、３１００シアター機器
１０１０、１１１０テレビ制御部
３０１０、３１１０シアター機器制御部

特開２０１０−２０５１３６号公報

図１は、本発明の第１の実施の形態に係る音声出力システムの全体構成図である。図２は、図１の音声読上げ装置（テレビ１０００）の制御ブロック図である。図３は、図１の音声出力装置（シアター機器３０００）の制御ブロック図である。図４は、図１の音声出力システムにおける通信シーケンスを示す図である。図５は、図１の音声読上げ装置（テレビ１０００）および音声出力装置（シアター機器３０００）で実行されるプログラムの制御構造を示すフローチャート（その１）である。図６は、図１の音声読上げ装置（テレビ１０００）および音声出力装置（シアター機器３０００）の制御部で実行されるプログラムの制御構造を示すフローチャート（その２）である。図７は、本発明の第２の実施の形態に係る音声出力システムの全体構成図である。図８は、図７の音声読上げ装置（テレビ１１００）の制御ブロック図である。図９は、図７の音声出力装置（シアター機器３１００）の制御ブロック図である。図１０は、図７の音声出力システムにおける通信シーケンスを示す図である。図１１は、図７の音声読上げ装置（テレビ１１００）および音声出力装置（シアター機器３１００）の制御部で実行されるプログラムの制御構造を示すフローチャート（その１）である。図１２は、図７の音声読上げ装置（テレビ１１００）および音声出力装置（シアター機器３１００）の制御部で実行されるプログラムの制御構造を示すフローチャート（その２）である。

なお、音声読上げ装置と音声出力装置との間で通知するコマンドは、音声読上げ許可および音声読上げ禁止フラグ等であっても、同じ機能が実現できる。また、音声読上げ装置と音声出力装置との間の通信線は、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）、住宅内ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等である。なお、ＨＤＭＩ（登録商標）で接続する場合、ＨＤＭＩ（登録商標）で規格化されている機器制御信号および制御プロトコルであるＣＥＣ（ＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓＣｏｎｔｒｏｌ）を用いることができる。

合成音声信号の出力が開始されてから（Ｓ１０２３、Ｓ１０２４）、音声ミュートフラグがオフからオンになり（Ｓ１０２８にてＮＯ）、音声ミュートフラグがオンからオフになるまで（Ｓ１０２８にてＹＥＳ）、読上げ音声信号の合成出力は中断状態になるが、音声ミュートフラグがオンからオフへ切り替わると（Ｓ１０２８にてＹＥＳ）、読上げ音声信号の合成出力は再開される。

以上のようにして、本実施の形態に係る音声出力システムによると、音声出力装置であるシアター機器が音声ミュート状態（音声出力不可能）であるか否かを音声読上げ装置であるテレビまたは／およびレコーダが、放送等の音声信号および読上げ音声信号を含む合成音声信号を出力する前に検出しておく。シアター機器が音声ミュート状態でないと、この合成音声信号をシアター機器へ出力して、シアター機器が音声ミュート状態であると、読上げ音声信号を含まない合成音声信号をシアター機器へ出力する。合成音声信号をシアター機器へ出力中に、シアター機器が音声ミュート状態に切り替わると、読上げ音声信号のシアター機器への合成出力を一時的に停止して、シアター機器が音声ミュート状態でなくなると、読上げ音声信号のシアター機器への合成出力を再開する。このように、一時的な停止を含めて、シアター機器が音声出力可能な状態であるときにのみ、テレビが読上げ音声信号を含む合成音声信号をシアター機器へ出力するので、シアター機器は特別な制御を行うことなく受信した合成音声信号に基づき合成音声を出力する。その結果、テレビから送信された読上げ音声を含む合成音声は、シアター機器で途切れることなく、全ての読上げ音声が放送等の音声とともに出力される。

図７（Ｂ）に示す場合には、
（１）レコーダ２１００は、テレビ１１０１へ、読上げ音声の読上げテキスト通知コマンド（テキストデータ）を通知する。
（２）テレビ１１０１は、音声ミュート状態に対応する音声ミュート状態を示すミュートフラグ（音声ミュート状態［ＭｕｔｅＯＮ］／非音声ミュート状態［ＭｕｔｅＯＦＦ］）を保持する。テレビ１１０１は、自己が音声ミュート状態であれば、通知されたテキストデータを音声データに変換して出力することも、レコーダ２１００から入力された放送音声信号をスピーカから出力することもしない。音声ミュート状態が解除されると（非音声ミュート状態になると）、入力されたテキストデータを読上げ音声信号に変換して、変換した読上げ音声信号と入力された放送音声信号とを合成して合成音声信号としてスピーカから出力する。なお、テレビ１１０１は、自己が音声ミュート状態でなく、テキストデータが通知されていなければ、入力された放送音声信号をスピーカから出力している。

Ｓ３１３０にて、制御部３１１０は、複数のテキストデータの音声出力優先順位を決定する。このとき、たとえば、制御部３１１０は、読上げテキスト通知コマンドの優先順位に従って、テキストデータの音声出力優先順位を決定する。そして決定した音声出力優先順位をデータ一時記憶部に記憶しておく。その後、この処理はＳ３１２４へ移される。なお、音声読上げ装置の種類による優先順位（たとえばテレビ１１００からのテキストデータはレコーダ２１００からのテキストデータよりも優先順位が高い）に従って、［機器識別子］で音声読上げ装置とレコーダとを区別して、テキストデータの音声出力優先順位を決定することもできる。

一方、読上げテキスト通知コマンドを受信したシアター機器３１００は、ミュートフラグがオンではないので（Ｓ３１２４にてＮＯ）、読上げテキスト通知コマンドと受信したテキストデータから音声信号生成部３１３０で読上げ音声信号を生成し、生成した読上げ音声信号を放送音声信号に重畳した合成音声信号をスピーカ３０８０から出力する（Ｓ３１３２）。スピーカ３０８０からの合成音声の出力が完了すると、読上げ状態通知コマンド（［テキストｉｄ］［完了］）がシアター機器３１００からテレビ１１００へ送信される（Ｓ３１３４）。

Claims

読上げ音声信号を出力する音声出力装置とネットワークで接続された音声読上げ装置であって、
文字情報から前記読上げ音声信号を生成する音声信号生成部と、
前記ネットワークを介して、前記音声出力装置から音声出力可否情報を受信する第１情報受信部と、
前記ネットワークを介して、前記音声信号生成部が生成した前記読上げ音声信号を前記音声出力装置へ送信する第１情報送信部と、
前記第１情報受信部が音声出力不可を示す音声出力可否情報を受信した場合に、音声出力可を示す音声出力可否情報を受信するまで前記第１情報送信部に前記読上げ音声信号の送信を待機させ、前記第１情報受信部が音声出力可を示す音声出力可否情報を受信した場合に、前記第１情報送信部に前記読上げ音声信号を送信させる第１制御部と、
を具備することを特徴とする音声読上げ装置。
前記音声信号生成部が生成した前記読上げ音声信号と放送音声信号を合成して合成音声信号を生成する合成音声信号生成部、を更に備え、
前記第１情報送信部は、前記合成音声信号生成部が生成した前記合成音声信号を前記音声出力装置へ出力し、
前記第１制御部は、前記第１情報受信部が音声出力不可を示す音声出力可否情報を受信した場合に、音声出力可を示す音声出力可否情報を受信するまで前記合成音声信号生成部に前記放送音声信号のみから構成される合成音声信号を生成させて前記第１情報送信部に送信させ、前記第１情報受信部が音声出力可を示す音声出力可否情報を受信した場合に、前記合成音声信号生成部に前記読上げ音声信号と前記放送音声信号を合成した合成音声信号を生成させて前記第１情報送信部に送信させる、ことを特徴とする請求項１に記載の音声読上げ装置。
前記第１制御部は、前記第１情報送信部が前記読上げ音声信号を送信中に前記第１情報受信部が音声出力不可を示す音声出力可否情報を受信した場合に、音声出力可を示す音声出力可否情報を受信するまで前記第１情報送信部に前記読上げ音声信号の送信を待機させ、前記第１情報受信部が音声出力可を示す音声出力可否情報を受信した場合に、前記第１情報送信部に前記読上げ音声信号の送信を所定の部分から再開する、ことを特徴とする請求項１に記載の音声読上げ装置。
合成音声信号を出力する音声読上げ装置とネットワークで接続された音声出力装置であって、
前記音声読上げ装置から前記合成音声信号を受信する音声信号入力部と、
前記音声読上げ装置から音声状態取得要求を受信する第２情報受信部と、
音声出力可否情報を前記音声読上げ装置へ送信する第２情報送信部と、
前記音声信号入力部が受信した前記合成音声信号をデコードするデコード部と、
前記デコード部がデコードした前記合成音声信号を出力する音声出力部と、
前記第２情報受信部が前記音声状態取得要求を受信した場合に、前記デコード部が前記合成音声信号をデコードできるか否かに応じて前記音声出力可否情報を生成して前記第２情報送信部に送信させるとともに、前記音声出力可否情報に応じて前記音声出力部の前記合成音声信号の出力を制御する第２制御部と、
を具備することを特徴とする音声出力装置。
読上げ音声信号を出力する音声出力装置とネットワークで接続された音声読上げ装置であって、
前記ネットワークを介して、前記音声出力装置へ文字情報及び読上げ状態通知要求を送信する第１情報送信部と、
前記ネットワークを介して、前記音声出力装置から読上げ状態通知応答を受信する第１情報受信部と、
前記第１情報受信部が文字情報受理を示す前記読上げ状態通知応答を受信するまで前記第１情報送信部に前記文字情報を送信させ続け、前記第１情報受信部が読上げ完了を示す前記読上げ状態通知応答を受信するまで前記第１情報送信部に前記読上げ状態通知要求を送信させ続ける第１制御部と、
を具備することを特徴とする音声読上げ装置。
文字情報を出力する音声読上げ装置とネットワークで接続された音声出力装置であって、
放送音声信号を受信する音声信号入力部と、
前記ネットワークを介して、前記音声読上げ装置から前記文字情報及び読上げ状態通知要求を受信する第２情報受信部と、
前記ネットワークを介して、前記音声読上げ装置へ読上げ状態通知応答を送信する第２情報送信部と、
前記音声信号入力部が受信した前記放送音声信号をデコードするデコード部と、
前記第２情報受信部が受信した前記文字情報から読上げ音声信号を生成する音声信号生成部と、
前記デコード部がデコードした前記放送音声信号と前記音声信号生成部が生成した前記読上げ音声信号を合成して合成音声信号を生成する合成音声信号生成部と、
前記合成音声信号生成部が生成した前記合成音声信号を出力する音声出力部と、
前記第２情報受信部が前記読上げ状態通知要求を受信した場合において前記文字情報の受信が完了した場合は文字情報受理を示す前記読上げ状態通知応答を前記第２情報送信部に送信させ、前記音声出力部が前記読上げ音声信号の出力を完了させた場合は読上げ完了を示す前記読上げ状態通知応答を前記第２情報送信部に送信させる第２制御部と、
を具備することを特徴とする音声出力装置。
前記第２情報受信部が受信した前記文字情報を記憶するデータ一時記憶部、を更に備え、
前記第２制御部は、前記デコード部が前記放送音声信号をデコードできるか否かを判断し、デコードできないと判断した場合は前記データ一時記憶部に前記文字情報を記憶させるとともに前記音声信号生成部に前記読上げ音声信号の生成を停止させ、デコードできると判断した場合は前記音声信号生成部に前記第２情報受信部が受信した前記文字情報または前記データ一時記憶部が記憶した前記文字情報から前記読上げ音声信号を生成させる、ことを特徴とする請求項６に記載の音声出力装置。
前記第２情報受信部は、複数の前記音声読上げ装置から前記文字情報及び前記読上げ状態通知要求を受信し、
前記第２情報送信部は、複数の前記音声読上げ装置へ読上げ状態通知応答を送信し、
前記データ一時記憶部は、複数の前記文字情報を記憶し、
前記第２制御部は、前記デコード部が前記放送音声信号をデコードできると判断した場合は、前記音声信号生成部に前記第２情報受信部が受信した複数の前記文字情報または前記データ一時記憶部が記憶した複数の前記文字情報を所定の優先順位に従って順次複数の前記読上げ音声信号に変換させる、ことを特徴とする請求項７に記載の音声出力装置。
請求項１〜請求項３のいずれかに記載の音声読上げ装置と、請求項４に記載の音声出力装置とを含む、音声出力システム。
請求項５に記載の音声読上げ装置と、請求項６〜請求項８のいずれかに記載の音声出力装置とを含む、音声出力システム。
読上げ音声信号を出力する音声出力装置とネットワークで接続された音声読上げ装置における音声読上げ方法であって、
文字情報から前記読み上げ音声信号を生成する生成ステップと、
前記ネットワークを介して、前記音声出力装置から音声出力可否情報を受信する受信ステップと、
前記ネットワークを介して、生成された前記読上げ音声信号を前記音声出力装置へ送信する送信ステップと、
前記受信ステップにおいて音声出力不可を示す音声出力可否情報が受信された場合に、音声出力可を示す音声出力可否情報を受信するまで前記送信ステップに前記読上げ音声信号の送信を待機させ、前記受信ステップが音声出力可を示す音声出力可否情報を受信した場合に、前記送信ステップに前記読上げ音声信号を送信させる制御ステップと、
を有することを特徴とする音声読上げ方法。
合成音声信号を出力する音声読上げ装置とネットワークで接続された音声出力装置における音声出力方法であって、
前記音声読上げ装置から前記合成音声信号を受信する第１受信ステップと、
前記音声読上げ装置から音声状態取得要求を受信する第２受信ステップと、
音声出力可否情報を前記音声読上げ装置へ送信する送信ステップと、
受信された前記合成音声信号をデコードするデコードステップと、
デコードされた前記合成音声信号を出力する音声出力ステップと、
前記第２受信ステップにおいて前記音声状態取得要求を受信した場合に、前記デコードステップが前記合成音声信号をデコードできるか否かに応じて前記音声出力可否情報を生成して前記送信ステップに送信させるとともに、前記音声出力可否情報に応じて前記音声出力ステップの前記合成音声信号の出力を制御する制御ステップと、
を有することを特徴とする音声出力方法。
読上げ音声信号を出力する音声出力装置とネットワークで接続された音声読上げ装置における音声読上げ方法であって、
前記ネットワークを介して、前記音声出力装置へ文字情報を送信するステップと、
前記ネットワークを介して、前記音声出力装置へ文字情報及び読上げ状態通知要求を送信する送信ステップと、
前記ネットワークを介して、前記音声出力装置から読上げ状態通知応答を受信する受信ステップと、
前記受信ステップが文字情報受理を示す前記読上げ状態通知応答を受信するまで前記送信ステップに前記文字情報を送信させ続け、前記受信ステップが読上げ完了を示す前記読上げ状態通知応答を受信するまで前記送信ステップに前記読上げ状態通知要求を送信させ続ける制御ステップと、
を有することを特徴とする音声読上げ方法。
文字情報を出力する音声読上げ装置とネットワークで接続された音声出力装置における音声出力方法であって、
放送音声信号を受信する第１受信ステップと、
前記ネットワークを介して、前記音声読上げ装置から前記文字情報及び読上げ状態通知要求を受信する第２受信ステップと、
前記ネットワークを介して、前記音声読上げ装置へ読上げ状態通知応答を送信する送信ステップと、
受信された前記放送音声信号をデコードするデコードステップと、
受信された前記文字情報から読上げ音声信号を生成する第１生成ステップと、
デコードされた前記放送音声信号と生成された前記読上げ音声信号を合成して合成音声信号を生成する第２生成ステップと、
生成された前記合成音声信号を出力する音声出力ステップと、
前記第２受信ステップが前記読上げ状態通知要求を受信した場合において前記文字情報の受信が完了した場合は文字情報受理を示す前記読上げ状態通知応答を前記送信ステップに送信させ、前記音声出力ステップが前記読上げ音声信号の出力を完了させた場合は読上げ完了を示す前記読上げ状態通知応答を前記送信ステップに送信させる制御ステップと、を有することを特徴とする音声出力方法。