JPWO2016009834A1

JPWO2016009834A1 - 送信装置、送信方法、受信装置、及び、受信方法

Info

Publication number: JPWO2016009834A1
Application number: JP2016534361A
Authority: JP
Inventors: 武敏山根; 山岸　靖明; 靖明山岸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-07-14
Filing date: 2015-07-01
Publication date: 2017-05-25
Also published as: EP3171610B1; EP3171610A4; RU2686663C2; US11197048B2; KR20170033273A; US10491934B2; EP3171610A1; WO2016009834A1; US20200053412A1; RU2017100076A3; MX2017000281A; RU2017100076A; KR102307330B1; KR20180122040A; US20170134782A1; SG11201700130VA; ZA201608004B; MX368686B; MY188845A; BR112017000101A2

Abstract

本技術は、視覚障害者に対するアクセシビリティを向上させることができるようにする送信装置、送信方法、受信装置、及び、受信方法に関する。表示情報に対する制作者が意図する音声の発話に関する音声発話メタデータを生成する音声発話メタデータ生成部と、音声発話メタデータを含む電子番組情報を生成する電子番組情報生成部と、表示情報を表示可能な受信装置に対して、電子番組情報を送信する送信部とを備える送信装置が提供される。本技術は、例えば、デジタル放送信号を送信可能な送信機に適用することができる。

Description

本技術は、送信装置、送信方法、受信装置、及び、受信方法に関し、特に、視覚障害者に対するアクセシビリティを向上させることができるようにした送信装置、送信方法、受信装置、及び、受信方法に関する。

デジタル放送の分野では、視覚障害者に対するアクセシビリティが求められている（例えば、特許文献１参照）。

特に、米国では、いわゆる米国アクセシビリティ法（CVAA：The 21st Century Communications and Video Accessibility Act of 2010）が制定され、連邦通信委員会（FCC：Federal Communications Commission）により、この法律をベースとした映像番組のアクセシビリティに関する様々な規制が発表されている。

特開２００９−２０４７１１号公報

ところで、視覚障害者に対して、番組情報等のユーザインターフェース（UI：User Interface）を提示する場合、当該番組情報等のテキスト情報を、TTS（Text To Speech）エンジンで読み上げることで、アクセシビリティを高めるのが一般的である。

しかしながら、TTSエンジンでは、番組情報等の制作者が意図した通りに、テキスト情報が読み上げられるとは限らず、視覚障害者が、健常者と同等の情報が得られる保証がない。そのため、確実に、制作者が意図した通りの発話が行われて、視覚障害者が、健常者と同等の情報を得られるようにするための技術が求められていた。

本技術はこのような状況に鑑みてなされたものであり、確実に、制作者が意図した通りの発話が行われるようにすることで、視覚障害者に対するアクセシビリティを向上させることができるようにするものである。

本技術の第１の側面の送信装置は、表示情報に対する制作者が意図する音声の発話に関するメタデータを生成するメタデータ生成部と、前記メタデータを含む電子番組情報を生成する電子番組情報生成部と、前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する送信部とを備える送信装置である。

前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいるようにすることができる。

前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいるようにすることができる。

前記コンテンツを取得するコンテンツ取得部をさらに備え、前記送信部は、前記電子番組情報を、前記コンテンツとともに、デジタル放送信号で送信するようにすることができる。

前記電子番組情報は、OMA-BCAST（Open Mobile Alliance - Mobile Broadcast Services Enabler Suite）で規定されたESG（Electronic Service Guide）に準拠しており、前記メタデータは、SSML（Speech Synthesis Markup Language）形式で記述され、前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれるようにすることができる。

送信装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本技術の第１の側面の送信方法は、上述した本技術の第１の側面の送信装置に対応する送信方法である。

本技術の第１の側面の送信装置、及び、送信方法においては、表示情報に対する制作者が意図する音声の発話に関するメタデータが生成され、前記メタデータを含む電子番組情報が生成され、前記表示情報を表示可能な受信装置に対して、前記電子番組情報が送信される。

本技術の第２の側面の受信装置は、送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信する受信部と、前記電子番組情報に含まれる前記メタデータを取得するメタデータ取得部と、前記メタデータに基づいて、前記表示情報を読み上げる音声読み上げ部とを備える受信装置である。

前記受信部は、デジタル放送信号として、前記コンテンツとともに送信される前記電子番組情報を受信するようにすることができる。

前記電子番組情報は、OMA-BCASTで規定されたESGに準拠しており、前記メタデータは、SSML形式で記述され、前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれており、前記メタデータ取得部は、前記アドレス情報に従い前記メタデータのファイルを取得するか、又は前記フラグメントから前記メタデータを取得するようにすることができる。

受信装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本技術の第２の側面の受信方法は、上述した本技術の第２の側面の受信装置に対応する受信方法である。

本技術の第２の側面の受信装置、及び、受信方法においては、送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報が受信され、前記電子番組情報に含まれる前記メタデータが取得され、前記メタデータに基づいて、前記表示情報が読み上げられる。

本技術の第１の側面、及び、第２の側面によれば、視覚障害者に対するアクセシビリティを向上させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

番組情報やタイトルの読み上げ例を示す図である。アイコンの読み上げ例を示す図である。従来のTTSエンジンによるテキスト情報の読み上げ例を説明する図である。従来のTTSエンジンによるテキスト情報の読み上げ例を説明する図である。本技術を適用したTTSエンジンによるテキスト情報の読み上げ例を説明する図である。本技術を適用したTTSエンジンによるテキスト情報の読み上げ例を説明する図である。本技術を適用した放送システムの構成例を示す図である。本技術を適用した送信装置の構成例を示す図である。本技術を適用した受信装置の構成例を示す図である。 ESGの構造の例を示す図である。 ESGのサービスフラグメントの構成例を示す図である。 ESGのコンテンツフラグメントの構成例を示す図である。拡張ESGの構成例を示す図である。拡張ESGの他の構成例を示す図である。 PhoneticInfoURI要素の詳細な構成を示す図である。 PhoneticInfo要素の詳細な構成を示す図である。 SSML形式におけるsub要素の記述例を示す図である。 SSML形式におけるphoneme要素の記述例を示す図である。 SSML形式におけるaudio要素の記述例を示す図である。送信処理を説明するフローチャートである。受信処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．本技術の音声発話メタデータの概要
２．システムの構成
３．ESGの拡張による音声発話メタデータの配置
４．音声発話メタデータの記述例
５．各装置で実行される処理の流れ
６．変形例
７．コンピュータの構成

＜１．本技術の音声発話メタデータの概要＞

米国アクセシビリティ法に関係する連邦通信委員会の規制のうち、ユーザインターフェースに関する規制（FCC Report & Order(FCC 13-138) released October 31, 2013. C.F.R. Title 47 §79.107, 108）では、テレビ受像機等の映像番組を表示可能な受信機に対して、そのユーザインターフェースを、視覚障害者に対してアクセシブルにすることが要求されている。

具体的には、図１に示すように、電子サービスガイド（ESG：Electronic Service Guide）の画面（ESG画面）が表示された場合に、例えば、タイトルや番組情報などを読み上げることで、視覚障害者に対して放送番組の選局に必要な情報を提供することができる。

また、図２に示すように、メニュー画面が表示された場合には、例えば、各種のサービスを示したアイコンについて、そのサービスの内容を読み上げることで、視覚障害者に対してサービスの内容を提供することができる。

このように、受信機に表示されるユーザインターフェースに関する情報を読み上げることで、視覚障害者は、当該ユーザインターフェースに関する情報を入手して、受信機に対する各種の操作を行うことが可能となる。

ところで、放送番組（プログラム）を選局するためのチャンネル情報やプログラム情報は、放送局などの送信機から受信機に対して、ESG情報として提供されるが、このESG情報は、主にテキスト情報やロゴデータ等からなる。そして、受信機では、ESG情報に基づいて、放送番組を選局するためのESG画面を生成して表示することになる。

上述したように、ESG画面を表示するに際しては、そのユーザインターフェースを、視覚障害者に対してアクセシブルにすることが要求され、例えばタイトルや番組情報などを読み上げることになるが、ここでは、タイトルや番組情報等のテキスト情報を、TTS（Text To Speech）エンジンで読み上げるのが一般的である。このTTSエンジンは、テキスト情報から、人間の音声を人工的に作り出すことができる音声合成機（Text To Speech Synthesizer）である。

しかしながら、TTSエンジンでは、ユーザインターフェースの制作者が意図した通りに、テキスト情報が読み上げられるとは限らず、視覚障害者が、健常者と同等の情報が得られる保証はない。

具体的には、図３に示すように、例えば、"AAA"であるテキスト情報は、"triple A"又は"A A A"と読めるため、その読み方が一意に定まらないので、TTSエンジンでは、どのように読み上げてよいかを判断できず、結果として、制作者が意図した通りに、テキスト情報が読み上げられない可能性が出てくる。

また、図４に示すように、例えば、"Caius College"であるテキスト情報は、その発音が難解な固有名詞等であるため、TTSエンジンでは、どのように読み上げていいのかが判断できず、制作者が意図した通りに、テキスト情報が読み上げられない可能性がある。

このように、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などには、制作者が意図した通りにテキスト情報が読み上げられない可能性があるため、確実に、制作者が意図した通りの発話が行われて、視覚障害者が、健常者と同等の情報を得られるようにする技術が求められていた。

そこで、本技術では、確実に、ユーザインターフェース等の表示情報に対する制作者が意図した通りの音声の発話が行われるようにするために、制作者が意図する音声の発話に関する情報（以下、「音声発話メタデータ」という。）を、TTSエンジンに提供して、当該TTSエンジンが、制作者が意図する音声を発話できるようにする。なお、当該音声発話メタデータは、ESG情報に含めて提供することができる。

具体的には、図５に示すように、例えば、"AAA"であるテキスト情報について、その音声の読み方を示した"triple A"を、音声発話メタデータとして、TTSエンジンに提供されるようにすることで、当該TTSエンジンは、音声発話メタデータに基づいて、"triple A"と読み上げることができる。

すなわち、図３において、"AAA"であるテキスト情報を入力した場合、TTSエンジンは、"triple A"と、"A A A"のどちらで読み上げるのが正しいかを判断することができなかったが、図５においては、音声発話メタデータとしての"triple A"を入力することで、TTSエンジンは、音声発話メタデータに従い、"triple A"を読み上げることができるので、制作者が意図する音声が発話されることになる。

また、図６に示すように、例えば、"Caius College"であるテキスト情報について、その音素情報を、音声発話メタデータとして、TTSエンジンに提供されるようにすることで、当該TTSエンジンは、音声発話メタデータに基づいて、"keys college"と読み上げることができる。

すなわち、図４において、"Caius College"であるテキスト情報を入力した場合、TTSエンジンは、その発音が難解な固有名詞等であるため、どのように読み上げるのが正しいかを判断することができなかったが、図６においては、音声発話メタデータとしての音素情報を入力することで、TTSエンジンは、音声発話メタデータに従い、"keys college"と読み上げることができるので、制作者が意図する音声が発話されることになる。

このように、音声発話メタデータをTTSエンジンに提供することで、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りにテキスト情報が読み上げられるため、視覚障害者が、健常者と同等の情報を得られるようになる。

＜２．システムの構成＞

（放送システムの構成例）
図７は、本技術を適用した放送システムの構成例を示す図である。

放送システム１は、放送番組等のコンテンツを提供するとともに、ユーザインターフェース等の表示情報を、視覚障害者に対してアクセシブルにすることが可能なシステムである。放送システム１は、送信装置１０と、受信装置２０から構成される。

送信装置１０は、例えば地上デジタル放送サービスを提供する放送局により運営される。送信装置１０は、放送番組等のコンテンツを、デジタル放送信号により送信する。また、送信装置１０は、音声発話メタデータを含むESG情報を生成して、デジタル放送信号に含めて送信する。

受信装置２０は、例えばテレビ受像機やセットトップボックス等から構成され、ユーザの各家庭等に設置される。受信装置２０は、送信装置１０から送信されてくるデジタル放送信号を受信し、放送番組等のコンテンツの映像や音声を出力する。

また、受信装置２０は、TTSエンジンを有しており、ユーザインターフェース等の表示情報を表示する場合に、ESG情報に含まれる音声発話メタデータに基づいて、ユーザインターフェース等の表示情報を読み上げる。

ここでは、TTSエンジンが、音声発話メタデータに従い、テキスト情報等の表示情報を読み上げることになるため、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りに読み上げられることになる。

なお、図７の放送システム１では、１台の送信装置１０のみを図示しているが、実際には、複数の放送局ごとに送信装置１０が設置される。同様に、図７の放送システム１では、１台の受信装置２０のみを図示しているが、実際には、複数のユーザの家庭ごとに、受信装置２０が設置されている。

（送信装置の構成例）
図８は、図７の送信装置の構成例を示す図である。

図８において、送信装置１０は、コンテンツ取得部１１１、音声発話メタデータ生成部１１２、ESG情報生成部１１３、ストリーム生成部１１４、及び、送信部１１５から構成される。

コンテンツ取得部１１１は、放送番組等のコンテンツを取得して、ストリーム生成部１１４に供給する。また、コンテンツ取得部１１１は、コンテンツに対して、例えばエンコードやフォーマット形式の変換処理などを実行することができる。

なお、コンテンツとしては、例えば、既に収録されたコンテンツの保管場所から、放送時間帯に応じて該当するコンテンツが取得されたり、あるいはスタジオやロケーション場所からライブのコンテンツが取得されたりする。

音声発話メタデータ生成部１１２は、例えばユーザインターフェースの制作者からの指示に従い、音声発話メタデータを生成して、ESG情報生成部１１３に供給する。なお、音声発話メタデータとしては、例えば、テキスト情報の読み方が一意に定まらない場合にその音声の読み方を示した情報や、発音が難解な固有名詞等である場合にその音素情報が生成される。

ここで、ESG情報に格納される音声発話メタデータとしては、音声発話メタデータを取得するためのアドレス情報を記述したものと、音声発話メタデータの内容そのものを記述したものの２種類が存在する。そして、音声発話メタデータに、アドレス情報を記述した場合には、音声発話メタデータの内容は、当該アドレス情報に従い取得されるファイル（以下、「音声発話メタデータファイル」という。）に記述されていることになる。

すなわち、音声発話メタデータ生成部１１２は、アドレス情報を含む音声発話メタデータを生成し、ESG情報生成部１１３に供給した場合には、当該アドレス情報に従い取得される音声発話メタデータファイルを生成して、ストリーム生成部１１４に供給することになる。一方、音声発話メタデータがその内容を含んでいる場合、音声発話メタデータ生成部１１２は、音声発話メタデータファイルを生成する必要はないため、当該音声発話メタデータのみを、ESG情報生成部１１３に供給することになる。

ESG情報生成部１１３は、放送番組等のコンテンツを選局するためのチャンネル情報として、ESG情報を生成する。また、ESG情報生成部１１３は、音声発話メタデータ生成部１１２から供給される音声発話メタデータを、ESG情報に格納（配置）する。ESG情報生成部１１３は、音声発話メタデータを含むESG情報を、ストリーム生成部１１４に供給する。

ストリーム生成部１１４は、コンテンツ取得部１１１から供給されるコンテンツデータと、ESG情報生成部１１３から供給されるESG情報に基づいて、所定の規格に準拠したストリームを生成し、送信部１１５に供給する。

また、ESG情報生成部１１３から供給されるESG情報に含まれる音声発話メタデータがアドレス情報を含んでいる場合、ストリーム生成部１１４には、音声発話メタデータ生成部１１２から音声発話メタデータファイルが供給される。この場合、ストリーム生成部１１４は、コンテンツ取得部１１１から供給されるコンテンツデータと、音声発話メタデータ生成部１１２から供給される音声発話メタデータファイルと、ESG情報生成部１１３から供給されるESG情報に基づいて、所定の規格に準拠したストリームを生成する。

送信部１１５は、ストリーム生成部１１４から供給されるストリームに対して、例えばデジタル変調等の処理を施して、アンテナ１１６を介して、デジタル放送信号として送信する。

なお、図８の送信装置１０においては、すべての機能ブロックが、単一の装置内に配置される必要はなく、少なくとも一部の機能ブロックが他の機能ブロックとは独立した装置として構成されるようにしてもよい。例えば、音声発話メタデータ生成部１１２やESG情報生成部１１３は、インターネット上のサーバの機能として提供されるようにしてもよい。その場合、送信装置１０は、当該サーバから提供される音声発話メタデータやESG情報を取得して処理することになる。

（受信装置の構成例）
図９は、図７の受信装置の構成例を示す図である。

図９において、受信装置２０は、受信部２１２、ストリーム分離部２１３、再生部２１４、表示部２１５、スピーカ２１６、ESG情報取得部２１７、音声発話メタデータ取得部２１８、及び、TTSエンジン２１９から構成される。

受信部２１２は、アンテナ２１１で受信されたデジタル放送信号に対して復調処理等を行い、それにより得られるストリームを、ストリーム分離部２１３に供給する。

ストリーム分離部２１３は、受信部２１２から供給されるストリームから、コンテンツデータと、ESG情報を分離して、コンテンツデータを再生部２１４に、ESG情報をESG情報取得部２１７にそれぞれ供給する。

再生部２１４は、ストリーム分離部２１３から供給されるコンテンツデータに基づいて、コンテンツの映像を表示部２１５に表示させるとともに、コンテンツの音声をスピーカ２１６から出力させる。これにより、放送番組等のコンテンツの再生が行われる。

ESG情報取得部２１７は、ストリーム分離部２１３から供給されるESG情報を取得する。ESG情報取得部２１７は、例えばユーザによりESG画面の表示が指示された場合、ESG情報を再生部２１４に供給する。再生部２１４は、ESG情報取得部２１７から供給されるESG情報に基づいて、ESG画面を生成し、表示部２１５に表示させる。

また、ESG情報取得部２１７は、ESG情報に含まれる音声発話メタデータを、音声発話メタデータ取得部２１８に供給する。音声発話メタデータ取得部２１８は、ESG情報取得部２１７から供給される音声発話メタデータを取得する。

ここで、音声発話メタデータには、音声発話メタデータを取得するためのアドレス情報を記述したものと、音声発話メタデータの内容そのものを記述したものの２種類が存在するのは、先に述べた通りである。

すなわち、音声発話メタデータ取得部２１８は、音声発話メタデータにアドレス情報が含まれている場合、当該アドレス情報に基づいて、ストリーム分離部２１３により分離されるストリームから、音声発話メタデータファイルを取得し、そこから得られる内容を含んでいる音声発話メタデータをTTSエンジン２１９に供給する。一方、音声発話メタデータ取得部２１８は、音声発話メタデータがその内容を含んでいる場合には、当該音声発話メタデータをそのまま、TTSエンジン２１９に供給する。

TTSエンジン２１９は、音声発話メタデータ取得部２１８から供給される音声発話メタデータに基づいて、ユーザインターフェース等の表示情報を読み上げて、その音声を、スピーカ２１６から出力する。

ここでは、例えば、ESG画面が表示部２１５に表示されている場合において、視覚障害者に対してアクセシブルにするために、タイトルや番組情報などを読み上げるに際して、テキスト情報の読み方が一意に定まらないときなどに、TTSエンジン２１９は、音声発話メタデータに従い、テキスト情報が、制作者の意図した通りに読み上げられるようにする。これにより、視覚障害者が、健常者と同等の情報を得られるようになる。

なお、図９の受信装置２０においては、表示部２１５とスピーカ２１６が内部に設けられている構成を示したが、表示部２１５とスピーカ２１６は、外部の別の装置として設けられるようにしてもよい。

＜３．ESGの拡張による音声発話メタデータの配置＞

次に、音声発話メタデータが格納されるESG情報の詳細について説明する。なお、ESG（Electronic Service Guide）は、携帯電話の規格策定を行う組織であるOMA（Open Mobile Alliance）によりその仕様が策定されており、音声発話メタデータが格納されるESG情報も、OMA-BCAST（OMA - Mobile Broadcast Services Enabler Suite）に規定されたESGに準拠している。

（ESGの構造）
図１０は、ESGの構造の例を示す図である。なお、図１０において、フラグメント間を接続する各ラインは、接続された各フラグメントでの相互参照を意味している。

図１０において、ESGは、それぞれの目的を有するフラグメントで構成され、使用する用途に応じて、アドミニストラティブ（Administrative）、プロビジョニング（Provisioning）、コア（Core）、及び、アクセス（Access）からなる４つのグループに分けられる。

アドミニストラティブは、ESG情報を受信することができる基本情報を提供するグループである。アドミニストラティブのグループは、サービスガイド伝達ディスクリプタ（ServiceGuideDeliveryDescriptor）から構成される。サービスガイド伝達ディスクリプタは、複数のサービスガイドフラグメントを受信することができるチャネルに関する情報、チャンネルに関するスケジューリング情報、及び、更新情報を、受信装置２０に提供する。これにより、受信装置２０では、必要なESG情報のみを適切な時間で受信することが可能となる。

プロビジョニングは、サービス受信に関する料金情報を提供するためのグループである。プロビジョニングのグループは、購買アイテム（Purchase Item）、購買データ（Purchase Data）、及び、購買チャネル（Purchase Channel）から構成される。購買アイテムは、サービス又はサービスバンドルに関する料金情報を提供する。購買データは、ユーザがどのような方法を通じて料金を支払うことができるかに関する情報を提供する。購買チャネルは、ユーザが実際にサービスを購入することができるシステムに関する情報を提供する。

なお、購買アイテム、購買データ、及び、購買チャネルの各フラグメントには、音声発話メタデータ又はその取得先を示すアドレス情報を格納することができる。購買アイテム、購買データ、及び、購買チャネルの各フラグメントに、音声発話メタデータを格納する方法については、図１３を参照して後述する。

コアは、サービスそれ自体に関する情報を提供するグループである。コアのグループは、サービス（Service）、スケジュール（Schedule）、及び、コンデンツ（Content）から構成される。サービスは、チャンネル・サービスの内容、及び、関連する制御情報を含むメタデータを提供する。スケジュールは、コンテンツの配信スケジュール、及び、関連する制御情報を含むメタデータを提供する。コンデンツは、サービスを構成するコンデンツの内容、及び、関連する制御情報を含むメタデータを提供する。

なお、サービス、及び、コンテンツの各フラグメントには、音声発話メタデータ又はその取得先を示すアドレス情報を格納することができる。図１１には、サービスフラグメント（Service Fragment）の構成例が示され、図１２には、コンテンツフラグメント（Content Fragment）の構成例が示されている。サービスとコンテンツの各フラグメントに、音声発話メタデータを格納する方法については、図１３を参照して後述する。

アクセスは、コアのグループのサービスを受信する方法を示すサービスアクセス情報、及び、サービスを構成しているコンデンツが送信されるセッションに関する具体的な情報を提供するグループであって、受信装置２０がサービスにアクセスすることができるようにする。アクセスのグループは、アクセス（Access）、及び、セッションディスクリプション（Session Description）から構成される。

アクセスのグループ内のアクセスは、１つのサービスに関する複数のアクセス方法を受信装置２０に提供することにより、１つのサービスに基づいていくつかの付加的なサービスにアクセスすることができる方法を提供する。セッションディスクリプションは、１つのアクセスフラグメント（Access Fragment）で定義されたサービスアクセスが送信するサービスに関するセッション情報を提供する。

また、上述した４つのグループのほかに、プレビューデータ（Preview Data）と、インタラクティビティデータ（Interactivity Data）がある。プレビューデータは、サービスとコンテンツのためのプレビューやアイコンなどを提供する。インタラクティビティデータは、サービスやコンテンツに関するアプリケーションについてのメタデータを提供する。

なお、プレビューデータフラグメント（Preview Data Fragment）には、音声発話メタデータ又はその取得先を示すアドレス情報を格納することができる。プレビューデータフラグメントに、音声発話メタデータを格納する方法については、図１４を参照して後述する。

（拡張ESGの構成例）
図１３は、音声発話メタデータ又はその取得先を示すアドレス情報を格納するために拡張されたESGの構成例を示す図である。なお、図１３のESGの拡張は、ESGを構成する各フラグメントのうち、サービスフラグメント（Service Fragment）、コンテンツフラグメント（Content Fragment）、購買アイテムフラグメント（Purchase Item Fragment）、購買データフラグメント（Purchase Data Fragment）、及び、購買チャネルフラグメント（Purchase Channel）が対象とされる。

すなわち、これらのフラグメントには、Name要素とDescription要素が含まれるので、Name要素とDescription要素に対して、PhoneticInfoURI要素又はPhoneticInfo要素を追加する拡張が行われるようにする。なお、これらのフラグメントのPrivateExt要素に、PhoneticInfoURI要素又はPhoneticInfo要素が追加されるようにしてもよい。

図１３において、Name要素には、コンテンツフラグメントの名称が指定される。Name要素は、PhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性を、子要素として含んでいる。

PhoneticInfoURI要素には、音声発話メタデータを取得するためのアドレス情報が指定される。Type属性は、PhoneticInfoURI要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。

このアドレス情報としては、例えば、URI（Uniform Resource Identifier）が指定される。また、例えば、音声発話メタデータファイルが、FLUTE（File Delivery over Unidirectional Transport）セッションで伝送される場合には、FLUTEセッションで伝送される音声発話メタデータファイルを取得するためのアドレス情報が指定される。なお、音声発話メタデータは、音声合成マークアップ言語である、SSML（Speech Synthesis Markup Language）により記述することができる。

PhoneticInfo要素には、音声発話メタデータの内容そのものが記述される。例えば、この音声発話メタデータの内容は、SSMLで記述される。Type属性は、PhoneticInfo要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。

なお、図１３において、出現数（Cardinality）であるが、"1..N"が指定された場合には、その要素又は属性は１以上指定され、"0..N"が指定された場合には、その要素又は属性を１以上指定するかどうかは任意である。また、"0..1"が指定された場合には、その要素又は属性を指定するかどうかは任意である。

したがって、Name要素の子要素のPhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性は、オプショナルな要素又は属性であって、PhoneticInfoURI要素とPhoneticInfo要素は、一方の要素のみが配置されるだけでなく、その両方の要素が配置されるようにしてもよい。

また、図１３において、Description要素は、PhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性を、子要素として含んでいる。すなわち、Description要素の子要素は、上述したName要素の子要素と同様とされる。

具体的には、PhoneticInfoURI要素には、音声発話メタデータを取得するためのアドレス情報が指定される。Type属性は、PhoneticInfoURI要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。また、PhoneticInfo要素には、音声発話メタデータの内容そのものが記述される。Type属性は、PhoneticInfo要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。

なお、Description要素の子要素であるPhoneticInfoURI要素と、PhoneticInfo要素についても、いずれか一方の要素を配置してもよいし、それらの要素の両方が配置されるようにしてもよい。

図１４は、音声発話メタデータ又はその取得先を示すアドレス情報を格納するために拡張されたESGの他の構成例を示す図である。なお、図１４のESGの拡張は、ESGを構成する各フラグメントのうち、プレビューデータフラグメント（Preview Data Fragment）が対象とされる。

すなわち、プレビューデータフラグメントには、Picture要素が含まれるので、そのrelativePreference属性に対して、PhoneticInfoURI要素又はPhoneticInfo要素を追加する拡張が行われるようにする。なお、PhoneticInfoURI要素又はPhoneticInfo要素は、プレビューデータフラグメントのPrivateExt要素に追加されるようにしてもよい。

図１４において、Picture要素には、サービスとコンテンツのためのプレビューやアイコン等が定義される。Picture要素は、PhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性を、子要素として含んでいる。すなわち、Picture要素の子要素は、上述したName要素やDescription要素の子要素と同様とされる。

なお、Picture要素の子要素であるPhoneticInfoURI要素と、PhoneticInfo要素についても、いずれか一方の要素を配置してもよいし、それらの要素の両方が配置されるようにしてもよい。

（PhoneticInfoURI要素の構成）
図１５は、拡張されたESGにおけるPhoneticInfoURI要素の詳細な構成を示す図である。

図１５において、PhoneticInfoURI要素は、サービスフラグメント等のname要素若しくはDescription要素、又は、プレビューデータフラグメントのpicture要素の子要素として記述される。PhoneticInfoURI要素には、音声発話メタデータを取得するためのアドレス情報が指定される。

また、PhoneticInfoURI要素のtype属性として、音声発話メタデータのエンコーディングフォーマットの識別URIが指定される。

例えば、音声発話メタデータファイルは、FLUTEセッションで伝送されるので、PhoneticInfoURI要素には、FLUTEセッションで伝送される音声発話メタデータファイルを取得するためのアドレス情報が記述される。

（PhoneticInfo要素の構成）
図１６は、拡張されたESGにおけるPhoneticInfo要素の詳細な構成を示す図である。

図１６において、PhoneticInfo要素は、サービスフラグメント等のname要素若しくはDescription要素、又は、プレビューデータフラグメントのpicture要素の子要素として記述される。PhoneticInfo要素には、音声発話メタデータの内容そのものが記述される。

また、PhoneticInfo要素のtype属性として、音声発話メタデータのエンコーディングフォーマットの識別URIが指定される。

例えば、音声発話メタデータの内容は、音声合成マークアップ言語であるSSMLで記述され、PhoneticInfo要素の開始タグと終了タグの間に、テキスト情報として収められる。

なお、拡張されたESGの対象のフラグメントには、PhoneticInfoURI要素及びPhoneticInfo要素の少なくとも１つの要素が記述される。また、音声発話メタデータは、PhoneticInfoURI要素又はPhoneticInfo要素により指定されるため、「PhoneticInfoオブジェクト」と称される場合がある。

＜４．音声発話メタデータの記述例＞

上述したように、音声発話メタデータは、例えば、音声合成マークアップ言語であるSSMLで記述することができる。このSSMLは、W3C（World Wide Web Consortium）によって、より高品質な音声合成機能を利用可能にすることを目的として勧告されたものである。SSMLを用いることで、発音や音量、調子など、音声合成に必要な要素をきめ細かく、かつ適度に制御することが可能となる。以下、図１７乃至図１９には、SSML形式の文書の記述例を例示している。

（sub要素）
図１７は、SSML形式におけるsub要素の記述例を示す図である。

sub要素は、テキスト情報を別のテキスト情報に置き換えるために用いられる。alias属性には、音声発話用のテキスト情報が指定される。例えば、図１７において、"W3C"であるテキスト情報は、"World Wide Web Consortium"である音声発話用のテキスト情報に変換されて読み上げられる。

このsub要素を用いることで、例えば、テキスト情報の読み方が一意に定まらない場合にその音声の読み方を示した情報を指定することが可能となる。

（phoneme要素）
図１８は、SSML形式におけるphoneme要素の記述例を示す図である。

phoneme要素は、記述されているテキスト情報に、音素/音声上の発音を付与するために用いられる。phoneme要素は、alphabet属性と、ph属性を指定することができる。alphabet属性には、音素/音声の発音文字が指定される。ph属性には、音素/音声の文字列が指定される。例えば、図１８においては、"La vita e bella"であるテキスト情報の読み方が、ph属性で指定される。なお、alphabet属性に指定された"ipa"は、国際音声記号（IPA：International Phonetic Alphabet）の読み記号に対応していることを示している。

このphoneme要素を用いることで、例えば、発音が難解な固有名詞等である場合にその音素情報などを指定することが可能となる。

（audio要素）
図１９は、SSML形式におけるaudio要素の記述例を示す図である。

audio要素は、音声ファイルの組み込み音声や合成音声を出力するために用いられる。audio要素は、src属性を指定することができる。src属性には、音声ファイルのURI（Uniform Resource Identifier）が指定される。例えば、図１９においては、"What city do you want to fly from?"であるテキスト情報が、src属性に指定された"prompt.au"である音声ファイルを再生することで読み上げられる。

このaudio要素を用いることで、例えば、録音済みの音声ファイルの再生が可能となり、ユーザインターフェースの制作者が意図した通りの音声情報を視覚障害者に提供可能となる。

なお、上述したsub要素、phoneme要素、及び、audio要素は、SSML形式を用いた音声発話メタデータの記述方法の一例であって、SSML形式の他の要素や属性を用いるようにしてもよい。また、音声発話メタデータは、SSML形式以外の他のマークアップ言語などで記述するようにしてもよい。

＜５．各装置で実行される処理の流れ＞

次に、図７の放送システム１を構成する送信装置１０と受信装置２０で実行される処理の流れを説明する。

（送信処理）
まず、図２０のフローチャートを参照して、図７の送信装置１０により実行される、送信処理の流れを説明する。

ステップＳ１１１において、コンテンツ取得部１１１は、放送番組等のコンテンツを取得して、ストリーム生成部１１４に供給する。

ステップＳ１１２において、音声発話メタデータ生成部１１２は、例えばユーザインターフェースの制作者からの指示に従い、音声発話メタデータを生成して、ESG情報生成部１１３に供給する。

なお、音声発話メタデータ生成部１１２は、アドレス情報を含む音声発話メタデータを生成してESG情報生成部１１３に供給した場合には、当該アドレス情報に従い取得される音声発話メタデータファイルを生成し、ストリーム生成部１１４に供給する。

ステップＳ１１３において、ESG情報生成部１１３は、音声発話メタデータ生成部１１２から供給される音声発話メタデータに基づいて、ESG情報を生成し、ストリーム生成部１１４に供給する。

ステップＳ１１４において、ストリーム生成部１１４は、コンテンツ取得部１１１から供給されるコンテンツデータと、ESG情報生成部１１３から供給されるESG情報に基づいて、所定の規格に準拠したストリームを生成し、送信部１１５に供給する。

なお、ストリーム生成部１１４は、ESG情報生成部１１３から供給されるESG情報に含まれる音声発話メタデータがアドレス情報を含んでいる場合、コンテンツデータとESG情報に加えて、音声発話メタデータ生成部１１２から供給される音声発話メタデータファイルに基づいて、所定の規格に準拠したストリームを生成し、送信部１１５に供給する。

ステップＳ１１５において、送信部１１５は、ストリーム生成部１１４から供給されるストリームに対して、例えばデジタル変調等の処理を施して、アンテナ１１６を介して、デジタル放送信号として送信する。

以上、送信処理について説明した。この送信処理では、ユーザインターフェース等の表示情報に対する制作者が意図する音声の発話に関する音声発話メタデータが生成され、音声発話メタデータを含むESG情報が生成され、コンテンツとともに、音声発話メタデータを含むESG情報が送信される。

これにより、受信装置２０側では、TTSエンジン２１９が、音声発話メタデータに基づいて、表示情報を読み上げるので、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りにテキスト情報が読み上げられる。その結果、視覚障害者が、健常者と同等の情報を得られるようになる。

（受信処理）
次に、図２１のフローチャートを参照して、図７の受信装置２０により実行される、受信処理の流れを説明する。

ステップＳ２１１において、受信部２１２は、アンテナ２１１を介して、送信装置１０から送信されてくるデジタル放送信号を受信する。また、受信部２１２は、デジタル放送信号に対して復調処理等を行い、それにより得られるストリームを、ストリーム分離部２１３に供給する。

ステップＳ２１２において、ストリーム分離部２１３は、受信部２１２から供給されるストリームから、コンテンツデータと、ESG情報を分離して、コンテンツデータを再生部２１４に、ESG情報をESG情報取得部２１７にそれぞれ供給する。

ステップＳ２１３において、ESG情報取得部２１７は、ストリーム分離部２１３から供給されるESG情報を取得する。ESG情報取得部２１７は、例えばユーザによりESG画面の表示が指示された場合、ESG情報を再生部２１４に供給する。また、ESG情報取得部２１７は、ESG情報に含まれる音声発話メタデータを、音声発話メタデータ取得部２１８に供給する。

ステップＳ２１４において、再生部２１４は、ESG情報取得部２１７から供給されるESG情報に基づいて、ESG画面を生成し、表示部２１５に表示させる。

ステップＳ２１５において、音声発話メタデータ取得部２１８は、ESG情報取得部２１７から供給される音声発話メタデータを取得する。

ここで、音声発話メタデータ取得部２１８は、音声発話メタデータにアドレス情報が含まれている場合、当該アドレス情報に基づいて、ストリーム分離部２１３により分離されるストリームから、音声発話メタデータファイルを取得し、そこから得られる内容を含んでいる音声発話メタデータをTTSエンジン２１９に供給する。一方、音声発話メタデータ取得部２１８は、音声発話メタデータがその内容を含んでいる場合には、当該音声発話メタデータをそのまま、TTSエンジン２１９に供給する。

ステップＳ２１６において、TTSエンジン２１９は、音声発話メタデータ取得部２１８から供給される音声発話メタデータに基づいて、ユーザインターフェース等の表示情報を読み上げて、その音声を、スピーカ２１６から出力する。

ここでは、ステップＳ２１４の処理で、表示部２１５に、ESG画面が表示されている場合において、視覚障害者に対してアクセシブルにするために、タイトルや番組情報などを読み上げるに際して、テキスト情報の読み方が一意に定まらないときなどに、TTSエンジン２１９は、音声発話メタデータに従い、テキスト情報が、制作者の意図した通りに読み上げられるようにする。

以上、受信処理について説明した。この受信処理では、送信装置１０から送信されてくる、表示情報に対する制作者が意図する音声の発話に関する音声発話メタデータを含むESG情報が受信され、ESG情報に含まれる音声発話メタデータが取得され、音声発話メタデータに基づいて、ユーザインターフェース等の表示情報が読み上げられる。

これにより、TTSエンジン２１９においては、音声発話メタデータに基づいて、表示情報を読み上げるので、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りにテキスト情報が読み上げられる。その結果、視覚障害者が、健常者と同等の情報を得られるようになる。

＜６．変形例＞

上述した説明では、音声発話メタデータにアドレス情報が含まれている場合には、当該アドレス情報に従い、FLUTEセッションで伝送される音声発話メタデータファイルが取得されるとして説明したが、音声発話メタデータファイルは、インターネット上のサーバから配信されるようにしてもよい。この場合、アドレス情報としては、サーバのURL（Uniform Resource Locator）等が指定される。

また、上述した説明では、電子番組情報として、OMA-BCASTで規定されたESGを説明したが、本技術は、例えば、EPG（Electronic Program Guide）その他の電子番組情報に適用することができる。さらに、ESG情報などの電子番組情報が、インターネット上のサーバから配信され、受信装置２０により受信されるようにしてもよい。

＜７．コンピュータの構成＞

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図２２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示す図である。

コンピュータ９００において、CPU（Central Processing Unit）９０１，ROM（Read Only Memory）９０２，RAM（Random Access Memory）９０３は、バス９０４により相互に接続されている。バス９０４には、さらに、入出力インターフェース９０５が接続されている。入出力インターフェース９０５には、入力部９０６、出力部９０７、記録部９０８、通信部９０９、及び、ドライブ９１０が接続されている。

入力部９０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部９０７は、ディスプレイ、スピーカなどよりなる。記録部９０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部９０９は、ネットワークインターフェースなどよりなる。ドライブ９１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア９１１を駆動する。

以上のように構成されるコンピュータ９００では、CPU９０１が、ROM９０２や記録部９０８に記憶されているプログラムを、入出力インターフェース９０５及びバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ９００（CPU９０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア９１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ９００では、プログラムは、リムーバブルメディア９１１をドライブ９１０に装着することにより、入出力インターフェース９０５を介して、記録部９０８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部９０９で受信し、記録部９０８にインストールすることができる。その他、プログラムは、ROM９０２や記録部９０８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本技術は、以下のような構成をとることができる。

（１）
表示情報に対する制作者が意図する音声の発話に関するメタデータを生成するメタデータ生成部と、
前記メタデータを含む電子番組情報を生成する電子番組情報生成部と、
前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する送信部と
を備える送信装置。
（２）
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
（１）に記載の送信装置。
（３）
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
（１）又は（２）に記載の送信装置。
（４）
前記コンテンツを取得するコンテンツ取得部をさらに備え、
前記送信部は、前記電子番組情報を、前記コンテンツとともに、デジタル放送信号で送信する
（３）に記載の送信装置。
（５）
前記電子番組情報は、OMA-BCAST（Open Mobile Alliance - Mobile Broadcast Services Enabler Suite）で規定されたESG（Electronic Service Guide）に準拠しており、
前記メタデータは、SSML（Speech Synthesis Markup Language）形式で記述され、
前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれる
（１）乃至（４）のいずれかに記載の送信装置。
（６）
送信装置の送信方法において、
前記送信装置が、
表示情報に対する制作者が意図する音声の発話に関するメタデータを生成し、
前記メタデータを含む電子番組情報を生成し、
前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する
ステップを含む送信方法。
（７）
送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信する受信部と、
前記電子番組情報に含まれる前記メタデータを取得するメタデータ取得部と、
前記メタデータに基づいて、前記表示情報を読み上げる音声読み上げ部と
を備える受信装置。
（８）
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
（７）に記載の受信装置。
（９）
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
（７）又は（８）に記載の受信装置。
（１０）
前記受信部は、デジタル放送信号として、前記コンテンツとともに送信される前記電子番組情報を受信する
（９）に記載の受信装置。
（１１）
前記電子番組情報は、OMA-BCASTで規定されたESGに準拠しており、
前記メタデータは、SSML形式で記述され、
前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれており、
前記メタデータ取得部は、前記アドレス情報に従い前記メタデータのファイルを取得するか、又は前記フラグメントから前記メタデータを取得する
（７）乃至（１０）のいずれかに記載の受信装置。
（１２）
受信装置の受信方法において、
前記受信装置が、
送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信し、
前記電子番組情報に含まれる前記メタデータを取得し、
前記メタデータに基づいて、前記表示情報を読み上げる
ステップを含む受信方法。

１放送システム，１０送信装置，２０受信装置，１１１コンテンツ取得部，１１２音声発話メタデータ生成部，１１３ ESG情報生成部，１１４ストリーム生成部，１１５送信部，２１２受信部，２１３ストリーム分離部，２１４再生部，２１５表示部，２１６スピーカ，２１７ ESG情報取得部，２１８音声発話メタデータ取得部，２１９ TTSエンジン，９００コンピュータ，９０１ CPU

Claims

表示情報に対する制作者が意図する音声の発話に関するメタデータを生成するメタデータ生成部と、
前記メタデータを含む電子番組情報を生成する電子番組情報生成部と、
前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する送信部と
を備える送信装置。
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
請求項１に記載の送信装置。
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
請求項２に記載の送信装置。
前記コンテンツを取得するコンテンツ取得部をさらに備え、
前記送信部は、前記電子番組情報を、前記コンテンツとともに、デジタル放送信号で送信する
請求項３に記載の送信装置。
前記電子番組情報は、OMA-BCAST（Open Mobile Alliance - Mobile Broadcast Services Enabler Suite）で規定されたESG（Electronic Service Guide）に準拠しており、
前記メタデータは、SSML（Speech Synthesis Markup Language）形式で記述され、
前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれる
請求項１に記載の送信装置。
送信装置の送信方法において、
前記送信装置が、
表示情報に対する制作者が意図する音声の発話に関するメタデータを生成し、
前記メタデータを含む電子番組情報を生成し、
前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する
ステップを含む送信方法。
送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信する受信部と、
前記電子番組情報に含まれる前記メタデータを取得するメタデータ取得部と、
前記メタデータに基づいて、前記表示情報を読み上げる音声読み上げ部と
を備える受信装置。
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
請求項７に記載の受信装置。
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
請求項８に記載の受信装置。
前記受信部は、デジタル放送信号として、前記コンテンツとともに送信される前記電子番組情報を受信する
請求項９に記載の受信装置。
前記電子番組情報は、OMA-BCASTで規定されたESGに準拠しており、
前記メタデータは、SSML形式で記述され、
前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれており、
前記メタデータ取得部は、前記アドレス情報に従い前記メタデータのファイルを取得するか、又は前記フラグメントから前記メタデータを取得する
請求項７に記載の受信装置。
受信装置の受信方法において、
前記受信装置が、
送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信し、
前記電子番組情報に含まれる前記メタデータを取得し、
前記メタデータに基づいて、前記表示情報を読み上げる
ステップを含む受信方法。