JPWO2016009834A1 - 送信装置、送信方法、受信装置、及び、受信方法 - Google Patents

送信装置、送信方法、受信装置、及び、受信方法 Download PDF

Info

Publication number
JPWO2016009834A1
JPWO2016009834A1 JP2016534361A JP2016534361A JPWO2016009834A1 JP WO2016009834 A1 JPWO2016009834 A1 JP WO2016009834A1 JP 2016534361 A JP2016534361 A JP 2016534361A JP 2016534361 A JP2016534361 A JP 2016534361A JP WO2016009834 A1 JPWO2016009834 A1 JP WO2016009834A1
Authority
JP
Japan
Prior art keywords
metadata
information
esg
electronic program
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2016534361A
Other languages
English (en)
Inventor
武敏 山根
武敏 山根
山岸 靖明
靖明 山岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2016009834A1 publication Critical patent/JPWO2016009834A1/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26283Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for associating distribution time parameters to content, e.g. to generate electronic program guide data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/72Systems specially adapted for using specific information, e.g. geographical or meteorological information using electronic programme guides [EPG]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • H04H60/74Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information using programme related information, e.g. title, composer or interpreter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4821End-user interface for program selection using a grid, e.g. sorted out by channel and broadcast time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Circuits Of Receivers In General (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術は、視覚障害者に対するアクセシビリティを向上させることができるようにする送信装置、送信方法、受信装置、及び、受信方法に関する。表示情報に対する制作者が意図する音声の発話に関する音声発話メタデータを生成する音声発話メタデータ生成部と、音声発話メタデータを含む電子番組情報を生成する電子番組情報生成部と、表示情報を表示可能な受信装置に対して、電子番組情報を送信する送信部とを備える送信装置が提供される。本技術は、例えば、デジタル放送信号を送信可能な送信機に適用することができる。

Description

本技術は、送信装置、送信方法、受信装置、及び、受信方法に関し、特に、視覚障害者に対するアクセシビリティを向上させることができるようにした送信装置、送信方法、受信装置、及び、受信方法に関する。
デジタル放送の分野では、視覚障害者に対するアクセシビリティが求められている(例えば、特許文献1参照)。
特に、米国では、いわゆる米国アクセシビリティ法(CVAA:The 21st Century Communications and Video Accessibility Act of 2010)が制定され、連邦通信委員会(FCC:Federal Communications Commission)により、この法律をベースとした映像番組のアクセシビリティに関する様々な規制が発表されている。
特開2009−204711号公報
ところで、視覚障害者に対して、番組情報等のユーザインターフェース(UI:User Interface)を提示する場合、当該番組情報等のテキスト情報を、TTS(Text To Speech)エンジンで読み上げることで、アクセシビリティを高めるのが一般的である。
しかしながら、TTSエンジンでは、番組情報等の制作者が意図した通りに、テキスト情報が読み上げられるとは限らず、視覚障害者が、健常者と同等の情報が得られる保証がない。そのため、確実に、制作者が意図した通りの発話が行われて、視覚障害者が、健常者と同等の情報を得られるようにするための技術が求められていた。
本技術はこのような状況に鑑みてなされたものであり、確実に、制作者が意図した通りの発話が行われるようにすることで、視覚障害者に対するアクセシビリティを向上させることができるようにするものである。
本技術の第1の側面の送信装置は、表示情報に対する制作者が意図する音声の発話に関するメタデータを生成するメタデータ生成部と、前記メタデータを含む電子番組情報を生成する電子番組情報生成部と、前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する送信部とを備える送信装置である。
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいるようにすることができる。
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいるようにすることができる。
前記コンテンツを取得するコンテンツ取得部をさらに備え、前記送信部は、前記電子番組情報を、前記コンテンツとともに、デジタル放送信号で送信するようにすることができる。
前記電子番組情報は、OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)で規定されたESG(Electronic Service Guide)に準拠しており、前記メタデータは、SSML(Speech Synthesis Markup Language)形式で記述され、前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれるようにすることができる。
送信装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本技術の第1の側面の送信方法は、上述した本技術の第1の側面の送信装置に対応する送信方法である。
本技術の第1の側面の送信装置、及び、送信方法においては、表示情報に対する制作者が意図する音声の発話に関するメタデータが生成され、前記メタデータを含む電子番組情報が生成され、前記表示情報を表示可能な受信装置に対して、前記電子番組情報が送信される。
本技術の第2の側面の受信装置は、送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信する受信部と、前記電子番組情報に含まれる前記メタデータを取得するメタデータ取得部と、前記メタデータに基づいて、前記表示情報を読み上げる音声読み上げ部とを備える受信装置である。
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいるようにすることができる。
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいるようにすることができる。
前記受信部は、デジタル放送信号として、前記コンテンツとともに送信される前記電子番組情報を受信するようにすることができる。
前記電子番組情報は、OMA-BCASTで規定されたESGに準拠しており、前記メタデータは、SSML形式で記述され、前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれており、前記メタデータ取得部は、前記アドレス情報に従い前記メタデータのファイルを取得するか、又は前記フラグメントから前記メタデータを取得するようにすることができる。
受信装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本技術の第2の側面の受信方法は、上述した本技術の第2の側面の受信装置に対応する受信方法である。
本技術の第2の側面の受信装置、及び、受信方法においては、送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報が受信され、前記電子番組情報に含まれる前記メタデータが取得され、前記メタデータに基づいて、前記表示情報が読み上げられる。
本技術の第1の側面、及び、第2の側面によれば、視覚障害者に対するアクセシビリティを向上させることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
番組情報やタイトルの読み上げ例を示す図である。 アイコンの読み上げ例を示す図である。 従来のTTSエンジンによるテキスト情報の読み上げ例を説明する図である。 従来のTTSエンジンによるテキスト情報の読み上げ例を説明する図である。 本技術を適用したTTSエンジンによるテキスト情報の読み上げ例を説明する図である。 本技術を適用したTTSエンジンによるテキスト情報の読み上げ例を説明する図である。 本技術を適用した放送システムの構成例を示す図である。 本技術を適用した送信装置の構成例を示す図である。 本技術を適用した受信装置の構成例を示す図である。 ESGの構造の例を示す図である。 ESGのサービスフラグメントの構成例を示す図である。 ESGのコンテンツフラグメントの構成例を示す図である。 拡張ESGの構成例を示す図である。 拡張ESGの他の構成例を示す図である。 PhoneticInfoURI要素の詳細な構成を示す図である。 PhoneticInfo要素の詳細な構成を示す図である。 SSML形式におけるsub要素の記述例を示す図である。 SSML形式におけるphoneme要素の記述例を示す図である。 SSML形式におけるaudio要素の記述例を示す図である。 送信処理を説明するフローチャートである。 受信処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.本技術の音声発話メタデータの概要
2.システムの構成
3.ESGの拡張による音声発話メタデータの配置
4.音声発話メタデータの記述例
5.各装置で実行される処理の流れ
6.変形例
7.コンピュータの構成
<1.本技術の音声発話メタデータの概要>
米国アクセシビリティ法に関係する連邦通信委員会の規制のうち、ユーザインターフェースに関する規制(FCC Report & Order(FCC 13-138) released October 31, 2013. C.F.R. Title 47 §79.107, 108)では、テレビ受像機等の映像番組を表示可能な受信機に対して、そのユーザインターフェースを、視覚障害者に対してアクセシブルにすることが要求されている。
具体的には、図1に示すように、電子サービスガイド(ESG:Electronic Service Guide)の画面(ESG画面)が表示された場合に、例えば、タイトルや番組情報などを読み上げることで、視覚障害者に対して放送番組の選局に必要な情報を提供することができる。
また、図2に示すように、メニュー画面が表示された場合には、例えば、各種のサービスを示したアイコンについて、そのサービスの内容を読み上げることで、視覚障害者に対してサービスの内容を提供することができる。
このように、受信機に表示されるユーザインターフェースに関する情報を読み上げることで、視覚障害者は、当該ユーザインターフェースに関する情報を入手して、受信機に対する各種の操作を行うことが可能となる。
ところで、放送番組(プログラム)を選局するためのチャンネル情報やプログラム情報は、放送局などの送信機から受信機に対して、ESG情報として提供されるが、このESG情報は、主にテキスト情報やロゴデータ等からなる。そして、受信機では、ESG情報に基づいて、放送番組を選局するためのESG画面を生成して表示することになる。
上述したように、ESG画面を表示するに際しては、そのユーザインターフェースを、視覚障害者に対してアクセシブルにすることが要求され、例えばタイトルや番組情報などを読み上げることになるが、ここでは、タイトルや番組情報等のテキスト情報を、TTS(Text To Speech)エンジンで読み上げるのが一般的である。このTTSエンジンは、テキスト情報から、人間の音声を人工的に作り出すことができる音声合成機(Text To Speech Synthesizer)である。
しかしながら、TTSエンジンでは、ユーザインターフェースの制作者が意図した通りに、テキスト情報が読み上げられるとは限らず、視覚障害者が、健常者と同等の情報が得られる保証はない。
具体的には、図3に示すように、例えば、"AAA"であるテキスト情報は、"triple A"又は"A A A"と読めるため、その読み方が一意に定まらないので、TTSエンジンでは、どのように読み上げてよいかを判断できず、結果として、制作者が意図した通りに、テキスト情報が読み上げられない可能性が出てくる。
また、図4に示すように、例えば、"Caius College"であるテキスト情報は、その発音が難解な固有名詞等であるため、TTSエンジンでは、どのように読み上げていいのかが判断できず、制作者が意図した通りに、テキスト情報が読み上げられない可能性がある。
このように、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などには、制作者が意図した通りにテキスト情報が読み上げられない可能性があるため、確実に、制作者が意図した通りの発話が行われて、視覚障害者が、健常者と同等の情報を得られるようにする技術が求められていた。
そこで、本技術では、確実に、ユーザインターフェース等の表示情報に対する制作者が意図した通りの音声の発話が行われるようにするために、制作者が意図する音声の発話に関する情報(以下、「音声発話メタデータ」という。)を、TTSエンジンに提供して、当該TTSエンジンが、制作者が意図する音声を発話できるようにする。なお、当該音声発話メタデータは、ESG情報に含めて提供することができる。
具体的には、図5に示すように、例えば、"AAA"であるテキスト情報について、その音声の読み方を示した"triple A"を、音声発話メタデータとして、TTSエンジンに提供されるようにすることで、当該TTSエンジンは、音声発話メタデータに基づいて、"triple A"と読み上げることができる。
すなわち、図3において、"AAA"であるテキスト情報を入力した場合、TTSエンジンは、"triple A"と、"A A A"のどちらで読み上げるのが正しいかを判断することができなかったが、図5においては、音声発話メタデータとしての"triple A"を入力することで、TTSエンジンは、音声発話メタデータに従い、"triple A"を読み上げることができるので、制作者が意図する音声が発話されることになる。
また、図6に示すように、例えば、"Caius College"であるテキスト情報について、その音素情報を、音声発話メタデータとして、TTSエンジンに提供されるようにすることで、当該TTSエンジンは、音声発話メタデータに基づいて、"keys college"と読み上げることができる。
すなわち、図4において、"Caius College"であるテキスト情報を入力した場合、TTSエンジンは、その発音が難解な固有名詞等であるため、どのように読み上げるのが正しいかを判断することができなかったが、図6においては、音声発話メタデータとしての音素情報を入力することで、TTSエンジンは、音声発話メタデータに従い、"keys college"と読み上げることができるので、制作者が意図する音声が発話されることになる。
このように、音声発話メタデータをTTSエンジンに提供することで、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りにテキスト情報が読み上げられるため、視覚障害者が、健常者と同等の情報を得られるようになる。
<2.システムの構成>
(放送システムの構成例)
図7は、本技術を適用した放送システムの構成例を示す図である。
放送システム1は、放送番組等のコンテンツを提供するとともに、ユーザインターフェース等の表示情報を、視覚障害者に対してアクセシブルにすることが可能なシステムである。放送システム1は、送信装置10と、受信装置20から構成される。
送信装置10は、例えば地上デジタル放送サービスを提供する放送局により運営される。送信装置10は、放送番組等のコンテンツを、デジタル放送信号により送信する。また、送信装置10は、音声発話メタデータを含むESG情報を生成して、デジタル放送信号に含めて送信する。
受信装置20は、例えばテレビ受像機やセットトップボックス等から構成され、ユーザの各家庭等に設置される。受信装置20は、送信装置10から送信されてくるデジタル放送信号を受信し、放送番組等のコンテンツの映像や音声を出力する。
また、受信装置20は、TTSエンジンを有しており、ユーザインターフェース等の表示情報を表示する場合に、ESG情報に含まれる音声発話メタデータに基づいて、ユーザインターフェース等の表示情報を読み上げる。
ここでは、TTSエンジンが、音声発話メタデータに従い、テキスト情報等の表示情報を読み上げることになるため、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りに読み上げられることになる。
なお、図7の放送システム1では、1台の送信装置10のみを図示しているが、実際には、複数の放送局ごとに送信装置10が設置される。同様に、図7の放送システム1では、1台の受信装置20のみを図示しているが、実際には、複数のユーザの家庭ごとに、受信装置20が設置されている。
(送信装置の構成例)
図8は、図7の送信装置の構成例を示す図である。
図8において、送信装置10は、コンテンツ取得部111、音声発話メタデータ生成部112、ESG情報生成部113、ストリーム生成部114、及び、送信部115から構成される。
コンテンツ取得部111は、放送番組等のコンテンツを取得して、ストリーム生成部114に供給する。また、コンテンツ取得部111は、コンテンツに対して、例えばエンコードやフォーマット形式の変換処理などを実行することができる。
なお、コンテンツとしては、例えば、既に収録されたコンテンツの保管場所から、放送時間帯に応じて該当するコンテンツが取得されたり、あるいはスタジオやロケーション場所からライブのコンテンツが取得されたりする。
音声発話メタデータ生成部112は、例えばユーザインターフェースの制作者からの指示に従い、音声発話メタデータを生成して、ESG情報生成部113に供給する。なお、音声発話メタデータとしては、例えば、テキスト情報の読み方が一意に定まらない場合にその音声の読み方を示した情報や、発音が難解な固有名詞等である場合にその音素情報が生成される。
ここで、ESG情報に格納される音声発話メタデータとしては、音声発話メタデータを取得するためのアドレス情報を記述したものと、音声発話メタデータの内容そのものを記述したものの2種類が存在する。そして、音声発話メタデータに、アドレス情報を記述した場合には、音声発話メタデータの内容は、当該アドレス情報に従い取得されるファイル(以下、「音声発話メタデータファイル」という。)に記述されていることになる。
すなわち、音声発話メタデータ生成部112は、アドレス情報を含む音声発話メタデータを生成し、ESG情報生成部113に供給した場合には、当該アドレス情報に従い取得される音声発話メタデータファイルを生成して、ストリーム生成部114に供給することになる。一方、音声発話メタデータがその内容を含んでいる場合、音声発話メタデータ生成部112は、音声発話メタデータファイルを生成する必要はないため、当該音声発話メタデータのみを、ESG情報生成部113に供給することになる。
ESG情報生成部113は、放送番組等のコンテンツを選局するためのチャンネル情報として、ESG情報を生成する。また、ESG情報生成部113は、音声発話メタデータ生成部112から供給される音声発話メタデータを、ESG情報に格納(配置)する。ESG情報生成部113は、音声発話メタデータを含むESG情報を、ストリーム生成部114に供給する。
ストリーム生成部114は、コンテンツ取得部111から供給されるコンテンツデータと、ESG情報生成部113から供給されるESG情報に基づいて、所定の規格に準拠したストリームを生成し、送信部115に供給する。
また、ESG情報生成部113から供給されるESG情報に含まれる音声発話メタデータがアドレス情報を含んでいる場合、ストリーム生成部114には、音声発話メタデータ生成部112から音声発話メタデータファイルが供給される。この場合、ストリーム生成部114は、コンテンツ取得部111から供給されるコンテンツデータと、音声発話メタデータ生成部112から供給される音声発話メタデータファイルと、ESG情報生成部113から供給されるESG情報に基づいて、所定の規格に準拠したストリームを生成する。
送信部115は、ストリーム生成部114から供給されるストリームに対して、例えばデジタル変調等の処理を施して、アンテナ116を介して、デジタル放送信号として送信する。
なお、図8の送信装置10においては、すべての機能ブロックが、単一の装置内に配置される必要はなく、少なくとも一部の機能ブロックが他の機能ブロックとは独立した装置として構成されるようにしてもよい。例えば、音声発話メタデータ生成部112やESG情報生成部113は、インターネット上のサーバの機能として提供されるようにしてもよい。その場合、送信装置10は、当該サーバから提供される音声発話メタデータやESG情報を取得して処理することになる。
(受信装置の構成例)
図9は、図7の受信装置の構成例を示す図である。
図9において、受信装置20は、受信部212、ストリーム分離部213、再生部214、表示部215、スピーカ216、ESG情報取得部217、音声発話メタデータ取得部218、及び、TTSエンジン219から構成される。
受信部212は、アンテナ211で受信されたデジタル放送信号に対して復調処理等を行い、それにより得られるストリームを、ストリーム分離部213に供給する。
ストリーム分離部213は、受信部212から供給されるストリームから、コンテンツデータと、ESG情報を分離して、コンテンツデータを再生部214に、ESG情報をESG情報取得部217にそれぞれ供給する。
再生部214は、ストリーム分離部213から供給されるコンテンツデータに基づいて、コンテンツの映像を表示部215に表示させるとともに、コンテンツの音声をスピーカ216から出力させる。これにより、放送番組等のコンテンツの再生が行われる。
ESG情報取得部217は、ストリーム分離部213から供給されるESG情報を取得する。ESG情報取得部217は、例えばユーザによりESG画面の表示が指示された場合、ESG情報を再生部214に供給する。再生部214は、ESG情報取得部217から供給されるESG情報に基づいて、ESG画面を生成し、表示部215に表示させる。
また、ESG情報取得部217は、ESG情報に含まれる音声発話メタデータを、音声発話メタデータ取得部218に供給する。音声発話メタデータ取得部218は、ESG情報取得部217から供給される音声発話メタデータを取得する。
ここで、音声発話メタデータには、音声発話メタデータを取得するためのアドレス情報を記述したものと、音声発話メタデータの内容そのものを記述したものの2種類が存在するのは、先に述べた通りである。
すなわち、音声発話メタデータ取得部218は、音声発話メタデータにアドレス情報が含まれている場合、当該アドレス情報に基づいて、ストリーム分離部213により分離されるストリームから、音声発話メタデータファイルを取得し、そこから得られる内容を含んでいる音声発話メタデータをTTSエンジン219に供給する。一方、音声発話メタデータ取得部218は、音声発話メタデータがその内容を含んでいる場合には、当該音声発話メタデータをそのまま、TTSエンジン219に供給する。
TTSエンジン219は、音声発話メタデータ取得部218から供給される音声発話メタデータに基づいて、ユーザインターフェース等の表示情報を読み上げて、その音声を、スピーカ216から出力する。
ここでは、例えば、ESG画面が表示部215に表示されている場合において、視覚障害者に対してアクセシブルにするために、タイトルや番組情報などを読み上げるに際して、テキスト情報の読み方が一意に定まらないときなどに、TTSエンジン219は、音声発話メタデータに従い、テキスト情報が、制作者の意図した通りに読み上げられるようにする。これにより、視覚障害者が、健常者と同等の情報を得られるようになる。
なお、図9の受信装置20においては、表示部215とスピーカ216が内部に設けられている構成を示したが、表示部215とスピーカ216は、外部の別の装置として設けられるようにしてもよい。
<3.ESGの拡張による音声発話メタデータの配置>
次に、音声発話メタデータが格納されるESG情報の詳細について説明する。なお、ESG(Electronic Service Guide)は、携帯電話の規格策定を行う組織であるOMA(Open Mobile Alliance)によりその仕様が策定されており、音声発話メタデータが格納されるESG情報も、OMA-BCAST(OMA - Mobile Broadcast Services Enabler Suite)に規定されたESGに準拠している。
(ESGの構造)
図10は、ESGの構造の例を示す図である。なお、図10において、フラグメント間を接続する各ラインは、接続された各フラグメントでの相互参照を意味している。
図10において、ESGは、それぞれの目的を有するフラグメントで構成され、使用する用途に応じて、アドミニストラティブ(Administrative)、プロビジョニング(Provisioning)、コア(Core)、及び、アクセス(Access)からなる4つのグループに分けられる。
アドミニストラティブは、ESG情報を受信することができる基本情報を提供するグループである。アドミニストラティブのグループは、サービスガイド伝達ディスクリプタ(ServiceGuideDeliveryDescriptor)から構成される。サービスガイド伝達ディスクリプタは、複数のサービスガイドフラグメントを受信することができるチャネルに関する情報、チャンネルに関するスケジューリング情報、及び、更新情報を、受信装置20に提供する。これにより、受信装置20では、必要なESG情報のみを適切な時間で受信することが可能となる。
プロビジョニングは、サービス受信に関する料金情報を提供するためのグループである。プロビジョニングのグループは、購買アイテム(Purchase Item)、購買データ(Purchase Data)、及び、購買チャネル(Purchase Channel)から構成される。購買アイテムは、サービス又はサービスバンドルに関する料金情報を提供する。購買データは、ユーザがどのような方法を通じて料金を支払うことができるかに関する情報を提供する。購買チャネルは、ユーザが実際にサービスを購入することができるシステムに関する情報を提供する。
なお、購買アイテム、購買データ、及び、購買チャネルの各フラグメントには、音声発話メタデータ又はその取得先を示すアドレス情報を格納することができる。購買アイテム、購買データ、及び、購買チャネルの各フラグメントに、音声発話メタデータを格納する方法については、図13を参照して後述する。
コアは、サービスそれ自体に関する情報を提供するグループである。コアのグループは、サービス(Service)、スケジュール(Schedule)、及び、コンデンツ(Content)から構成される。サービスは、チャンネル・サービスの内容、及び、関連する制御情報を含むメタデータを提供する。スケジュールは、コンテンツの配信スケジュール、及び、関連する制御情報を含むメタデータを提供する。コンデンツは、サービスを構成するコンデンツの内容、及び、関連する制御情報を含むメタデータを提供する。
なお、サービス、及び、コンテンツの各フラグメントには、音声発話メタデータ又はその取得先を示すアドレス情報を格納することができる。図11には、サービスフラグメント(Service Fragment)の構成例が示され、図12には、コンテンツフラグメント(Content Fragment)の構成例が示されている。サービスとコンテンツの各フラグメントに、音声発話メタデータを格納する方法については、図13を参照して後述する。
アクセスは、コアのグループのサービスを受信する方法を示すサービスアクセス情報、及び、サービスを構成しているコンデンツが送信されるセッションに関する具体的な情報を提供するグループであって、受信装置20がサービスにアクセスすることができるようにする。アクセスのグループは、アクセス(Access)、及び、セッションディスクリプション(Session Description)から構成される。
アクセスのグループ内のアクセスは、1つのサービスに関する複数のアクセス方法を受信装置20に提供することにより、1つのサービスに基づいていくつかの付加的なサービスにアクセスすることができる方法を提供する。セッションディスクリプションは、1つのアクセスフラグメント(Access Fragment)で定義されたサービスアクセスが送信するサービスに関するセッション情報を提供する。
また、上述した4つのグループのほかに、プレビューデータ(Preview Data)と、インタラクティビティデータ(Interactivity Data)がある。プレビューデータは、サービスとコンテンツのためのプレビューやアイコンなどを提供する。インタラクティビティデータは、サービスやコンテンツに関するアプリケーションについてのメタデータを提供する。
なお、プレビューデータフラグメント(Preview Data Fragment)には、音声発話メタデータ又はその取得先を示すアドレス情報を格納することができる。プレビューデータフラグメントに、音声発話メタデータを格納する方法については、図14を参照して後述する。
(拡張ESGの構成例)
図13は、音声発話メタデータ又はその取得先を示すアドレス情報を格納するために拡張されたESGの構成例を示す図である。なお、図13のESGの拡張は、ESGを構成する各フラグメントのうち、サービスフラグメント(Service Fragment)、コンテンツフラグメント(Content Fragment)、購買アイテムフラグメント(Purchase Item Fragment)、購買データフラグメント(Purchase Data Fragment)、及び、購買チャネルフラグメント(Purchase Channel)が対象とされる。
すなわち、これらのフラグメントには、Name要素とDescription要素が含まれるので、Name要素とDescription要素に対して、PhoneticInfoURI要素又はPhoneticInfo要素を追加する拡張が行われるようにする。なお、これらのフラグメントのPrivateExt要素に、PhoneticInfoURI要素又はPhoneticInfo要素が追加されるようにしてもよい。
図13において、Name要素には、コンテンツフラグメントの名称が指定される。Name要素は、PhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性を、子要素として含んでいる。
PhoneticInfoURI要素には、音声発話メタデータを取得するためのアドレス情報が指定される。Type属性は、PhoneticInfoURI要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。
このアドレス情報としては、例えば、URI(Uniform Resource Identifier)が指定される。また、例えば、音声発話メタデータファイルが、FLUTE(File Delivery over Unidirectional Transport)セッションで伝送される場合には、FLUTEセッションで伝送される音声発話メタデータファイルを取得するためのアドレス情報が指定される。なお、音声発話メタデータは、音声合成マークアップ言語である、SSML(Speech Synthesis Markup Language)により記述することができる。
PhoneticInfo要素には、音声発話メタデータの内容そのものが記述される。例えば、この音声発話メタデータの内容は、SSMLで記述される。Type属性は、PhoneticInfo要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。
なお、図13において、出現数(Cardinality)であるが、"1..N"が指定された場合には、その要素又は属性は1以上指定され、"0..N"が指定された場合には、その要素又は属性を1以上指定するかどうかは任意である。また、"0..1"が指定された場合には、その要素又は属性を指定するかどうかは任意である。
したがって、Name要素の子要素のPhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性は、オプショナルな要素又は属性であって、PhoneticInfoURI要素とPhoneticInfo要素は、一方の要素のみが配置されるだけでなく、その両方の要素が配置されるようにしてもよい。
また、図13において、Description要素は、PhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性を、子要素として含んでいる。すなわち、Description要素の子要素は、上述したName要素の子要素と同様とされる。
具体的には、PhoneticInfoURI要素には、音声発話メタデータを取得するためのアドレス情報が指定される。Type属性は、PhoneticInfoURI要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。また、PhoneticInfo要素には、音声発話メタデータの内容そのものが記述される。Type属性は、PhoneticInfo要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。
なお、Description要素の子要素であるPhoneticInfoURI要素と、PhoneticInfo要素についても、いずれか一方の要素を配置してもよいし、それらの要素の両方が配置されるようにしてもよい。
図14は、音声発話メタデータ又はその取得先を示すアドレス情報を格納するために拡張されたESGの他の構成例を示す図である。なお、図14のESGの拡張は、ESGを構成する各フラグメントのうち、プレビューデータフラグメント(Preview Data Fragment)が対象とされる。
すなわち、プレビューデータフラグメントには、Picture要素が含まれるので、そのrelativePreference属性に対して、PhoneticInfoURI要素又はPhoneticInfo要素を追加する拡張が行われるようにする。なお、PhoneticInfoURI要素又はPhoneticInfo要素は、プレビューデータフラグメントのPrivateExt要素に追加されるようにしてもよい。
図14において、Picture要素には、サービスとコンテンツのためのプレビューやアイコン等が定義される。Picture要素は、PhoneticInfoURI要素、PhoneticInfo要素、及び、Type属性を、子要素として含んでいる。すなわち、Picture要素の子要素は、上述したName要素やDescription要素の子要素と同様とされる。
具体的には、PhoneticInfoURI要素には、音声発話メタデータを取得するためのアドレス情報が指定される。Type属性は、PhoneticInfoURI要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。また、PhoneticInfo要素には、音声発話メタデータの内容そのものが記述される。Type属性は、PhoneticInfo要素とペアで使用され、音声発話メタデータの種別を示すタイプ情報が指定される。
なお、Picture要素の子要素であるPhoneticInfoURI要素と、PhoneticInfo要素についても、いずれか一方の要素を配置してもよいし、それらの要素の両方が配置されるようにしてもよい。
(PhoneticInfoURI要素の構成)
図15は、拡張されたESGにおけるPhoneticInfoURI要素の詳細な構成を示す図である。
図15において、PhoneticInfoURI要素は、サービスフラグメント等のname要素若しくはDescription要素、又は、プレビューデータフラグメントのpicture要素の子要素として記述される。PhoneticInfoURI要素には、音声発話メタデータを取得するためのアドレス情報が指定される。
また、PhoneticInfoURI要素のtype属性として、音声発話メタデータのエンコーディングフォーマットの識別URIが指定される。
例えば、音声発話メタデータファイルは、FLUTEセッションで伝送されるので、PhoneticInfoURI要素には、FLUTEセッションで伝送される音声発話メタデータファイルを取得するためのアドレス情報が記述される。
(PhoneticInfo要素の構成)
図16は、拡張されたESGにおけるPhoneticInfo要素の詳細な構成を示す図である。
図16において、PhoneticInfo要素は、サービスフラグメント等のname要素若しくはDescription要素、又は、プレビューデータフラグメントのpicture要素の子要素として記述される。PhoneticInfo要素には、音声発話メタデータの内容そのものが記述される。
また、PhoneticInfo要素のtype属性として、音声発話メタデータのエンコーディングフォーマットの識別URIが指定される。
例えば、音声発話メタデータの内容は、音声合成マークアップ言語であるSSMLで記述され、PhoneticInfo要素の開始タグと終了タグの間に、テキスト情報として収められる。
なお、拡張されたESGの対象のフラグメントには、PhoneticInfoURI要素及びPhoneticInfo要素の少なくとも1つの要素が記述される。また、音声発話メタデータは、PhoneticInfoURI要素又はPhoneticInfo要素により指定されるため、「PhoneticInfoオブジェクト」と称される場合がある。
<4.音声発話メタデータの記述例>
上述したように、音声発話メタデータは、例えば、音声合成マークアップ言語であるSSMLで記述することができる。このSSMLは、W3C(World Wide Web Consortium)によって、より高品質な音声合成機能を利用可能にすることを目的として勧告されたものである。SSMLを用いることで、発音や音量、調子など、音声合成に必要な要素をきめ細かく、かつ適度に制御することが可能となる。以下、図17乃至図19には、SSML形式の文書の記述例を例示している。
(sub要素)
図17は、SSML形式におけるsub要素の記述例を示す図である。
sub要素は、テキスト情報を別のテキスト情報に置き換えるために用いられる。alias属性には、音声発話用のテキスト情報が指定される。例えば、図17において、"W3C"であるテキスト情報は、"World Wide Web Consortium"である音声発話用のテキスト情報に変換されて読み上げられる。
このsub要素を用いることで、例えば、テキスト情報の読み方が一意に定まらない場合にその音声の読み方を示した情報を指定することが可能となる。
(phoneme要素)
図18は、SSML形式におけるphoneme要素の記述例を示す図である。
phoneme要素は、記述されているテキスト情報に、音素/音声上の発音を付与するために用いられる。phoneme要素は、alphabet属性と、ph属性を指定することができる。alphabet属性には、音素/音声の発音文字が指定される。ph属性には、音素/音声の文字列が指定される。例えば、図18においては、"La vita e bella"であるテキスト情報の読み方が、ph属性で指定される。なお、alphabet属性に指定された"ipa"は、国際音声記号(IPA:International Phonetic Alphabet)の読み記号に対応していることを示している。
このphoneme要素を用いることで、例えば、発音が難解な固有名詞等である場合にその音素情報などを指定することが可能となる。
(audio要素)
図19は、SSML形式におけるaudio要素の記述例を示す図である。
audio要素は、音声ファイルの組み込み音声や合成音声を出力するために用いられる。audio要素は、src属性を指定することができる。src属性には、音声ファイルのURI(Uniform Resource Identifier)が指定される。例えば、図19においては、"What city do you want to fly from?"であるテキスト情報が、src属性に指定された"prompt.au"である音声ファイルを再生することで読み上げられる。
このaudio要素を用いることで、例えば、録音済みの音声ファイルの再生が可能となり、ユーザインターフェースの制作者が意図した通りの音声情報を視覚障害者に提供可能となる。
なお、上述したsub要素、phoneme要素、及び、audio要素は、SSML形式を用いた音声発話メタデータの記述方法の一例であって、SSML形式の他の要素や属性を用いるようにしてもよい。また、音声発話メタデータは、SSML形式以外の他のマークアップ言語などで記述するようにしてもよい。
<5.各装置で実行される処理の流れ>
次に、図7の放送システム1を構成する送信装置10と受信装置20で実行される処理の流れを説明する。
(送信処理)
まず、図20のフローチャートを参照して、図7の送信装置10により実行される、送信処理の流れを説明する。
ステップS111において、コンテンツ取得部111は、放送番組等のコンテンツを取得して、ストリーム生成部114に供給する。
ステップS112において、音声発話メタデータ生成部112は、例えばユーザインターフェースの制作者からの指示に従い、音声発話メタデータを生成して、ESG情報生成部113に供給する。
なお、音声発話メタデータ生成部112は、アドレス情報を含む音声発話メタデータを生成してESG情報生成部113に供給した場合には、当該アドレス情報に従い取得される音声発話メタデータファイルを生成し、ストリーム生成部114に供給する。
ステップS113において、ESG情報生成部113は、音声発話メタデータ生成部112から供給される音声発話メタデータに基づいて、ESG情報を生成し、ストリーム生成部114に供給する。
ステップS114において、ストリーム生成部114は、コンテンツ取得部111から供給されるコンテンツデータと、ESG情報生成部113から供給されるESG情報に基づいて、所定の規格に準拠したストリームを生成し、送信部115に供給する。
なお、ストリーム生成部114は、ESG情報生成部113から供給されるESG情報に含まれる音声発話メタデータがアドレス情報を含んでいる場合、コンテンツデータとESG情報に加えて、音声発話メタデータ生成部112から供給される音声発話メタデータファイルに基づいて、所定の規格に準拠したストリームを生成し、送信部115に供給する。
ステップS115において、送信部115は、ストリーム生成部114から供給されるストリームに対して、例えばデジタル変調等の処理を施して、アンテナ116を介して、デジタル放送信号として送信する。
以上、送信処理について説明した。この送信処理では、ユーザインターフェース等の表示情報に対する制作者が意図する音声の発話に関する音声発話メタデータが生成され、音声発話メタデータを含むESG情報が生成され、コンテンツとともに、音声発話メタデータを含むESG情報が送信される。
これにより、受信装置20側では、TTSエンジン219が、音声発話メタデータに基づいて、表示情報を読み上げるので、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りにテキスト情報が読み上げられる。その結果、視覚障害者が、健常者と同等の情報を得られるようになる。
(受信処理)
次に、図21のフローチャートを参照して、図7の受信装置20により実行される、受信処理の流れを説明する。
ステップS211において、受信部212は、アンテナ211を介して、送信装置10から送信されてくるデジタル放送信号を受信する。また、受信部212は、デジタル放送信号に対して復調処理等を行い、それにより得られるストリームを、ストリーム分離部213に供給する。
ステップS212において、ストリーム分離部213は、受信部212から供給されるストリームから、コンテンツデータと、ESG情報を分離して、コンテンツデータを再生部214に、ESG情報をESG情報取得部217にそれぞれ供給する。
ステップS213において、ESG情報取得部217は、ストリーム分離部213から供給されるESG情報を取得する。ESG情報取得部217は、例えばユーザによりESG画面の表示が指示された場合、ESG情報を再生部214に供給する。また、ESG情報取得部217は、ESG情報に含まれる音声発話メタデータを、音声発話メタデータ取得部218に供給する。
ステップS214において、再生部214は、ESG情報取得部217から供給されるESG情報に基づいて、ESG画面を生成し、表示部215に表示させる。
ステップS215において、音声発話メタデータ取得部218は、ESG情報取得部217から供給される音声発話メタデータを取得する。
ここで、音声発話メタデータ取得部218は、音声発話メタデータにアドレス情報が含まれている場合、当該アドレス情報に基づいて、ストリーム分離部213により分離されるストリームから、音声発話メタデータファイルを取得し、そこから得られる内容を含んでいる音声発話メタデータをTTSエンジン219に供給する。一方、音声発話メタデータ取得部218は、音声発話メタデータがその内容を含んでいる場合には、当該音声発話メタデータをそのまま、TTSエンジン219に供給する。
ステップS216において、TTSエンジン219は、音声発話メタデータ取得部218から供給される音声発話メタデータに基づいて、ユーザインターフェース等の表示情報を読み上げて、その音声を、スピーカ216から出力する。
ここでは、ステップS214の処理で、表示部215に、ESG画面が表示されている場合において、視覚障害者に対してアクセシブルにするために、タイトルや番組情報などを読み上げるに際して、テキスト情報の読み方が一意に定まらないときなどに、TTSエンジン219は、音声発話メタデータに従い、テキスト情報が、制作者の意図した通りに読み上げられるようにする。
以上、受信処理について説明した。この受信処理では、送信装置10から送信されてくる、表示情報に対する制作者が意図する音声の発話に関する音声発話メタデータを含むESG情報が受信され、ESG情報に含まれる音声発話メタデータが取得され、音声発話メタデータに基づいて、ユーザインターフェース等の表示情報が読み上げられる。
これにより、TTSエンジン219においては、音声発話メタデータに基づいて、表示情報を読み上げるので、例えば、テキスト情報の読み方が一意に定まらない場合や、発音が難解な固有名詞等である場合などであっても、確実に、制作者が意図した通りにテキスト情報が読み上げられる。その結果、視覚障害者が、健常者と同等の情報を得られるようになる。
<6.変形例>
上述した説明では、音声発話メタデータにアドレス情報が含まれている場合には、当該アドレス情報に従い、FLUTEセッションで伝送される音声発話メタデータファイルが取得されるとして説明したが、音声発話メタデータファイルは、インターネット上のサーバから配信されるようにしてもよい。この場合、アドレス情報としては、サーバのURL(Uniform Resource Locator)等が指定される。
また、上述した説明では、電子番組情報として、OMA-BCASTで規定されたESGを説明したが、本技術は、例えば、EPG(Electronic Program Guide)その他の電子番組情報に適用することができる。さらに、ESG情報などの電子番組情報が、インターネット上のサーバから配信され、受信装置20により受信されるようにしてもよい。
<7.コンピュータの構成>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図22は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示す図である。
コンピュータ900において、CPU(Central Processing Unit)901,ROM(Read Only Memory)902,RAM(Random Access Memory)903は、バス904により相互に接続されている。バス904には、さらに、入出力インターフェース905が接続されている。入出力インターフェース905には、入力部906、出力部907、記録部908、通信部909、及び、ドライブ910が接続されている。
入力部906は、キーボード、マウス、マイクロフォンなどよりなる。出力部907は、ディスプレイ、スピーカなどよりなる。記録部908は、ハードディスクや不揮発性のメモリなどよりなる。通信部909は、ネットワークインターフェースなどよりなる。ドライブ910は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア911を駆動する。
以上のように構成されるコンピュータ900では、CPU901が、ROM902や記録部908に記憶されているプログラムを、入出力インターフェース905及びバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ900(CPU901)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア911に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
コンピュータ900では、プログラムは、リムーバブルメディア911をドライブ910に装着することにより、入出力インターフェース905を介して、記録部908にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部909で受信し、記録部908にインストールすることができる。その他、プログラムは、ROM902や記録部908に、あらかじめインストールしておくことができる。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、本技術は、以下のような構成をとることができる。
(1)
表示情報に対する制作者が意図する音声の発話に関するメタデータを生成するメタデータ生成部と、
前記メタデータを含む電子番組情報を生成する電子番組情報生成部と、
前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する送信部と
を備える送信装置。
(2)
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
(1)に記載の送信装置。
(3)
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
(1)又は(2)に記載の送信装置。
(4)
前記コンテンツを取得するコンテンツ取得部をさらに備え、
前記送信部は、前記電子番組情報を、前記コンテンツとともに、デジタル放送信号で送信する
(3)に記載の送信装置。
(5)
前記電子番組情報は、OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)で規定されたESG(Electronic Service Guide)に準拠しており、
前記メタデータは、SSML(Speech Synthesis Markup Language)形式で記述され、
前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれる
(1)乃至(4)のいずれかに記載の送信装置。
(6)
送信装置の送信方法において、
前記送信装置が、
表示情報に対する制作者が意図する音声の発話に関するメタデータを生成し、
前記メタデータを含む電子番組情報を生成し、
前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する
ステップを含む送信方法。
(7)
送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信する受信部と、
前記電子番組情報に含まれる前記メタデータを取得するメタデータ取得部と、
前記メタデータに基づいて、前記表示情報を読み上げる音声読み上げ部と
を備える受信装置。
(8)
前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
(7)に記載の受信装置。
(9)
前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
(7)又は(8)に記載の受信装置。
(10)
前記受信部は、デジタル放送信号として、前記コンテンツとともに送信される前記電子番組情報を受信する
(9)に記載の受信装置。
(11)
前記電子番組情報は、OMA-BCASTで規定されたESGに準拠しており、
前記メタデータは、SSML形式で記述され、
前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれており、
前記メタデータ取得部は、前記アドレス情報に従い前記メタデータのファイルを取得するか、又は前記フラグメントから前記メタデータを取得する
(7)乃至(10)のいずれかに記載の受信装置。
(12)
受信装置の受信方法において、
前記受信装置が、
送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信し、
前記電子番組情報に含まれる前記メタデータを取得し、
前記メタデータに基づいて、前記表示情報を読み上げる
ステップを含む受信方法。
1 放送システム, 10 送信装置, 20 受信装置, 111 コンテンツ取得部, 112 音声発話メタデータ生成部, 113 ESG情報生成部, 114 ストリーム生成部, 115 送信部, 212 受信部, 213 ストリーム分離部, 214 再生部, 215 表示部, 216 スピーカ, 217 ESG情報取得部, 218 音声発話メタデータ取得部, 219 TTSエンジン, 900 コンピュータ, 901 CPU

Claims (12)

  1. 表示情報に対する制作者が意図する音声の発話に関するメタデータを生成するメタデータ生成部と、
    前記メタデータを含む電子番組情報を生成する電子番組情報生成部と、
    前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する送信部と
    を備える送信装置。
  2. 前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
    請求項1に記載の送信装置。
  3. 前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
    請求項2に記載の送信装置。
  4. 前記コンテンツを取得するコンテンツ取得部をさらに備え、
    前記送信部は、前記電子番組情報を、前記コンテンツとともに、デジタル放送信号で送信する
    請求項3に記載の送信装置。
  5. 前記電子番組情報は、OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)で規定されたESG(Electronic Service Guide)に準拠しており、
    前記メタデータは、SSML(Speech Synthesis Markup Language)形式で記述され、
    前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれる
    請求項1に記載の送信装置。
  6. 送信装置の送信方法において、
    前記送信装置が、
    表示情報に対する制作者が意図する音声の発話に関するメタデータを生成し、
    前記メタデータを含む電子番組情報を生成し、
    前記表示情報を表示可能な受信装置に対して、前記電子番組情報を送信する
    ステップを含む送信方法。
  7. 送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信する受信部と、
    前記電子番組情報に含まれる前記メタデータを取得するメタデータ取得部と、
    前記メタデータに基づいて、前記表示情報を読み上げる音声読み上げ部と
    を備える受信装置。
  8. 前記メタデータは、読み方が一意に定まらない文字列、又は発音が難解な文字列の発話に関する情報を含んでいる
    請求項7に記載の受信装置。
  9. 前記表示情報は、コンテンツに関する情報、又はアイコンを含んでいる
    請求項8に記載の受信装置。
  10. 前記受信部は、デジタル放送信号として、前記コンテンツとともに送信される前記電子番組情報を受信する
    請求項9に記載の受信装置。
  11. 前記電子番組情報は、OMA-BCASTで規定されたESGに準拠しており、
    前記メタデータは、SSML形式で記述され、
    前記ESGを構成する所定のフラグメントに、前記SSML形式で記述された前記メタデータのファイルの取得先を示すアドレス情報、又は前記SSML形式で記述された前記メタデータの内容そのものが含まれており、
    前記メタデータ取得部は、前記アドレス情報に従い前記メタデータのファイルを取得するか、又は前記フラグメントから前記メタデータを取得する
    請求項7に記載の受信装置。
  12. 受信装置の受信方法において、
    前記受信装置が、
    送信装置から送信されてくる、表示情報に対する制作者が意図する音声の発話に関するメタデータを含む電子番組情報を受信し、
    前記電子番組情報に含まれる前記メタデータを取得し、
    前記メタデータに基づいて、前記表示情報を読み上げる
    ステップを含む受信方法。
JP2016534361A 2014-07-14 2015-07-01 送信装置、送信方法、受信装置、及び、受信方法 Ceased JPWO2016009834A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014144143 2014-07-14
JP2014144143 2014-07-14
PCT/JP2015/068964 WO2016009834A1 (ja) 2014-07-14 2015-07-01 送信装置、送信方法、受信装置、及び、受信方法

Publications (1)

Publication Number Publication Date
JPWO2016009834A1 true JPWO2016009834A1 (ja) 2017-05-25

Family

ID=55078332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016534361A Ceased JPWO2016009834A1 (ja) 2014-07-14 2015-07-01 送信装置、送信方法、受信装置、及び、受信方法

Country Status (10)

Country Link
US (2) US10491934B2 (ja)
EP (1) EP3171610B1 (ja)
JP (1) JPWO2016009834A1 (ja)
KR (2) KR20170033273A (ja)
MX (1) MX368686B (ja)
MY (1) MY188845A (ja)
RU (1) RU2686663C2 (ja)
SG (1) SG11201700130VA (ja)
WO (1) WO2016009834A1 (ja)
ZA (1) ZA201608004B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017209514A1 (ko) 2016-06-01 2017-12-07 엘지전자(주) 방송 신호 송수신 장치 및 방법
JP2018101828A (ja) * 2016-12-19 2018-06-28 船井電機株式会社 制御装置
US11380300B2 (en) 2019-10-11 2022-07-05 Samsung Electronics Company, Ltd. Automatically generating speech markup language tags for text

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258763A (ja) * 1996-03-18 1997-10-03 Nec Corp 音声合成装置
JP2001022374A (ja) * 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
JP2001043215A (ja) * 1999-08-02 2001-02-16 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2006100892A (ja) * 2004-09-28 2006-04-13 Fujitsu Ten Ltd 放送受信装置
US20090265700A1 (en) * 2008-03-28 2009-10-22 Samsung Electronics Co., Ltd. Method and system for updating firmware of terminals in a broadcast system
JP2009545218A (ja) * 2006-07-26 2009-12-17 ジェムアルト エスアー ローカル電子サービスガイド生成を使用する放送システム
US20110202344A1 (en) * 2010-02-12 2011-08-18 Nuance Communications Inc. Method and apparatus for providing speech output for speech-enabled applications
JP2011188170A (ja) * 2010-03-08 2011-09-22 Panasonic Corp 音声データ受信装置および音声データ受信方法
US20120016675A1 (en) * 2010-07-13 2012-01-19 Sony Europe Limited Broadcast system using text to speech conversion
JP2012022447A (ja) * 2010-07-13 2012-02-02 Fujitsu Ltd 音声合成装置、音声合成プログラムおよび音声合成方法
JP2014038209A (ja) * 2012-08-16 2014-02-27 Toshiba Corp 音声学習装置、方法およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7798417B2 (en) * 2000-01-03 2010-09-21 Snyder David M Method for data interchange
CN1813285B (zh) 2003-06-05 2010-06-16 株式会社建伍 语音合成设备和方法
GB2406754A (en) 2003-10-03 2005-04-06 Nokia Corp Same or similar service handover
US8398501B2 (en) * 2003-10-09 2013-03-19 William Bradford Priester Muscle training apparatus and method
WO2005088606A1 (en) 2004-03-05 2005-09-22 Lessac Technologies, Inc. Prosodic speech text codes and their use in computerized speech systems
DE102006005037B4 (de) 2006-02-03 2012-03-29 Airbus Operations Gmbh Klimatisierungsanordnung für ein Flugzeug mit mehreren individuell temperaturregelbaren Klimazonen
KR100699050B1 (ko) 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
BRPI0602943B1 (pt) * 2006-06-30 2017-05-23 Brudden Equip sinalizador de desalinhamento de correia de esteira ergométrica
JP2008166441A (ja) * 2006-12-27 2008-07-17 Spansion Llc 半導体装置およびその製造方法
US20090187950A1 (en) 2008-01-18 2009-07-23 At&T Knowledge Ventures, L.P. Audible menu system
JP4972011B2 (ja) 2008-02-26 2012-07-11 日本放送協会 触覚提示装置及び触覚提示方法
US8229748B2 (en) 2008-04-14 2012-07-24 At&T Intellectual Property I, L.P. Methods and apparatus to present a video program to a visually impaired person
KR101789631B1 (ko) * 2009-11-17 2017-10-25 엘지전자 주식회사 방송 신호 송수신 방법 및 그를 이용한 방송 수신 장치
WO2011111321A1 (ja) 2010-03-11 2011-09-15 パナソニック株式会社 音声読み上げ装置および音声読み上げ方法
EP2566156A4 (en) * 2010-04-28 2015-04-29 Lg Electronics Inc BROADCAST TRANSMITTER, BROADCAST RECEIVER AND METHOD FOR SENDING AND RECEIVING BROADCAST SIGNALS WITH DEVICES FOR TRANSMITTING AND RECEIVING BROADCAST SIGNALS
JP4991915B2 (ja) * 2010-07-05 2012-08-08 株式会社東芝 周波数変換回路、信号処理回路及び受信機
GB2489242B (en) * 2011-03-21 2016-02-03 Cooper Technologies Co Locking switch assembly and manufacture of locking component

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258763A (ja) * 1996-03-18 1997-10-03 Nec Corp 音声合成装置
JP2001022374A (ja) * 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
JP2001043215A (ja) * 1999-08-02 2001-02-16 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP2006100892A (ja) * 2004-09-28 2006-04-13 Fujitsu Ten Ltd 放送受信装置
JP2009545218A (ja) * 2006-07-26 2009-12-17 ジェムアルト エスアー ローカル電子サービスガイド生成を使用する放送システム
US20090265700A1 (en) * 2008-03-28 2009-10-22 Samsung Electronics Co., Ltd. Method and system for updating firmware of terminals in a broadcast system
US20110202344A1 (en) * 2010-02-12 2011-08-18 Nuance Communications Inc. Method and apparatus for providing speech output for speech-enabled applications
JP2011188170A (ja) * 2010-03-08 2011-09-22 Panasonic Corp 音声データ受信装置および音声データ受信方法
US20120016675A1 (en) * 2010-07-13 2012-01-19 Sony Europe Limited Broadcast system using text to speech conversion
JP2012022447A (ja) * 2010-07-13 2012-02-02 Fujitsu Ltd 音声合成装置、音声合成プログラムおよび音声合成方法
JP2014038209A (ja) * 2012-08-16 2014-02-27 Toshiba Corp 音声学習装置、方法およびプログラム

Also Published As

Publication number Publication date
EP3171610B1 (en) 2022-12-07
EP3171610A4 (en) 2017-12-20
RU2686663C2 (ru) 2019-04-30
US11197048B2 (en) 2021-12-07
KR20170033273A (ko) 2017-03-24
US10491934B2 (en) 2019-11-26
EP3171610A1 (en) 2017-05-24
WO2016009834A1 (ja) 2016-01-21
US20200053412A1 (en) 2020-02-13
RU2017100076A3 (ja) 2018-10-11
MX2017000281A (es) 2017-04-27
RU2017100076A (ru) 2018-07-09
KR102307330B1 (ko) 2021-09-30
KR20180122040A (ko) 2018-11-09
US20170134782A1 (en) 2017-05-11
SG11201700130VA (en) 2017-02-27
ZA201608004B (en) 2017-08-30
MX368686B (es) 2019-10-11
MY188845A (en) 2022-01-09
BR112017000101A2 (pt) 2017-10-31

Similar Documents

Publication Publication Date Title
US9621963B2 (en) Enabling delivery and synchronization of auxiliary content associated with multimedia data using essence-and-version identifier
US11227620B2 (en) Information processing apparatus and information processing method
US11197048B2 (en) Transmission device, transmission method, reception device, and reception method
US8645134B1 (en) Generation of timed text using speech-to-text technology and applications thereof
JP2008160337A (ja) コンテンツ連動型情報提示装置および提示方法
CN109729369A (zh) 一种直播交互方法、系统、装置及计算机可读存储介质
JP6596891B2 (ja) 送信装置、送信方法、受信装置、及び、受信方法
CN104038774B (zh) 生成铃声文件的方法及装置
JP2018174572A (ja) テキストコンテンツ生成装置、送信装置、受信装置、およびプログラム
JP2019009818A (ja) 送信装置および受信装置、ならびにプログラム
JP4392190B2 (ja) データコンテンツ送信装置およびデータコンテンツ送信プログラム
US8863193B2 (en) Information processing apparatus, broadcast receiving apparatus and information processing method
JP2015018079A (ja) 字幕音声生成装置
KR20090074643A (ko) 전자책 서비스 제공 방법
JP2010230948A (ja) コンテンツ配信システムおよびテキスト表示方法
JP4755717B2 (ja) 放送受信端末装置
WO2013080866A1 (ja) 情報処理システム及び情報処理方法
JP2015173444A (ja) 受信機
WO2018074265A1 (ja) 受信装置、送信装置、及び、データ処理方法
CN104079948B (zh) 生成铃声文件的方法及装置
JP2019012959A (ja) コンテンツ提供装置、コンテンツ提供方法およびコンテンツ提供プログラム
JP2016116032A (ja) 受信装置、放送システム、受信方法及びプログラム
BR112017000101B1 (pt) Dispositivos e métodos de transmissão e de recepção.
JP2021057906A (ja) 放送信号受信装置
KR20190093386A (ko) 음성 인식을 기반으로 디지털 방송에서의 전자 서비스 안내 서비스를 제공하는 장치 및 그 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180625

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191003

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20200804