KR102307330B1 - 수신 장치 및 수신 방법 - Google Patents

수신 장치 및 수신 방법 Download PDF

Info

Publication number
KR102307330B1
KR102307330B1 KR1020187031616A KR20187031616A KR102307330B1 KR 102307330 B1 KR102307330 B1 KR 102307330B1 KR 1020187031616 A KR1020187031616 A KR 1020187031616A KR 20187031616 A KR20187031616 A KR 20187031616A KR 102307330 B1 KR102307330 B1 KR 102307330B1
Authority
KR
South Korea
Prior art keywords
information
metadata
speech
voice
utterance
Prior art date
Application number
KR1020187031616A
Other languages
English (en)
Other versions
KR20180122040A (ko
Inventor
다케토시 야마네
야스아키 야마기시
Original Assignee
소니그룹주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니그룹주식회사 filed Critical 소니그룹주식회사
Publication of KR20180122040A publication Critical patent/KR20180122040A/ko
Application granted granted Critical
Publication of KR102307330B1 publication Critical patent/KR102307330B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/72Systems specially adapted for using specific information, e.g. geographical or meteorological information using electronic programme guides [EPG]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • H04H60/74Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information using programme related information, e.g. title, composer or interpreter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26283Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for associating distribution time parameters to content, e.g. to generate electronic program guide data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4821End-user interface for program selection using a grid, e.g. sorted out by channel and broadcast time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Abstract

본 기술은, 시각 장애자에 대한 엑세서빌리티를 향상시킬 수 있도록 하는 송신 장치, 송신 방법, 수신 장치, 및 수신 방법에 관한 것이다. 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 음성 발화 메타데이터를 생성하는 음성 발화 메타데이터 생성부와, 음성 발화 메타데이터를 포함하는 전자 프로그램 정보를 생성하는 전자 프로그램 정보 생성부와, 표시 정보를 표시 가능한 수신 장치에 대하여, 전자 프로그램 정보를 송신하는 송신부를 구비하는 송신 장치가 제공된다. 본 기술은, 예를 들어 디지털 방송 신호를 송신 가능한 송신기에 적용할 수 있다.

Description

수신 장치 및 수신 방법{RECEPTION DEVICE AND RECEPTION METHOD}
본 기술은 송신 장치, 송신 방법, 수신 장치, 및 수신 방법에 관한 것이고, 특히, 시각 장애자에 대한 엑세서빌리티를 향상시킬 수 있도록 한 송신 장치, 송신 방법, 수신 장치, 및 수신 방법에 관한 것이다.
디지털 방송의 분야에서는, 시각 장애자에 대한 엑세서빌리티가 요구되고 있다(예를 들어, 특허문헌 1 참조).
특히, 미국에서는, 소위 미국 엑세서빌리티법(CVAA: The 21st Century Communications and Video Accessibility Act of 2010)이 제정되고, 연방 통신 위원회(FCC: Federal Communications Commission)에 의해, 이 법률을 베이스로 한 영상 프로그램의 엑세서빌리티에 관한 다양한 규제가 발표되었다.
일본 특허 공개 제2009-204711호 공보
그런데, 시각 장애자에 대하여, 프로그램 정보 등의 유저 인터페이스(UI: User Interface)를 제시할 경우, 당해 프로그램 정보 등의 텍스트 정보를, TTS(Text To Speech) 엔진으로 소리 내어 읽음으로써, 엑세서빌리티를 향상시키는 것이 일반적이다.
그러나, TTS 엔진으로는, 프로그램 정보 등의 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽힌다고 단정할 수는 없어, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있다는 보증이 없다. 그로 인해, 확실하게 제작자가 의도한 대로의 발화가 행해져서, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있도록 하기 위한 기술이 요구되고 있었다.
본 기술은 이러한 상황을 감안하여 이루어진 것으로, 확실하게 제작자가 의도한 대로의 발화가 행해지도록 함으로써, 시각 장애자에 대한 엑세서빌리티를 향상시킬 수 있도록 하는 것이다.
본 기술의 제1 측면의 송신 장치는, 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터를 생성하는 메타데이터 생성부와, 상기 메타데이터를 포함하는 전자 프로그램 정보를 생성하는 전자 프로그램 정보 생성부와, 상기 표시 정보를 표시 가능한 수신 장치에 대하여 상기 전자 프로그램 정보를 송신하는 송신부를 구비하는 송신 장치이다.
상기 메타데이터는, 읽는 법이 한가지로 정해지지 않은 문자열, 또는 발음이 난해한 문자열의 발화에 관한 정보를 포함하고 있도록 할 수 있다.
상기 표시 정보는 콘텐츠에 관한 정보, 또는 아이콘을 포함하고 있도록 할 수 있다.
상기 콘텐츠를 취득하는 콘텐츠 취득부를 더 구비하고, 상기 송신부는 상기 전자 프로그램 정보를 상기 콘텐츠와 함께, 디지털 방송 신호로 송신하도록 할 수 있다.
상기 전자 프로그램 정보는 OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)로 규정된 ESG(Electronic Service Guide)에 준거하고 있고, 상기 메타데이터는 SSML(Speech Synthesis Markup Language) 형식으로 기술되고, 상기 ESG를 구성하는 소정의 프래그먼트에, 상기 SSML 형식으로 기술된 상기 메타데이터 파일의 취득처를 나타내는 어드레스 정보, 또는 상기 SSML 형식으로 기술된 상기 메타데이터의 내용 그 자체가 포함되도록 할 수 있다.
송신 장치는 독립된 장치여도 되고, 하나의 장치를 구성하고 있는 내부 블록이어도 된다.
본 기술의 제1 측면의 송신 방법은, 상술한 본 기술의 제1 측면의 송신 장치에 대응하는 송신 방법이다.
본 기술의 제1 측면의 송신 장치, 및 송신 방법에 있어서는, 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터가 생성되고, 상기 메타데이터를 포함하는 전자 프로그램 정보가 생성되며, 상기 표시 정보를 표시 가능한 수신 장치에 대하여 상기 전자 프로그램 정보가 송신된다.
본 기술의 제2 측면의 수신 장치는, 송신 장치로부터 송신되어 오는, 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터를 포함하는 전자 프로그램 정보를 수신하는 수신부와, 상기 전자 프로그램 정보에 포함되는 상기 메타데이터를 취득하는 메타데이터 취득부와, 상기 메타데이터에 기초하여, 상기 표시 정보를 소리 내어 읽는 음성 읽기부를 구비하는 수신 장치이다.
상기 메타데이터는, 읽는 법이 한가지로 정해지지 않은 문자열, 또는 발음이 난해한 문자열의 발화에 관한 정보를 포함하고 있도록 할 수 있다.
상기 표시 정보는 콘텐츠에 관한 정보, 또는 아이콘을 포함하고 있도록 할 수 있다.
상기 수신부는 디지털 방송 신호로서, 상기 콘텐츠와 함께 송신되는 상기 전자 프로그램 정보를 수신하도록 할 수 있다.
상기 전자 프로그램 정보는 OMA-BCAST로 규정된 ESG에 준거하고 있고, 상기 메타데이터는 SSML 형식으로 기술되고, 상기 ESG를 구성하는 소정의 프래그먼트에, 상기 SSML 형식으로 기술된 상기 메타데이터 파일의 취득처를 나타내는 어드레스 정보, 또는 상기 SSML 형식으로 기술된 상기 메타데이터의 내용 그 자체가 포함되어 있고, 상기 메타데이터 취득부는, 상기 어드레스 정보에 따라 상기 메타데이터의 파일을 취득하거나, 또는 상기 프래그먼트로부터 상기 메타데이터를 취득하도록 할 수 있다.
수신 장치는 독립된 장치여도 되고, 하나의 장치를 구성하고 있는 내부 블록이어도 된다.
본 기술의 제2 측면의 수신 방법은, 상술한 본 기술의 제2 측면의 수신 장치에 대응하는 수신 방법이다.
본 기술의 제2 측면의 수신 장치, 및 수신 방법에 있어서는, 송신 장치로부터 송신되어 오는, 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터를 포함하는 전자 프로그램 정보가 수신되고, 상기 전자 프로그램 정보에 포함되는 상기 메타데이터가 취득되며, 상기 메타데이터에 기초하여 상기 표시 정보가 소리 내어 읽힌다.
본 기술의 제1 측면, 및 제2 측면에 의하면, 시각 장애자에 대한 엑세서빌리티를 향상시킬 수 있다.
또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니며, 본 개시 중에 기재된 어느 한 효과여도 된다.
도 1은 프로그램 정보나 타이틀을 소리 내어 읽는 예를 도시하는 도면이다.
도 2는 아이콘을 소리 내어 읽는 예를 도시하는 도면이다.
도 3은 종래의 TTS 엔진에 의한 텍스트 정보를 소리내어 읽는 예를 설명하는 도면이다.
도 4는 종래의 TTS 엔진에 의한 텍스트 정보를 소리내어 읽는 예를 설명하는 도면이다.
도 5는 본 기술을 적용한 TTS 엔진에 의한 텍스트 정보를 소리내어 읽는 예를 설명하는 도면이다.
도 6은 본 기술을 적용한 TTS 엔진에 의한 텍스트 정보를 소리내어 읽는 예를 설명하는 도면이다.
도 7은 본 기술을 적용한 방송 시스템의 구성예를 도시하는 도면이다.
도 8은 본 기술을 적용한 송신 장치의 구성예를 도시하는 도면이다.
도 9는 본 기술을 적용한 수신 장치의 구성예를 도시하는 도면이다.
도 10은 ESG의 구조의 예를 도시하는 도면이다.
도 11은 ESG의 서비스 프래그먼트의 구성예를 도시하는 도면이다.
도 12는 ESG의 콘텐츠 프래그먼트의 구성예를 도시하는 도면이다.
도 13은 확장 ESG의 구성예를 도시하는 도면이다.
도 14는 확장 ESG의 다른 구성예를 도시하는 도면이다.
도 15는 PhoneticInfoURI 요소의 상세한 구성을 도시하는 도면이다.
도 16은 PhoneticInfo 요소의 상세한 구성을 도시하는 도면이다.
도 17은 SSML 형식에 있어서의 sub 요소의 기술예를 도시하는 도면이다.
도 18은 SSML 형식에 있어서의 phoneme 요소의 기술예를 도시하는 도면이다.
도 19는 SSML 형식에 있어서의 audio 요소의 기술예를 도시하는 도면이다.
도 20은 송신 처리를 설명하는 흐름도이다.
도 21은 수신 처리를 설명하는 흐름도이다.
도 22는 컴퓨터의 구성예를 도시하는 도면이다.
이하, 도면을 참조하면서 본 기술의 실시 형태에 대하여 설명한다. 또한, 설명은 이하의 순서로 행하기로 한다.
1. 본 기술의 음성 발화 메타데이터의 개요
2. 시스템의 구성
3. ESG의 확장에 의한 음성 발화 메타데이터의 배치
4. 음성 발화 메타데이터의 기술예
5. 각 장치에서 실행되는 처리의 흐름
6. 변형예
7. 컴퓨터의 구성
<1. 본 기술의 음성 발화 메타데이터의 개요>
미국 엑세서빌리티법에 관계되는 연방 통신 위원회의 규제 중, 유저 인터페이스에 관한 규제(FCC Report & Order(FCC 13-138) released October 31, 2013. C.F.R. Title 47 §79.107, 108)에서는, 텔레비전 수상기 등의 영상 프로그램을 표시 가능한 수신기에 대하여, 그 유저 인터페이스를, 시각 장애자에 대하여 엑세서블하게 할 것이 요구되고 있다.
구체적으로는, 도 1에 도시하는 바와 같이, 전자 서비스 가이드(ESG: Electronic Service Guide)의 화면(ESG 화면)이 표시된 경우에, 예를 들어, 타이틀이나 프로그램 정보 등을 소리 내어 읽음으로, 시각 장애자에 대하여 방송 프로그램의 선국에 필요한 정보를 제공할 수 있다.
또한, 도 2에 도시하는 바와 같이, 메뉴 화면이 표시된 경우에는, 예를 들어, 각종 서비스를 나타낸 아이콘에 대해서, 그 서비스의 내용을 소리 내어 읽음으로써, 시각 장애자에 대하여 서비스의 내용을 제공할 수 있다.
이와 같이, 수신기에 표시되는 유저 인터페이스에 관한 정보를 소리 내어 읽음으로써, 시각 장애자는, 당해 유저 인터페이스에 관한 정보를 입수하고, 수신기에 대한 각종 조작을 행하는 것이 가능하게 된다.
그런데, 방송 프로그램(프로그램)을 선국하기 위한 채널 정보나 프로그램 정보는, 방송국 등의 송신기로부터 수신기에 대하여 ESG 정보로서 제공되지만, 이 ESG 정보는, 주로 텍스트 정보나 로고 데이터 등을 포함한다. 그리고, 수신기에서는, ESG 정보에 기초하여, 방송 프로그램을 선국하기 위한 ESG 화면을 생성하여 표시하게 된다.
상술한 바와 같이, ESG 화면을 표시할 때에는, 그 유저 인터페이스를, 시각 장애자에 대하여 엑세서블하게 할 것이 요구되고, 예를 들어 타이틀이나 프로그램 정보 등을 소리 내어 읽게 되지만, 여기에서는, 타이틀이나 프로그램 정보 등의 텍스트 정보를, TTS(Text To Speech) 엔진으로 소리 내어 읽는 것이 일반적이다. 이 TTS 엔진은, 텍스트 정보로부터, 인간의 음성을 인공적으로 만들어 낼 수 있는 음성 합성기(Text To Speech Synthesizer)이다.
그러나, TTS 엔진으로는, 유저 인터페이스의 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽힌다고 단정할 수는 없어, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있다는 보증은 없다.
구체적으로는, 도 3에 도시하는 바와 같이, 예를 들어, "AAA"인 텍스트 정보는, "triple A" 또는 "A A A"라고 읽을 수 있기 때문에, 그 읽는 법이 한가지로 정해지지 않으므로, TTS 엔진에서는, 어떻게 소리 내어 읽어야 좋은지를 판단할 수 없고, 결과적으로 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽히지 않을 가능성이 생긴다.
또한, 도 4에 도시하는 바와 같이, 예를 들어, "Caius College"인 텍스트 정보는, 그 발음이 난해한 고유 명사 등이기 때문에, TTS 엔진에서는, 어떻게 소리 내어 읽어야 좋을지 판단할 수 없고, 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽히지 않을 가능성이 있다.
이와 같이, 텍스트 정보의 읽는 법이 한가지로 정해지지 않은 경우나, 발음이 난해한 고유 명사 등인 경우 등에는, 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽히지 않을 가능성이 있기 때문에, 확실하게 제작자가 의도한 대로의 발화가 행해져서, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있도록 하는 기술이 요구되고 있었다.
따라서, 본 기술에서는, 확실하게 유저 인터페이스 등의 표시 정보에 대한 제작자가 의도한 대로의 음성의 발화가 행해지도록 하기 위해서, 제작자가 의도하는 음성의 발화에 관한 정보(이하, 「음성 발화 메타데이터」라고 함)를 TTS 엔진에 제공하고, 당해 TTS 엔진이, 제작자가 의도하는 음성을 발화할 수 있도록 한다. 또한, 당해 음성 발화 메타데이터는, ESG 정보에 포함하여 제공할 수 있다.
구체적으로는, 도 5에 도시하는 바와 같이, 예를 들어, "AAA"인 텍스트 정보에 대해서, 그 음성의 읽는 법을 나타낸 "triple A"를, 음성 발화 메타데이터로서 TTS 엔진에 제공되도록 함으로써, 당해 TTS 엔진은, 음성 발화 메타데이터에 기초하여, "triple A"라고 소리 내어 읽을 수 있다.
즉, 도 3에 있어서, "AAA"인 텍스트 정보를 입력한 경우, TTS 엔진은, "triple A"와, "A A A" 중 어느 쪽으로 소리 내어 읽는 것이 올바른지를 판단할 수 없었지만, 도 5에 있어서는, 음성 발화 메타데이터로서의 "triple A"를 입력함으로써, TTS 엔진은, 음성 발화 메타데이터에 따라, "triple A"를 소리 내어 읽을 수 있으므로, 제작자가 의도하는 음성이 발화되게 된다.
또한, 도 6에 도시하는 바와 같이, 예를 들어, "Caius College"인 텍스트 정보에 대해서, 그 음소 정보를, 음성 발화 메타데이터로서 TTS 엔진에 제공되도록 함으로써, 당해 TTS 엔진은 음성 발화 메타데이터에 기초하여, "keys college"라고 소리 내어 읽을 수 있다.
즉, 도 4에 있어서, "Caius College"라는 텍스트 정보를 입력한 경우, TTS 엔진은, 그 발음이 난해한 고유 명사 등이기 때문에, 어떻게 소리 내어 읽는 것이 올바른지를 판단할 수 없었지만, 도 6에 있어서는, 음성 발화 메타데이터로서의 음소 정보를 입력함으로써, TTS 엔진은, 음성 발화 메타데이터에 따라, "keys college"라고 소리 내어 읽을 수 있으므로, 제작자가 의도하는 음성이 발화되게 된다.
이와 같이, 음성 발화 메타데이터를 TTS 엔진에 제공함으로써, 예를 들어, 텍스트 정보의 읽는 법이 한가지로 정해지지 않은 경우나, 발음이 난해한 고유 명사 등인 경우 등이더라도, 확실하게 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽히기 때문에, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있게 된다.
<2. 시스템의 구성>
(방송 시스템의 구성예)
도 7은 본 기술을 적용한 방송 시스템의 구성예를 도시하는 도면이다.
방송 시스템(1)은 방송 프로그램 등의 콘텐츠를 제공함과 함께, 유저 인터페이스 등의 표시 정보를, 시각 장애자에 대하여 엑세서블로 하는 것이 가능한 시스템이다. 방송 시스템(1)은 송신 장치(10)와, 수신 장치(20)로 구성된다.
송신 장치(10)는, 예를 들어 지상 디지털 방송 서비스를 제공하는 방송국에 의해 운영된다. 송신 장치(10)는 방송 프로그램 등의 콘텐츠를, 디지털 방송 신호에 의해 송신한다. 또한, 송신 장치(10)는 음성 발화 메타데이터를 포함하는 ESG 정보를 생성하고, 디지털 방송 신호에 포함하여 송신한다.
수신 장치(20)는, 예를 들어 텔레비전 수상기나 셋톱 박스 등으로 구성되며, 유저의 각 가정 등에 설치된다. 수신 장치(20)는 송신 장치(10)로부터 송신되어 오는 디지털 방송 신호를 수신하고, 방송 프로그램 등의 콘텐츠의 영상이나 음성을 출력한다.
또한, 수신 장치(20)는 TTS 엔진을 갖고 있으며, 유저 인터페이스 등의 표시 정보를 표시하는 경우에, ESG 정보에 포함되는 음성 발화 메타데이터에 기초하여, 유저 인터페이스 등의 표시 정보를 소리 내어 읽는다.
여기에서는, TTS 엔진이, 음성 발화 메타데이터에 따라, 텍스트 정보 등의 표시 정보를 소리 내어 읽게 되므로, 예를 들어, 텍스트 정보의 읽는 법이 한가지로 정해지지 않은 경우나, 발음이 난해한 고유 명사 등인 경우 등이더라도, 확실하게 제작자가 의도한 대로 소리 내어 읽히게 된다.
또한, 도 7의 방송 시스템(1)에서는, 1대의 송신 장치(10)만을 도시하고 있지만, 실제로는 복수의 방송국마다 송신 장치(10)가 설치된다. 마찬가지로, 도 7의 방송 시스템(1)에서는, 1대의 수신 장치(20)만을 도시하고 있지만, 실제로는 복수의 유저의 가정마다, 수신 장치(20)가 설치되어 있다.
(송신 장치의 구성예)
도 8은 도 7의 송신 장치의 구성예를 도시하는 도면이다.
도 8에 있어서, 송신 장치(10)는 콘텐츠 취득부(111), 음성 발화 메타데이터 생성부(112), ESG 정보 생성부(113), 스트림 생성부(114), 및 송신부(115)로 구성된다.
콘텐츠 취득부(111)는 방송 프로그램 등의 콘텐츠를 취득하고, 스트림 생성부(114)에 공급한다. 또한, 콘텐츠 취득부(111)는 콘텐츠에 대하여 예를 들어 인코드나 포맷 형식의 변환 처리 등을 실행할 수 있다.
또한, 콘텐츠로서는, 예를 들어, 이미 수록된 콘텐츠의 보관 장소로부터, 방송 시간대에 따라서 해당하는 콘텐츠가 취득되거나, 또는 스튜디오나 로케이션 장소로부터 라이브의 콘텐츠가 취득되거나 한다.
음성 발화 메타데이터 생성부(112)는, 예를 들어 유저 인터페이스의 제작자로부터의 지시에 따라, 음성 발화 메타데이터를 생성하고, ESG 정보 생성부(113)에 공급한다. 또한, 음성 발화 메타 데이터로서는, 예를 들어, 텍스트 정보의 읽는 법이 한가지로 정해지지 않은 경우에 그 음성의 읽는 법을 나타낸 정보나, 발음이 난해한 고유 명사 등일 경우에 그 음소 정보가 생성된다.
여기서, ESG 정보에 저장되는 음성 발화 메타 데이터로서는, 음성 발화 메타데이터를 취득하기 위한 어드레스 정보를 기술한 것과, 음성 발화 메타데이터의 내용 그 자체를 기술한 것의 2종류가 존재한다. 그리고, 음성 발화 메타데이터에, 어드레스 정보를 기술했을 경우에는, 음성 발화 메타데이터의 내용은, 당해 어드레스 정보에 따라 취득되는 파일(이하, 「음성 발화 메타데이터 파일」이라고 함)에 기술되어 있게 된다.
즉, 음성 발화 메타데이터 생성부(112)는, 어드레스 정보를 포함하는 음성 발화 메타데이터를 생성하여, ESG 정보 생성부(113)에 공급한 경우에는, 당해 어드레스 정보에 따라 취득되는 음성 발화 메타데이터 파일을 생성하여, 스트림 생성부(114)에 공급하게 된다. 한편, 음성 발화 메타데이터가 그 내용을 포함하고 있을 경우, 음성 발화 메타데이터 생성부(112)는 음성 발화 메타데이터 파일을 생성할 필요는 없기 때문에, 당해 음성 발화 메타데이터만을, ESG 정보 생성부(113)에 공급하게 된다.
ESG 정보 생성부(113)는 방송 프로그램 등의 콘텐츠를 선국하기 위한 채널 정보로서, ESG 정보를 생성한다. 또한, ESG 정보 생성부(113)는, 음성 발화 메타데이터 생성부(112)로부터 공급되는 음성 발화 메타데이터를, ESG 정보에 저장(배치)한다. ESG 정보 생성부(113)는 음성 발화 메타데이터를 포함하는 ESG 정보를 스트림 생성부(114)에 공급한다.
스트림 생성부(114)는 콘텐츠 취득부(111)로부터 공급되는 콘텐츠 데이터와, ESG 정보 생성부(113)로부터 공급되는 ESG 정보에 기초하여, 소정의 규격에 준거한 스트림을 생성하고, 송신부(115)에 공급한다.
또한, ESG 정보 생성부(113)로부터 공급되는 ESG 정보에 포함되는 음성 발화 메타데이터가 어드레스 정보를 포함하고 있을 경우, 스트림 생성부(114)에는, 음성 발화 메타데이터 생성부(112)로부터 음성 발화 메타데이터 파일이 공급된다. 이 경우, 스트림 생성부(114)는 콘텐츠 취득부(111)로부터 공급되는 콘텐츠 데이터와, 음성 발화 메타데이터 생성부(112)로부터 공급되는 음성 발화 메타데이터 파일과, ESG 정보 생성부(113)로부터 공급되는 ESG 정보에 기초하여, 소정의 규격에 준거한 스트림을 생성한다.
송신부(115)는 스트림 생성부(114)로부터 공급되는 스트림에 대하여, 예를 들어 디지털 변조 등의 처리를 실시하고, 안테나(116)를 통하여 디지털 방송 신호로서 송신한다.
또한, 도 8의 송신 장치(10)에 있어서는, 모든 기능 블록이, 단일 장치 내에 배치될 필요는 없고, 적어도 일부의 기능 블록이 다른 기능 블록과는 독립된 장치로서 구성되도록 해도 된다. 예를 들어, 음성 발화 메타데이터 생성부(112)나 ESG 정보 생성부(113)는 인터넷상의 서버의 기능으로서 제공되도록 해도 된다. 그 경우, 송신 장치(10)는 당해 서버로부터 제공되는 음성 발화 메타데이터나 ESG 정보를 취득하여 처리하게 된다.
(수신 장치의 구성예)
도 9는 도 7의 수신 장치의 구성예를 도시하는 도면이다.
도 9에 있어서, 수신 장치(20)는 수신부(212), 스트림 분리부(213), 재생부(214), 표시부(215), 스피커(216), ESG 정보 취득부(217), 음성 발화 메타데이터 취득부(218), 및 TTS 엔진(219)으로 구성된다.
수신부(212)는 안테나(211)로 수신된 디지털 방송 신호에 대하여 복조 처리 등을 행하고, 그것에 의해 얻어지는 스트림을 스트림 분리부(213)에 공급한다.
스트림 분리부(213)는 수신부(212)로부터 공급되는 스트림으로부터, 콘텐츠 데이터와 ESG 정보를 분리하여, 콘텐츠 데이터를 재생부(214)에, ESG 정보를 ESG 정보 취득부(217)에 각각 공급한다.
재생부(214)는 스트림 분리부(213)로부터 공급되는 콘텐츠 데이터에 기초하여, 콘텐츠의 영상을 표시부(215)에 표시시킴과 함께, 콘텐츠의 음성을 스피커(216)로부터 출력시킨다. 이에 의해, 방송 프로그램 등의 콘텐츠의 재생이 행해진다.
ESG 정보 취득부(217)는, 스트림 분리부(213)로부터 공급되는 ESG 정보를 취득한다. ESG 정보 취득부(217)는, 예를 들어 유저에 의해 ESG 화면의 표시가 지시된 경우, ESG 정보를 재생부(214)에 공급한다. 재생부(214)는 ESG 정보 취득부(217)로부터 공급되는 ESG 정보에 기초하여 ESG 화면을 생성하고, 표시부(215)에 표시시킨다.
또한, ESG 정보 취득부(217)는 ESG 정보에 포함되는 음성 발화 메타데이터를, 음성 발화 메타데이터 취득부(218)에 공급한다. 음성 발화 메타데이터 취득부(218)는 ESG 정보 취득부(217)로부터 공급되는 음성 발화 메타데이터를 취득한다.
여기서, 음성 발화 메타데이터에는, 음성 발화 메타데이터를 취득하기 위한 어드레스 정보를 기술한 것과, 음성 발화 메타데이터의 내용 그 자체를 기술한 것의 2종류가 존재하는 것은, 상술한 바와 같다.
즉, 음성 발화 메타데이터 취득부(218)는, 음성 발화 메타데이터에 어드레스 정보가 포함되어 있는 경우, 당해 어드레스 정보에 기초하여, 스트림 분리부(213)에 의해 분리되는 스트림으로부터, 음성 발화 메타데이터 파일을 취득하고, 거기에서 얻어지는 내용을 포함하고 있는 음성 발화 메타데이터를 TTS 엔진(219)에 공급한다. 한편, 음성 발화 메타데이터 취득부(218)는 음성 발화 메타데이터가 그 내용을 포함하고 있을 경우에는, 당해 음성 발화 메타데이터를 그대로 TTS 엔진(219)에 공급한다.
TTS 엔진(219)은 음성 발화 메타데이터 취득부(218)로부터 공급되는 음성 발화 메타데이터에 기초하여, 유저 인터페이스 등의 표시 정보를 소리 내어 읽고, 그 음성을 스피커(216)로부터 출력한다.
여기에서는, 예를 들어, ESG 화면이 표시부(215)에 표시되어 있는 경우에 있어서, 시각 장애자에 대하여 엑세서블하게 하기 위해, 타이틀이나 프로그램 정보 등을 소리 내어 읽을 때에 있어, 텍스트 정보의 읽는 법이 한가지로 정해지지 않을 때 등에, TTS 엔진(219)은 음성 발화 메타데이터에 따라, 텍스트 정보가, 제작자의 의도한 대로 소리 내어 읽히게 한다. 이에 의해, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있게 된다.
또한, 도 9의 수신 장치(20)에 있어서는, 표시부(215)와 스피커(216)가 내부에 설치되어 있는 구성을 도시했지만, 표시부(215)와 스피커(216)는 외부의 다른 장치로서 설치되도록 해도 된다.
<3. ESG의 확장에 의한 음성 발화 메타데이터의 배치>
이어서, 음성 발화 메타데이터가 저장되는 ESG 정보의 상세에 대하여 설명한다. 또한, ESG(Electronic Service Guide)는, 휴대 전화의 규격 책정을 행하는 조직인 OMA(Open Mobile Alliance)에 의해 그 사양이 책정되어 있고, 음성 발화 메타데이터가 저장되는 ESG 정보도, OMA-BCAST(OMA - Mobile Broadcast Services Enabler Suite)에 규정된 ESG에 준거하고 있다.
(ESG의 구조)
도 10은 ESG의 구조의 예를 도시하는 도면이다. 또한, 도 10에 있어서, 프래그먼트 사이를 접속하는 각 라인은, 접속된 각 프래그먼트에서의 상호 참조를 의미하고 있다.
도 10에 있어서, ESG는 각각의 목적을 갖는 프래그먼트로 구성되고, 사용하는 용도에 따라, 어드미니스트레이티브(Administrative), 프로비저닝(Provisioning), 코어(Core), 및 액세스(Access)를 포함하는 4개의 그룹으로 나뉜다.
어드미니스트레이티브는, ESG 정보를 수신할 수 있는 기본 정보를 제공하는 그룹이다. 어드미니스트레이티브의 그룹은, 서비스 가이드 전달 디스크립터(ServiceGuideDeliveryDescriptor)로 구성된다. 서비스 가이드 전달 디스크립터는, 복수의 서비스 가이드 프래그먼트를 수신할 수 있는 채널에 관한 정보, 채널에 관한 스케줄링 정보, 및 갱신된 정보를 수신 장치(20)에 제공한다. 이에 의해, 수신 장치(20)에서는, 필요한 ESG 정보만을 적절한 시간에 수신하는 것이 가능하게 된다.
프로비저닝는, 서비스 수신에 관한 요금 정보를 제공하기 위한 그룹이다. 프로비저닝의 그룹은, 구매 아이템(Purchase Item), 구매 데이터(Purchase Data), 및 구매 채널(Purchase Channel)로 구성된다. 구매 아이템은, 서비스 또는 서비스 번들에 관한 요금 정보를 제공한다. 구매 데이터는, 유저가 어떠한 방법을 통해 요금을 지불할 수 있는지에 관한 정보를 제공한다. 구매 채널은, 유저가 실제로 서비스를 구입할 수 있는 시스템에 관한 정보를 제공한다.
또한, 구매 아이템, 구매 데이터, 및 구매 채널의 각 프래그먼트에는, 음성 발화 메타데이터 또는 그 취득처를 나타내는 어드레스 정보를 저장할 수 있다. 구매 아이템, 구매 데이터, 및 구매 채널의 각 프래그먼트에, 음성 발화 메타데이터를 저장하는 방법에 대해서는, 도 13을 참조하여 후술한다.
코어는, 서비스 그 자체에 관한 정보를 제공하는 그룹이다. 코어의 그룹은, 서비스(Service), 스케줄(Schedule), 및 콘텐츠(Content)로 구성된다. 서비스는, 채널·서비스의 내용, 및 관련되는 제어 정보를 포함하는 메타데이터를 제공한다. 스케줄은, 콘텐츠의 배신 스케줄, 및 관련되는 제어 정보를 포함하는 메타데이터를 제공한다. 콘텐츠는, 서비스를 구성하는 콘텐츠의 내용, 및 관련되는 제어 정보를 포함하는 메타데이터를 제공한다.
또한, 서비스, 및 콘텐츠의 각 프래그먼트에는, 음성 발화 메타데이터 또는 그 취득처를 나타내는 어드레스 정보를 저장할 수 있다. 도 11에는, 서비스 프래그먼트(Service Fragment)의 구성예가 도시되고, 도 12에는, 콘텐츠 프래그먼트(Content Fragment)의 구성예가 도시되어 있다. 서비스와 콘텐츠의 각 프래그먼트에, 음성 발화 메타데이터를 저장하는 방법에 대해서는, 도 13을 참조하여 후술한다.
액세스는, 코어 그룹의 서비스를 수신하는 방법을 나타내는 서비스 액세스 정보, 및 서비스를 구성하고 있는 콘텐츠가 송신되는 세션에 관한 구체적인 정보를 제공하는 그룹이며, 수신 장치(20)가 서비스에 액세스할 수 있도록 한다. 액세스의 그룹은, 액세스(Access), 및 세션 디스크립션(Session Description)으로 구성된다.
액세스 그룹 내의 액세스는, 하나의 서비스에 관한 복수의 액세스 방법을 수신 장치(20)에 제공함으로써, 하나의 서비스에 기초하여 몇 가지 부가적인 서비스에 액세스할 수 있는 방법을 제공한다. 세션 디스크립션은, 하나의 액세스 프래그먼트(Access Fragment)로 정의된 서비스 액세스가 송신하는 서비스에 관한 세션 정보를 제공한다.
또한, 상술한 4개의 그룹 외에, 프리뷰 데이터(Preview Data)와, 인터랙티비티 데이터(Interactivity Data)가 있다. 프리뷰 데이터는, 서비스와 콘텐츠를 위한 프리뷰나 아이콘 등을 제공한다. 인터랙티비티 데이터는, 서비스나 콘텐츠에 관한 애플리케이션에 대한 메타데이터를 제공한다.
또한, 프리뷰 데이터 프래그먼트(Preview Data Fragment)에는, 음성 발화 메타데이터 또는 그 취득처를 나타내는 어드레스 정보를 저장할 수 있다. 프리뷰 데이터 프래그먼트에 음성 발화 메타데이터를 저장하는 방법에 대해서는, 도 14를 참조하여 후술한다.
(확장 ESG의 구성예)
도 13은, 음성 발화 메타데이터 또는 그 취득처를 나타내는 어드레스 정보를 저장하기 위해 확장된 ESG의 구성예를 도시하는 도면이다. 또한, 도 13의 ESG의 확장은, ESG를 구성하는 각 프래그먼트 중, 서비스 프래그먼트(Service Fragment), 콘텐츠 프래그먼트(Content Fragment), 구매 아이템 프래그먼트(Purchase Item Fragment), 구매 데이터 프래그먼트(Purchase Data Fragment), 및 구매 채널 프래그먼트(Purchase Channel)가 대상이 된다.
즉, 이들 프래그먼트에는, Name 요소와 Description 요소가 포함되므로, Name 요소와 Description 요소에 대하여 PhoneticInfoURI 요소 또는 PhoneticInfo 요소를 추가하는 확장이 행해지도록 한다. 또한, 이들 프래그먼트의 PrivateExt 요소에, PhoneticInfoURI 요소 또는 PhoneticInfo 요소가 추가되도록 해도 된다.
도 13에 있어서, Name 요소에는, 콘텐츠 프래그먼트의 명칭이 지정된다. Name 요소는 PhoneticInfoURI 요소, PhoneticInfo 요소, 및 Type 속성을, 자요소로서 포함하고 있다.
PhoneticInfoURI 요소에는, 음성 발화 메타데이터를 취득하기 위한 어드레스 정보가 지정된다. Type 속성은, PhoneticInfoURI 요소와 페어로 사용되며, 음성 발화 메타데이터의 종별을 나타내는 타입 정보가 지정된다.
이 어드레스 정보로서는, 예를 들어, URI(Uniform Resource Identifier)가 지정된다. 또한, 예를 들어, 음성 발화 메타데이터 파일이, FLUTE(File Delivery over Unidirectional Transport) 세션으로 전송될 경우에는, FLUTE 세션으로 전송되는 음성 발화 메타데이터 파일을 취득하기 위한 어드레스 정보가 지정된다. 또한, 음성 발화 메타데이터는, 음성 합성 마크업 언어인, SSML(Speech Synthesis Markup Language)에 의해 기술할 수 있다.
PhoneticInfo 요소에는, 음성 발화 메타데이터의 내용 그 자체가 기술된다. 예를 들어, 이 음성 발화 메타데이터의 내용은 SSML로 기술된다. Type 속성은, PhoneticInfo 요소와 페어로 사용되며, 음성 발화 메타데이터의 종별을 나타내는 타입 정보가 지정된다.
또한, 도 13에 있어서, 출현수(Cardinality)를 말하자면, "1..N"이 지정된 경우에는, 그 요소 또는 속성은 1 이상 지정되고, "0..N"이 지정된 경우에는, 그 요소 또는 속성을 1 이상 지정할지 여부는 임의이다. 또한, "0..1"이 지정된 경우에는, 그 요소 또는 속성을 지정할지 여부는 임의이다.
따라서, Name 요소의 자요소인 PhoneticInfoURI 요소, PhoneticInfo 요소, 및 Type 속성은, 옵셔널인 요소 또는 속성이며, PhoneticInfoURI 요소와 PhoneticInfo 요소는, 한쪽 요소만이 배치되는 것 뿐만 아니라, 그 양쪽의 요소가 배치되도록 해도 된다.
또한, 도 13에 있어서, Description 요소는, PhoneticInfoURI 요소, PhoneticInfo 요소, 및 Type 속성을, 자요소로서 포함하고 있다. 즉, Description 요소의 자요소는, 상술한 Name 요소의 자요소와 마찬가지가 된다.
구체적으로는, PhoneticInfoURI 요소에는, 음성 발화 메타데이터를 취득하기 위한 어드레스 정보가 지정된다. Type 속성은, PhoneticInfoURI 요소와 페어로 사용되며, 음성 발화 메타데이터의 종별을 나타내는 타입 정보가 지정된다. 또한, PhoneticInfo 요소에는, 음성 발화 메타데이터의 내용 그 자체가 기술된다. Type 속성은, PhoneticInfo 요소와 페어로 사용되며, 음성 발화 메타데이터의 종별을 나타내는 타입 정보가 지정된다.
또한, Description 요소의 자요소인 PhoneticInfoURI 요소와, PhoneticInfo 요소에 대해서도, 어느 한쪽의 요소를 배치해도 되고, 그들 요소의 양쪽이 배치되도록 해도 된다.
도 14는, 음성 발화 메타데이터 또는 그 취득처를 나타내는 어드레스 정보를 저장하기 위해 확장된 ESG의 다른 구성예를 도시하는 도면이다. 또한, 도 14의 ESG의 확장은, ESG를 구성하는 각 프래그먼트 중, 프리뷰 데이터 프래그먼트(Preview Data Fragment)가 대상이 된다.
즉, 프리뷰 데이터 프래그먼트에는, Picture 요소가 포함되므로, 그relativePreference 속성에 대하여 PhoneticInfoURI 요소 또는 PhoneticInfo 요소를 추가하는 확장이 행해지도록 한다. 또한, PhoneticInfoURI 요소 또는 PhoneticInfo 요소는, 프리뷰 데이터 프래그먼트의 PrivateExt 요소에 추가되도록 해도 된다.
도 14에 있어서, Picture 요소에는, 서비스와 콘텐츠를 위한 프리뷰나 아이콘 등이 정의된다. Picture 요소는, PhoneticInfoURI 요소, PhoneticInfo 요소, 및 Type 속성을, 자요소로서 포함하고 있다. 즉, Picture 요소의 자요소는, 상술한 Name 요소나 Description 요소의 자요소와 마찬가지가 된다.
구체적으로는, PhoneticInfoURI 요소에는, 음성 발화 메타데이터를 취득하기 위한 어드레스 정보가 지정된다. Type 속성은, PhoneticInfoURI 요소와 페어로 사용되며, 음성 발화 메타데이터의 종별을 나타내는 타입 정보가 지정된다. 또한, PhoneticInfo 요소에는, 음성 발화 메타데이터의 내용 그 자체가 기술된다. Type 속성은, PhoneticInfo 요소와 페어로 사용되며, 음성 발화 메타데이터의 종별을 나타내는 타입 정보가 지정된다.
또한, Picture 요소의 자요소인 PhoneticInfoURI 요소와, PhoneticInfo 요소에 대해서도, 어느 한쪽의 요소를 배치해도 되고, 그들 요소의 양쪽이 배치되도록 해도 된다.
(PhoneticInfoURI 요소의 구성)
도 15는 확장된 ESG에 있어서의 PhoneticInfoURI 요소의 상세한 구성을 도시하는 도면이다.
도 15에 있어서, PhoneticInfoURI 요소는, 서비스 프래그먼트 등의 name 요소 또는 Description 요소, 또는, 프리뷰 데이터 프래그먼트의 picture 요소의 자요소로서 기술된다. PhoneticInfoURI 요소에는, 음성 발화 메타데이터를 취득하기 위한 어드레스 정보가 지정된다.
또한, PhoneticInfoURI 요소의 type 속성으로서, 음성 발화 메타데이터의 인코딩 포맷의 식별 URI가 지정된다.
예를 들어, 음성 발화 메타데이터 파일은, FLUTE 세션으로 전송되므로, PhoneticInfoURI 요소에는, FLUTE 세션으로 전송되는 음성 발화 메타데이터 파일을 취득하기 위한 어드레스 정보가 기술된다.
(PhoneticInfo 요소의 구성)
도 16은 확장된 ESG에 있어서의 PhoneticInfo 요소의 상세한 구성을 도시하는 도면이다.
도 16에 있어서, PhoneticInfo 요소는, 서비스 프래그먼트 등의 name 요소 또는 Description 요소, 또는, 프리뷰 데이터 프래그먼트의 picture 요소의 자요소로서 기술된다. PhoneticInfo 요소에는, 음성 발화 메타데이터의 내용 그 자체가 기술된다.
또한, PhoneticInfo 요소의 type 속성으로서, 음성 발화 메타데이터의 인코딩 포맷의 식별 URI가 지정된다.
예를 들어, 음성 발화 메타데이터의 내용은, 음성 합성 마크업 언어인 SSML로 기술되며, PhoneticInfo 요소의 개시 태그와 종료 태그의 사이에, 텍스트 정보로서 수용된다.
또한, 확장된 ESG의 대상의 프래그먼트에는, PhoneticInfoURI 요소 및 PhoneticInfo 요소 중 적어도 하나의 요소가 기술된다. 또한, 음성 발화 메타데이터는, PhoneticInfoURI 요소 또는 PhoneticInfo 요소에 의해 지정되기 때문에, 「PhoneticInfo 오브젝트」라고 칭해지는 경우가 있다.
<4. 음성 발화 메타데이터의 기술예>
상술한 바와 같이, 음성 발화 메타데이터는, 예를 들어, 음성 합성 마크업 언어인 SSML로 기술할 수 있다. 이 SSML은, W3C(World Wide Web Consortium)에 의해, 보다 고품질의 음성 합성 기능을 이용 가능하게 하는 것을 목적으로 하여 권고된 것이다. SSML을 사용함으로써, 발음이나 음량, 상태 등, 음성 합성에 필요한 요소를 섬세하게, 또한 적절하게 제어하는 것이 가능하게 된다. 이하, 도 17 내지 도 19에는, SSML 형식 문서의 기술예를 예시하고 있다.
(sub 요소)
도 17은 SSML 형식에 있어서의 sub 요소의 기술예를 도시하는 도면이다.
sub 요소는, 텍스트 정보를 다른 텍스트 정보로 치환하기 위해 사용된다. alias 속성에는, 음성 발화용 텍스트 정보가 지정된다. 예를 들어, 도 17에 있어서, "W3C"인 텍스트 정보는, "World Wide Web Consortium"인 음성 발화용 텍스트 정보로 변환되어 소리 내어 읽힌다.
이 sub 요소를 사용함으로써, 예를 들어 텍스트 정보의 읽는 법이 한가지로 정해지지 않은 경우에 그 음성의 읽는 법을 나타낸 정보를 지정하는 것이 가능하게 된다.
(phoneme 요소)
도 18은 SSML 형식에 있어서의 phoneme 요소의 기술예를 도시하는 도면이다.
phoneme 요소는, 기술되어 있는 텍스트 정보에, 음소/음성상의 발음을 부여하기 위해 사용된다. phoneme 요소는, alphabet 속성과, ph 속성을 지정할 수 있다. alphabet 속성에는, 음소/음성의 발음 문자가 지정된다. ph 속성에는, 음소/음성의 문자열이 지정된다. 예를 들어, 도 18에 있어서는, "La vita e bella"인 텍스트 정보의 읽는 법이, ph 속성으로 지정된다. 또한, alphabet 속성으로 지정된 "ipa"는, 국제 음성 신호(IPA: International Phonetic Alphabet)의 읽기 기호에 대응하고 있음을 나타내고 있다.
이 phoneme 요소를 사용함으로써 예를 들어, 발음이 난해한 고유 명사 등일 경우에 그 음소 정보 등을 지정하는 것이 가능하게 된다.
(audio 요소)
도 19는 SSML 형식에 있어서의 audio 요소의 기술예를 도시하는 도면이다.
audio 요소는, 음성 파일의 내장 음성이나 합성 음성을 출력하기 위해 사용된다. audio 요소는 src 속성을 지정할 수 있다. src 속성에는, 음성 파일의 URI(Uniform Resource Identifier)가 지정된다. 예를 들어, 도 19에 있어서는, "What city do you want to fly from?"인 텍스트 정보가, src 속성으로 지정된 "prompt.au"인 음성 파일을 재생함으로써 소리 내어 읽힌다.
이 audio 요소를 사용함으로써, 예를 들어 녹음 완료된 음성 파일의 재생이 가능하게 되고, 유저 인터페이스의 제작자가 의도한 대로의 음성 정보를 시각 장애자에게 제공 가능하게 된다.
또한, 상술한 sub 요소, phoneme 요소, 및 audio 요소는, SSML 형식을 사용한 음성 발화 메타데이터의 기술 방법의 일례이며, SSML 형식의 다른 요소나 속성을 사용하도록 해도 된다. 또한, 음성 발화 메타데이터는, SSML 형식 이외의 다른 마크업 언어 등으로 기술하도록 해도 된다.
<5. 각 장치에서 실행되는 처리의 흐름>
이어서, 도 7의 방송 시스템(1)을 구성하는 송신 장치(10)와 수신 장치(20)에서 실행되는 처리의 흐름을 설명한다.
(송신 처리)
먼저, 도 20의 흐름도를 참조하여, 도 7의 송신 장치(10)에 의해 실행되는, 송신 처리의 흐름을 설명한다.
스텝 S111에 있어서, 콘텐츠 취득부(111)는 방송 프로그램 등의 콘텐츠를 취득하여 스트림 생성부(114)에 공급한다.
스텝 S112에 있어서, 음성 발화 메타데이터 생성부(112)는, 예를 들어 유저 인터페이스의 제작자로부터의 지시에 따라, 음성 발화 메타데이터를 생성하고, ESG 정보 생성부(113)에 공급한다.
또한, 음성 발화 메타데이터 생성부(112)는, 어드레스 정보를 포함하는 음성 발화 메타데이터를 생성하여 ESG 정보 생성부(113)에 공급한 경우에는, 당해 어드레스 정보에 따라 취득되는 음성 발화 메타데이터 파일을 생성하여, 스트림 생성부(114)에 공급한다.
스텝 S113에 있어서, ESG 정보 생성부(113)는 음성 발화 메타데이터 생성부(112)로부터 공급되는 음성 발화 메타데이터에 기초하여, ESG 정보를 생성하고, 스트림 생성부(114)에 공급한다.
스텝 S114에 있어서, 스트림 생성부(114)는 콘텐츠 취득부(111)로부터 공급되는 콘텐츠 데이터와, ESG 정보 생성부(113)로부터 공급되는 ESG 정보에 기초하여, 소정의 규격에 준거한 스트림을 생성하여, 송신부(115)에 공급한다.
또한, 스트림 생성부(114)는 ESG 정보 생성부(113)로부터 공급되는 ESG 정보에 포함되는 음성 발화 메타데이터가 어드레스 정보를 포함하고 있을 경우, 콘텐츠 데이터와 ESG 정보에 더하여, 음성 발화 메타데이터 생성부(112)로부터 공급되는 음성 발화 메타데이터 파일에 기초해서, 소정의 규격에 준거한 스트림을 생성하여, 송신부(115)에 공급한다.
스텝 S115에 있어서, 송신부(115)는 스트림 생성부(114)로부터 공급되는 스트림에 대하여, 예를 들어 디지털 변조 등의 처리를 실시하고, 안테나(116)를 통하여 디지털 방송 신호로서 송신한다.
이상, 송신 처리에 대하여 설명했다. 이 송신 처리에서는, 유저 인터페이스 등의 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 음성 발화 메타데이터가 생성되고, 음성 발화 메타데이터를 포함하는 ESG 정보가 생성되며, 콘텐츠와 함께, 음성 발화 메타데이터를 포함하는 ESG 정보가 송신된다.
이에 의해, 수신 장치(20)측에서는, TTS 엔진(219)이 음성 발화 메타데이터에 기초하여, 표시 정보를 소리 내어 읽으므로, 예를 들어, 텍스트 정보의 읽는 법이 한가지로 정해지지 않은 경우나, 발음이 난해한 고유 명사 등인 경우 등이더라도, 확실하게 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽힌다. 그 결과, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있게 된다.
(수신 처리)
이어서, 도 21의 흐름도를 참조하여, 도 7의 수신 장치(20)에 의해 실행되는 수신 처리의 흐름을 설명한다.
스텝 S211에 있어서, 수신부(212)는 안테나(211)를 통하여 송신 장치(10)로부터 송신되어 오는 디지털 방송 신호를 수신한다. 또한, 수신부(212)는 디지털 방송 신호에 대하여 복조 처리 등을 행하고, 그것에 의해 얻어지는 스트림을, 스트림 분리부(213)에 공급한다.
스텝 S212에 있어서, 스트림 분리부(213)는 수신부(212)로부터 공급되는 스트림으로부터, 콘텐츠 데이터와 ESG 정보를 분리하여, 콘텐츠 데이터를 재생부(214)에, ESG 정보를 ESG 정보 취득부(217)에 각각 공급한다.
스텝 S213에 있어서, ESG 정보 취득부(217)는 스트림 분리부(213)로부터 공급되는 ESG 정보를 취득한다. ESG 정보 취득부(217)는, 예를 들어 유저에 의해 ESG 화면의 표시가 지시된 경우, ESG 정보를 재생부(214)에 공급한다. 또한, ESG 정보 취득부(217)는 ESG 정보에 포함되는 음성 발화 메타데이터를, 음성 발화 메타데이터 취득부(218)에 공급한다.
스텝 S214에 있어서, 재생부(214)는 ESG 정보 취득부(217)로부터 공급되는 ESG 정보에 기초하여, ESG 화면을 생성하고, 표시부(215)에 표시시킨다.
스텝 S215에 있어서, 음성 발화 메타데이터 취득부(218)는 ESG 정보 취득부(217)로부터 공급되는 음성 발화 메타데이터를 취득한다.
여기서, 음성 발화 메타데이터 취득부(218)는 음성 발화 메타데이터에 어드레스 정보가 포함되어 있는 경우, 당해 어드레스 정보에 기초하여, 스트림 분리부(213)에 의해 분리되는 스트림으로부터, 음성 발화 메타데이터 파일을 취득하고, 거기에서 얻어지는 내용을 포함하고 있는 음성 발화 메타데이터를 TTS 엔진(219)에 공급한다. 한편, 음성 발화 메타데이터 취득부(218)는, 음성 발화 메타데이터가 그 내용을 포함하고 있을 경우에는, 당해 음성 발화 메타데이터를 그대로 TTS 엔진(219)에 공급한다.
스텝 S216에 있어서, TTS 엔진(219)은, 음성 발화 메타데이터 취득부(218)로부터 공급되는 음성 발화 메타데이터에 기초하여, 유저 인터페이스 등의 표시 정보를 소리 내어 읽고, 그 음성을 스피커(216)로부터 출력한다.
여기에서는, 스텝 S214의 처리에서, 표시부(215)에 ESG 화면이 표시되어 있는 경우에 있어서, 시각 장애자에 대하여 엑세서블하게 하기 위해, 타이틀이나 프로그램 정보 등을 소리 내어 읽을 때에 있어, 텍스트 정보의 읽는 법이 한가지로 정해지지 않을 때 등에, TTS 엔진(219)은 음성 발화 메타데이터에 따라, 텍스트 정보가 제작자가 의도한 대로 소리 내어 읽히게 한다.
이상, 수신 처리에 대하여 설명했다. 이 수신 처리에서는, 송신 장치(10)로부터 송신되어 오는, 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 음성 발화 메타데이터를 포함하는 ESG 정보가 수신되고, ESG 정보에 포함되는 음성 발화 메타데이터가 취득되며, 음성 발화 메타데이터에 기초하여, 유저 인터페이스 등의 표시 정보가 소리 내어 읽힌다.
이에 의해, TTS 엔진(219)에 있어서는, 음성 발화 메타데이터에 기초하여, 표시 정보를 소리 내어 읽으므로, 예를 들어, 텍스트 정보의 읽는 법이 한가지로 정해지지 않은 경우나, 발음이 난해한 고유 명사 등인 경우 등이더라도, 확실하게 제작자가 의도한 대로 텍스트 정보가 소리 내어 읽힌다. 그 결과, 시각 장애자가 정상인과 동등한 정보를 얻을 수 있게 된다.
<6. 변형예>
상술한 설명에서는, 음성 발화 메타데이터에 어드레스 정보가 포함되어 있는 경우에는, 당해 어드레스 정보에 따라, FLUTE 세션으로 전송되는 음성 발화 메타데이터 파일이 취득된다고 설명했지만, 음성 발화 메타데이터 파일은, 인터넷상의 서버로부터 배신되도록 해도 된다. 이 경우, 어드레스 정보로서는, 서버의 URL(Uniform Resource Locator) 등이 지정된다.
또한, 상술한 설명에서는, 전자 프로그램 정보로서, OMA-BCAST로 규정된 ESG를 설명했지만, 본 기술은, 예를 들어, EPG(Electronic Program Guide), 그 밖의 전자 프로그램 정보에 적용할 수 있다. 또한, ESG 정보 등의 전자 프로그램 정보가, 인터넷상의 서버로부터 배신되어, 수신 장치(20)에 의해 수신되도록 해도 된다.
<7. 컴퓨터의 구성>
상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 컴퓨터에 인스톨된다. 도 22는 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터 하드웨어의 구성예를 도시하는 도면이다.
컴퓨터(900)에 있어서, CPU(Central Processing Unit)(901), ROM(Read Only Memory)(902), RAM(Random Access Memory)(903)은, 버스(904)에 의해 서로 접속되어 있다. 버스(904)에는 또한, 입출력 인터페이스(905)가 접속되어 있다. 입출력 인터페이스(905)에는 입력부(906), 출력부(907), 기록부(908), 통신부(909), 및 드라이브(910)가 접속되어 있다.
입력부(906)는 키보드, 마우스, 마이크로폰 등을 포함한다. 출력부(907)는 디스플레이, 스피커 등을 포함한다. 기록부(908)는 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(909)는 네트워크 인터페이스 등을 포함한다. 드라이브(910)는 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 미디어(911)를 구동한다.
이상과 같이 구성되는 컴퓨터(900)에서는, CPU(901)가, ROM(902)이나 기록부(908)에 기억되어 있는 프로그램을, 입출력 인터페이스(905) 및 버스(904)를 통하여, RAM(903)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.
컴퓨터(900)(CPU(901))가 실행하는 프로그램은, 예를 들어, 패키지 미디어 등으로서의 리무버블 미디어(911)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬에리어 네트워크, 인터넷, 디지털 위성 방송 등의 유선 또는 무선의 전송 매체를 통하여 제공할 수 있다.
컴퓨터(900)에서는, 프로그램은 리무버블 미디어(911)를 드라이브(910)에 장착함으로써, 입출력 인터페이스(905)를 통하여 기록부(908)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통하여 통신부(909)에서 수신하고, 기록부(908)에 인스톨할 수 있다. 그 밖에 프로그램은, ROM(902)이나 기록부(908)에 미리 인스톨해 둘 수 있다.
여기서, 본 명세서에 있어서, 컴퓨터가 프로그램에 따라서 행하는 처리는, 반드시 흐름도로서 기재된 순서에 따라서 시계열로 행해질 필요는 없다. 즉, 컴퓨터가 프로그램에 따라서 행하는 처리는, 병렬적 또는 개별로 실행되는 처리(예를 들어, 병렬 처리 또는 오브젝트에 의한 처리)도 포함한다. 또한, 프로그램은 하나의 컴퓨터(프로세서)에 의해 처리되는 것이어도 되고, 복수의 컴퓨터에 의해 분산 처리되는 것이어도 된다.
또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니며, 본 기술의 요지를 일탈하지 않는 범위에서 다양한 변경이 가능하다.
또한, 본 기술은, 이하와 같은 구성을 취할 수 있다.
(1)
표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터를 생성하는 메타데이터 생성부와,
상기 메타데이터를 포함하는 전자 프로그램 정보를 생성하는 전자 프로그램 정보 생성부와,
상기 표시 정보를 표시 가능한 수신 장치에 대하여 상기 전자 프로그램 정보를 송신하는 송신부
를 구비하는 송신 장치.
(2)
상기 메타데이터는, 읽는 법이 한가지로 정해지지 않은 문자열, 또는 발음이 난해한 문자열의 발화에 관한 정보를 포함하고 있는
(1)에 기재된 송신 장치.
(3)
상기 표시 정보는 콘텐츠에 관한 정보, 또는 아이콘을 포함하고 있는
(1) 또는 (2)에 기재된 송신 장치.
(4)
상기 콘텐츠를 취득하는 콘텐츠 취득부를 더 구비하고,
상기 송신부는 상기 전자 프로그램 정보를 상기 콘텐츠와 함께, 디지털 방송 신호로 송신하는
(3)에 기재된 송신 장치.
(5)
상기 전자 프로그램 정보는 OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)로 규정된 ESG(Electronic Service Guide)에 준거하고 있고,
상기 메타데이터는 SSML(Speech Synthesis Markup Language) 형식으로 기술되고,
상기 ESG를 구성하는 소정의 프래그먼트에, 상기 SSML 형식으로 기술된 상기 메타데이터 파일의 취득처를 나타내는 어드레스 정보, 또는 상기 SSML 형식으로 기술된 상기 메타데이터의 내용 그 자체가 포함되는
(1) 내지 (4) 중 어느 하나에 기재된 송신 장치.
(6)
송신 장치의 송신 방법에 있어서,
상기 송신 장치가,
표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터를 생성하고,
상기 메타데이터를 포함하는 전자 프로그램 정보를 생성하고,
상기 표시 정보를 표시 가능한 수신 장치에 대하여 상기 전자 프로그램 정보를 송신하는
스텝을 포함하는 송신 방법.
(7)
송신 장치로부터 송신되어 오는, 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터를 포함하는 전자 프로그램 정보를 수신하는 수신부와,
상기 전자 프로그램 정보에 포함되는 상기 메타데이터를 취득하는 메타데이터 취득부와,
상기 메타데이터에 기초하여, 상기 표시 정보를 소리 내어 읽는 음성 읽기부
를 구비하는 수신 장치.
(8)
상기 메타데이터는, 읽는 법이 한가지로 정해지지 않은 문자열, 또는 발음이 난해한 문자열의 발화에 관한 정보를 포함하고 있는
(7)에 기재된 수신 장치.
(9)
상기 표시 정보는 콘텐츠에 관한 정보, 또는 아이콘을 포함하고 있는
(7) 또는 (8)에 기재된 수신 장치.
(10)
상기 수신부는 디지털 방송 신호로서, 상기 콘텐츠와 함께 송신되는 상기 전자 프로그램 정보를 수신하는
(9)에 기재된 수신 장치.
(11)
상기 전자 프로그램 정보는 OMA-BCAST로 규정된 ESG에 준거하고 있고,
상기 메타데이터는 SSML 형식으로 기술되고,
상기 ESG를 구성하는 소정의 프래그먼트에, 상기 SSML 형식으로 기술된 상기 메타데이터 파일의 취득처를 나타내는 어드레스 정보, 또는 상기 SSML 형식으로 기술된 상기 메타데이터의 내용 그 자체가 포함되어 있고,
상기 메타데이터 취득부는, 상기 어드레스 정보에 따라 상기 메타데이터의 파일을 취득하거나, 또는 상기 프래그먼트로부터 상기 메타데이터를 취득하는
(7) 내지 (10) 중 어느 하나에 기재된 수신 장치.
(12)
수신 장치의 수신 방법에 있어서,
상기 수신 장치가,
송신 장치로부터 송신되어 오는, 표시 정보에 대한 제작자가 의도하는 음성의 발화에 관한 메타데이터를 포함하는 전자 프로그램 정보를 수신하고,
상기 전자 프로그램 정보에 포함되는 상기 메타데이터를 취득하고,
상기 메타데이터에 기초하여, 상기 표시 정보를 소리 내어 읽는
스텝을 포함하는 수신 방법.
1: 방송 시스템
10: 송신 장치
20: 수신 장치
111: 콘텐츠 취득부
112: 음성 발화 메타데이터 생성부
113: ESG 정보 생성부
114: 스트림 생성부
115: 송신부
212: 수신부
213: 스트림 분리부
214: 재생부
215: 표시부
216: 스피커
217: ESG 정보 취득부
218: 음성 발화 메타데이터 취득부
219: TTS 엔진
900: 컴퓨터
901: CPU

Claims (21)

  1. 송신 장치로서,
    하나 이상의 프로세서를 포함하고,
    상기 하나 이상의 프로세서는:
    표시 정보의 음성 정보(speech phonetic information)에 대한 메타데이터를 생성하고 - 상기 음성 정보의 음성 발화(text-to-speech utterance)는 상기 메타데이터에 기초하여 생성됨 -;
    서비스 가이드의 서비스 프래그먼트를 생성하고 - 상기 서비스 프래그먼트는 상기 표시 정보의 표시 정보 요소 및 상기 표시 정보 요소의 적어도 하나의 서브 요소 내의 상기 메타데이터를 포함함 -; 및
    상기 표시 정보를 표시하는 수신 장치에 상기 서비스 프래그먼트를 송신하도록 구성되고,
    상기 메타데이터는 상기 표시 정보 요소의 정보 서브 요소에 내장 음성 정보 오브젝트를 포함하고 상기 내장 음성 정보 오브젝트와 연관된 마크업 언어를 표시하거나, 또는 상기 메타데이터는 음성 정보 오브젝트를 취득하기 위해 상기 표시 정보 요소의 정보 URI 서브 요소에 어드레스 정보를 포함하고 상기 어드레스 정보에 의해 참조되는 상기 음성 정보 오브젝트와 연관된 마크업 언어를 표시하고,
    상기 송신된 서비스 프래그먼트는 상기 수신 장치에 의해 상기 표시 정보를 표시하기 위한 상기 표시 정보 요소를 포함하고, 상기 수신 장치에 의해 상기 음성 발화를 생성하기 위해 상기 내장 음성 정보 오브젝트 또는 상기 어드레스 정보 중 적어도 하나를 포함하는, 송신 장치.
  2. 제1항에 있어서,
    상기 메타데이터는, 읽는 법이 한가지로 정해지지 않은 문자열, 또는 고유명사를 포함하는 문자열 중 하나의 발화에 관한 정보를 포함하고 있는, 송신 장치.
  3. 제2항에 있어서, 상기 표시 정보는 콘텐츠의 정보 또는 상기 콘텐츠의 아이콘 중 하나를 포함하는, 송신 장치.
  4. 제3항에 있어서, 상기 하나 이상의 프로세서는 또한:
    상기 콘텐츠를 취득하고,
    상기 서비스 프래그먼트를 상기 콘텐츠와 함께 디지털 방송 신호로 송신하도록 구성되는, 송신 장치.
  5. 제1항에 있어서,
    상기 서비스 가이드는 OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)로 규정된 ESG(Electronic Service Guide)에 준거하고 있고,
    상기 내장 음성 정보 오브젝트 또는 상기 음성 정보 오브젝트 중 적어도 하나는 SSML(Speech Synthesis Markup Language) 형식으로 기술되고,
    상기 ESG에 포함된 상기 서비스 프래그먼트는 상기 SSML 형식으로 기술된 상기 음성 정보 오브젝트, 또는 상기 SSML 형식으로 기술된 상기 내장 음성 정보 오브젝트 중 적어도 하나를 취득하기 위한 상기 어드레스 정보를 포함하는, 송신 장치.
  6. 제1항에 있어서, 상기 표시 정보 요소는 상기 서비스 프래그먼트의 이름 또는 기술 요소인, 송신 장치.
  7. 제1항에 있어서, 상기 송신된 서비스 프래그먼트는 상기 수신 장치에 의해 상기 음성 발화를 생성하기 위한 상기 어드레스 정보를 포함하고, 상기 어드레스 정보에서 이용 가능한 음성 발화 메타데이터의 종별을 표시하는 타입 속성을 포함하는, 송신 장치.
  8. 송신 장치의 송신 방법으로서,
    상기 송신 장치의 하나 이상의 프로세서에 의해, 표시 정보의 음성 정보에 대한 메타데이터를 생성하는 단계 - 상기 음성 정보의 음성 발화는 상기 메타데이터에 기초하여 생성됨 -;
    상기 송신 장치의 하나 이상의 프로세서에 의해, 서비스 가이드의 서비스 프래그먼트를 생성하는 단계 - 상기 서비스 프래그먼트는 상기 표시 정보의 표시 정보 요소 및 상기 표시 정보 요소의 적어도 하나의 서브 요소 내의 상기 메타데이터를 포함함 -; 및
    상기 표시 정보를 표시할 수 있는 수신 장치에 상기 서비스 프래그먼트를 송신하는 단계
    를 포함하고,
    상기 메타데이터는 상기 표시 정보 요소의 정보 서브 요소에 내장 음성 정보 오브젝트를 포함하고 상기 내장 음성 정보 오브젝트와 연관된 마크업 언어를 표시하거나, 또는 상기 메타데이터는 음성 정보 오브젝트를 취득하기 위해 상기 표시 정보 요소의 정보 URI 서브 요소에 어드레스 정보를 포함하고 상기 어드레스 정보에 의해 참조되는 상기 음성 정보 오브젝트와 연관된 마크업 언어를 표시하고,
    상기 송신된 서비스 프래그먼트는 상기 수신 장치에 의해 상기 표시 정보를 표시하기 위한 상기 표시 정보 요소를 포함하고, 상기 수신 장치에 의해 상기 음성 발화를 생성하기 위해 상기 내장 음성 정보 오브젝트 또는 상기 어드레스 정보 중 적어도 하나를 포함하는, 송신 방법.
  9. 수신 장치로서,
    하나 이상의 프로세서를 포함하고, 상기 하나 이상의 프로세서는:
    송신 장치로부터 서비스 가이드의 서비스 프래그먼트를 수신하고 - 상기 서비스 프래그먼트는 표시 정보의 표시 정보 요소 및 상기 표시 정보의 음성 정보에 대한 메타데이터를 포함하고, 상기 메타데이터는 상기 표시 정보 요소의 적어도 하나의 서브 요소에 포함되고, 상기 음성 정보의 음성 발화는 상기 메타데이터에 기초하여 생성됨 -;
    상기 서비스 프래그먼트 내에 포함된 상기 메타데이터를 취득하고,
    상기 메타데이터에 기초하여 상기 표시 정보를 소리 내어 읽도록 구성되고,
    상기 메타데이터는 상기 표시 정보 요소의 정보 서브 요소에 내장 음성 정보 오브젝트를 포함하고 상기 내장 음성 정보 오브젝트와 연관된 마크업 언어를 표시하거나, 또는 상기 메타데이터는 음성 정보 오브젝트를 취득하기 위해 상기 표시 정보 요소의 정보 URI 서브 요소에 어드레스 정보를 포함하고 상기 어드레스 정보에 의해 참조되는 상기 음성 정보 오브젝트와 연관된 마크업 언어를 표시하고,
    상기 수신된 서비스 프래그먼트는 상기 수신 장치에 의해 상기 표시 정보를 표시하기 위한 상기 표시 정보 요소를 포함하고, 상기 수신 장치에 의해 상기 음성 발화를 생성하기 위해 상기 내장 음성 정보 오브젝트 또는 상기 어드레스 정보 중 적어도 하나를 포함하는, 수신 장치.
  10. 제9항에 있어서,
    상기 메타데이터는, 읽는 법이 한가지로 정해지지 않은 문자열, 또는 고유명사를 포함하는 문자열의 발화에 관한 정보를 포함하고 있는, 수신 장치.
  11. 제10항에 있어서,
    상기 표시 정보는 콘텐츠의 정보 또는 상기 콘텐츠의 아이콘 중 하나를 포함하는, 수신 장치.
  12. 제11항에 있어서,
    상기 하나 이상의 프로세서는 또한 상기 콘텐츠와 함께 디지털 방송 신호로 송신되는 상기 서비스 프래그먼트를 수신하도록 구성되는, 수신 장치.
  13. 제9항에 있어서,
    상기 서비스 가이드는 OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)로 규정된 ESG(Electronic Service Guide)에 준거하고 있고,
    상기 메타데이터는 SSML(Speech Synthesis Markup Language) 형식으로 기술되고,
    상기 ESG에 포함된 상기 서비스 프래그먼트는 상기 SSML 형식으로 기술된 상기 음성 정보 오브젝트, 또는 상기 SSML 형식으로 기술된 상기 내장 음성 정보 오브젝트 중 적어도 하나를 취득하기 위한 상기 어드레스 정보를 포함하고,
    상기 하나 이상의 프로세서는 또한 상기 어드레스 정보에 따라 상기 음성 정보 오브젝트를 취득하거나, 상기 프래그먼트로부터 상기 내장 음성 정보 오브젝트를 취득하도록 구성되는, 수신 장치.
  14. 제9항에 있어서, 상기 표시 정보 요소는 상기 서비스 프래그먼트의 이름 또는 기술 요소인, 수신 장치.
  15. 제9항에 있어서,
    상기 수신된 서비스 프래그먼트는 상기 수신 장치에 의해 상기 음성 발화를 생성하기 위한 상기 어드레스 정보를 포함하고, 상기 어드레스 정보에서 이용 가능한 음성 발화 메타데이터의 종별을 표시하는 타입 속성을 포함하는, 수신 장치.
  16. 수신 장치의 수신 방법으로서,
    송신 장치로부터 서비스 가이드의 서비스 프래그먼트를 수신하는 단계 - 상기 서비스 프래그먼트는 표시 정보의 표시 정보 요소 및 상기 표시 정보의 음성 정보에 대한 메타데이터를 포함하고, 상기 메타데이터는 상기 표시 정보 요소의 적어도 하나의 서브 요소에 포함되고, 상기 음성 정보의 음성 발화는 상기 메타데이터에 기초하여 생성됨 -;
    상기 서비스 프래그먼트 내에 포함된 상기 메타데이터를 취득하는 단계; 및
    상기 메타데이터에 기초하여 상기 표시 정보를 소리 내어 읽는 단계
    를 포함하고,
    상기 메타데이터는 상기 표시 정보 요소의 정보 서브 요소에 내장 음성 정보 오브젝트를 포함하고 상기 내장 음성 정보 오브젝트와 연관된 마크업 언어를 표시하거나, 또는 상기 메타데이터는 음성 정보 오브젝트를 취득하기 위해 상기 표시 정보 요소의 정보 URI 서브 요소에 어드레스 정보를 포함하고 상기 어드레스 정보에 의해 참조되는 상기 음성 정보 오브젝트와 연관된 마크업 언어를 표시하고,
    상기 수신된 서비스 프래그먼트는 상기 수신 장치에 의해 상기 표시 정보를 표시하기 위한 상기 표시 정보 요소를 포함하고, 상기 수신 장치에 의해 상기 음성 발화를 생성하기 위해 상기 내장 음성 정보 오브젝트 또는 상기 어드레스 정보 중 적어도 하나를 포함하는, 수신 방법.
  17. 제16항에 있어서,
    상기 메타데이터는, 읽는 법이 한가지로 정해지지 않은 문자열, 또는 고유명사를 포함하는 문자열의 발화에 관한 정보를 포함하고 있는, 수신 방법.
  18. 제16항에 있어서,
    상기 서비스 가이드는 OMA-BCAST(Open Mobile Alliance - Mobile Broadcast Services Enabler Suite)로 규정된 ESG(Electronic Service Guide)에 준거하고 있고,
    상기 메타데이터는 SSML(Speech Synthesis Markup Language) 형식으로 기술되고,
    상기 ESG에 포함된 상기 서비스 프래그먼트는 상기 SSML 형식으로 기술된 상기 음성 정보 오브젝트, 또는 상기 SSML 형식으로 기술된 상기 내장 음성 정보 오브젝트 중 적어도 하나를 취득하기 위한 상기 어드레스 정보를 포함하고,
    상기 방법은,
    상기 어드레스 정보에 따라 상기 음성 정보 오브젝트를 취득하거나, 상기 프래그먼트로부터 상기 내장 음성 정보 오브젝트를 취득하는 단계를 더 포함하는, 수신 방법.
  19. 제16항에 있어서, 상기 표시 정보 요소는 상기 서비스 프래그먼트의 이름 또는 기술 요소인, 수신 방법.
  20. 제16항에 있어서,
    상기 수신된 서비스 프래그먼트는 상기 수신 장치에 의해 상기 음성 발화를 생성하기 위한 상기 어드레스 정보를 포함하고, 상기 어드레스 정보에서 이용 가능한 음성 발화 메타데이터의 종별을 표시하는 타입 속성을 포함하는, 수신 방법.
  21. 제9항 내지 제15항 중 어느 한 항에 있어서, 상기 수신 장치는 텔레비전 수상기인, 수신 장치.
KR1020187031616A 2014-07-14 2015-07-01 수신 장치 및 수신 방법 KR102307330B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2014144143 2014-07-14
JPJP-P-2014-144143 2014-07-14
PCT/JP2015/068964 WO2016009834A1 (ja) 2014-07-14 2015-07-01 送信装置、送信方法、受信装置、及び、受信方法
KR1020167034873A KR20170033273A (ko) 2014-07-14 2015-07-01 송신 장치, 송신 방법, 수신 장치, 및 수신 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167034873A Division KR20170033273A (ko) 2014-07-14 2015-07-01 송신 장치, 송신 방법, 수신 장치, 및 수신 방법

Publications (2)

Publication Number Publication Date
KR20180122040A KR20180122040A (ko) 2018-11-09
KR102307330B1 true KR102307330B1 (ko) 2021-09-30

Family

ID=55078332

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020187031616A KR102307330B1 (ko) 2014-07-14 2015-07-01 수신 장치 및 수신 방법
KR1020167034873A KR20170033273A (ko) 2014-07-14 2015-07-01 송신 장치, 송신 방법, 수신 장치, 및 수신 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020167034873A KR20170033273A (ko) 2014-07-14 2015-07-01 송신 장치, 송신 방법, 수신 장치, 및 수신 방법

Country Status (10)

Country Link
US (2) US10491934B2 (ko)
EP (1) EP3171610B1 (ko)
JP (1) JPWO2016009834A1 (ko)
KR (2) KR102307330B1 (ko)
MX (1) MX368686B (ko)
MY (1) MY188845A (ko)
RU (1) RU2686663C2 (ko)
SG (1) SG11201700130VA (ko)
WO (1) WO2016009834A1 (ko)
ZA (1) ZA201608004B (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017209514A1 (ko) * 2016-06-01 2017-12-07 엘지전자(주) 방송 신호 송수신 장치 및 방법
JP2018101828A (ja) * 2016-12-19 2018-06-28 船井電機株式会社 制御装置
US11380300B2 (en) 2019-10-11 2022-07-05 Samsung Electronics Company, Ltd. Automatically generating speech markup language tags for text

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022374A (ja) 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
US20090187950A1 (en) 2008-01-18 2009-07-23 At&T Knowledge Ventures, L.P. Audible menu system

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258763A (ja) 1996-03-18 1997-10-03 Nec Corp 音声合成装置
JP2001043215A (ja) * 1999-08-02 2001-02-16 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
US7798417B2 (en) * 2000-01-03 2010-09-21 Snyder David M Method for data interchange
CN1813285B (zh) 2003-06-05 2010-06-16 株式会社建伍 语音合成设备和方法
GB2406754A (en) 2003-10-03 2005-04-06 Nokia Corp Same or similar service handover
US8398501B2 (en) * 2003-10-09 2013-03-19 William Bradford Priester Muscle training apparatus and method
US7877259B2 (en) 2004-03-05 2011-01-25 Lessac Technologies, Inc. Prosodic speech text codes and their use in computerized speech systems
JP2006100892A (ja) * 2004-09-28 2006-04-13 Fujitsu Ten Ltd 放送受信装置
DE102006005037B4 (de) 2006-02-03 2012-03-29 Airbus Operations Gmbh Klimatisierungsanordnung für ein Flugzeug mit mehreren individuell temperaturregelbaren Klimazonen
KR100699050B1 (ko) 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
BRPI0602943B1 (pt) * 2006-06-30 2017-05-23 Brudden Equip sinalizador de desalinhamento de correia de esteira ergométrica
EP1883228A1 (en) * 2006-07-26 2008-01-30 Gemplus A broadcast system with a local electronic service guide generation
JP2008166441A (ja) * 2006-12-27 2008-07-17 Spansion Llc 半導体装置およびその製造方法
JP4972011B2 (ja) 2008-02-26 2012-07-11 日本放送協会 触覚提示装置及び触覚提示方法
KR20090103637A (ko) * 2008-03-28 2009-10-01 삼성전자주식회사 방송 시스템에서 펌웨어를 업데이트하는 방법과 장치 및 그시스템
US8229748B2 (en) 2008-04-14 2012-07-24 At&T Intellectual Property I, L.P. Methods and apparatus to present a video program to a visually impaired person
WO2011062385A2 (ko) * 2009-11-17 2011-05-26 엘지전자 주식회사 방송 신호 송수신 방법 및 그를 이용한 방송 수신 장치
US8949128B2 (en) * 2010-02-12 2015-02-03 Nuance Communications, Inc. Method and apparatus for providing speech output for speech-enabled applications
JP2011188170A (ja) 2010-03-08 2011-09-22 Panasonic Corp 音声データ受信装置および音声データ受信方法
JPWO2011111321A1 (ja) 2010-03-11 2013-06-27 パナソニック株式会社 音声読み上げ装置および音声読み上げ方法
EP2566156A4 (en) * 2010-04-28 2015-04-29 Lg Electronics Inc BROADCAST TRANSMITTER, BROADCAST RECEIVER AND METHOD FOR SENDING AND RECEIVING BROADCAST SIGNALS WITH DEVICES FOR TRANSMITTING AND RECEIVING BROADCAST SIGNALS
JP4991915B2 (ja) * 2010-07-05 2012-08-08 株式会社東芝 周波数変換回路、信号処理回路及び受信機
JP5533377B2 (ja) 2010-07-13 2014-06-25 富士通株式会社 音声合成装置、音声合成プログラムおよび音声合成方法
GB2481992A (en) * 2010-07-13 2012-01-18 Sony Europe Ltd Updating text-to-speech converter for broadcast signal receiver
GB2489242B (en) * 2011-03-21 2016-02-03 Cooper Technologies Co Locking switch assembly and manufacture of locking component
JP5634455B2 (ja) * 2012-08-16 2014-12-03 株式会社東芝 音声学習装置、方法およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022374A (ja) 1999-07-05 2001-01-26 Victor Co Of Japan Ltd 電子番組ガイドの操作装置および電子番組ガイドの送信装置
US20090187950A1 (en) 2008-01-18 2009-07-23 At&T Knowledge Ventures, L.P. Audible menu system

Also Published As

Publication number Publication date
US11197048B2 (en) 2021-12-07
EP3171610B1 (en) 2022-12-07
MX2017000281A (es) 2017-04-27
KR20180122040A (ko) 2018-11-09
RU2017100076A (ru) 2018-07-09
ZA201608004B (en) 2017-08-30
RU2017100076A3 (ko) 2018-10-11
US20200053412A1 (en) 2020-02-13
EP3171610A1 (en) 2017-05-24
SG11201700130VA (en) 2017-02-27
US10491934B2 (en) 2019-11-26
MY188845A (en) 2022-01-09
EP3171610A4 (en) 2017-12-20
WO2016009834A1 (ja) 2016-01-21
JPWO2016009834A1 (ja) 2017-05-25
US20170134782A1 (en) 2017-05-11
RU2686663C2 (ru) 2019-04-30
MX368686B (es) 2019-10-11
BR112017000101A2 (pt) 2017-10-31
KR20170033273A (ko) 2017-03-24

Similar Documents

Publication Publication Date Title
CN103069810B (zh) 虚拟频道声明对象脚本绑定
US8229748B2 (en) Methods and apparatus to present a video program to a visually impaired person
US10154305B2 (en) Using an audio stream to identify metadata associated with a currently playing television program
KR102520019B1 (ko) 방송 환경들에서의 스피치 인식 애플리케이션들에 대한 스피치 강화
US8645134B1 (en) Generation of timed text using speech-to-text technology and applications thereof
US11197048B2 (en) Transmission device, transmission method, reception device, and reception method
US11490169B2 (en) Events in timed metadata tracks
US8863193B2 (en) Information processing apparatus, broadcast receiving apparatus and information processing method
KR102468214B1 (ko) 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
JP2010230948A (ja) コンテンツ配信システムおよびテキスト表示方法
JP4755717B2 (ja) 放送受信端末装置
WO2013080866A1 (ja) 情報処理システム及び情報処理方法
KR20090074643A (ko) 전자책 서비스 제공 방법
EP1952629A1 (en) Method and apparatus for synchronizing visual and voice data in dab/dmb service system
JP2016116032A (ja) 受信装置、放送システム、受信方法及びプログラム
JP5010102B2 (ja) 放送受信方式
JP2021057906A (ja) 放送信号受信装置
JP2021061604A (ja) 放送信号送受信装置
BR112017000101B1 (pt) Dispositivos e métodos de transmissão e de recepção.
JP2006197353A (ja) 放送受信端末装置
KR20190093386A (ko) 음성 인식을 기반으로 디지털 방송에서의 전자 서비스 안내 서비스를 제공하는 장치 및 그 방법

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right