KR20190141569A - 정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법 - Google Patents

정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법 Download PDF

Info

Publication number
KR20190141569A
KR20190141569A KR1020187035957A KR20187035957A KR20190141569A KR 20190141569 A KR20190141569 A KR 20190141569A KR 1020187035957 A KR1020187035957 A KR 1020187035957A KR 20187035957 A KR20187035957 A KR 20187035957A KR 20190141569 A KR20190141569 A KR 20190141569A
Authority
KR
South Korea
Prior art keywords
voice command
content
user
voice
server
Prior art date
Application number
KR1020187035957A
Other languages
English (en)
Inventor
다츠야 이가라시
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20190141569A publication Critical patent/KR20190141569A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • H04L65/607
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)

Abstract

사용자에게 콘텐츠의 프레젠테이션을 하는 동안 사용자로부터 콘텐츠에 관한 목소리 커맨드를 수신하도록 구성되는 처리 회로를 포함하는 수신 장치가 제공된다. 처리 회로는 처리를 위해 서버 시스템에 목소리 커맨드를 송신하도록 구성된다. 처리 회로는 서버 시스템으로부터 목소리 커맨드에 대한 응답을 수신하도록 구성된다. 목소리 커맨드에 대한 응답은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성된다.

Description

정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법
본 기술은 정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법에 관한 것이고, 구체적으로, 콘텐츠의 재생 시에 음성 대화를 사용하여 동작의 편의의 개선을 달성할 수 있는 정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법에 관한 것이다.
관련 출원들의 상호 참조
본 출원은 2017년 4월 21일에 출원된 일본 우선권 특허 출원 JP 2017-084575의 이익을 주장하며, 그것의 전체 내용들은 참조를 통해 본 명세서에 포함된다.
방송 콘텐츠와 연관하여 실행되는 방송 애플리케이션들이 제안되었다(예를 들어, PTL 1 참조). 방송 애플리케이션들을 사용함으로써, 예를 들어, 방송 콘텐츠에 관한 정보를 디스플레이하는 것이 가능하다.
추가로, 사용자들의 스피치 콘텐츠를 분석하기 위해 실행되는 음성 인식 기술들이 제안되었다(예를 들어, PTL 2 참조). 예를 들어, 이 기술들이 텔레비전 수신기들이나 휴대용 단말 디바이스들에 적용될 때, 사용자들이 말하는 단어들이 분석될 수 있고, 스피치에 따른 프로세스들이 실행될 수 있다.
[PTL 1] JP 2013-187781A [PTL 2] JP 2014-153663A
부수적으로, 텔레비전 수신기들에서, 동작들은 일반적으로 보조 원격 제어기들을 사용하여 실행된다. 하지만, 콘텐츠의 재생 시에 방송 애플리케이션들에 관한 동작들이 실행되는 경우, 원격 제어기를 사용하여 동작들을 수행하는 것이 반드시 적합하다고 할 수는 없고, 음성 대화를 사용하여 동작들을 수행하는 방법이 요구된다.
콘텐츠의 재생 시에 음성 대화를 사용하여 동작의 편의의 개선을 달성하는 것이 바람직하다.
본 개시의 실시예에서는, 수신 장치가 제공된다. 수신 장치는 사용자에게 콘텐츠의 프레젠테이션을 하는 동안 사용자로부터 콘텐츠에 관한 목소리 커맨드를 수신하도록 구성되는 처리 회로를 포함한다. 처리 회로는 처리를 위해 서버 시스템에 목소리 커맨드를 송신하도록 구성된다. 처리 회로는 서버 시스템으로부터 목소리 커맨드에 대한 응답을 수신하도록 구성된다. 목소리 커맨드에 대한 응답은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성된다.
본 개시의 실시예에서는, 목소리 커맨드에 대한 응답을 수신하기 위한 방법이 제공된다. 방법은 사용자에게 콘텐츠의 프레젠테이션을 하는 동안 사용자로부터 콘텐츠에 관한 목소리 커맨드를 수신하는 단계, 및 수신 장치의 처리 회로에 의해, 처리를 위해 서버 시스템에 목소리 커맨드를 송신하는 단계를 포함한다. 방법은 수신 장치의 처리 회로에 의해, 서버 시스템으로부터 목소리 커맨드에 대한 응답을 수신하는 단계를 추가로 포함한다. 목소리 커맨드에 대한 응답은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성된다.
본 개시의 실시예에서는, 프로세서에 의해 실행될 때 프로세서가 목소리 커맨드에 대한 응답을 수신하기 위한 방법을 수행하도록 야기하는 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 매체가 제공된다. 방법은 사용자에게 콘텐츠의 프레젠테이션을 하는 동안 사용자로부터 콘텐츠에 관한 목소리 커맨드를 수신하는 단계, 및 처리를 위해 서버 시스템에 목소리 커맨드를 송신하는 단계를 포함한다. 방법은 서버 시스템으로부터 목소리 커맨드에 대한 응답을 수신하는 단계를 추가로 포함한다. 목소리 커맨드에 대한 응답은 목소리 커맨드 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성된다.
본 개시의 실시예에서는, 처리 회로를 포함하는 정보 처리 시스템이 제공된다. 처리 회로는 사용자에게 제시되는 콘텐츠에 관한 목소리 커맨드를 수신 장치로부터 수신하고, 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻도록 구성된다. 처리 회로는 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 얻어지는 콘텐츠 정보에 기초하여 목소리 커맨드에 대한 응답을 생성하도록 구성된다. 처리 회로는 목소리 커맨드에 대한 생성되는 응답을 수신 장치에 송신하도록 추가로 구성된다.
본 개시의 실시예에서는, 목소리 커맨드를 처리하기 위한 방법이 제공된다. 방법은 사용자에게 제시되는 콘텐츠에 관한 목소리 커맨드를 수신 장치로부터 수신하는 단계, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻는 단계를 포함한다. 방법은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 얻어지는 콘텐츠 정보에 기초하여 목소리 커맨드에 대한 응답을 정보 처리 장치의 처리 회로에 의해 생성하는 단계를 포함한다. 방법은 목소리 커맨드에 대한 생성되는 응답을 수신 장치에 송신하는 단계를 추가로 포함한다.
본 개시의 실시예에서는, 프로세서에 의해 실행될 때 프로세서가 목소리 커맨드를 처리하기 위한 방법을 수행하도록 야기하는 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 매체가 제공된다. 방법은 사용자에게 제시되는 콘텐츠에 관한 목소리 커맨드를 수신 장치로부터 수신하는 단계, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻는 단계를 포함한다. 방법은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 얻어지는 콘텐츠 정보에 기초하여 목소리 커맨드에 대한 응답을 생성하는 단계를 포함한다. 방법은 목소리 커맨드에 대한 생성되는 응답을 수신 장치에 송신하는 단계를 추가로 포함한다.
본 기술의 제1 및 제2 실시예들에 따라, 콘텐츠의 재생 시에 음성 대화를 사용하여 동작의 편의의 개선을 달성하는 것이 가능하다.
더욱이, 여기에서 언급된 유용한 효과들은 반드시 제한되는 것은 아니고, 본 개시에 설명된 임의의 유용한 효과가 얻어질 수 있다.
도 1은 본 기술이 적용된 음성 대화 시스템의 실시예의 구성의 예시를 도시하는 블록도이다.
도 2는 송신 디바이스의 구성의 예시를 도시하는 블록도이다.
도 3은 음성 변환 서버 및 기능 공급 서버의 구성들의 예시들을 도시하는 블록도이다.
도 4는 기능 처리 유닛의 상세한 구성의 예시를 도시하는 블록도이다.
도 5는 수신 디바이스의 구성의 예시를 도시하는 블록도이다.
도 6은 음성 처리 디바이스의 구성의 예시를 도시하는 블록도이다.
도 7은 제1 실시예의 개관을 기술하기 위한 도면이다.
도 8은 음성 대화 처리의 흐름을 기술하기 위한 흐름도이다.
도 9는 음성 대화 처리의 흐름을 기술하기 위한 흐름도이다.
도 10은 애플리케이션 협력 프로세스의 흐름을 기술하기 위한 흐름도이다.
도 11은 제2 실시예의 개관을 기술하기 위한 도면이다.
도 12는 활성화 키워드들의 표의 예시를 도시하는 도면이다.
도 13은 활성화 키워드 매칭 프로세스의 흐름을 기술하기 위한 흐름도이다.
도 14는 제3 실시예의 개관을 기술하기 위한 도면이다.
도 15는 협력 아이콘 디스플레이 프로세스의 흐름을 기술하기 위한 흐름도이다.
도 16은 통지 정보의 다른 디스플레이 형태를 도시하는 도면이다.
도 17은 음성 에이전트 서비스에 대응하는 동작 디바이스의 예시를 도시하는 도면이다.
도 18은 컴퓨터의 구성의 예시를 도시하는 블록도이다.
이하, 본 기술의 실시예들은 도면들을 참조하여 설명될 것이다. 더욱이, 설명은 이하의 순서로 이루어질 것이다.
1. 시스템의 구성
2. 제1 실시예 : 애플리케이션 협력에 의한 음성 대화 기능
3. 제2 실시예 : 활성화 키워드들의 단순화
4. 제3 실시예 : 애플리케이션 협력의 디스플레이
5. 수정 예시들
6. 컴퓨터의 구성
1. 시스템의 구성
(음성 대화 시스템의 구성의 예시)
도 1은 본 기술이 적용된 음성 대화 시스템의 실시예의 구성의 예시를 도시하는 블록도이다.
음성 대화 시스템(1)은 콘텐츠를 시청하고 있는 사용자와의 음성 대화를 실현하는 시스템이다. 도 1에서, 음성 대화 시스템(1)은 송신 디바이스(10), 음성 변환 서버(20), 기능 공급 서버(30), 수신 디바이스(50), 및 음성 처리 디바이스(60)를 포함한다.
더욱이, 음성 대화 시스템(1)에서, 음성 변환 서버(20), 기능 공급 서버(30), 수신 디바이스(50), 및 음성 처리 디바이스(60)는 인터넷(90)에 연결될 수 있어 다양한 종류들의 데이터가 교환될 수 있다.
송신 디바이스(10)는 방송 콘텐츠 또는 방송 애플리케이션을 처리하고, 처리된 방송 콘텐츠 또는 방송 애플리케이션을 송신국에 설치된 안테나로부터 방송파들로서 송신한다. 더욱이, 본 명세서에서는 방송 방식으로서, 예를 들어, 차세대 지상파 방송 표준들 중 하나인 ATSC(Advanced Television Systems Committee) 3.0이 사용될 수 있다.
여기에서, 방송 콘텐츠는, 예를 들어, 뉴스, 스포츠, 드라마, 및 쇼핑 채널과 같은 텔레비전 프로그램들이다. 추가로, 방송 애플리케이션은 HTML5(HyperText Markup Language 5)와 같은 마크업 언어 또는 JavaScript(등록 상표)와 같은 스크립트 언어로 개발된 애플리케이션이다. 더욱이, ATSC 3.0에 대응하는 방송 애플리케이션들의 상세한 사항들은 이하의 NPL 1에 개시된다.
NPL 1: ATSC 후보 표준 ATSC 3.0 대화형 콘텐츠(A/344)
음성 변환 서버(20)는 클라우드 기반의 음성 인식 서비스를 공급하는 서버이다. 음성 변환 서버(20)는 인터넷(90)에 연결되는 디바이스로부터 송신되는 음성 데이터를 텍스트 데이터로 변환하고, 텍스트 데이터를 기능 공급 서버(30)에 송신한다.
기능 공급 서버(30)는 음성 변환 서버(20)로부터 송신되는 텍스트 데이터에 대한 프로세스들을 실행함으로써 다양한 기능들(기능 서비스들)을 공급하는 서버이다. 기능 공급 서버(30)는 텍스트 데이터를 처리함으로써 얻어지는 처리된 데이터를 인터넷(90)을 통하여 수신 디바이스(50) 또는 음성 처리 디바이스(60)에 송신한다.
기능 공급 서버(30)에 의해 공급되는 기능 서비스는, 예를 들어, 방송 콘텐츠를 시청하고 있는 사용자와의 음성 대화 기능을 포함한다. 음성 대화 기능은 기능 공급 서버(30)가 서버 애플리케이션을 실행할 수 있게 함으로써 실현된다. 더욱이, 서버 애플리케이션은 각각의 기능 서비스를 위해 개발된다. 추가로, 음성 변환 서버(20) 및 기능 공급 서버(30)는 서로 연결 가능하도록 데이터 센터에 설치된다.
수신 디바이스(50) 및 음성 처리 디바이스(60)는, 예를 들어, 사용자 주택의 동일한 방 또는 상이한 방에 설치된다.
수신 디바이스(50)는, 예를 들어, 텔레비전 수신기, 셋톱 박스(STB), 퍼스널 컴퓨터, 또는 게임 콘솔과 같은 고정 수신기, 또는 스마트폰, 휴대 전화, 또는 태블릿 컴퓨터와 같은 이동 수신기를 포함한다.
수신 디바이스(50)는 송신국으로부터 송신되는 방송파들을 수신 및 처리함으로써 방송 콘텐츠를 재생하고, 비디오 및 음성을 출력한다. 추가로, 수신 디바이스(50)는 방송파들을 처리함으로써 얻어지는 방송 애플리케이션을 실행할 수 있다. 추가로, 수신 디바이스(50)는 인터넷(90)을 통해 기능 공급 서버(30)로부터 송신되는 처리된 데이터를 수신하고, 처리된 데이터에 적합한 음성을 출력한다.
음성 처리 디바이스(60)는, 예를 들어, 가정용 근거리 통신망(LAN)과 같은 네트워크에 연결될 수 있는 스피커이고, 소위 스마트 스피커라고도 일컬어진다. 예를 들어, 이러한 종류의 스피커는 음악을 재생할 수 있고, 조명 장비 또는 공기 조화 장비와 같은 디바이스에서 음성 동작을 실행할 수도 있다. 더욱이, 음성 처리 디바이스(60)는 Bluetooth(등록 상표)와 같은 무선 통신을 통해 다양한 디바이스들에 연결될 수 있다.
추가로, 음성 처리 디바이스(60)는 인터넷(90)을 통해 음성 변환 서버(20) 또는 기능 공급 서버(30)와 협력하여 사용자에게 음성 에이전트 서비스(음성 에이전트 서비스의 사용자 인터페이스)를 공급할 수 있다.
여기에서, 음성 에이전트 서비스는 음성 인식 프로세스 및 자연어 처리와 같은 프로세스들이 결합되고, 말해지는 단어들에 의한 질문 혹은 요청에 응답하여 대답이나 동작이 적합하게 실행되는 기능 또는 서비스를 일컫는다. 즉, 음성 처리 디바이스(60)는 클라이언트 측에 설치되고, 음성 에이전트 서비스의 사용자 인터페이스로서 기능한다. 추가로, 음성 변환 서버(20) 또는 기능 공급 서버(30)는 데이터 센터와 같은 서버 측에 설치되고, 음성 대화 기능을 실현하는 프로세스를 실행한다.
음성 처리 디바이스(60)는 사용자에 의해 말해지는 음성을 수신하고, 음성 데이터를 인터넷(90)을 통해 음성 변환 서버(20)에 송신한다. 추가로, 음성 처리 디바이스(60)는 인터넷(90)을 통해 기능 공급 서버(30)로부터 송신되는 처리된 데이터를 수신하고, 처리된 데이터에 적합한 음성을 출력한다.
(송신 디바이스의 구성의 예시)
도 2는 도 1의 송신 디바이스(10)의 구성의 예시를 도시하는 블록도이다.
도 2에서, 송신 디바이스(10)는 콘텐츠 생성 유닛(111), 인코더(112), 애플리케이션 생성 유닛(113), 애플리케이션 처리 유닛(114), 멀티플렉서(115), 및 송신 유닛(116)을 포함한다.
콘텐츠 생성 유닛(111)은 방송 콘텐츠를 생성하고, 생성되는 방송 콘텐츠를 인코더(112)에 공급한다. 더욱이, 방송 콘텐츠는 외부 서버, 카메라, 기록 매체 등으로부터 취득될 수도 있다.
인코더(112)는 콘텐츠 생성 유닛(111)으로부터 공급되는 방송 콘텐츠에 포함되는 음성 데이터 및 비디오 데이터를 미리 결정된 인코딩 방식에 따라 인코딩하고, 인코딩되는 음성 데이터 및 비디오 데이터를 멀티플렉서(115)에 공급한다.
애플리케이션 생성 유닛(113)은 방송 애플리케이션을 생성하고, 생성되는 방송 애플리케이션을 애플리케이션 처리 유닛(114)에 공급한다. 더욱이, 방송 애플리케이션은 외부 서버, 기록 매체 등으로부터 취득될 수도 있다.
애플리케이션 처리 유닛(114)은 애플리케이션 생성 유닛(113)으로부터 공급되는 방송 애플리케이션의 데이터에 필요한 프로세스를 실행하고, 결과로서 얻어지는 데이터를 멀티플렉서(115)에 공급한다.
멀티플렉서(115)는 인코더(112)로부터의 데이터 및 애플리케이션 처리 유닛(114)으로부터의 데이터를 멀티플렉싱하고, 결과로서 얻어지는 스트림을 송신 유닛(116)에 공급한다.
송신 유닛(116)은 멀티플렉서(115)로부터 공급되는 스트림에 필요한 프로세스(예를 들어, 오류 정정 인코딩 프로세스 또는 변조 프로세스)를 실행하고, 결과로서 얻어지는 신호를 송신국에 설치된 안테나로부터 방송파들로서 송신한다.
(서버들의 구성의 예시)
도 3은 도 1의 음성 변환 서버(20) 및 기능 공급 서버(30)의 구성들의 예시들을 도시하는 블록도이다.
도 3에서, 음성 변환 서버(20)는 음성-텍스트 변환 처리 유닛(211), 통신 I/F(212), 및 데이터베이스(213)를 포함한다.
음성-텍스트 변환 처리 유닛(211)은 중앙 처리 유닛(CPU) 또는 마이크로프로세서와 같은 산술 디바이스를 포함한다. 추가로, 통신 I/F(212)는 통신 인터페이스 회로를 포함한다. 데이터베이스(213)는 HDD(Hard Disk Drive) 또는 반도체 메모리와 같은 대용량 기록 디바이스를 포함한다.
음성-텍스트 변환 처리 유닛(211)은 데이터베이스(213)를 참조하여 음성 데이터를 텍스트 데이터로 변환한다. 여기에서, 예를 들어, 데이터베이스(213)는 방대한 음성 데이터베이스를 축적하고, 따라서 음성-텍스트 변환 처리 유닛(211)은 미리 결정된 인식 알고리즘을 사용할 수 있으며, 미리 결정된 인식 알고리즘에 입력된 음성 데이터를 텍스트 데이터로 변환할 수 있다.
통신 I/F(212)는 인터넷(90)을 통해 음성 처리 디바이스(60)와 같은 디바이스로부터 송신되는 음성 데이터를 수신하고, 음성 데이터를 음성-텍스트 변환 처리 유닛(211)에 공급한다. 추가로, 통신 I/F(212)는 음성-텍스트 변환 처리 유닛(211)으로부터 공급되는 텍스트 데이터를 기능 공급 서버(30)에 송신한다.
추가로, 도 3에서, 기능 공급 서버(30)는 기능 처리 유닛(311), 통신 I/F(312), 및 데이터베이스(313)를 포함한다.
기능 처리 유닛(311)은 CPU 또는 마이크로프로세서와 같은 산술 디바이스를 포함한다. 추가로, 통신 I/F(312)는 통신 인터페이스 회로를 포함한다. 데이터베이스(313)는 HDD(Hard Disk Drive) 또는 반도체 메모리와 같은 대용량 기록 디바이스를 포함한다.
기능 처리 유닛(311)은 각각의 기능을 위해 개발된 서버 애플리케이션을 실행함으로써 다양한 기능 서비스들을 공급하는 프로세스를 실행한다. 예를 들어, 기능 처리 유닛(311)은 방송 콘텐츠를 시청하고 있는 사용자와의 음성 대화를 실현하는 음성 대화 기능(이하 TV 쇼 기능이라고도 일컫는다)을 가지는 방송 애플리케이션을 실행함으로써 방송 콘텐츠를 시청하고 있는 사용자와의 음성 대화에 관한 프로세스를 실행한다.
여기에서, 클라이언트 측의 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션이 서버 측의 기능 공급 서버(30)에 의해 실행되는 서버 애플리케이션과 협력할 수 있게 함으로써 재생 대상 방송 콘텐츠에 대한 재생 정보가 얻어질 수 있다. 따라서, 기능 처리 유닛(311)은 데이터베이스(313)에 포함되는 대화 정보 중에서 재생 정보에 의해 좁혀지는 대화 정보에 기초하여 음성 변환 서버(20)로부터의 텍스트 데이터에 연관지어 사용자의 스피치에 회답하는 대화 프로세스를 실행할 수 있다.
여기에서, 도 4는 기능 처리 유닛(311)의 상세한 구성의 예시를 도시하는 블록도이다. 도 4에 도시된 바와 같이, 기능 처리 유닛(311)은 스피치 이해 유닛(331), 대화 제어 유닛(332), 및 스피치 생성 유닛(333)을 포함한다.
스피치 이해 유닛(331)은 데이터베이스(313)를 참조하여 음성 변환 서버(20)로부터의 텍스트 데이터를 분석하고, 맥락에 기초하여 사용자의 스피치의 주제 또는 의도를 이해하는 프로세스를 실행한다.
대화 제어 유닛(332)은 데이터베이스(313) 또는 스피치 이해 유닛(331)의 처리 결과를 참조함으로써 얻어지는 주제, 사용자의 스피치 의도, 이전 대화 이력 등에 기초하여 어느 회답이 실행될 것인지 결정하는 프로세스를 실행한다.
스피치 생성 유닛(333)은 대화 제어 유닛(332)의 처리 결과 또는 데이터베이스(313)를 참조하여 얻어지는 정보에 기초하여 사용자의 의도에 따라 스피치(사용자의 스피치에 대한 회답)를 생성하는 프로세스를 실행한다.
더욱이, 데이터베이스(313)는 스피치 기능을 실현하기 위한 대화 정보를 얻기 위한 데이터베이스로서 지식 데이터베이스 또는 스피치 데이터베이스에 추가로 스피치 이력이나 사용자 정보와 같은 데이터베이스를 포함할 수 있다.
설명을 위해 다시 도 3을 참조하면, 통신 I/F(312)는 음성 변환 서버(20)로부터 송신되는 텍스트 데이터를 수신하고, 텍스트 데이터를 기능 처리 유닛(311)에 공급한다. 추가로, 통신 I/F(312)는 인터넷(90)을 통해 수신 디바이스(50)로부터 송신되는 재생 정보를 수신하고, 재생 정보를 기능 처리 유닛(311)에 공급한다. 추가로, 통신 I/F(312)는 인터넷(90)을 통해 수신 디바이스(50) 또는 음성 처리 디바이스(60)와 같은 디바이스에 기능 처리 유닛(311)으로부터 공급되는 회답(사용자의 스피치에 대한 회답)을 송신한다.
(수신 디바이스의 구성의 예시)
도 5는 도 1의 수신 디바이스(50)의 구성의 예시를 도시하는 블록도이다.
도 5에서, 수신 디바이스(50)는 처리 유닛(511), 메모리(512), 입력 유닛(513), 튜너(514), 디멀티플렉서(515), 음성 디코더(516), 음성 출력 유닛(517), 비디오 디코더(518), 비디오 출력 유닛(519), 브라우저(520), 스피커(521), 디스플레이 유닛(522), 및 통신 I/F(523)를 포함한다.
처리 유닛(511)은, 예를 들어, CPU 또는 마이크로프로세서를 포함한다. 처리 유닛(511)은 수신 디바이스(50)에서의 다양한 산술 프로세스들, 각각의 유닛의 동작 제어 등을 위해 중앙 처리 디바이스로서 동작한다. 처리 유닛(511)은 수신 디바이스(50)의 유닛들 사이에서 다양한 종류들의 데이터를 교환할 수 있다.
메모리(512)는 비휘발성 RAM(NVRAM)과 같은 비휘발성 메모리이고, 처리 유닛(511)으로부터의 제어 하에 다양한 종류들의 데이터를 기록한다. 입력 유닛(513)은, 예를 들어, 물리적 버튼 등이고, 사용자에 의한 동작에 적합한 동작 신호를 처리 유닛(511)에 공급한다. 처리 유닛(511)은 입력 유닛(513)으로부터 공급되는 동작 신호에 기초하여 각각의 유닛의 동작을 제어한다.
튜너(514)는 안테나(531)를 통해 송신 디바이스(10)로부터 송신되는 방송파들을 수신함으로써 필요한 프로세스(예를 들어, 복조 프로세스, 오류 정정 디코딩 프로세스 등)를 실행하고, 결과로서 얻어지는 스트림을 디멀티플렉서(515)에 공급한다.
디멀티플렉서(515)는 튜너(514)로부터 공급되는 스트림을 음성 데이터, 비디오 데이터, 및 방송 애플리케이션의 데이터로 디멀티플렉싱한다. 디멀티플렉서(515)는 음성 데이터를 음성 디코더(516)에 공급하고, 비디오 데이터를 비디오 디코더(518)에 공급하고, 방송 애플리케이션의 데이터를 브라우저(520)에 공급한다.
음성 디코더(516)는 디멀티플렉서(515)로부터 공급되는 음성 데이터를 미리 결정된 디코딩 방식에 따라 디코딩하고, 디코딩되는 음성 데이터를 음성 출력 유닛(517)에 공급한다. 음성 출력 유닛(517)은 음성 디코더(516)로부터 공급되는 음성 데이터를 스피커(521)에 공급한다. 따라서, 방송 콘텐츠의 음성은 스피커(521)로부터 출력된다.
비디오 디코더(518)는 디멀티플렉서(515)로부터 공급되는 비디오 데이터를 미리 결정된 디코딩 방식에 따라 디코딩하고, 디코딩되는 비디오 데이터를 비디오 출력 유닛(519)에 공급한다. 비디오 출력 유닛(519)은 비디오 디코더(518)로부터 공급되는 비디오 데이터를 디스플레이 유닛(522)에 공급한다. 따라서, 방송 콘텐츠의 비디오는 액정 디스플레이(LCD) 또는 유기 발광 다이오드(OLED)와 같은 디스플레이를 포함하는 디스플레이 유닛(522)에 디스플레이된다.
브라우저(520)는, 예를 들어, HTML5 또는 JavaScript(등록 상표)에 대응하는 브라우저이다. 브라우저(520)는 처리 유닛(511)의 제어 하에 디멀티플렉서(515)로부터 공급되는 방송 애플리케이션의 데이터를 처리하고, 처리된 데이터를 비디오 출력 유닛(519)에 공급한다. 비디오 출력 유닛(519)은 브라우저(520)로부터 공급되는 데이터에 적합한 애플리케이션을 디스플레이하여 애플리케이션이 비디오 디코더(518)로부터 공급되는 비디오 데이터에 적합한 비디오에 중첩되게 한다.
통신 I/F(523)는 통신 인터페이스 회로를 포함한다. 통신 I/F(523)는 다양한 종류들의 데이터를 교환하기 위해 처리 유닛(511)의 제어 하에 인터넷(90)에 연결되는 각각의 서버(예를 들어, 도 1의 기능 공급 서버(30))에 액세스한다.
(음성 처리 디바이스의 구성의 예시)
도 6은 도 1의 음성 처리 디바이스(60)의 구성의 예시를 도시하는 블록도이다.
도 6에서, 음성 처리 디바이스(60)는 음성 처리 유닛(611), 메모리(612), 통신 I/F(613), 마이크로폰(614), 및 스피커(615)를 포함한다.
음성 처리 유닛(611)은, 예를 들어, CPU 또는 마이크로프로세서를 포함한다. 음성 처리 유닛(611)은 음성 처리 디바이스(60)에서의 다양한 산술 프로세스들, 각각의 유닛의 동작 제어 등을 위해 중앙 처리 디바이스로서 동작한다.
메모리(612)는 NVRAM과 같은 비휘발성 메모리이고, 음성 처리 유닛(611)의 제어 하에 다양한 종류들의 데이터를 기록한다.
통신 I/F(613)는 통신 인터페이스 회로를 포함한다. 통신 I/F(613)는 다양한 종류들의 데이터를 교환하기 위해 음성 처리 유닛(611)의 제어 하에 인터넷(90)에 연결되는 각각의 서버(예를 들어, 도 1의 음성 변환 서버(20) 또는 기능 공급 서버(30))에 액세스한다.
마이크로폰(614)은 외부로부터의 음성을 전기 신호로 변환하는 디바이스(음성 수집기)이다. 마이크로폰(614)은 변환을 통해 얻어지는 음성 신호를 음성 처리 유닛(611)에 공급한다.
음성 처리 유닛(611)은 마이크로폰(614)으로부터 공급되는 음성 신호를 처리하고, 처리된 음성 신호를 통신 I/F(613)에 공급한다. 추가로, 음성 처리 유닛(611)은 통신 I/F(613)로부터 공급되는 음성 신호를 처리하고, 처리된 음성 신호를 스피커(615)에 공급한다.
스피커(615)는 전기 신호를 물리적 진동으로 바꾸고 음성을 출력하는 디바이스이다. 스피커(615)는 음성 처리 유닛(611)으로부터 공급되는 음성 신호에 적합한 음성을 출력한다.
음성 대화 시스템(1)은 위에서 설명된 구성을 가진다.
더욱이, 설명을 용이하게 하기 위해, 하나의 송신 디바이스(10), 및 한 쌍의 음성 변환 서버(20) 및 기능 공급 서버(30)가 음성 대화 시스템(1)에 설치된 경우가 도시된다. 하지만, 복수의 송신 디바이스들(10) 또는 복수의 기능 공급 서버들(30)은 방송국과 같은 각각의 서비스 제공자를 위해 설치될 수 있다.
추가로, 하나의 수신 디바이스(50) 및 하나의 음성 처리 디바이스(60)가 각각의 사용자 주택에서의 도 1의 음성 대화 시스템(1)에 설치된 경우가 도시된다. 하지만, 예를 들어, 수신 디바이스(50) 및 음성 처리 디바이스(60)는 복수의 사용자 주택들에 각각 설치될 수 있다.
2. 제1 실시예
부수적으로, 도 1의 음성 대화 시스템(1)에서, 텔레비전 수신기를 포함하는 수신 디바이스(50)는 방송 콘텐츠와 함께 방송 애플리케이션을 실행할 수 있다. 하지만, 방송 애플리케이션이 동작되는 경우, 사용자가 텔레비전 수신기의 보조 원격 제어기 등을 사용할 때 사용자는 동작을 실행하는 것에 어려움을 느낄 수 있다.
그러므로, 본 기술에서, 클라이언트 측의 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션이 서버 측의 기능 공급 서버(30)에 의해 실행되는 서버 애플리케이션과 협력할 수 있게 함으로써 동작의 편의의 개선이 달성되어 음성 처리 디바이스(60)에 의해 공급되는 음성 에이전트 서비스의 사용자 인터페이스가 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션과 함께 사용될 수 있게 된다.
예를 들어, 도 7에 도시된 바와 같이, 텔레비전 수신기를 포함하는 수신 디바이스(50)에 의해 재생되는 방송 콘텐츠인 드라마를 시청하고 있는 사용자가 드라마에 보여지는 여배우의 이름을 아는 것을 원하여 그 자리에서 "여배우 누구야?"라고 질문할 때, 여배우의 이름이 릴레이로 얻어질 수 있다.
구체적으로, 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션이 기능 공급 서버(30)에 의해 실행되는 서버 애플리케이션과 협력할 수 있게 함으로써, 음성 처리 디바이스(60)에 의해 공급되는 음성 에이전트 서비스의 사용자 인터페이스가 사용될 수 있다. 따라서, 사용자에 의해 말해지는 질문 "여배우 누구야?"는 음성 처리 디바이스(60)에 의해 수신되고, 인터넷(90)을 통해 음성 변환 서버(20) 및 기능 공급 서버로 보내진다.
사용자로부터의 질문은 음성 변환 서버(20) 및 기능 공급 서버(30)에서 처리되고, 질문에 대한 대답이 생성된다. 대답은 인터넷(90)을 통해 수신 디바이스(50)에 송신되고, 대답 "이 여배우는 xxxx입니다"(xxxx는 여배우의 이름)에 대응하는 음성이 방송 애플리케이션에 의해 스피커(521)로부터 출력된다. 따라서, 사용자가 드라마를 시청하는 동안 단지 질문함으로써 사용자는 그 자리에서 드라마에 보여지는 여배우의 이름을 알 수 있다.
더욱이, 도 7의 예시에서, 방송 애플리케이션이 대답에 대응하는 음성을 출력하는 경우가 도시되지만, 본 기술은 스피커(521)로부터의 음성 출력에 제한되지 않는다. 수신 디바이스(50)에서, 대답에 대응하는 텍스트 정보, 이미지 정보 등이 방송 애플리케이션에 의해 디스플레이 유닛(522)의 스크린에 디스플레이될 수 있다.
추가로, 도 7의 예시에서, 수신 디바이스(50)에 포함되는 스피커(521)는 대답에 대응하는 음성을 출력하지만, 대답에 대응하는 음성은 음성 처리 디바이스(60)에 포함되는 스피커(615)로부터 출력될 수 있다. 이러한 경우에, 음성 변환 서버(20) 및 기능 공급 서버(30)에 의해 처리된 것인 처리된 데이터는 인터넷(90)을 통해 음성 처리 디바이스(60)에 송신된다.
여기에서, 텔레비전 수신기와 같은 수신 디바이스(50)의 설치 위치 및 사용자 주택에서 스마트 스피커로서 기능하는 음성 처리 디바이스(60)의 설치 위치에 대하여 방송 콘텐츠를 시청하고 있는 사용자의 시청 위치가 고려되는 경우, 사용자가 일반적으로 음성 처리 디바이스(60)보다 수신 디바이스(50)와 더 가까울 가능성이 높다. 따라서, 많은 경우들에 수신 디바이스(50)의 스피커(521)로부터 대답에 대응하는 음성을 출력하는 것이 더 바람직하다고 가정된다.
추가로, 음성 에이전트 서비스의 사용자 인터페이스로서 기능하는 음성 처리 디바이스(60)를 유효화(활성화)하기 위해, 사전에 결정되는 키워드(이하 활성화 키워드라고 일컫는다)를 사용하는 것이 일반적이다. 여기에서, 음성 대화 기능(TV 쇼 기능)을 사용하기 위한 활성화 키워드로서 "서비스 A"가 설정되므로, 사용자로부터의 질문 "서비스 A, TV 쇼에게 여배우 누구냐고 물어봐."는 TV 쇼 기능에서 대화를 특정하기 위한 활성화 키워드 "서비스 A" 및 "TV 쇼에게 물어봐"를 포함한다.
(음성 대화 처리)
다음에는, 도 1의 음성 대화 시스템(1)에 의해 실행되는 음성 대화 처리의 흐름이 도 8 및 도 9의 흐름도를 참조하여 설명될 것이다.
여기에, 도 8 및 도 9에서, 단계들 S101 및 S102의 프로세스들은 방송국 또는 송신국의 시설에 설치된 송신 디바이스(10)에 의해 실행된다. 단계들 S111 내지 S114의 프로세스들 및 단계들 S121 및 S122의 프로세스들은 각각 데이터 센터에 설치된 기능 공급 서버(30) 및 음성 변환 서버(20)에 의해 실행된다.
추가로, 도 8 및 도 9에서, 단계들 S131 및 S132의 프로세스들 및 단계들 S141 내지 S143의 프로세스들은 각각 사용자 주택에 설치된 음성 처리 디바이스(60) 및 수신 디바이스(50)에 의해 실행된다.
단계 S101에서, 콘텐츠 생성 유닛(111)은 방송 콘텐츠를 생성한다. 추가로, 단계 S101에서, 애플리케이션 생성 유닛(113)은 방송 애플리케이션을 생성한다.
단계 S101의 프로세스에서 생성되는 방송 콘텐츠 및 방송 애플리케이션은 인코딩, 오류 정정 코딩 프로세스, 또는 변조 프로세스와 같은 미리 결정된 프로세스를 받고, 이어서 송신국에 설치된 안테나로부터 방송파들(방송 신호들)로서 송신된다(S102).
송신국으로부터 송신되는 방송파들(방송 신호들)은 수신 디바이스(50)에 연결되는 안테나(531)에 의해 수신되고, 단계들 S141 및 S142의 프로세스들이 실행된다.
수신 디바이스(50)에서, 튜너(514), 음성 디코더(516), 비디오 디코더(518) 등은 방송 콘텐츠를 재생하기 위해 디코딩 프로세스, 오류 정정 디코딩 프로세스, 및 안테나(531)에 의해 수신되는 방송파들의 디코딩과 같은 미리 결정된 프로세스들을 실행한다(S141). 여기에서, 예를 들어, 드라마와 같은 텔레비전 프로그램은 사용자에 의한 튜닝 동작에 대해 응답하여 재생된다.
추가로, 수신 디바이스(50)에서, 방송파들로부터 얻어지는 방송 애플리케이션은 브라우저(520)에 의해 활성화된다(S142). 방송 애플리케이션은 방송 콘텐츠와 협력하여 동작한다. 한편, 기능 공급 서버(30)에서, 서버 애플리케이션은 기능 처리 유닛(311)에 의해 활성화된다(S111).
여기에서, 클라이언트 측의 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션 및 서버 측의 기능 공급 서버(30)에 의해 실행되는 서버 애플리케이션은 인터넷(90)을 통해 서로 협력하고, 음성 처리 디바이스(60)에 의해 공급되는 음성 에이전트 서비스의 사용자 인터페이스는 방송 애플리케이션과 함께 사용될 수 있다. 더욱이, 방송 애플리케이션 및 서버 애플리케이션의 협력 프로세스의 상세한 사항들은 도 10의 흐름도를 참조하여 추후 설명될 것이다.
그 후, 수신 디바이스(50)에 의해 재생되는 방송 콘텐츠를 시청하고 있는 사용자가 말할 때, 사용자에 의한 스피치는 음성 에이전트 서비스의 사용자 인터페이스로서 기능하는 음성 처리 디바이스(60)의 음성 처리 유닛(611)에 의해 수신된다(S131).
예를 들어, 드라마를 시청하고 있는 사용자가 드라마에 보여지는 여배우의 이름에 대하여 질문할 때, 질문(예를 들어, 질문 "여배우 누구야?")은 마이크로폰(614)에 의해 수집되어, 전기 신호로 변환되고, 음성 처리 유닛(611)에 공급된다. 이렇게 하여, 사용자의 질문이 수신된다.
더욱이, 위에서 설명된 바와 같이, 실제로, 사용자가 질문할 때, 사용자는 "TV 쇼"와 같은 활성화 키워드를 반드시 말한다. 여기에서, 그것의 설명은 설명을 용이하게 하기 위해 생략될 것이다. 활성화 키워드의 상세한 사항들은 추후 설명될 것이다.
이렇게 하여 수신되는 사용자의 스피치의 음성 데이터는 인터넷(90)을 통한 음성 처리 디바이스(60)의 통신 I/F(613)에 의해 인터넷(90)을 통해 음성 변환 서버(20)에 송신된다(S132).
음성 처리 디바이스(60)로부터 송신되는 음성 데이터는 인터넷(90)을 통해 음성 변환 서버(20)에 의해 수신되고, 단계들 S121 및 S122의 프로세스들이 실행된다.
단계 S121에서, 음성-텍스트 변환 처리 유닛(211)은 데이터베이스(213)를 참조하여 음성 처리 디바이스(60)로부터의 음성 데이터를 텍스트 데이터로 변환한다. 단계 S121의 프로세스를 통해 변환된 텍스트 데이터는 기능 공급 서버(30)에 송신된다(S122). 음성 변환 서버(20)로부터의 텍스트 데이터는 기능 공급 서버(30)에 의해 수신되고, 단계들 S112 내지 S114의 프로세스들이 실행된다.
단계 S112에서, 기능 처리 유닛(311)은 재생 정보를 취득한다. 여기에서, 방송 애플리케이션 및 서버 애플리케이션은 서로 협력하므로, 재생 정보는 서버 애플리케이션에 의해 방송 애플리케이션으로부터 취득될 수 있다. 예를 들어, 재생 정보는 식별자, 재생 시간 위치, 및 방송 콘텐츠의 음성 또는 자막들의 언어와 같이 사용자가 시청하고 있는 방송 콘텐츠에 대한 정보를 포함한다.
단계 S113에서, 기능 처리 유닛(311)은 데이터베이스(313)에 포함되는 대화 정보 중에서 단계 S112의 프로세스에서 취득되는 재생 정보에 의해 좁혀지는 대화 정보에 기초하여 음성 변환 서버(20)로부터의 텍스트 데이터에 대한 회답(사용자의 스피치에 대한 회답)을 만들기 위한 대화 처리를 실행한다.
예를 들어, 드라마를 시청하고 있는 사용자가 드라마에 보여지는 여배우의 이름을 알기를 원하여 "여배우 누구야?"라고 질문할 때, 질문의 음성은 음성 처리 디바이스(60)에 의해 수신되고, 인터넷(90)을 통해 음성 변환 서버(20)에 송신된다. 음성 변환 서버(20)에서, 음성 데이터 "여배우 누구야?"는 기능 공급 서버(30)에 송신되기 위해 텍스트 데이터로 변환된다.
한편, 기능 공급 서버(30)에서는, 사용자가 시청하고 있는 드라마의 식별자, 제작 시간 위치, 음성 또는 자막들의 언어를 나타내는 정보가 재생 정보로서 취득된다. 그 다음, 기능 공급 서버(30)(기능 공급 서버(30)의 기능 처리 유닛(311))는 재생 정보에 의해 데이터베이스(313)에 축적된 방대한 데이터베이스를 좁힘으로써 사용자가 시청하고 있는 드라마에서 음성 대화 기능을 실현하기 위해 대화 정보의 범위를 일정 기간으로 한정할 수 있다.
더욱이, 다양한 프로세스들 중 임의의 것이 여기에서 실행되는 대화 처리로서 사용될 수 있다. 예를 들어, 이하의 프로세스가 사용될 수 있다.
즉, 기능 처리 유닛(311)에서, 스피치 이해 유닛(331)은 우선 음성 변환 서버(20)로부터의 텍스트 데이터를 분석하고, 맥락에 기초하여 사용자의 스피치의 주제 또는 의도를 이해한다. 이어서, 대화 제어 유닛(332)은 음성 이해 유닛(331)에 의해 이해되는 사용자의 스피치의 주제 또는 의도, 이전 대화들의 이력 등에 기초하여 어느 회답을 실행할지 결정한다. 최종적으로, 스피치 생성 유닛(333)은 대화 제어 유닛(332)에 의한 결정 결과에 기초하여 사용자의 의도에 적합한 스피치(사용자의 스피치에 대한 회답)를 생성한다.
이 때, 스피치 이해 유닛(331) 내지 스피치 생성 유닛(333)은 데이터베이스(313)를 참조하여 프로세스들을 실행한다. 하지만, 데이터베이스(313)에 포함되는 대화 정보는 재생 정보에 의해 좁혀지고, 대화 처리는 한정된 대화 정보에 기초하여 실행될 수 있다.
여기에서, 데이터베이스(313)는 음성 대화 기능을 실현하기 위한 대화 정보를 얻기 위한 데이터베이스들로서 지식 데이터베이스 또는 스피치 데이터베이스에 추가로 스피치 이력 또는 사용자 정보와 같은 데이터베이스를 포함할 수 있다. 더욱이, 본 명세서에서 예시된 대화 처리는 단지 예시에 불과하고, 공지된 대화 처리의 기술이 사용될 수 있다.
이렇게 하여 얻어지는 회답(사용자의 스피치에 대한 회답)은 기능 공급 서버(30)의 통신 I/F(312)에 의해 인터넷(90)을 통해 수신 디바이스(50)에 송신된다(S114).
기능 공급 서버(30)로부터 송신되는 회답은 인터넷(90)을 통해 수신 디바이스(50)에 의해 수신되고, 단계 S143의 프로세스가 실행된다. 즉, 수신 디바이스(50)(수신 디바이스(50)에 의해 실행되는 방송 애플리케이션)는 스피커(521)로부터 기능 공급 서버(30)로부터의 회답(사용자의 스피치에 대한 회답)에 적합한 음성을 출력한다(S143).
예를 들어, 사용자가 시청하고 있는 드라마에 보여지는 여배우의 이름에 대해 질문할 때, 대답 "이 여배우는 xxxx입니다"("xxxx"는 여배우의 이름)에 대응하는 음성이 질문(예를 들어, 질문 "여배우 누구야?")에 대한 회답으로서 출력된다. 따라서, 드라마를 시청하고 있는 사용자는 드라마에 보여지는 여배우의 이름을 알 수 있다.
더욱이, 위에서 설명된 바와 같이, 수신 디바이스(50)에서, 기능 공급 서버(30)로부터의 회답에 적합한 정보는 디스플레이 유닛(522)의 스크린에 디스플레이될 수 있다. 추가로, 기능 공급 서버(30)로부터의 회답에 적합한 음성은 음성 처리 디바이스(60)의 스피커(615)로부터 출력될 수 있다.
추가로, 위에서 설명된 설명에서, 서버 애플리케이션과 협력하는 방송 애플리케이션은 위에서 설명된 바와 같이, 재생 정보를 통지하는 것으로 가정된다. 하지만, 재생 정보는 수신 디바이스(50)의 상주 애플리케이션에 의해 통지될 수 있거나, 방송 애플리케이션에 의해 수신 디바이스(50)의 애플리케이션 프로그래밍 인터페이스(API)를 사용하여 통지될 수 있다. 요약하면, 서버 애플리케이션은 재생 정보를 취득할 수 있고, 임의의 통지 방법이 사용될 수 있다. 더욱이, 상주 애플리케이션은 수신 디바이스(50)에 사전에 내장된 애플리케이션이다.
음성 대화 처리의 흐름이 위에서 설명되었다.
(애플리케이션 협력 프로세스)
다음에는, 도 8의 단계들 S111 및 S142의 프로세스들에 대응하는 애플리케이션 협력 프로세스가 도 10의 흐름도를 참조하여 설명될 것이다.
여기에, 도 10에서, 단계들 S161 내지 S165의 프로세스들은 데이터 센터에 설치된 기능 공급 서버(30)에 의해 실행된다. 추가로, 단계들 S171 내지 S176의 프로세스들은 사용자 주택에 설치된 수신 디바이스(50) 또는 음성 처리 디바이스(60)에 의해 실행된다.
기능 공급 서버(30)의 기능 처리 유닛(311)이 음성 에이전트 서비스를 사용하기 위한 서버 애플리케이션으로서 TV 쇼 기능이 있는 서버 애플리케이션을 등록할 때(S161), 서버 애플리케이션이 활성화된다(S162).
한편, 수신 디바이스(50)에서, 방송 콘텐츠가 재생된다(S171). 추가로, 방송 애플리케이션이 활성화된다(S172).
이렇게 하여, 서버 측의 기능 공급 서버(30)에서 서버 애플리케이션이 활성화되고 클라이언트 측의 수신 디바이스(50)에서 방송 애플리케이션이 활성화되는 상황에서, 서버 애플리케이션은 개인 식별 번호(PIN) 코드를 생성하고, PIN 코드를 인터넷(90)을 통해 방송 애플리케이션에 송신한다(S163). PIN 코드(PIN 코드의 텍스트 데이터)는 수신 디바이스(50)에 의해 수신된다.
수신 디바이스(50)에서, 서버 애플리케이션으로부터의 PIN 코드는 방송 애플리케이션에 의해 디스플레이 유닛(522)에 디스플레이된다(S173). 이렇게 하여, 수신 디바이스(50)의 스크린에 디스플레이되는 PIN 코드를 확인한 사용자는 PIN 코드를 읽는다.
여기에서, 예를 들어, 사용자가 "서비스 A TV 쇼에 PIN ****을 활성화하도록 요청해"(****: 디스플레이되는 PIN 코드)와 같은 미리 결정된 키워드(커맨드 단어)와 함께 PIN 코드를 읽을 때, 사용자에 의해 읽혀진 PIN 코드는 음성 에이전트 서비스 측에서 인식될 수 있다.
음성 처리 디바이스(60)에서, 음성 처리 유닛(611)은 사용자에 의해 읽혀진 PIN 코드가 인식될 수 있는지 여부를 결정한다(S174). 단계 S174에서 PIN 코드가 인식될 수 없다고 결정되는 경우, 단계 S174의 결정 프로세스는 반복된다. 음성 처리 디바이스(60)에서, PIN 코드가 인식될 수 없는 경우, 사용자는 PIN 코드를 다시 읽을 수 있다.
반대로, 단계 S174에서 PIN 코드가 인식될 수 있다고 결정되는 경우, 프로세스는 단계 S175로 진행한다. 단계 S175에서, 음성 처리 디바이스(60)의 통신 I/F(613)는 인터넷(90)을 통해 사용자에 의해 읽혀진 PIN 코드의 음성 데이터를 송신한다.
더욱이, 비록 설명을 용이하게 하기 위해 설명되지 않지만, 음성 처리 디바이스(60)로부터의 PIN 코드의 음성 데이터는 음성 변환 서버(20)에 송신되어 음성 데이터가 텍스트 데이터로 변환되게 할 수 있다. 이렇게 하여 얻어지는 PIN 코드의 텍스트 데이터는 기능 공급 서버(30)에 의해 수신된다.
기능 공급 서버(30)에서, 기능 처리 유닛(311)은 음성 처리 디바이스(60)로부터 송신되는 PIN 코드(PIN 코드의 텍스트 데이터)와 방송 애플리케이션을 위해 송신되는 PIN 코드(PIN 코드의 텍스트 데이터)를 비교 및 검사함으로써 음성 처리 디바이스(60)로부터의 PIN 코드가 타당한지 여부를 결정한다(S164).
단계 S165에서 음성 처리 디바이스(60)로부터의 PIN 코드가 타당하다고 결정되는 경우, 프로세스는 단계 S165로 진행한다(S176). 단계 S165(S176)에서, 클라이언트 측의 수신 디바이스(50)에서 활성화되는 방송 애플리케이션과 기능 공급 서버(30)에서 활성화되는 서버 애플리케이션 사이의 협력이 시작된다.
이렇게 하여, 불특정 사용자에게 전달되는 방송 애플리케이션은 방송 애플리케이션을 사용하는 특정 사용자의 속성과 연관된다. 즉, 서버 애플리케이션이 방송 애플리케이션을 실행하는 수신 디바이스(50)에 기존의 식별 정보(PIN 코드)를 통지하고, 음성 사용자 에이전트 서비스를 사용하여 통지되는 식별 정보(PIN 코드)를 확인한 특정 사용자에 의한 스피치를 수신할 때, 특성 사용자의 속성이 연관된다.
이렇게 하여 애플리케이션들 사이의 협력이 시작될 때, 위에서 설명된 도 8의 단계들 S111 및 S142의 프로세스들에 이어지는 프로세스들이 실행될 수 있다.
더욱이, 단계 S165에서 음성 처리 디바이스(60)로부터의 PIN 코드가 타당하지 않다고 결정되는 경우, 단계 S166(S176)의 프로세스는 스킵되고, 방송 애플리케이션이 서버 애플리케이션과 협력하지 않는 것으로 고려된다.
애플리케이션 협력 프로세스의 흐름이 위에서 설명되었다.
더욱이, 기능 공급 서버(30)로부터의 PIN 코드가 텔레비전 수신기와 같은 수신 디바이스(50)에 디스플레이되고, PIN 코드가 사용자에 의해 읽혀지고, PIN 코드의 음성 데이터가 음성 처리 디바이스(60)로부터 송신되는 처리 시퀀스가 도 10의 설명에 예시되었다. 하지만, 또 다른 통지 방법이 PIN 코드의 통지 방법으로서 사용될 수 있다.
예를 들어, 위에서 설명된 도 10에 도시된 프로세스의 흐름과 비교하여, 기능 공급 서버(30)로부터의 PIN 코드의 음성 데이터(또는 텍스트 데이터)는 인터넷(90)을 통해 음성 처리 디바이스(60)로 보내지고, PIN 코드에 적합한 음성이 음성 처리 디바이스(60)에 의해 출력된다. 그 다음, 사용자는 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션의 음성에 따라 PIN 코드를 입력할 수 있게 된다. 방송 애플리케이션에 입력된 PIN 코드는 인터넷(90)을 통해 서버 애플리케이션에 의해 수신되어, 서버 애플리케이션에 의해 PIN 코드 검사 프로세스(S164)에 사용된다.
추가로, 다양한 처리 시퀀스들 중 임의의 것이 애플리케이션 협력 프로세스 시에 처리 시퀀스로서 사용될 수 있다. 예를 들어, 기능 공급 서버(30)로부터의 PIN 코드는 사용자가 소지하는 스마트폰과 같은 휴대용 단말 디바이스에 디스플레이될 수 있다. 대안적으로, PIN 코드는 사용자에 의해 읽혀질 수 없지만, PIN 코드는 텍스트 데이터로서 보내지기 위해 스마트폰과 같은 휴대용 단말 디바이스로부터 입력될 수 있다.
더욱이, 수신 디바이스(50)에서 방송 애플리케이션이 활성화될 때마다 도 10에 도시된 애플리케이션 협력 프로세스를 반드시 실행하지 않아도 된다. 예를 들어, 도 10에 도시된 프로세스를 실행하지 않고 이하의 프로세스를 실행함으로써 애플리케이션들 사이의 협력이 실현될 수 있다. 즉, 도 10의 단계 S164의 프로세스에서 PIN 코드가 타당하다고 확인될 때, 기능 공급 서버(30)는 브라우저의 쿠키 구조를 사용하여 토큰 정보를 기록한다. 다음에 동일한 방송 애플리케이션이 기능 공급 서버(30)와의 통신을 실행한 경우, 도 10에 도시된 프로세스를 실행하지 않고 기록된 토큰 정보를 사용함으로써 애플리케이션들 사이의 협력이 실현된다.
제1 실시예가 위에서 설명되었다. 제1 실시예에서, 클라이언트 측의 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션은 인터넷(90)을 통해 서버 측의 기능 공급 서버(30)에 의해 실행되는 서버 애플리케이션과 협력한다. 따라서, 음성 처리 디바이스(60)에 의해 공급되는 음성 에이전트 서비스의 사용자 인터페이스는 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션에서 사용될 수 있는 것으로 고려된다.
그 다음, 기능 공급 서버(30)에서는, 방송 콘텐츠를 시청하고 있는 사용자와의 대화 처리가 실행될 때, 서버 애플리케이션과 협력하는 방송 애플리케이션으로부터 얻어지는 재생 정보를 사용하여 데이터베이스(313)에 축적된 방대한 데이터베이스가 좁혀지고, 그 다음 재생 정보에 의해 좁혀지는 대화 정보에 기초하여 대화 처리가 실행된다.
예를 들어, 각각의 방송국의 모든 채널들에 상당하는 텔레비전 프로그램들에 대한 데이터가 기능 공급 서버(30) 내의 데이터베이스(313)에 지식 데이터베이스로서 축적될 때, 여배우가 연기하고 있는 프로그램 및 기간은 여배우의 이름에만 대한 질문을 수신한 때에 특정되지 않을 수 있고, 따라서 적합한 회답이 만들어지지 않을 수 있다.
한편, 지식 데이터베이스의 데이터는 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션으로부터의 재생 정보에 의해 좁혀질 수 있고 재생 정보에 의해 좁혀지는 대화 정보에 기초하여 대화 처리가 실행될 수 있을 때, 여배우가 연기하고 있는 텔레비전 프로그램 및 기간이 특정될 수 있다. 따라서, 여배우의 이름에만 대한 질문을 수신한 때에도 적합한 회답이 만들어질 수 있다.
이렇게 하여, 본 기술에 따라, 콘텐츠의 재생 시에 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하고 음성 에이전트 서비스의 사용자 인터페이스가 사용될 수 있으므로, 음성 대화를 사용하여 동작의 편의의 개선을 달성하는 것이 가능하다. 추가로, 대화 처리가 실행될 때, 재생 정보가 기능 공급 서버(30)에서 사용된다. 따라서, 방송 콘텐츠를 시청하고 있는 사용자와의 적합한 음성 대화가 실행될 수 있다.
3. 제2 실시예
부수적으로, 도 1의 음성 대화 시스템(1)에서, 음성 에이전트 서비스의 사용자 인터페이스로서 기능하는 음성 처리 디바이스(60)를 유효화(활성화)하기 위해, 위에서 기술된 바와 같이, 사용자가 사전에 결정되는 활성화 키워드를 말하는 것이 일반적이다. 즉, 사용자가 활성화 키워드를 말할 때, 음성 처리 디바이스(60)는 데이터 센터의 음성 변환 서버(20)에 사용자의 스피치에 적합한 음성 데이터를 송신하여 음성 대화에 대한 프로세스가 실행될 수 있게 한다.
예를 들어, 음성 에이전트 서비스에 사용되는 활성화 키워드로서 "서비스 A"가 설정되는 경우, 사용자는 "서비스 A"라고 말하고 이어서 질문, 커맨드 등을 말한다.
추가로, 서버 측의 기능 공급 서버(30)에서, 상이한 기능들을 가지는 복수의 서버 애플리케이션들이 활성화된다. 따라서, 서버 애플리케이션들이 클라이언트 측의 수신 디바이스(50)에 의해 활성화되는 방송 애플리케이션과 협력하는 경우, 음성 에이전트 서비스를 위해 사전에 설정되는 "서비스 A" 및 TV 쇼 기능이 있는 서버 애플리케이션을 사용하기 위한 "TV 쇼" 키워드들 둘 다를 활성화 키워드들로서 반드시 말해야 한다.
하지만, 사용자는 활성화 키워드들로서 두 개의 키워드들을 말해야 하는 부담을 가지므로, 키워드들의 개수는 가능한 작은 것이 바람직하다. 그러므로, 본 기술에서, 유효한 서버 애플리케이션에 대한 활성화 키워드는 현재 음성 처리 디바이스(60)에 등록되어, 서버 애플리케이션의 사용 시에 활성화 키워드가 말해질 때, 요구되는 서버 애플리케이션이 사용될 수 있게 한다.
구체적으로, 도 11에 도시된 바와 같이, TV 쇼 기능이 있는 서버 애플리케이션이 사용될 수 있는 경우, 사용자는 "서비스 A, TV 쇼를 시작해"("시작"은 커맨드 단어)라고 말한다. 그 다음, 음성 에이전트 서비스의 사용자 인터페이스로서 기능하는 음성 처리 디바이스(60)는 사전에 설정되는 활성화 키워드 "서비스 A"에 의해 유효화되고, 사용자에 의해 말해지는 음성 데이터가 인터넷(90)을 통해 음성 변환 서버(20)에 송신된다.
음성 변환 서버(20)는 기능 공급 서버(30)가 커맨드 단어 "시작"에 따라 TV 쇼 기능이 있는 서버 애플리케이션을 활성화할 수 있게 한다. 추가로, TV 쇼 기능이 있는 서버 애플리케이션이 기능 공급 서버(30)에 의해 정상적으로 활성화되는 경우, 음성 변환 서버(20)는 활성화 키워드 "TV 쇼"를 등록하도록 음성 처리 디바이스(60)에 요청한다. 따라서, 활성화 키워드 "TV 쇼"는 음성 처리 디바이스(60)에 등록된다.
그 후, 음성 처리 디바이스(60)는 사전에 설정되는 활성화 키워드 "서비스 A"에 추가로 TV 쇼 기능이 있는 서버 애플리케이션에 대한 활성화 키워드 "TV 쇼"를 인식하고, 사용자에 의해 말해지는 음성 데이터를 음성 변환 서버(20)에 송신한다. 도 12는 음성 처리 디바이스(60)의 메모리(612)에 기록된 활성화 키워드들의 표의 예시를 도시한다.
더욱이, 기능 공급 서버(30)에 의해 실행되는 TV 쇼 기능이 있는 서버 애플리케이션이 무효화될 때, 음성 변환 서버(20)는 인터넷(90)을 통해 서버 애플리케이션의 무효화를 나타내는 메시지를 음성 처리 디바이스(60)에 통지한다. 음성 처리 디바이스(60)에서, 활성화 키워드 "TV 쇼"는 메시지에 따라 메모리(612)에 기록된 표로부터 삭제된다.
더욱이, 예시에서, 활성화 키워드는 텍스트 스트링으로 가정되고, 음성 처리 디바이스(60)의 음성 처리 유닛(611)은, 위에서 설명된 바와 같이, 활성화 키워드를 인식한다. 음성 인식의 정확도(인식 비율)를 개선하기 위해, 활성화 키워드의 음성 특징 데이터 등도 사용될 수 있다.
설명을 위해 다시 도 11을 참조하면, 활성화 키워드 "TV 쇼"가 등록되고 이어서 드라마를 시청하고 있는 사용자가 "TV 쇼, 여배우 누구야?"라고 질문하는 경우, 활성화 키워드 "TV 쇼"가 등록되었으므로, 음성 처리 디바이스(60)는 질문의 음성 데이터를 인터넷(90)을 통해 음성 변환 서버(20)에 송신한다. 결과로서, 예를 들어, 음성 처리 디바이스(60)는 드라마를 시청하고 있는 사용자에게 드라마에 보여지는 여배우의 이름을 대답한다.
10분 후에 드라마를 시청하고 있는 사용자가 "TV 쇼, 그녀는 몇 살이야?"라고 질문하는 경우, 음성 처리 디바이스(60)는 질문의 음성 데이터를 인터넷(90)을 통해 음성 변환 서버(20)에 송신한다. 결과로서, 예를 들어, 음성 처리 디바이스(60)는 드라마를 시청하고 있는 사용자에게 드라마에 보여지는 여배우의 나이를 대답한다.
15분 후에 드라마를 시청하고 있는 사용자가 커맨드 "서비스 A, 방의 조명을 꺼"라고 말하는 경우, 활성화 키워드 "서비스 A"가 음성 에이전트 서비스의 활성화 키워드이므로, 음성 처리 디바이스(60)는 사용자의 주택에서 가정용 근거리 통신망(LAN) 또는 Bluetooth(등록 상표)와 같은 무선 통신에 의해 연결되는 조명 장비를 제어하여 조명 장비가 켜지거나 꺼지게 한다.
25분 후에 드라마를 시청하고 있는 사용자가 "TV 쇼, 배우 누구야?"라고 질문하는 경우, 음성 처리 디바이스(60)는 질문의 음성 데이터를 인터넷(90)을 통해 음성 변환 서버(20)에 송신한다. 결과로서, 예를 들어, 음성 처리 디바이스(60)는 드라마를 시청하고 있는 사용자에게 드라마에 보여지는 배우의 이름을 대답한다.
위에서 설명한 바와 같이, 음성 에이전트 서비스의 사용자 인터페이스로서 기능하는 음성 처리 디바이스(60)에 서버 측에서 활성화되고 있는 서버 애플리케이션을 사용하기 위한 활성화 키워드를 사전에 등록함으로써, TV 쇼 기능이 있는 서버 애플리케이션은 사용자가 "서비스 A"라고 말하지 않고 단지 "TV 쇼"라고 말할 때도 사용될 수 있다.
더욱이, 활성화 키워드 "TV 쇼"는 방송 애플리케이션이 방송 콘텐츠와 연관하여 동작하는 동안에만 유효하다. 따라서, 방송 콘텐츠가 끝날 때, 활성화 키워드는 무효화될 수 있다. 그러므로, 수신 디바이스(50)에서, 사용자가 방송 콘텐츠를 시청하지 않고 있는 경우, 활성화 키워드 "TV 쇼"는 무효화된 것으로 고려된다. 사용자가 "TV 쇼"라고 말할 때에도, 음성 처리 디바이스(60)는 활성화 키워드를 수신하지 않고 활성화 키워드에 반응하지 않는다.
추가로, 수신 디바이스(50)의 전원이 차단되거나 채널이 전환될 때, 방송 애플리케이션과 기능 공급 서버(30)에 의해 실행되는 서버 애플리케이션 사이의 협력이 취소될 수 있고, 활성화 키워드 "TV 쇼"가 무효화될 수 있다.
추가로, 관련 기술의 음성 사용자 인터페이스 서비스에서와 마찬가지로, 서버 애플리케이션은 타임아웃으로 인해 자연히 무효화될 수 있거나, 음성 변환 서버(20)가 서버 애플리케이션을 무효화할 수 있거나, 또는 서버 애플리케이션은 기존의 커맨드 단어를 사용하여 무효화될 수 있다. 예를 들어, 기존의 커맨드 단어로서 "중단"이 사용되는 경우, 서버 애플리케이션은 "서비스 A TV 쇼를 중단해"라고 말함으로써 무효화될 수 있다.
추가로, 위에서 설명된 바와 같이, 음성 처리 디바이스(60)는 활성화 키워드들의 표(도 12 참조)를 관리하고 활성화 키워드가 유효한지 여부를 결정한다. 하지만, 활성화 키워드가 유효한지 여부는 음성 처리 디바이스(60)를 대신하여 음성 변환 서버(20) 또는 기능 공급 서버(30)에 의해 결정될 수 있다.
(활성화 키워드 매칭 프로세스)
다음에는, 활성화 키워드 매칭 프로세스의 흐름이 도 13의 흐름도를 참조하여 설명될 것이다.
수신 디바이스(50)에서, 방송 콘텐츠가 재생되고(S211), 방송 애플리케이션이 추가로 활성화된다(S212).
서버 애플리케이션이 사용되는 경우, 사용자는 음성 에이전트 서비스의 사용자 인터페이스로서 기능하는 음성 처리 디바이스(60)에 디폴트 활성화 키워드 다음에 기능 서비스를 활성화하기 위한 커맨드 단어를 말한다. 여기에서, 예를 들어, 사용자가 "서비스 A TV 쇼를 시작해"라고 말할 때, "서비스 A"는 디폴트 활성화 키워드에 상당하고, "TV 쇼를 시작해"는 기능 서비스를 활성화하기 위한 커맨드 단어에 상당한다.
음성 처리 디바이스(60)에서, 음성 처리 유닛(611)은 사용자에 의해 말해지는 단어들이 디폴트 활성화 키워드인지 여부를 결정한다(S201).
단계 S201에서 디폴트 활성화 키워드(예를 들어, "서비스 A")라고 결정되는 경우, 프로세스는 단계 S202로 진행한다. 단계 S202에서, 음성 처리 디바이스(60)의 통신 I/F(613)는 사용자의 스피치의 음성 데이터를 인터넷(90)을 통해 음성 변환 서버(20)에 송신한다.
음성 처리 디바이스(60)로부터 송신되는 음성 데이터는 인터넷(90)을 통해 음성 변환 서버(20)에 의해 수신되고, 단계들 S231 내지 S233의 프로세스들이 실행된다.
음성 변환 서버(20)에서, 음성-텍스트 변환 처리 유닛(211)은 사용자의 스피치의 음성 데이터로부터 커맨드 단어를 인식하고, 기능 서비스의 서버 애플리케이션을 활성화하도록 기능 공급 서버(30)에 요청한다(S231). 기능 공급 서버(30)에서, 기능 처리 유닛(311)은 음성 변환 서버(20)로부터의 요청에 응답하여 기능 서비스의 서버 애플리케이션을 활성화한다(S221).
여기에서, 예를 들어, 음성-텍스트 변환 처리 유닛(211)이 커맨드 단어 “TV 쇼를 시작해”를 인식하는 경우, TV 쇼 기능이 있는 서버 애플리케이션의 활성화가 요청되고, TV 쇼 기능이 있는 서버 애플리케이션은 기능 처리 유닛(311)에 의해 활성화된다.
한편, 음성 변환 서버(20)에서, 서버 애플리케이션이 기능 공급 서버(30)에서 정상적으로 활성화될지 여부가 결정된다(S232). 단계 S232에서 서버 애플리케이션이 정상적으로 활성화된다고 결정되는 경우, 프로세스는 단계 S233으로 진행한다.
단계 S233에서, 음성-텍스트 변환 처리 유닛(211)은 음성 처리 디바이스(60)에 인터넷(90)을 통해 대상의 활성화 키워드(예를 들어, "TV 쇼")를 등록하도록 요청한다.
음성 처리 디바이스(60)는 음성 변환 서버(20)로부터 활성화 키워드를 등록하기 위한 요청이 있는지 여부를 결정한다(S203). 단계 S203에서 활성화 키워드를 등록하기 위한 요청이 있다고 결정되는 경우, 프로세스는 단계 S204로 진행한다.
단계 S204에서, 음성 처리 유닛(611)은 메모리(612)에 기록된 표(도 12 참조)에 음성 변환 서버(20)로부터 대상의 활성화 키워드를 등록한다. 따라서, 예를 들어, "TV 쇼"는 TV 쇼 기능이 있는 서버 애플리케이션을 사용하기 위해 활성화 키워드로서 등록된다.
여기에서, 방송 콘텐츠를 시청하고 있는 사용자가 말하는 경우, 스피치는 음성 처리 디바이스(60)(음성 처리 디바이스(60)의 음성 처리 유닛(611))에 의해 수신될 수 있다(S205).
단계 S206에서, 음성 처리 유닛(611)은 단계 S202의 프로세스에서 수신되는 스피치 내에 포함되는 키워드가 디폴트 활성화 키워드(예를 들어, 음성 에이전트 서비스의 활성화 키워드 "서비스 A")인지 여부를 결정한다.
단계 S206에서 키워드가 디폴트 활성화 키워드라고 결정되는 경우, 프로세스는 단계 S209로 진행한다. 이러한 경우에, 활성화 키워드가 타당하므로, 사용자의 스피치에 적합한 음성 데이터는 음성 변환 서버(20)에 송신된다(S209).
반대로, 단계 S206에서 키워드가 디폴트 활성화 키워드가 아니라고 결정되는 경우, 프로세스는 단계 S207로 진행한다. 단계 S207에서, 음성 처리 유닛(611)은 단계 S205의 프로세스에서 수신되는 스피치 내에 포함되는 키워드가 메모리(612)에 기록된 표의 활성화 키워드에 포함되었는지 여부를 결정한다.
단계 S207에서 키워드가 활성화 키워드에 포함된다고 결정되는 경우, 프로세스는 단계 S208로 진행한다. 단계 S208에서, 음성 처리 유닛(611)은 단계 S207에서의 처리 대상의 활성화 키워드가 유효한지 여부를 결정한다.
단계 S208에서 대상의 활성화 키워드가 유효하다고 결정되는 경우, 프로세스는 단계 S209로 진행한다. 이러한 경우에, 활성화 키워드는 타당하므로, 사용자의 스피치에 적합한 음성 데이터는 음성 변환 서버(20)에 송신된다(S209).
단계 S201에서 키워드가 디폴트 활성화 키워드는 아니라고 결정되거나(S201에서 "아니오") 또는 단계 S203에서 활성화 키워드를 등록하기 위한 요청이 없다고 결정되는 경우(S203에서 "아니오"), 연이은 프로세스들을 반드시 실행하지 않아도 된다. 따라서, 연이은 프로세스들은 스킵된다. 유사하게, 단계 S232에서 서버 애플리케이션이 기능 공급 서버(30)에서 활성화되지 않는다고 결정되는 경우(S232에서 "아니오"), 연이은 프로세스들을 반드시 실행하지 않아도 된다. 따라서, 연이은 프로세스들은 스킵된다.
반대로, 단계 S207에서 키워드가 활성화 키워드에 포함되지 않는다고 결정되거나(S207에서 "아니오") 단계 S208에서 대상의 활성화 키워드가 유효하지 않다고 결정되는 경우(S208에서 "아니오"), 단계 S206의 프로세스는 스킵된다. 이러한 경우에, 활성화 키워드가 타당하지 않으므로, 음성 변환 서버(20)에 음성 데이터를 송신하는 프로세스는 실행되지 않는 것으로 고려된다.
이렇게 하여, 음성 처리 디바이스(60)에서, 음성 에이전트 서비스 사용 시의 통상적인 맥락 및 음성 대화 기능(TV 쇼 기능) 사용 시의 특정 맥락이 수신 가능한 경우, 및 특정 맥락의 음성 대화 기능(TV 쇼 기능)을 유효화하기 위한 활성화 키워드가 사용자에 의해 말해지고 음성 에이전트 서비스로 수신될 때, 통상적인 맥락 및 특정 맥락의 음성 대화 기능(TV 쇼 기능)이 유효화되고, 특정 맥락이 수신된다.
그 다음, 음성 처리 디바이스(60)에서, 특정 맥락이 유효한 기간 동안에만, 음성 대화 기능(TV 쇼 기능)을 유효화하기 위한 활성화 키워드의 스피치가 음성 에이전트 서비스로 수신된다. 추가로, 음성 처리 디바이스(60)는 음성 대화 기능(TV 쇼 기능)을 유효화하기 위한 활성화 키워드를 기록하고, 특정 맥락이 유효한 기간 동안에만 활성화 키워드를 유효화시켜, 특정 맥락이 유효한 기간 내에 사용자에 의해 활성화 키워드가 말해질 때 특정 맥락이 수신되게 된다.
위에서 제2 실시예가 설명되었다. 제2 실시예에서, 음성 처리 디바이스(60)는 활성화 키워드들의 표(도 12 참조)를 관리하고 사용자에 의해 말해지는 활성화 키워드가 유효한지 여부를 결정하는 프로세스를 실행한다. 따라서, 예를 들어, TV 쇼 기능을 가지는 서버 애플리케이션이 사용될 때, 사용자는 활성화 키워드 "TV 쇼"만을 말할 수 있다.
따라서, 예를 들어, 음성 에이전트 서비스를 위해 사전에 설정되는 "서비스 A" 및 서버 애플리케이션을 사용하기 위한 "TV 쇼" 키워드들 둘 다를 반드시 말하지 않아도 된다. 서버 애플리케이션이 사용될 때, 사용자의 부담을 줄이는 것이 가능하다.
더욱이, 제2 실시예에 설명된 상세한 사항들은 물론 단독으로도 실행될 수 있다. 상세한 사항들은 제1 또는 제3 실시예에 설명된 프로세스들과 조합되어 실행될 수도 있다.
4. 제3 실시예
부수적으로, 클라이언트 측의 수신 디바이스(50)에 의해 실행되는 방송 애플리케이션과 서버 측의 기능 공급 서버(30)에 의해 실행되는 서버 애플리케이션이 서로 협력하는 경우에도, 사용자에게는 방송 애플리케이션 및 서버 애플리케이션의 협력을 인식하는 것이 어려울 수 있다.
특히, 사용자가 텔레비전 수신기와 같은 수신 디바이스(50)에 의해 재생되는 방송 콘텐츠를 시청하고 있을 때, 사용자는 수신 디바이스(50)를 향한다. 따라서, 사용자가 음성 에이전트 서비스의 사용자 인터페이스로서 기능하는 음성 처리 디바이스(60)를 향하지 않으므로, 음성 처리 디바이스(60)의 반응을 인식하는 것이 어려운 상황이 발생한다.
그러므로, 본 기술에 따라, 협력은 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하는 동안 디스플레이된다.
구체적으로, 도 14에 도시된, 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하는 경우, 협력 아이콘(551)은 수신 디바이스(50)의 스크린 상의 드라마와 같은 방송 콘텐츠의 비디오에 오버랩되도록 우측 하단 영역에 디스플레이된다.
협력 아이콘(551)은 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하고 있음을 나타내는 아이콘이다. 추가로, 키워드(551A)에 나타내어지는 바와 같이, 서버 애플리케이션의 활성화 키워드는 협력 아이콘(551)에 디스플레이될 수 있다. 예를 들어, TV 쇼 기능이 있는 서버 애플리케이션을 사용하기 위한 활성화 키워드 "TV 쇼"는 키워드(551A)로서 디스플레이된다.
더욱이, 협력 아이콘(551)을 확인한 사용자가 활성화 키워드에 대해 말하고 음성 처리 디바이스(60)가 유효화(활성화)되는 경우, 사용자의 스피치에 적합한 디스플레이가 방송 애플리케이션에 의해 실현될 수 있다.
(협력 아이콘 디스플레이 프로세스)
다음에는, 협력 아이콘 디스플레이 프로세스의 흐름이 도 15의 흐름도를 참조하여 설명될 것이다.
수신 디바이스(50)에서, 방송 콘텐츠가 재생된다(S311). 추가로, 방송 애플리케이션이 활성화된다(S312).
단계 S313에서, 처리 유닛(511)은 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하는지 여부를 결정한다.
단계 S313에서 애플리케이션들 둘 다 서로 협력하는 것이 결정되는 경우, 프로세스는 단계 S314로 진행한다. 단계 S314에서, 처리 유닛(511)은 서버 애플리케이션으로부터의 통지에 따라 디스플레이 유닛(522)의 스크린의 미리 결정된 영역에 협력 아이콘(도 14의 협력 아이콘(551))을 디스플레이한다.
단계 S315에서, 처리 유닛(511)은 활성화 키워드가 사용되는지 여부를 결정한다.
단계 S315에서 활성화 키워드가 사용된다고 결정되는 경우, 프로세스는 단계 S316으로 진행한다. 단계 S316에서, 처리 유닛(511)은 활성화 키워드(도 14의 키워드(551A))를 디스플레이하여 활성화 키워드가 단계 S314의 프로세스에서 디스플레이되는 협력 아이콘에 포함되게 한다.
반대로, 단계 S313에서 애플리케이션들이 둘 다 서로 협력하지 않는다고 결정되거나(S313에서 "아니오") 단계 S315에서 활성화 키워드가 사용되지 않는다고 결정되는 경우(S315에서 "아니오"), 단계 S314의 프로세스 또는 단계 S316의 프로세스는 스킵된다. 이러한 경우에, 협력 아이콘은 디스플레이되지 않는 것으로 고려된다.
여기에서, 방송 콘텐츠를 시청하고 있는 사용자가 말하는 경우, 스피치는 음성 처리 디바이스(60)(음성 처리 디바이스(60)의 음성 처리 유닛(611))에 의해 수신된다(S301). 스피치가 활성화 키워드(예를 들어, "TV 쇼")를 포함하는 경우, 스피치에 적합한 음성 데이터는 음성 변환 서버(20)에 송신된다. 한편, 수신 디바이스(50)에서, 사용자의 스피치에 적합한 디스플레이는 방송 애플리케이션에 의해 실현된다(S317).
협력 아이콘 디스플레이 프로세스의 흐름이 위에서 설명되었다.
(협력 이외의 디스플레이 예시)
위의 설명에서, 수신 디바이스(50)에서 방송 애플리케이션에 의해 협력 아이콘이 디스플레이되는 경우가 설명되었다. 하지만, 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하는 것을 나타내는 협력 정보가 디스플레이될 수 있는 한, 또 다른 디스플레이 방법이 사용될 수 있다.
예를 들어, 도 16에 도시된 바와 같이, 수신 디바이스(50)에 의해 포함되는 상주 애플리케이션은 스크린의 상단 영역에 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하는 것을 나타내는 협력 정보(552)를 디스플레이할 수 있다. 협력 정보에서, TV 쇼 기능이 있는 서버 애플리케이션을 사용하기 위한 활성화 키워드 "TV 쇼"는 키워드(552A)로서 디스플레이된다.
추가로, 예를 들어, 도 17에 도시된 바와 같이, 텔레비전 수신기와 같은 수신 디바이스(50)를 동작시킬 수 있는 동작 디바이스(70)(예를 들어, 원격 제어기)가 사용될 수 있다. 동작 디바이스(70)는 음성 에이전트 서비스에 관한 동작을 수신할 수 있다. 예를 들어, 사용자가 음성 에이전트 서비스의 활성화 버튼(71)을 누르면, 협력 정보(552)가 수신 디바이스(50)에서 상주 애플리케이션에 의해 디스플레이될 수 있다.
더욱이, 동작 디바이스(70)가 디스플레이 기능을 가지는 경우, 협력 정보(552)는 동작 디바이스(70)의 디스플레이 유닛(도시되지 않음)에 디스플레이될 수 있다. 추가로, 사용자가 활성화 버튼(71)을 누른 경우, 활성화 키워드를 말하지 않고서도 음성 처리 디바이스(60)가 유효화될 수 있다.
추가로, 협력 아이콘(551) 또는 협력 정보(552)는, 사용자에게 음성 대화 기능(TV 쇼 기능) 사용 시의 특정 맥락이 음성 에이전트 서비스를 사용하여 수신될 수 있음을 통지하기 위한 통지 정보의 예시이다. 정보가 음성 에이전트 서비스를 사용하여 특정 맥락이 수신될 수 있음을 사용자에게 통지할 수 있는 정보일 때, 다른 정보가 사용될 수 있다. 추가로, 예를 들어, 통지 정보로서, 수신 디바이스(50) 또는 동작 디바이스(70)에서 램프가 켜질 수 있다.
제3 실시예가 위에서 설명되었다. 제3 실시예에서, 방송 애플리케이션 및 서버 애플리케이션이 서로 협력하는 동안, 방송 애플리케이션과 서버 애플리케이션 사이의 협력이 수신 디바이스(50)에 디스플레이된다. 따라서, 사용자는 서버 애플리케이션을 사용하기 위해 활성화 키워드에 대해 망설임 없이 말할 수 있다.
더욱이, 제3 실시예에 설명된 상세한 사항들은 제1 또는 제2 실시예에서 설명된 상세한 사항들과 조합될 수 있다.
5. 수정 예시들
(수신 디바이스의 다른 구성)
위의 설명에서, 상이한 디바이스들인 수신 디바이스(50) 및 음성 처리 디바이스(60)가 설명되었다. 수신 디바이스(50) 및 음성 처리 디바이스(60)는 통합 디바이스(다발 디바이스(bundled device))로서 실현될 수 있다. 예를 들어, 음성 처리 모듈로서 음성 처리 디바이스(60)를 제공하고 수신 디바이스(50)의 기능에 음성 처리 모듈을 제공함으로써 다발 디바이스가 실현될 수 있다.
추가로, 위의 설명에서, 수신 디바이스(50)는 텔레비전 수신기와 같은 고정 수신기 또는 스마트폰과 같은 이동 수신기로서 설명되었다. 하지만, 수신 디바이스(50)는 HMD(head-mounted display)와 같은 웨어러블 컴퓨터일 수 있다. 추가로, 수신 디바이스(50)는, 예를 들어, 차량 텔레비전과 같이 자동차에 탑재되는 디바이스일 수 있다. 즉, 디바이스가 콘텐츠를 재생하거나 기록할 수 있는 한, 임의의 디바이스가 수신 디바이스(50)로서 사용될 수 있다.
(서버들의 다른 구성)
위의 설명에서, 음성 변환 서버(20) 및 기능 공급 서버(30)는 상이한 서버들로서 설명되었다. 하지만, 서버들은 서버들 둘 다의 기능들을 가지기 위해 통합될 수 있다.
추가로, 위의 설명에서, 음성 인식 서비스는 음성 변환 서버(20)에 의해 공급되었다. 하지만, 음성 인식 기능은 음성 처리 디바이스(60) 측에서 실행될 수 있다.
즉, 음성 처리 디바이스(60)는 사용자에 의해 말해지는 음성 데이터를 텍스트 데이터로 변환할 수 있고, 결과로서 얻어지는 텍스트 데이터를 인터넷(90)을 통해 기능 공급 서버(30)에 송신할 수 있다. 추가로, 변환 시에 사용되는 데이터베이스(213)는 인터넷(90)의 서버에 의해 공급될 수 있거나 음성 처리 디바이스(60)에 의해 보유될 수 있다.
(방송 방식의 예시)
위의 설명에서, USA 등에서 방송 콘텐츠의 방송 방식으로서 채택된 방식인 ATSC(특히, ATSC 3.0)가 설명되었다. 본 기술은 일본 등에서 채택된 방식인 ISDB(Integrated Services Digital Broadcasting) 또는 유럽 국가들에서 채택된 방식인 DVB(Digital Video Broadcasting)에 적용될 수 있다.
추가로, 위의 설명에서, UDP/IP 패킷들을 사용한 IP 송신 방식이 채택된 ATSC 3.0이 예시로서 설명되었다. 하지만, 본 기술은 IP 송신 방식에 제한되지 않는다. 예를 들어, MPEG2-TS(Transport Stream) 방식과 같은 또 다른 방식이 적용될 수 있다.
추가로, 지상파 방송은 방송 콘텐츠를 송신하기 위한 송신 경로로서 설명되었다. 본 기술에서는, 지상파 방송에 추가로, 방송 위성(BS), 통신 위성(CS) 등의 위성 방송이 사용된다. 대안적으로, 물론, 케이블 텔레비전(CATV) 등과 같은 케이블 방송의 방송 송신 경로가 사용될 수 있다. 인터넷 프로토콜 TV(IPTV) 네트워크, 인터넷 등의 통신 송신 경로가 사용될 수 있다.
더욱이, 도 1의 음성 대화 시스템(1)에서는, 스팀 멀티플렉싱 프로세스를 실행하는 멀티플렉서(115) 및 변조 프로세스 등을 수행하는 송신 유닛(116) 등을 포함하는 방송국의 송신 디바이스(10)(도 2 참조)가 단독으로 예시되었다. 하지만, 일반적인 디지털 방송 시스템에서는, 멀티플렉서(115) 및 송신 유닛(116)은 상이한 장소들에 설치된다. 예를 들어, 멀티플렉서(115)는 방송국에 설치되고, 송신 유닛(116)은 송신국에 설치된다.
(애플리케이션의 예시)
방송 애플리케이션은 HTML5와 같은 마크업 언어 또는 JavaScript(등록 상표)와 같은 스크립트 언어로 개발된 애플리케이션에 제한되지 않는다. 예를 들어, Java(등록 상표)와 같은 프로그램 언어로 개발된 애플리케이션이 사용될 수 있다. 추가로, 방송 애플리케이션은 디스플레이되는 것에 제한되지 않고, 배경 또는 비-디스플레이 방식으로 실행될 수 있다.
추가로, 수신 디바이스(50)에 의해 실행되는 애플리케이션은 브라우저에 의해 실행되는 애플리케이션에 제한되지 않고, 소위 원시 애플리케이션이 운영 체제(OS) 환경(프레젠테이션 제어 환경)에서 실행될 수 있다. 추가로, 수신 디바이스(50)에 의해 실행되는 애플리케이션은 방송을 통해 취득되는 것에 제한되지 않고, 인터넷(90)에서 서버로부터의 통신을 통해 취득될 수 있다.
추가로, 수신 디바이스(50)에 의해 재생되는 콘텐츠는 방송을 통해 전달되는 방송 콘텐츠로 제한되지 않고, 통신을 통해 전달되는 통신 콘텐츠가 사용될 수 있다. 통신 콘텐츠는, 예를 들어, VOD(Video On Demand) 스트리밍 방식으로 전달되는 콘텐츠 또는 다운로드 가능한 콘텐츠를 포함한다. 더욱이, 방송 콘텐츠 및 통신 콘텐츠는 텔레비전 프로그램들(예를 들어, 뉴스, 스포츠, 드라마들 등) 또는 영화들에 추가로 동영상, 음악, 전자 서적들, 게임들, 및 광고와 같은 모든 종류들의 콘텐츠를 포함할 수 있다.
(그 외)
본 명세서에서 사용된 이름들은 예시들이고, 몇몇 경우들에서 상이한 명칭들이 실제로 사용된다. 이름들의 차이들은 단지 형식적인 차이들이고, 대상들의 실질적인 상세한 사항들은 상이하지 않다. 예를 들어, 위에서 설명된 활성화 키워드들은 몇몇 경우들에서 커맨드 단어들로 불린다.
6. 컴퓨터의 구성
위에서 설명된 일련의 프로세스들(예를 들어, 도 8 및 9에 도시된 음성 대화 프로세스, 도 13에 도시된 활성화 키워드 매칭 프로세스, 및 도 15에 도시된 협력 아이콘 디스플레이 프로세스)은 하드웨어 또는 소프트웨어에 의해 실행될 수 있다. 소프트웨어에 의해 일련의 프로세스들이 실행되는 경우, 소프트웨어를 포함하는 프로그램이 각각의 디바이스의 컴퓨터에 설치된다. 도 18은 위에서 설명된 일련의 프로세스들이 프로그램에 의해 실행되는 컴퓨터의 하드웨어 구성의 예시를 도시하는 블록도이다.
컴퓨터(1000)에서, 중앙 처리 유닛(CPU)(1001), 판독 전용 메모리(ROM)(1002), 및 랜덤 액세스 메모리(RAM)(1003)는 버스(1004)에 의해 서로 연결된다. 입력 및 출력 인터페이스(1005)는 추가로 버스(1004)에 연결된다. 입력 유닛(1006), 출력 유닛(1007), 기록 유닛(1008), 통신 유닛(1009), 및 드라이브(1010)는 입력 및 출력 인터페이스(1005)에 연결된다.
키보드, 마우스, 마이크로폰 등이 입력 유닛(1006)으로서 사용된다. 디스플레이, 스피커 등이 출력 유닛(1007)으로서 사용된다. 하드디스크, 비휘발성 메모리 등이 기록 유닛(1008)으로서 사용된다. 네트워크 인터페이스 등이 통신 유닛(1009)으로서 사용된다. 드라이브(1010)는 자기 디스크, 광 디스크, 광 자기 디스크, 또는 반도체 메모리와 같은 기록 매체(1011)를 구동한다.
위에서 설명된 구성을 가지는 컴퓨터(1000)에서, CPU(1001)는 입력 및 출력 인터페이스(1005) 및 버스(1004)를 통해 ROM(1002) 또는 기록 유닛(1008)에 기록된 프로그램을 RAM(1003)에 로딩하고 프로그램을 실행함으로써 위에서 설명된 일련의 프로세스들을 실행한다.
컴퓨터(1000)(CPU(1001))에 의해 실행되는 프로그램은, 예를 들어, 공급을 위한 패키지 매체와 같은 이동식 기록 매체(1011)에 기록될 수 있다. 추가로, 프로그램은 근거리 통신망, 인터넷, 또는 디지털 방송과 같은 유선 또는 무선 송신 매체를 통해 공급될 수 있다.
컴퓨터(1000)에서, 프로그램은 드라이브(1010)에 이동식 기록 매체(1011)를 탑재함으로써 입력 및 출력 인터페이스(1005)를 통해 기록 유닛(1008)에 설치될 수 있다. 추가로, 프로그램은 유선 또는 무선 송신 매체를 통해 통신 유닛(1009)에 의해 수신될 수 있고, 기록 매체(1008)에 설치될 수 있다. 추가적으로, 프로그램은 사전에 ROM(1002) 또는 기록 유닛(1008)에 설치될 수 있다.
여기에서, 본 명세서에서는, 프로그램에 따라 컴퓨터에 의해 실행되는 프로세스들은 반드시 흐름도에 설명된 순서로 연대순으로 실행되지 않을 수 있다. 즉, 프로그램에 따라 컴퓨터에 의해 실행되는 프로세스들은 병렬적으로 또는 개별적으로 실행되는 프로세스들(예를 들어, 병렬 프로세스들 또는 객체들에 의한 프로세스들)도 포함한다. 추가로, 프로그램은 하나의 컴퓨터(프로세서)에 의해 처리될 수 있거나 복수의 컴퓨터들에 의해 분산 및 처리될 수 있다.
더욱이, 본 기술의 실시예들은 위에서 설명된 실시예들에 제한되지 않으며, 다양한 변경들이 본 기술의 요지를 벗어나지 않고 본 기술의 범위에서 만들어질 수 있다.
추가적으로, 본 기술은 아래와 같이 구성될 수도 있다.
(1) 수신 장치로서, 사용자에게 콘텐츠의 프레젠테이션을 하는 동안 사용자로부터 콘텐츠에 관한 목소리 커맨드를 수신하고, 처리를 위해 서버 시스템에 목소리 커맨드를 송신하고, 서버 시스템으로부터 목소리 커맨드에 대한 응답 - 목소리 커맨드에 대한 응답은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성됨 - 을 수신하도록 구성되는 처리 회로를 포함하는, 장치.
(2) 특징 (1)에 따른 수신 장치로서, 콘텐츠가 오디오 또는 비디오 콘텐츠이고; 처리 회로가 사용자에게 디스플레이하기 위해 오디오 또는 비디오 콘텐츠를 디코딩하고, 오디오 또는 비디오 콘텐츠를 디스플레이하는 동안 오디오 또는 비디오 콘텐츠에 관한 목소리 커맨드를 수신하도록 구성되는, 장치.
(3) 특징 (1) 또는 (2)에 따른 수신 장치로서, 처리 회로가 콘텐츠가 사용자에게 제시되는 동안 방송 애플리케이션을 실행하도록 구성되고, 방송 애플리케이션이 서버 시스템에 콘텐츠 정보를 제공하도록 프로그래밍되는, 장치.
(4) 특징들 (1) 내지 (3) 중 임의의 것에 따른 수신 장치로서, 서버 시스템이 제1 서버 및 제2 서버를 포함하고; 처리 회로가 서버 시스템에 포함되는 제1 서버에 목소리 커맨드를 송신하고, 서버 시스템에 포함되는 제2 서버로부터 목소리 커맨드에 대한 응답을 수신하도록 구성되는, 장치.
(5) 특징들 (1) 내지 (4) 중 임의의 것에 따른 수신 장치로서, 목소리 커맨드가 활성화 단어를 포함하고, 활성화 단어는 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 것임을 나타내는, 장치.
(6) 특징들 (1) 내지 (5) 중 임의의 것에 따른 수신 장치로서, 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 질의를 포함하고, 서버 시스템으로부터 수신되는 목소리 커맨드에 대한 응답이 목소리 커맨드에 포함되는 질문에 대한 회답을 포함하는, 장치.
(7) 특징들 (1) 내지 (6) 중 임의의 것에 따른 수신 장치로서, 처리 회로가 사용자에게 프레젠테이션을 하기 위해 콘텐츠를 디코딩하도록 추가로 구성되는, 장치.
(8) 목소리 커맨드에 대한 응답을 수신하기 위한 방법으로서, 사용자에게 콘텐츠의 프레젠테이션을 하는 동안 사용자로부터 콘텐츠에 관한 목소리 커맨드를 수신하는 단계; 수신 장치의 처리 회로에 의해, 처리를 위해 서버 시스템에 목소리 커맨드를 송신하는 단계; 및 수신 장치의 처리 회로에 의해, 서버 시스템으로부터 목소리 커맨드에 대한 응답 - 목소리 커맨드에 대한 응답은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성됨 - 을 수신하는 단계를 포함하는, 방법.
(9) 특징 (8)에 따른 방법으로서, 콘텐츠가 오디오 또는 비디오 콘텐츠이고, 방법이 사용자에게 디스플레이하기 위해 오디오 또는 비디오 콘텐츠를 디코딩하는 단계를 추가로 포함하고, 목소리 커맨드를 수신하는 단계가 오디오 또는 비디오 콘텐츠를 디스플레이하는 동안 오디오 또는 비디오 콘텐츠에 관한 목소리 커맨드를 수신하는 단계를 포함하는, 방법.
(10) 특징 (8) 또는 (9)에 따른 방법으로서, 콘텐츠가 사용자에게 제시되는 동안 방송 애플리케이션을 실행하는 단계를 추가로 포함하고, 방송 애플리케이션은 서버 시스템에 콘텐츠 정보를 제공하도록 프로그래밍되는, 방법.
(11) 특징들 (8) 내지 (10) 중 임의의 것에 따른 방법으로서, 서버 시스템이 제1 서버 및 제2 서버를 포함하고, 송신하는 단계가 서버 시스템에 포함되는 제1 서버에 목소리 커맨드를 송신하는 단계를 포함하고, 응답을 수신하는 단계가 서버 시스템에 포함되는 제2 서버로부터 목소리 커맨드에 대한 응답을 수신하는 단계를 포함하는, 방법.
(12) 특징들 (8) 내지 (11) 중 임의의 것에 따른 방법으로서, 목소리 커맨드가 활성화 단어를 포함하고, 활성화 단어는 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 것임을 나타내는, 방법.
(13) 특징들 (8) 내지 (12) 중 임의의 것에 따른 방법으로서, 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 질의를 포함하고, 서버 시스템으로부터 수신되는 목소리 커맨드에 대한 응답이 목소리 커맨드에 포함되는 질문에 대한 회답을 포함하는, 방법.
(14) 특징들 (8) 내지 (13) 중 임의의 것에 따른 방법으로서, 사용자에게 프레젠테이션을 하기 위해 콘텐츠를 디코딩하는 단계를 추가로 포함하는, 방법.
(15) 프로세서에 의해 실행될 때 프로세서가 목소리 커맨드에 대한 응답을 수신하기 위한 방법을 수행하도록 야기하는 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 매체로서, 방법이 사용자에게 콘텐츠의 프레젠테이션을 하는 동안 사용자로부터 콘텐츠에 관한 목소리 커맨드를 수신하는 단계; 처리를 위해 서버 시스템에 목소리 커맨드를 송신하는 단계; 및 서버 시스템으로부터 목소리 커맨드에 대한 응답 - 목소리 커맨드에 대한 응답은 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성됨 - 을 수신하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(16) 특징 (15)에 따른 비일시적 컴퓨터 판독 가능 매체로서, 콘텐츠가 오디오 또는 비디오 콘텐츠이고, 방법이 사용자에게 디스플레이 하기 위해 오디오 또는 비디오 콘텐츠를 디코딩하는 단계를 추가로 포함하고, 목소리 커맨드를 수신하는 단계가 오디오 또는 비디오 콘텐츠를 디스플레이하는 동안 오디오 또는 비디오 콘텐츠에 관한 목소리 커맨드를 수신하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(17) 특징 (15) 또는 (16)에 따른 비일시적 컴퓨터 판독 가능 매체로서, 콘텐츠가 사용자에게 제시되는 동안 방송 애플리케이션을 실행하는 단계를 추가로 포함하고, 방송 애플리케이션은 서버 시스템에 콘텐츠 정보를 제공하도록 프로그래밍되는, 비일시적 컴퓨터 판독 가능 매체.
(18) 특징들 (15) 내지 (17) 중 임의의 것에 따른 비일시적 컴퓨터 판독 가능 매체로서, 서버 시스템이 제1 서버 및 제2 서버를 포함하고, 송신하는 단계가 서버 시스템에 포함되는 제1 서버에 목소리 커맨드를 송신하는 단계를 포함하고, 응답을 수신하는 단계가 서버 시스템에 포함되는 제2 서버로부터 목소리 커맨드에 대한 응답을 수신하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(19) 특징들 (15) 내지 (18) 중 임의의 것에 따른 비일시적 컴퓨터 판독 가능 매체로서, 목소리 커맨드가 활성화 단어를 포함하고, 활성화 단어는 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 것임을 나타내는, 비일시적 컴퓨터 판독 가능 매체.
(20) 특징들 (15) 내지 (19) 중 임의의 것에 따른 비일시적 컴퓨터 판독 가능 매체로서, 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 질의를 포함하고, 서버 시스템으로부터 수신되는 목소리 커맨드에 대한 응답이 목소리 커맨드에 포함되는 질문에 대한 회답을 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(21) 특징들 (15) 내지 (20) 중 임의의 것에 따른 비일시적 컴퓨터 판독 가능 매체로서, 사용자에게 프레젠테이션을 하기 위한 콘텐츠를 디코딩하는 단계를 추가로 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(22) 정보 처리 시스템으로서, 사용자에게 제시되는 콘텐츠에 관한 목소리 커맨드를 수신 장치로부터 수신하고, 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻고, 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 얻어지는 콘텐츠 정보에 기초하여 목소리 커맨드에 대한 응답을 생성하고, 목소리 커맨드에 대한 생성되는 응답을 수신 장치에 송신하도록 구성되는 처리 회로를 포함하는, 시스템.
(23) 특징 (22)에 따른 정보 처리 시스템으로서, 처리 회로가 사용자에게 콘텐츠가 제시되는 동안 수신 장치에서 실행되는 방송 애플리케이션으로부터 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻도록 구성되는, 시스템.
(24) 특징 (22) 또는 (23)에 따른 정보 처리 시스템으로서, 목소리 커맨드가 활성화 단어를 포함하고, 활성화 단어는 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 것임을 나타내는, 시스템.
(25) 특징들 (22) 내지 (24) 중 임의의 것에 따른 정보 처리 시스템으로서, 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 질의를 포함하고; 목소리 커맨드에 대한 응답이 목소리 커맨드에 포함되는 질의에 대한 회답을 포함하는, 시스템.
(26) 목소리 커맨드를 처리하기 위한 방법으로서, 사용자에게 제시되는 콘텐츠에 관한 목소리 커맨드를 수신 장치로부터 수신하는 단계, 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻는 단계, 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 얻어지는 콘텐츠 정보에 기초하여 목소리 커맨드에 대한 응답을 정보 처리 장치의 처리 회로에 의해 생성하는 단계, 및 목소리 커맨드에 대한 생성되는 응답을 수신 장치에 송신하는 단계를 포함하는, 방법.
(27) 특징 (26)에 따른 방법으로서, 콘텐츠 정보를 얻는 단계가 사용자에게 콘텐츠가 제시되는 동안 수신 장치에서 실행되는 방송 애플리케이션으로부터 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻는 단계를 포함하는, 방법.
(28) 특징 (26) 또는 (27)에 따른 방법으로서, 목소리 커맨드가 활성화 단어를 포함하고, 활성화 단어는 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 것임을 나타내는, 방법.
(29) 특징들 (26) 내지 (28) 중 임의의 것에 따른 방법으로서, 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 질의를 포함하고; 목소리 커맨드에 대한 응답이 목소리 커맨드에 포함되는 질의에 대한 회답을 포함하는, 방법.
(30) 프로세서에 의해 실행될 때 프로세서가 목소리 커맨드를 처리하기 위한 방법을 수행하도록 야기하는 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 매체로서, 방법이 사용자에게 제시되는 콘텐츠에 관한 목소리 커맨드를 수신 장치로부터 수신하는 단계, 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻는 단계, 목소리 커맨드, 및 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 얻어지는 콘텐츠 정보에 기초하여 목소리 커맨드에 대한 응답을 생성하는 단계, 및 목소리 커맨드에 대한 생성되는 응답을 수신 장치에 송신하는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(31) 특징 (30)에 따른 비일시적 컴퓨터 판독 가능 매체로서, 콘텐츠 정보를 얻는 단계가 사용자에게 콘텐츠가 제시되는 동안 수신 장치에서 실행되는 방송 애플리케이션으로부터 목소리 커맨드에 관한 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻는 단계를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(32) 특징 (30) 또는 (31)에 따른 비일시적 컴퓨터 판독 가능 매체로서, 목소리 커맨드가 활성화 단어를 포함하고, 활성화 단어는 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 것임을 나타내는, 비일시적 컴퓨터 판독 가능 매체.
(33) 특징들 (30) 내지 (32) 중 임의의 것에 따른 비일시적 컴퓨터 판독 가능 매체로서, 목소리 커맨드가 사용자에게 제시되는 콘텐츠에 관한 질의를 포함하고; 목소리 커맨드에 대한 응답이 목소리 커맨드에 포함되는 질의에 대한 회답을 포함하는, 비일시적 컴퓨터 판독 가능 매체.
(34) 정보 처리 디바이스로서,
데이터베이스에 포함되는 음성 대화 기능을 실현하기 위한 대화 정보 중에서 콘텐츠에 대한 재생 정보에 의해 좁혀지는 대화 정보에 기초하여 재생 대상인 콘텐츠를 시청하고 있는 사용자와의 음성 대화에 관한 프로세스를 실행하도록 구성되는 처리 유닛을 포함하는, 디바이스.
(35) 특징 (34)에 따른 정보 처리 디바이스로서,
처리 유닛이 인터넷에 연결되는 서버 측에서 실행되는 제1 애플리케이션을 실행하고,
제1 애플리케이션이 콘텐츠를 재생하는 클라이언트 측에서 실행되는 제2 애플리케이션과 협력할 수 있게 함으로써, 음성 에이전트 서비스에 의해 공급되는 사용자 인터페이스가 음성 대화 기능을 실현하기 위해 사용될 수 있는, 디바이스.
(36) 특징 (35)에 따른 정보 처리 디바이스로서, 처리 유닛이 불특정 사용자에게 전달될 제2 애플리케이션을, 제2 애플리케이션을 사용하는 특정 사용자의 속성과 연관짓는 프로세스를 실행하는, 디바이스.
(37) 특징 (36)에 따른 정보 처리 디바이스로서,
제1 애플리케이션이 제2 애플리케이션을 실행하는 클라이언트 측에 기존의 식별 정보를 통지하고,
특정 사용자의 속성이 음성 에이전트 서비스를 사용하여 통지되는 식별 정보를 확인한 특정 사용자의 음성 스피치를 수신함으로써 연관되는, 디바이스.
(38) 특징 (36)에 따른 정보 처리 디바이스로서,
제2 애플리케이션을 실행하는 클라이언트 측이 음성 에이전트 서비스를 사용하여 기존의 식별 정보에 적합한 음성을 출력하고,
특정 사용자의 속성이, 식별 정보에 적합한 출력 음성을 확인한 특정 사용자에 의해 수행되는 입력을 제2 애플리케이션에 의해 수신함으로써 연관되는, 디바이스.
(39) 특징 (35)에 따른 정보 처리 디바이스로서,
음성 에이전트 서비스 사용 시의 통상적인 맥락 및 음성 대화 기능 사용 시의 특정 맥락이 수신 가능한 경우 및 특정 맥락의 음성 대화 기능을 유효화하기 위한 키워드가 사용자에 의해 음성으로서 말해지고 음성 에이전트 서비스를 사용하여 수신될 때, 통상적인 맥락 및 특정 맥락의 음성 대화 기능이 유효화되고 특정 맥락의 음성 대화가 수신되는, 디바이스.
(40) 특징 (39)에 따른 정보 처리 디바이스로서, 특정 맥락이 유효한 기간 동안에만, 음성 대화 기능을 활성화하기 위한 키워드의 음성으로서 말해지는 음성이 음성 에이전트 서비스를 사용하여 수신되는, 디바이스.
(41) 특징 (40)에 따른 정보 처리 디바이스로서,
음성 에이전트 서비스에 의해 공급되는 사용자 인터페이스가 클라이언트 측에 설치된 음성 처리 디바이스에 의해 공급되고,
음성 처리 디바이스가 음성 대화 기능을 유효화하기 위한 키워드를 기록하고 특정 맥락이 유효한 기간 동안에만 키워드를 유효화하여, 특정 맥락이 유효한 기간 내에 키워드가 특정 사용자에 의해 음성으로서 말해질 때 특정 맥락이 수신되게 되는, 디바이스.
(42) 특징들 (34) 내지 (41) 중 임의의 것에 따른 정보 처리 디바이스로서, 재생 정보가 콘텐츠를 식별하기 위한 식별 정보, 콘텐츠에서의 재생 시간 위치를 나타내는 위치 정보, 및 콘텐츠의 음성 또는 자막들의 언어에 대한 정보를 적어도 포함하는, 디바이스.
(43) 특징들 (35) 내지 (42) 중 임의의 것에 따른 정보 처리 디바이스로서,
콘텐츠가 방송파들로서 전달되는 방송 콘텐츠이고,
제2 애플리케이션이 방송 콘텐츠와 연동하는 방송 애플리케이션인, 디바이스.
(44) 정보 처리 디바이스의 정보 처리 방법으로서, 정보 처리 디바이스에 의해:
데이터베이스에 포함되는 음성 대화 기능을 실현하기 위한 대화 정보 중에서 콘텐츠에 대한 재생 정보에 의해 좁혀지는 대화 정보에 기초하여 재생 대상인 콘텐츠를 시청하고 있는 사용자와의 음성 대화에 관한 프로세스를 실행하는 단계를 포함하는, 방법.
(45) 수신 디바이스로서,
콘텐츠를 수신하도록 구성되는 수신 유닛;
수신되는 콘텐츠를 재생하도록 구성되는 재생 유닛; 및
재생 대상인 콘텐츠에 대한 재생 정보를 처리하고, 콘텐츠를 시청하고 있는 사용자와의 음성 대화에 관한 음성 대화 기능을 공급하는 서버 측에 재생 정보를 송신하도록 구성되는 처리 유닛을 포함하는, 디바이스.
(46) 특징 (45)에 따른 수신 디바이스로서,
처리 유닛이 콘텐츠를 재생하는 클라이언트 측에서 실행되는 제2 애플리케이션을 실행하고,
제2 애플리케이션이 인터넷에 연결되고 음성 대화 기능을 공급하는 서버 측에서 실행되는 제1 애플리케이션과 협력할 수 있게 함으로써, 음성 에이전트 서비스에 의해 공급되는 사용자 인터페이스는 음성 대화 기능을 실현하도록 사용될 수 있고,
제2 애플리케이션이 음성 대화 기능을 통해 얻어지는 처리 결과를 출력하는, 디바이스.
(47) 특징 (46)에 따른 수신 디바이스로서,
음성 에이전트 서비스 사용 시의 통상적인 맥락 및 음성 대화 기능 사용 시의 특정 맥락이 음성 에이전트 서비스를 사용하여 수신 가능한 경우, 특정 맥락이 수신 가능한 기간 동안에만 음성 대화 기능을 유효화하기 위한 키워드가 디스플레이되도록 야기되고 키워드에 적합한 통지 정보가 디스플레이되도록 야기되는, 디바이스.
(48) 특징 (47)에 따른 수신 디바이스로서,
제2 애플리케이션이 제1 애플리케이션에 의해 통지되는 통지 정보가 디스플레이되도록 야기하는, 디바이스.
(49) 특징 (47)에 따른 수신 디바이스로서,
음성 에이전트 서비스에 관한 동작을 수신하는 동작 디바이스가 제1 애플리케이션에 의해 통지되는 통지 정보가 디스플레이되도록 야기하는, 디바이스.
(50) 특징들 (47) 내지 (49) 중 임의의 것에 따른 수신 디바이스로서,
음성 에이전트 서비스에 의해 공급되는 사용자 인터페이스가 클라이언트 측에 설치된 음성 처리 디바이스 또는 수신 디바이스에 의해 공급되는, 디바이스.
(51) 특징들 (45) 내지 (50) 중 임의의 것에 따른 수신 디바이스로서, 재생 정보가 콘텐츠를 식별하기 위한 식별 정보, 콘텐츠에서의 재생 시간 위치를 나타내는 위치 정보, 및 콘텐츠의 음성 또는 자막들의 언어에 대한 정보를 적어도 포함하는, 디바이스.
(52) 특징들 (46) 내지 (51) 중 임의의 것에 따른 수신 디바이스로서,
콘텐츠가 방송파들로서 전달되는 방송 콘텐츠이고,
제2 애플리케이션은 방송 콘텐츠와 연동하는 방송 애플리케이션인, 디바이스.
(53) 수신 디바이스의 정보 처리 방법으로서, 수신 디바이스에 의해:
콘텐츠를 수신하는 단계;
수신되는 콘텐츠를 재생하는 단계; 및
재생 대상인 콘텐츠에 관한 재생 정보를 처리하고, 콘텐츠를 시청하고 있는 사용자와의 음성 대화에 관한 음성 대화 기능을 공급하는 서버 측에 재생 정보를 송신하는 단계를 포함하는, 방법.
1 sound dialogue system 1: 음성 대화 시스템
10 transmission device 10: 송신 디바이스
20 sound conversion server 20: 음성 변환 서버
30 function supply server 30: 기능 공급 서버
50 reception device 50: 수신 디바이스
60 sound processing device 60: 음성 처리 디바이스
70 operation device 70: 동작 디바이스
90 Internet 90: 인터넷
111 content generation unit 111: 콘텐츠 생성 유닛
113 application generation unit 113: 애플리케이션 생성 유닛
116 transmission unit 116: 송신 유닛
211 sound-to-text conversion processing unit 211: 음성-텍스트 변환 처리 유닛
213 database 213: 데이터베이스
311 function processing unit 311: 기능 처리 유닛
313 database 313: 데이터베이스
331 speech understanding unit 331: 스피치 이해 유닛
332 dialogue control unit 332: 대화 제어 유닛
333 speech generation unit 333: 스피치 생성 유닛
511 processing unit 511: 처리 유닛
512 memory 512: 메모리
514 tuner 514: 튜너
515 demultiplexer 515: 디멀티플렉서
516 sound decoder 516: 음성 디코더
517 sound output unit 517: 음성 출력 유닛
518 video decoder 518: 비디오 디코더
519 video output unit 519: 비디오 출력 유닛
520 browser 520: 브라우저
521 speaker 521: 스피커
522 display unit 522: 디스플레이 유닛
523 communication I/F 523: 통신 I/F
1000 computer 1000: 컴퓨터
1001 CPU 1001: CPU

Claims (19)

  1. 수신 장치로서,
    사용자에게 콘텐츠의 프레젠테이션을 하는 동안 상기 사용자로부터 상기 콘텐츠에 관한 목소리 커맨드를 수신하고,
    처리를 위해 서버 시스템에 상기 목소리 커맨드를 송신하고,
    상기 서버 시스템으로부터 상기 목소리 커맨드에 대한 응답을 수신하도록 - 상기 목소리 커맨드에 대한 상기 응답은 상기 목소리 커맨드, 및 상기 목소리 커맨드에 관한 상기 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성됨 -
    구성되는, 처리 회로
    를 포함하는, 수신 장치.
  2. 제1항에 있어서,
    상기 콘텐츠는 오디오 또는 비디오 콘텐츠이고;
    상기 처리 회로는
    상기 사용자에게 디스플레이하기 위해 상기 오디오 또는 비디오 콘텐츠를 디코딩하고,
    상기 오디오 또는 비디오 콘텐츠를 디스플레이하는 동안 상기 오디오 또는 비디오 콘텐츠에 관한 상기 목소리 커맨드를 수신하도록
    구성되는, 수신 장치.
  3. 제1항에 있어서,
    상기 처리 회로는 상기 콘텐츠가 상기 사용자에게 제시되는 동안 방송 애플리케이션을 실행하도록 구성되고,
    상기 방송 애플리케이션은 상기 서버 시스템에 상기 콘텐츠 정보를 제공하도록 프로그래밍되는, 수신 장치.
  4. 제1항에 있어서,
    상기 서버 시스템은 제1 및 제2 서버를 포함하고;
    상기 처리 회로는
    상기 서버 시스템에 포함되는 상기 제1 서버에 상기 목소리 커맨드를 송신하고,
    상기 서버 시스템에 포함되는 상기 제2 서버로부터 상기 목소리 커맨드에 대한 상기 응답을 수신하도록
    구성되는, 수신 장치.
  5. 제1항에 있어서, 상기 목소리 커맨드는 활성화 단어를 포함하고, 상기 활성화 단어는 상기 목소리 커맨드가 상기 사용자에게 제시되는 상기 콘텐츠에 관한 것임을 나타내는, 수신 장치.
  6. 제1항에 있어서,
    상기 목소리 커맨드는 상기 사용자에게 제시되는 상기 콘텐츠에 관한 질의를 포함하고,
    상기 서버 시스템으로부터 수신되는 상기 목소리 커맨드에 대한 상기 응답은 상기 목소리 커맨드에 포함되는 상기 질의에 대한 회답을 포함하는, 수신 장치.
  7. 제1항에 있어서, 상기 처리 회로는 상기 사용자에게 상기 프레젠테이션을 하기 위해 상기 콘텐츠를 디코딩하도록 더 구성되는, 수신 장치.
  8. 목소리 커맨드에 대한 응답을 수신하기 위한 방법으로서,
    사용자에게 콘텐츠의 프레젠테이션을 하는 동안 상기 사용자로부터 상기 콘텐츠에 관한 상기 목소리 커맨드를 수신하는 단계;
    수신 장치의 처리 회로에 의해, 처리를 위해 서버 시스템에 상기 목소리 커맨드를 송신하는 단계; 및
    상기 수신 장치의 상기 처리 회로에 의해, 상기 서버 시스템으로부터 상기 목소리 커맨드에 대한 상기 응답을 수신하는 단계 - 상기 목소리 커맨드에 대한 상기 응답은 상기 목소리 커맨드, 및 상기 목소리 커맨드에 관한 상기 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성됨 -
    를 포함하는, 방법.
  9. 제8항에 있어서,
    상기 콘텐츠는 오디오 또는 비디오 콘텐츠이고,
    상기 방법은 상기 사용자에게 디스플레이하기 위해 상기 오디오 또는 비디오 콘텐츠를 디코딩하는 단계를 더 포함하고,
    상기 목소리 커맨드를 수신하는 단계는 상기 오디오 또는 비디오 콘텐츠를 디스플레이하는 동안 상기 오디오 또는 비디오 콘텐츠에 관한 상기 목소리 커맨드를 수신하는 단계를 포함하는, 방법.
  10. 제8항에 있어서,
    상기 콘텐츠가 상기 사용자에게 제시되는 동안 방송 애플리케이션을 실행하는 단계를 더 포함하고,
    상기 방송 애플리케이션은 상기 서버 시스템에 상기 콘텐츠 정보를 제공하도록 프로그래밍되는, 방법.
  11. 제8항에 있어서,
    상기 서버 시스템은 제1 서버 및 제2 서버를 포함하고,
    상기 송신하는 단계는 상기 서버 시스템에 포함되는 상기 제1 서버에 상기 목소리 커맨드를 송신하는 단계를 포함하고,
    상기 응답을 수신하는 단계는 상기 서버 시스템에 포함되는 상기 제2 서버로부터 상기 목소리 커맨드에 대한 상기 응답을 수신하는 단계를 포함하는, 방법.
  12. 제8항에 있어서, 상기 목소리 커맨드는 활성화 단어를 포함하고, 상기 활성화 단어는 상기 목소리 커맨드가 상기 사용자에게 제시되는 상기 콘텐츠에 관한 것임을 나타내는, 방법.
  13. 제8항에 있어서,
    상기 목소리 커맨드는 상기 사용자에게 제시되는 상기 콘텐츠에 관한 질의를 포함하고,
    상기 서버 시스템으로부터 수신되는 상기 목소리 커맨드에 대한 상기 응답은 상기 목소리 커맨드에 포함되는 상기 질의에 대한 회답을 포함하는, 방법.
  14. 제8항에 있어서,
    상기 사용자에게 상기 프레젠테이션을 하기 위해 상기 콘텐츠를 디코딩하는 단계를 더 포함하는, 방법.
  15. 프로세서에 의해 실행될 때 상기 프로세서가 목소리 커맨드에 대한 응답을 수신하기 위한 방법을 수행하도록 야기하는 명령어들을 저장하는 비일시적 컴퓨터 판독 가능 매체로서,
    상기 방법은:
    사용자에게 콘텐츠의 프레젠테이션을 하는 동안 상기 사용자로부터 상기 콘텐츠에 관한 상기 목소리 커맨드를 수신하는 단계;
    처리를 위해 서버 시스템에 상기 목소리 커맨드를 송신하는 단계; 및
    상기 서버 시스템으로부터 상기 목소리 커맨드에 대한 상기 응답을 수신하는 단계 - 상기 목소리 커맨드에 대한 상기 응답은 상기 목소리 커맨드, 및 상기 목소리 커맨드에 관한 상기 콘텐츠를 식별하기 위한 콘텐츠 정보에 기초하여 생성됨 -
    를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
  16. 정보 처리 시스템으로서,
    사용자에게 제시되는 콘텐츠에 관한 목소리 커맨드를 수신 장치로부터 수신하고,
    상기 목소리 커맨드에 관한 상기 콘텐츠를 식별하기 위한 콘텐츠 정보를 얻고,
    상기 목소리 커맨드, 및 상기 목소리 커맨드에 관한 상기 콘텐츠를 식별하기 위한 얻어지는 상기 콘텐츠 정보에 기초하여 상기 목소리 커맨드에 대한 응답을 생성하고,
    상기 목소리 커맨드에 대한 생성되는 상기 응답을 상기 수신 장치에 송신하도록
    구성되는, 처리 회로
    를 포함하는, 정보 처리 시스템.
  17. 제16항에 있어서, 상기 처리 회로는 상기 사용자에게 상기 콘텐츠가 제시되는 동안 상기 수신 장치에서 실행되는 방송 애플리케이션으로부터 상기 목소리 커맨드에 관한 상기 콘텐츠를 식별하기 위한 상기 콘텐츠 정보를 얻도록 구성되는, 정보 처리 시스템.
  18. 제16항에 있어서, 상기 목소리 커맨드는 활성화 단어를 포함하고, 상기 활성화 단어는 상기 목소리 커맨드가 상기 사용자에게 제시되는 상기 콘텐츠에 관한 것임을 나타내는, 정보 처리 시스템.
  19. 제16항에 있어서,
    상기 목소리 커맨드는 상기 사용자에게 제시되는 상기 콘텐츠에 관한 질의를 포함하고,
    상기 목소리 커맨드에 대한 상기 응답은 상기 목소리 커맨드에 포함되는 상기 질의에 대한 회답을 포함하는, 정보 처리 시스템.
KR1020187035957A 2017-04-21 2018-04-06 정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법 KR20190141569A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2017-084575 2017-04-21
JP2017084575A JP7026449B2 (ja) 2017-04-21 2017-04-21 情報処理装置、受信装置、及び情報処理方法
PCT/JP2018/014732 WO2018193878A1 (en) 2017-04-21 2018-04-06 Information processing device, reception device, and information processing method

Publications (1)

Publication Number Publication Date
KR20190141569A true KR20190141569A (ko) 2019-12-24

Family

ID=62044913

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187035957A KR20190141569A (ko) 2017-04-21 2018-04-06 정보 처리 디바이스, 수신 디바이스, 및 정보 처리 방법

Country Status (8)

Country Link
US (2) US20190147881A1 (ko)
EP (2) EP3940526A1 (ko)
JP (2) JP7026449B2 (ko)
KR (1) KR20190141569A (ko)
CN (1) CN109313901B (ko)
CA (1) CA3027680A1 (ko)
MX (1) MX2018015642A (ko)
WO (1) WO2018193878A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108012173B (zh) * 2017-11-16 2021-01-22 百度在线网络技术(北京)有限公司 一种内容识别方法、装置、设备和计算机存储介质
US10930278B2 (en) * 2018-04-09 2021-02-23 Google Llc Trigger sound detection in ambient audio to provide related functionality on a user interface
US11520821B2 (en) 2018-11-27 2022-12-06 Rovi Guides, Inc. Systems and methods for providing search query responses having contextually relevant voice output
JP7326731B2 (ja) * 2018-11-30 2023-08-16 株式会社リコー 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
CN113168829A (zh) 2018-12-03 2021-07-23 谷歌有限责任公司 语音输入处理
JP2022036352A (ja) * 2018-12-27 2022-03-08 ソニーグループ株式会社 表示制御装置、及び表示制御方法
EP3910447A4 (en) * 2019-01-07 2022-03-09 Sony Group Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
JP2022521040A (ja) * 2019-02-25 2022-04-05 フォルシアクラリオン・エレクトロニクス株式会社 ハイブリッド音声対話システム及びハイブリッド音声対話方法
US11308958B2 (en) * 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
WO2021155812A1 (zh) * 2020-02-07 2021-08-12 海信视像科技股份有限公司 接收装置、服务器以及语音信息处理系统
JP7463242B2 (ja) * 2020-09-16 2024-04-08 Tvs Regza株式会社 受信装置、サーバ及び音声情報処理システム
CN111246024A (zh) * 2020-02-28 2020-06-05 广州市讯飞樽鸿信息技术有限公司 一种通话过程中的互动点播交互方法、系统及装置
US11996094B2 (en) * 2020-07-15 2024-05-28 Google Llc Automated assistant with audio presentation interaction
WO2022101890A1 (en) * 2020-11-16 2022-05-19 Vocal Power-House Systems, LLC Responsive communication system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013187781A (ja) 2012-03-08 2013-09-19 Sony Corp 受信装置、受信方法、及びプログラム
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7603684B1 (en) * 1998-05-19 2009-10-13 United Video Properties, Inc. Program guide system with video-on-demand browsing
JP2004135133A (ja) 2002-10-11 2004-04-30 Tdk Corp 無線通信方法および装置、無線lanアダプタ、ならびにコンピュータプログラム
US8281339B1 (en) * 2004-01-12 2012-10-02 United Video Properties, Inc. Customizable flip and browse overlays in an interactive television system
US8434102B2 (en) 2004-01-27 2013-04-30 Panasonic Corporation Television receiver and digital broadcast system
US20060075429A1 (en) 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
JP4719153B2 (ja) 2004-07-05 2011-07-06 パナソニック株式会社 番組検索装置
JP2013502345A (ja) * 2009-08-27 2013-01-24 スマート ソルーションズ アンド デザインズ ピーティワイ リミテッド 流体の輸送
CN103718564B (zh) * 2011-08-05 2018-01-09 索尼公司 接收装置、接收方法以及信息处理系统
KR102056461B1 (ko) 2012-06-15 2019-12-16 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 제어 방법
US10051329B2 (en) * 2012-12-10 2018-08-14 DISH Technologies L.L.C. Apparatus, systems, and methods for selecting and presenting information about program content
KR102009316B1 (ko) 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
JP5456189B2 (ja) 2013-02-08 2014-03-26 株式会社東芝 表示制御装置、及び情報送信方法
US10067934B1 (en) 2013-02-22 2018-09-04 The Directv Group, Inc. Method and system for generating dynamic text responses for display after a search
US20150038047A1 (en) * 2013-07-30 2015-02-05 Mattel, Inc. Building set
JP2015139035A (ja) * 2014-01-21 2015-07-30 船井電機株式会社 表示装置
JP6351987B2 (ja) 2014-01-31 2018-07-04 シャープ株式会社 発話制御装置、発話装置、発話制御システム、発話制御方法、発話装置の制御方法、および制御プログラム
JP2015163920A (ja) 2014-02-28 2015-09-10 シャープ株式会社 音声システム
JP6227459B2 (ja) 2014-03-31 2017-11-08 Kddi株式会社 遠隔操作方法ならびにシステムならびにそのユーザ端末および視聴端末
EP2947635B1 (en) * 2014-05-21 2018-12-19 Samsung Electronics Co., Ltd. Display apparatus, remote control apparatus, system and controlling method thereof
US10206014B2 (en) 2014-06-20 2019-02-12 Google Llc Clarifying audible verbal information in video content
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6387287B2 (ja) 2014-11-14 2018-09-05 株式会社デンソーテン 不明事項解消処理システム
US9564177B1 (en) * 2015-03-24 2017-02-07 Amazon Technologies, Inc. Intelligent video navigation techniques
US9558784B1 (en) * 2015-03-24 2017-01-31 Amazon Technologies, Inc. Intelligent video navigation techniques
ES2905535T3 (es) 2015-03-27 2022-04-11 Twitter Inc Servicios de emisión de vídeo en vivo
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
JP7020799B2 (ja) * 2017-05-16 2022-02-16 ソニーグループ株式会社 情報処理装置、及び情報処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013187781A (ja) 2012-03-08 2013-09-19 Sony Corp 受信装置、受信方法、及びプログラム
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム

Also Published As

Publication number Publication date
WO2018193878A1 (en) 2018-10-25
US11676595B2 (en) 2023-06-13
JP7026449B2 (ja) 2022-02-28
US20210201904A1 (en) 2021-07-01
EP3940526A1 (en) 2022-01-19
JP2022058998A (ja) 2022-04-12
JP2018182692A (ja) 2018-11-15
MX2018015642A (es) 2019-03-06
US20190147881A1 (en) 2019-05-16
CA3027680A1 (en) 2018-10-25
EP3446308A1 (en) 2019-02-27
CN109313901B (zh) 2024-04-16
CN109313901A (zh) 2019-02-05
JP7477547B2 (ja) 2024-05-01

Similar Documents

Publication Publication Date Title
US11676595B2 (en) Information processing device, reception device, and information processing method
CN109478408B (zh) 用于广播环境中的话语识别应用的话语增强
US11930248B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
EP3683792B1 (en) Information processing device and information processing method
US20170026714A1 (en) Device and method for remotely controlling the rendering of multimedia content
US20220109914A1 (en) Electronic apparatus having notification function, and control method for electronic apparatus
US11688388B1 (en) Utterance request of items as seen within video
US11343588B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
CN113228166B (zh) 指令控制装置、控制方法及非易失性存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal