KR20220123347A - 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법 - Google Patents

헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20220123347A
KR20220123347A KR1020227029745A KR20227029745A KR20220123347A KR 20220123347 A KR20220123347 A KR 20220123347A KR 1020227029745 A KR1020227029745 A KR 1020227029745A KR 20227029745 A KR20227029745 A KR 20227029745A KR 20220123347 A KR20220123347 A KR 20220123347A
Authority
KR
South Korea
Prior art keywords
word
words
user
content
identified
Prior art date
Application number
KR1020227029745A
Other languages
English (en)
Other versions
KR102574333B1 (ko
Inventor
악샤트 아가왈
라케시 바브
Original Assignee
로비 가이드스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로비 가이드스, 인크. filed Critical 로비 가이드스, 인크.
Priority to KR1020237029548A priority Critical patent/KR20230130761A/ko
Publication of KR20220123347A publication Critical patent/KR20220123347A/ko
Application granted granted Critical
Publication of KR102574333B1 publication Critical patent/KR102574333B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Abstract

시스템 및 헤테로그래프의 존재에서 ASR을 수행하기 위한 방법이 제공된다. 구두 입력은 복수의 발성을 포함하여 사용자로부터 수신된다. 상기 복수의 발성 중제1 발성은 제1 단어에 매칭된다. 상기 복수의 발성 중 제2 발성은 동일한 헤테로그래프 세트에 있는 다수의 단어와 매칭하는 것으로 판정된다. 복수의 단어 중의 하나가 제1 단어의 콘텍스트와 연관되어 식별된다. 하나의 기능이 제1 단어와 복수의 단어 중 식별된 하나의 단어에 기초하여 수행된다.

Description

헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법{SYSTEMS AND METHODS FOR PERFORMING ASR IN THE PRESENCE OF HETEROGRAPH}
관련 출원의 상호 참조
본 출원은 2014년 7월 31일자로 출원된 미국 실용 특허 출원 No.14/448,308의 우선권 및 그 이익을 청구하며, 이러한 출원은 본원에 참조로서 통합된다.
종래의 자동 음성 인식(ASR) 시스템은 통상적으로 스피치를 텍스트로 변환하는 데 있어서 우수한 성능을 나타낸다. 그러나 경우에 따라 동일한 음성 사운드가 다른 의미로 다른 단어에 매핑된다. 이러한 유형의 단어는 일반적으로 헤테로그래프(heterograph)라고 한다. 이러한 상황에서 기존 ASR 시스템은 수신된 음성과 매칭하는 단어 중 하나를 무작위로 선택하거나 어떤 단어를 사용할지 명확히 하기 위하여 사용자로부터 입력을 요청한다. 이로 인해 사용자에게 잘못된 출력 또는 좌절발생이 일어나도록 한다.
따라서, 본 명세서에서 방법 및 시스템은 헤테로그래프의 존재 하에서 ASR을 수행하기 위해 개시된다.
일부 실시예들에서, 복수의 발성(utterances)을 포함하는 구두 입력이 사용자로부터 수신된다. 복수의 발성들 중 제1 발성은 제1 단어에 매칭된다. 일부 실시예들에서, 제1 발성은 음소 시퀀스로 인코딩되고 국제 음성 기호(IPA)를 사용하여 표현된다. 음소 시퀀스는 음소 시퀀스와 매칭하는 제1 단어를 식별하기 위해 음소 시퀀스의 데이터베이스와 상호 참조된다.
일부 실시예들에서, 복수의 발성들에서의 제2 발성이 동일한 헤테로그래프 세트 내에 있는 복수의 단어들과 매칭한다는 결정이 이루어진다. 특히, 동일한 헤테로그래프 집합 내의 복수의 단어는 음성학적으로 서로 유사할 수 있다. 일부 실시예들에서, 제2 발성은 음소 시퀀스로 인코딩되고 IPA를 사용하여 표현된다. 음소 시퀀스는 음소 시퀀스와 매칭하는 복수의 단어를 식별하기 위해 음소 시퀀스의 데이터베이스와 상호 참조된다. 복수의 단어가 동일한 음소 시퀀스와 일치한다고 판정한 것에 응답하여, 제1 단어의 콘텍스트가 결정된다. 그 후, 시스템은 제2 음소 시퀀스와 매칭하는 복수의 단어 중 어느 하나가 제1 단어의 콘텍스트와 연관되는지를 식별한다. 하나의 기능은 제1 단어 및 복수의 단어 중 식별된 단어에 기초하여 수행된다. 예를 들어, 검색은 제1 단어와, 상기 제1 단어와 동일하거나 유사한 콘텍스트를 갖는 제2 시퀀스와 매칭하는 단어 중 하나만 사용하여 수행된다.
일부 실시예들에서, 단어들 간의 관계에 대한 지식 그래프가 저장된다. 지식 그래프에서 단어들 사이의 거리는 단어들 간의 관계에서 세기를 나타낼 수 있다. 콘텍스트와 매칭하는 복수의 단어 중 하나는 지식 그래프의 제1 단어로 설정된 헤테로그래프 내의 복수의 단어 각각 사이의 거리에 기초하여 결정된다. 일부 구현예에서, 지식 그래프 내의 제1 단어 및 복수의 단어 각각의 위치가 식별된다. 식별된 위치에 기초하여 제1 단어와 복수의 단어 각각 사이의 거리가 계산된다. 제1 단어로 계산된 최단 거리를 갖는 복수의 단어가 상기 복수의 단어 중 식별된 단어로서 선택된다.
일부 실시예들에서, 제1 단어는 스포츠 이벤트에서 경쟁자의 이름일 수 있다. 이러한 경우 제1 단어의 콘텍스트가 스포츠 이벤트로 설정될 수 있다. 복수의 단어 중 어느 것이 스포츠 이벤트에 대응하는지에 대한 결정이 이루어지며, 여기서 복수의 단어 중 식별된 단어는 스포츠 이벤트의 다른 경쟁자(예를 들어, 다른 팀)에 대응한다.
일부 실시예들에서, 제1 단어는 미디어 자산 내의 행위자의 이름일 수 있다. 콘텍스트는 미디어 자산으로 설정될 수 있다. 복수의 단어 중 어느 것이 미디어 자산에 대응하는지에 대한 결정이 이루어지며, 여기서 복수의 단어 중 식별된 단어는 미디어 자산 내의 다른 행위자에 대응한다.
일부 실시예들에서, 콘텍스트는 복수의 발성 중 2개 사이의 접속사에 기초하여 결정될 수 있다. 예를 들어, 사용자가 두 단어 사이의 접속사로서 문구에서 단어 "v."를 발성하면, 콘텍스트는 그 v.가 "대"를 나타내는 스포츠 이벤트로 결정될 수 있다.
전술한 시스템 및/또는 방법은 다른 시스템, 방법 및/또는 장치에 적용될 수 있거나 다른 시스템, 방법 및/또는 장치에 따라 사용될 수 있다는 것을 알아야 한다.
본 개시의 상기 및 다른 목적 및 이점은 첨부된 도면과 관련하여 취해진 다음의 상세한 설명을 고려할 때 명백할 것이며, 유사한 도면 부호는 전체에 걸쳐 유사한 부분을 나타낸다:
도 1 및 2는 본 발명의 일 실시예에 따른 미디어 가이던스 애플리케이션 목록을 제공하는데 사용될 수 있는 예시적인 디스플레이 스크린을 도시한다;
도 3은 본 발명의 일부 실시예에 따른 예시적인 사용자 기기 장치의 블록도이다;
도 4는 본 발명의 일부 실시예에 따른 예시적인 미디어 시스템의 블록도이다;
도 5는 본 발명의 일부 실시예에 따른 예시적인 지식 그래프를 도시한다;
도 6은 본 발명의 일부 실시예에 따라 음소 시퀀스를 헤테로그래프와 연관시키기 위한 예시적인 데이터베이스를 도시한다; 및
도 7은 본 발명의 일부 실시예에 따라 헤테로그래프의 존재 하에서 ASR을 수행하기 위한 프로세스의 다이어그램이다.
헤테로그래프의 존재하에 ASR을 수행하기 위한 방법 및 시스템이 여기에 개시되어 있다. 특히, 복수의 발성이 사용자로부터 수신될 수 있다. 발성은 음소 시퀀스를 이용하여 표현될 수 있다. 경우에 따라 특정 음소 시퀀스가 여러 단어와 매칭할 수 있다. 이 단어들은 같은 헤테로그래프 세트에 있을 수 있다. 헤테로그래프 세트 내의 단어들 중 제1 단어는 지식 그래프에서 제1 단어가 제2 단어에 얼마나 가깝거나 멀리 떨어져 있는지에 기초하여 수신된 발성에서 검출된 제2 단어와 함께 처리하도록 선택될 수 있다. 이 공개는 IPA 음성 인코딩을 참조하여 논의되지만 음성 인코딩 또는 표현 시스템의 다른 유형(예 : SAMPA, X-SAMPA, Arpabet, extIPA, Kirshenbaum 등)을 사용할 수 있다.
예를 들어, 2개의 단어가 동일한 헤테로그래프 세트에 있는 경우, 시스템은 또 다른 수신된 단어와 함께 처리하기 위해 다른 수신된 단어와 더 밀접하게 관련되어 있는 세트 내의 단어를 선택할 수 있다. 특히, 사용자가 듀크(Duke)와 유콘(Uconn) 팀 사이에서 농구 게임을 검색하는 경우, 사용자는 "듀크 대 유콘(Duke v. Uconn)"이라는 구를 발성할 수 있다. 시스템은 발성 "Uconn"에 대한 음소 시퀀스가 두 단어(예 : Uconn 및 Yukon)와 매칭한다고 판단할 수 있다. 시스템은 Uconn(즉, 농구 팀)이 Yukon(즉, 강)보다 Duke(즉, 다른 수신된 발성)에 더 가깝다는 가정 하에 Yukon 대신 Uconn이라는 단어를 선택한다.
미디어 자산 또는 콘텐츠와 관련하여, 임의의 주어진 콘텐츠 전달 시스템에서 사용자가 이용할 수 있는 콘텐츠의 양은 상당할 수 있다. 결과적으로 많은 사용자는 사용자가 콘텐츠 선택을 효율적으로 탐색하고 원하는 콘텐츠를 쉽게 식별할 수 있도록 인터페이스를 통해 미디어 가이던스 형식을 원한다. 그러한 가이던스를 제공하는 애플리케이션을 본 발명에서는 대화형 미디어 가이던스 애플리케이션이라고 하며 때로는 미디어 가이던스 애플리케이션 또는 가이던스 애플리케이션이라고도 한다.
대화형 미디어 가이던스 애플리케이션은 이들이 가이던스를 제공하는 콘텐츠에 따라 다양한 형태를 취할 수 있다. 하나의 전형적인 유형의 미디어 가이던스 애플리케이션은 대화형 텔레비전 프로그램 가이드이다. 대화형 텔레비전 프로그램 가이드(때로는 전자 프로그램 가이드라고도 함)는 잘 알려진 가이던스 애플리케이션으로 무엇보다도 사용자가 다양한 유형의 콘텐츠 또는 미디어 자산을 탐색하고 찾을 수 있도록 한다. 대화형 미디어 가이던스 애플리케이션은 사용자가 콘텐츠를 탐색하고 위치를 찾고 선택할 수 있도록 하는 그래픽 사용자 인터페이스 화면을 생성할 수 있다. 본 명세서에 언급된 바와 같이, "미디어 자산" 및 "콘텐츠"라는 용어는 텔레비전 프로그래밍과 같은 전자적으로 소비가 가능한 사용자 자산, 뿐만 아니라 유료 시청 프로그램, 주문형 프로그램(비디오-온-디맨드(VOD)시스템에서), 인터넷 콘텐츠(예 : 스트리밍 콘텐츠, 다운로드 가능한 콘텐츠, 웹 캐스트 등), 비디오 클립, 오디오, 콘텐츠 정보, 그림, 회전 이미지, 문서, 재생 목록, 웹 사이트, 기사, 서적, 전자 책, 블로그, 광고, 채팅 세션, 소셜 미디어, 애플리케이션, 게임 및/또는 다른 미디어 또는 멀티미디어 및/또는 이들의 조합을 의미하는 것으로 이해되어야 한다. 가이던스 애플리케이션을 통해 사용자는 콘텐츠를 탐색하고 콘텐츠를 찾을 수 있다. 본 명세서에 언급된 바와 같이, "멀티미디어"라는 용어는 텍스트, 오디오, 이미지, 비디오 또는 대화식 콘텐츠 양식과 같이 위에서 설명한 적어도 2개의 서로 다른 콘텐츠 형식을 사용하는 콘텐츠를 의미하는 것으로 이해해야 한다. 콘텐츠는 사용자 기기 장치에 의해 기록, 재생, 표시 또는 액세스될 수 있지만 또한 라이브 공연의 일부가될 수도 있다.
본 명세서에서 논의된 실시예들 중 임의의 것을 수행하기 위한 미디어 가이던스 애플리케이션 및/또는 임의의 명령은 컴퓨터 판독 가능 미디어 상에 인코딩될 수 있다. 컴퓨터 판독 가능 미디어는 데이터를 저장할 수 있는 임의의 미디어를 포함한다. 컴퓨터 판독 가능 미디어는 전기 신호 또는 전자기 신호를 전파하는 것을 포함하지만 이에 제한되지 않는 일시적일 수 있거나, 하드 디스크, 플로피 디스크, USB 드라이브, DVD, CD, 미디어 카드, 레지스터 메모리, 프로세서 캐시, RAM(Random Access Memory) 등과 같은 휘발성 및 비휘발성 컴퓨터 메모리 또는 저장 장치를 포함하지만 이에 제한되지 않는 비 일시적 일 수 있다.
인터넷, 모바일 컴퓨팅 및 고속 무선 네트워크의 출현으로, 사용자는 전통적으로 그렇지 않은 사용자 기기 장치 상의 미디어에 액세스하고 있다. 본 명세서에서 언급되는 "사용자 기기 장치", "사용자 기기", "사용자 장치", "전자 장치", "전자 기기", "미디어 기기 장치" 또는 "미디어 장치"는 텔레비전, 스마트 TV, 셋톱 박스, 위성 텔레비전을 다루기 위한 통합 수신기 디코더(IRD), 디지털 저장 장치, 디지털 미디어 수신기(DMR), 디지털 미디어 어댑터(DMA), 스트리밍 미디어 장치, DVD 플레이어, DVD 레코더, 연결된 DVD, 로컬 미디어 서버, BLU-RAY 플레이어, BLU-RAY 레코더, 퍼스널 컴퓨터(PC), 랩탑 컴퓨터, 태블릿 컴퓨터, WebTV 박스, 퍼스널 컴퓨터 텔레비전(PC/TV), PC 미디어 서버, PC 미디어 센터, 핸드-헬드 컴퓨터, 고정 전화기, 개인 휴대 정보 단말기(PDA), 이동 전화, 휴대용 비디오 플레이어, 휴대용 음악 플레이어, 휴대용 게임기, 스마트 폰, 또는 임의의 다른 텔레비전 기기, 컴퓨팅 기기, 또는 무선 장치, 및/또는 이들의 조합과 같이, 위에서 언급한 콘텐츠를 액세싱하기 위한 임의의 장치를 의미하는 것으로 이해되어야 한다. 일부 실시예들에서, 사용자 기기 장치는 전면 대향 스크린 및 후면 대향 스크린, 다중 전면 스크린 또는 다중 각도 스크린을 가질 수 있다. 일부 실시예들에서, 사용자 기기 장치는 전면 대향 카메라 및/또는 후면 대향 카메라를 가질 수 있다. 이러한 사용자 기기 장치상에서, 사용자는 텔레비전을 통해 이용 가능한 동일한 콘텐츠를 탐색하고 동일한 콘텐츠를 찾을 수 있다. 따라서 미디어 가이던스는 또한 이러한 장치에서도 사용할 수 있다. 제공되는 가이던스는 텔레비전을 통해서만 이용 가능한 콘텐츠, 하나 이상의 다른 유형의 사용자 기기 장치를 통해서만 이용 가능한 콘텐츠, 또는 텔레비전 및 하나 이상의 다른 유형의 사용자 기기 장치를 통해 이용 가능한 콘텐츠에 대한 것일 수 있다. 미디어 가이던스 애플리케이션은 온라인 애플리케이션(즉, 웹 사이트에서 제공됨)으로서 또는 독립형 애플리케이션 또는 사용자 기기 장치상의 클라이언트로서 제공될 수 있다. 미디어 가이던스 애플리케이션을 구현할 수 있는 다양한 장치 및 플랫폼은 이하에서 보다 상세하게 설명된다.
미디어 가이던스 애플리케이션의 기능 중 하나는 미디어 가이던스 데이터를 사용자에게 제공하는 것이다. 본 명세서에 언급된 "미디어 가이던스 데이터" 또는 "가이던스 데이터"라는 문구는 가이던스 애플리케이션을 조작하는 데 사용되는 콘텐츠 또는 데이터와 관련된 모든 데이터를 의미하는 것으로 이해해야 한다. 예를 들어, 가이던스 데이터는 프로그램 정보, 단어 사이의 가중된 관계를 나타내는 지식 그래프를 생성하기 위해 사용되는 데이터, 단어에 매핑되는 음소 시퀀스, 가이던스 애플리케이션 설정, 사용자 선호도, 사용자 프로파일 정보, 미디어 목록, 미디어 관련 정보(예 : 방송 시간, 방송 채널, 제목, 설명, 시청 등급 정보(예 : 자녀 보호 (parental control) 시청 등급, 비평가 등급 등), 장르 또는 카테고리 정보, 배우 정보, 방송사 또는 제공 업체 로고의 로고 데이터 등), 자막, 미디어 포맷(예 : 표준 해상도, 고화질, 3D 등), 광고 정보(예 : 텍스트, 이미지, 미디어 클립 등), 주문형 정보, 블로그, 웹 사이트 및 사용자가 원하는 콘텐츠 선택을 탐색하고 찾을 수 있는 데 도움이 되는 기타 유형의 가이던스 데이터를 포함할 수 있다.
또한, 도 1 및 도 2는 미디어 가이던스 데이터를 제공하는데 사용될 수 있는 예시적인 디스플레이 스크린을 나타낸다. 도 1 및 도 2에 도시된 디스플레이 스크린은, 임의의 적합한 사용자 기기 장치 또는 플랫폼 상에서 구현될 수 있다. 도 1-2의 디스플레이가 전체 화면 디스플레이로 도시되지만, 그 디스플레이들은 디스플레이되는 내용 위에 전체적으로 또는 부분적으로 겹칠 수도 있다. 사용자는 디스플레이 스크린(예를 들어, 메뉴 옵션, 목록 옵션, 아이콘, 하이퍼 링크 등)에 제공된 선택 가능한 옵션을 선택하거나 리모컨 또는 다른 사용자 입력 인터페이스 또는 장치 상의 전용 버튼(예를 들어, GUIDE 버튼)을 누름으로써 콘텐츠 정보를 액세스하고자 하는 소망을 나타낼 수 있다. 이러한 사용자의 소망 표시에 응답하여, 미디어 가이던스 애플리케이션은, 그리드 내의 시간 및 채널, 시간별, 채널 별, 소스 별, 콘텐츠 유형별, 카테고리 별(예 : 영화, 스포츠, 뉴스, 어린이 또는 기타 프로그래밍 범주), 또는 기타 사전 정의된 사용자 정의 또는 기타 조직 기준 등의 여러 방식 중 하나로 조직화된 미디어 가이던스 데이터를 디스플레이 스크린에 제공할 수 있다.
도 1은 시간 및 채널에 의해 배열된 예시적인 그리드 프로그램 목록 디스플레이(100)를 나타내며, 또한 단일 디스플레이에서 상이한 유형의 콘텐츠에 대한 액세스를 가능하게 한다. 디스플레이(100)는 그리드(102)를 포함할 수 있고, 이 그리드(102)는 (1) 각 채널/콘텐츠 타입 식별자(열 내의 셀)가 이용 가능한 다른 채널 또는 콘텐트 타입을 식별하는 채널/콘텐츠 타입 식별자(104)의 열; 및 (2) 각 시간 식별자 (행 내의 셀)가 프로그래밍의 시간 블록을 식별하는 시간 식별자(106)의 행 을 구비한다. 그리드(102)는 또한 프로그램 목록(108)과 같은 프로그램 목록의 셀을 포함하는데, 각 목록은 목록의 연관된 채널 및 시간에 제공된 프로그램의 제목을 제공한다. 사용자 입력 장치를 사용하여, 사용자는 하이라이트 영역(110)을 이동시킴으로써 프로그램 목록을 선택할 수 있다. 하이라이트 영역(110)에 의해 선택된 프로그램 목록에 관한 정보는 프로그램 정보 영역(112)에 제공될 수 있다. 지역(112)은 예를 들어, 프로그램 제목, 프로그램 설명, 프로그램이 제공되는 시간(해당되는 경우), 프로그램이 있는 채널(해당되는 경우), 프로그램의 등급 및 기타 원하는 정보를 포함할 수 있다.
선형 프로그래밍(예를 들어, 미리 결정된 시간에 복수의 사용자 기기 장치로 전송되도록 스케줄링되고 하나의 일정에 따라 제공되는 콘텐츠)에 대한 액세스를 제공하는 것 이외에, 미디어 가이던스 애플리케이션은 또한 비선형 프로그래밍(예 : 언제든지 사용자 기기 장치에 액세스할 수 있고 일정에 따라 제공되지 않는 콘텐츠)에 대한 액세스를 제공한다. 비선형 프로그래밍은 주문형 콘텐츠(예 : VOD), 인터넷 콘텐츠(예 : 스트리밍 미디어, 다운로드 가능한 미디어 등), 로컬 저장 콘텐츠(예 : 위에서 언급한 모든 사용자 기기 장치에 저장된 콘텐츠 또는 다른 저장 장치), 또는 다른 시간-독립적인 콘텐츠를 포함하는 상이한 콘텐츠 소스로부터의 콘텐츠를 포함할 수 있다. 주문형 콘텐츠에는 영화 또는 특정 콘텐츠 제공 업체가 제공하는 기타 콘텐츠(예 : "소프라노" 및 "열정을 억제하는" HBO On Demand)가 포함될 수 있다. HBO On Demand는 Time Warner Company LP 외 소유의 서비스 마크이고, THE SOPRANOS and CURB YOUR ENTHUSIASM은 Home Box Office Inc. 소유의 상표이다. 인터넷 콘텐츠에는 채팅 세션 또는 웹 캐스트와 같은 웹 이벤트 또는 인터넷 웹 사이트 또는 다른 인터넷 액세스(예 : FTP)를 통해 스트리밍 콘텐츠 또는 다운로드 가능한 콘텐츠로서 주문형 콘텐츠가 포함될 수 있다.
그리드(102)는 온 디맨드 목록(114), 기록된 콘텐츠 목록(116) 및 인터넷 콘텐츠 목록(118)을 포함하는 비선형 프로그래밍을 위한 미디어 가이던스 데이터를 제공할 수 있다. 상이한 유형의 콘텐츠 소스로부터의 콘텐츠에 대한 미디어 가이던스 데이터를 결합하는 디스플레이는 때때로 "혼합 미디어" 디스플레이로 참조된다. 디스플레이(100)와 다르게 디스플레이될 수 있는 미디어 가이던스 데이터 유형의 다양한 순열은 사용자 선택 또는 가이던스 애플리케이션 정의(예를 들어, 기록 및 방송 목록 만의 디스플레이, 주문형 및 방송 목록 만의 디스플레이 등)에 기초할 수 있다. 도시된 바와 같이, 목록들(114, 116 및 118)은 이들 목록의 선택이 주문형 목록, 기록된 목록 또는 인터넷 목록에 각각 전용된 디스플레이에 대한 액세스를 제공할 수 있음을 나타내기 위해 그리드(102)에 표시된 전체 시간 블록에 걸쳐있는 것으로 도시된다. 일부 실시예들에서, 이들 콘텐츠 유형에 대한 목록은 그리드(102)에 직접 포함될 수 있다. 사용자가 네비게이션 아이콘(120) 중 하나를 선택하는 것에 응답하여 추가 미디어 가이던스 데이터가 디스플레이될 수 있다.(사용자 입력 장치 상의 화살표 키를 누르면, 네비게이션 아이콘(120)을 선택하는 것과 유사한 방식으로 디스플레이에 영향을 준다.)
디스플레이(100)는 또한 비디오 영역(122), 광고(124) 및 옵션 영역(126)을 포함할 수 있다. 비디오 영역(122)은 사용자가 현재 이용 가능하거나, 이용 가능할 것이거나, 이용 가능하였던 프로그램을 시청 및/또는 프리뷰하는 것을 가능하게 할 수 있다. 비디오 영역(122)의 콘텐츠는 그리드(102)에 디스플레이된 목록들 중 하나에 대응하거나, 그리드(102)에 표시된 목록들 중 하나로부터 독립적일 수 있다. 비디오 영역을 포함하는 그리드 디스플레이들은 종종 PIG(picture-in-guide) 디스플레이들로서 언급된다. PIG 디스플레이 및 그 기능은 Satterfield 등에게 2003년 5월 13일자로 허여된 미국 특허 6,564,378 및 Yuen 등에게 2001년 5월 29일자로 허여된 미국 특허 6,239,794 에 상세히 설명되어 있으며, 본 명세서에서 그 전체가 본원에 참고로 인용되어 있다. PIG 디스플레이는 여기에 설명된 실시예의 다른 미디어 가이던스 애플리케이션 디스플레이 스크린에 포함될 수 있다.
광고(124)는 시청자의 액세스 권한에 따라(예를 들어, 가입 프로그래밍을 위해) 시청을 위해 현재 이용할 수 있거나, 미래에 시청할 수 있거나, 결코 시청할 가능성이 없는 콘텐츠에 대한 광고를 제공할 수 있으며, 그리드(102) 내의 하나 이상의 콘텐츠 목록에 상응하거나 관련되지 않을 수 있다. 광고(124)는 또한 그리드(102)에 디스플레이된 콘텐츠와 관계되거나 또는 무관한 제품 또는 서비스일 수 있다. 광고(124)는 선택 가능하고 콘텐츠에 관한 추가 정보를 제공하거나, 제품 또는 서비스에 관한 정보를 제공하거나, 콘텐츠, 제품 또는 서비스의 구입을 가능하게 하거나, 광고 등에 관한 콘텐츠를 제공할 수 있다. 광고(124)는 사용자의 프로파일/선호도, 모니터링된 사용자 활동, 제공된 디스플레이의 유형 또는 다른 적합한 타깃 광고 기반에 기초하여 타게팅될 수 있다.
광고(124)는 직사각형 또는 배너 모양으로 도시되어 있지만, 광고는 가이던스 애플리케이션 디스플레이에서 임의의 적합한 크기, 형상 및 위치로 제공될 수 있다. 예를 들어, 광고(124)는 그리드(102)에 수평으로 인접한 직사각형 형태로 제공될 수 있다. 이것은 종종 패널 광고라고 불린다. 또한 광고는 콘텐츠 또는 가이던스 애플리케이션 디스플레이 위에 중첩되거나 디스플레이 내에 포함될 수 있다. 광고는 텍스트, 이미지, 회전 이미지, 비디오 클립 또는 위에 설명된 다른 유형의 내용을 포함할 수도 있다. 광고는 가이던스 애플리케이션을 갖는 사용자 기기 장치, 사용자 기기에 연결된 데이터베이스, 원격 위치(스트리밍 미디어 서버 포함), 또는 다른 저장 수단 또는 이들 위치의 조합에 저장될 수 있다. 미디어 가이던스 애플리케이션에 광고를 제공하는 것은, 예를 들어 Knudson 등에 의해 2003년 1월 17일자로 출원된 미국 특허 출원 공보 2003/0110499; Ward, III 등에게 2004년 6월 29일자로 허여된 미국 특허 6,756,997; 및 Schein 등에게 2002년 5월 14일에 허여된 미국 특허 6,388,714 에 기재되어 있으며, 이는 본원에 참조로 그 전체가 포함된다. 광고들은 본 명세서에 설명된 실시예의 다른 미디어 가이던스 애플리케이션 디스플레이 스크린에 포함될 수 있다는 것을 이해할 것이다.
옵션 영역(126)은 사용자가 상이한 유형의 콘텐츠, 미디어 가이던스 애플리케이션 디스플레이 및/또는 미디어 가이던스 애플리케이션 특징에 액세스하는 것을 허용할 수 있다. 옵션 영역(126)은 디스플레이(100)(및 여기에 설명된 다른 디스플레이 스크린)의 일부일 수 있거나, 온-스크린 옵션을 선택하거나 사용자 입력 장치상의 전용 또는할당 가능한 버튼을 누름으로써 사용자에 의해 호출될 수 있다. 옵션 영역(126) 내의 선택 가능한 옵션은 그리드(102)의 프로그램 목록과 관련된 특징에 관련될 수 있거나 메인 메뉴 디스플레이로부터 이용 가능한 옵션을 포함할 수 있다. 프로그램 목록과 관련된 특징은 다른 방송 시간 검색 또는 프로그램 수신 방법, 프로그램 기록, 프로그램 연속 녹화 사용, 프로그램 및/또는 채널을 즐겨 찾기로 설정, 또는 프로그램 구매, 자막 설정, 또는 기타 기능을 검색하는 것을 포함할 수 있다. 주 메뉴 디스플레이에서 사용 가능한 옵션에는 검색 옵션, VOD 옵션, 자녀 보호 옵션(parental control options), 인터넷 옵션, 클라우드-기반 옵션, 장치 동기화 옵션, 보조 화면 장치 옵션, 다양한 유형의 미디어 가이던스 데이터 표시에 액세스하는 옵션, 프리미엄 서비스에 가입하는 옵션, 자막 설정을 활성화/비활성화하는 옵션, 사용자 프로필을 편집하는 옵션, 탐색 오버레이(browse overlay)에 액세스하는 옵션 또는 기타 옵션을 포함할 수 있다.
미디어 가이던스 애플리케이션은 사용자의 선호도에 기초하여 개인화될 수 있다. 개인화된(맞춤형) 미디어 가이던스 애플리케이션을 사용하면 디스플레이 및 기능을 사용자 정의하여 미디어 가이던스 애플리케이션으로 개인화된 "경험"을 만들 수 있다. 이러한 개인화된 경험은 사용자가 이러한 사용자 정의를 입력할 수 있게 하거나 및/또는 다양한 사용자 선호도를 결정하기 위해 사용자 활동을 모니터링하는 미디어 가이던스 애플리케이션에 의해 생성될 수 있다. 사용자는 로그인하거나 자신을 가이던스 애플리케이션으로 식별하여 개인화된 가이던스 애플리케이션에 액세스할 수 있다. 미디어 가이던스 애플리케이션의 커스터마이징은 사용자 프로파일에 따라 이루어질 수 있다. 커스터마이징은 다양한 프리젠테이션 계획(예 : 디스플레이의 색상 구성, 텍스트의 글꼴 크기 등), 표시되는 콘텐츠 목록의 측면(예 : HDTV 만 또는 3D 프로그래밍 만, 즐겨 찾는 채널 선택을 기반으로 하는 사용자 지정 방송 채널, 채널의 표시의 재-순서화, 추천 콘텐츠, 등), 원하는 녹화 기능 (예 : 특정 사용자의 녹화 또는 시리즈 녹화, 녹화 품질 등), 자녀 보호 설정, 인터넷 콘텐츠의 맞춤 프리젠테이션(예 : 소셜 미디어 콘텐츠의 제시, 이메일, 전자적으로 전달된 기사 등) 및 기타 원하는 맞춤 설정을 포함할 수 있다.
미디어 가이던스 애플리케이션은 사용자가 사용자 프로파일 정보를 제공할 수 있게 하거나 사용자 프로파일 정보를 자동으로 컴파일할 수 있다. 미디어 가이던스 애플리케이션은 예를 들어, 사용자가 액세스하는 콘텐츠 및/또는 사용자가 가이던스 애플리케이션과 가질 수 있는 다른 상호 작용을 모니터링할 수 있다. 또한 미디어 가이던스 애플리케이션은 특정 사용자와 관련된 다른 사용자 프로필의 전체 또는 일부를 얻을 수 있다(예 : www.allrovi.com과 같이 사용자가 액세스하는 인터넷의 다른 웹 사이트로부터, 사용자가 액세스하는 다른 미디어 가이던스 애플리케이션으로부터, 사용자가 액세스하는 다른 대화형 출원으로부터, 사용자의 다른 사용자 기기 장치로부터), 및/또는 미디어 가이던스 애플리케이션이 액세스할 수 있는 다른 소스로부터 사용자에 관한 정보를 획득할 수 있다. 결과적으로, 사용자는 사용자의 상이한 사용자 기기 장치 전반에 걸쳐 통일된 가이던스 애플리케이션 경험을 제공받을 수 있다. 이러한 유형의 사용자 경험은 도 4와 관련하여 아래에서 보다 상세히 설명된다. 추가적인 개인화된 미디어 가이던스 애플리케이션 기능은 Ellis 등에 의해 2005년 7월 11일에 출원된 미국 특허 출원 공개 번호 2005/0251827; Boyer 등에게 2007년 1월 16일자로 허여된 미국 특허 7,165,098, 및 Ellis 등에 의해 2002년 2월 21일자로 출원된 미국 특허 출원 공보 2002/0174430 에 자세히 개시되어 있으며, 이는 본원에 참조로 전체가 통합된다.
미디어 가이던스를 제공하기 위한 또 다른 디스플레이 장치가 도 2에 도시되어 있다. 비디오 모자이크 디스플레이(200)는 콘텐츠 유형, 장르 및/또는 다른 구성(organization) 기준에 기초하여 구성된 콘텐츠 정보에 대한 선택 가능한 옵션(202)을 포함한다. 옵션(204)의 선택은 사용자를 그리드(102)(도 1)로 복귀시킬 수 있다.
디스플레이(200)에서, 목록(206, 208, 210 및 212)은 사용자에게 목록의 미디어 가이던스 데이터에 의해 기술된 콘텐츠를 표시하는 커버 아트, 콘텐츠로부터의 스틸 이미지, 비디오 클립 프리뷰, 콘텐츠로부터의 라이브 비디오, 또는 기타 유형의 콘텐츠를 포함하는 그래픽 이미지를 제공할 수 있다. 각 그래픽 목록은 또한 텍스트와 함께 표시되어 목록과 관련된 콘텐츠에 대한 추가 정보를 제공할 수 있다. 예를 들어, 목록(208, 210 및 212)은 미디어 부분(214) 및 텍스트 부분(216)을 포함하는 둘 이상의 부분을 포함할 수 있다. 미디어 부분(214) 및/또는 텍스트 부분(216)은 미디어 부분(214)에 디스플레이된 콘텐츠와 관련된 정보를 전체 화면으로 보거나 시청할 수 있도록 선택될 수 있다 (예를 들어, 비디오가 디스플레이되는 채널에 대한 목록을 보기 위해).
디스플레이(200)에서의 목록은 상이한 크기를 갖는다(즉, 목록(206)은 목록(208, 210 및 212)보다 크다). 그러나 원한다면 모든 목록은 동일한 크기 일 수 있다. 목록은 콘텐츠 공급자가 원하는대로 또는 사용자 선호에 따라 사용자에게 관심있는 정도를 나타내거나 특정 내용을 강조하기 위해 크기가 다양하거나 그래픽으로 강조 표시될 수 있다. 콘텐츠 목록을 그래픽으로 강조하기 위한 다양한 시스템 및 방법은 예를 들어 2005년 12월 29일자로 출원된 Yates의 미국 특허 출원 공개 번호 2010/0153885에 기재되어 있으며, 이는 본 명세서에서 그 전체가 참조로 포함된다.
사용자는 하나 이상의 사용자 기기 장치로부터 콘텐츠 및 미디어 가이던스 애플리케이션(및 상기 및 아래에 설명된 디스플레이 스크린)에 액세스할 수 있다. 도 3은 예시적인 사용자 기기 장치(300)의 일반화된 실시예를 도시한다. 사용자 기기 장치의 보다 구체적인 구현은 도 4와 관련하여 이하에서 설명된다. 사용자 기기 장치(300)는 입출력(I/O) 경로(302)를 통해 콘텐츠 및 데이터를 수신할 수 있다. I/O 경로(302)는 콘텐츠(예를 들어, 방송 프로그래밍, 주문형 프로그래밍, 인터넷 콘텐츠, 근거리 통신망(LAN), 또는 광역 네트워크(WAN)를 통해 이용 가능한 콘텐츠, 및/또는 다른 콘텐츠 등), 및 처리 회로(306), 검출 회로(320) 및 저장 장치(308)를 포함하는 제어 회로(304)에 데이터를 제공할 수 있다. 제어 회로(304)는 I/O 경로(302)를 코맨드, 요청 및 다른 적절한 데이터를 전송 및 수신하기 위해 사용될 수 있다. I/O 경로(302)는 제어 회로(304)(및 특히 프로세싱 회로(306))를 하나 이상의 통신 경로(후술 함)에 연결할 수 있다. I/O 기능은 이들 통신 경로 중 하나 이상에 의해 제공될 수 있지만, 도 3에서는 도면을 복잡하게 작성하지 않기 위하여 단일 경로로서 도시된다.
제어 회로(304)는 프로세싱 회로(306)와 같은 임의의 적합한 프로세싱 회로에 기초할 수 있다. 여기서 언급되는 바와 같이, 프로세싱 회로는 하나 이상의 마이크로 프로세서, 마이크로 컨트롤러, 디지털 신호 프로세서, 프로그램 가능 로직 디바이스, FPGA(Field-Programmable Gate Array), ASIC(Application-Specific Integrated Circuits) 등을 포함할 수 있으며 멀티 코어 프로세서(예 : 듀얼-코어, 쿼드-코어, 헥사-코어 또는 임의의 적절한 수의 코어) 또는 수퍼 컴퓨터를 포함할 수 있다. 일부 실시예들에서, 처리 회로는 다수의 분리된 프로세서 또는 프로세싱 유닛, 예를 들어 복수의 동일한 유형의 프로세싱 유닛(예를 들어, 2개의 Intel Core i7 프로세서) 또는 다수의 상이한 프로세서(예를 들어, Intel Core i5 프로세서 및 인텔 코어 i7 프로세서)를 거쳐 배포될 수 있다. 일부 실시예들에서, 제어 회로(304)는 메모리(즉, 저장 장치(308))에 저장된 미디어 가이던스 애플리케이션에 대한 명령을 실행한다. 특히, 제어 회로(304)는 미디어 가이던스 애플리케이션에 의해 상기 및 아래 논의된 기능을 수행하도록 지시될 수 있다. 예를 들어, 미디어 가이던스 애플리케이션은 미디어 가이던스 디스플레이를 생성하기 위해 제어 회로(304)에 명령을 제공할 수 있다. 일부 구현예에서, 제어 회로(304)에 의해 수행되는 임의의 동작은 미디어 가이던스 애플리케이션으로부터 수신된 명령들에 기초할 수 있다.
클라이언트-서버 기반 실시예들에서, 제어 회로(304)는 가이던스 애플리케이션 서버 또는 다른 네트워크들 또는 서버들과 통신하기에 적합한 통신 회로를 포함할 수 있다. 전술한 기능을 수행하기 위한 명령은 가이던스 애플리케이션 서버에 저장될 수 있다. 통신 회로는 케이블 모뎀, ISDN(Integrated Services Digital Network) 모뎀, DSL(Digital Subscriber Line) 모뎀, 전화 모뎀, 이더넷 카드, 또는 다른 기기와의 통신을 위한 무선 모뎀, 또는 임의의 다른 적절한 통신 회로를 포함할 수 있다. 이러한 통신은 인터넷 또는 임의의 다른 적절한 통신 네트워크 또는 경로(도 4와 관련하여 보다 상세하게 설명 됨)를 포함할 수 있다. 또한, 통신 회로는 사용자 기기 장치의 피어-투- 피어 통신 또는 서로 멀리 떨어진 위치에서 사용자 기기 장치의 통신을 가능하게 하는 회로를 포함할 수 있다.
제어 회로는 또한 사용자 또는 사용자들이 안면 결정, 뇌파 정보, 신체 온도 결정, 심박 결정, 냄새 결정, 향기 결정, 체형 결정, 음성 결정, 행동 결정, 임의 의 다른 생체 인식 결정 기술, 또는 그들의 임의의 조합과 같은 임의의 적절한 생체 측정 기술을 사용함으로써 임의의 긍정적인 행동을 취할 필요없이 사용자 또는 사용자들을 검출 및/또는 식별하는데 사용될 수 있는 검출 회로(320)에 명령할 수 있다.
검출 회로(320)는 모니터링 컴포넌트(316) 및 전력 관리 유닛(318)을 포함할 수 있다. 모니터링 컴포넌트(316)는 사용자의 활동 유형(예를 들면, 생체 상태, 위치, 또는 뇌파 정보)을 모니터링하기 위한 하나 이상의 모니터링 컴포넌트(예를 들어, EEG, EMG, 맥박 산소 측정기 등)를 포함할 수 있다. 본 명세서에서 언급된 바와 같이, "위치"는 지리적 좌표, 방향 벡터, 주소, 건물의 이름, 또는 임의의 다른 적절한 식별자와 같은 위치 중 임의의 상대적 또는 절대적 식별자를 의미한다. 예를 들어, 위치는 지리적 좌표 시스템(예를 들면, 위도와 경도), 또는 글로벌 위치 시스템(GPS) 좌표에 의해 표시될 수 있다.
주목하기로는 모니터링 컴포넌트(316)는, 일부 실시예들에서, 미디어 가이던스 애플리케이션(및 제어 회로(304))이 구현되는 디바이스와 통신하는 별도의 장치에 위치할 수 있다. 예를 들어, 일부 실시예들에서, 모니터링 컴포넌트(316)는 통신 네트워크(예를 들어, 통신 네트워크(414)(도 4))를 통해 장치(300)와 통신할 수 있다. 일부 실시예들에서, 모니터링 컴포넌트(316)는 착용가능 디바이스(예를 들어, 손목 밴드, 헤드 밴드, 손목 시계 등) 일 수 있다.
마이크로폰 및 음성 인식을 이용하여, 제어 회로(304)는 음성 인식 또는 식별을 통해 성대의 물리적 특성들에 기초하여 사용자를 검출하거나 식별할 수 있다. 음원과 마이크로폰 어레이를 사용하여 제어 회로(304)는 IR 광에 참조하여 상술한 비행 시간 방법과 유사한 음향 지역화(acoustic localization)를 통하여 생체 인증 장치를 둘러싸는 영역의 형상에 관한 정보를 결정할 수 있다. 예를 들어, 사운드 소스가 마이크로폰 어레이 근처에 위치될 수 있다. 음원으로부터 음성 방송은 소스로부터 파면(wave front)으로 전파될 수 있다. 파면이 대상물에 영향을 주기 때문에 파면의 일부분은 음원과 마이크로폰 어레이를 향해 반사될 수 있다. 대상물의 위치에 따라 반사된 소리는 서로 다른 시간에 마이크로폰에 도달할 수 있다. 예를 들어, 반사된 사운드는 보다 먼 마이크로폰에서 보다 더 짧은 시간에 더 가까운 마이크로폰에 도달할 수 있다. 다양한 마이크로폰시간, 소리의 총 소요 시간 및 마이크로폰의 위치에서 시간 및 도착 시간의 위상 차에 기초하여, 공간 면적 맵을 생성하는 것이 가능할 수 있다. 대상물의 위치는 음향 지역화, IR 비행 시간, 임의의 다른 적절한 매핑 방식, 또는 이들의 임의의 조합을 통해 생성된 공간 면적 맵에 기초하여 결정될 수 있다. 이는 다양한 생체 인식 기법 및 장치가 단독으로 또는 조합하여 사용할 수도 있고, 보다 정확하게 사용자를 식별하거나 검출하기 위해 서로를 보충하는 것으로 이해되어야한다.
일부 실시예들에서, 상기 미디어 가이던스 애플리케이션은 사용자로부터 수신 명령 언어 또는 구두 입력에 응답할 수 있다. 제어 회로(304)는 사용자로부터 구두 입력을 처리하는 음소 인코더를 구비한 음성 인식 엔진 또는 회로를 포함할 수 있다. 몇몇 구현예에서, 인간의 언어 음향(예를 들면, 발성)은 하나 이상의 마이크로폰으로 수신될 수 있고, 제어 회로(304)의 음소 인코더에 제공될 수 있다. 음소 인코더는 음소 표현을 사용하여 사운드의 컴퓨터 표현으로 소리를 변환할 수 있다. 일 실시예에서, 기계 표현은 영숫자 값의 시퀀스로서 보여질 수 있는 미국 표준 정보 교환 코드(ASCII) 음소들의 표현 등으로서 보여질 수 있다. 일 실시예에서, 기계 표현은 국제 음성 기호(IPA) 및/또는 컴퓨터 장치에서 사용하기에 적합한 확장 세트의 심볼들을 사용할 수 있다.
본원에 사용된 바와 같이, 용어 "음소"는 인간의 언어 음성이나 발성의 물리적 표현을 말한다. 또한, 음소는 단어 또는 구에서의 위치와 무관한 언어의 음성의 표현이다. 따라서, 음소는 가능한 가장 중립적인 형태로 소리를 낸다. 다양한 음소의 작성된 표현들이 알려져 있으며, 이러한 거의 모든 표현들이 본 발명에 의해 사용될 수 있다. 예를 들어, 일 실시예에서, 음소들은 국제 음성 기호(IPA), 정보 교환을 위한 미국 표준 코드(ASCII) 포맷 등에 사용되는 등의 문자 숫자 기호(alpha-numeric symbols)로 표시될 수 있다. 그러나 주목되지만, 본 개시는 이 메카니즘에 한정되지 않고, 다른 것들이 사용될 수 있다. 본원에서 사용된 바와 같이, 용어 "단어"는 하나 이상의 음소 시퀀스와 매칭하는 음성이나 저작물의 별개의 의미있는 요소를 말한다. 여러 단어가 동일한 음소 시퀀스와 일치할 때, 그들은 동일한 헤테로그래프 세트의 일부인 헤테로그래프 또는 단어로 언급된다.
제어 회로(304)는 음소 시퀀스를 단어로 매핑하는 데이터베이스(600)로 검출된 음소 시퀀스를 상호 참조할 수 있다(도 6). 데이터베이스(600)와 상호 참조 음소 시퀀스의 방법은 사용자로부터 수신된 복수의 발성들을 텍스트 단어로 변환하는데 사용될 수 있다. 발성이 해당 디지털 단어로 변환된 후, 출력은 추가 처리를 위해 상기 미디어 가이던스 애플리케이션에 제공될 수 있다. 예를 들면, 상기 미디어 가이던스 애플리케이션은, 추천, 광고를 생성하기 위하여 식별된 단어(수신된 발성에 대응하는)를 처리할 수 있고, 검색 질문을 수행할 수 있거나, 웹사이트를 로딩할 수 있거나, 또는 상기 식별된 단어들에 대응하는 다른 명령을 수행할 수 있다. 일부 구현예에서, 상기 미디어 가이던스 애플리케이션은 하나의 명령 데이터베이스로 식별된 단어 중 하나를 상호 참조할 수 있어 하나 이상의 단어들이 명령인지를 결정한다. 미디어 가이던스 애플리케이션은 상기 식별된 단어에 대응하는 명령을 확인하여 명령(예를 들어, 검색 기능)을 수행할 수 있다. 명령의 다른 파라미터는 다른 식별 단어이거나 또는 순차 수신된 발성에 의해 제공될 수 있다.
일부 실시예에서, 제어 회로(304)는 복수의 발성을 포함하는 사용자로부터 구두 입력을 수신할 수 있다. 예를 들어, 사용자는 구 "Duke v. Uconn"을 발성할 수 있다. 각각의 발성은 사용자가 말한 특정 단어에 대응할 수 있다. 일반적으로, 발성은 침묵의 짧은 순간에 의해 서로 분리된다. 발성의 수신에 응답하여, 제어 회로(304)는 발성을 음소 시퀀스로 인코딩할 수 있다. 예를 들어, 제어 회로(304)는 각 발성을 IPA를 사용하여 /duk/;/vi/;yukon/으로서 인코딩할 수 있다(세미콜론은 침묵 또는 발성들 사이의 휴식 시간을 나타낸다). 제어 회로(304)는 스토리지(308)에 IPA를 사용하여 각 음소 시퀀스를 저장할 수 있다. IPA 음성 인코딩을 사용하는 것 외에도 다른 유형의 음성 부호화 나 표시 시스템이 사용될 수 있다(예 SAMPA, X-SAMPA, Arpabet, extIPA, Kirshenbaum 등).
제어 회로(304)는 데이터베이스(600)로 각각의 발성에 대한 저장된 IPA를 상호 참조할 수 있다. 데이터베이스(600)는 로컬 데이터베이스 또는 원격 데이터베이스일 수 있다. 데이터베이스(600)가 원격인 경우, 제어 회로(304)는 서버에 음소 시퀀스 또는 IPA를 통신할 수 있으며, 이는 그런 다음 제어 회로(304)에게 대응하는 단어 또는 음소 시퀀스 또는 IPA와 매칭하는 단어를 복귀시킬 수 있다.
일부 실시예들에서, 음소 인코더에 의하여 IPA 출력을 상호 참조하는 것에 더하여, 제어 회로(304)는 음소 인코더에 의해 IPA 출력에 가까운 IPA로 데이터베이스(600)를 상호 참조할 수 있다. 이 음성 감지 또는 어떤 사람들이 특정 단어들을 말하는 다른 방법으로 가능한 오류를 설명할 수 있다. 예를 들어, 사용자는 용어 "bite"를 발성할 수 있고, 그 때문에 음소 인코더는 /bait/로서 IPA 표현을 출력한다. 또한 음소 인코더의 출력 /bait/를 상호 참조하는 것에 더하여, 제어 회로(304)는 /bait/에 가까운 다른 IPA를 식별할 수 있다. 하나의 그런 다른 IPA는 / brait/("bite"에 가까운 "bright"라는 단어에 해당)가 될 수 있다. 따라서, 제어 회로(304)는 데이터베이스(600)에서 2개의 IPA와 매칭하는 모든 단어를 검색할 수 있다.
일부 실시예들에서, 데이터베이스(600)는 제어 회로(304)에게 특정 음소 시퀀스에 대응하는 단어 또는 단어들을 복귀시킬 수 있다. 예를 들어, duk의 IPA에 대해서, 데이터베이스(600)는 "duke"를 매칭하는 단지 하나의 단어를 복귀시킬 수 있다. /yukon/의 IPA에 대해, 데이터베이스(600)는 수신된 IPA가 헤테로그래프인 표시와 함께 여러 단어를 복귀시킬 수 있다. 특히, 데이터베이스(600)는 일련의 단어 "Yukon"과 "Uconn의"를 복귀시킬 수 있다. 음소 시퀀스 중 하나가 헤테로그래프 세트와 매칭하는지 데이터베이스(600)로부터 지시를 수신하는 것에 응답하여, 제어 회로(304)는 적당한 단어를 선택하기 위해 헤테로그래프 내 각 단어를 발성으로 수신된 다른 단어를 가지고 처리할 수 있다. 일부 구현예들에서, 제어 회로(304)는 지식 그래프(500)를 사용할 수 있어, 헤테로그래프 세트 내 어느 단어가 사용자가 발성한 다른 단어에 대한 관계에 기초하여 단어를 발성한 사용자가 의도한 것인지를 결정한다.
일부 실시예들에서, 제어 회로(304)는 제1 단어에 대한 콘텍스트를 식별할 수 있고, 헤테로그래프 세트 내 어느 단어가 그 단어가 제1 단어의 콘텍스트와 연관되어 있는지 여부에 기초하여 단어를 발성한 사용자가 의도한 것인지를 결정할 수 있다. 예를 들어, 제어 회로(304)는 단어 "duke"가 대학이라고 판단할 수 있다. 따라서, 제어 회로(304)는 콘텍스트를 대학 또는 대학 스포츠로 설정할 수 있다. 제어 회로(304)는 단어 "Yukon" 또는 단어 "Uconn"이 콘텍스트 대학 또는 콘텍스트 대학 스포츠와 관련되어 있는지를 판단할 수 있다. 단어 "Uconn"이 단어 "duke"와 같은 콘텍스트와 연관되고, 단어 "Yukon"이 단어 "duke"와 같은 컨테스트와 연관되지 않는다고 결정하는 것에 응답하여, 제어 회로(304)는 처리를 위해 "duke" 및 "Uconn" 단어의 조합을 사용자가 의도한 입력으로 선택할 수 있다.
일부 실시예들에서, 제어 회로(304)는 헤테로그래프 내 단어와 다른 단어 사이에 사용자가 발성한 구문에 사용되는 접속사에 기초하여 상기 단어를 발성한 사용자가 의도한 헤테로그래프 세트 내의 단어를 위한 콘텍스트를 식별할 수 있다. 예를 들어, 제어 회로(304)는 어귀 "Duke v. Uconn"에서 사용된 접속사가 "v."이었다고 판단할 수 있다. 제어 회로(304)는 접속사에 대한 콘텍스트를 결정하기 위하여 접속사의 룩업 테이블과 함께 접속사 "v."를 상호 참조할 수 있다. 예를 들어, 제어 회로(304)는 룩업 테이블에 기초하여 접속사 "v."가 일반적으로 스포츠 경기와 같은 경쟁을 나타낸다고 판단할 수 있다. 따라서, 제어 회로(304)는 경쟁들인 컨텍스트를 설정할 수 있다. 제어 회로(304)는 단어 "Yukon" 이나 단어 "Uconn"은 컨텍스트 경쟁과 연관되어 있는지를 결정할 수 있다. 구체적으로는, "Uconn"은 일반적으로 스포츠에 경쟁하는 것으로 알려진 대학이고 단어 "Yukon"은 그렇지 아니하므로(강이 콘테스트 대해 알려지지 않은 바와 같이), 제어 회로(304)는 단어 "Uconn"이 콘텍스트 경쟁과 연관이 있다고 결정할 수 있다. 따라서, 제어 회로(304)는 사용자가 의도한 입력으로 처리하기 위해 "Duke" 및 "Uconn" 단어의 조합을 선택할 수 있고 "Duke" 및 "Yukon"의 조합을 선택하지 않았다.
일부 실시예들에서, 지식 그래프(500)는 각 단어의 항목들을 사용하여 단어들의 모음과 그들의 관계를 서로서로에게 매핑할 수 있다. 특히, 지식 그래프(500)의 항목(510)은 단어(520) 및 해당 IPA 표현(530)을 포함할 수 있다. IPA 표현이 지식 그래프(500)에 도시되어 있지만, 다른 형태의 음성 부호화 혹은 표현 시스템이 사용될 수 있다(예 SAMPA, X- SAMPA, Arpabet, extIPA, Kirshenbaum 등). 제1 항목은 가중된 라인(540)에 의하여 제2 항목에 접속된다. 예를 들어 단어 "Duke"에 대한 단어의 항목(510)은 단어 "대학교"에 대한 항목에 "1"의 가중치를 갖는 라인(540)에 의해 접속될 수 있다. 한 라인에 대한 낮은 가중치는 두 단어 사이에 강하거나 큰 관계를 나타낼 수 있다. Duke는 대학이기 때문에 지식 그래프(500)에 두 항목을 연결하는 라인의 가중치는 "1"의 최대값이 되도록 설정된다. 유사하게, 단어 "duke"에 대한 항목은 대학 Duke와 대학 Uconn 간의 더 약한 관계가 있기 때문에, "2"의 가중치를 갖는 라인(550)에 의해 단어 "uconn의"에 대한 항목(580)에 접속된다. 두 항목 사이의 지식 그래프(500)에 시각적인 연결의 부족은 두 항목이 두 해당 단어가 서로 관련이 없음을 의미하는 무한 가중치를 갖는 라인으로 연결되어 있음을 나타낸다. 지식 그래프(500)에서 알 수 있는 바와 같이, 두 단어 "Uconn"과 "Yukon"은 해당 항목 및 동일 IPA 표현을 갖는다. IPA 표현이 동일하지만 해당 단어를 다른 의미를 가지고 있기 때문에, 이 두 항목은 서로 다른 가중치에 의하여 다른 항목에 관련이 있다.
일부 실시예들에서, 지식 그래프(500)에서 상이한 엔티티들 사이의 가중치는 시간에 따라 변화할 수 있다. 예를 들어, 두 팀을 나타내는 두 개의 엔티티는 두 팀이 같은 토너멘트 대회에 있을 때 매우 강한 가중치(예를 들면, "2")로 연결될 수 있다. 그러나, 토너멘트 대회가 끝나고 팀이 더 이상 서로를 경기하지 않는 경우에는, 지식 그래프(500)에서 두 엔티티 사이의 가중치가 크게 될 수 있어(예를 들어, "100" 또는 무한대), 두 엔티티가 덜 밀접하게 관련되어 있을 수 있음을 나타낸다. 즉, 지식 그래프(500)에서 단어 및 엔티티 사이의 관계는 시간에 적응할 수 있다.
일부 실시예들에서, 제어 회로(304)는 지식 그래프(500)를 사용하여 2개 이상의 단어 사이의 거리를 계산할 수 있다. 구체적으로, 제어 회로(304)는 최단 거리를 결정하기 위하여 지식 그래프(500)에서 다른 항목을 연결하는 라인에 가중치를 부가할 수 있다. 예를 들어, 제1 및 제2 항목이 지식 그래프(500)에서 3개의 다른 항목에 의해 서로 분리되어 있으면, 제어 회로(304)는 제1 및 제2 항목 간의 거리를 결정하기 위하여 3개의 다른 항목들 각각을 연결하는 라인을 축적할 수 있다. 구체적으로, 단어 "duke"에 대한 항목(510)과 단어 "area"에 대한 항목(590) 사이의 거리는 항목(510)이 단어 "North Carolina"에 대한 항목에 의하여 항목(590)으로부터 분리되어 있기 때문에 4로서 계산될 수 있다. 즉, 항목(510)과 "North Carolina"에 대한 항목 사이의 거리는 "1"이고 "North Carolina"에 대한 항목"과 항목(590) 사이의 거리가 "3"으로 합계 4가 된다.
일부 실시예들에서, 주어진 음소 시퀀스는 여러 단어에 매칭하는 데이터베이스(600)로부터의 지시를 수신하는 것에 응답하여, 제어 회로는 먼저 제1 단어를 선택하고 다른 음소 시퀀스에 대응하는 다른 단어와 함께 선택된 제1 단어를 처리할 수 있다. 예를 들어, 제어 회로는 먼저 헤테로그래프 세트의 단어 "Yukon"을 선택할 수 있고, 그들의 관계를 결정하기 위해 수신된 다른 음소 시퀀스(예를 들어, "duke")와 매칭하는 목표 단어를 갖는 선택된 단어를 결합한다. 제어 회로(304)는 지식 그래프(500)에서 단어들이 서로에 대해 얼마나 가까운지 또는 먼지를 결정하기 위하여 단어들의 조합 "duke" 및 "Yukon' 사이의 거리를 계산하기 위한 지식 그래프(500)를 사용할 수 있다. 특히, 제어 회로(304)는 단어 "duke" 및 "Yukon' 에 해당하는 엔티티 사이의 지식 그래프(500)에서 최단 거리가 5임을 결정할 수 있다 (예를 들어, 단어 "duke"에 대한 엔티티와 단어 "North Carolina"에 대한 엔티티 사이의 라인 또는 연결의 가중치는 1이고; 단어 "North Carolina"에 대한 엔티티와 단어 "area"에 대한 엔티티 사이의 라인 또는 연결의 가중치는 3이고; 및 단어 "area"에 대한 엔티티와 단어 "Yukon"에 대한 엔티티 사이의 라인 또는 연결의 가중치는 1이다.) 제어 회로(304)는 저장 영역(308)에 제1 선택된 단어 "Yukon"과 목표 단어 "duke"사이의 거리의 값을 저장할 수 있다.
제어 회로는 상기 목표 단어에 대한 거리를 결정하기 위한 헤테로그래프 세트에 다른 단어가 존재하는지 여부를 결정할 수 있다. 이 경우, 제어 회로(304)는 목표 단어로 처리하기 위하여 남아 있는 헤테로그래프 세트 내 "Uconn"을 갖는다. 제어 회로는 헤테로그래프 세트 내 단어 "Uconn"을 선택하고 그들의 관계를 결정하기 위하여 목표 단어(예를 들어, "duke")로 선택된 단어를 결합할 수 있다. 제어 회로(304)는 지식 그래프(500)에서 단어들이 서로에 대해 얼마나 가까운지 또는 먼지를 결정하기 위하여 단어들의 조합 "duke" 및 "Uconn' 사이의 거리를 계산하기 위한 지식 그래프(500)를 사용할 수 있다. 특히, 제어 회로(304)는 단어 "duke" 및 "Uconn' 에 해당하는 엔티티 사이의 지식 그래프(500)에서 최단 거리가 2임을 결정할 수 있다 (예를 들어, 단어 "duke"에 대한 엔티티와 단어 "Uconn"에 대한 엔티티 사이의 라인 또는 연결의 가중치는 "1"이다.) 제어 회로(304)는 저장 영역(308)에 단어 "Uconn"과 목표 단어 "duke"사이의 거리의 값을 저장할 수 있다.
제어 회로(304)는 헤테로그래프 세트의 각각의 단어와 목표 단어 사이의 거리를 비교한다. 제어 회로(304)는 사용자에 의해 의도된 조합으로 목표 단어까지의 최소 거리(목표 단어에 가장 가까이 관련된 단어)를 갖는 헤테로그래프 세트 내의 단어를 선택할 수 있다. 이 경우, 제어 회로(304)는 발성/duke/ 및 /yukon/의 의도된 조합이 "duke" 및 "Yukon" 보다는 "duke" 및 "uconn"에 해당하는 것으로 결정할 수 있다. 제어 회로(304)는 그 조합에 미디어 가이던스 기능을 수행할 수 있는 미디어 가이던스 애플리케이션에게 이 조합을 제공할 수 있다(예를 들어, 검색 또는 추천을 수행). 예를 들면, 상기 미디어 가이던스 애플리케이션은 두 스포츠 이벤트 팀("duke" 및 "Uconn") 사이에 예정된 스포츠 이벤트의 표시를 생성할 수 있다.
일부 실시예들에서, 데이터베이스(600)는 제어 회로(304)가 데이터베이스(600)에 제공하는 각 음소의 발성 또는 시퀀스에 대한 여러 단어를 제어 회로(304)로 복귀시킬 수 있다. 예를 들어, 소정의 발성에 대응하는 복수의 단어는 하나의 발성에 대해 서로 가까운 음소 시퀀스들을 제공하는 제어 회로(304)의 결과일 수 있다. 그러한 경우, 제어 회로(304)는 최단 거리를 갖는 조합을 선택하는 매칭 단어의 각각의 조합 사이의 거리를 계산할 수 있다(예를 들면, 가장 가깝게 서로 관련된 단어들의 조합). 예를 들어, 제어 회로(304)는 제1 음소 시퀀스 /a/ 및 제2 음소 시퀀스 /b/를 데이터베이스(600)에 제공할 수 있다. 데이터베이스(600)는 응답하여 상기 제1 음소 시퀀스와 매칭하는 제1 세트의 단어들(예를 들어, 즉 단어 A, B, 및 C)과 상기 제2 음소 시퀀스와 매칭하는 제2 세트의 단어들(예를 들어, 단어 D 및 E)을 복귀시킬 수 있다. 그 결과 제어 회로(304)는 6개의 단어조합들을 생성할 수 있다 (가령, 조합 1: A + D; 조합 2: B + D; 조합 3: C + D; 조합 4: A + E; 조합 5: B + E; 및 조합 6 : C + E). 제어 회로(304)는 지식 그래프(500)를 이용하여 각각의 조합에 포함된 각 단어 사이의 간격을 결정할 수 있다. 예를 들면, 제어 회로(304)는 조합 1-6의 단어들이 3, 2, 5, 10, 8, 50의 각 거리를 가지는 것으로 판단할 수 있다. 조합 2의 단어들이 최단 거리를 가지고 이에 따라서 가장 밀접하게 관련되어 있다는 결정에 응답하여, 제어 회로(304)는 자동으로 사용자의 의도된 조합과 같은 추가 처리를 위해 조합 2를 선택할 수 있다.
따라서, 상기 구문 "duke v. Uconn의"의 초기 구두 입력을 추가 수신하기 위한 사용자로부터의 입력을 수신하지 않고, 제어 회로(304)는 단어 "Uconn"이 헤테로그래프 세트에 있음에도 불구하고 단어 "duke" 및 "Uconn"을 특징으로 하는 검색 결과를 출력할 수 있다. 즉, 사용자는 의도된 출력(예를 들면, 학교 "Uconn")을 제공하도록 사용자가 "Uconn"을 학교로 또는 "Yukon"을 강으로 의도하였는지에 대한 모호성을 해결하는 데 관여할 필요는 없다. 이는 제어 회로(304)가 헤테로그래프 세트 내의 복수의 단어 중 어느 단어가 다른 구두 입력 단어 및 헤테로그래프 세트의 각각의 단어에 대한 관계 등의 다른 콘텍스트 정보에 기초하여 가장 가능성이 높은 의도된 단어인지를 결정하기 때문이다.
메모리는 제어 회로(304)의 일부인 저장 장치(308)로 제공되는 전자 스토리지 장치일 수 있다. 여기에 언급된 바와 같이, 어구 "전자 저장 장치" 또는 "저장 장치"는 랜덤-액세스 메모리, 판독 전용 메모리, 하드 드라이브, 광학 드라이브, 디지털 비디오 디스크(DVD) 레코더, 컴팩트 디스크(CD) 레코더, 블루 레이 디스크(BD) 레코더, BLU-RAY 3D 디스크 레코더, 디지털 비디오 레코더(DVR, 종종 개인용 비디오 레코더, PVR 로 지칭), 고체 장치, 양자 저장 장치, 게임 콘솔, 게임 미디어, 또는 임의의 다른 적합한 고정 또는 분리형 저장 장치, 및/또는 동일한 이들의 조합과 같은, 전자 데이터, 컴퓨터 소프트웨어, 또는 펌웨어를 저장하기 위한 임의의 장치를 의미하는 것으로 이해해야 한다. 저장 장치(308)는 상기 미디어 가이던스 데이터뿐만 아니라 여기에 기재된 다양한 유형의 콘텐츠를 저장하기 위해 사용될 수 있다. 예를 들어, 저장 영역(308)은 데이터베이스(600)를 저장하는 데 사용될 수 있다. 데이터베이스(600)는 복수의 항목을 포함할 수 있다. 각 항목은 음소 시퀀스 필드 및 해당 단어/헤테로그래프 필드를 포함할 수 있다. 음소 시퀀스 필드는 수신된 발성 단어를 나타내는 일련의 음소를 식별할 수 있고, 단어/헤테로그래프 필드는 음소 시퀀스와 매칭하는 단어 또는 단어들의 텍스트 표현을 식별할 수 있다. 저장 장치(308)는 또한 다른 단어들 사이의 가중된 관계를 저장하는 지식 그래프(500)(도 5)를 저장하는 데 사용될 수 있다. 비휘발성 메모리가 또한 사용될 수 있다(예를 들어, 부팅 루틴 및 다른 명령을 실행하기 위해). 도 4에 관련하여 설명된 클라우드-기반 저장 장치는 저장 장치(308)를 보완하거나 또는 저장 장치(308) 대신 사용될 수 있거다.
제어 회로(304)는 비디오 생성 회로 및 튜닝 회로를 포함할 수 있다. 하나 이상의 아날로그 튜너, 하나 이상의 MPEG-2 디코더, 또는 다른 디지털 디코딩 회로, 고화질(high-definition) 튜너, 또는 임의의 다른 적절한 조정 또는 비디오 회로 또는 그런 회로들의 조합을 포함할 수 있다. 또한 부호화 회로(가령, 공중파, 아날로그 또는 디지털 신호를 저장 MPEG 신호로 변환하기 위한)에 제공될 수 있다. 제어 회로(304)는 또한 콘텐츠를 사용자 기기(300)의 바람직한 출력 포맷으로 업 컨버팅하고 다운 컨버팅하기 위한 스케일러 회로를 포함할 수 있다. 제어 회로(304)는 또한 디지털 및 아날로그 신호 사이에서 변환하기 위한 디지털-아날로그 변환 회로 및 아날로그-디지털 변환 회로도 포함할 수 있다. 튜닝 및 인코딩 회로는 콘텐츠를 수신하고 표시하고, 재생하고, 또는 기록하기 위해 상기 사용자 기기 장치에 의해 사용될 수 있다. 튜닝 및 인코딩 회로는 또한 가이던스 데이터를 수신하는 데 사용될 수 있다. 본 명세서에 기재된 튜닝 및 인코딩 회로는 예를 들면 튜닝, 비디오 생성, 인코딩, 디코딩, 암호화, 복호화, 스케일러, 및 아날로그/디지털 회로를 포함하며, 하나 이상의 범용 또는 특수 프로세서에서 실행되는 소프트웨어를 사용하여 구현될 수 있다. 복수의 튜너가 동시 조정 기능(예를 들어 시청 및 녹화 기능, 픽쳐 인 픽쳐(PIP) 기능, 다중 튜너 기록 등)을 처리하기 위해 제공될 수 있다. 저장 장치(308)가 사용자 장치(300)와 별개의 장치로서 제공되는 경우, 튜닝및 인코딩 회로(다중 튜너를 포함)는 저장 장치(308)와 연관될 수 있다.
사용자는 사용자 입력 인터페이스(310)를 사용하여 제어 회로(304)에 명령들을 전송할 수 있다. 사용자 입력 인터페이스(310)는 리모컨, 마우스, 트랙볼, 키패드, 키보드, 터치 스크린, 터치 패드, 스타일러스 입력, 조이스틱, 음성 인식 인터페이스, 마이크로폰, 또는 다른 사용자 입력 인터페이스와 같은 임의의 적절한 사용자 인터페이스일 수 있다. 디스플레이(312)는 독립형 장치로서 제공하거나 사용자 기기 장치(300)의 다른 요소와 통합될 수 있다. 예를 들어, 디스플레이(312)는 터치 스크린 또는 터치에 민감한 디스플레이일 수 있다. 이러한 상황에서, 사용자 입력 인터페이스(312)는 디스플레이(312)와 통합될 수 있다. 디스플레이(312)는 모니터, 텔레비전, 휴대 기기용 액정 표시 장치(LCD), 비정질 실리콘 디스플레이 저온 폴리 실리콘 디스플레이, 전자 잉크 디스플레이, 전기 영동 디스플레이, 액티브 매트릭스 디스플레이, 전기 습윤 디스플레이, 전기 유체(electrofluidic) 디스플레이, 음극선관 디스플레이, 발광 다이오드 디스플레이, 전계 발광 디스플레이, 플라즈마 디스플레이 패널, 고성능 어드레싱 디스플레이, 박막 트랜지스터 디스플레이, 유기 발광 다이오드 디스플레이, 표면 전도 전자 방출 디스플레이(SED), 레이저 텔레비전, 카본 나노 튜브, 양자점 디스플레이, 간섭계 변조기 디스플레이, 또는 시각적 이미지들을 디스플레이하기 위한 임의의 다른 적절한 장치의 하나 또는 그 이상일 수 있다. 일부 실시예들에서, 디스플레이(312)는 HDTV 지원될 수 있다. 일부 실시예들에서, 디스플레이(312)는 3D 디스플레이, 대화식 미디어 가이던스 애플리케이션일 수 있으며, 임의의 적절한 콘텐츠는 3D로 표시될 수 있다. 비디오 카드 또는 그래픽 카드는 디스플레이(312)로의 출력을 생성할 수 있다. 비디오 카드는 3D 장면 및 2D 그래픽 가속 렌더링, MPEG-2/MPEG-4 복호화, TV 출력, 다중 모니터를 연결하는 능력과 같은 다양한 기능을 제공할 수 있다. 비디오 카드는 제어 회로(304)와 관련하여 전술한 모든 처리 회로가 될 수 있다. 비디오 카드는 제어 회로(304)와 통합될 수 있다. 스피커(314)는 사용자 기기 장치(300)의 다른 구성 요소와 통합되어 제공될 수 있거나 또는 독립 장치일 수 있다. 디스플레이(312)에 표시되는 비디오와 다른 콘텐츠의 오디오 컴포넌트는 스피커(314)를 통해 재생될 수 있다. 일부 실시예들에서 오디오는 수신기(도시되지 않음)에 분배될 수 있으며, 스피커(314)를 통해 오디오를 처리하여 출력한다.
가이던스 애플리케이션은 임의의 적합한 아키텍처를 사용하여 구현될 수 있다. 예를 들어, 가이던스 애플리케이션은 전적으로 사용자 기기 장치(300)에 구현 된 독립형 애플리케이션일 수 있다. 그러한 접근에서, 애플리케이션의 명령들은 국부적으로 저장되고(예를 들면, 저장 장치(308)), 애플리케이션에 의해 사용하기 위한 데이터는 주기적으로 다운로드된다(예를 들면, 대역 외 공급으로부터, 인터넷 자원으로부터 또는 다른 적절한 방법을 사용하여). 제어 회로(304)는 저장 장치(308)에서 애플리케이션의 명령을 탐색하고 여기에서 논의된 디스플레이 중 임의 디스플레이를 생성하는 명령을 처리할 수 있다. 처리된 명령에 기초하여, 제어 회로(304)는 입력이 입력 인터페이스(310)로부터 수신되는 경우에 어떤 작업을 수행할지를 결정할 수 있다. 예를 들어, 디스플레이상의 커서를 위로 아래로 이동하는 것은 입력 인터페이스(310)가 업/다운 버튼이 선택되었음을 나타내는 경우 처리된 명령에 의해 표시될 수 있다.
일부 실시예들에서, 상기 미디어 가이던스 애플리케이션은 클라이언트-서버 기반의 애플리케이션이다. 사용자 기기 장치(300) 상에 구현된 두꺼운 또는 얇은 클라이언트가 사용하는 데이터는 사용자 기기 장치(300)에 대해 원격의 서버에 요청을 발행하여 주문형 탐색된다. 클라이언트-서버 기반의 가이던스 애플리케이션의 일 예로, 제어 회로(304)는 원격 서버에서 제공하는 웹 페이지를 해석하는 웹 브라우저를 실행한다. 예를 들어, 원격 서버는 저장 장치에 애플리케이션에 대한 명령어를 저장할 수 있다. 원격 서버는 회로(예, 제어 회로부(304))를 사용하여 저장된 명령을 처리하고 상기 및 하기 언급된 디스플레이를 생성할 수 있다. 클라이언트 장치는 상기 원격 서버에 의해 생성된 디스플레이를 수신할 수 있고 기기 장치(300)상에 국부적으로 디스플레이의 내용을 디스플레이할 수 있다. 이런 방법으로, 명령의 처리를 서버에 의하여 원격으로 수행하고, 한편 결과적인 디스플레이는 기기 장치(300)상에 국부적으로 제공된다. 기기 장치(300)는 입력 인터페이스(310)를 통해 사용자로부터 입력을 수신하고 대응하는 디스플레이를 처리 및 생성하기 위해 이들 입력을 원격 서버에 전송할 수 있다. 예를 들어, 기기 장치(300)는 업/다운 버튼이 입력 인터페이스(310)를 통해 선택되었음을 나타내는 통신을 원격 서버에 전송할 수 있다. 원격 서버는 그 입력에 따라 명령을 처리하고 그 입력에 대응하는 애플리케이션의 디스플레이를 생성 할 수 있다 (예 : 커서를 위/아래로 움직이는 디스플레이). 그런 다음 생성된 디스플레이는 사용자에게 제시하기 위해 기기 장치(300)로 전송된다.
일부 실시예들에서, 상기 미디어 가이던스 애플리케이션은 다운로드되고 해석하거나 또는 인터프리터 또는 가상 머신에 의해 실행된다(제어 회로(304)에 의해 실행). 일부 실시예들에서, 가이던스 애플리케이션은 적합한 피드의 일부로서 제어 회로(304)에 의해 수신된 ETV 이진 교환 형식(EBIF)으로 인코딩될 수 있고, 제어 회로(304) 상에서 실행하는 사용자 에이전트에 의해 해석될 수 있다. 예를 들어, 가이던스 애플리케이션은 EBIF 애플리케이션일 수 있다. 일부 실시예들에서, 가이던스 애플리케이션은 로컬 가상 머신 또는 제어 회로(304)에 의해 실행되는 다른 적합한 미들웨어에 의해 수신되고 실행되는 일련의 JAVA 기반 파일에 의해 정의될 수 있다. 그런 실시예들 중 일부에서(예를 들면, 사람들은 MPEG-2 또는 다른 디지털 미디어 부호화 방식을 이용하는 실시예들), 가이던스 애플리케이션은, 예를 들면 한 프로그램의 MPEG 오디오 및 비디오 패킷을 갖는 MPEG-2 오브젝트 캐로셀에서 부호화되고 전송될 수 있다.
도 3의 사용자 기기 장치(300)는 도 4의 시스템(400)에서, 사용자 텔레비전 기기(402), 사용자 컴퓨터 기기(404), 무선 사용자 통신 장치(406), 또는 비 휴대용 게임기와 같은 콘텐츠에 액세스하기에 적합한 다른 유형의 사용자 기기로 구현될 수 있다. 단순화를 위해, 이들 장치는 사용자 기기 또는 사용자 기기 장치로서 총체적으로 지칭될 수 있고, 상기 사용자 기기 장치와 실질적으로 유사할 수 있다. 미디어 가이던스 애플리케이션이 구현될 수 있는 사용자 기기 장치는 독립형 장치로서 기능할 수 있거나 또는 장치의 네트워크의 일부일 수 있다. 디바이스의 다양한 네트워크 구성이 구현될 수 있으며, 이하에서보다 상세히 논의된다.
도 3과 관련하여 상기 설명된 시스템 기능의 적어도 일부를 이용하는 사용자 기기 장치는 사용자 텔레비전 기기(402), 사용자 컴퓨터 기기(404), 또는 무선 사용자 통신 장치(406)로 오로지 분류되지 않을 수 있다. 예를 들어, 사용자 텔레비젼 기기(402)는 일부 사용자 컴퓨터 기기(404)와 같이 인터넷 콘텐츠에 접속을 가능하게 인터넷을 사용할 수 있으며, 사용자 컴퓨터 기기(404)는 일부 텔레비전 기기(402)와 같이 텔레비전 프로그래밍에 액세스하기 위해 허용하는 튜너를 포함할 수 있다. 미디어 가이던스 애플리케이션은 여러 다른 유형의 사용자 기기 상에 동일한 배치를 가질 수도 있고, 사용자 기기 상의 디스플레이 능력에 맞추어 질 수 있다. 예를 들어, 사용자가 컴퓨터 기기(404) 상에 가이던스 애플리케이션은 웹 브라우저에 의해 액세스되는 웹 사이트로 제공할 수 있다. 또 다른 예에서, 가이던스 애플리케이션은 무선 사용자 통신 장치(406)에 대해 축소될 수 있다.
시스템(400)에서, 일반적으로 2 이상의 사용자 기기 장치의 각 유형이 있지만, 도면의 복잡함을 방지할 수 있도록 단지 각 하나만 도 4에 도시되어 있다. 또한, 각 사용자는 2 이상의 사용자 기기 장치를 이용할 수 있고 또한 각 유형의 사용자 기기 장치를 2 이상 이용할 수 있다.
일부 실시예들에서, 사용자 기기 장치(예를 들어, 사용자 텔레비전 기기(402), 사용자 컴퓨터 기기(404), 무선 사용자 통신 장치(406))는 "제2 스크린 장치"로 지칭될 수 있다.  제2 스크린 장치에 제시되는 콘텐츠가 제1 장치에 제시되는 내용을 보충하는 임의의 적절한 콘텐트일 수 있다. 일부 실시예들에서, 제2 스크린 장치는 제1 장치의 설정 및 디스플레이 선호도를 조정하기 위한 인터페이스를 제공한다. 일부 실시예들에서, 제2 스크린 장치는 다른 제2 스크린 장치와의 상호 작용 또는 소셜 네트워크와 상호 작용하도록 구성된다. 제2 스크린 장치는 제1 장치와 동일한 방에, 상기 제2 장치로부터 다른 방에, 그러나 동일한 집이나 건물, 또는 제1 장치와는 다른 건물에 위치할 수 있다. 일부 실시예들에서, 제2 스크린 장치는 제1 장치에 구두로 입력을 제공할 수 있다. 일부 실시예들에서, 제2 스크린 장치는 음성 인식이나 ASR을 수행할 수 없는 얇은 클라이언트가 될 수 있지만, 한 사용자로부터 상기 제1 장치로 수신된 음성을 단순히 전송한다. 제1 장치는 제2 스크린 장치에 수신된 상기 발성에 ASR을 수행하는 기능을 포함할 수 있다. 이러한 경우, 제1 장치는 로컬 또는 원격 서버일 수 있다. 일부 실시예들에서, 제2 스크린 장치는 수신된 발성에 ASR을 수행하는 모든 기능을 포함할 수 있으며, (필요한 경우) 추가 처리를 위해 상기 제1 장치에 대응하는 단어를 전송할 수 있다.
사용자는 또한 가정 내 장치와 원격 장치에 일관된 미디어 가이던스 애플리케이션 설정을 유지하기 위해 다양한 설정을 설정할 수 있다. 설정은 여기에 기술 된 것뿐만 아니라, 채널 및 프로그램 즐겨 찾기, 가이던스 애플리케이션이 프로그래밍 추천을 하기 위해 이용하는 프로그래밍 선호도, 디스플레이 선호도, 및 기타 바람직한 가이던스 설정을 포함한다. 예를 들머, 사용자가 즐겨 찾기로 채널, 예를 들어, 자신의 사무실에서 자신의 개인 컴퓨터에서 웹 사이트 www.allrovi.com을 설정하는 경우, 동일한 채널이 사용자의 가정 내 기기(예, 사용자 텔레비전 기기 및 사용자 컴퓨터 기기)뿐만 아니라 사용자의 모바일 장치에 원하는 경우 즐겨 찾기로 나타난다. 따라서, 하나의 사용자 기기 장치에 대한 변경은 동일하거나 상이한 유형의 사용자 기기 장치인지에 관계없이 다른 사용자 기기 장치의 가이던스 경험을 변경할 수 있다. 또한 이루어진 변경은 사용자가 입력한 설정뿐만 아니라, 가이던스 애플리케이션에서 모니터링하는 사용자 활동을 기반으로 할 수 있습니다.
사용자 기기 장치는 통신 네트워크(414)에 결합될 수 있다. 즉, 사용자 텔레비전 기기(402), 사용자 컴퓨터 기기(404) 및 무선 사용자 통신 장치(406)는 각각 통신 경로(408, 410 및 412)를 통해 통신 네트워크(414)에 결합된다. 통신 네트워크(414)는 인터넷, 이동 전화 네트워크, 이동 음성 또는 데이터 네트워크 (예를 들어, 4G, XLTE 및/또는 LTE 네트워크), 케이블 네트워크, 공중 교환 전화 네트워크, 또는 다른 유형의 통신 네트워크 또는 통신 네트워크의 조합을 포함하는 하나 이상의 네트워크일 수있다. 경로들(408, 410 및 412)은 위성 경로, 광섬유 경로, 케이블 경로, 인터넷 통신 (예를 들어, IPTV)을 지원하는 경로, 자유 공간 접속 (예를 들어, 방송 또는 다른 무선 신호를 위한), 또는 임의의 다른 적합한 유선 또는 무선 통신 경로 또는 그러한 경로들의 조합과 같은 하나 이상의 통신 경로를 분리적으로 또는 함께 포함할 수 있다. 경로(412)는 도 4에 도시된 예시적인 실시예에서 하나의 무선 경로임을 나타내기 위하여 점선으로 그려져 있고, 경로(408 및 410)는 유선 경로임을 나타내기 위해 실선으로 그려져 있다 (이러한 경로는 원할 경우 무선 경로일 수 있음). 사용자 기기 장치와의 통신은 이들 통신 경로 중 하나 이상에 의해 제공될 수 있지만,도 4에서는 도면을 복잡하게 만드는 것을 피하기 위해 단일 경로로 도시된다.
사용자 기기 장치들 간에 통신 경로들이 그려지지는 않지만, 이들 장치들은 경로들(408, 410 및 412)과 관련하여 전술한 것과 같은 통신 경로뿐만 아니라, USB 케이블, IEEE 1394 케이블, 무선 경로 (예 : 블루투스, 적외선, IEEE 802-11lx 등) 또는 유선 또는 무선 경로를 통한 기타 단거리 통신과 같은 다른 단거리 점대점(포인트-투-포인트) 통신 경로를 통하여 서로 직접 통신할 수 있다. 블루투스는 Bluetooth SIG, INC가 소유한 인증 마크이다. 사용자 기기 장치는 또한 통신 네트워크(414)를 통한 간접 통로를 통하여 서로 직접 통신할 수 있다.
시스템(400)은 각각의 통신 경로(420 및 422)를 통해 통신 네트워크(414)에 결합된 콘텐츠 소스(416) 및 미디어 가이던스 데이터 소스(418)를 포함한다. 경로(420 및 422)는 경로(408, 410 및 412)와 관련하여 전술한 통신 경로 중 임의의 통신 경로를 포함할 수 있다. 콘텐츠 소스(416) 및 미디어 가이던스 데이터 소스(418)와의 통신은 하나 이상의 통신 경로를 통해 교환될 수 있으나, 도면의 복잡함을 방지할 수 있도록 도 4의 단일 경로로 도시된다. (이러한 소스의 각각의 다른 유형은 아래 논의된다.) 필요하다면, 콘텐츠 소스(416) 및 미디어 가이던스 데이터 소스(418)는 하나의 소스 장치로 통합될 수 있다. 사용자 기기 장치(402, 404 및 406)와 소스(416 및 418) 간의 통신은 통신 네트워크(414)를 통해 도시되지만, 일부 실시예들에서 소스(416 및 418)는 경로 (408, 410, 412)와 관련하여 전술한 것들과 같은 통신 경로(도시되지 않은)를 통해 사용자 기기 장치(402, 404 및 406) 와 직접 통신할 수 있다.
콘텐츠 소스(416)는 텔레비전 분배 설비, 케이블 시스템 중계국, 위성 분배 설비, 프로그래밍 소스 (예를 들어, NBC, ABC, HBO 등과 같은 텔레비전 방송국), 중간 분배 설비 및/또는 서버, 인터넷 제공 업체, 주문형 미디어 서버 및 기타 콘텐츠 제공 업체를 포함하는 하나 이상의 유형의 콘텐츠 분배 장치를 포함할 수 있다. NBC는 National Broadcasting Company, Inc. 소유의 상표이고 ABC는 American Broadcasting Company, Inc. 소유의 상표이며 HBO는 Home Box Office, Inc. 소유의 상표입니다. 콘텐츠 소스(416)는 콘텐츠의 고안자 (예 : 텔레비전 방송사, 웹 캐스트 공급자 등)이거나, 콘텐츠의 고안자(예 : 주문형 콘텐츠 공급자, 다운로드 용 브로드캐스트 프로그램 콘텐츠의 인터넷 제공 업체 등)가 아닐 수 있다. 콘텐츠 소스(416)는 케이블 소스, 위성 제공자, 주문형 제공자, 인터넷 제공자, 오버더탑(over-the-top) 콘텐츠 제공자, 또는 다른 콘텐츠 제공자를 포함할 수 있다. 콘텐츠 소스(416)는 임의의 사용자 기기 장치로부터 떨어진 위치에 다른 유형의 콘텐츠 (사용자에 의해 선택된 비디오 콘텐츠 포함)를 저장하는 데 사용되는 원격 미디어 서버를 포함할 수도 있다. 콘텐트의 원격 저장 및 원격 저장 콘텐트를 사용자 기기에 제공하기 위한 시스템 및 방법은 Ellis 등에게 2010년 7월 20일자로 허여된 미국 특허 7,761,892에 개시되어 있으며, 이는 본 명세서에서 그 전체가 참조로써 인용된다.
미디어 가이던스 데이터 소스(418)는 위에서 설명된 미디어 가이던스 데이터와 같은 미디어 가이던스 데이터를 제공할 수 있다. 미디어 가이던스 데이터는 임의의 적합한 방법을 이용하여 사용자 기기 장치들에 제공될 수 있다. 일부 실시예들에서, 가이던스 애플리케이션은 데이터 피드 (예를 들어, 연속 피드 또는 트리클 피드)를 통해 프로그램 가이드 데이터를 수신하는 독립형 대화형 텔레비전 프로그램 가이드일 수 있다. 프로그램 스케줄 데이터 및 다른 가이던스 데이터는 텔레비전 채널 측대역의 사용자 기기에, 대역-내 디지털 신호를 사용하거나, 대역-외 디지털 신호를 사용하거나, 또는 임의의 다른 적절한 데이터 전송 기술에 의해 제공 될 수 있다. 프로그램 스케줄 데이터 및 다른 미디어 가이던스 데이터는 다수의 아날로그 또는 디지털 텔레비전 채널 상의 사용자 기기에 제공될 수 있다.
일부 실시예들에서, 미디어 가이던스 데이터 소스(418)로부터 가이던스 데이터는 클라이언트-서버 방식을 사용하여 사용자 기기에 제공될 수 있다. 예를 들어, 사용자 기기 장치는 서버로부터 미디어 가이던스 데이터를 가져올 수(pull) 있거나, 또는 서버는 사용자 기기 장치에 미디어가이던스 데이터를 보낼 수(push) 있다. 일부 실시예들에서, 사용자 기기에 상주하는 가이던스 애플리케이션 클라이언트는 필요하다면, 예를 들어 가이던스 데이터가 오래되었거나 사용자 기기가 사용자로부터 데이터를 수신하라는 요청을 수신할 때, 가이던스 데이터를 얻기 위해 소스(418)와의 세션을 개시할 수 있다. 임의의 적절한 주파수 (예를 들어, 연속적으로, 매일, 사용자가 지정한 시간주기, 시스템 특정 시간주기, 사용자 기기로부터의 요구에 응답하여)와 함께 미디어 가이던스가 사용자 기기에 제공될 수 있다. 미디어 가이던스 데이터 소스(418)는 사용자 기기 장치(402, 404 및 406)에 미디어 가이던스 애플리케이션 자체 또는 미디어 가이던스 애플리케이션을 위한 소프트웨어 업데이트를 제공할 수 있다.
미디어 가이던스 애플리케이션은 예를 들어 사용자 기기 장치 상에 구현된 독립형 애플리케이션일 수 있다. 예를 들면, 상기 미디어 가이던스 애플리케이션은 소프트웨어 또는 저장 장치(308)에 저장될 수 있고, 사용자 기기 장치(300)의 제어 회로(304)에 의해 실행되는 실행 가능한 명령들의 세트로서 구현될 수 있다. 일부 실시예들에서, 미디어 가이던스 애플리케이션은 클라이언트 애플리케이션만 사용자 기기 장치에 상주하고 서버 애플리케이션은 원격 서버에 상주하는 클라이언트-서버 애플리케이션일 수 있다. 예를 들어, 미디어 가이던스 애플리케이션은 부분적으로 사용자 기기 장치(300)의 제어 회로(304)상의 클라이언트 애플리케이션으로서 그리고 원격 서버의 제어 회로상에서 동작하는 서버 애플리케이션(예를 들어, 미디어 가이던스 데이터 소스 (418))으로서 원격 서버 상에 구현될 수있다. (미디어 가이던스 데이터 소스(418)와 같은) 원격 서버의 제어 회로에 의해 실행될 때, 미디어 가이던스 애플리케이션은 제어 회로로 하여금 가이던스 애플리케이션 디스플레이를 생성하고 생성된 디스플레이를 사용자 기기 장치로 전송하도록 명령할 수 있다. 서버 애플리케이션은 사용자 기기 상의 저장을 위해 데이터를 전송하도록 미디어 가이던스 데이터 소스(418)의 제어 회로에 명령할 수 있다. 클라이언트 애플리케이션은 수신 사용자 기기의 제어 회로에 명령하여 애플리케이션 디스플레이를 생성하고 구두 입력을 처리할 수 있다.
사용자 기기 장치(402, 404 및 406)에 전달된 콘텐츠 및/또는 미디어 가이던스 데이터는 OTT (over-the-top) 콘텐츠일 수 있다. OTT 콘텐츠 전달은 위에서 설명된 모든 사용자 기기 장치를 포함한 인터넷 사용 가능 사용자 장치가 케이블 또는 위성 연결을 통해 수신된 콘텐츠 외에도 위에서 설명한 콘텐츠를 비롯하여 인터넷을 통해 전송되는 콘텐츠를 수신할 수 있게 한다. OTT 콘텐츠는 인터넷 서비스 공급자(ISP)가 제공하는 인터넷 연결을 통해 전달되지만 제3자가 콘텐츠를 배포한다. ISP는 콘텐츠의 시청 능력, 저작권 또는 재배포에 대한 책임을 지지 않으며 OTT 콘텐츠 제공 업체가 제공한 IP 패킷만 전송할 수 있다. OTT 콘텐츠 제공 업체의 예는 IP 패킷을 통해 오디오와 비디오를 제공하는 유튜브(YOTUBE), 넷플릭스(NETFLIX)와 훌루(HULU)를 포함한다. 유튜브는 구글 인코포레이티드 소유의 등록 상표이며, 넷플릭스는 넷플릭스 인코포레이티드 소유의 상표이고 훌루는 훌루 엘엘시가 소유한 상표이다. OTT 콘텐츠 제공자는 부가적으로 또는 대안적으로 상기 미디어 가이던스 데이터를 제공할 수 있다. 콘텐츠 및/또는 미디어 가이던스 데이터 이외에, OTT 콘텐츠 제공자는 미디어 가이던스 애플리케이션(예를 들어, 웹 기반 애플리케이션 또는 클라우드 기반 애플리케이션)을 분배할 수 있거나, 또는 콘텐츠가 상기 사용자 기기 장치에 저장된 미디어 가이던스 애플리케이션에 의해 디스플레이될 수 있다.
미디어 가이던스 시스템(400)은 콘텐츠에 접근하고 미디어 가이던스를 제공하기 위해 사용자 기기 장치 및 콘텐츠 및 가이던스 데이터의 소스가 서로 통신할 수 있는 다수의 접근법 또는 네트워크 구성을 설명하기 위한 것이다. 본 명세서에 기술된 실시예는 이들 접근법 중 임의의 하나 또는 일부에서, 또는 콘텐츠를 전달하고 미디어 가이던스를 제공하기 위한 다른 접근법을 사용하는 시스템에 적용될 수 있다. 다음 4 가지 접근법은 도 4의 일반화된 예시들 중 특정 예시를 제공한다.
하나의 접근법에서, 사용자 기기 장치는 홈 네트워크 내에서 서로 통신할 수 있다. 사용자 기기 장치는 홈 네트워크 상에 제공된 허브 또는 다른 유사한 장치를 통한 간접적인 경로를 통해 또는 통신 네트워크(414)를 통해 위에서 설명된 단거리 점대점 통신 방식을 통해 서로 직접 통신할 수 있다. 하나의 가정에서 다수의 개인들 각각은 홈 네트워크 상의 다른 사용자 기기 장치를 동작시킬 수 있다. 결과적으로, 다양한 미디어 가이던스 정보 또는 설정들이 상이한 사용자 기기 장치들 사이에서 통신되는 것이 바람직할 수 있다. 예를 들어, 엘리스 (Ellis) 등의 2005년 7월 11일자로 출원된 미국 특허 출원 11/179,410에 상세히 기술된 바와 같이, 사용자가 홈 네트워크 내의 상이한 사용자 기기 장치에 일관된 미디어 가이던스 애플리케이션 설정을 유지하는 것이 바람직할 수 있다. 홈 네트워크 내의 상이한 유형의 사용자 장치 장치는 또한 서로 통신하여 콘텐츠를 전송할 수 있다. 예를 들어, 사용자는 사용자 컴퓨터 장비로부터 휴대용 비디오 플레이어 또는 휴대용 음악 플레이어로 콘텐츠를 전송할 수 있다.
제2 접근법에서, 사용자는 콘텐츠에 액세스하고 미디어 가이던스를 얻는 여러 유형의 사용자 기기를 가질 수 있다. 예를 들어 일부 사용자는 집과 휴대 장치에서 액세스하는 홈 네트워크를 가질 수 있다. 사용자는 원격 장치에 구현된 미디어 가이던스 애플리케이션을 통해 가정용 장치를 제어할 수 있다. 예를 들어 사용자는 사무실의 개인 컴퓨터 또는 PDA 또는 웹 지원 휴대 전화와 같은 모바일 장치를 통해 웹 사이트의 온라인 미디어 가이던스 애플리케이션에 액세스할 수 있다. 사용자는 온라인 가이던스 애플리케이션에 다양한 설정 (예 : 녹음, 미리 알림 또는 기타 설정)을 설정하여 사용자의 가정용 기기를 제어할 수 있다. 온라인 가이드는 사용자의 기기를 직접 제어하거나 사용자의 가정용 기기의 미디어 가이던스 애플리케이션과 통신하여 제어할 수 있다. 사용자 기기 장치들이 서로 멀리 떨어진 위치에 있는 사용자 기기 장치들을 통신하기 위한 다양한 시스템들 및 방법은 예를 들어 Ellis 등의 미국 특허 8,046,801 (2011년 10월 25일자로 허여 됨)에 개시되어 있으며, 본 명세서에서 그 전체가 참조되어 인용된다.
제3 접근법에서, 홈 내부와 외부에서 사용자 기기 장치의 사용자가 콘텐츠에 액세스하기 위해 콘텐츠 소스(416)와 직접 통신하는 그들의 미디어 가이던스 애플리케이션을 사용할 수 있다. 특히, 가정 내에서, 사용자 텔레비전 기기(402) 및 사용자 컴퓨터 기기(404)의 사용자들은 원하는 콘텐츠를 탐색하고 찾을 미디어 가이던스 애플리케이션에 액세스할 수 있다. 또한 사용자들은 원하는 콘텐츠를 탐색하고 찾기 위하여 무선 사용자 통신 장치(406)를 이용하여 집의 외부의 미디어 가이던스 애플리케이션을 액세스할 수 있다.
제4 접근법에서, 사용자 기기 장치는 클라우드 서비스에 액세스하는 클라우드 컴퓨팅 환경에서 동작할 수 있다. 클라우드 컴퓨팅 환경에서, 콘텐츠 공유, 저장 또는 배포(예를 들어, 비디오 공유 사이트 또는 사회적 네트워킹 사이트)에 대한 다양한 형태의 컴퓨팅 서비스는 "더클라우드"라고 불리는 네트워크 액세스가능 컴퓨팅 및 저장 리소스의 집합에 의해 제공된다. 예를 들어, 클라우드는 통신 네트워크(414)를 통해 인터넷과 같은 네트워크를 통해 접속된 다양한 유형의 사용자와 디바이스에 클라우드 기반 서비스를 제공하는 중앙 집중식으로 또는 분산 위치에 위치될 수 있는 서버 컴퓨팅 디바이스의 집합을 포함할 수 있다. 이러한 클라우드 리소스는 하나 이상의 콘텐츠 소스(416) 및 하나 이상의 미디어 가이던스 데이터 소스(418)를 포함할 수 있다. 이에 에 더하여 또는 대안하여, 원격 컴퓨팅 사이트는 사용자 텔레비전 기기(402), 사용자 컴퓨터 장치(404) 및 무선 사용자 통신 장치(406) 등의 다른 사용자 기기 장치를 포함할 수 있다. 예를 들어, 다른 사용자 기기 장치는 비디오 또는 스트리밍되는 비디오의 저장된 복사에 대한 액세스를 제공할 수 있다. 이러한 실시예에서, 사용자 기기 장치는 중앙 서버와 통신하지 않고 피어 투 피어 방식으로 동작할 수 있다.
클라우드는 사용자 기기 장치에 상술한 콘텐츠에 액세스할 뿐만 아니라, 다른 실시예들 사이에서 콘텐츠 저장, 콘텐츠 공유, 또는 소셜 네트워킹 서비스 등의 서비스에 대한 액세스를 제공한다. 서비스는 클라우드 컴퓨팅 서비스 제공자 또는 온라인 서비스의 다른 공급자를 통해 클라우드에서 제공될 수 있다. 예를 들어, 클라우드-기반 서비스는 콘텐츠 저장 서비스, 콘텐츠 공유 사이트, 소셜 네트워크 사이트, 또는 다른 서비스를 포함할 수 있어, 그를 통하여 사용자-소싱된 콘텐츠는 연결된 장치에서 다른 사용자가 볼 수 있도록 분배될 수 있다. 이러한 클라우드-기반 서비스는 사용자 기기 장치가 클라우드에 콘텐츠를 저장하고 오히려 국부적으로 콘텐츠를 저장하고 국부적으로 저장된 콘텐츠를 액세스하는 것보다 클라우드에서 콘텐츠를 수신할 수 있다.
사용자는 캠코더, 비디오 모드를 갖는 디지털 카메라, 오디오 레코더, 휴대 전화 및 핸드 헬드 컴퓨팅 장치와 같은 다양한 콘텐츠 캡처 장치를 사용하여 콘텐츠를 기록할 수 있다. 사용자는 예를 들어 콘텐츠 캡쳐 기능을 갖는 사용자 컴퓨터 기기(404) 직접적으로 또는 무선 사용자 통신 장치(406)로부터 클라우드 상의 콘텐츠 저장 서비스에 콘텐츠를 업로드할 수 있다. 대안적으로, 사용자는 먼저 사용자 컴퓨터 기기(404)와 같은 사용자 기기 장치로 콘텐츠를 전송할 수 있다. 콘텐츠를 저장한 사용자 기기 장치는 통신 네트워크(414)상의 데이터 전송 서비스를 사용하여 클라우드에 콘텐츠를 업로드한다. 일부 실시예들에서 사용자 기기 장치 자체는 클라우드 리소스이고, 다른 사용자 기기 장치는 사용자가 콘텐츠를 저장한 사용자 기기 장치로부터 직접 콘텐츠에 액세스 할 수 있다.
클라우드 리소스는 예를 들어 웹 브라우저, 미디어 가이던스 애플리케이션, 데스크톱 애플리케이션, 모바일 애플리케이션 및/또는 이들의 임의의 액세스 애플리케이션의 조합을 사용하여 사용자 기기 장치에 의해 액세스될 수 있다. 사용자 기기 장치는 애플리케이션 전달을 위해 클라우드 컴퓨팅에 의존하는 클라우드 클라이언트일 수 있거나 사용자 기기 장치는 클라우드 리소스에 대한 액세스 없이 일부 기능을 가질 수 있다. 예를 들어, 사용자 기기 장치상에서 실행되는 일부 애플리케이션은 클라우드 애플리케이션, 즉 인터넷을 통해 서비스로서 전달되는 애플리케이션일 수 있으며, 다른 애플리케이션은 사용자 기기 장치 상에 저장되고 실행될 수있다. 일부 실시예들에서, 사용자 장치는 다수의 클라우드 자원들로부터 동시에 콘텐츠를 수신할 수있다. 예를 들어, 사용자 장치는 제2 클라우드 리소스로부터 콘텐츠를 다운로드하면서 하나의 클라우드 리소스로부터 오디오를 스트리밍할 수 있다. 또는 사용자 장치가 더 효율적인 다운로드를 위해 여러 클라우드 리소스에서 콘텐츠를 다운로드할 수 있다. 일부 실시예들에서, 사용자 기기 장치는 도 3과 관련하여 기술된 처리 회로에 의해 수행되는 처리 동작과 같은 동작을 처리하기 위해 클라우드 리소스를 사용할 수있다.
도 7은 본 발명의 일부 실시예들에 따른 헤테로그래프의 존재에서 ASR을 수행하는 프로세스(700)의 도면이다. 단계 710에서, 복수의 발성을 포함하는 사용자의 구두 입력은 수신된다. 예를 들어, 마이크는 문구 "Duke v. Uconn"을 포함하는 사용자로부터의 구두 입력을 받을 수 있다.
단계 720에서, 복수 발성 중 하나가 선택된다. 예를 들어, 제어 회로(304)는 "Duke"에 해당하는 발성을 선택할 수 있다.
단계 730에서, 음소 시퀀스는 선택한 발성에 대해 생성된다. 예를 들면, 음소 인코더는 음소 시퀀스 /yukon/으로서 발성을 나타내기 위하여 "Uconn"에 대응하는 발성을 인코딩할 수 있다.
단계 740에서, 음소 시퀀스는 음소 시퀀스에 대응하는 일련의 단어를 식별하기 위해 데이터베이스를 상호 참조한다. 예를 들어, 제어 회로 304는 음소 시퀀스에 대응하는 단어의 세트를 식별하기 위하여 데이터베이스(600)(도 6)로 음소 시퀀스 /Duke/을 상호 참조할 수 있다. 예를 들어, 단어들의 세트는 음소 시퀀스 /duk/와 매칭하는 단어 "duke"를 포함할 수 있다. 마찬가지로, 제어 회로(304)는 음소 시퀀스에 대응하는 단어의 세트를 식별하기 위해 데이터베이스(600)(도 6)로 음소 시퀀스 /yukon/을 상호 참조할 수 있다. 예를 들어, 단어들의 세트는 음소 시퀀스 /yukon/과 매칭하는 2개의 단어"Yukon" 및 "Uconn"을 포함할 수 있다.
단계 750에서, 추가적인 발성이 남아 있는지 여부를 판정한다. 추가적인 발성이 남아 있다는 판정에 응답하여, 처리는 단계 760으로 진행하고, 그렇지 않으면 처리는 단계 720로 진행한다.
단계 760에서, 각각의 발성에 대한 단어의 각 세트에서 하나의 단어를 포함하는 조합들이 생성된다. 예를 들어, 제어 회로(304)는 단어 "duke"와 "Yukon"을 포함하는 하나의 조합과 단어 "duke"와 "Uconn의"을 포함하는 다른 조합을 생성할 수 있다.
단계 770에서, 생성된 조합 중 하나가 선택된다.
단계 780에서, 선택된 조합의 단어들 사이의 간격은 지식 그래프를 이용하여 계산된다. 예를 들어, 제어 회로(304)는 "duke" 및 "Yukon"의 조합의 단어 사이의 거리를 "5"로 계산할 수 있다. 마찬가지로, 제어 회로(304)는 "duke" 및 "uconn"의 조합의 단어 사이의 거리를 "2"로 계산할 수 있다.
단계 790에서, 추가적인 조합이 남아 있는지 여부를 판정한다. 추가적인 조합이 남아 있다는 판정에 응답하여, 처리는 단계 792로 진행하고, 그렇지 않으면 처리는 단계 770으로 진행한다.
단계 792에서, 각 조합의 계산된 거리를 비교한다.
단계 794에서, 사용자-의도된 입력으로 최소 거리를 갖는 단어의 조합이 처리된다. 예를 들어, 제어 회로(304)는 서로에 대해 더 관련 단어의 조합을 나타내는 거리가 "5" 미만인 "2" 일 때 단어 "duke" 및 "Uconn"의 조합을 선택할 수 있다. 제어 회로(304)는 선택된 조합(예를 들어, 검색 또는 추천을 수행)을 사용하여 미디어 가이던스 기능을 수행할 수 있다. 특히, 어구 "Duke v. Uconn"을 갖는 사용자로부터의 구두 입력의 수신에 응답하여, 제어 회로(304)는 비록 어구 내 용어 "Uconn"이 여러 단어와 매칭하는 헤테로그래프이지만 사용자의 추가 입력 없이 이 2 학교를 갖춘 모든 게임을 출력할 수 있다.
본 발명의 상술한 실시예는 예시의 목적으로 제시되고 제한의 목적이 아니고, 본 발명은 이하의 청구 범위에 의해 제한된다. 더욱이, 어느 한 실시예에서 설명한 기능과 한계가 본원 다른 실시예에 적용될 수 있으며, 하나의 실시 형태에 관한 흐름도 또는 예는 서로 다른 순서로 완료하거나 또는 병렬로 완료되는 적절한 방식으로 임의의 다른 실시예와 조합될 수 있음에 유의해야 한다. 또한, 본 명세서에 기재된 시스템 및 방법은 실시간으로 수행될 수 있다. 또한, 전술한 시스템 및/또는 방법은 다른 시스템 및/또는 방법에 따라 적용되거나 사용될 수 있음에 주목해야 한다.

Claims (20)

  1. 헤테로그래프 단어의 존재 시 자동 음성 인식(automatic speech recognition: ASR)을 수행하기 위한 방법에 있어서,
    사용자로부터 복수의 발성(utterance)을 포함하는 구두 입력을 수신하는 단계와,
    상기 복수의 발성 중 제1 발성을 제1 단어와 매칭하는 단계와,
    상기 제1 단어에 대한 콘텍스트를 설명하는(describe) 단어를 결정하는 단계와;
    상기 복수의 발성 중 제2 발성이 동일한 헤테로그래프 세트 내에 있는 복수의 단어와 매칭된다고 결정하는 단계와,
    상기 제1 단어에 대한 콘텍스트를 설명하는 상기 단어에 기초하여, 상기 동일한 헤테로그래프 세트 내에 있는 복수의 단어 중 어느 단어가 상기 제1 단어의 상기 콘텍스트와 연관되는지를 식별하는 단계와,
    상기 제1 단어와 상기 복수의 단어 중 식별된 하나의 단어에 기초하여 기능(function)을 수행하는 단계를 포함하는 자동 음성 인식(ASR)을 수행하기 위한 방법.
  2. 제1항에 있어서,
    단어들 사이의 관계에 대한 지식(knowledge) 그래프를 저장하는 단계로서, 상기 지식 그래프 내의 단어들 사이의 거리는 상기 단어들 사이의 관계에 있어서의 강도를 표시하는 것인, 상기 지식 그래프를 저장하는 단계와,
    상기 지식 그래프 내에서의 상기 복수의 단어 각각과 상기 제1 단어 사이의 거리에 기초하여 상기 복수의 단어 중 상기 하나의 단어를 식별하는 단계를 더 포함하는 자동 음성 인식(ASR)을 수행하기 위한 방법.
  3. 제2항에 있어서,
    상기 지식 그래프 내의 상기 제1 단어와 상기 복수의 단어 각각의 위치를 식별하는 단계와,
    상기 식별된 위치에 기초하여, 상기 제1 단어와 상기 복수의 단어 각각 사이의 거리를 계산하는 단계와,
    상기 복수의 단어 중 상기 식별된 하나의 단어로서, 상기 복수의 단어 중 상기 제1 단어에 대하여 계산된 가장 짧은 거리를 갖는 단어를 선택하는 단계를 더 포함하는 자동 음성 인식(ASR)을 수행하기 위한 방법.
  4. 제1항에 있어서,
    상기 제1 단어는 스포츠 이벤트에서의 참가자(competitor)의 이름이고,
    상기 방법은,
    상기 콘텍스트를 상기 스포츠 이벤트로 설정하는 단계와,
    상기 복수의 단어 중 어느 단어가 상기 스포츠 이벤트에 대응하는지를 결정하는 단계를 더 포함하고,
    상기 복수의 단어 중 상기 식별된 하나의 단어는, 상기 스포츠 이벤트에서의 다른 참가자에 대응하는 것인 자동 음성 인식(ASR)을 수행하기 위한 방법.
  5. 제1항에 있어서, 상기 동일한 헤테로그래프 세트 내에 있는 상기 복수의 단어는 음성학적으로(phonetically) 서로 유사한 것인 자동 음성 인식(ASR)을 수행하기 위한 방법.
  6. 제1항에 있어서, 상기 제1 단어와 상기 복수의 단어 중 상기 식별된 하나의 단어에 기초하여 추천을 생성하는 단계를 더 포함하는 자동 음성 인식(ASR)을 수행하기 위한 방법.
  7. 제1항에 있어서,
    상기 복수의 발성 중 제1 발성을 상기 제1 단어와 매칭하는 단계는, 상기 제1 발성이 음성학적으로 상기 제1 단어에 대응한다고 결정하는 단계를 포함하는 것인 자동 음성 인식(ASR)을 수행하기 위한 방법.
  8. 제1항에 있어서,
    상기 제1 단어는 미디어 자산 내의 배우(actor)의 이름이고,
    상기 방법은,
    상기 콘텍스트를 상기 미디어 자산으로 설정하는 단계와,
    상기 복수의 단어 중 어느 단어가 상기 미디어 자산에 대응하는지를 결정하는 단계를 더 포함하며,
    상기 복수의 단어 중 상기 식별된 하나의 단어는 상기 미디어 자산 내의 다른 배우에 대응하는 것인 자동 음성 인식(ASR)을 수행하기 위한 방법.
  9. 제1항에 있어서, 상기 복수의 발성 중 2개의 발성 사이의 접속사(conjunction)에 기초하여 상기 콘텍스트를 결정하는 단계를 더 포함하는 자동 음성 인식(ASR)을 수행하기 위한 방법.
  10. 제1항에 있어서, 상기 기능을 수행하는 단계는, 상기 제1 단어와 상기 복수의 단어 중 상기 식별된 하나의 단어에 대응하는 미디어 자산에 대하여 미디어 가이던스 애플리케이션 기능을 수행하는 단계를 포함하는 것인 자동 음성 인식(ASR)을 수행하기 위한 방법.
  11. 자동으로 음성 인식 에러를 정정하기 위한 시스템에 있어서,
    상기 시스템은 제어 회로를 포함하며,
    상기 제어 회로는,
    사용자로부터 복수의 발성을 포함하는 구두 입력을 수신하고,
    상기 복수의 발성 중 제1 발성을 제1 단어와 매칭하고,
    상기 제1 단어에 대한 콘텍스트를 설명하는 단어를 결정하고,
    상기 복수의 발성 중 제2 발성이 동일한 헤테로그래프 세트 내에 있는 복수의 단어와 매칭된다고 결정하고,
    상기 제1 단어에 대한 콘텍스트를 설명하는 상기 단어에 기초하여, 상기 동일한 헤테로그래프 세트 내에 있는 복수의 단어 중 어느 단어가 상기 제1 단어의 상기 콘텍스트와 연관되는지를 식별하고,
    상기 제1 단어 및 상기 복수의 단어 중 식별된 하나의 단어에 기초하여 기능을 수행하도록 구성되는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  12. 제11항에 있어서, 상기 제어 회로는 또한,
    단어들 사이의 관계에 대한 지식 그래프 - 상기 지식 그래프 내의 단어들 사이의 거리는 상기 단어들 사이의 관계에 있어서의 강도를 표시함 - 를 저장하고,
    상기 지식 그래프 내에서의 상기 복수의 단어 각각과 상기 제1 단어 사이의 거리에 기초하여 상기 복수의 단어 중 상기 하나의 단어를 식별하도록 구성되는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  13. 제12항에 있어서, 상기 제어 회로는 또한,
    상기 지식 그래프 내의 상기 제1 단어 및 상기 복수의 단어 각각의 위치를 식별하고,
    상기 식별된 위치에 기초하여, 상기 제1 단어와 상기 복수의 단어 각각 사이의 거리를 계산하고,
    상기 복수의 단어 중 상기 식별된 하나의 단어로서, 상기 복수의 단어 중 상기 제1 단어에 대하여 계산된 가장 짧은 거리를 갖는 단어를 선택하도록 구성되는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  14. 제11항에 있어서,
    상기 제1 단어는 스포츠 이벤트에서의 참가자의 이름이고,
    상기 제어 회로는 또한,
    상기 콘텍스트를 상기 스포츠 이벤트로 설정하고,
    상기 복수의 단어 중 어느 단어가 상기 스포츠 이벤트에 대응하는지를 결정하도록 구성되고,
    상기 복수의 단어 중 상기 식별된 하나의 단어는, 상기 스포츠 이벤트에서의 다른 참가자에 대응하는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  15. 제11항에 있어서, 상기 동일한 헤테로그래프 세트 내에 있는 상기 복수의 단어는 음성학적으로 서로 유사한 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  16. 제11항에 있어서, 상기 제어 회로는 또한, 상기 제1 단어 및 상기 복수의 단어 중 상기 식별된 하나의 단어에 기초하여 추천을 생성하도록 구성되는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  17. 제11항에 있어서, 상기 제어 회로는 또한, 상기 제1 발성이 음성학적으로 상기 제1 단어에 대응한다고 결정함으로써 상기 복수의 발성 중 제1 발성을 상기 제1 단어와 매칭하도록 구성되는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  18. 제11항에 있어서,
    상기 제1 단어는 미디어 자산 내의 배우의 이름이고,
    상기 제어 회로는 또한,
    상기 콘텍스트를 상기 미디어 자산으로 설정하고,
    상기 복수의 단어 중 어느 단어가 상기 미디어 자산에 대응하는지를 결정하도록 구성되며,
    상기 복수의 단어 중 상기 식별된 하나의 단어는 상기 미디어 자산 내의 다른 배우에 대응하는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  19. 제11항에 있어서, 상기 제어 회로는 또한, 상기 복수의 발성 중 2개의 발성 사이의 접속사에 기초하여 상기 콘텍스트를 결정하도록 구성되는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
  20. 제11항에 있어서, 상기 제어 회로는 또한, 상기 제1 단어 및 상기 복수의 단어 중 상기 식별된 하나의 단어에 대응하는 미디어 자산에 대하여 미디어 가이던스 애플리케이션 기능을 수행함으로써 상기 기능을 수행하도록 구성되는 것인 자동으로 음성 인식 에러를 정정하기 위한 시스템.
KR1020227029745A 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법 KR102574333B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237029548A KR20230130761A (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US14/448,308 2014-07-31
US14/448,308 US9721564B2 (en) 2014-07-31 2014-07-31 Systems and methods for performing ASR in the presence of heterographs
KR1020167036970A KR102438752B1 (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법
PCT/US2015/042584 WO2016018981A1 (en) 2014-07-31 2015-07-29 Systems and methods for performing asr in the presence of heterographs

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167036970A Division KR102438752B1 (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237029548A Division KR20230130761A (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220123347A true KR20220123347A (ko) 2022-09-06
KR102574333B1 KR102574333B1 (ko) 2023-09-01

Family

ID=53784025

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020167036970A KR102438752B1 (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법
KR1020237029548A KR20230130761A (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법
KR1020227029745A KR102574333B1 (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020167036970A KR102438752B1 (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법
KR1020237029548A KR20230130761A (ko) 2014-07-31 2015-07-29 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법

Country Status (13)

Country Link
US (1) US9721564B2 (ko)
EP (2) EP3175442B1 (ko)
JP (1) JP6684231B2 (ko)
KR (3) KR102438752B1 (ko)
CN (1) CN106471571A (ko)
AU (1) AU2015296597A1 (ko)
CA (2) CA2954197C (ko)
DK (1) DK3175442T3 (ko)
ES (1) ES2675302T3 (ko)
GB (1) GB2530871B (ko)
MX (1) MX359330B (ko)
PT (2) PT3175442T (ko)
WO (1) WO2016018981A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023541B2 (en) 2014-12-30 2021-06-01 Rovi Guides, Inc. Methods and systems for providing media recommendations based on user location
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10628009B2 (en) 2015-06-26 2020-04-21 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on user profile
US9576578B1 (en) * 2015-08-12 2017-02-21 Google Inc. Contextual improvement of voice query recognition
US10031967B2 (en) 2016-02-29 2018-07-24 Rovi Guides, Inc. Systems and methods for using a trained model for determining whether a query comprising multiple segments relates to an individual query or several queries
US10133735B2 (en) 2016-02-29 2018-11-20 Rovi Guides, Inc. Systems and methods for training a model to determine whether a query with multiple segments comprises multiple distinct commands or a combined command
US20170272825A1 (en) 2016-03-16 2017-09-21 Rovi Guides, Inc. System and method for locating content related to a media asset
US10169470B2 (en) 2016-04-11 2019-01-01 Rovi Guides, Inc. Systems and methods for identifying a meaning of an ambiguous term in a natural language query
US10503832B2 (en) 2016-07-29 2019-12-10 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
US9959864B1 (en) 2016-10-27 2018-05-01 Google Llc Location-based voice query recognition
US10097898B2 (en) 2016-11-21 2018-10-09 Rovi Guides, Inc. Systems and methods for generating for display recommendations that are temporally relevant to activities of a user and are contextually relevant to a portion of a media asset that the user is consuming
US11094317B2 (en) * 2018-07-31 2021-08-17 Samsung Electronics Co., Ltd. System and method for personalized natural language understanding
CN110176237A (zh) * 2019-07-09 2019-08-27 北京金山数字娱乐科技有限公司 一种语音识别方法及装置
US11721322B2 (en) 2020-02-28 2023-08-08 Rovi Guides, Inc. Automated word correction in speech recognition systems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085565A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20070100618A1 (en) * 2005-11-02 2007-05-03 Samsung Electronics Co., Ltd. Apparatus, method, and medium for dialogue speech recognition using topic domain detection
US20070225980A1 (en) * 2006-03-24 2007-09-27 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for recognizing speech
US20080208563A1 (en) * 2007-02-26 2008-08-28 Kazuo Sumita Apparatus and method for translating speech in source language into target language, and computer program product for executing the method
US20140195238A1 (en) * 2011-07-01 2014-07-10 University Of Washington Through Its Center For Commercialization Method and apparatus of confidence measure calculation
US20150161521A1 (en) * 2013-12-06 2015-06-11 Apple Inc. Method for extracting salient dialog usage from live data

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60130798A (ja) * 1983-12-19 1985-07-12 松下電器産業株式会社 音声識別装置
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US6239794B1 (en) 1994-08-31 2001-05-29 E Guide, Inc. Method and system for simultaneously displaying a television program and information about the program
US6388714B1 (en) 1995-10-02 2002-05-14 Starsight Telecast Inc Interactive computer system for providing television schedule information
US6177931B1 (en) 1996-12-19 2001-01-23 Index Systems, Inc. Systems and methods for displaying and recording control interface with television programs, video, advertising information and program scheduling information
US5963957A (en) * 1997-04-28 1999-10-05 Philips Electronics North America Corporation Bibliographic music data base with normalized musical themes
US6182038B1 (en) 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
US6564378B1 (en) 1997-12-08 2003-05-13 United Video Properties, Inc. Program guide system with browsing display
AU765648B2 (en) 1998-03-04 2003-09-25 Rovi Guides, Inc. Program guide system with targeted advertising
US6236968B1 (en) 1998-05-14 2001-05-22 International Business Machines Corporation Sleep prevention dialog based car system
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
ES2342593T3 (es) 1998-07-17 2010-07-09 United Video Properties, Inc. Sistema de guia interactivo de programas de television que tienen multiples dispositivos dentro de una casa.
AR020608A1 (es) 1998-07-17 2002-05-22 United Video Properties Inc Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto
US6269335B1 (en) 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US7165098B1 (en) 1998-11-10 2007-01-16 United Video Properties, Inc. On-line schedule system with personalization features
US6370503B1 (en) 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
KR100896725B1 (ko) 2001-02-21 2009-05-11 유나이티드 비디오 프로퍼티즈, 인크. 복수의 프로그램 가이드 제공 방법, 프로그램 버퍼링 방법 및 시스템
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7818179B2 (en) 2004-11-12 2010-10-19 International Business Machines Corporation Devices and methods providing automated assistance for verbal communication
US20100153885A1 (en) 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
CN101118541B (zh) * 2006-08-03 2011-08-17 苗玉水 汉语语音码汉语语音识别方法
US20080270110A1 (en) 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US9817809B2 (en) 2008-02-22 2017-11-14 Vocera Communications, Inc. System and method for treating homonyms in a speech recognition system
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
US8744860B2 (en) * 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
JP6131249B2 (ja) 2011-06-19 2017-05-17 エムモーダル アイピー エルエルシー コンテキストアウェア認識モデルを使用した音声認識
US8606577B1 (en) 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
US8909526B2 (en) 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9588964B2 (en) * 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US20140122069A1 (en) 2012-10-30 2014-05-01 International Business Machines Corporation Automatic Speech Recognition Accuracy Improvement Through Utilization of Context Analysis
US9189742B2 (en) 2013-11-20 2015-11-17 Justin London Adaptive virtual intelligent agent

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085565A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US20070100618A1 (en) * 2005-11-02 2007-05-03 Samsung Electronics Co., Ltd. Apparatus, method, and medium for dialogue speech recognition using topic domain detection
US20070225980A1 (en) * 2006-03-24 2007-09-27 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for recognizing speech
US20080208563A1 (en) * 2007-02-26 2008-08-28 Kazuo Sumita Apparatus and method for translating speech in source language into target language, and computer program product for executing the method
US20140195238A1 (en) * 2011-07-01 2014-07-10 University Of Washington Through Its Center For Commercialization Method and apparatus of confidence measure calculation
US20150161521A1 (en) * 2013-12-06 2015-06-11 Apple Inc. Method for extracting salient dialog usage from live data

Also Published As

Publication number Publication date
ES2675302T3 (es) 2018-07-10
CN106471571A (zh) 2017-03-01
CA2954197C (en) 2023-03-21
US20160035347A1 (en) 2016-02-04
WO2016018981A1 (en) 2016-02-04
KR102438752B1 (ko) 2022-08-30
GB2530871A (en) 2016-04-06
DK3175442T3 (en) 2018-06-18
US9721564B2 (en) 2017-08-01
AU2015296597A1 (en) 2017-01-12
KR20230130761A (ko) 2023-09-12
CA2954197A1 (en) 2016-02-04
GB201513493D0 (en) 2015-09-16
GB2530871B (en) 2018-11-21
EP3364408A1 (en) 2018-08-22
PT3364408T (pt) 2021-06-14
MX2016017394A (es) 2017-04-27
PT3175442T (pt) 2018-06-19
MX359330B (es) 2018-09-25
KR20170040134A (ko) 2017-04-12
CA3187269A1 (en) 2016-02-04
KR102574333B1 (ko) 2023-09-01
JP6684231B2 (ja) 2020-04-22
JP2017525993A (ja) 2017-09-07
EP3364408B1 (en) 2021-05-19
EP3175442B1 (en) 2018-06-06
EP3175442A1 (en) 2017-06-07

Similar Documents

Publication Publication Date Title
KR102438752B1 (ko) 헤테로그래프의 존재에서 자동 음성 인식을 수행하기 위한 시스템 및 방법
US11792456B2 (en) Systems and methods for managing available bandwidth in a household
JP7439203B2 (ja) 家庭内で話されている言語に対応するコンテンツを識別するためのシステムおよび方法

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant