KR102428911B1 - 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템 - Google Patents

자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR102428911B1
KR102428911B1 KR1020197037888A KR20197037888A KR102428911B1 KR 102428911 B1 KR102428911 B1 KR 102428911B1 KR 1020197037888 A KR1020197037888 A KR 1020197037888A KR 20197037888 A KR20197037888 A KR 20197037888A KR 102428911 B1 KR102428911 B1 KR 102428911B1
Authority
KR
South Korea
Prior art keywords
user
delete delete
time
input
voice
Prior art date
Application number
KR1020197037888A
Other languages
English (en)
Other versions
KR20200010455A (ko
Inventor
아룬 스레드하라
Original Assignee
로비 가이드스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로비 가이드스, 인크. filed Critical 로비 가이드스, 인크.
Priority to KR1020227026541A priority Critical patent/KR20220114094A/ko
Publication of KR20200010455A publication Critical patent/KR20200010455A/ko
Application granted granted Critical
Publication of KR102428911B1 publication Critical patent/KR102428911B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/164Detection; Localisation; Normalisation using holistic features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위한 방법 및 시스템은, 입력에 응답하여 검색 결과가 디스플레이된 때와 제2 음성이 수신된 때 사이의 시간 차이가 임계 시간보다 더 작다는 것을 결정하는 것, 및 결정에 기초하여, 제2 음성에 기초하여 입력을 정정하는 것을 포함한다. 방법 및 시스템은 또한, 입력에 응답하여 검색 결과가 디스플레이된 때와 제2 음성이 수신된 때 사이의, 제1 음성 및 제2 음성을 입력하기 위해 사용되는 유저 입력 디바이스의 가속도에서의 차이가 임계 가속도보다 다 작다는 것을 결정하는 것, 및 결정에 기초하여, 제2 음성에 기초하여 입력을 정정하는 것을 포함한다.

Description

자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
유저는 자동 음성 인식(automatic speech recognition; ASR)에 의해 텍스트로 변환되는 발화된 입력(spoken input)을 사용하여 검색을 개시할 수도 있다. 유저는 또한, 후속하는 발화된 입력을 사용하여 이전의 발화된 입력의 인식에서의 에러를 정정하려고 시도할 수도 있다. 그러나, 유저가 후속하는 발화된 입력을 사용하여 인식 에러를 정정하려고 의도하는지의 여부를 결정하는 것은, 특히, 후속하는 발화된 입력에서, 유저가 후속하는 음성으로 인식 에러를 정정하려고 의도한다는 "No(아니)" 또는 "I meant(나는 ~를 의도했다)"와 같은 어구와 같은 명시적인 표시가 없는 경우, 어려울 수도 있다.
따라서, 유저가 음성으로 입력을 정정하려고 의도하였다는 명시적인 표시가 음성에서 없는 경우, 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 시스템 및 방법이 본원에서 설명된다. 몇몇 실시형태에서, 미디어 안내 애플리케이션(media guidance application)은, 자동 음성 인식을 사용하여 생성되는 입력에서의 에러를, 음성에 기초하여 정정하기 위해 시간에서의 차이를 사용한다. 예를 들면, 유저는 처음에 "Show me shows about Austin(오스틴에 대한 쇼를 보여줘)"이라고 말할 수도 있다. 미디어 안내 애플리케이션은 음성을 "Show me shows about Boston(보스턴에 대한 쇼를 보여줘)"으로 부정확하게 인식하여 Boston에 대한 정보를 포함하는 검색 결과를 제시할 수도 있다. 그러면, 유저는 부정확하게 인식된 "Boston(보스턴)"을 "Austin(오스틴)"으로 정정하려고 의도하여, "Austin"을 말할 수도 있다. 그러한 경우, 검색 결과가 제시된 때로부터 유저가 "Austin"이라고 말하기까지 오랜 시간이 걸리지 않을 수도 있는데, 그 이유는, 검색 결과가 최초 요청되었던 것과 매치하지 않는다는 것이 재빨리 명확해질 수도 있고, 유저가 에러를 정정하려고 시도하기 이전에 검색 결과를 리뷰하는 데 오랜 시간을 소비하지 않을 것이기 때문이다. 다른 한편, 미디어 안내 애플리케이션이 초기 음성을 "Show me shows about Austin"으로 올바르게 인식하고 오스틴에 대한 쇼를 포함하는 검색 결과를 제시하는 경우, 유저는 검색 결과를 리뷰하는 데 오랜 시간이 걸릴 수도 있다. 따라서, 몇몇 실시형태에서, 검색 결과의 제시와 후속하는 발화된 입력 사이의 시간이 긴지 또는 길지 않은지의 여부(즉, 그것이 임계치보다 더 큰지 또는 더 크지 않은지의 여부)는, 유저가, 후속하는 음성으로, 자동 음성 인식을 사용하여 생성되는 입력을 정정하려고 의도하는지의 여부를 나타낼 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여 생성되는 입력에서의 에러를, 음성에 기초하여 정정하기 위해 가속도(acceleration)에서의 차이를 사용한다. 예를 들면, 유저는 처음에 "Show me shows about Austin"이라고 말할 수도 있다. 미디어 안내 애플리케이션은 음성을 "Show me shows about Boston"으로 부정확하게 인식하여 Boston에 대한 정보를 포함하는 검색 결과를 제시할 수도 있다. 그러면, 유저는 부정확하게 인식된 "Boston"을 "Austin"으로 정정하려고 의도하여, "Austin"을 말할 수도 있다. 그러한 경우에, 유저는, 유저 입력 디바이스가 후속하여 발화된 "Austin"을 더욱 정확하게 검출하는 것을 가능하게 하려는 의도를 가지고 그녀/그가 말하고 있는 유저 입력 디바이스를 그의/그녀의 입에 더 가까이 가져갈 수도 있다. 유저 입력 디바이스의 이러한 움직임은, 검색 결과가 제시될 때와 유저가 "Austin"을 말할 때 사이의 유저 입력 디바이스의 가속도에서의 변화로서 검출될 수도 있다. 따라서, 가속도에서의 이러한 변화는, 유저가, 후속하는 음성으로, 자동 음성 인식을 사용하여 생성되는 입력을 정정하려고 의도하는지의 여부를 나타낼 수도 있다.
이들 목적을 위해, 몇몇 양태에서, 미디어 안내 애플리케이션은, 유저가 음성으로 입력을 정정하려고 의도하였다는 명시적인 표시가 음성에서 없는 경우, 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정한다. 구체적으로, 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 음성을 수신한다. 제1 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 예를 들면, 제1 음성은 "Show me shows about Austin"일 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제1 음성에 기초하여 제1 입력을 결정한다. 예를 들면, 제1 음성이 "Show me shows about Austin"인 경우, 미디어 안내 애플리케이션은 제1 입력을 "Show me shows about Boston"인 것으로 결정할 수도 있고, 그에 의해, 제1 음성에서의 "Austin"을 "Boston"으로 부정확하게 인식할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 데이터베이스로부터, 제1 입력에 기초하여 검색 결과를 리트리브(retrieve)한다. 데이터베이스는, 예를 들면, 정보 저장소를 포함할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과를 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"인 경우, 미디어 안내 애플리케이션은 Boston에서 진행되는 TV 프로그램 Fringe(프린지)에 대한 목록을 리트리브하여 디스플레이를 위해 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과가 생성된 제1 시간을 결정한다. 예를 들면, 미디어 안내 애플리케이션은, 디스플레이 스크린의 픽셀로 송신되는 신호가 제1 시간에 후속하여 처음으로 변경되는 시간을 검출하는 것에 의해 제1 시간을 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성을 수신하는 것에 후속하여, 유저 입력 디바이스를 통해, 제2 음성을 수신한다. 제2 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제2 음성은, 미디어 안내 애플리케이션에 의해 부정확하게 인식된 제1 입력의 일부분을 정정하도록 유저에 의해 의도될 수도 있다. 예를 들면, 검색 결과에 Boston에 대한 쇼를 포함하는 경우, 유저는 미디어 안내 애플리케이션이 제1 음성("Show me shows about Austin")에 응답하여 제1 입력으로서 "Show me shows about Boston"을 부정확하게 생성하였다는 것을 결정할 수도 있다.
따라서, 제2 음성은 "Austin"일 수도 있는데, 이 경우, 유저는 "Boston"을 "Austin"으로 정정하려고 의도한다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제2 음성에 기초하여 제2 입력을 결정한다. 예를 들면, 제2 음성이 "Austin"인 경우, 미디어 안내 애플리케이션은 제2 입력이 "Austin"인 것으로 결정할 수도 있고, 그에 의해, 제2 음성에서 "Austin"을 정확하게 인식할 수도 있게 된다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 음성이 수신된 제2 시간을 결정한다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간에 후속하여 가장 빠른 발음이 발생한 시간을 측정하는 것에 의해 제2 시간을 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 시간과 제1 시간 사이의 시간 차이를 임계 시간에 비교한다. 예를 들면, 제1 시간이 10:00:00 AM이고 제2 시간이 10:00:10 AM인 경우, 미디어 안내 애플리케이션은 시간 차이를 10 초인 것으로 계산할 수도 있다.
몇몇 실시형태에서, 제2 시간과 제1 시간 사이의 시간 차이를 임계 시간에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은, 제2 시간과 제1 시간 사이의 시간 차이가 임계 시간보다 더 작다는 것을 결정한다. 예를 들면, 시간 차이가 10 초이고 임계 시간이 20 초인 경우, 미디어 안내 애플리케이션은 시간 차이가 임계 시간보다 더 작다는 것을 결정할 수도 있다.
몇몇 실시형태에서, 제2 시간과 제1 시간 사이의 시간 차이가 임계 시간보다 더 작다는 것을 결정하는 것에 기초하여, 미디어 안내 애플리케이션은, 제1 입력의 일부분을 제2 입력의 일부분으로 대체하는 것에 의해 제1 입력에 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은 "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 제1 시간과 제2 시간 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 시간 차이가 임계 시간보다 더 작은 것 및 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 수신되지 않은 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 제1 시간과 제2 시간 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것은, 검색 결과를 스크롤하기 위한, 검색 결과의 설명을 읽기 위한, 검색 결과를 열기 위한, 또는 검색 결과를 재생하기 위한 어떠한 입력도, 제1 시간과 제2 시간 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것을 포함한다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간과 제2 시간 사이에, 유저의 얼굴의 이미지를 캡쳐한다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하기 위해, 미디어 안내 애플리케이션은, 얼굴 인식 기술을 사용하여 유저의 얼굴의 이미지를 분석하여, 분노 및 슬픔과 같은 표정을 검출할 수도 있다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 시간 차이가 임계 시간보다 더 작은 것 및 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성이 수신되고 있는 동안, 유저 입력 디바이스를 통해, 유저의 얼굴의 제1 이미지를 캡쳐하고, 제1 이미지에서의 유저의 얼굴의 제1 상대적 사이즈를 결정한다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제2 음성이 수신되고 있는 동안, 유저 입력 디바이스를 통해, 유저의 얼굴의 제2 이미지를 캡쳐하고, 제2 이미지에서의 유저의 얼굴의 제2 상대적 사이즈를 결정한다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, 이미지에서 유저의 얼굴에 의해 점유되는 픽셀의 수를 카운트하는 것에 의해 이미지에서의 유저의 얼굴의 상대적 사이즈를 계산할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저의 얼굴의 제1 상대적 사이즈와 유저의 얼굴의 제2 상대적 사이즈 사이의 상대적 사이즈 차이를 임계 상대적 사이즈(threshold relative size)에 비교한다. 예를 들면, 제1 상대적 사이즈가 3 메가픽셀이고 제2 상대적 사이즈가 4 메가픽셀인 경우, 미디어 안내 애플리케이션은 상대적 사이즈 차이를 1 메가픽셀인 것으로 계산할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저의 얼굴의 제1 상대적 사이즈와 유저의 얼굴의 제2 상대적 사이즈 사이의 상대적 사이즈 차이를 임계 상대적 사이즈에 비교하는 것에 기초하여, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정한다. 예를 들면, 상대적 사이즈 차이가 1 메가픽셀이고 임계 상대적 사이즈가 0.5 메가픽셀인 경우, 미디어 안내 애플리케이션은 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 시간 차이가 임계 시간보다 더 작은 것 및 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 큰 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 시간과 제1 시간 사이의 시간 차이를 다른 임계 시간에 비교하고, 제2 시간과 제1 시간 사이의 시간 차이를 다른 임계 시간에 비교하는 것에 기초하여, 제2 시간과 제1 시간 사이의 시간 차이가 다른 임계 시간보다 더 크다는 것을 결정한다. 예를 들면, 시간 차이가 10 초이고 다른 임계 시간이 2 초인 경우, 미디어 안내 애플리케이션은 시간 차이가 다른 임계 시간보다 더 크다는 것을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제2 시간과 제1 시간 사이의 시간 차이가 다른 임계 시간보다 더 크다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 시간 차이가 임계 시간보다 더 작은 것 및 시간 차이가 다른 임계 시간보다 더 큰 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저와 관련되는 입력 사이의 평균 시간에 기초하여 임계 시간을 조정한다. 예를 들면, 미디어 안내 애플리케이션은 임계 시간을 디폴트 값으로 설정하고 평균 시간에 기초하여 임계 시간을 조정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은 평균 시간의 범위와 관련되는 양만큼 임계 시간을 조정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은 평균 시간에 비례하는 양만큼 임계 시간을 조정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 기준 환경 노이즈 레벨(baseline environmental noise level)을 측정한다. 예를 들면, 기준 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 유저가 어떠한 입력도 말하고 있지 않을 때 기준 오디오 녹음(baseline audio recording)을 캡쳐할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은 기준 오디오 녹음에서의 평균 전력으로서 기준 환경 노이즈 레벨을 측정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 음성이 수신되고 있는 동안 환경 노이즈 레벨을 측정한다. 예를 들면, 제1 음성이 수신되고 있는 동안 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 제1 음성이 수신되고 있을 때 오디오 녹음을 캡쳐하고, 오디오 녹음에서 목소리(vocal)를 필터링하고, 이 오디오 녹음에서 나머지 신호의 평균 전력을 측정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교한다. 예를 들면, 환경 노이즈 레벨 차이가 0.1 mW이고 임계 환경 노이즈 레벨이 0.01 mW인 경우, 미디어 안내 애플리케이션은 0.1 mW를 0.01 mW에 비교할 수도 있다. 몇몇 실시형태에서, 제1 음성이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 것을 결정한다. 예를 들면, 환경 노이즈 레벨 차이가 0.1 mW이고 임계 환경 노이즈 레벨이 0.01 mW인 경우, 미디어 안내 애플리케이션은, 0.1 mW가 0.01 mW보다 더 크다는 것을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내는, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 시간 차이가 임계 시간보다 더 작은 것 및 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 큰 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간에 후속하여 가장 빠른 발음이 발생한 시간을 측정하는 것에 의해 제2 시간을 결정한다. 예를 들면, 미디어 안내 애플리케이션이 검색 결과를 10:00:00 AM에 디스플레이를 위해 생성하였고, 유저로부터의 다음 발음이 "Austin"인 경우, 미디어 안내 애플리케이션은, "Austin"에서의 처음 "Au" 사운드가 10:00:10 AM에 발생하였다는 것을 측정할 수도 있고, 10:00:10 AM을 제2 시간인 것으로 간주할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 디스플레이 스크린의 픽셀로 송신되는 신호가 제1 시간에 후속하여 처음으로 변경되는 시간을 검출하는 것에 의해 제1 시간을 결정한다. 예를 들면, 디스플레이 스크린의 픽셀로 송신되는 신호는, 디스플레이 스크린으로 하여금 변하게, 예를 들면, 새로운 아이템을 디스플레이하게 할 수도 있다. 예를 들면, 일단 검색 결과가 리트리브되고 디스플레이 스크린 상에서 디스플레이될 준비가 되면, 디스플레이 스크린의 픽셀로 송신될 신호는 검색 결과를 디스플레이하기 위해 변경될 수도 있다. 제1 음성이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은 검색 결과가 디스플레이되는 것을 나타낼 수도 있다. 따라서, 제1 음성이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은 제1 시간으로 간주될 수 있다.
몇몇 양태에서, 미디어 안내 애플리케이션은, 유저가 음성으로 입력을 정정하려고 의도하였다는 명시적인 표시가 음성에서 없는 경우, 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정한다. 구체적으로, 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 음성을 수신한다. 제1 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 예를 들면, 제1 음성은 "Show me shows about Austin"일 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제1 음성에 기초하여 제1 입력을 결정한다. 예를 들면, 제1 음성이 "Show me shows about Austin"인 경우, 미디어 안내 애플리케이션은 제1 입력을 "Show me shows about Boston"인 것으로 결정할 수도 있고, 그에 의해, 제1 음성에서의 "Austin"을 "Boston"으로 부정확하게 인식할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 데이터베이스로부터, 제1 입력에 기초한 검색 결과를 리트리브한다. 데이터베이스는, 예를 들면, 정보 저장소를 포함할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과를 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"인 경우, 미디어 안내 애플리케이션은 Boston에서 진행되는 TV 프로그램 Fringe에 대한 목록을 리트리브하여 디스플레이를 위해 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과가 생성된 제1 시간을 결정한다. 예를 들면, 미디어 안내 애플리케이션은, 디스플레이 스크린의 픽셀로 송신되는 신호가 제1 시간에 후속하여 처음으로 변경되는 시간을 검출하는 것에 의해 제1 시간을 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간에서의 유저 입력 디바이스의 제1 가속도를 측정한다. 예를 들면, 제1 시간에 유저 입력 디바이스가 거의 움직이지 않는 경우, 제1 가속도는 0 m/s2일 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성을 수신하는 것에 후속하여, 유저 입력 디바이스를 통해, 제2 음성을 수신한다. 제2 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제2 음성은, 미디어 안내 애플리케이션에 의해 부정확하게 인식된 제1 입력의 일부분을 정정하도록 유저에 의해 의도될 수도 있다. 예를 들면, 검색 결과에 Boston에 대한 쇼를 포함하는 경우, 유저는 미디어 안내 애플리케이션이 제1 음성("Show me shows about Austin")에 응답하여 제1 입력으로서 "Show me shows about Boston"을 부정확하게 생성하였다는 것을 결정할 수도 있다. 따라서, 제2 음성은 "Austin"일 수도 있는데, 이 경우, 유저는 "Boston"을 "Austin"으로 정정하려고 의도한다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제2 음성에 기초하여 제2 입력을 결정한다. 예를 들면, 제2 음성이 "Austin"인 경우, 미디어 안내 애플리케이션은 제2 입력이 "Austin"인 것으로 결정할 수도 있고, 그에 의해, 제2 음성에서 "Austin"을 정확하게 인식할 수도 있게 된다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 음성이 수신된 제2 시간을 결정한다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간에 후속하여 가장 빠른 발음이 발생한 시간을 측정하는 것에 의해 제2 시간을 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간과 제2 시간 사이의 유저 입력 디바이스의 제2 가속도를 측정한다. 예를 들면, 유저 입력 디바이스가 제1 시간과 제2 시간 사이에 1 m/s의 속도로 이동한 경우, 제2 가속도는 1 m/s2일 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 가속도와 제1 가속도 사이의 가속도에서의 차이를 결정한다. 예를 들면, 제1 가속도가 0 m/s2이고 제2 가속도가 1 m/s2인 경우, 가속도에서의 차이는 1 m/s2일 수도 있다.
몇몇 실시형태에서, 제2 가속도와 제1 가속도 사이의 가속도에서의 차이를 결정하는 것에 기초하여, 미디어 안내 애플리케이션은 가속도에서의 차이를 임계 가속도에 비교한다. 예를 들면, 가속도에서의 차이가 1 m/s2이고 임계 가속도가 0.25 m/s2인 경우, 미디어 안내 애플리케이션은 1 m/s2를 0.25 m/s2에 비교할 수도 있다.
몇몇 실시형태에서, 가속도에서의 차이를 임계 가속도에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은, 가속도에서의 차이가 임계 가속도보다 더 크다는 것을 결정한다. 예를 들면, 가속도에서의 차이가 1 m/s2이고 임계 가속도가 0.25 m/s2인 경우, 미디어 안내 애플리케이션은, 1 m/s2가 0.25 m/s2보다 더 크다는 것을 결정할 수도 있다.
몇몇 실시형태에서, 가속도에서의 차이가 임계 가속도보다 더 크다는 것을 결정하는 것에 기초하여, 미디어 안내 애플리케이션은, 제1 입력의 일부분을 제2 입력의 일부분으로 대체하는 것에 의해 제1 입력에 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은 "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 제1 시간과 제2 시간 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 가속도에서의 차이가 임계 가속도보다 더 크다는 것 및 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 수신되지 않은 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 제1 시간과 제2 시간 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것은, 검색 결과를 스크롤하기 위한, 검색 결과의 설명을 읽기 위한, 검색 결과를 열기 위한, 또는 검색 결과를 재생하기 위한 어떠한 입력도, 제1 시간과 제2 시간 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것을 포함한다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간과 제2 시간 사이에, 유저의 얼굴의 이미지를 캡쳐한다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하기 위해, 미디어 안내 애플리케이션은, 얼굴 인식 기술을 사용하여 유저의 얼굴의 이미지를 분석하여, 분노 및 슬픔과 같은 표정을 검출할 수도 있다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 가속도에서의 차이가 임계 가속도보다 더 크다는 것 및 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제1 음성이 수신되고 있는 동안, 유저 입력 디바이스를 통해, 유저의 얼굴의 제1 이미지를 캡쳐하고, 제1 이미지에서의 유저의 얼굴의 제1 상대적 사이즈를 결정한다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제2 음성이 수신되고 있는 동안, 유저 입력 디바이스를 통해, 유저의 얼굴의 제2 이미지를 캡쳐하고, 제2 이미지에서의 유저의 얼굴의 제2 상대적 사이즈를 결정한다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, 이미지에서 유저의 얼굴에 의해 점유되는 픽셀의 수를 카운트하는 것에 의해 이미지에서의 유저의 얼굴의 상대적 사이즈를 계산할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저의 얼굴의 제1 상대적 사이즈와 유저의 얼굴의 제2 상대적 사이즈 사이의 상대적 사이즈 차이를 임계 상대적 사이즈에 비교한다. 예를 들면, 제1 상대적 사이즈가 3 메가픽셀이고 제2 상대적 사이즈가 4 메가픽셀인 경우, 미디어 안내 애플리케이션은 상대적 사이즈 차이를 1 메가픽셀인 것으로 계산할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저의 얼굴의 제1 상대적 사이즈와 유저의 얼굴의 제2 상대적 사이즈 사이의 상대적 사이즈 차이를 임계 상대적 사이즈에 비교하는 것에 기초하여, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정한다. 예를 들면, 상대적 사이즈 차이가 1 메가픽셀이고 임계 상대적 사이즈가 0.5 메가픽셀인 경우, 미디어 안내 애플리케이션은 1 메가픽셀이 0.5 메가픽셀보다 더 크다는 것을 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 가속도에서의 차이가 임계 가속도보다 더 크다는 것 및 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 큰 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 기준 환경 노이즈 레벨을 측정한다. 예를 들면, 기준 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 유저가 어떠한 입력도 말하고 있지 않을 때 기준 오디오 녹음을 캡쳐할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은 기준 오디오 녹음에서의 평균 전력으로서 기준 환경 노이즈 레벨을 측정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 음성이 수신되고 있는 동안 환경 노이즈 레벨을 측정한다. 예를 들면, 제1 음성이 수신되고 있는 동안 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 제1 음성이 수신되고 있을 때 오디오 녹음을 캡쳐하고, 오디오 녹음에서 목소리를 필터링하고, 이 오디오 녹음에서 나머지 신호의 평균 전력을 측정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교한다. 예를 들면, 환경 노이즈 레벨 차이가 0.1 mW이고 임계 환경 노이즈 레벨이 0.01 mW인 경우, 미디어 안내 애플리케이션은 0.1 mW를 0.01 mW에 비교할 수도 있다. 몇몇 실시형태에서, 제1 음성이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 것을 결정한다. 예를 들면, 환경 노이즈 레벨 차이가 0.1 mW이고 임계 환경 노이즈 레벨이 0.01 mW인 경우, 미디어 안내 애플리케이션은, 0.1 mW가 0.01 mW보다 더 크다는 것을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내는, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 것을 결정하는 것에 또한 기초하여 정정된 입력을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은, 가속도에서의 차이가 임계 가속도보다 더 크다는 것 및 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 큰 것에 기초하여, "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간에 후속하여 가장 빠른 발음이 발생한 시간을 측정하는 것에 의해 제2 시간을 결정한다. 예를 들면, 미디어 안내 애플리케이션이 검색 결과를 10:00:00 AM에 디스플레이를 위해 생성하였고, 유저로부터의 다음 발음이 "Austin"인 경우, 미디어 안내 애플리케이션은, "Austin"에서의 처음 "Au" 사운드가 10:00:10 AM에 발생하였다는 것을 측정할 수도 있고, 10:00:10 AM을 제2 시간인 것으로 간주할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 디스플레이 스크린의 픽셀로 송신되는 신호가 제1 시간에 후속하여 처음으로 변경되는 시간을 검출하는 것에 의해 제1 시간을 결정한다. 예를 들면, 디스플레이 스크린의 픽셀로 송신되는 신호는, 디스플레이 스크린으로 하여금 변하게, 예를 들면, 새로운 아이템을 디스플레이하게 할 수도 있다. 예를 들면, 일단 검색 결과가 리트리브되고 디스플레이 스크린 상에서 디스플레이될 준비가 되면, 디스플레이 스크린의 픽셀로 송신될 신호는 검색 결과를 디스플레이하기 위해 변경될 수도 있다. 제1 음성이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은 검색 결과가 디스플레이되는 것을 나타낼 수도 있다. 따라서, 제1 음성이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은 제1 시간으로 간주될 수 있다.
몇몇 실시형태에서, 유저 입력 디바이스는 가속도계를 포함하는 이동 전화이다. 예를 들면, 이동 전화는 스마트폰일 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 태블릿이다.
몇몇 실시형태에서, 제2 가속도를 측정하는 것은, 제1 시간과 제2 시간 사이의 유저 입력 디바이스의 최대 가속도를 측정하는 것을 포함한다. 예를 들면, 유저 입력 디바이스의 가속도가 제1 시간과 제2 시간 사이에 0 m/s2로부터 0.75 m/s2의 최대치까지 상승하면, 제2 가속도는 0.75 m/s2일 수도 있다.
종래의 시스템은, 후속하는 음성에서 "No" 또는 "I meant"와 같은 어구를 검출하는 것에 의해 자동 음성 인식을 사용하여 생성되는 입력을 후속하는 음성에 기초하여 정정할 수도 있다. 이들 어구는, 유저가 후속하는 음성으로 입력을 정정하려고 의도한다는 명시적 표시로서 역할을 할 수 있다. 그러한 어구가 없으면, 새로운 검색을 시작하는 것 또는 이전 검색으로부터의 결과를 필터링하는 것과는 대조적으로, 유저가 후속하는 음성으로 입력을 정정하려고 의도하는지의 여부를 결정하는 것은 어려울 수 있다. 설명되는 시스템 및 방법은 "No" 또는 "I meant"와 같은 어구 외에, 다른 표시를 사용하여, 유저가 후속하는 음성으로 입력을 정정하려고 의도하는지의 여부를 결정한다. 예를 들면, 결과의 표현과 후속하는 음성 사이의 시간 차이, 및 결과의 표현과 후속하는 음성 사이의 유저 입력 디바이스의 가속도에서의 차이는, 유저가 후속하는 음성으로 입력을 정정하려고 의도하는지의 여부를 결정하기 위해 사용될 수 있다.
상기에서 설명되는 시스템 및/또는 방법은, 본 개시에서 설명되는 다른 시스템, 방법 및/또는 장치에 적용될 수도 있거나, 또는 본 개시에서 설명되는 다른 시스템, 방법 및/또는 장치에 따라 사용될 수도 있다는 것을 유의해야 한다.
본 개시의 상기 및 다른 목적 및 이점은, 첨부된 도면과 연계하여 취해지는 다음의 상세한 설명의 고려시, 명백할 것인데, 첨부의 도면에서, 같은 참조 문자는 전체에 걸쳐 같은 부분을 나타내며, 첨부의 도면에서:
도 1은, 본 개시의 몇몇 실시형태에 따른, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여, 미디어 안내 애플리케이션이 어떻게 정정할 수 있는지의 예시적인 예를 도시한다;
도 2은, 본 개시의 몇몇 실시형태에 따른, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여, 미디어 안내 애플리케이션이 어떻게 정정할 수 있는지의 예시적인 예를 도시한다;
도 3은, 본 개시의 몇몇 실시형태에 따른, 미디어 안내 애플리케이션 목록(media guidance application listing) 및 다른 미디어 안내 정보를 제공하기 위해 사용될 수도 있는 디스플레이 스크린의 예시적인 실시형태를 도시한다;
도 4는, 본 개시의 몇몇 실시형태에 따른, 미디어 안내 애플리케이션 목록을 제공하기 위해 사용될 수도 있는 디스플레이 스크린의 다른 예시적인 실시형태를 도시한다;
도 5는, 본 개시의 몇몇 실시형태에 따른, 예시적인 유저 기기(user equipment; UE) 디바이스의 블록도를 도시한다;
도 6은, 본 개시의 몇몇 실시형태에 따른, 예시적인 미디어 시스템의 블록도를 도시한다;
도 7은, 본 개시의 몇몇 실시형태에 따른, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위한 프로세스의 예시적인 플로우차트를 묘사한다;
도 8은, 본 개시의 몇몇 실시형태에 따른, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위한 프로세스의 예시적인 플로우차트를 묘사한다;
도 9는, 본 개시의 몇몇 실시형태에 따른, 이미지에서 얼굴의 상대적 사이즈를 결정하는 예시적인 예를 도시한다; 그리고
도 10은, 본 개시의 몇몇 실시형태에 따른, 이미지에서 얼굴의 상대적 사이즈를 결정하기 위한 프로세스에 대한 의사 코드(pseudocode)의 예를 도시한다.
유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위한 방법 및 시스템은, 입력에 응답하여 검색 결과가 디스플레이된 때와 제2 음성이 수신된 때 사이의 시간 차이가 임계 시간보다 더 작다는 것을 결정하는 것, 및 결정에 기초하여, 제2 음성에 기초하여 입력을 정정하는 것을 포함한다. 방법 및 시스템은 또한, 입력에 응답하여 검색 결과가 디스플레이된 때와 제2 음성이 수신된 때 사이의, 제1 음성 및 제2 음성을 입력하기 위해 사용되는 유저 입력 디바이스의 가속도에서의 차이가 임계 가속도보다 다 작다는 것을 결정하는 것, 및 결정에 기초하여, 제2 음성에 기초하여 입력을 정정하는 것을 포함한다.
예를 들면, 유저가 "Show me shows about Austin"이라고 말하고 (미디어 안내 애플리케이션이 "Austin"을 "Boston"으로 부정확하게 인식했기 때문에) 미디어 안내 애플리케이션이 Boston에 대한 쇼를 포함하는 검색 결과를 제시하면, 유저는 재빨리 "Austin"을 말할 수도 있다. 미디어 안내 애플리케이션은, 검색 결과가 제시된 이후, 유저가 "Austin"을 얼마나 빨리 말했는지에 기초하여, 유저가 "Austin"을 말하는 것에 의해 부정확하게 인식된 "Boston"을 정정하려고 의도하였다는 것을 결정할 수도 있다. 인식 에러가 없는 경우, 유저는 검색 결과를 리뷰하는 데 더 긴 시간이 걸렸을 수도 있다. 다른 예로서, 유저가 유저 입력 디바이스(예를 들면, 이동 전화)에 "Show me shows about Austin"이라고 말하고 (미디어 안내 애플리케이션이 "Austin"을 "Boston"으로 부정확하게 인식했기 때문에) 미디어 안내 애플리케이션이 Boston에 대한 쇼를 포함하는 검색 결과를 제시하는 경우, 유저는 정확한 음성 인식을 돕기 위한 시도에서, 유저 입력 디바이스를 그의/그녀의 입에 더 가까이 가져간 이후 "Austin"이라고 말할 수도 있다. 유저의 입에 더 가까이 가져갈 때의 유저 입력 디바이스의 가속도는, "Austin"이라고 말하는 것에 의해 유저가 부정확하게 인식된 "Boston"을 정정하려고 의도하였다는 것을 결정하기 위해 미디어 안내 애플리케이션에 의해 사용될 수 있다.
도 1은, 유저가 제2 음성(116)으로 제1 입력(108)을 정정하려고 의도하였다는 명시적 표시가 제2 음성에서 없는 경우, 자동 음성 인식을 사용하여 제1 음성(106)으로부터 생성되는 제1 입력(108)에서의 에러를, 후속하는 제2 음성(116)에 기초하여, 미디어 안내 애플리케이션이 어떻게 정정할 수 있는지의 예시적인 예를 도시한다. 도 1은 세 개의 시간(104, 110 및 114)이 마킹된 시간 축(102)을 포함한다. 시간(104)에, 유저는 제1 음성(106)을 말하는데, 이것은 도 1의 예에서 "Show me shows about Austin"이다. 미디어 안내 애플리케이션은 자동 음성 인식을 사용하여 제1 입력(108)을 생성할 수도 있는데, 제1 입력(108)은 도 1의 예에서 제1 음성(106)에 기초하여 "Show me shows about Boston"이다. 따라서, 도 1의 예에서, 미디어 안내 애플리케이션은 제1 음성(106)에서 "Austin"을 "Boston"으로 부정확하게 인식하였다. 제1 시간(110)에, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과(112)를 생성하는 것에 의해 제1 입력(108)에 응답하는데, 검색 결과(112)는 도 1의 예에서 Boston에 대해 도시한다. 제2 시간(114)에, 유저는 제2 음성(116)을 말하는데, 제2 음성(116)은 도 1의 예에서 "Austin"이다. 미디어 안내 애플리케이션은 자동 음성 인식을 사용하여 제2 입력(120)을 생성할 수도 있는데, 제2 입력(120)은 도 1의 예에서 제2 음성(116)에 기초하여 "Austin"이다. 따라서, 도 1의 예에서, 미디어 안내 애플리케이션은 제2 음성(116)에서 "Austin"을 정확하게 인식하였다. 제2 음성(116)을 말하는 것에 의해, 유저는 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 시도하고 있을 수도 있다. 도 1의 예에서, 유저는, 제2 음성(116)의 "Austin"으로, 제1 음성(106)으로부터 부정확하게 생성된 제1 입력(108)에서의 "Boston"을 정정하려고 시도하고 있을 수도 있다. 그러나, 제2 음성(116)은, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도하는지의 여부 또는 유저가, 예를 들면, 새로운 검색을 시작하려고 또는 이전에 제시된 검색 결과(112)를 필터링하려고 의도하는지의 여부의 명시적 표시가 없을 수도 있다. 예를 들면, 도 1에서, 제2 음성(116)은, 유저가 "Boston"을 "Austin"으로 정정하려고 의도한다는 명시적 표시를 나타낼 수도 있는 "No" 또는 "I meant"와 같은 어구가 없을 수도 있다. 이러한 모호성을 해결하기 위해, 미디어 안내 애플리케이션은, 유저가 제2 음성(116)(도 1의 예에서는 "Austin")을 말하는 제2 시간(114)과 미디어 안내 애플리케이션이 디스플레이를 위해 검색 결과(112)(도 1의 예에서, Boston에 대해 도시함)를 생성한 제1 시간(110) 사이의 시간 차이(118)를 계산할 수도 있다. 미디어 안내 애플리케이션은 시간 차이(118)를 임계 시간에 비교할 수도 있고, 시간 차이(118)가 임계 시간보다 더 작으면, 유저가 제2 음성(116)으로 제1 입력(108)을 정정하려고 의도하였다는 것을 예측한다. 따라서, 미디어 안내 애플리케이션은 제1 입력(108)의 일부분을 제2 입력(120)의 일부분으로 대체하는 것에 의해 제1 입력(108)에 기초하여 정정된 입력(122)을 생성할 수도 있다. 도 1에서, 예를 들면, 미디어 안내 애플리케이션은 정정된 입력(122)을 생성하기 위해 제1 입력(108)에서의 "Boston"을 제2 입력(120)으로부터의 "Austin"으로 대체할 수도 있다.
유저가 제2 음성(116)(도 1의 예에서는 "Austin")을 말하는 제2 시간(114)과 제1 시간(110), 즉, 미디어 안내 애플리케이션이 검색 결과(112)(도 1의 예에서, Boston에 대해 도시함)를 제시한 시간 사이의 시간 차이(118)를 계산하는 것은 도움이 될 수도 있는데, 그 이유는, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고(도 1의 예에서는, "Austin"으로 "Boston"을 정정하려고) 의도하였는지의 여부를, 시간 차이(118)가 나타낼 수도 있기 때문이다. 제1 입력(108)에서 에러가 없다면, 제1 입력(108)에서 에러가 있는 경우보다, 제1 시간(110)에 디스플레이를 위해 검색 결과(112)가 생성된 이후 유저가 후속하는 입력을 말하는 데 더 긴 시간이 걸릴 수도 있다. 도 1의 예에서, "Boston"이 정확하게 인식된 경우, 유저는, 검색 결과(112)를 스크롤하고, 검색 결과(112)의 설명을 읽고, 검색 결과(112)를 열고, 검색 결과(112)를 재생하고, 등등을 하는 데 오랜 시간(즉, 임계 시간보다 더 오랜 시간)이 걸릴 수도 있다. 그러나, "Boston"이 부정확하게 인식되었다면, 유저는 짧은 시간(즉, 임계 시간보다 더 작은 시간)에 검색 결과(112)가 제1 음성(106)에서 요청되었던 것과 매치하지 않는다는 것을, 즉, 오스틴에 대해 보여주지 않는다는 것을 인식할 수도 있다. 따라서, 유저는 검색 결과(112)를 스크롤하고, 검색 결과(112)의 설명을 읽고, 검색 결과(112)를 열고, 검색 결과(112)를 재생하고, 등등을 하는 데 오랜 시간이 걸리지 않을 수도 있다. 대신, 유저는 검색 결과(112)를 본 이후 제1 입력(108)에서의 에러를 정정하기 위해 제2 음성(116)을 매우 빨리(즉, 임계 시간보다 더 작은 시간) 말할 수도 있다. 따라서, 시간 차이(118)를 임계 시간에 비교하는 것은 유저가 제2 음성(116)으로 제1 입력(108)을 정정하려고 의도하였는지의 여부를 나타낼 수 있다.
도 2은, 유저가 제2 음성(216)으로 제1 입력(208)을 정정하려고 의도하였다는 명시적 표시가 제2 음성(216)에서 없는 경우, 자동 음성 인식을 사용하여 제1 음성(206)으로부터 생성되는 제1 입력(208)에서의 에러를, 후속하는 제2 음성(216)에 기초하여, 미디어 안내 애플리케이션이 어떻게 정정할 수 있는지의 예시적인 예를 도시한다. 도 2는 세 개의 시간(204, 210 및 214)이 마킹된 시간 축(202)을 포함한다. 도 2는 또한, 두 개의 가속도인 제1 가속도(213) 및 제2 가속도(217)가 마킹된, 유저의 음성을 수신하는 유저 입력 디바이스의 가속도를 나타내는 가속도 축(203)을 포함한다. 가속도 축(204) 상에서 도시되는 가속도는 3 차원 공간에서 단일의 방향에서의 유저 입력 디바이스의 가속도일 수도 있다. 시간(204)에, 유저는 제1 음성(206)을 말하는데, 이것은 도 1의 예에서 "Show me shows about Austin"이다. 미디어 안내 애플리케이션은 자동 음성 인식을 사용하여 제1 입력(208)을 생성할 수도 있는데, 제1 입력(208)은 도 2의 예에서 제1 음성(206)에 기초하여 "Show me shows about Boston"이다. 따라서, 도 2의 예에서, 미디어 안내 애플리케이션은 제1 음성(206)에서 "Austin"을 "Boston"으로 부정확하게 인식하였다. 제1 시간(210)에, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과(212)를 생성하는 것에 의해 제1 입력(208)에 응답하는데, 검색 결과(212)는 도 2의 예에서 Boston에 대해 도시한다. 제2 시간(214)에, 유저는 제2 음성(216)을 말하는데, 제2 음성(216)은 도 2의 예에서 "Austin"이다. 미디어 안내 애플리케이션은 자동 음성 인식을 사용하여 제2 입력(220)을 생성할 수도 있는데, 제2 입력(220)은 도 2의 예에서 제2 음성(216)에 기초하여 "Austin"이다. 제2 음성(216)을 말하는 것에 의해, 유저는 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 시도하고 있을 수도 있다. 도 2의 예에서, 유저는, 제2 음성(216)의 "Austin"으로, 제1 음성(206)으로부터 부정확하게 생성된 제1 입력(208)에서의 "Boston"을 정정하려고 시도하고 있을 수도 있다. 그러나, 제2 음성(216)은, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도하는지의 여부 또는 유저가, 예를 들면, 새로운 검색을 시작하려고 또는 이전에 제시된 검색 결과(212)를 필터링하려고 의도하는지의 여부의 명시적 표시가 없을 수도 있다. 예를 들면, 도 2에서, 제2 음성(216)은, 유저가 "Boston"을 "Austin"으로 정정하려고 의도한다는 명시적 표시를 나타낼 수도 있는 "No" 또는 "I meant"와 같은 어구가 없을 수도 있다. 이러한 모호성을 해결하기 위해, 미디어 안내 애플리케이션은, 유저가 제2 음성(216)(도 2의 예에서는 "Austin")을 말하는 제2 시간(214)과 미디어 안내 애플리케이션이 디스플레이를 위해 검색 결과(212)(도 2의 예에서, Boston에 대해 도시함)를 생성한 제1 시간(210) 사이의 유저 입력 디바이스의 가속도(218)에서의 차이를 계산할 수도 있다. 예를 들면, 도 2에서, 미디어 안내 애플리케이션은 제2 가속도(217)와 제1 가속도(213) 사이의 가속도(218)에서의 차이를 계산할 수도 있다. 미디어 안내 애플리케이션은 가속도(218)에서의 차이를 임계 가속도에 비교할 수도 있고, 가속도(218)에서의 차이가 임계 가속도보다 더 큰 경우, 유저가 제2 음성(216)으로 제1 입력(208)을 정정하려고 의도하였다는 것을 예측한다. 따라서, 미디어 안내 애플리케이션은 제1 입력(208)의 일부분을 제2 입력(220)의 일부분으로 대체하는 것에 의해 제1 입력(208) 및 제2 입력(220)에 기초하여 정정된 입력(222)을 생성할 수도 있다. 도 2에서, 예를 들면, 미디어 안내 애플리케이션은 정정된 입력(222)을 생성하기 위해 제1 입력(208)에서의 "Boston"을 제2 입력(220)으로부터의 "Austin"으로 대체할 수도 있다.
유저가 제2 음성(216)(도 2의 예에서는 "Austin")을 말하는 제2 시간(214)과 제1 시간(210), 즉, 미디어 안내 애플리케이션이 검색 결과(212)(도 2의 예에서, Boston에 대해 도시함)를 제시한 시간 사이의 유저 입력 디바이스의 가속도(218)에서의 차이를 계산하는 것은 도움이 될 수도 있는데, 그 이유는, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고(도 2의 예에서는, "Austin"으로 "Boston"을 정정하려고) 의도하였는지의 여부를, 가속도(218)에서의 차이가 나타낼 수도 있기 때문이다. 제1 음성(206)에서 요청된 것과 매치하지 않는 검색 결과(212)에 의해 입증되는 바와 같은 에러가 제1 입력(208)에 있는 경우, 유저는 유저 입력 디바이스가 제2 음성(216)을 더욱 정확하게 검출하는 것을 가능하게 하는 의도를 가지고 유저 입력 디바이스를 그의/그녀의 입에 더 가까이 가져갈 수도 있고 제2 음성(216)을 올바르게 인식시키는 더 나은 기회를 가질 수도 있다. 유저 입력 디바이스를 유저의 입에 더 가까이 가져가는 것은, 제1 시간(210)과 제2 시간(214) 사이의, 임계 가속도를 초과하는 유저 입력 디바이스의 가속도에서의 차이로서 검출될 수 있다. 따라서, 가속도(218)에서의 차이를 임계 가속도에 비교하는 것은 유저가 제2 음성(216)으로 제1 입력(208)을 정정하려고 의도하였는지의 여부를 나타낼 수 있다.
다음의 설명은, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적 표시가 제2 음성에서 없는 경우, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여, 미디어 안내 애플리케이션이 어떻게 정정할 수 있는지를 더 상세하게는 설명한다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 시간 차이를 결정하는 것에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스(예를 들면, 유저 입력 인터페이스(510), 무선 유저 통신 디바이스(606))를 통해, 제1 음성(106)을 수신할 수도 있다. 제1 음성(106)은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제1 음성(106)은, 미디어 자산과 같은 아이템에 대한 검색을 개시하도록 유저에 의해 의도될 수도 있다. 예를 들면, 제1 발화(106)는 "Show me shows about Austin"일 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제1 음성(106)에 기초하여 제1 입력(108)을 결정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, [Gaikwad, Santosh K., Bharti W. Gawali, and Pravin Yannawar. "A review on speech recognition technique". International Journal of Computer Applications 10.3 (2010): 16-24]에서 설명되는 것과 같은 공지된 자동 음성 인식 기술을 사용하여 제1 음성(106)을 텍스트로 변환하는 것에 의해 제1 입력(108)을 결정할 수도 있는데, 이 문헌의 개시는 참조에 의해 그 전체가 본원에 통합된다. 예를 들면, 제1 음성(106)이 "Show me shows about Austin"인 경우, 미디어 안내 애플리케이션은 제1 입력(108)을 "Show me shows about Boston"인 것으로 결정할 수도 있고, 그에 의해, 제1 음성(106)에서 "Austin"을 "Boston"으로 부정확하게 인식할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, (예를 들면, 통신 네트워크(614)를 통해 미디어 콘텐츠 소스(616) 또는 미디어 안내 데이터 소스(618)로부터, 또는 스토리지(508)로부터 데이터베이스를 리트리브하는 것에 의해) 데이터베이스로부터, 제1 입력(108)에 기초하여 검색 결과(112)를 리트리브할 수도 있다. 데이터베이스는, 예를 들면, 정보 저장소를 포함할 수도 있다. 정보 저장소로부터 검색 결과(112)를 리트리브하기 위해, 미디어 안내 애플리케이션은 미국 특허 제8,577,671호에서 설명되는 것과 같은 공지된 정보 리트리브 기술을 사용할 수도 있는데, 이 특허의 개시는 참조에 의해 그 전체가 본원에 통합된다. 몇몇 실시형태에서, 검색 결과(112)는 하나의 검색 결과만을 포함할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 (예를 들면, 디스플레이(512) 상에서의) 디스플레이를 위해 검색 결과(112)를 생성할 수도 있다. 예를 들면, 제1 입력(108)이 "Show me shows about Boston"인 경우, 미디어 안내 애플리케이션은, Boston에서 진행되는 TV 프로그램 Fringe에 대한 목록(예를 들면, 목록 308, 406, 408, 410, 또는 412)을 리트리브하여 디스플레이를 위해 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과(112)가 생성된 제1 시간(110)을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 (예를 들면, 프로세싱 회로부(processing circuitry)(506)로부터) 디스플레이 스크린(예를 들면, 디스플레이(512))의 픽셀로 송신되는 신호가 제1 시간(110)에 후속하여 처음으로 변경되는 시간을 검출하는 것에 의해 제1 시간(110)을 결정할 수도 있다. 몇몇 실시형태에서, 디스플레이 스크린의 픽셀로 송신되는 신호는 디스플레이 스크린으로 하여금, 예를 들면, 새로운 아이템을 디스플레이하도록 변경되게 한다. 예를 들면, 제1 음성(106)이 수신되는 경우, 디스플레이 스크린의 픽셀로 송신되는 신호는, 결과가 아직 리트리브되지 않았기 때문에, 변하지 않을 수도 있다. 예를 들면, 일단 검색 결과(112)가 리트리브되고 디스플레이 스크린 상에서 디스플레이될 준비가 되면, 디스플레이 스크린의 픽셀로 송신될 신호는 검색 결과(112)를 디스플레이하기 위해 변경될 수도 있다. 제1 음성(106)이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은 검색 결과(112)가 디스플레이되는 것을 나타낼 수도 있다. 따라서, 제1 음성(106)이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은, 검색 결과(112)가 디스플레이를 위해 생성된 제1 시간(110)으로 간주될 수 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 시간(110)을 결정할 때, 시계, 커서, 및 검색 결과(112)와 관련되지 않은 다른 아이템과 같은 아이템의 디스플레이에서의 변화를 나타내는, 디스플레이 스크린의 픽셀로 송신되는 신호에서의 변화를 무시할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성(106)을 수신하는 것에 후속하여, 유저 입력 디바이스를 통해, 제2 음성(116)을 수신할 수도 있다. 제2 음성(116)은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제2 음성(116)은, 미디어 안내 애플리케이션에 의해 부정확하게 인식된 제1 입력(108)의 일부분을 정정하도록 유저에 의해 의도될 수도 있다. 예를 들면, 유저는, 검색 결과(112)가 제1 음성(106)과 매치하지 않는 것에 기초하여, 미디어 안내가 제1 음성(106)의 일부분을 부정확하게 인식했다는 것을 결정할 수도 있다. 예를 들면, 검색 결과(112)가 Boston에 대한 쇼를 포함하는 경우, 유저는, 미디어 안내 애플리케이션이 제1 음성(106)("Show me shows about Austin")에 응답하여 "Show me shows about Boston"을 제1 입력(108)으로서 부정확하게 생성하였다는 것을 결정할 수도 있다. 따라서, 제2 음성(116)은 "Austin"일 수도 있는데, 이 경우, 유저는 "Boston"을 "Austin"으로 정정하려고 의도한다. 제2 음성(116)은, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도하는지의 여부 또는 유저가, 예를 들면, 새로운 검색을 시작하려고 또는 이전에 제시된 검색 결과(112)를 제2 음성(116)을 사용하여 필터링하려고 의도하는지의 여부의 명시적 표시가 없을 수도 있다. 예를 들면, 제2 음성(116)은, 유저가 제1 입력(108)을 정정하려고 의도한다는 명시적 표시를 나타낼 수 있는 "No" 또는 "I meant"와 같은 어구가 없을 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제2 음성(116)에 기초하여 제2 입력(120)을 결정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, [Gaikwad, Santosh K., Bharti W. Gawali, and Pravin Yannawar. "A review on speech recognition technique". International Journal of Computer Applications 10.3 (2010): 16-24]에서 설명되는 것과 같은 공지된 자동 음성 인식 기술을 사용하여 제2 음성(116)을 텍스트로 변환하는 것에 의해 제2 입력(120)을 결정할 수도 있다. 예를 들면, 제2 음성(116)이 "Austin"인 경우, 미디어 안내 애플리케이션은 제2 입력(120)을 "Austin"인 것으로 결정할 수도 있고, 그에 의해, 제2 음성(116)에서 "Austin"을 정확하게 인식할 수도 있게 된다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 음성(116)이 수신된 제2 시간(114)을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간(110)에 후속하여 가장 빠른 발음이 발생한 시간을 측정하는 것에 의해 제2 시간(114)을 결정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션이 검색 결과(112)를 10:00:00 AM에 제시하였고, 유저로부터의 다음 발음이 "Austin"인 경우, 미디어 안내 애플리케이션은, "Austin"에서의 처음 "Au" 사운드가 10:00:10 AM에 발생하였다는 것을 측정할 수도 있고, 10:00:10 AM을 제2 시간(114)인 것으로 간주할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스에서의 입력의 볼륨이, 제1 시간(110)에 후속하여 처음으로 임계 볼륨을 초과하는 때를 검출하는 것에 의해 가장 빠른 발음을 검출할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 시간(114)과 제1 시간(110) 사이의 시간 차이(118)를 임계 시간에 비교할 수도 있다. 미디어 안내 애플리케이션은 제2 시간(114)으로부터 제1 시간(110)을 감산하는 것에 의해 시간 차이(118)를 계산할 수도 있다. 예를 들면, 제1 시간(110)이 10:00:00 AM이고 제2 시간(114)이 10:00:10 AM인 경우, 미디어 안내 애플리케이션은 시간 차이(118)를 10 초인 것으로 계산할 수도 있다. 시간 차이(118)를 계산함에 있어서, 미디어 안내 애플리케이션은 제1 시간(110), 제2 시간(114), 및/또는 시간 차이(118)를 가장 가까운 초, 분, 시, 등등으로 반올림할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 임계 시간을 디폴트 값이 되도록 설정할 수도 있거나 또는 임계 시간을 유저 정의 값이 되도록 설정할 수도 있다.
몇몇 실시형태에서, 시간 차이(118)를 임계 시간에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은 시간 차이(118)가 임계 시간보다 더 작다는 것을 결정할 수도 있다. 예를 들면, 시간 차이(118)가 10 초이고 임계 시간이 20 초인 경우, 미디어 안내 애플리케이션은 시간 차이(118)가 임계 시간보다 더 작다는 것을 결정할 수도 있다.
몇몇 실시형태에서, 시간 차이(118)가 임계 시간보다 더 작다는 것을 결정하는 것에 기초하여, 미디어 안내 애플리케이션은 제1 입력(108)의 일부분을 제2 입력(120)의 일부분으로 대체하는 것에 의해 제1 입력(108)에 기초하여 정정된 입력(122)을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 제1 입력(108)의 일부분을 전체 제2 입력(120)으로 대체하는 것에 의해 제1 입력(108)에 기초하여 정정된 입력(122)을 생성할 수도 있다. 예를 들면, 제1 입력(108)이 "Show me shows about Boston"이고, 제2 입력(120)이 "Austin"인 경우, 미디어 안내 애플리케이션은 "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력(122)을 생성할 수도 있다. 미디어 안내 애플리케이션은, 미국 특허 출원 공개공보 제2014/0337370호, 미국 특허 제9,514,743호, 및 미국 특허 출원 공개공보 제2009/0228273호에서 설명되는 것과 같은, 제1 입력(108)의 일부분을 제2 입력(120)의 일부분으로 대체하기 위한 임의의 공지된 방법을 사용할 수도 있는데, 이들 특허 문헌의 각각의 내용은 참조에 의해 그들 전체가 본원에 통합된다.
유저가 제2 음성(116)을 말했을 때의 제2 시간(114)과 미디어 안내 애플리케이션이 제1 입력(108)에 대한 검색 결과(112)를 디스플레이를 위해 생성한 제1 시간(110) 사이의 시간 차이(118)를 계산하는 것은 도움이 될 수도 있는데, 그 이유는, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도하였는지의 여부를 시간 차이(118)가 나타낼 수도 있기 때문이다. 제1 음성(106)이 제1 입력(108)을 생성할 때 올바르게 인식되었다면, 검색 결과(112)가 디스플레이를 위해 생성된 이후 유저가 후속하는 입력을 말하는 데 제1 음성(106)의 일부분이 부정확하게 인식되었던 경우보다 더 오래 걸릴 수도 있다. 예를 들면, 제1 음성(106)이 정확하게 인식되었다면, 유저는, 검색 결과(112)를 스크롤하고, 검색 결과(112)의 설명을 읽고, 검색 결과(112)를 열고, 검색 결과(112)를 재생하고, 등등을 하는 데 오랜 시간(즉, 임계 시간보다 더 오랜 시간)이 걸릴 수도 있다. 그러나, 제1 음성(106)의 일부분이 부정확하게 인식되었다면, 유저는 짧은 시간(즉, 임계 시간보다 더 작은 시간)에 검색 결과(112)가 제1 음성(106)에서 요청되었던 것과 매치하지 않는다는 것을 인식할 수도 있다. 따라서, 유저는 검색 결과(112)를 스크롤하고, 검색 결과(112)의 설명을 읽고, 검색 결과(112)를 열고, 검색 결과(112)를 재생하고, 등등을 하는 데 오랜 시간이 걸리지 않을 수도 있다. 대신에, 유저는 검색 결과(112)를 본 이후 부정확하게 인식된 제1 음성(106)을 정정하기 위해 제2 음성(116)을 매우 빨리(즉, 임계 시간보다 더 작은 시간) 말할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저와 관련되는 입력 사이의 평균 시간에 기초하여 임계 시간을 조정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저에 의해 입력되는 발화된 입력(spoken input) 사이의 평균 시간을 모니터링하고 이 평균 시간을 유저와 관련되는 유저 이력에 저장할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 임계 시간을 디폴트 값으로 설정하고 유저 이력에 저장되어 있는 평균 시간에 기초하여 임계 시간을 조정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 평균 시간의 범위와 관련되는 양에 의해 임계 시간을 조정할 수도 있다. 예를 들면, 평균 시간이 1 초와 5 초 사이인 경우, 미디어 안내 애플리케이션은 임계 시간을 5 초만큼 증가시킬 수도 있지만, 평균 시간이 5 초와 10 초 사이인 경우 미디어 안내 애플리케이션은 임계 시간을 10 초만큼 증가시킬 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 평균 시간에 비례하는 양만큼 임계 시간을 조정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은 임계 시간을 평균 시간과 동일한 시간만큼 증가시킬 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 정의 양의 시간(positive amount of time) 또는 부의 양의 시간(negative amount of time)만큼 임계 시간을 조정할 수도 있다. 유저와 관련되는 입력 사이의 평균 시간에 기초하여 임계 시간을 조정하는 것은, 유저가 검색 결과(112)를 리뷰하는 데 일반적으로 얼마나 오래 걸릴 수도 있는지를 예측함에 있어서 도움이 될 수도 있다. 입력 사이의 유저의 평균 시간이 큰 경우, 유저는 검색 결과(112)를 리뷰하는 데 오랜 시간을 소비할 수도 있고, 그러므로, 유저가 제2 음성(116)으로 제1 입력(108)을 정정하려고 의도하였는지의 여부를 예측할 때 임계 시간을 증가시키는 것이 보증될 수도 있다. 몇몇 실시형태에서, 임계 시간은 네트워크 속도, 예를 들면, 미디어 안내 애플리케이션이 쿼리에 응답하는 속도에 기초하여 선택될 수도 있다. 몇몇 실시형태에서, 네트워크 속도를 측정하고 임계 시간을 결정하기 위해, 표준화된 쿼리("핑 쿼리")가 제출되고 응답 시간이 측정될 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 검색 결과(112)를 브라우징하는 것과 관련되는 어떠한 입력도 제1 시간(110)과 제2 시간(114) 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것에 기초하여 정정된 입력(122)을 생성할 수도 있다. 예를 들면, 검색 결과(112)를 브라우징하는 것과 관련되는 입력은, 디스플레이된 검색 결과(112)를 상하로 스크롤하기 위한 입력, 검색 결과(112)를 열기 위한 입력, 검색 결과(112)를 재생하기 위한 입력, 및 검색 결과(112)의 설명을 읽기 위한 입력을 포함할 수도 있다. 미디어 안내 애플리케이션은 제1 시간(110)과 제2 시간(114) 사이에 유저 입력 디바이스를 통해 수신되는 입력을 모니터링하여, 수신된 입력의 타입 중 어느 것도 검색 결과(112)를 브라우징하는 것과 관련되지 않는다는 것을 결정할 수도 있다.
유저가 제2 음성(116)을 말한 제2 시간(114)과 미디어 안내 애플리케이션이 제1 입력(108)에 대한 검색 결과(112)를 디스플레이를 위해 생성한 제1 시간(110) 사이에, 검색 결과(112)를 브라우징하는 것과 관련되는 어떠한 입력도 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것은 도움이 될 수도 있는데, 그 이유는, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도하였는지의 여부를 이 결정이 나타낼 수도 있기 때문이다. 제1 음성(106)이 제1 입력(108)을 생성함에 있어서 올바르게 인식되었다면, 유저는 검색 결과(112)가 제시된 이후 검색 결과(112)를 브라우징하는 것과 관련되는 입력을 입력할 수도 있다. 예를 들면, 제1 음성(106)이 정확하게 인식되었다면, 유저는 검색 결과(112)를 스크롤할 수도 있고, 검색 결과(112)의 설명을 읽을 수도 있고, 검색 결과(112)를 열 수도 있고, 검색 결과(112)를 재생할 수도 있고, 등등을 할 수도 있다. 그러나, 제1 음성(106)의 일부분이 부정확하게 인식되었다면, 유저는 검색 결과(112)가 제1 음성(106)에서 요청된 것과 매치하지 않는다는 것을 인식할 수도 있다. 따라서, 유저는 검색 결과(112)를 스크롤하지 않을 수도 있고, 검색 결과(112)의 설명을 읽지 않을 수도 있고, 검색 결과(112)를 열지 않을 수도 있고, 검색 결과(112)를 재생하지 않을 수도 있고, 등등을 하지 않을 수도 있다. 대신, 유저는 검색 결과(112)를 브라우징하는 것과 관련되는 어떠한 입력도 유저 입력 디바이스를 통해 입력하지 않은 상태에서 검색 결과(112)를 본 이후 부정확하게 인식된 제1 음성(106)을 정정하기 위해 제2 음성(116)을 말할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간(110)과 제2 시간(114) 사이에 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 유저 입력 디바이스에 포함되는 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하는 것에 기초하여 정정된 입력(122)을 생성할 수도 있다. 몇몇 실시형태에서, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하기 위해, 미디어 안내 애플리케이션은 얼굴 인식 기술을 사용하여 유저의 얼굴 이미지를 분석하여 분노 및 슬픔과 같은 표정을 검출할 수도 있다. 미디어 안내 애플리케이션은, [Kulkarni, Saket S., Narender P. Reddy, and S. I. Hariharan. "Facial expression (mood) recognition from facial images using committee neural networks." Biomedical Engineering Online 8.1 (2009): 16]에서의 방법과 같은, 얼굴의 이미지에서 표정을 검출하는 임의의 방법을 사용할 수도 있는데, 이 문헌의 내용은 참조에 의해 그 전체가 본원에 통합된다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 불만족스러운 얼굴 표정을 검출하는 것 외에/그 대신, 불평등과 같은 불만족스러운 사운드를 검출할 수도 있다.
이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하는 것은 도움이 될 수도 있는데, 그 이유는, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도하였는지의 여부를 이 결정이 나타낼 수도 있기 때문이다. 제1 음성(106)이 부정확하게 인식되었고, 제시되는 검색 결과(112)가 유저가 의도한 것과 매치하지 않으면, 유저는 불만족할 수도 있고, 따라서 유저의 얼굴은 불만족스러운 표정을 나타낼 수도 있다. 제1 음성(106)이 올바르게 인식되었고 제시되는 검색 결과(112)가 유저가 의도한 것과 매치하면, 유저는 만족될 수도 있고, 따라서, 유저의 얼굴은 불만족스러운 표정을 나타내지 않을 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 음성(106)이 수신되고 있는 동안, 유저의 얼굴의 제1 이미지를 캡쳐하고, 제1 이미지에서 유저의 얼굴의 제1 상대적 사이즈를 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제2 음성(116)이 수신되고 있는 동안, 유저의 얼굴의 제2 이미지를 캡쳐하고, 제2 이미지에서 유저의 얼굴의 제2 상대적 사이즈를 결정할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 유저 입력 디바이스에 포함되는 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 이미지에서 유저의 얼굴에 의해 점유되는 픽셀의 수를 카운트하는 것에 의해 이미지에서의 유저의 얼굴의 상대적 사이즈를 계산할 수도 있다. 제1 및 제2 이미지에서의 유저의 얼굴의 상대적 사이즈를 결정하기 위해, 미디어 안내 애플리케이션은 도 9 내지 도 10을 참조하여 설명되는 방법을 사용할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저의 얼굴의 제1 상대적 사이즈와 유저의 얼굴의 제2 상대적 사이즈 사이의 상대적 사이즈 차이를 임계 상대적 사이즈에 비교할 수도 있다. 미디어 안내 애플리케이션은 제2 상대적 사이즈로부터 제1 상대적 사이즈를 감산하는 것에 의해 상대적 사이즈 차이를 계산할 수도 있다. 예를 들면, 제1 상대적 사이즈가 3 메가픽셀이고 제2 상대적 사이즈가 4 메가픽셀인 경우, 미디어 안내 애플리케이션은 상대적 사이즈 차이를 1 메가픽셀인 것으로 계산할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상대적 사이즈 차이를 임계 상대적 사이즈에 비교하는 것에 기초하여, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정할 수도 있다. 예를 들면, 상대적 사이즈 차이가 1 메가픽셀이고 임계 상대적 사이즈가 0.5 메가픽셀인 경우, 미디어 안내 애플리케이션은 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정하는 것에 기초하여 정정된 입력(122)을 생성할 수도 있다.
따라서, 전술한 방법은, 제1 음성(106)이 수신되는 동안 촬영되는 이미지에서의 유저의 얼굴의 상대적 사이즈가 제2 음성(116)이 수신되는 동안 촬영되는 이미지에서의 유저의 얼굴의 상대적 사이즈보다 더 작은지의 여부를 결정한다. 이것은, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도하였는지의 여부를 결정함에 있어서 도움이 될 수도 있다. 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도한 경우, 유저는 그의/그녀의 입을 유저 입력 디바이스에 더 가까이 가져가려고 시도할 수도 있고, 따라서, 유저 입력 디바이스는 제2 음성(116)을 더욱 정확하게 검출할 수 있고 제2 음성(116)을 정확하게 인식하는 더 나은 기회를 가질 수 있다. 유저가 그의/그녀의 얼굴을 유저 입력 디바이스에 더 가까이 가져가는 경우, 이것은, 제1 음성(106)이 수신되는 동안 캡쳐되는 이미지에서의 유저의 얼굴의 사이즈와 대비하여, 제2 음성(116)이 수신되는 동안 캡쳐되는 이미지에서의 유저의 얼굴의 사이즈에서의 증가로서 검출될 수 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 시간(114)과 제1 시간(110) 사이의 시간 차이(118)를 제2 임계 시간에 비교할 수도 있고, 시간 차이(118)를 제2 임계 시간에 비교하는 것에 기초하여, 시간 차이(118)가 제2 임계 시간보다 더 크다는 것을 결정한다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 시간 차이(118)가 임계 시간보다 더 작고 제2 임계 시간보다 더 크다는 것을 결정하는 것에 기초하여 정정된 입력(122)을 생성할 수도 있다. 예를 들면, 시간 차이(118)가 10 초이고, 임계 시간이 20 초이고, 제2 임계 시간이 2 초인 경우, 미디어 안내 애플리케이션은 시간 차이(118)가 임계 시간보다 더 작고 제2 임계 시간보다 더 크다는 것을 결정할 수도 있다. 제2 임계 시간은 임계 시간보다 더 작을 수도 있다. 시간 차이(118)가 제2 임계 시간보다 더 크다는 것을 결정하는 것은, 유저가 제2 음성(116)을 사용하여 제1 음성(106)을 계속하려고 의도하고 있을 때 정정된 입력(122)을 생성하는 것을 방지하는 데 도움이 될 수도 있다. 예를 들면, 제1 음성(106)은 "Show me shows about Austin"일 수도 있고, 미디어 안내 애플리케이션은 오스틴(텍사스의 도시)에 관한 쇼를 검색 결과(112)로서 제시할 수도 있다. 제2 음성(116)은 "Powers(파워)"일 수도 있다. 이 예에서, 제2 음성(116)은 실제로 제1 음성(106)의 연속일 수도 있다, 즉, 유저는 "Show me shows about Austin Powers"라고 말하려고 의도하였다(여기서 Austin Powers(오스틴 파워)는 영화 시리즈의 캐릭터임). 그러나, 미디어 안내 애플리케이션은 유저가 "Powers"라고 말하는 것을 마치기 이전에 검색 결과(112)를 제시할 수도 있다. 그러한 상황에서, 유저는 제2 음성(116)("Powers")으로 제1 음성(106)("Show me shows about Austin")을 정정하려고 의도하지 않고 있다. 오히려, 유저는 제2 음성(116)을 사용하여 제1 음성(106)을 계속하려고 의도하고 있다. 따라서, 미디어 안내 애플리케이션은 제2 시간(114)과 제1 시간(110) 사이의 시간 차이(118)를 임계 시간보다 더 작은 제2 임계 시간에 비교할 수도 있다. 시간 차이(118)가 제2 임계 시간보다 더 작거나 또는 동일한 경우, 이것은, 유저가 검색 결과(112)가 제시된 이후 너무 빨리, 어쩌면 검색 결과(112)가 제시된 이후 너무 빨라서 심지어 검색 결과(112)를 볼 수 없게 제2 음성(116)을 말했다는 것을 나타낼 수도 있다. 따라서, 이것은 유저가 아직 제1 음성(106)의 말하기를 아직 마치지 않았다는 것을 나타낼 수도 있고, 미디어 안내 애플리케이션은 제1 음성(106)을 제2 음성(116)으로 정정하지 않아야 한다. 그러나, 시간 차이(118)가 제2 임계 시간보다 더 크지만, 그러나 여전히 임계 시간보다 더 작은 경우, 이것은 유저가 검색 결과(112)를 간략하게 보고 그들이 제1 음성(106)과 매치하지 않는다는 것을 결정할 합리적인 양의 시간 이후 제2 음성(116)을 말하였다는 것을 나타낼 수도 있다. 따라서, 이것은 유저가 제1 음성(106)을 제2 음성(116)으로 정정하려고 의도하였다는 것을 나타낼 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 기준 환경 노이즈 레벨을 측정할 수도 있다. 몇몇 실시형태에서, 기준 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 유저가 어떠한 입력도 말하고 있지 않을 때 기준 오디오 녹음을 캡쳐할 수도 있다. 미디어 안내 애플리케이션은 기준 오디오 녹음에서의 평균 전력을 측정하는 것에 의해 이 오디오 녹음에서의 환경 노이즈 레벨을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 제1 음성(106)이 수신되는 동안, 유저 입력 디바이스를 통해, 환경 노이즈 레벨을 측정할 수도 있다. 몇몇 실시형태에서, 제1 음성(106)이 수신되고 있는 동안 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 제1 음성(106)이 수신되고 있을 때 오디오 녹음을 캡쳐할 수도 있고, 미국 특허 출원 공개공보 제2005/0182504호 및 미국 특허 출원 공개공보 제2008/0134866에서 논의되는 것과 같은 임의의 공지된 기술을 사용하여 오디오 녹음에서 목소리를 필터링해 낼 수도 있다. 그 다음, 미디어 안내 애플리케이션은 오디오 녹음에서 나머지 신호의 평균 전력을 측정하여, 이 오디오 녹음에서의 환경 노이즈 레벨을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성(106)이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교할 수도 있다. 몇몇 실시형태에서, 제1 음성(106)이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 것을 결정할 수도 있다. 예를 들면, 환경 노이즈 레벨 차이가 0.1 mW이고 임계 환경 노이즈 레벨이 0.01 mW인 경우, 미디어 안내 애플리케이션은, 0.1 mW가 0.01 mW보다 더 크다는 것을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내는, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 결정에 기초하여 정정된 입력 (122)을 생성 할 수도 있다.
제1 음성(106)이 수신될 때의 환경 노이즈 레벨이 기준 환경 노이즈 레벨보다 더 큰 임계 환경 노이즈 레벨이다는 것을 결정하는 것은, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도하였는지의 여부를 결정함에 있어서 도움이 될 수도 있다. 예를 들면, 제1 음성(106)이 수신될 때의 환경 노이즈 레벨이 큰 경우, 노이즈에 기인하여 제1 음성(106)이 정확하게 인식되지 않았을 더 큰 가능성이 있을 수도 있고, 유저가 제2 음성(116)으로 제1 입력(108)에서의 에러를 정정하려고 의도했을 더 큰 가능성이 있을 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 모호성을 해결하기 위한 질문으로 제1 입력(108)에 응답할 수도 있다. 예를 들면, 제1 입력(108)이 "Show me Sox games(삭스 게임 보여줘)"인 경우, 미디어 안내 애플리케이션은 Boston Red Sox(보스턴 레드 삭스) 및 Chicago White Sox(시카고 화이트 삭스)(둘 모두 스포츠 팀임) 둘 모두에 대한 검색 결과(112)를 디스플레이할 수도 있다. 미디어 안내 애플리케이션은 또한, "Did you mean the Boston Red Sox or the Chicago White Sox?(보스턴 레드 삭스인가요 시카고 화이트 레드 삭스인가요?)"와 같은 명확하게 하는 질문(disambiguating question)을 유저에게 제시할 수도 있다. 유저는 "Boston Red Sox"와 같은 제2 음성(116)으로 이 명확하게 하는 질문에 응답할 수도 있다. 미디어 안내 애플리케이션이 명확하게 하는 질문을 제시한 경우, 미디어 안내 애플리케이션은, 제1 시간(110)과 제2 시간(114) 사이의 시간 차이(118)에 관계없이, 제2 음성(116)이 제1 입력(108)을 정정하기 위해 사용되어야 하는 것이 아니라, 오히려, 그것을 명확하게 하기 위해, 또는 검색 결과(112)를 필터링하기 위해 사용되어야 한다는 것을 자동적으로 고려할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저 입력 디바이스의 가속도에서의 차이를 결정하는 것에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스(예를 들면, 유저 입력 인터페이스(510), 또는 무선 유저 통신 디바이스(606))를 통해, 제1 음성(206)을 수신할 수도 있다. 제1 음성(206)은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제1 음성(206)은, 미디어 자산과 같은 아이템에 대한 검색을 개시하도록 유저에 의해 의도될 수도 있다. 예를 들면, 제1 음성(206)은 "Show me shows about Austin"일 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제1 음성(206)에 기초하여 제1 입력(208)을 결정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, [Gaikwad, Santosh K., Bharti W. Gawali, and Pravin Yannawar. "A review on speech recognition technique". International Journal of Computer Applications 10.3 (2010): 16-24]에서 설명되는 것과 같은 공지된 자동 음성 인식 기술을 사용하여 제1 음성(206)을 텍스트로 변환하는 것에 의해 제1 입력(208)을 결정할 수도 있는데, 이 문헌의 개시는 참조에 의해 그 전체가 본원에 통합된다. 예를 들면, 제1 음성(206)이 "Show me shows about Austin"인 경우, 미디어 안내 애플리케이션은 제1 입력(208)을 "Show me shows about Boston"인 것으로 결정할 수도 있고, 그에 의해, 제1 음성(206)에서 "Austin"을 "Boston"으로 부정확하게 인식할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, (예를 들면, 통신 네트워크(614)를 통해 미디어 콘텐츠 소스(616) 또는 미디어 안내 데이터 소스(618)에 있는, 또는 스토리지(508)에 있는) 데이터베이스로부터, 제1 입력(208)에 기초하여 검색 결과(212)를 리트리브할 수도 있다. 데이터베이스는, 예를 들면, 정보 저장소를 포함할 수도 있다. 정보 저장소로부터 검색 결과(212)를 리트리브하기 위해, 미디어 안내 애플리케이션은 미국 특허 제8,577,671호에서 설명되는 것과 같은 공지된 정보 리트리브 기술을 사용할 수도 있는데, 이 특허의 개시는 참조에 의해 그 전체가 본원에 통합된다. 몇몇 실시형태에서, 검색 결과(212)는 하나의 검색 결과만을 포함할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 (예를 들면, 디스플레이(512) 상에서의) 디스플레이를 위해 검색 결과(212)를 생성할 수도 있다. 예를 들면, 제1 입력(208)이 "Show me shows about Boston"인 경우, 미디어 안내 애플리케이션은, Boston에서 진행되는 TV 프로그램 Fringe에 대한 목록(예를 들면, 목록 308, 406, 408, 410, 또는 412)을 리트리브하여 디스플레이를 위해 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 디스플레이를 위해 검색 결과(212)가 생성된 제1 시간(210)을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 디스플레이 스크린(예를 들면, 디스플레이(512))의 픽셀로 송신되는 신호가 제1 시간(210)에 후속하여 처음으로 변경되는 시간을 검출하는 것에 의해 제1 시간(210)을 결정할 수도 있다. 몇몇 실시형태에서, (예를 들면, 프로세싱 회로부(506)로부터) 디스플레이 스크린의 픽셀로 송신되는 신호는 디스플레이 스크린으로 하여금, 예를 들면, 새로운 아이템을 디스플레이하도록 변경되게 한다. 예를 들면, 제1 음성(206)이 수신되는 경우, 디스플레이 스크린의 픽셀로 송신되는 신호는, 결과가 아직 리트리브되지 않았기 때문에, 변하지 않을 수도 있다. 그러나, 일단 검색 결과(212)가 리트리브되고 디스플레이 스크린 상에서 디스플레이될 준비가 되면, 디스플레이 스크린의 픽셀로 송신될 신호는 검색 결과(212)를 디스플레이하기 위해 변경될 수도 있다. 제1 음성(206)이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은 검색 결과(212)가 디스플레이되는 것을 나타낼 수도 있다. 따라서, 제1 음성(206)이 수신된 이후 디스플레이 스크린의 픽셀로 송신되는 신호가 변경되는 최초의 시간은, 검색 결과(212)가 디스플레이를 위해 생성된 제1 시간(210)으로 간주될 수 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 시간(210)을 결정할 때, 시계, 커서, 및 검색 결과(212)와 관련되지 않은 다른 아이템과 같은 아이템의 디스플레이에서의 변화를 나타내는, 디스플레이 스크린의 픽셀로 송신되는 신호에서의 변화를 무시할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간(210)에 유저 입력 디바이스의 제1 가속도(213)를 측정할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 이동 전화(예를 들면, 스마트폰)이고, 이동 전화는 내부 가속도계를 사용하여 제1 가속도(213)를 결정할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 태블릿이고, 태블릿은 내부 가속도계를 사용하여 제1 가속도(213)를 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 시간(210)에서 세 개의 공간 차원 중 하나에서 유저 입력 디바이스의 가속도를 측정하는 것에 의해 유저 입력 디바이스를 통해 제1 가속도(213)를 측정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저 입력 디바이스를 통한 제1 가속도(213)를, 제1 시간(210)에 세 개의 공간 차원에서의 유저 입력 디바이스의 가속도의 최대치로서 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저 입력 디바이스를 통한 제1 가속도(213)를, 제1 시간(210)에 세 개의 공간 차원에서의 유저 입력 디바이스의 가속도의 평균으로서 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저 입력 디바이스를 통한 제1 가속도(213)를, 제1 시간(210)에 세 개의 공간 차원에서의 유저 입력 디바이스의 가속도의 합의 제곱근(square root of the sum)으로서 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성(206)을 수신하는 것에 후속하여, 유저 입력 디바이스를 통해, 제2 음성(216)을 수신할 수도 있다. 제2 음성(216)은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제2 음성(216)은, 미디어 안내 애플리케이션에 의해 부정확하게 인식된 제1 입력(208)의 일부분을 정정하도록 유저에 의해 의도될 수도 있다. 예를 들면, 유저는, 검색 결과(212)가 제1 음성(206)과 매치하지 않는 것에 기초하여, 미디어 안내가 제1 음성(206)의 일부분을 부정확하게 인식했다는 것을 결정할 수도 있다. 예를 들면, 검색 결과(212)가 Boston에 대한 쇼를 포함하는 경우, 유저는, 미디어 안내 애플리케이션이 제1 음성(206)("Show me shows about Austin")에 응답하여 "Show me shows about Boston"을 제1 입력(208)으로서 부정확하게 생성하였다는 것을 결정할 수도 있다. 따라서, 제2 음성(216)은 "Austin"일 수도 있는데, 이 경우, 유저는 "Boston"을 "Austin"으로 정정하려고 의도한다. 제2 음성(216)은, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도하는지의 여부 또는 유저가, 예를 들면, 새로운 검색을 시작하려고 또는 이전에 제시된 검색 결과(212)를 제2 음성(216)을 사용하여 필터링하려고 의도하는지의 여부의 명시적 표시가 없을 수도 있다. 예를 들면, 제2 음성(216)은 유저가 제1 입력(208)을 정정하려고 의도한다는 명시적 표시를 나타낼 수도 있는 "No" 또는 "I meant"와 같은 어구가 없을 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 자동 음성 인식을 사용하여, 제2 음성(216)에 기초하여 제2 입력(220)을 결정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, [Gaikwad, Santosh K., Bharti W. Gawali, and Pravin Yannawar. "A review on speech recognition technique". International Journal of Computer Applications 10.3 (2010): 16-24]에서 설명되는 것과 같은 공지된 자동 음성 인식 기술을 사용하여 제2 음성(216)을 텍스트로 변환하는 것에 의해 제2 입력(220)을 결정할 수도 있다. 예를 들면, 제2 음성(216)이 "Austin"인 경우, 미디어 안내 애플리케이션은 제2 입력(220)을 "Austin"인 것으로 결정할 수도 있고, 그에 의해, 제2 음성(216)에서 "Austin"을 정확하게 인식할 수도 있게 된다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 음성(216)이 수신된 제2 시간(214)을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간(210)에 후속하여 가장 빠른 발음이 발생한 시간을 측정하는 것에 의해 제2 시간(214)을 결정할 수도 있다. 예를 들면, 미디어 안내 애플리케이션이 검색 결과(212)를 10:00:00 AM에 제시하였고, 유저로부터의 다음 발음이 "Austin"인 경우, 미디어 안내 애플리케이션은, "Austin"에서의 처음 "Au" 사운드가 10:00:10 AM에 발생하였다는 것을 측정할 수도 있고, 10:00:10 AM을 제2 시간(214)인 것으로 간주할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스에서의 입력의 볼륨이, 제1 시간(210)에 후속하여 처음으로 임계 볼륨을 초과하는 때를 검출하는 것에 의해 가장 빠른 발음을 검출할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간(210)과 제2 시간(214) 사이의 유저 입력 디바이스의 제2 가속도(217)를 측정할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 이동 전화(예를 들면, 스마트폰)이고, 이동 전화는 내부 가속도계를 사용하여 제2 가속도(217)를 결정할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 태블릿이고, 태블릿은 내부 가속도계를 사용하여 제2 가속도(217)를 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 제1 시간(210)과 제2 시간(214) 사이의 세 개의 공간 차원 중 하나에서 유저 입력 디바이스의 가속도를 측정하는 것에 의해 유저 입력 디바이스를 통해 제2 가속도(217)를 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저 입력 디바이스를 통한 제2 가속도(217)를, 제1 시간(210)과 제2 시간(214) 사이의 세 개의 공간 차원에서의 유저 입력 디바이스의 가속도의 최대치로서 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저 입력 디바이스를 통한 제2 가속도(217)를, 제1 시간(210)과 제2 시간(214) 사이의 세 개의 공간 차원에서의 유저 입력 디바이스의 가속도의 평균으로서 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저 입력 디바이스를 통한 제2 가속도(217)를, 제1 시간(210)과 제2 시간(214) 사이의 세 개의 공간 차원에서의 유저 입력 디바이스의 가속도의 합의 제곱근으로서 결정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 시간(210)과 제2 시간(214) 사이에 유저 입력 디바이스의 최대 가속도를 측정하는 것에 의해 유저 입력 디바이스를 통해 제2 가속도(217)를 측정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 시간(210)과 제2 시간(214) 사이에 유저 입력 디바이스의 평균 가속도를 측정하는 것에 의해 유저 입력 디바이스를 통해 제2 가속도(217)를 측정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 가속도(217)와 제1 가속도(213) 사이의 가속도(218)에서의 차이를 결정할 수도 있다. 예를 들면, 제1 가속도(213)가 0 m/s2이고 제2 가속도(217)가 1 m/s2인 경우, 미디어 안내 애플리케이션은 가속도(218)에서의 차이를 1 m/s2인 것으로 계산할 수도 있다. 미디어 안내 애플리케이션은, 제2 가속도(217)로부터 제1 가속도(213)를 감산하는 것, 및 옵션 사항으로(optionally), 결과의 절대 값을 취하는 것에 의해, 가속도(218)에서의 차이를 계산할 수도 있다. 가속도(218)에서의 차이를 계산함에 있어서, 미디어 안내 애플리케이션은 제1 가속도(213), 제2 가속도(217), 및/또는 가속도(218)에서의 차이를 인근 값으로 반올림할 수도 있다.
몇몇 실시형태에서, 제2 가속도와 제1 가속도 사이의 가속도(218)에서의 차이를 결정하는 것에 기초하여, 미디어 안내 애플리케이션은 가속도(218)에서의 차이를 임계 가속도에 비교할 수도 있다. 예를 들면, 가속도(218)에서의 차이가 1 m/s2이고 임계 가속도가 0.25 m/s2인 경우, 미디어 안내 애플리케이션은 1 m/s2를 0.25 m/s2에 비교할 수도 있다. 몇몇 실시형태에서, 임계 가속도는, 유저가 유저 입력 디바이스를 그들의 입에 더 가까이 가져갈 때의 유저 입력 디바이스의 평균 가속도로서 결정될 수도 있다.
몇몇 실시형태에서, 가속도(218)에서의 차이를 임계 가속도에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은 가속도(218)에서의 차이가 임계 가속도보다 더 크다는 것을 결정할 수도 있다. 예를 들면, 가속도(218)에서의 차이가 1 m/s2이고 임계 가속도가 0.25 m/s2인 경우, 미디어 안내 애플리케이션은 1 m/s2가 0.25 m/s2보다 더 크다는 것을 결정할 수도 있다.
몇몇 실시형태에서, 가속도(218)에서의 차이가 임계 시간보다 더 작다는 것을 결정하는 것에 기초하여, 미디어 안내 애플리케이션은, 제1 입력(208)의 일부분을 제2 입력(220)의 일부분으로 대체하는 것에 의해, 제1 입력(208)에 기초하여 정정된 입력(222)을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 입력(208)의 일부분을 전체 제2 입력(220)으로 대체하는 것에 의해, 제1 입력(208)에 기초하여 정정된 입력(222)을 생성할 수도 있다. 예를 들면, 제1 입력(208)이 "Show me shows about Boston"이고, 제2 입력(220)이 "Austin"인 경우, 미디어 안내 애플리케이션은 "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력(222)을 생성할 수도 있다. 미디어 안내 애플리케이션은, 미국 특허 출원 공개공보 제2014/0337370호, 미국 특허 제9,514,743호, 및 미국 특허 출원 공개공보 제2009/0228273호에서 설명되는 것과 같은, 제1 입력(208)의 일부분을 제2 입력(220)의 일부분으로 대체하기 위한 임의의 공지된 방법을 사용할 수도 있는데, 이들 특허 문헌의 각각의 내용은 참조에 의해 그들 전체가 본원에 통합된다.
검색 결과(212)가 제시될 때와 유저가 제2 음성(216)를 말할 때 사이에 유저 입력 디바이스의 가속도(218)에서의 차이를 계산하는 것은 도움이 될 수도 있는데, 그 이유는 가속도(218)에서의 차이가 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도하였는지의 여부를 나타낼 수도 있기 때문이다. 제1 입력(208)에 에러가 있는 경우, 유저는 유저 입력 디바이스가 제2 음성(216)을 더욱 정확하게 검출하는 것을 가능하게 하는 의도를 가지고 유저 입력 디바이스를 그의/그녀의 입에 더 가까이 가져갈 수도 있고 제2 음성(216)을 올바르게 인식시키는 더 나은 기회를 가질 수도 있다. 유저 입력 디바이스를 유저의 입에 더 가까이 가져가는 움직임은, 임계 가속도를 초과하는 유저 입력 디바이스의 가속도에서의 차이로서 검출될 수 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 검색 결과(212)를 브라우징하는 것과 관련되는 어떠한 입력도 제1 시간(210)과 제2 시간(214) 사이에 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것에 기초하여 정정된 입력(222)을 생성할 수도 있다. 예를 들면, 검색 결과(212)를 브라우징하는 것과 관련되는 입력은, 디스플레이된 검색 결과(212)를 상하로 스크롤하기 위한 입력, 검색 결과(212)를 열기 위한 입력, 검색 결과(212)를 재생하기 위한 입력, 및 검색 결과(212)의 설명을 읽기 위한 입력을 포함할 수도 있다. 미디어 안내 애플리케이션은 제1 시간(210)과 제2 시간(214) 사이에 유저 입력 디바이스를 통해 수신되는 입력을 모니터링하여, 수신된 입력의 타입 중 어느 것도 검색 결과(212)를 브라우징하는 것과 관련되지 않는다는 것을 결정할 수도 있다.
유저가 제2 음성(216)을 말한 제2 시간(214)과 미디어 안내 애플리케이션이 제1 입력(208)에 대한 검색 결과(212)를 디스플레이를 위해 생성한 제1 시간(210) 사이에, 검색 결과(212)를 브라우징하는 것과 관련되는 어떠한 입력도 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것은 도움이 될 수도 있는데, 그 이유는, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도하였는지의 여부를 이 결정이 나타낼 수도 있기 때문이다. 제1 음성(206)이 제1 입력(208)을 생성함에 있어서 올바르게 인식되었다면, 유저는 검색 결과(212)가 제시된 이후 검색 결과(212)를 브라우징하는 것과 관련되는 입력을 입력할 수도 있다. 예를 들면, 제1 음성(206)이 정확하게 인식되었다면, 유저는 검색 결과(212)를 스크롤할 수도 있고, 검색 결과(212)의 설명을 읽을 수도 있고, 검색 결과(212)를 열 수도 있고, 검색 결과(212)를 재생할 수도 있고, 등등을 할 수도 있다. 그러나, 제1 음성(206)의 일부분이 부정확하게 인식되었다면, 유저는 검색 결과(212)가 제1 음성(206)에서 요청된 것과 매치하지 않는다는 것을 인식할 수도 있다. 따라서, 유저는 검색 결과(212)를 스크롤하지 않을 수도 있고, 검색 결과(212)의 설명을 읽지 않을 수도 있고, 검색 결과(212)를 열지 않을 수도 있고, 검색 결과(212)를 재생하지 않을 수도 있고, 등등을 하지 않을 수도 있다. 대신, 유저는 검색 결과(212)를 브라우징하는 것과 관련되는 어떠한 입력도 유저 입력 디바이스를 통해 입력하지 않은 상태에서 검색 결과(212)를 본 이후 부정확하게 인식된 제1 음성(206)을 정정하기 위해 제2 음성(216)을 말할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 시간(210)과 제2 시간(214) 사이에 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 유저 입력 디바이스에 포함되는 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하는 것에 기초하여 정정된 입력(222)을 생성할 수도 있다. 몇몇 실시형태에서, 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하기 위해, 미디어 안내 애플리케이션은 얼굴 인식 기술을 사용하여 유저의 얼굴 이미지를 분석하여 분노 및 슬픔과 같은 표정을 검출할 수도 있다. 미디어 안내 애플리케이션은, [Kulkarni, Saket S., Narender P. Reddy, and S. I. Hariharan. "Facial expression (mood) recognition from facial images using committee neural networks." Biomedical Engineering Online 8.1 (2009): 16]에서의 방법과 같은, 얼굴의 이미지에서 표정을 검출하는 임의의 방법을 사용할 수도 있는데, 이 문헌의 내용은 참조에 의해 그 전체가 본원에 통합된다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 불만족스러운 얼굴 표정을 검출하는 것 외에/그 대신, 불평등과 같은 불만족스러운 사운드를 검출할 수도 있다.
이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하는 것은 도움이 될 수도 있는데, 그 이유는, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도하였는지의 여부를 이 결정이 나타낼 수도 있기 때문이다. 제1 음성(206)이 부정확하게 인식되었고, 제시되는 검색 결과(212)가 유저가 의도한 것과 매치하지 않으면, 유저는 불만족할 수도 있고, 따라서 유저의 얼굴은 불만족스러운 표정을 나타낼 수도 있다. 제1 음성(206)이 올바르게 인식되었고 제시되는 검색 결과(212)가 유저가 의도한 것과 매치하면, 유저는 만족될 수도 있고, 따라서, 유저의 얼굴은 불만족스러운 표정을 나타내지 않을 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제1 음성(206)이 수신되고 있는 동안, 유저의 얼굴의 제1 이미지를 캡쳐하고, 제1 이미지에서 유저의 얼굴의 제1 상대적 사이즈를 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 제2 음성(216)이 수신되고 있는 동안, 유저의 얼굴의 제2 이미지를 캡쳐하고, 제2 이미지에서 유저의 얼굴의 제2 상대적 사이즈를 결정할 수도 있다. 몇몇 실시형태에서, 유저 입력 디바이스는 유저 입력 디바이스에 포함되는 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 예를 들면, 유저 입력 디바이스가 이동 전화인 경우, 이동 전화는 자신의 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 텔레비전 상에서 미디어 자산을 보고 있을 수도 있고, 텔레비전은 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 유저는 컴퓨터 상에서 미디어 자산을 보고 있을 수도 있고, 컴퓨터는 통합 카메라를 가질 수도 있고 카메라를 사용하여 유저의 얼굴의 이미지를 캡쳐할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 이미지에서 유저의 얼굴에 의해 점유되는 픽셀의 수를 카운트하는 것에 의해 이미지에서의 유저의 얼굴의 상대적 사이즈를 계산할 수도 있다. 제1 및 제2 이미지에서의 유저의 얼굴의 상대적 사이즈를 결정하기 위해, 미디어 안내 애플리케이션은 도 9 내지 도 10을 참조하여 설명되는 방법을 사용할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저의 얼굴의 제1 상대적 사이즈와 유저의 얼굴의 제2 상대적 사이즈 사이의 상대적 사이즈 차이를 임계 상대적 사이즈에 비교할 수도 있다. 미디어 안내 애플리케이션은 제2 상대적 사이즈로부터 제1 상대적 사이즈를 감산하는 것에 의해 상대적 사이즈 차이를 계산할 수도 있다. 예를 들면, 제1 상대적 사이즈가 3 메가픽셀이고 제2 상대적 사이즈가 4 메가픽셀인 경우, 미디어 안내 애플리케이션은 상대적 사이즈 차이를 1 메가픽셀인 것으로 계산할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상대적 사이즈 차이를 임계 상대적 사이즈에 비교하는 것에 기초하여, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정할 수도 있다. 예를 들면, 상대적 사이즈 차이가 1 메가픽셀이고 임계 상대적 사이즈가 0.5 메가픽셀인 경우, 미디어 안내 애플리케이션은 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상대적 사이즈 차이가 임계 상대적 사이즈보다 더 크다는 것을 결정하는 것에 기초하여 정정된 입력(222)을 생성할 수도 있다.
따라서, 전술한 방법은, 제1 음성(206)이 수신되는 동안 촬영되는 이미지에서의 유저의 얼굴의 상대적 사이즈가 제2 음성(216)이 수신되는 동안 촬영되는 이미지에서의 유저의 얼굴의 상대적 사이즈보다 더 작은지의 여부를 결정한다. 이것은, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도하였는지의 여부를 결정함에 있어서 도움이 될 수도 있다. 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도한 경우, 유저는 그의/그녀의 얼굴을 유저 입력 디바이스에 더 가까이 가져가려고 시도할 수도 있고, 따라서, 유저 입력 디바이스는 제2 음성(216)을 더욱 정확하게 검출할 수 있고 제2 음성(216)을 정확하게 인식하는 더 나은 기회를 가질 수 있다. 유저가 그의/그녀의 얼굴을 유저 입력 디바이스에 더 가까이 가져가는 경우, 이것은, 제1 음성(206)이 수신되는 동안 캡쳐되는 이미지에서의 유저의 얼굴의 사이즈와 대비하여, 제2 음성(216)이 수신되는 동안 캡쳐되는 이미지에서의 유저의 얼굴의 사이즈에서의 증가로서 검출될 수 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 유저 입력 디바이스를 통해, 기준 환경 노이즈 레벨을 측정할 수도 있다. 몇몇 실시형태에서, 기준 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 유저가 어떠한 입력도 말하고 있지 않을 때 기준 오디오 녹음을 캡쳐할 수도 있다. 미디어 안내 애플리케이션은 기준 오디오 녹음에서의 평균 전력을 측정하는 것에 의해 이 오디오 녹음에서의 환경 노이즈 레벨을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 제1 음성(206)이 수신되는 동안, 유저 입력 디바이스를 통해, 환경 노이즈 레벨을 측정할 수도 있다. 몇몇 실시형태에서, 제1 음성(206)이 수신되고 있는 동안 환경 노이즈 레벨을 측정하기 위해, 유저 입력 디바이스는 제1 음성(206)이 수신되고 있을 때 오디오 녹음을 캡쳐할 수도 있고, 미국 특허 출원 공개공보 제2005/0182504호 및 미국 특허 출원 공개공보 제2008/0134866에서 논의되는 것과 같은 임의의 공지된 기술을 사용하여 오디오 녹음에서 목소리를 필터링해 낼 수도 있다. 그 다음, 미디어 안내 애플리케이션은 오디오 녹음에서 나머지 신호의 평균 전력을 측정하여, 이 오디오 녹음에서의 환경 노이즈 레벨을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제1 음성(206)이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교할 수도 있다. 몇몇 실시형태에서, 제1 음성(106)이 수신되고 있는 동안의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교하는 것에 기초하여, 미디어 안내 애플리케이션은, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 것을 결정할 수도 있다. 예를 들면, 환경 노이즈 레벨 차이가 0.1 mW이고 임계 환경 노이즈 레벨이 0.01 mW인 경우, 미디어 안내 애플리케이션은, 0.1 mW가 0.01 mW보다 더 크다는 것을 결정할 수도 있다. 몇몇 실시형태에서, 미디어 안내는, 환경 노이즈 레벨 차이가 임계 환경 노이즈 레벨보다 더 크다는 결정에 기초하여 정정된 입력 (222)을 생성 할 수도 있다.
제1 음성(206)이 수신될 때의 환경 노이즈 레벨이 기준 환경 노이즈 레벨보다 더 큰 임계 환경 노이즈 레벨이다는 것을 결정하는 것은, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도하였는지의 여부를 결정함에 있어서 도움이 될 수도 있다. 예를 들면, 제1 음성(206)이 수신될 때의 환경 노이즈 레벨이 큰 경우, 노이즈에 기인하여 제1 음성(206)이 정확하게 인식되지 않았을 더 큰 가능성이 있을 수도 있고, 유저가 제2 음성(216)으로 제1 입력(208)에서의 에러를 정정하려고 의도했을 더 큰 가능성이 있을 수도 있다.
상기에서 논의되는 바와 같이, 미디어 안내 애플리케이션은, (1) 제1 시간과 제2 시간 사이의 차이가 임계치보다 더 작음; (2) 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 제1 시간과 제2 시간 사이에 수신되지 않음; (3) 제1 시간과 제2 시간 사이에 캡쳐되는 이미지에서의 유저의 얼굴이 불만족스러운 감정과 관련됨; (4) 제2 음성이 수신되는 동안 캡쳐되는 이미지에서의 유저의 얼굴의 상대적 사이즈가, 제1 음성이 수신되는 동안 캡쳐되는 이미지에서의 유저의 얼굴의 상대적 사이즈보다 더 큼; (5) 제1 음성이 수신될 때의 환경 노이즈 레벨과 기준 환경 노이즈 레벨 사이의 차이가 임계 환경 노이즈 레벨보다 더 큼; 및 (6) 제1 가속도와 제2 가속도 사이의 차이가 임계 가속보다 더 큼을 비롯한, 상이한 조건에 기초하여 정정된 입력을 생성할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 정정된 입력을 생성할지의 여부를 결정하기 위해 다른 조건을 사용할 수도 있다. 제1 입력을 정정할 때 유저가 제2 음성을 더 느리게 말할 수도 있기 때문에, 몇몇 실시형태에서, 미디어 안내 애플리케이션은 유저가 제2 음성의 각각의 단어를 발음하는 데 얼마나 오래 걸렸는지를 측정하여 제2 음성에서 단어의 평균 발음 시간을 계산할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 평균 발음 시간이 임계 발음 시간보다 더 큰 것에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 제1 음성에서 단어의 평균 발음 시간을 계산할 수도 있고, 제2 음성의 평균 발음 시간이 제1 음성에서의 단어의 평균 발음 시간보다 더 큰 것에 기초하여 정정된 입력을 생성할 수도 있다.
제1 입력을 정정할 때 유저가 더 높은 피치(pitch)에서 제2 음성을 말할 수도 있기 때문에, 몇몇 실시형태에서, 미디어 안내 애플리케이션은 제2 음성에서의 평균 에너지 레벨을 측정할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 제2 음성에서의 평균 에너지 레벨이 임계 에너지 레벨보다 더 큰 것에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은 제1 음성에서 평균 에너지 레벨을 측정할 수도 있고, 제2 음성의 평균 발음 시간이 제1 음성에서의 단어의 평균 발음 시간보다 더 큰 것에 기초하여 평균 발음 시간에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 음성에서 오디오의 피크 값을 계산하는 것 또는 음성에서 오디오의 제곱 평균 제곱근(root-mean-square) 값을 계산하는 것에 의해, 평균 에너지 레벨을 측정할 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상기 조건 중 하나가 충족되는 것에 기초하여 정정된 입력을 생성할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, 조건(1)이 충족되는 것에 기초하여 정정된 입력을 생성할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, 조건(6)이 충족되는 것에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상기 조건 중 두 개가 충족되는 것에 기초하여 정정된 입력을 생성할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, 조건 (1) 및 (2)가 충족되는 것, 또는 조건 (1) 및 (3)이 충족되는 것, 또는 조건 (1) 및 (4)가 충족되는 것, 또는 조건 (1) 및 (5)가 충족되는 것, 또는 조건 (6) 및 (2)가 충족되는 것, 또는 조건 (6) 및 (3)이 충족되는 것, 또는 조건 (6) 및 (4)가 충족되는 것, 또는 조건 (6) 및 (5)가 충족되는 것, 또는 조건 (1) 및 (6)이 충족되는 것에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 상기 조건 중 두 개보다 더 많은 것이 충족되는 것에 기초하여 정정된 입력을 생성할 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 두 개의 조건 중 하나가 충족되는 것, 또는 세 개의 조건 중 두 개가 충족되는 것, 또는 임의의 다른 수의 조건 중에서부터의 임의의 수의 조건이 충족되는 것에 기초하여 정정된 입력을 생성할 수도 있다.
임의의 주어진 콘텐츠 전달 시스템에서 유저가 이용 가능한 콘텐츠의 양은 상당할 수 있다. 결과적으로, 많은 유저는, 유저가 콘텐츠 선택을 효율적으로 탐색하는 것 및 그들이 소망할 수도 있는 콘텐츠를 쉽게 식별하는 것을 허용하는 인터페이스를 통한 미디어 안내의 형태를 소망한다. 그러한 안내를 제공하는 애플리케이션은 본원에서는 상호 작용식(interactive) 미디어 안내 애플리케이션으로, 때로는, 미디어 안내 애플리케이션 또는 안내 애플리케이션으로 칭해진다.
상호 작용식 미디어 안내 애플리케이션은, 그들이 안내를 제공하는 콘텐츠에 의존하여 다양한 형태를 취할 수도 있다. 하나의 통상적인 타입의 미디어 안내 애플리케이션은 상호 작용식 텔레비전 프로그램 가이드이다. 상호 작용식 텔레비전 프로그램 가이드(종종 전자 프로그램 가이드로 칭해짐)는, 다른 것들 중에서도, 유저가 많은 타입의 콘텐츠 또는 미디어 자산 사이에 탐색하는 것 및 많은 타입의 콘텐츠 또는 미디어 자산의 위치를 결정하는 것을 허용하는 널리 알려진 안내 애플리케이션이다. 상호 작용식 미디어 안내 애플리케이션은, 유저가 콘텐츠 사이를 탐색하고, 콘텐츠의 위치를 결정하고, 콘텐츠를 선택하는 것을 가능하게 하는 그래픽 유저 인터페이스 스크린을 생성할 수도 있다. 본원에서 언급될 때, 용어 "미디어 자산" 및 "콘텐츠"는, 텔레비젼 프로그램뿐만 아니라, 유료 시청(pay-per-view) 프로그램, (주문형 비디오(video-on-demand; VOD) 시스템에서와 같은) 주문형 프로그램(on-demand program), 인터넷 콘텐츠(예를 들면, 스트리밍 콘텐츠, 다운로드 가능한 콘텐츠, 웹캐스트, 등등), 비디오 클립, 오디오, 콘텐츠 정보, 그림, 회전 이미지, 문서, 재생 목록, 웹사이트, 기사, 서적, 전자책, 블로그, 채팅 세션, 소셜 미디어, 애플리케이션, 게임, 및/또는 임의의 다른 미디어 또는 멀티미디어 및/또는 이들의 조합과 같은, 전자적으로 소비 가능한 유저 자산을 의미하는 것으로 이해되어야 한다. 안내 애플리케이션은 또한, 유저가 콘텐츠 사이를 탐색하는 것 및 콘텐츠의 위치를 결정하는 것을 허용한다. 본원에서 언급되는 바와 같이, 용어 "멀티미디어"는, 상기에서 설명되는 적어도 두 개의 상이한 콘텐츠 형태, 예를 들면, 텍스트, 오디오, 이미지, 비디오, 또는 상호 작용식 콘텐츠 형태를 활용하는 콘텐츠를 의미하는 것으로 이해되어야 한다. 콘텐츠는 유저 기기 디바이스에 의해 녹화, 재생, 디스플레이 또는 액세스될 수도 있지만, 그러나 또한 라이브 공연의 일부일 수 있다.
본원에서 논의되는 실시형태 중 임의의 것을 수행하기 위한 임의의 명령어들 및/또는 미디어 안내 애플리케이션은, 컴퓨터 판독 가능 매체 상에 인코딩될 수도 있다. 컴퓨터 판독 가능 매체는 데이터를 저장할 수 있는 임의의 매체를 포함한다. 컴퓨터 판독 가능 매체는, 전기 신호 또는 전자기 신호를 전파하는 것을 포함하지만 그러나 이것으로 제한되지는 않는 일시적인 것일 수도 있거나, 또는 휘발성 및 불휘발성 컴퓨터 메모리 또는 스토리지 디바이스 예컨대 하드 디스크, 플로피 디스크, USB 드라이브, DVD, CD, 미디어 카드, 레지스터 메모리, 프로세서 캐시, RAM(Random Access Memory; "RAM"), 등등을 포함하지만 그러나 이들로 제한되지는 않는 비일시적인 것일 수도 있다.
인터넷, 모바일 컴퓨팅, 및 고속 무선 네트워크의 출현으로, 유저는, 그들이 전통적으로는 하지 않았던, 유저 기기 디바이스 상에서 미디어에 액세스하고 있다. 본원에서 언급되는 바와 같이, 어구 "유저 기기 디바이스", "유저 기기", "유저 디바이스", "전자 디바이스", "전자 기기", "미디어 기기 디바이스, "또는 "미디어 디바이스"는, 상기에서 설명되는 콘텐츠에 액세스하기 위한 임의의 디바이스, 예컨대 텔레비전, 스마트 TV, 셋탑 박스, 위성 텔레비전을 핸들링하기 위한 통합 수신기 디코더(integrated receiver decoder; IRD), 디지털 스토리지 디바이스, 디지털 미디어 수신기(digital media receiver; DMR), 디지털 미디어 어댑터(digital media adapter; DMA), 스트리밍 미디어 디바이스, DVD 플레이어, DVD 레코더, 연결된 DVD, 로컬 미디어 서버, BLU-RAY(블루레이) 플레이어, BLU-RAY 레코더, 퍼스널 컴퓨터(personal computer; PC), 랩탑 컴퓨터 , 태블릿 컴퓨터, WebTV 박스, 퍼스널 컴퓨터 텔레비전(personal computer television; PC/TV), PC 미디어 서버, PC 미디어 센터, 핸드헬드 컴퓨터, 고정식 전화기, 개인 휴대 정보 단말기(personal digital assistant; PDA), 이동 전화 , 휴대용 비디오 플레이어, 휴대용 뮤직 플레이어, 휴대용 게임기, 스마트 폰, 또는 임의의 다른 텔레비전 기기, 컴퓨팅 기기, 또는 무선 디바이스, 및/또는 이들의 조합을 의미하는 것으로 이해되어야 한다. 몇몇 실시형태에서, 유저 기기 디바이스는 전면 대향 스크린 및 후면 대향 스크린, 다수의 전면 스크린, 또는 다수의 경사진 스크린(angled screen)을 구비할 수도 있다. 몇몇 실시형태에서, 유저 기기 디바이스는 전면 대향 카메라 및/또는 후면 대향 카메라를 구비할 수도 있다. 이들 유저 기기 디바이스 상에서, 유저는 텔레비전을 통해 이용 가능한 동일한 콘텐츠 사이를 탐색하고 그 동일한 콘텐츠의 위치를 결정할 수도 있다. 결과적으로, 미디어 안내는 이들 디바이스 상에서도 또한 이용 가능할 수도 있다. 제공되는 안내는, 텔레비전을 통해서만 이용 가능한 콘텐츠에 대한 것일 수도 있거나, 다른 타입의 유저 기기 디바이스 중 하나 이상을 통해서만 이용 가능한 콘텐츠에 대한 것일 수도 있거나, 또는 다른 타입의 유저 기기 디바이스 중 하나 이상 및 텔레비전 둘 모두를 통해 이용 가능한 콘텐츠에 대한 것일 수도 있다. 미디어 안내 애플리케이션은 온라인 애플리케이션(즉, 웹 사이트 상에서 제공됨)으로서, 또는 유저 기기 디바이스 상의 클라이언트 또는 독립형 애플리케이션으로서 제공될 수도 있다. 미디어 안내 애플리케이션을 구현할 수도 있는 다양한 디바이스 및 플랫폼이 이하에서 더욱 상세하게 설명된다.
미디어 안내 애플리케이션의 기능 중 하나는, 미디어 안내 데이터를 유저에게 제공하는 것이다. 본원에서 언급되는 바와 같이, 어구 "미디어 안내 데이터" 또는 "안내 데이터"는, 안내 애플리케이션을 동작시킴에 있어서 사용되는 데이터 또는 콘텐츠에 관련되는 임의의 데이터를 의미하는 것으로 이해되어야 한다. 예를 들면, 안내 데이터는, 프로그램 정보, 안내 애플리케이션 설정, 유저 선호도, 유저 프로파일 정보, 미디어 목록, 미디어 관련 정보(예를 들면, 방송 시간, 방송 채널, 제목, 설명, 등급 정보(예를 들면, 자녀 보호 등급(parental control rating), 평론가의 등급, 등등), 장르 또는 카테고리 정보, 배우 정보, 방송국의 또는 공급자의 로고에 대한 로고 데이터, 등등), 미디어 포맷(예를 들면, 표준 화질, 고화질, 3D, 등등), 주문형 정보, 블로그, 웹사이트, 및 유저가 소망되는 콘텐츠 셀렉션 사이를 탐색하고 콘텐츠 셀렉션의 위치를 결정하는 데 도움이 되는 임의의 다른 타입의 안내 데이터를 포함할 수도 있다.
도 3 및 도 4는 미디어 안내 데이터를 제공하기 위해 사용될 수도 있는 예시적인 디스플레이 스크린을 도시한다. 도 3 및 도 4에서 도시되는 디스플레이 스크린은 임의의 적절한 유저 기기 디바이스 또는 플랫폼 상에서 구현될 수도 있다. 도 3 및 도 4의 디스플레이가 전체 스크린 디스플레이로서 예시되지만, 그들은 또한 디스플레이되고 있는 콘텐츠 위에 전체적으로 또는 부분적으로 중첩될 수도 있다. 유저는, 디스플레이 스크린에서 제공되는 선택 가능한 옵션(예를 들면, 메뉴 옵션, 목록 옵션, 아이콘, 하이퍼링크, 등등)을 선택하는 것에 의해 또는 리모콘(remote control) 또는 다른 유저 입력 인터페이스 또는 디바이스 상의 전용 버튼(예를 들면, GUIDE 버튼)을 누르는 것에 의해, 콘텐츠 정보에 액세스하려는 소망을 나타낼 수도 있다. 유저의 지시(indication)에 응답하여, 미디어 안내 애플리케이션은, 그리드 형상의 시간 및 채널별, 시간별, 채널별, 소스별, 콘텐츠 타입별, 카테고리(예를 들면, 영화, 스포츠, 뉴스, 어린이, 또는 다른 카테고리의 프로그램)별, 또는 다른 미리 정의된, 유저 정의의, 또는 다른 편제 기준과 같은 여러 가지 방식 중 하나로 편제되는 미디어 안내 데이터를 디스플레이 스크린에 제공할 수도 있다.
도 3은, 단일 디스플레이에서 상이한 타입의 콘텐츠에 대한 액세스를 또한 가능하게 하는, 시간 및 채널별로 배열되는 프로그램 목록 디스플레이(300)의 예시적인 그리드를 도시한다. 디스플레이(300)는 다음을 갖는 그리드(302)를 포함할 수도 있다: (1) 채널/콘텐츠 타입 식별자 - 각각의 채널/콘텐츠 타입 식별자(이것은 열(column) 내의 셀임)는 이용 가능한 상이한 채널 또는 콘텐츠 타입을 식별함 - 의 열(304); 및 (2) 시간 식별자 - 각각의 시간 식별자(이것은 행(row) 내의 셀임)는 프로그램의 시간 블록을 식별함 - 의 행(306). 그리드(302)는 또한 프로그램 목록(308)과 같은 프로그램 목록의 셀을 포함하는데, 여기서, 각각의 목록은 목록의 관련 채널 및 시간 상에서 제공되는 프로그램의 제목을 제공한다. 유저 입력 디바이스를 사용하여, 유저는 하이라이트 영역(310)을 이동시키는 것에 의해 프로그램 목록을 선택할 수 있다. 하이라이트 영역(310)에 의해 선택되는 프로그램 목록에 관한 정보는 프로그램 정보 영역(312)에서 제공될 수도 있다. 영역(312)은, 예를 들면, 프로그램 제목, 프로그램 설명, 프로그램이 제공되는 시간(적용 가능한 경우), 프로그램이 방송되는 채널(적용 가능한 경우), 프로그램의 등급, 및 다른 소망되는 정보를 포함할 수도 있다.
선형적인 프로그램(예를 들면, 미리 결정된 시간에 복수의 유저 기기 디바이스로 송신되도록 스케줄링되고 스케줄에 따라 제공되는 콘텐츠)에 대한 액세스를 제공하는 것에 추가하여, 미디어 안내 애플리케이션은 또한, 선형적이지 않은 프로그램(예를 들면, 임의의 시간에 유저 기기 디바이스가 액세스할 수도 있는 그리고 스케줄에 따라 제공되지 않는 콘텐츠)에 대한 액세스를 제공한다. 선형적이지 않은 프로그램은, 주문형 콘텐츠(예를 들면, VOD), 인터넷 콘텐츠(예를 들면, 스트리밍 미디어, 다운로드 가능한 미디어, 등등), 로컬 저장 콘텐츠(예를 들면, 상기에서 설명되는 임의의 유저 기기 디바이스 또는 다른 스토리지 디바이스 상에 저장되어 있는 콘텐츠), 또는 다른 시간 독립적인 콘텐츠를 포함하는 상이한 콘텐츠 소스로부터의 콘텐츠를 포함할 수도 있다. 주문형 콘텐츠는 특정한 콘텐츠 공급자(예를 들면, "The Sopranos" 및 "Curb Your Enthusiasm"를 제공하는 HBO On Demand)에 의해 제공되는 임의의 다른 콘텐츠 또는 영화를 포함할 수도 있다. HBO ON DEMAND는 Time Warner Company L.P. 등등이 소유한 서비스 마크이며, THE SOPRANOS 및 CURB YOUR ENTHUSIASM은 Home Box Office, Inc.가 소유한 상표이다. 인터넷 콘텐츠는, 채팅 세션 또는 웹캐스트와 같은 웹 이벤트, 또는 인터넷 웹사이트 또는 다른 인터넷 액세스(예를 들면, FTP)를 통해 스트리밍 콘텐츠 또는 다운로드 가능한 콘텐츠로서 요청에 따라(on-demand) 이용 가능한 콘텐츠를 포함할 수도 있다.
그리드(302)는 주문형 목록(on-demand listing)(314), 녹화된 콘텐츠 목록(316), 및 인터넷 콘텐츠 목록(318)을 포함하는 비 선형 프로그램에 대한 미디어 안내 데이터를 제공할 수도 있다. 상이한 타입의 콘텐츠 소스로부터의 콘텐츠에 대한 미디어 안내 데이터를 결합하는 디스플레이는, 종종, "혼합 미디어" 디스플레이로 칭해진다. 디스플레이(300)와는 상이한, 디스플레이될 수도 있는 미디어 안내 데이터의 타입의 다양한 조합은, 유저 선택 또는 안내 애플리케이션 정의(예를 들면, 녹화된 및 방송된 목록만의, 주문형 및 방송된 목록만의, 등등의 디스플레이)에 기초할 수도 있다. 예시되는 바와 같이, 목록(314, 316 및 318)은, 이들 목록의 선택이 주문형 목록, 녹화된 목록, 또는 인터넷 목록에 각각 전용되는 디스플레이에 대한 액세스를 제공할 수도 있다는 것을 나타내기 위해, 그리드(302)에서 디스플레이되는 전체 시간 블록에 걸쳐 확장하는 것으로 도시된다. 몇몇 실시형태에서, 이들 콘텐츠 타입에 대한 목록은 그리드(302)에 직접적으로 포함될 수도 있다. 추가적인 미디어 안내 데이터는, 유저가 내비게이션 아이콘(320) 중 하나를 선택하는 것에 응답하여 디스플레이될 수도 있다. (유저 입력 디바이스 상의 화살표 키를 누르는 것은, 내비게이션 아이콘(320)을 선택하는 것과 유사한 방식으로 디스플레이에 영향을 줄 수도 있다.)
디스플레이(300)는 또한 비디오 영역(322), 및 옵션 영역(326)을 포함할 수도 있다. 비디오 영역(322)은, 유저가 현재 이용 가능한, 이용 가능할, 또는 이용 가능했던 프로그램을 유저가 보는 것 및/또는 미리 보는 것을 허용할 수도 있다. 비디오 영역(322)의 콘텐츠는 그리드(302)에서 디스플레이되는 목록 중 하나의 목록에 대응할 수도 있거나, 또는 그 하나의 목록과는 독립적일 수도 있다. 비디오 영역을 포함하는 그리드 디스플레이는 때때로 픽쳐 인 가이드(picture-in-guide; PIG) 디스플레이로 칭해진다. PIG 디스플레이 및 그들의 기능성은, 2003년 5월 13일자로 발행된 Satterfield 등등의 미국 특허 제6,564,378호 및 2001년 5월 29일자로 발행된 Yuen 등등의 미국 특허 제6,239,794호에서 상세히 설명되는데, 이들 특허는 참조에 의해 그들 전체가 본원에 통합된다. PIG 디스플레이는 본원에서 설명되는 실시형태의 다른 미디어 안내 애플리케이션 디스플레이 스크린에 포함될 수도 있다.
옵션 영역(326)은, 유저가 상이한 타입의 콘텐츠, 미디어 안내 애플리케이션 디스플레이, 및/또는 미디어 안내 애플리케이션 피쳐에 액세스하는 것을 허용할 수도 있다. 옵션 영역(326)은 디스플레이(300)(및 본원에서 설명되는 다른 디스플레이 스크린)의 일부일 수도 있거나, 또는 온 스크린(on-screen) 옵션을 선택하는 것 또는 유저 입력 디바이스 상의 전용 또는 할당 가능한 버튼을 누르는 것에 의해, 유저에 의해 호출될 수도 있다. 옵션 영역(326) 내의 선택 가능한 옵션은 그리드(302) 내의 프로그램 목록과 관련되는 피쳐에 관련될 수도 있거나, 또는 메인 메뉴 디스플레이로부터 이용 가능한 옵션을 포함할 수도 있다. 프로그램 목록에 관련되는 피쳐는, 다른 방송 시간에 대한 검색 또는 프로그램을 수신하는, 프로그램을 녹화하는, 프로그램의 일련의 녹화를 가능하게 하는, 프로그램 및/또는 채널을 즐겨찾기로 설정하는, 프로그램을 구매하는, 또는 다른 피쳐의 방식을 포함할 수도 있다. 메인 메뉴 디스플레이로부터 이용 가능한 옵션은, 검색 옵션, VOD 옵션, 자녀 보호 옵션(parental control options), 인터넷 옵션, 클라우드 기반의 옵션, 디바이스 동기화 옵션, 제2 스크린 디바이스 옵션, 다양한 타입의 미디어 안내 데이터 디스플레이에 액세스하기 위한 옵션, 프리미엄 서비스에 가입하기 위한 옵션, 유저 프로파일 편집 옵션, 브라우저 오버레이에 액세스하기 위한 옵션, 또는 다른 옵션을 포함할 수도 있다.
미디어 안내 애플리케이션은 유저의 환경설정에 기초하여 개인 맞춤될 수도 있다. 개인 맞춤된 미디어 안내 애플리케이션은, 미디어 안내 애플리케이션을 사용하여 개인 맞춤된 "경험"을 생성하도록, 유저가 디스플레이 및 피쳐를 커스터마이징하는 것을 허용한다. 이 개인 맞춤된 경험은, 유저가 이들 커스텀화를 입력하는 것을 허용하는 것에 의해 및/또는 미디어 안내 애플리케이션이 유저 활동을 모니터링하여 다양한 유저 환경설정을 결정하는 것에 의해 생성될 수도 있다. 유저는, 안내 애플리케이션에 로그인하거나 또는 다르게는 자신을 안내 애플리케이션에 식별시키는 것에 의해, 그들의 개인 맞춤된 안내 애플리케이션에 액세스할 수도 있다. 미디어 안내 애플리케이션의 커스텀화는, 유저 프로파일에 따라 이루어질 수도 있다. 커스텀화는, 다양한 표시 스킴(presentation scheme)(예를 들면, 디스플레이의 컬러 스킴, 텍스트의 글꼴 사이즈, 등등), 디스플레이되는 콘텐츠 목록의 양태(예를 들면, HDTV 전용 또는 3D 프로그램 전용, 즐겨찾기 채널 선택에 기초한 유저 명시 방송 채널, 채널 디스플레이의 재배치, 추천 콘텐츠, 등등), 소망되는 녹화 피쳐(예를 들면, 특정한 유저에 대한 녹화 또는 일련의 녹화, 녹화 품질, 등등), 자녀 보호 설정(parental control setting), 인터넷 콘텐츠의 커스터마이징된 표시(예를 들면, 소셜 미디어 콘텐츠, 전자 메일, 전자적으로 전달된 기사, 등등의 표시) 및 다른 소망되는 커스텀화를 포함할 수도 있다.
미디어 안내 애플리케이션은, 유저가 유저 프로파일 정보를 제공하는 것을 허용할 수도 있거나, 또는 유저 프로파일 정보를 자동적으로 수집할 수도 있다. 미디어 안내 애플리케이션은, 예를 들면, 유저가 액세스하는 콘텐츠 및/또는 유저가 안내 애플리케이션과 가질 수도 있는 다른 상호 작용을 모니터링할 수도 있다. 추가적으로, 미디어 안내 애플리케이션은, (예를 들면, www.Tivo.com과 같이 유저가 액세스하는 인터넷 상의 다른 웹 사이트로부터, 유저가 액세스하는 다른 미디어 안내 애플리케이션으로부터, 유저가 액세스하는 다른 상호 작용식 애플리케이션으로부터, 유저의 다른 유저 기기 디바이스로부터, 등등으로부터) 특정한 유저와 관련되는 다른 유저 프로파일의 전체 또는 일부를 획득할 수도 있고, 및/또는 미디어 안내 애플리케이션이 액세스할 수도 있는 다른 소스로부터 유저에 관한 정보를 획득할 수도 있다. 결과적으로, 유저는 유저의 상이한 유저 기기 디바이스에 걸쳐 통일된 안내 애플리케이션 경험을 제공받을 수 있다. 이 타입의 유저 경험은 도 6과 관련하여 하기에서 상세히 설명된다. 추가적인 개인 맞춤된 미디어 안내 애플리케이션 피쳐는, 2005년 7월 11일자로 출원된 Ellis 등등의 미국 특허 출원 공개 제2005/0251827호, 2007년 1월 16일자로 발행된 Boyer 등등의 미국 특허 제7,165,098호, 및 2002년 2월 21일자로 출원된 Ellis 등등의 미국 특허 출원 공보 제2002/0174430호에서 상세히 설명되어 있는데, 이들 문헌은 참조에 의해 그들 전체가 본원에 통합된다.
미디어 안내를 제공하기 위한 다른 디스플레이 배열이 도 4에 도시되어 있다. 비디오 모자이크 디스플레이(400)는, 콘텐츠 타입, 장르, 및/또는 다른 편제 기준에 기초하여 편제되는 콘텐츠 정보에 대한 선택 가능한 옵션(402)을 포함한다. 디스플레이(400)에서, 텔레비전 목록 옵션(404)이 선택되고, 따라서 방송 프로그램 목록으로서 목록(406, 408, 410 및 412)을 제공한다. 디스플레이(400)에서, 목록은 커버 아트, 콘텐츠로부터의 스틸 이미지, 비디오 클립 프리뷰, 콘텐츠로부터의 라이브 비디오, 또는 미디어 안내 데이터에 의해 설명되고 있는 콘텐츠를 목록에서 유저에게 나타내는 다른 타입의 콘텐츠를 포함하는 그래픽 이미지를 제공할 수도 있다. 그래픽 목록의 각각은 또한, 목록과 관련되는 콘텐츠에 대한 추가 정보를 제공하기 위해, 텍스트가 수반될 수도 있다. 예를 들면, 목록(408)은 미디어 부분(414) 및 텍스트 부분(416)을 비롯한, 하나보다 더 많은 부분을 포함할 수도 있다. 미디어 부분(414) 및/또는 텍스트 부분(416)은 전체 스크린에서 콘텐츠를 보기 위해 또는 미디어 부분(414)에서 디스플레이 되는 콘텐츠에 관련되는 정보를 보기 위해(예를 들면, 비디오가 디스플레이되는 채널에 대한 목록을 보기 위해) 선택 가능할 수도 있다.
디스플레이(400)에서의 목록은 상이한 사이즈를 가지지만(즉, 목록(406)은 목록(408, 410 및 412)보다 더 크지만), 그러나, 소망되는 경우, 모든 목록은 동일한 사이즈일 수도 있다. 목록은, 유저가 관심을 갖는 정도를 나타내기 위해 또는 소정의 콘텐츠를 강조하기 위해, 콘텐츠 공급자에 의해 소망되는 대로 또는 유저 환경설정에 기초하여, 상이한 사이즈를 가질 수도 있거나 또는 그래픽적으로 강조될 수도 있다. 콘텐츠 목록을 그래픽적으로 강조하기 위한 다양한 시스템 및 방법은, 예를 들면, 2009년 11월 12일자로 출원된 Yates의 미국 특허 출원 공개 공보 제2010/0153885호에서 논의되는데, 이 출원 공개 공보는 참조에 의해 그 전체가 본원에 통합된다.
유저는, 그들의 유저 기기 디바이스 중 하나 이상으로부터 콘텐츠 및 미디어 안내 애플리케이션(및 상기 및 하기에서 설명되는 그것의 디스플레이 스크린)에 액세스할 수도 있다. 도 5는 예시적인 유저 기기 디바이스(500)의 일반화된 실시형태를 도시한다. 유저 기기 디바이스의 보다 구체적인 구현예는, 도 6과 관련하여 이하에서 논의된다. 유저 기기 디바이스(500)는 입력/출력(input/output)(이하, "I/O") 경로(502)를 통해 콘텐츠 및 데이터를 수신할 수도 있다. I/O 경로(502)는 콘텐츠(예를 들면, 방송 프로그램, 주문형 프로그램, 인터넷 콘텐츠, 근거리 통신망(local area network; LAN) 또는 광역 통신망(wide area network; WAN)을 통해 이용 가능한 콘텐츠, 및/또는 다른 콘텐츠) 및 데이터를 제어 회로부(control circuitry)(504)로 제공할 수도 있는데, 제어 회로부(504)는 프로세싱 회로부(506) 및 스토리지(508)를 포함한다. 제어 회로부(504)는 I/O 경로(502)를 사용하여 커맨드, 요청, 및 다른 적절한 데이터를 전송 및 수신하기 위해 사용될 수도 있다. I/O 경로(502)는 제어 회로부(504)(및 구체적으로는 프로세싱 회로부(506))를 하나 이상의 통신 경로(하기에 설명됨)에 연결할 수도 있다. I/O 기능은 이들 통신 경로 중 하나 이상에 의해 제공될 수도 있지만, 그러나 도면이 과도하게 복잡해지는 것을 피하기 위해, 도 5에서는 단일의 경로로서 도시된다.
제어 회로부(504)는 프로세싱 회로부(506)와 같은 임의의 적절한 프로세싱 회로부에 기초할 수도 있다. 본원에서 언급되는 바와 같이, 프로세싱 회로부는, 하나 이상의 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서, 프로그래머블 로직 디바이스, 필드 프로그래머블 게이트 어레이(field-programmable gate array; FPGA), 주문형 집적 회로(Application-Specific Integrated Circuit; ASIC), 등등에 기초하는 회로부를 의미하는 것으로 이해되어야 하고, 다중 코어 프로세서(예를 들면, 듀얼 코어, 쿼드 코어, 헥사 코어, 또는 임의의 적절한 수의 코어) 또는 수퍼 컴퓨터를 포함할 수도 있다. 몇몇 실시형태에서, 프로세싱 회로부는, 다수의 별개의 프로세서 또는 프로세싱 유닛, 예를 들면, 다수의 동일한 타입의 프로세싱 유닛(예를 들면, 두 개의 인텔 코어 i7(Intel Core i7) 프로세서) 또는 다수의 상이한 프로세서(예를 들면, 인텔 코어 i5 프로세서(Intel Core i5) 및 인텔 코어 i7 프로세서)에 걸쳐 분산될 수도 있다. 몇몇 실시형태에서, 제어 회로부(504)는 메모리(즉, 스토리지(508))에 저장되는 미디어 안내 애플리케이션에 대한 명령어들을 실행한다. 구체적으로는, 제어 회로부(504)는 미디어 안내 애플리케이션에 의해 상기 및 하기에서 논의되는 기능을 수행하도록 지시받을 수도 있다. 예를 들면, 미디어 안내 애플리케이션은 미디어 안내 디스플레이를 생성하도록 제어 회로부(504)에게 명령어들을 제공할 수도 있다. 몇몇 구현예에서, 제어 회로부(504)에 의해 수행되는 임의의 액션은 미디어 안내 애플리케이션으로부터 수신되는 명령어들에 기초할 수도 있다.
클라이언트 서버 기반 실시형태에서, 제어 회로부(504)는 안내 애플리케이션 서버 또는 다른 네트워크 또는 서버와 통신하기에 적절한 통신 회로부를 포함할 수도 있다. 상기에서 언급된 기능성(functionality)을 수행하기 위한 명령어들은 안내 애플리케이션 서버 상에 저장될 수도 있다. 통신 회로부는, 케이블 모뎀, 통합 서비스 디지털 네트워크(Integrated Services Digital Network; ISDN) 모뎀, 디지털 가입자 회선(Digital Subscriber Line; DSL) 모뎀, 전화 모뎀, 이더넷 카드, 또는 다른 기기와의 통신을 위한 무선 모뎀, 또는 임의의 다른 적절한 통신 회로부를 포함할 수도 있다. 이러한 통신은 인터넷 또는 임의의 다른 적절한 통신 네트워크 또는 경로(이것은 도 6과 관련하여 더 상세하게 설명됨)를 수반할 수도 있다. 또한, 통신 회로부는, 유저 기기 디바이스의 피어 투 피어(peer-to-peer) 통신, 또는 서로 멀리 떨어져 있는 위치에 있는 유저 기기 디바이스의 통신(하기에서 더 상세히 설명됨)을 가능하게 하는 회로부를 포함할 수도 있다.
메모리는 제어 회로부(504)의 일부인 스토리지(508)로서 제공되는 전자 스토리지 디바이스일 수도 있다. 본원에서 언급되는 바와 같이, 어구 "전자 스토리지 디바이스" 또는 "스토리지 디바이스"는, 랜덤 액세스 메모리, 리드 온리 메모리, 하드 드라이브, 광학 드라이브, 디지털 비디오 디스크(digital video disc; DVD) 레코더, 콤팩트 디스크(compact disc; CD) 레코더, BLU-RAY 디스크(BD) 레코더, BLU-RAY 3D 디스크 레코더, 디지털 비디오 레코더(digital video recorder)(DVR, 종종 개인용 비디오 레코더(personal video recorder), 또는 PVR로 칭해짐), 솔리드 스테이트 디바이스, 퀀텀 스토리지 디바이스(quantum storage device), 게임용 콘솔, 게임용 미디어, 또는 임의의 다른 적절한 고정식 또는 착탈식 스토리지 디바이스, 및/또는 이들의 임의의 조합과 같은, 전자 데이터, 컴퓨터 소프트웨어, 또는 펌웨어를 저장하기 위한 임의의 디바이스를 의미하는 것으로 이해되어야 한다. 스토리지(508)는 본원에서 설명되는 다양한 타입의 콘텐츠뿐만 아니라, 상기에서 설명되는 미디어 안내 데이터를 저장하기 위해 사용될 수도 있다. (예를 들면, 부트업 루틴(boot-up routine) 및 다른 명령어들을 론칭하기 위해) 불휘발성 메모리가 또한 사용될 수도 있다. 도 6과 관련하여 설명되는 클라우드 기반 스토리지는, 스토리지(508)를 보충하기 위해 또는 스토리지(508) 대신 사용될 수도 있다.
제어 회로부(504)는, 비디오 생성 회로부 및 튜닝 회로부, 예컨대 하나 이상의 아날로그 튜너, 하나 이상의 MPEG-2 디코더 또는 다른 디지털 디코딩 회로부, 고선명 튜너, 또는 임의의 다른 적절한 튜닝 또는 비디오 회로 또는 이러한 회로의 조합을 포함할 수도 있다. 또한, (예를 들면, 공중파(over-the-air), 아날로그 또는 디지털 신호를, 저장을 위한 MPEG 신호로 변환하기 위한) 인코딩 회로부가 제공될 수도 있다. 제어 회로부(504)는 또한, 콘텐츠를 유저 기기(500)의 선호되는 출력 포맷으로 상향 변환 및 하향 변환하기 위한 스케일러 회로부(scaler circuitry)를 포함할 수도 있다. 회로부(504)는 또한, 디지털 신호와 아날로그 신호 사이를 변환하기 위한 디지털 아날로그 컨버터 회로부 및 아날로그 디지털 컨버터 회로부를 포함할 수도 있다. 튜닝 및 인코딩 회로부는, 콘텐츠를 수신하여 디스플레이하기 위해, 재생하기 위해, 또는 녹화하기 위해, 유저 기기 디바이스에 의해 사용될 수도 있다. 튜닝 및 인코딩 회로부는 또한, 안내 데이터를 수신하기 위해 사용될 수도 있다. 예를 들면, 튜닝, 비디오 생성, 인코딩, 디코딩, 암호화, 암호 해제, 스케일러, 및 아날로그/디지털 회로부를 비롯한, 본원에서 설명되는 회로부는, 하나 이상의 범용 또는 특수 프로세서 상에서 실행하는 소프트웨어를 사용하여 구현될 수도 있다. 동시적 튜닝 기능(예를 들면, 시청 및 녹화 기능, 픽쳐 인 픽쳐(picture-in-picture; PIP) 기능, 다중 튜너 녹화, 등등)을 핸들링하기 위해, 다수의 튜너가 제공될 수도 있다. 스토리지(508)가 유저 기기(500)와는 별개의 디바이스로서 제공되는 경우, 튜닝 및 인코딩 회로부(다수의 튜너를 포함함)는 스토리지(508)와 관련될 수도 있다.
유저는 유저 입력 인터페이스(510)를 사용하여 제어 회로부(504)로 명령어들을 전송할 수도 있다. 유저 입력 인터페이스(510)는, 원격 제어, 마우스, 트랙볼, 키패드, 키보드, 터치스크린, 터치 패드, 스타일러스 입력, 조이스틱, 음성 인식 인터페이스, 또는 다른 유저 입력 인터페이스와 같은 임의의 적절한 유저 인터페이스일 수도 있다. 디스플레이(512)는 독립형 디바이스로서 제공될 수도 있거나 또는 유저 기기 디바이스(500)의 다른 엘리먼트와 통합될 수도 있다. 예를 들면, 디스플레이(512)는 터치스크린 또는 터치 감지 디스플레이일 수도 있다. 그러한 환경에서, 유저 입력 인터페이스(510)는 디스플레이(512)와 통합될 수도 있거나 또는 결합될 수도 있다. 디스플레이(512)는, 모니터, 텔레비전, 모바일 디바이스용 액정 디스플레이(liquid crystal display; LCD), 비정질 실리콘 디스플레이, 저온 폴리 실리콘 디스플레이, 전자 잉크 디스플레이, 전기영동 디스플레이(electrophoretic display), 액티브 매트릭스 디스플레이, 전자 습윤 디스플레이(electro-wetting display), 전기 유체 디스플레이(electrofluidic display), 음극선관 디스플레이, 발광 다이오드 디스플레이, 전자 발광 디스플레이, 플라즈마 디스플레이 패널, 고성능 어드레싱 디스플레이(high-performance addressing display), 박막 트랜지스터 디스플레이, 유기 발광 다이오드 디스플레이, 표면 전도 전자 방출 디스플레이(surface-conduction electron-emitter display; SED), 레이저 텔레비전, 탄소 나노 튜브, 퀀텀 닷 디스플레이(quantum dot display), 간섭계 변조기 디스플레이(interferometric modulator display), 또는 시각적 이미지를 디스플레이하기 위한 임의의 다른 적절한 기기 중 하나 이상일 수도 있다. 몇몇 실시형태에서, 디스플레이(512)는 HDTV에 대응할 수도 있다. 몇몇 실시형태에서, 디스플레이(512)는 3D 디스플레이일 수도 있고, 상호 작용식 미디어 안내 애플리케이션 및 임의의 적절한 콘텐츠는 3D로 디스플레이될 수도 있다. 비디오 카드 또는 그래픽 카드가 디스플레이(512)로의 출력을 생성할 수도 있다. 비디오 카드는, 3D 장면 및 2D 그래픽의 가속 렌더링, MPEG-2/MPEG-4 디코딩, TV 출력, 또는 다수의 모니터를 연결하는 성능과 같은 다양한 기능을 제공할 수도 있다. 비디오 카드는 제어 회로부(504)와 관련하여 상기에서 설명되는 임의의 프로세싱 회로부일 수도 있다. 비디오 카드는 제어 회로부(504)와 통합될 수도 있다. 스피커(514)는 유저 기기 디바이스(500)의 다른 엘리먼트와 통합되어 제공될 수도 있거나 또는 독립형 유닛일 수도 있다. 디스플레이(512) 상에 디스플레이 되는 비디오 및 다른 콘텐츠의 오디오 성분은 스피커(514)를 통해 재생될 수도 있다. 몇몇 실시형태에서, 오디오는, 스피커(514)를 통해 오디오를 프로세싱 및 출력하는 수신기(도시되지 않음)로 분배될 수도 있다.
안내 애플리케이션은 임의의 적절한 아키텍쳐를 사용하여 구현될 수도 있다. 예를 들면, 그것은 유저 기기 디바이스(500) 상에서 전적으로 구현되는 독립형 애플리케이션일 수도 있다. 이러한 접근법에서, 애플리케이션의 명령어들은 로컬하게 (예를 들면, 스토리지(508)에) 저장되고, 애플리케이션에 의한 사용을 위한 데이터는 (예를 들면, 대역 외 피드(out-of-band feed)로부터, 인터넷 리소스로부터, 또는 다른 적절한 접근법을 사용하여) 주기적 기반으로 다운로드된다. 제어 회로부(504)는 스토리지(508)로부터 애플리케이션의 명령어들을 리트리브할 수도 있고 본원에서 논의되는 디스플레이 중 임의의 것을 생성하기 위해 명령어들을 프로세싱할 수도 있다. 프로세싱된 명령어들에 기초하여, 제어 회로부(504)는, 입력 인터페이스(510)로부터 입력이 수신될 때 어떤 액션을 수행할지를 결정할 수도 있다. 예를 들면, 상/하 버튼이 선택되었다는 것을 입력 인터페이스(510)가 나타낼 때 프로세싱된 명령어들에 의해 디스플레이 상에서의 커서의 상/하 움직임이 나타내어질 수도 있다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 클라이언트-서버 기반의 애플리케이션이다. 유저 기기 디바이스(500) 상에서 구현되는 씩 클라이언트(thick client) 또는 씬 클라이언트(thin client)에 의한 사용을 위한 데이터는, 유저 기기 디바이스(500)에 대해 원격인 서버로 요청을 발행하는 것에 의해 요청에 따라 리트리브된다. 클라이언트 서버 기반의 안내 애플리케이션의 하나의 예에서, 제어 회로부(504)는 원격 서버에 의해 제공되는 웹 페이지를 해석하는 웹 브라우저를 실행한다. 예를 들면, 원격 서버는 애플리케이션에 대한 명령어들을 스토리지 디바이스에 저장할 수도 있다. 원격 서버는 회로부(예를 들면, 제어 회로부(504))를 사용하여 저장된 명령어들을 프로세싱할 수도 있고 상기 및 하기에서 논의되는 디스플레이를 생성할 수도 있다. 클라이언트 디바이스는 원격 서버에 의해 생성되는 디스플레이를 수신할 수도 있고, 디스플레이의 콘텐츠를 기기 디바이스(500) 상에서 로컬하게 디스플레이할 수도 있다. 이러한 방식에서, 명령어들의 프로세싱은 서버에 의해 원격으로 수행되고, 한편, 결과적으로 나타나는 디스플레이는 기기 디바이스(500) 상에서 로컬하게 제공된다. 기기 디바이스(500)는 입력 인터페이스(510)를 통해 유저로부터 입력을 수신할 수도 있고 대응하는 디스플레이를 프로세싱 및 생성하기 위해 그들 입력을 원격 서버로 송신할 수도 있다. 예를 들면, 기기 디바이스(500)는, 상/하 버튼이 입력 인터페이스(510)를 통해 선택되었다는 것을 나타내는 통신을 원격 서버로 송신할 수도 있다. 원격 서버는 그 입력에 따라 명령어들을 프로세싱할 수도 있고 입력에 대응하는 애플리케이션의 디스플레이(예를 들면, 커서를 상/하로 이동시키는 디스플레이)를 생성할 수도 있다. 그 다음, 생성된 디스플레이는, 유저에 대한 표시를 위해, 기기 디바이스(500)로 송신된다.
몇몇 실시형태에서, 미디어 안내 애플리케이션은 인터프리터 또는 가상 머신(제어 회로부(504)에 의해 실행됨)에 의해 다운로드되어 해석되거나 또는 다르게는 실행된다. 몇몇 실시형태에서, 안내 애플리케이션은 ETV 바이너리 상호교환 포맷(ETV Binary Interchange Format; EBIF)으로 인코딩될 수도 있고, 적절한 피드의 일부로서 제어 회로부(504)에 의해 수신될 수도 있고, 제어 회로부(504) 상에서 실행하는 유저 에이전트에 의해 해석될 수도 있다. 예를 들면, 안내 애플리케이션은 EBIF 애플리케이션일 수도 있다. 몇몇 실시형태에서, 안내 애플리케이션은 제어 회로부(504)에 의해 실행되는 다른 적절한 미들웨어 또는 로컬 가상 머신에 의해 수신 및 실행되는 일련의 JAVA 기반 파일에 의해 정의될 수도 있다. 그러한 실시형태(예를 들면, MPEG-2 또는 다른 디지털 매체 인코딩 스킴을 활용하는 실시형태) 중 몇몇에서, 안내 애플리케이션은, 예를 들면, 인코딩되어 프로그램의 MPEG 오디오 및 비디오 패킷을 갖는 MPEG-2 객체 주기 전송(object carousel)에서 송신될 수도 있다.
도 5의 유저 기기 디바이스(500)는, 도 6의 시스템(600)에서, 유저 텔레비전 기기(602), 유저 컴퓨터 기기(604), 무선 유저 통신 디바이스(606), 또는 콘텐츠에 액세스하는 데 적절한 임의의 다른 타입의 유저 기기, 예컨대 비 휴대용 게임용 머신으로서 구현될 수 있다. 간략화를 위해, 이들 디바이스는 본원에서 총칭하여 유저 기기 또는 유저 기기 디바이스로 칭해질 수도 있으며, 상기에서 설명되는 유저 기기 디바이스와 실질적으로 유사할 수도 있다. 미디어 안내 애플리케이션이 구현될 수도 있는 유저 기기 디바이스는 독립형 디바이스로서 기능할 수도 있고 또는 디바이스의 네트워크의 일부일 수도 있다. 디바이스의 다양한 네트워크 구성이 구현될 수도 있으며, 이하에서 더 상세하게 논의된다.
도 5와 관련하여 상기에서 설명되는 시스템 피쳐 중 적어도 일부를 활용하는 유저 기기 디바이스는, 유저 텔레비전 기기(602), 유저 컴퓨터 기기(604), 또는 무선 유저 통신 디바이스(606)로서 단독으로 분류되지는 않을 수도 있다. 예를 들면, 유저 텔레비전 기기(602)는, 몇몇 유저 컴퓨터 기기(604)처럼, 인터넷 콘텐츠에 대한 액세스를 허용하는 인터넷 대응일 수도 있고, 한편 유저 컴퓨터 기기(602)는, 몇몇 텔레비전 기기(604)처럼, 텔레비전 프로그램에 대한 액세스를 허용하는 튜너를 포함할 수도 있다. 미디어 안내 애플리케이션은 여러가지 상이한 타입의 유저 기기 상에서 동일한 레이아웃을 가질 수도 있거나 또는 유저 기기의 디스플레이 능력에 맞춰질 수도 있다. 예를 들면, 유저 컴퓨터 기기(604) 상에서, 안내 애플리케이션은 웹 브라우저에 의해 액세스되는 웹 사이트로서 제공될 수도 있다. 다른 예에서, 안내 애플리케이션은 무선 유저 통신 디바이스(606)에 대해 스케일 다운될 수도 있다.
시스템(600)에서, 통상적으로는, 하나보다 더 많은 각각의 타입의 유저 기기 디바이스가 존재하지만, 그러나 도면을 과도하게 복잡하게 하는 것을 방지하기 위해, 도 6에서는 각각의 하나만이 도시된다. 또한, 각각의 유저는 하나보다 많은 타입의 유저 기기 디바이스 및 또한 하나보다 많은 각각의 타입의 유저 기기 디바이스를 활용할 수도 있다.
몇몇 실시형태에서, 유저 기기 디바이스(예를 들면, 유저 텔레비전 기기(602), 유저 컴퓨터 기기(604), 무선 유저 통신 디바이스(606))는 "제2 스크린 디바이스"로 칭해질 수도 있다. 예를 들면, 제2 스크린 디바이스는 제1 유저 기기 디바이스 상에 제시되는 콘텐츠를 보충할 수도 있다. 제2 스크린 디바이스 상에 제시되는 콘텐츠는 제1 디바이스 상에 제시되는 콘텐츠를 보충하는 임의의 적절한 콘텐츠일 수도 있다. 몇몇 실시형태에서, 제2 스크린 디바이스는, 제1 디바이스의 디스플레이 환경설정 및 설정을 조정하기 위한 인터페이스를 제공한다. 몇몇 실시형태에서, 제2 스크린 디바이스는 다른 제2 스크린 디바이스와 상호 작용하도록 또는 소셜 네트워크와 상호 작용하도록 구성된다. 제2 스크린 디바이스는, 제1 디바이스와 동일한 방에, 동일한 집 또는 건물이지만 제1 디바이스와는 상이한 방에, 또는 제1 디바이스와는 상이한 건물에 위치될 수 있다.
유저는 또한, 가정용(in-home) 디바이스 및 원격 디바이스 전체에 걸쳐 일관된 미디어 안내 애플리케이션 설정을 유지하기 위해 다양한 설정을 설정할 수도 있다. 설정은, 본원에서 설명되는 것뿐만 아니라, 채널 및 프로그램 즐겨찾기, 프로그램 추천을 하기 위해 안내 애플리케이션이 활용하는 프로그램 환경설정, 디스플레이 환경설정, 및 다른 바람직한 안내 설정을 포함한다. 예를 들면, 유저가, 예를 들면, 그들의 사무실에 있는 그들의 개인용 컴퓨터 상에서 웹 사이트 www.Tivo.com에 대한 즐겨찾기로서 채널을 설정하면, 동일한 채널은 유저의 가정용 디바이스(예를 들면, 유저 텔레비전 기기 및 유저 컴퓨터 기기)뿐만 아니라, 소망되는 경우, 유저의 모바일 디바이스 상에서 즐겨찾기로서 나타날 것이다. 따라서, 하나의 유저 기기 디바이스 상에서 이루어지는 변경은, 다른 유저 기기 디바이스 상에서, 그들이 동일한 타입의 유저 기기 디바이스인지 또는 상이한 타입의 유저 기기 디바이스인지의 여부에 관계없이, 안내 경험을 변경할 수 있다. 또한, 행해지는 변경은, 유저에 의해 입력되는 설정뿐만 아니라, 안내 애플리케이션에 의해 모니터링되는 유저 활동에 기초할 수도 있다.
유저 기기 디바이스는 통신 네트워크(614)에 커플링될 수도 있다. 즉, 유저 텔레비전 기기(602), 유저 컴퓨터 기기(604), 및 무선 유저 통신 디바이스(606)는, 각각, 통신 경로(608, 610 및 612)를 통해 통신 네트워크(614)에 커플링된다. 통신 네트워크(614)는, 인터넷, 이동 전화 네트워크, 모바일 음성 또는 데이터 네트워크(예를 들면, 4G 또는 LTE 네트워크), 케이블 네트워크, 공중 교환식 전화망(public switched telephone network), 또는 다른 타입의 통신 네트워크 또는 통신 네트워크의 조합을 포함하는 하나 이상의 네트워크일 수도 있다. 경로(608, 610, 및 612)는, 위성 경로, 광섬유 경로, 케이블 경로, 인터넷 통신(예를 들면, IPTV)을 지원하는 경로, (예를 들면, 방송 또는 다른 무선 신호를 위한) 자유 공간 연결, 또는 임의의 다른 적절한 유선 또는 무선 통신 경로 또는 이러한 경로의 조합과 같은 하나 이상의 통신 경로를, 개별적으로 또는 함께, 포함할 수도 있다. 경로(612)는 도 6에서 도시되는 예시적인 실시형태에서 무선 경로이다는 것을 나타내기 위해 점선으로 묘사되고, 경로(608 및 610)는 (비록 이들 경로가, 소망되는 경우, 무선 경로일 수도 있지만) 유선 경로이다는 것을 나타내기 위해 실선으로 묘사된다. 유저 기기 디바이스와의 통신은, 이들 통신 경로 중 하나 이상에 의해 제공될 수도 있지만, 그러나 도면이 과도하게 복잡해지는 것을 방지하기 위해, 도 6에서는 단일의 경로로서 도시된다.
비록 유저 기기 디바이스 사이에 통신 경로가 묘사되지는 않지만, 이들 디바이스는 경로(608, 610, 및 612)와 관련하여 상기에서 설명되는 것과 같은 통신 경로뿐만 아니라, 다른 단거리의 점대점(point-to-point) 통신 경로, 예컨대 USB 케이블, IEEE 1394 케이블, 무선 경로(예를 들면, 블루투스, 적외선, IEEE 802-11x, 등등), 또는 유선 또는 무선 경로를 통한 다른 단거리 통신을 통해 서로 직접적으로 통신할 수도 있다. BLUETOOTH는 블루투스 SIG, INC.가 소유한 인증 마크이다. 유저 기기 디바이스는 또한 통신 네트워크(614)를 통해 간접 경로를 통해 서로 직접적으로 통신할 수도 있다.
시스템(600)은 통신 경로(620 및 622)를 통해 통신 네트워크(614)에 각각 커플링되는 콘텐츠 소스(616) 및 미디어 안내 데이터 소스(618)를 포함한다. 경로(620 및 622)는 경로(608, 610 및 612)와 관련하여 상기에서 설명되는 통신 경로 중 임의의 것을 포함할 수도 있다. 콘텐츠 소스(616) 및 미디어 안내 데이터 소스(618)와의 통신은 하나 이상의 통신 경로를 통해 교환될 수도 있지만, 그러나 도면을 과도하게 복잡하게 하는 것을 방지하기 위해, 도 6에서는 단일의 경로로서 도시된다. 또한, 하나보다 더 많은 각각의 콘텐츠 소스(616) 및 미디어 안내 데이터 소스(618)가 존재할 수도 있지만, 그러나 도면을 과도하게 복잡하게 하는 것을 방지하기 위해, 도 6에서는 각각의 하나만이 도시된다. (이들 소스의 각각의 상이한 타입은 하기에서 논의된다). 소망되는 경우, 콘텐츠 소스(616) 및 미디어 안내 데이터 소스(618)는 하나의 소스 디바이스로서 통합될 수도 있다. 비록 유저 기기 디바이스(602, 604, 및 606)와의 소스(616 및 618) 사이의 통신이 통신 네트워크(614)를 통하는 것으로 도시되지만, 몇몇 실시형태에서, 소스(616 및 618)는, 경로(608, 610, 및 612)와 관련하여 상기에서 설명되는 것과 같은 통신 경로(도시되지 않음)를 통해 유저 기기 디바이스(602, 604, 및 606)와 직접적으로 통신할 수도 있다.
텔레비전 분배 설비, 케이블 시스템 중계국(cable system headend), 위성 분배 설비, 프로그램 소스(예를 들면, NBC, ABC, HBO, 등등과 같은 텔레비전 방송국), 중간 분배 설비 및/또는 서버, 인터넷 공급자, 주문형 미디어 서버, 및 다른 콘텐츠 공급자를 포함하는 콘텐츠 소스(616)는, 하나 이상의 타입의 콘텐츠 분배 기기를 포함할 수도 있다. NBC는 National Broadcasting Company, Inc. 소유의 상표이고, ABC는 American Broadcasting Company, Inc. 소유의 상표이며, HBO는 Home Box Office, Inc. 소유의 상표이다. 콘텐츠 소스(616)는 콘텐츠의 창작자(originator)(예를 들면, 텔레비전 방송국, 웹캐스트 공급자, 등등)일 수도 있거나 또는 콘텐츠의 창작자가 아닐 수도 있다(예를 들면, 주문형 콘텐츠 공급자, 다운로드용 방송 프로그램의 콘텐츠의 인터넷 공급자, 등등). 콘텐츠 소스(616)는, 케이블 소스, 위성 공급자, 주문형 공급자, 인터넷 공급자, 오버 더 톱(over-the-top) 콘텐츠 공급자, 또는 다른 콘텐츠 공급자를 포함할 수도 있다. 콘텐츠 소스(616)는 또한, 유저 기기 디바이스 중 임의의 것으로부터 원격의 위치에서 상이한 타입의 콘텐츠(유저에 의해 선택되는 비디오 콘텐츠를 포함함)를 저장하기 위해 사용되는 원격 미디어 서버를 포함할 수도 있다. 콘텐츠의 원격 저장을 위한, 그리고 원격으로 저장된 콘텐츠를 유저 기기에 제공하기 위한 시스템 및 방법은, 2010년 7월 20일자로 발행된 Ellis 등등의 미국 특허 제7,761,892호와 관련하여 상세히 논의되는데, 이 특허는 참조에 의해 그 전체가 본원에 통합된다.
미디어 안내 데이터 소스(618)는 상기에서 설명되는 미디어 안내 데이터와 같은 미디어 안내 데이터를 제공할 수도 있다. 미디어 안내 데이터는 임의의 적절한 접근법을 사용하여 유저 기기 디바이스로 제공될 수도 있다. 몇몇 실시형태에서, 안내 애플리케이션은, 데이터 피드(예를 들면, 연속하는 피드 또는 간헐적인 피드(trickle feed))를 통해 프로그램 가이드 데이터를 수신하는 독립형의 상호 작용식 텔레비전 프로그램 가이드일 수도 있다. 대역 내 디지털 신호를 사용하여, 대역 외 디지털 신호를 사용하여, 또는 임의의 다른 적절한 데이터 송신 기술에 의해, 프로그램 스케줄 데이터 및 다른 안내 데이터가 텔레비전 채널 측대역(television channel sideband) 상에서 유저 기기로 제공될 수도 있다. 다수의 아날로그 또는 디지털 텔레비전 채널 상에서, 프로그램 스케줄 데이터 및 다른 미디어 안내 데이터가 유저 기기로 제공될 수도 있다.
몇몇 실시형태에서, 미디어 안내 데이터 소스(618)로부터의 안내 데이터는 클라이언트 서버 접근법을 사용하여 유저의 기기로 제공될 수도 있다. 예를 들면, 유저 기기 디바이스는 서버로부터 미디어 안내 데이터를 끌어낼 수도 있거나, 또는 서버가 미디어 안내 데이터를 유저 기기 디바이스로 푸시할 수도 있다. 몇몇 실시형태에서, 유저의 기기 상에 상주하는 안내 애플리케이션 클라이언트는, 필요시, 예를 들면, 안내 데이터가 오래된 경우 또는 유저 기기 디바이스가 유저로부터 데이터 수신 요청을 수신하는 경우, 안내 데이터를 획득하기 위해 소스 데이터(618)와의 세션을 개시할 수도 있다. 미디어 안내는, 임의의 적절한 빈도로(예를 들면, 연속적으로, 매일, 시간의 유저 명시 주기로, 시간의 시스템 명시 주기로, 유저 기기로부터의 요청에 응답하여, 등등으로) 유저 기기로 제공될 수도 있다. 미디어 안내 데이터 소스(618)는 유저 기기 디바이스(602, 604 및 606)에 미디어 안내 애플리케이션 그 자체 또는 미디어 안내 애플리케이션에 대한 소프트웨어 업데이트를 제공할 수도 있다.
몇몇 실시형태에서, 미디어 안내 데이터는 뷰어 데이터를 포함할 수도 있다. 예를 들면, 뷰어 데이터는, 현재 및/또는 과거(historical) 유저 활동 정보(예를 들면, 유저가 통상적으로 어떤 콘텐츠를 시청하는지, 유저가 하루 중 어떤 시간에 콘텐츠를 시청하는지, 유저가 소셜 네트워크와 상호 작용하는지의 여부, 유저가 정보를 게시하기 위해 어떤 시간에 소셜 네트워크와 상호 작용하는지, 유저가 통상적으로 어떤 타입의 콘텐츠(예를 들면, 유료 TV 또는 무료 TV)를 시청하는지, 무드, 뇌 활동 정보, 등등)를 포함할 수도 있다. 미디어 안내 데이터는 또한 가입 데이터를 포함할 수도 있다. 예를 들면, 가입 데이터는 주어진 유저가 어떤 소스 또는 서비스에 가입하는지 및/또는 주어진 유저가 이전에 가입했지만 나중의 시간에 액세스를 종료한 소스 또는 서비스가 어떤 것인지(예를 들면, 유저가 프리미엄 채널에 가입하는지의 여부, 유저가 프리미엄 레벨의 서비스를 추가했는지의 여부, 유저가 인터넷 속도를 증가시켰는지의 여부)를 식별할 수도 있다. 몇몇 실시형태에서, 뷰어 데이터 및/또는 가입 데이터는 1년이 넘는 기간 동안 주어진 유저의 패턴을 식별할 수도 있다. 미디어 안내 데이터는, 주어진 유저가 서비스/소스에 대한 액세스를 종료할 가능성을 나타내는 스코어를 생성하기 위해 사용되는 모델(예를 들면, 생존자 모델(survivor model))을 포함할 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, 주어진 유저가 특정한 서비스 또는 소스에 대한 액세스를 종료할지의 여부의 가능성을 나타내는 값 또는 스코어를 생성하는 모델을 사용하여 가입 데이터와 함께 뷰어 데이터를 프로세싱할 수도 있다. 특히, 더 높은 스코어는, 유저가 특정한 서비스 또는 소스에 대한 액세스를 종료할 것이라는 더 높은 레벨의 신뢰도를 나타낼 수도 있다. 스코어에 기초하여, 미디어 안내 애플리케이션은, 유저가 액세스를 종료할 가능성이 있는 서비스 또는 소스로서 스코어에 의해 나타내어지는 특정한 서비스 또는 소스를 계속 유지하도록 유저를 부추기는 프로모션 및 광고를 생성할 수도 있다.
미디어 안내 애플리케이션은, 예를 들면, 유저 기기 디바이스 상에서 구현되는 독립형 애플리케이션일 수도 있다. 예를 들면, 미디어 안내 애플리케이션은, 스토리지(508)에 저장될 수도 있고, 유저 기기 디바이스(500)의 제어 회로부(504)에 의해 실행될 수도 있는 소프트웨어 또는 한 세트의 실행 가능한 명령어들로서 구현될 수도 있다. 몇몇 실시형태에서, 미디어 안내 애플리케이션은, 클라이언트 애플리케이션만이 유저 기기 디바이스 상에 상주하고, 서버 애플리케이션이 원격 서버 상에 상주하는 클라이언트-서버 애플리케이션일 수도 있다. 예를 들면, 미디어 안내 애플리케이션은 부분적으로는 유저 기기 디바이스(500)의 제어 회로부(504) 상에서 클라이언트 애플리케이션으로서 그리고 부분적으로는 원격 서버 상에서 원격 서버의 제어 회로부 상에서 실행하는 서버 애플리케이션(예를 들면, 미디어 안내 데이터 소스(618))으로서 구현될 수도 있다. (미디어 안내 데이터 소스(618)와 같은) 원격 서버의 제어 회로부에 의해 실행될 때, 미디어 안내 애플리케이션은, 안내 애플리케이션 디스플레이를 생성할 것을 그리고 생성된 디스플레이를 유저 기기 디바이스로 송신할 것을 제어 회로부에게 지시할 수도 있다. 서버 애플리케이션은, 유저 기기 상에서의 저장을 위해 데이터를 송신할 것을 미디어 안내 데이터 소스(618)의 제어 회로부에게 지시할 수도 있다. 클라이언트 애플리케이션은 안내 애플리케이션 디스플레이를 생성할 것을 수신 유저 기기의 제어 회로부에게 지시할 수도 있다.
유저 기기 디바이스(602, 604, 및 606)로 전달되는 콘텐츠 및/또는 미디어 안내 데이터는 오버 더 톱(over-the-top; OTT) 콘텐츠일 수도 있다. OTT 콘텐츠 전달은, 상기에서 설명되는 임의의 유저 기기 디바이스를 비롯한, 인터넷 대응 유저 디바이스가, 케이블 또는 위성 연결을 통해 수신되는 콘텐츠 외에도, 상기에서 설명되는 임의의 콘텐츠를 비롯한, 인터넷을 통해 전송되는 콘텐츠를 수신하는 것을 허용한다. OTT 콘텐츠는 인터넷 서비스 공급자(Internet service provider; ISP)에 의해 제공되는 인터넷 연결을 통해 전달되지만, 그러나 써드파티가 콘텐츠를 배포한다. ISP는 콘텐츠의 시청 능력, 저작권, 또는 재배포에 대한 책임을 지지 않을 수도 있으며, OTT 콘텐츠 공급자에 의해 제공되는 IP 패킷만을 전송할 수도 있다. OTT 콘텐츠 공급자의 예는, IP 패킷을 통해 오디오 및 비디오를 제공하는 YOUTUBE(유튜브), NETFLIX(넷플릭스), 및 HULU(훌루)를 포함한다. Youtube는 Google Inc. 소유의 상표이고, Netflix는 Netflix Inc. 소유의 상표이며, Hulu는 Hulu, LLC 소유의 상표이다. OTT 콘텐츠 공급자는, 추가적으로 또는 대안적으로, 상기에서 설명되는 미디어 안내 데이터를 제공할 수도 있다. 콘텐츠 및/또는 미디어 안내 데이터 외에, OTT 콘텐츠의 공급자는 미디어 안내 애플리케이션(예를 들면, 웹 기반의 애플리케이션 또는 클라우드 기반의 애플리케이션)을 배포할 수 있거나, 또는 콘텐츠는 유저 기기 디바이스 상에 저장되는 미디어 안내 애플리케이션에 의해 디스플레이될 수 있다.
미디어 안내 시스템(600)은 다수의 접근법, 또는 네트워크 구성을 예시하도록 의도되는데, 콘텐츠에 액세스하고 미디어 안내를 제공하는 목적을 위해 유저 기기 디바이스 및 콘텐츠 및 안내 데이터의 소스는, 그 다수의 접근법, 또는 네트워크 구성에 의해 서로 통신할 수도 있다. 본원에서 설명되는 실시형태는 이들 접근법 중 임의의 하나 또는 서브세트에서, 또는 콘텐츠를 전달하고 미디어 안내를 제공하기 위한 다른 접근법을 활용하는 시스템에서 적용될 수도 있다. 다음 네 가지 접근법은 도 6의 일반화된 예의 구체적인 예시를 제공한다.
하나의 접근법에서, 유저 기기 디바이스는 홈 네트워크 내에서 서로 통신할 수도 있다. 유저 기기 디바이스는, 상기에서 설명되는 단거리의 점대점 통신 스킴을 통해, 홈 네트워크 상에 제공되는 허브 또는 다른 유사한 디바이스를 통한 간접 경로를 통해, 또는 통신 네트워크(614)를 통해, 서로 직접적으로 통신할 수 있다. 단일의 가정 내의 다수의 개인의 각각은 홈 네트워크 상에서 상이한 유저 기기 디바이스를 조작할 수도 있다. 결과적으로, 다양한 미디어 안내 정보 또는 설정이 상이한 유저 기기 디바이스 사이에 통신되는 것이 바람직할 수도 있다. 예를 들면, 2005년 7월 11일자로 출원된 Ellis 등등의 미국 특허 공개 공보 제2005/0251827호에서 상세히 설명되는 바와 같이, 유저가 홈 네트워크 내의 상이한 유저 기기 디바이스 상에서 일관된 미디어 안내 애플리케이션 설정을 유지하는 것이 바람직할 수도 있다. 홈 네트워크 내의 상이한 타입의 유저 기기 디바이스는 또한, 콘텐츠를 송신하도록 서로 통신할 수도 있다. 예를 들면, 유저는 유저 컴퓨터 기기로부터 휴대용 비디오 플레이어 또는 휴대용 음악 플레이어로 콘텐츠를 송신할 수도 있다.
제2 접근법에서, 유저는, 콘텐츠에 액세스하여 미디어 안내를 획득하게 하는 다수의 타입의 유저 기기를 구비할 수도 있다. 예를 들면, 몇몇 유저는 가정용 디바이스 및 모바일 디바이스에 의해 액세스되는 홈 네트워크를 구비할 수도 있다. 유저는 원격 디바이스 상에서 구현되는 미디어 안내 애플리케이션을 통해 가정용 디바이스를 제어할 수도 있다. 예를 들면, 유저는 그들의 사무실의 퍼스널 컴퓨터, 또는 PDA 또는 웹 대응 이동 전화와 같은 모바일 디바이스를 통해 웹 사이트 상의 온라인 미디어 안내 애플리케이션에 액세스할 수도 있다. 유저는, 유저의 가정용 기기를 제어하기 위해, 온라인 안내 애플리케이션 상에서 다양한 설정(예를 들면, 녹화, 리마인더, 또는 다른 설정)을 설정할 수도 있다. 온라인 가이드는 유저의 기기를, 직접적으로, 또는 유저의 가정용 기기 상의 미디어 안내 애플리케이션과 통신하는 것에 의해 제어할 수도 있다. 유저 기기 디바이스가 서로 멀리 떨어진 위치에 있는 경우의 유저 기기 디바이스 통신을 위한 다양한 시스템 및 방법이, 예를 들면, 2011년 10월 25일자로 발행된 Ellis 등등의 미국 특허 제8,046,801호에서 논의되는데, 이 특허는 참조에 의해 그 전체가 본원에 통합된다.
제3 접근법에서, 가정 내부 및 외부의 유저 기기 디바이스의 유저는, 콘텐츠 소스(616)와 직접적으로 통신하여 콘텐츠에 액세스하기 위해, 그들의 미디어 안내 애플리케이션을 사용할 수 있다. 구체적으로, 가정 내에서, 유저 텔레비전 기기(602) 및 유저 컴퓨터 기기(604)의 유저는, 바람직한 콘텐츠 사이를 탐색하고 소망하는 콘텐츠의 위치를 결정하기 위해, 미디어 안내 애플리케이션에 액세스할 수도 있다. 유저는 또한, 바람직한 콘텐츠 사이를 탐색하고 소망하는 콘텐츠의 위치를 결정하기 위해, 무선 유저 통신 디바이스(606)를 사용하여 가정 외부의 미디어 안내 애플리케이션에 액세스할 수도 있다.
제4 접근법에서, 유저 기기 디바이스는 클라우드 서비스에 액세스하기 위해 클라우드 컴퓨팅 환경에서 동작할 수도 있다. 클라우드 컴퓨팅 환경에서, 콘텐츠 공유, 저장 또는 배포를 위한 다양한 타입의 컴퓨팅 서비스(예를 들면, 비디오 공유 사이트 또는 소셜 네트워킹 사이트)는, "클라우드"로 칭해지는 네트워크 액세스 가능 컴퓨팅 및 스토리지 리소스의 집합(collection)에 의해 제공된다. 예를 들면, 클라우드는 통신 네트워크(614)를 통해 인터넷과 같은 네트워크를 통해 연결되는 다양한 타입의 유저 및 디바이스에게 클라우드 기반의 서비스를 제공하는, 중앙 집중식으로 또는 분산된 위치에 위치될 수도 있는 서버 컴퓨팅 디바이스의 집합을 포함할 수 있다. 이들 클라우드 리소스는 하나 이상의 콘텐츠 소스(616) 및 하나 이상의 미디어 안내 데이터 소스(618)를 포함할 수도 있다. 추가적으로 또는 대안적으로, 원격 컴퓨팅 사이트는 유저 텔레비전 기기(602), 유저 컴퓨터 기기(604), 및 무선 유저 통신 디바이스(606)와 같은 다른 유저 기기 디바이스를 포함할 수도 있다. 예를 들면, 다른 유저 기기 디바이스는 스트리밍된 비디오 또는 비디오의 저장된 사본에 대한 액세스를 제공할 수도 있다. 이러한 실시형태에서, 유저 기기 디바이스는 중앙 서버와 통신하지 않고 피어 투 피어 방식으로 동작할 수도 있다.
클라우드는, 유저 기기 디바이스에 대해, 다른 예 중에서도, 콘텐츠 저장, 콘텐츠 공유, 또는 소셜 네트워킹 서비스와 같은 서비스에 대한 액세스뿐만 아니라, 상기에서 설명되는 임의의 콘텐츠에 대한 액세스를 제공한다. 서비스는 클라우드 컴퓨팅 서비스 공급자를 통해, 또는 온라인 서비스의 다른 공급자를 통해 클라우드에서 제공될 수 있다. 예를 들면, 클라우드 기반 서비스는, 콘텐츠 저장 서비스, 콘텐츠 공유 사이트, 소셜 네트워킹 사이트, 또는 연결된 디바이스 상에서 다른 사람이 보도록 유저가 제공한 콘텐츠가 배포되는 다른 서비스를 포함할 수 있다. 이들 클라우드 기반 서비스는, 콘텐츠를 로컬하게 저장하고 로컬하게 저장된 콘텐츠에 액세스하는 대신, 유저 기기 디바이스가 콘텐츠를 클라우드에 저장하는 것 및 클라우드로부터 콘텐츠를 수신하는 것을 허용할 수도 있다.
유저는, 콘텐츠를 녹화하기 위해, 캠코더, 비디오 모드를 갖는 디지털 카메라, 오디오 레코더, 이동 전화, 및 핸드헬드 컴퓨팅 디바이스와 같은 다양한 콘텐츠 캡쳐 디바이스를 사용할 수도 있다. 유저는, 예를 들면, 콘텐츠 캡쳐 피쳐를 갖는 무선 유저 통신 디바이스(606) 또는 유저 컴퓨터 기기(604)로부터 직접적으로 클라우드 상의 콘텐츠 저장 서비스에 콘텐츠를 업로드할 수 있다. 대안적으로, 유저는 유저 컴퓨터 기기(604)와 같은 유저 기기 디바이스로 콘텐츠를 먼저 전송할 수 있다. 콘텐츠를 저장하는 유저 기기 디바이스는 통신 네트워크(614) 상의 데이터 송신 서비스를 사용하여 콘텐츠를 클라우드로 업로드한다. 몇몇 실시형태에서, 유저 기기 디바이스 그 자체는 클라우드 리소스이고, 다른 유저 기기 디바이스는 유저가 콘텐츠를 저장한 유저 기기 디바이스의 콘텐츠에 직접적으로 액세스할 수 있다.
클라우드 리소스는, 예를 들면, 웹 브라우저, 미디어 안내 애플리케이션, 데스크톱 애플리케이션, 모바일 애플리케이션, 및/또는 이들의 액세스 애플리케이션의 임의의 조합을 사용하여 유저 기기 디바이스에 의해 액세스될 수도 있다. 유저 기기 디바이스는 애플리케이션 전달을 위해 클라우드 컴퓨팅에 의존하는 클라우드 클라이언트일 수도 있거나, 또는 유저 기기 디바이스는 클라우드 리소스에 액세스하지 않는 몇몇 기능성을 가질 수도 있다. 예를 들면, 유저 기기 디바이스 상에서 실행하는 몇몇 애플리케이션은 클라우드 애플리케이션, 즉, 인터넷을 통해 서비스로서 전달되는 애플리케이션일 수도 있고, 한편 다른 애플리케이션은 유저 기기 디바이스 상에서 저장 및 실행될 수도 있다. 몇몇 실시형태에서, 유저 디바이스는 다수의 클라우드 리소스로부터 동시에 콘텐츠를 수신할 수도 있다. 예를 들면, 유저 디바이스는 하나의 클라우드 리소스로부터 오디오를 스트리밍할 수 있고, 동시에 제2 클라우드 리소스로부터 콘텐츠를 다운로드할 수도 있다. 또는 더 효율적인 다운로드를 위해 유저 디바이스가 다수의 클라우드 리소스로부터 콘텐츠를 다운로드할 수 있다. 몇몇 실시형태에서, 유저 기기 디바이스는 도 5와 관련하여 설명되는 프로세싱 회로부에 의해 수행되는 프로세싱 동작과 같은 동작을 프로세싱하기 위해 클라우드 리소스를 사용할 수 있다.
본원에서 언급될 때, 용어 "~에 응답하여"는 ~의 결과로서 개시되는 것을 가리킨다. 예를 들면, 제1 액션이 제2 액션에 응답하여 수행되는 것은, 제1 액션과 제2 액션 사이에 개재하는(interstitial) 단계를 포함할 수도 있다. 본원에서 언급될 때, 용어 "~에 직접적으로 응답하여"는 ~에 의해 야기되는 것을 가리킨다. 예를 들면, 제1 액션이 제2 액션에 응답하여 직접적으로 수행되는 것은, 제1 액션과 제2 액션 사이에 개재하는 단계를 포함하지 않을 수도 있다.
도 7은, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위한 프로세스(700)의 예시적인 플로우차트를 묘사한다. 미디어 안내 애플리케이션은, 유저 기기(예를 들면, 유저 기기(500), 유저 텔레비전 기기(602), 유저 컴퓨터 기기(604), 또는 무선 유저 통신 디바이스(606))의 제어 회로부(504)로 하여금, 도 7의 엘리먼트의 각각을 실행하게 한다. 프로세스(700)는 702에서 시작하는데, 여기서, 제어 회로부(504)는, 유저 입력 디바이스(예를 들면, 유저 입력 인터페이스(510), 무선 통신 디바이스(606))를 통해, 제1 음성(예를 들면, 제1 음성(106))을 수신한다. 제1 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제1 음성은, 미디어 자산과 같은 아이템에 대한 검색을 개시하도록 유저에 의해 의도될 수도 있다. 예를 들면, 제1 음성은 "Show me shows about Austin"일 수도 있다.
프로세스(700)는 704로 계속되는데, 여기서, 제어 회로부(504)는, 자동 음성 인식(ASR)을 사용하여, 제1 음성에 기초하여, 제1 입력(예를 들면, 제1 입력(108))을 결정한다. 예를 들면, 제어 회로부(504)는 공지된 자동 음성 인식 기술을 사용하여 제1 음성을 텍스트로 변환하는 것에 의해 제1 입력을 결정할 수도 있다. 예를 들면, 제1 음성이 "Show me shows about Austin"인 경우, 제어 회로부(504)는 제1 입력을 "Show me shows about Boston"인 것으로 결정할 수도 있고, 그에 의해, 제1 음성에서의 "Austin"을 "Boston"으로 부정확하게 인식할 수도 있다.
프로세스(700)는 706으로 계속되는데, 여기서, 제어 회로부(504)는, 데이터베이스로부터(예를 들면, 통신 네트워크(614)를 통해 미디어 콘텐츠 소스(616) 또는 미디어 안내 데이터 소스(618)로부터, 또는 스토리지(508)로부터), 제1 입력에 기초하여 검색 결과(예를 들면, 검색 결과(112))를 리트리브한다. 데이터베이스는, 예를 들면, 정보 저장소를 포함할 수도 있다. 예를 들면, 제1 입력이 "Show me shows about Boston"인 경우, 제어 회로부(504)는 Boston에서 진행되는 TV 프로그램 Fringe를 리트리브할 수도 있다.
프로세스(700)는 708로 계속되는데, 여기서, 제어 회로부(504)는 (예를 들면, 디스플레이(512) 상에서의) 디스플레이를 위해 검색 결과를 생성한다. 예를 들면, 검색 결과가 텔레비전 쇼 Fringe를 포함하는 경우, 제어 회로부(504)는 Fringe에 대한 목록(예를 들면, 목록(308, 406, 408, 410 및 412))을 디스플레이를 위해 생성할 수도 있다.
프로세스(700)는 710으로 계속되는데, 여기서, 제어 회로부(504)는, 디스플레이를 위해 검색 결과가 생성된 제1 시간(예를 들면, 제1 시간(110))을 결정한다. 예를 들면, 제어 회로부(504)는, 제1 음성을 수신하는 것에 후속하여, 디스플레이 스크린(예를 들면, 디스플레이(512))의 픽셀로 송신되는 신호가 처음 변경된 시간을 검출하는 것에 의해 제1 시간을 결정할 수도 있다.
프로세스(700)는 712로 계속되는데, 여기서, 제어 회로부(504)는, 제1 음성을 수신하는 것에 후속하여, 유저 입력 디바이스를 통해, 제2 음성(예를 들면, 제2 음성(116))을 수신한다. 제2 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제2 음성은, 제어 회로부(504)에 의해 부정확하게 인식된 제1 입력의 일부분을 정정하도록 유저에 의해 의도될 수도 있다. 예를 들면, 유저는, 검색 결과가 제1 음성과 매치하지 않는 것에 기초하여, 미디어 안내가 제1 음성을 부정확하게 인식했다는 것을 결정할 수도 있다. 예를 들면, 검색 결과에 Boston에 대한 쇼를 포함하는 경우, 유저는 제어 회로부(504)가 제1 음성("Show me shows about Austin")에 응답하여 "Show me shows about Boston"을 부정확하게 생성하였다는 것을 결정할 수도 있다. 따라서, 제2 음성은 "Austin"일 수도 있는데, 이 경우, 유저는 "Boston"을 "Austin"으로 정정하려고 의도한다.
프로세스(700)는 714로 계속되는데, 여기서, 제어 회로부(504)는, 자동 음성 인식(ASR)을 사용하여, 제2 음성에 기초하여 제2 입력(예를 들면, 제2 입력(120))을 결정한다. 예를 들면, 제어 회로부(504)는 공지된 자동 음성 인식 기술을 사용하여 제2 음성을 텍스트로 변환하는 것에 의해 제2 입력을 결정할 수도 있다. 예를 들면, 제2 음성이 "Austin"인 경우, 제어 회로부(504)는 제2 입력이 "Austin"인 것으로 결정하고, 그에 의해, 제2 음성에서 "Austin"을 정확하게 인식할 수도 있다.
프로세스(700)는 716으로 계속되는데, 여기서, 제어 회로부(504)는 제2 음성이 수신된 제2 시간(예를 들면, 제2 시간(114))을 결정한다. 예를 들면, 제어 회로부(504)는, 제1 시간에 후속하여 최초 발음이 발생한 시간을 측정하는 것에 의해 제2 시간을 결정할 수도 있다. 예를 들면, 제어 회로부(504)가 디스플레이를 위해 검색 결과를 10:00:00 AM에 생성하였고, 유저로부터의 다음 발음이 "Austin"인 경우, 제어 회로부(504)는, "Austin"에서의 처음 "Au" 사운드가 10:00:10 AM에 발생하였다는 것을 측정할 수도 있고, 10:00:10 AM이 제2 시간인 것으로 간주할 수도 있다.
프로세스(700)는 718로 계속되는데, 여기서 제어 회로부(504)는 제2 시간과 제1 시간 사이의 시간 차이(예를 들면, 시간 차이(118))를 임계 시간에 비교한다. 예를 들면, 제1 시간이 10:00:00 AM이고 제2 시간이 10:00:10 AM인 경우, 제어 회로부(504)는 시간 차이를 10 초인 것으로 계산하고 이 시간 차이를, 20 초일 수도 있는 임계 시간에 비교할 수도 있다.
프로세스(700)는 720으로 계속되는데, 여기서, 제어 회로부(504)는, 제2 시간과 제1 시간 사이의 시간 차이를 임계 시간에 비교하는 것에 기초하여, 제2 시간과 제1 시간 사이의 시간 차이가 임계 시간보다 더 작다는 것을 결정한다. 예를 들면, 시간 차이가 10 초이고 임계 시간이 20 초인 경우, 제어 회로부(504)는 10 초가 20 초보다 더 작다는 것을 결정할 수도 있다.
프로세스(700)는 722로 계속되는데, 여기서, 제어 회로부(504)는, 제2 시간과 제1 시간 사이의 시간 차이가 임계 시간보다 더 작다는 것을 결정하는 것에 기초하여, 제1 입력의 일부분을 제2 입력의 일부분으로 대체하는 것에 의해 제1 입력에 기초하여 정정된 입력(예를 들면, 정정된 입력(122))을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 제어 회로부(504)는 "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
프로세스(700) 또는 그 임의의 단계는, 도 4 및 도 5에 도시되는 디바이스 중 임의의 디바이스 상에서 수행될 수 있거나, 또는 그 임의의 디바이스에 의해 제공될 수 있다는 것을 유의해야 한다. 예를 들면, 프로세스(600)는, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위해, 유저 기기(602, 604, 606)(도 6), 및/또는 유저 기기(500)(도 5) 상에서 구현되는 제어 회로부에 의해 지시되는 바와 같이 제어 회로부(504)(도 5)에 의해 실행될 수도 있다. 또한, 프로세스(700)는 임의의 다른 프로세스 또는 실시형태의 하나 이상의 단계로 통합될 수도 있거나 또는 그들과 결합될 수도 있다.
도 8은, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위한 프로세스(800)의 예시적인 플로우차트를 묘사한다. 미디어 안내 애플리케이션은, 유저 기기(예를 들면, 유저 기기(500), 유저 텔레비전 기기(602), 유저 컴퓨터 기기(604), 또는 무선 유저 통신 디바이스(606))의 제어 회로부(504)로 하여금, 도 8의 엘리먼트의 각각을 실행하게 한다. 프로세스(800)는 802에서 시작하는데, 여기서, 제어 회로부(504)는, 유저 입력 디바이스(예를 들면, 유저 입력 인터페이스(510), 무선 통신 디바이스(606))를 통해, 제1 음성(예를 들면, 제1 음성(206))을 수신한다. 제1 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제1 음성은, 미디어 자산과 같은 아이템에 대한 검색을 개시하도록 유저에 의해 의도될 수도 있다. 예를 들면, 제1 음성은 "Show me shows about Austin"일 수도 있다.
프로세스(800)는 804로 계속되는데, 여기서, 제어 회로부(504)는, 자동 음성 인식(ASR)을 사용하여, 제1 음성에 기초하여 제1 입력(예를 들면, 제1 입력(208))을 결정한다. 예를 들면, 제어 회로부(504)는 공지된 자동 음성 인식 기술을 사용하여 제1 음성을 텍스트로 변환하는 것에 의해 제1 입력을 결정할 수도 있다. 예를 들면, 제1 음성이 "Show me shows about Austin"인 경우, 제어 회로부(504)는 제1 입력을 "Show me shows about Boston"인 것으로 결정할 수도 있고, 그에 의해, 제1 음성에서의 "Austin"을 "Boston"으로 부정확하게 인식할 수도 있다.
프로세스(800)는 806으로 계속되는데, 여기서, 제어 회로부(504)는, 데이터베이스로부터(예를 들면, 통신 네트워크(614)를 통해 미디어 콘텐츠 소스(616) 또는 미디어 안내 데이터 소스(618)로부터, 또는 스토리지(508)로부터), 제1 입력에 기초하여 검색 결과(예를 들면, 검색 결과(212))를 리트리브한다. 데이터베이스는, 예를 들면, 정보 저장소를 포함할 수도 있다. 예를 들면, 제1 입력이 "Show me shows about Boston"인 경우, 제어 회로부(504)는 Boston에서 진행되는 TV 프로그램 Fringe를 리트리브할 수도 있다.
프로세스(800)는 808로 계속되는데, 여기서, 제어 회로부(504)는 (예를 들면, 디스플레이(512) 상에서의) 디스플레이를 위해 검색 결과를 생성한다. 예를 들면, 검색 결과가 텔레비전 쇼 Fringe를 포함하는 경우, 제어 회로부(504)는 Fringe에 대한 목록(예를 들면, 목록(308, 406, 408, 410 및 412))을 디스플레이를 위해 생성할 수도 있다.
프로세스(800)는 810으로 계속되는데, 여기서, 제어 회로부(504)는, 디스플레이를 위해 검색 결과가 생성된 제1 시간(예를 들면, 제1 시간(210))을 결정한다. 예를 들면, 제어 회로부(504)는, 제1 음성을 수신하는 것에 후속하여, 디스플레이 스크린(예를 들면, 디스플레이(512))의 픽셀로 송신되는 신호가 처음 변경된 시간을 검출하는 것에 의해 제1 시간을 결정할 수도 있다.
프로세스(800)는 812로 계속되는데, 여기서, 제어 회로부는, 유저 입력 디바이스를 통해, 제1 시간에서의 유저 입력 디바이스의 제1 가속도(예를 들면, 제1 가속도(213))를 측정한다. 예를 들면, 제1 시간에 유저 입력 디바이스가 거의 움직이지 않는 경우, 제1 가속도는 0 m/s2일 수도 있다.
프로세스(800)는 814로 계속되는데, 여기서, 제어 회로부(504)는, 제1 음성을 수신하는 것에 후속하여, 유저 입력 디바이스를 통해, 제2 음성(예를 들면, 제2 음성(216))을 수신한다. 제2 음성은, 예를 들면, 유저에 의해 발화되는 단어를 포함할 수도 있다. 제2 음성은, 제어 회로부(504)에 의해 부정확하게 인식된 제1 입력의 일부분을 정정하도록 유저에 의해 의도될 수도 있다. 예를 들면, 유저는, 검색 결과가 제1 음성과 매치하지 않는 것에 기초하여, 미디어 안내가 제1 음성을 부정확하게 인식했다는 것을 결정할 수도 있다. 예를 들면, 검색 결과에 Boston에 대한 쇼를 포함하는 경우, 유저는 제어 회로부(504)가 제1 음성("Show me shows about Austin")에 응답하여 "Show me shows about Boston"을 부정확하게 생성하였다는 것을 결정할 수도 있다. 따라서, 제2 음성은 "Austin"일 수도 있는데, 이 경우, 유저는 "Boston"을 "Austin"으로 정정하려고 의도한다.
프로세스(800)는 816로 계속되는데, 여기서, 제어 회로부(504)는, 자동 음성 인식(ASR)을 사용하여, 제2 음성에 기초하여 제2 입력(예를 들면, 제2 입력(720))을 결정한다. 예를 들면, 제어 회로부(504)는 공지된 자동 음성 인식 기술을 사용하여 제2 음성을 텍스트로 변환하는 것에 의해 제2 입력을 결정할 수도 있다. 예를 들면, 제2 음성이 "Austin"인 경우, 제어 회로부(504)는 제2 입력이 "Austin"인 것으로 결정하고, 그에 의해, 제2 음성에서 "Austin"을 정확하게 인식할 수도 있다.
프로세스(800)는 818으로 계속되는데, 여기서, 제어 회로부(504)는 제2 음성이 수신된 제2 시간(예를 들면, 제2 시간(214))을 결정한다. 예를 들면, 제어 회로부(504)는, 제1 시간에 후속하여 최초 발음이 발생한 시간을 측정하는 것에 의해 제2 시간을 결정할 수도 있다. 예를 들면, 제어 회로부(504)가 디스플레이를 위해 검색 결과를 10:00:00 AM에 생성하였고, 유저로부터의 다음 발음이 "Austin"인 경우, 제어 회로부(504)는, "Austin"에서의 처음 "Au" 사운드가 10:00:10 AM에 발생하였다는 것을 측정할 수도 있고, 10:00:10 AM이 제2 시간인 것으로 간주할 수도 있다.
프로세스(800)는 820으로 계속되는데, 여기서, 제어 회로부는, 유저 입력 디바이스를 통해, 제1 시간과 제2 시간 사이의 유저 입력 디바이스의 제2 가속도(예를 들면, 제2 가속도(217))를 측정한다. 예를 들면, 유저 입력 디바이스가 제1 시간과 제2 시간 사이에 1 m/s의 속도로 이동한 경우, 제2 가속도는 1 m/s2일 수도 있다.
프로세스(800)는 822로 계속되는데, 여기서, 제어 회로부는 제2 가속도와 제1 가속도 사이의 가속도에서의 차이(예를 들면, 가속도(218)에서의 차이)를 결정한다. 예를 들면, 제1 가속도가 0 m/s2이고 제2 가속도가 1 m/s2인 경우, 가속도에서의 차이는 1 m/s2일 수도 있다.
프로세스(800)는 824로 계속되는데, 여기서, 제어 회로부(504)는 가속도에서의 차이를 임계 가속도에 비교한다. 예를 들면, 제1 시간에서의 유저 입력 디바이스의 가속도가 0 m/s2이고 제2 시간에서의 디바이스의 가속도가 1 m/s2인 경우, 제어 회로부는 가속도에서의 차이를 1 m/s2인 것으로 계산할 수도 있고 가속도에서의 이 차이를, 0.25 m/s2일 수도 있는 임계 가속도에 비교할 수도 있다.
프로세스(800)는 826으로 계속되는데, 여기서, 제어 회로부(504)는, 가속도에서의 차이를 임계 가속도에 비교하는 것에 기초하여, 가속도에서의 차이가 임계 가속도보다 더 크다는 것을 결정한다. 예를 들면, 가속도에서의 차이가 1 m/s2이고 임계 가속도가 0.25 m/s2인 경우, 제어 회로부(504)는, 1 m/s2가 0.25 m/s2보다 더 크다는 것을 결정할 수도 있다.
프로세스(800)는 828로 계속되는데, 여기서, 제어 회로부(504)는, 가속도에서의 차이가 임계 가속도보다 더 크다는 것을 결정하는 것에 기초하여, 제1 입력의 일부분을 제2 입력의 일부분으로 대체하는 것에 의해 제1 입력에 기초하여 정정된 입력(예를 들면, 정정된 입력(222))을 생성한다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 미디어 안내 애플리케이션은 "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
프로세스(800) 또는 그 임의의 단계는, 도 4 및 도 5에 도시되는 디바이스 중 임의의 디바이스 상에서 수행될 수 있거나, 또는 그 임의의 디바이스에 의해 제공될 수 있다는 것을 유의해야 한다. 예를 들면, 프로세스(800)는, 유저가 제2 음성으로 제1 입력을 정정하려고 의도하였다는 명시적인 표시가 제2 음성에 없는 상태에서, 자동 음성 인식을 사용하여 제1 음성으로부터 생성되는 제1 입력에서의 에러를, 후속하는 제2 음성에 기초하여 정정하기 위해, 유저 기기(602, 604, 606)(도 6), 및/또는 유저 기기(500)(도 5) 상에서 구현되는 제어 회로부에 의해 지시되는 바와 같이 제어 회로부(504)(도 5)에 의해 실행될 수도 있다. 또한, 프로세스(800)는 임의의 다른 프로세스 또는 실시형태의 하나 이상의 단계로 통합될 수도 있거나 또는 그들과 결합될 수도 있다. 예를 들면, 제1 입력이 "Show me shows about Boston"이고 제2 입력이 "Austin"인 경우, 제어 회로부(504)는 "Boston"을 "Austin"으로 대체하여 "Show me shows about Austin"의 정정된 입력을 생성할 수도 있다.
도 9는 이미지에서 얼굴의 상대적 사이즈를 결정하는 예시적인 예를 도시한다. 도 9는 복수의 픽셀(900)을 포함하는 디스플레이 스크린을 도시한다. 각각의 픽셀은, 수평 인덱스(902) 및 수직 인덱스(904)에 기초한 수평 어드레스를 비롯한 어드레스를 할당받는다. 예를 들면, 복수의 픽셀(900)의 우측 하단 코너에 있는 픽셀은 어드레스 (6,0)을 가지는데, 여기서 쌍에서의 첫 번째 숫자는 수평 어드레스를 나타내고, 쌍에서의 두 번째 숫자는 수직 어드레스를 나타낸다. 복수의 픽셀(900)은 오브젝트(906)를 포함한다. 오브젝트(906)는 단순한 형상으로 도시되지만, 오브젝트(906)가 얼굴인 경우 본원에서 설명되는 방법이 동일하게 적용된다. 오브젝트(906)의 에지는, 에지 검출, 자기 학습 시스템(예를 들면, 신경망)을 포함하는, 그러나 이것으로 제한되지는 않는 패턴 인식, 및/또는 임의의 다른 적절한 기술 또는 방법을 사용하여 결정된다. 오브젝트(906)가 얼굴인 경우, 그것은, [Yang, Ming-Hsuan, David J. Kriegman, and Narendra Ahuja. "Detecting faces in images: A survey". IEEE Transactions on pattern analysis and machine intelligence 24 A (2002): 34-58]에서 설명되는 것과 같은 임의의 얼굴 검출 방법을 사용하여 검출될 수도 있는데, 이 문헌의 내용은 참조에 의해 그들 전체가 본원에 통합된다. 오브젝트(906)의 좌측 에지는 어드레스 (1, 1), (1, 2), (1, 3) 및 (1, 4)에 있는 픽셀을 포함하도록 결정되고; 하단 에지는 어드레스 (1, 1), (2, 1), (3, 1); (4, 1)에 있는 픽셀을 포함하도록 결정되고; 우측 에지는 어드레스 (4, 1), (4, 2), (4, 3), (3, 3) 및 (3, 4)에 있는 픽셀을 포함하도록 결정되고; 상단 에지는 어드레스(1, 4), (2, 4), (3, 4), (3, 3), 및 (4, 3)에 있는 픽셀을 포함하도록 결정된다. 오브젝트(906)는 또한 에지의 내부에 있는 픽셀, 즉 어드레스 (2, 2), (2, 3) 및 (3, 2)에 있는 픽셀을 포함한다. 따라서, 오브젝트(906)가 발생하는 복수의 픽셀(900) 중의 픽셀의 서브세트는 (1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), 및 (4, 3)이다. 오브젝트(906)의 상대적 사이즈는, 오브젝트(906)가 발생하는 복수의 픽셀(900) 중의 픽셀의 수인 것으로 간주될 수도 있다. 도 9의 예에서, 오브젝트(906)가 발생하는 복수의 픽셀(900) 중의 픽셀의 수는 15이다.
도 10은 이미지에서의 얼굴의 상대적 사이즈를 결정하기 위한 프로세스에 대한 의사 코드의 예를 도시한다. 이하의 논의는 간단한 오브젝트(906)에 관한 것이지만, 그러나 오브젝트(906)가 얼굴인 경우 동일하게 잘 적용된다. 라인 1000에서, 객체의 좌측 에지의 픽셀의 어드레스를 포함하는 매트릭스가 초기화되고 변수 좌측(left)으로서 저장된다. 도 9의 예에 따르면, 좌측은 (1, 1), (1, 2), (1, 3), 및 (1, 4)를 포함할 것이다. 라인 1002에서, 객체의 우측 에지의 픽셀의 어드레스를 포함하는 매트릭스가 초기화되고 변수 우측(right)으로서 저장된다. 도 9의 예에 따라, 우측은 (4, 1), (4, 2), (4, 3), (3, 3), 및 (3, 4)를 포함할 것이다. 라인 1004에서, 좌측 및 우측을 포함하는 매트릭스가 초기화되고 형상으로서 저장된다. 도 9의 예에 따라, 형상은 (1, 1), (1, 2), (1, 3), (1, 4), (4, 1), (4, 2), (4, 3), (3, 3), 및 (3, 4)를 포함할 것이다. 라인 1006 내지 1008은, 좌측의 각각의 엘리먼트를 루프 스루(loop through)하고 엘리먼트를 left_test로서 저장한다. 예를 들면, 엘리먼트(1, 2)가 선택될 수도 있다. 라인 1010 내지 1012에서, left_test의 수평 및 수직 컴포넌트는 각각 left_test_h 및 left_test_v로서 저장된다. 상기에 예에 따라, left_test_h는 1일 것이고 left_test_v는 2일 것이다. 라인 1014에서, left_test_v와 매치하는 수직 성분을 갖는 우측에 있는 엘리먼트가 발견되어 right_test로서 저장된다. 라인 1014는 우측 루프 스루(loop through right)로서 구현될 수도 있다. 상기의 예에 따라, (4, 2)가 선택되어 right_test로서 저장될 수도 있다. 라인 1016에서, left_test_h는 1만큼 증가된다. 상기의 예에 따라, left_test_h는 2로 증가될 것이다. 라인 1018 내지 1022에서, right_test의 수평 성분이 left_test_h보다 더 큰 경우, 어드레스 (left_test_h, left_test_v)를 갖는 픽셀이 형상에 추가되고, 프로세스는 라인 1016으로 복귀한다. 상기의 예에 따라, right_test의 수평 성분이 4이고 left_test_h가 2이며, 따라서 (2, 2)가 형상에 추가되고 프로세스는 라인 1016으로 복귀한다. 라인 16-22를 통한 후속하는 실행(run)에서, (3,2)가 형상에 추가될 것이다. 후속하는 실행에서, left_test_h가 right_test의 수평 성분인 4와 동일할 것이기 때문에, 라인 1018에서의 조건문(conditional statement)은 참이 아닐 것이고, 따라서, 프로세스는 1006으로 진행할 것인데, 여기서, (1, 3)과 같은 좌측의 다른 엘리먼트가 선택된다. 라인 1006에서 좌측의 각각의 엘리먼트가 일단 선택되면, 프로세스는 라인 1032로 진행하는데, 여기서, 복제물은 형상으로부터 제거된다. 이 프로세스는, 상부 및 하부 에지에 대해 유사하게 반복될 때, 오브젝트가 발생하는 복수의 픽셀 중의 픽셀의 서브세트를 포함하는 형상으로 나타날 것이다. 그러면, 형상의 엘리먼트의 수는 오브젝트(906)의 상대적 사이즈로 간주될 수도 있다.
상기에서 논의되는 프로세스는, 제한하는 것이 아니라 예시적인 것으로 의도된다. 기술 분야에서 숙련된 자는, 본원에서 논의되는 프로세스의 단계가 생략, 수정, 결합, 및/또는 재배열될 수도 있고, 임의의 추가적인 단계가 본 발명의 범위를 벗어나지 않으면서 수행될 수도 있다는 것을 인식할 것이다. 더욱 일반적으로, 상기의 개시는 제한하는 것이 아니라 예시적인 것으로 의도된다. 후속하는 청구범위만이 본 발명이 포함하는 바에 관한 한계를 설정하도록 의도된다. 더구나, 임의의 하나의 실시형태에서 설명되는 피쳐 및 제한은, 본원의 임의의 다른 실시형태에 적용될 수도 있다는 것, 및 하나의 실시형태에 관련이 있는 플로우차트 또는 예는 적절한 방식으로 임의의 다른 실시형태와 결합될 수도 있거나, 상이한 순서로 행해질 수도 있거나, 또는 병렬로 행해질 수도 있다는 것을 유의해야 한다. 또한, 본원에서 설명되는 시스템 및 방법은 실시간으로 수행될 수도 있다. 상기에서 설명되는 시스템 및/또는 방법은, 다른 시스템 및/또는 방법에 적용될 수도 있다는 것, 또는 다른 시스템 및/또는 방법에 따라 사용될 수도 있다는 것을 또한 유의해야 한다.

Claims (102)

  1. 유저가 후속 오디오 기반 입력(subsequent audio-based input)으로 시스템 생성 해석을 정정하려고 의도하였다는 명시적인 표시가 오디오 기반 입력(audio-based input)에 없는 경우, 자동 음성 인식(automatic speech recognition; ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법으로서,
    제1 오디오 기반 입력을 수신하는 단계;
    ASR을 사용하여, 상기 제1 오디오 기반 입력에 기초하여 제1 ASR 해석을 생성하는 단계;
    상기 제1 ASR 해석에 기초하여 디스플레이를 위해 검색 결과를 생성하는 단계;
    제2 오디오 기반 입력을 수신하는 단계;
    상기 제1 ASR 해석에 기초한 상기 검색 결과에 대응하는 브라우징 입력이 수신되는지 여부를 결정하는 단계;
    상기 브라우징 입력이 수신되지 않았다는 결정에 응답하여, 상기 제1 ASR 해석에 기초한 상기 검색 결과가 디스플레이된 때와 상기 제2 오디오 기반 입력이 수신된 때 사이의 시간 차이가 임계 시간보다 더 작은지의 여부를 결정하는 단계; 및
    상기 검색 결과가 디스플레이된 때와 상기 제2 오디오 기반 입력이 수신된 때 사이의 상기 시간 차이가 상기 임계 시간보다 더 작다는 것을 결정하는 것에 응답하여, 상기 제2 오디오 기반 입력에 기초하여 상기 제1 ASR 해석을 제2 ASR 해석으로 업데이트하는 단계를 포함하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  2. 유저가 후속 오디오 기반 입력(subsequent audio-based input)으로 시스템 생성 해석을 정정하려고 의도하였다는 명시적인 표시가 오디오 기반 입력(audio-based input)에 없는 경우, 자동 음성 인식(automatic speech recognition ; ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법으로서,
    유저 입력 디바이스를 통해, 제1 오디오 기반 입력을 수신하는 단계;
    제어 회로부(control circuitry) 및 ASR을 사용하여, 상기 제1 오디오 기반 입력에 기초하여 제1 ASR 해석을 결정하는 단계;
    데이터베이스로부터, 상기 제1 ASR 해석에 기초하여 검색 결과를 리트리브(retrieve)하는 단계;
    디스플레이를 위해, 상기 제어 회로부를 사용하여, 상기 검색 결과를 생성하는 단계;
    상기 제어 회로부를 사용하여, 디스플레이를 위해 상기 검색 결과가 생성된 제1 시간을 결정하는 단계;
    상기 유저 입력 디바이스를 통해, 상기 유저의 이미지를 캡쳐하는 단계;
    상기 유저의 상기 이미지가 불만족스러운 감정에 대응하는 것으로 결정하는 단계;
    상기 유저의 상기 이미지가 상기 불만족스러운 감정에 대응하는 것으로 결정하는 것에 응답하여, 상기 제1 오디오 기반 입력을 수신하는 것에 후속하여, 상기 유저 입력 디바이스를 통해, 제2 오디오 기반 입력을 수신하는 단계;
    상기 제어 회로부 및 상기 ASR을 사용하여, 상기 제2 오디오 기반 입력에 기초하여 제2 ASR 해석을 결정하는 단계;
    상기 제어 회로부를 사용하여, 상기 제2 오디오 기반 입력이 수신된 제2 시간을 결정하는 단계;
    상기 제어 회로부를 사용하여, 상기 제2 시간과 상기 제1 시간 사이의 시간 차이를 임계 시간에 비교하는 단계;
    상기 제2 시간과 상기 제1 시간 사이의 상기 시간 차이를 상기 임계 시간에 비교하는 것에 기초하여, 상기 제어 회로부를 사용하여, 상기 제2 시간과 상기 제1 시간 사이의 상기 시간 차이가 상기 임계 시간보다 더 작다는 것을 결정하는 단계; 및
    상기 제2 시간과 상기 제1 시간 사이의 상기 시간 차이가 상기 임계 시간보다 더 작다는 것을 결정하는 것에 응답하여, 상기 제어 회로부를 사용하여, 상기 제1 ASR 해석의 일부분을 상기 제2 ASR 해석의 적어도 일부분으로 대체하는 것에 의해 상기 제1 ASR 해석에 기초하여 정정된 ASR 해석을 생성하는 단계를 포함하고,
    상기 정정된 ASR 해석을 생성하는 단계는, 상기 제어 회로부를 사용하여, 검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 상기 제1 시간과 상기 제2 시간 사이에 상기 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 것에 또한 기초하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  3. 삭제
  4. 제2항에 있어서,
    검색 결과를 브라우징하는 것과 관련되는 어떠한 입력도 상기 제1 시간과 상기 제2 시간 사이에 상기 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 단계는, 상기 검색 결과를 스크롤하기 위한, 상기 검색 결과의 설명을 읽기 위한, 상기 검색 결과를 열기 위한, 또는 상기 검색 결과를 재생하기 위한 어떠한 입력도, 상기 제1 시간과 상기 제2 시간 사이에 상기 유저 입력 디바이스를 통해 수신되지 않았다는 것을 결정하는 단계를 포함하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  5. 제2항에 있어서,
    상기 유저의 이미지를 캡쳐하는 단계는 상기 유저 입력 디바이스를 통해, 상기 제1 시간과 상기 제2 시간 사이에, 상기 유저의 얼굴의 이미지를 캡쳐하는 단계를 포함하고;
    상기 정정된 ASR 해석을 생성하는 단계는, 상기 제어 회로부를 사용하여, 상기 이미지에서의 상기 유저의 상기 얼굴이 불만족스러운 감정과 관련된다는 것을 결정하는 것에 또한 기초하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  6. 제2항에 있어서,
    상기 제1 오디오 기반 입력이 수신되고 있는 동안, 상기 유저 입력 디바이스를 통해, 유저의 얼굴의 제1 이미지를 캡쳐하는 단계;
    상기 제어 회로부를 사용하여, 상기 제1 이미지에서의 상기 유저의 상기 얼굴의 제1 상대적 사이즈를 결정하는 단계;
    상기 제2 오디오 기반 입력이 수신되고 있는 동안, 상기 유저 입력 디바이스를 통해, 상기 유저의 상기 얼굴의 제2 이미지를 캡쳐하는 단계;
    상기 제어 회로부를 사용하여, 상기 제2 이미지에서의 상기 유저의 상기 얼굴의 제2 상대적 사이즈를 결정하는 단계;
    상기 제어 회로부를 사용하여, 상기 유저의 상기 얼굴의 상기 제1 상대적 사이즈와 상기 유저의 상기 얼굴의 상기 제2 상대적 사이즈 사이의 상대적 사이즈 차이를 임계 상대적 사이즈에 비교하는 단계;
    상기 유저의 상기 얼굴의 상기 제1 상대적 사이즈와 상기 유저의 상기 얼굴의 상기 제2 상대적 사이즈 사이의 상기 상대적 사이즈 차이를 상기 임계 상대적 사이즈에 비교하는 것에 기초하여, 상기 제어 회로부를 사용하여, 상기 상대적 사이즈 차이가 상기 임계 상대적 사이즈보다 더 크다는 것을 결정하는 단계를 더 포함하고;
    상기 정정된 ASR 해석을 생성하는 단계는, 상기 제어 회로부를 사용하여, 상기 상대적 사이즈 차이가 상기 임계 상대적 사이즈보다 더 크다는 것을 결정하는 것에 또한 기초하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  7. 제2항에 있어서,
    상기 제어 회로부를 사용하여, 상기 제2 시간과 상기 제1 시간 사이의 상기 시간 차이를 다른 임계 시간에 비교하는 단계;
    상기 제2 시간과 상기 제1 시간 사이의 상기 시간 차이를 상기 다른 임계 시간에 비교하는 것에 기초하여, 상기 제어 회로부를 사용하여, 상기 제2 시간과 상기 제1 시간 사이의 상기 시간 차이가 상기 다른 임계 시간보다 더 크다는 것을 결정하는 단계를 더 포함하고;
    상기 정정된 ASR 해석을 생성하는 단계는, 상기 제어 회로부를 사용하여, 상기 제2 시간과 상기 제1 시간 사이의 상기 시간 차이가 상기 다른 임계 시간보다 더 크다는 것을 결정하는 것에 또한 기초하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  8. 제2항에 있어서,
    유저와 관련되는 입력 사이의 평균 시간에 기초하여 상기 임계 시간을 조정하는 단계를 더 포함하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  9. 제2항에 있어서,
    상기 유저 입력 디바이스를 통해, 기준 환경 노이즈 레벨(baseline environmental noise level)을 측정하는 단계;
    상기 유저 입력 디바이스를 통해, 상기 제1 오디오 기반 입력이 수신되고 있는 동안 환경 노이즈 레벨을 측정하는 단계;
    상기 제어 회로부를 사용하여, 상기 제1 오디오 기반 입력이 수신되고 있는 동안의 상기 환경 노이즈 레벨과 상기 기준 환경 노이즈 레벨 사이의 환경 노이즈 레벨 차이를 임계 환경 노이즈 레벨에 비교하는 단계;
    상기 제1 오디오 기반 입력이 수신되고 있는 동안의 상기 환경 노이즈 레벨과 상기 기준 환경 노이즈 레벨 사이의 상기 환경 노이즈 레벨 차이를 상기 임계 환경 노이즈 레벨에 비교하는 것에 기초하여, 상기 제어 회로부를 사용하여, 상기 환경 노이즈 레벨 차이가 상기 임계 환경 노이즈 레벨보다 더 크다는 것을 결정하는 단계를 더 포함하고;
    상기 정정된 ASR 해석을 생성하는 단계는, 상기 제어 회로부를 사용하여, 상기 환경 노이즈 레벨 차이가 상기 임계 환경 노이즈 레벨보다 더 크다는 것을 결정하는 것에 또한 기초하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  10. 제2항에 있어서,
    상기 제2 오디오 기반 입력이 수신된 상기 제2 시간을 결정하는 단계는, 상기 유저 입력 디바이스를 통해, 상기 제1 시간에 후속하여 가장 빠른 발음이 수신된 시간을 측정하는 단계를 포함하는, 자동 음성 인식(ASR)을 사용하여 생성되는 상기 유저에 의해 제공된 상기 오디오 기반 입력의 상기 시스템 생성 해석을 음성에 기초하여 정정하기 위한 방법.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
  76. 삭제
  77. 삭제
  78. 삭제
  79. 삭제
  80. 삭제
  81. 삭제
  82. 삭제
  83. 삭제
  84. 삭제
  85. 삭제
  86. 삭제
  87. 삭제
  88. 삭제
  89. 삭제
  90. 삭제
  91. 삭제
  92. 삭제
  93. 삭제
  94. 삭제
  95. 삭제
  96. 삭제
  97. 삭제
  98. 삭제
  99. 삭제
  100. 삭제
  101. 삭제
  102. 삭제
KR1020197037888A 2017-05-24 2017-05-24 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템 KR102428911B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227026541A KR20220114094A (ko) 2017-05-24 2017-05-24 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/034229 WO2018217194A1 (en) 2017-05-24 2017-05-24 Methods and systems for correcting, based on speech, input generated using automatic speech recognition

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227026541A Division KR20220114094A (ko) 2017-05-24 2017-05-24 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200010455A KR20200010455A (ko) 2020-01-30
KR102428911B1 true KR102428911B1 (ko) 2022-08-03

Family

ID=59055274

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020227026541A KR20220114094A (ko) 2017-05-24 2017-05-24 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
KR1020197037888A KR102428911B1 (ko) 2017-05-24 2017-05-24 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020227026541A KR20220114094A (ko) 2017-05-24 2017-05-24 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템

Country Status (7)

Country Link
US (2) US11521608B2 (ko)
EP (1) EP3631794A1 (ko)
JP (2) JP7119008B2 (ko)
KR (2) KR20220114094A (ko)
CN (1) CN110663079A (ko)
CA (1) CA3002383A1 (ko)
WO (1) WO2018217194A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7131077B2 (ja) * 2018-05-24 2022-09-06 カシオ計算機株式会社 会話装置、ロボット、会話装置制御方法及びプログラム
US10831442B2 (en) * 2018-10-19 2020-11-10 International Business Machines Corporation Digital assistant user interface amalgamation
US11277692B2 (en) * 2019-03-27 2022-03-15 Panasonic Corporation Speech input method, recording medium, and speech input device
JP7411422B2 (ja) * 2019-03-27 2024-01-11 パナソニックホールディングス株式会社 音声入力方法、プログラム及び音声入力装置
EP3790000A1 (en) * 2019-09-05 2021-03-10 SoundHound, Inc. System and method for detection and correction of a speech query
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7363307B2 (ja) * 2019-09-30 2023-10-18 日本電気株式会社 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体
US11721322B2 (en) * 2020-02-28 2023-08-08 Rovi Guides, Inc. Automated word correction in speech recognition systems
CN111326140B (zh) * 2020-03-12 2023-05-30 科大讯飞股份有限公司 语音识别结果判别方法、纠正方法、装置、设备及存储介质
EP3956884B1 (en) * 2020-07-08 2023-12-20 Google LLC Identification and utilization of misrecognitions in automatic speech recognition
KR102458830B1 (ko) * 2020-11-16 2022-10-26 주식회사 솔트룩스 사용자 중심의 음성 대화 시스템
US20220300560A1 (en) * 2021-03-18 2022-09-22 Amazon Technologies, Inc. Voice search refinement resolution
US11854544B1 (en) 2021-06-11 2023-12-26 Amazon Technologies, Inc. Entity resolution of product search filters
CN115841814A (zh) * 2021-09-18 2023-03-24 华为技术有限公司 语音交互方法及电子设备
US11657803B1 (en) * 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information
CN115798465B (zh) * 2023-02-07 2023-04-07 天创光电工程有限公司 一种语音输入方法、系统及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128015A (ja) * 2008-11-25 2010-06-10 Toyota Central R&D Labs Inc 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6239794B1 (en) 1994-08-31 2001-05-29 E Guide, Inc. Method and system for simultaneously displaying a television program and information about the program
US6564378B1 (en) 1997-12-08 2003-05-13 United Video Properties, Inc. Program guide system with browsing display
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
ES2342593T3 (es) 1998-07-17 2010-07-09 United Video Properties, Inc. Sistema de guia interactivo de programas de television que tienen multiples dispositivos dentro de una casa.
AR020608A1 (es) 1998-07-17 2002-05-22 United Video Properties Inc Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto
US7165098B1 (en) 1998-11-10 2007-01-16 United Video Properties, Inc. On-line schedule system with personalization features
EP1193686B1 (en) 2000-09-29 2003-05-21 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Method and device for analyzing a spoken sequence of numbers
KR100896725B1 (ko) 2001-02-21 2009-05-11 유나이티드 비디오 프로퍼티즈, 인크. 복수의 프로그램 가이드 제공 방법, 프로그램 버퍼링 방법 및 시스템
JP3762327B2 (ja) 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
JP2005084253A (ja) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd 音響処理装置、方法、プログラム及び記憶媒体
US20050182504A1 (en) 2004-02-18 2005-08-18 Bailey James L. Apparatus to produce karaoke accompaniment
JP4798601B2 (ja) 2004-12-28 2011-10-19 株式会社国際電気通信基礎技術研究所 音声区間検出装置および音声区間検出プログラム
KR100819848B1 (ko) * 2005-12-08 2008-04-08 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
US20100153885A1 (en) 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
JP5089955B2 (ja) * 2006-10-06 2012-12-05 三菱電機株式会社 音声対話装置
US20080134866A1 (en) 2006-12-12 2008-06-12 Brown Arnold E Filter for dynamic creation and use of instrumental musical tracks
GB2462399A (en) 2007-06-28 2010-02-10 Taptu Ltd Search result ranking
US20090006368A1 (en) 2007-06-29 2009-01-01 Microsoft Corporation Automatic Video Recommendation
US20090228273A1 (en) 2008-03-05 2009-09-10 Microsoft Corporation Handwriting-based user interface for correction of speech recognition errors
JP2011059194A (ja) 2009-09-07 2011-03-24 Sharp Corp 制御装置、画像形成装置、画像形成装置の制御方法、プログラムおよび記録媒体
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8990241B2 (en) 2010-12-23 2015-03-24 Yahoo! Inc. System and method for recommending queries related to trending topics based on a received query
US8805751B2 (en) 2011-10-13 2014-08-12 Verizon Patent And Licensing Inc. User class based media content recommendation methods and systems
US8249876B1 (en) * 2012-01-03 2012-08-21 Google Inc. Method for providing alternative interpretations of a voice input to a user
EP2645364B1 (en) 2012-03-29 2019-05-08 Honda Research Institute Europe GmbH Spoken dialog system using prominence
US20130294755A1 (en) 2012-05-03 2013-11-07 United Video Properties, Inc. Systems and methods for preventing access to a media asset segment during a fast-access playback operation
US20130347038A1 (en) 2012-06-21 2013-12-26 United Video Properties, Inc. Systems and methods for searching for media based on derived attributes
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9704484B2 (en) * 2012-08-10 2017-07-11 Honda Access Corp. Speech recognition method and speech recognition device
US9237386B2 (en) 2012-08-31 2016-01-12 Google Inc. Aiding discovery of program content by providing deeplinks into most interesting moments via social media
US9378737B2 (en) * 2012-11-05 2016-06-28 Mitsubishi Electric Corporation Voice recognition device
US9462342B2 (en) 2013-01-24 2016-10-04 Surewaves Mediatech Private Limited System and method for recommending on demand multimedia content based on event information
US10121493B2 (en) 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US9712482B2 (en) 2014-02-18 2017-07-18 Veveo, Inc. Methods and systems for recommending concept clusters based on availability
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US20150382061A1 (en) 2014-06-30 2015-12-31 Sling Media, Inc. Spoiler mitigation methods and systems
WO2016020464A1 (en) 2014-08-05 2016-02-11 Piksel, Inc Context driven recommendation for content delivery and display system
US9514743B2 (en) 2014-08-29 2016-12-06 Google Inc. Query rewrite corrections
JP6284462B2 (ja) * 2014-09-22 2018-02-28 株式会社日立製作所 音声認識方法、及び音声認識装置
US10284916B2 (en) 2014-11-19 2019-05-07 Comcast Cable Communications, Llc Personalized menus and media content interface
JP6514503B2 (ja) * 2014-12-25 2019-05-15 クラリオン株式会社 意図推定装置、および意図推定システム
US10068023B2 (en) 2014-12-30 2018-09-04 Rovi Guides, Inc. Systems and methods for updating links between keywords associated with a trending topic
US9648386B2 (en) 2014-12-30 2017-05-09 Echostar Technologies L.L.C. Protection from spoilers
US11290783B2 (en) 2015-03-17 2022-03-29 Comcast Cable Communications, Llc Real-time recommendations for altering content output
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10339917B2 (en) * 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
JP6751658B2 (ja) * 2016-11-15 2020-09-09 クラリオン株式会社 音声認識装置、音声認識システム
US10741175B2 (en) * 2016-11-30 2020-08-11 Lenovo (Singapore) Pte. Ltd. Systems and methods for natural language understanding using sensor input
US11475884B2 (en) * 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128015A (ja) * 2008-11-25 2010-06-10 Toyota Central R&D Labs Inc 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム

Also Published As

Publication number Publication date
US11521608B2 (en) 2022-12-06
KR20220114094A (ko) 2022-08-17
JP2021144250A (ja) 2021-09-24
CN110663079A (zh) 2020-01-07
JP7119008B2 (ja) 2022-08-16
CA3002383A1 (en) 2018-11-24
JP2020522733A (ja) 2020-07-30
WO2018217194A1 (en) 2018-11-29
KR20200010455A (ko) 2020-01-30
US20200143806A1 (en) 2020-05-07
US20230138030A1 (en) 2023-05-04
EP3631794A1 (en) 2020-04-08
JP7159400B2 (ja) 2022-10-24

Similar Documents

Publication Publication Date Title
KR102428911B1 (ko) 자동 음성 인식을 사용하여 생성되는 입력을 음성에 기초하여 정정하기 위한 방법 및 시스템
US10182266B2 (en) Systems and methods for automatically enabling subtitles based on detecting an accent
US10311862B2 (en) Systems and methods for conversations with devices about media using interruptions and changes of subjects
US10672390B2 (en) Systems and methods for improving speech recognition performance by generating combined interpretations
US20180211556A1 (en) Systems and methods for adjusting display lengths of subtitles based on a user's reading speed
JP7368406B2 (ja) 家庭内で話されている言語に対応するコンテンツを識別するためのシステムおよび方法
KR102451348B1 (ko) 음성 데이터 및 미디어 소비 데이터에 기초하여 사용자들을 식별하기 위한 시스템들 및 방법들
US11758234B2 (en) Systems and methods for creating an asynchronous social watching experience among users
US11670284B2 (en) Systems and methods for adjusting dubbed speech based on context of a scene
US11343563B2 (en) Methods and systems for verifying media guidance data
US20180376222A1 (en) Systems and methods for generating a set of custom keywords based on a media asset

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)