KR20140028540A - 디스플레이 디바이스 및 스피치 검색 방법 - Google Patents
디스플레이 디바이스 및 스피치 검색 방법 Download PDFInfo
- Publication number
- KR20140028540A KR20140028540A KR20120095034A KR20120095034A KR20140028540A KR 20140028540 A KR20140028540 A KR 20140028540A KR 20120095034 A KR20120095034 A KR 20120095034A KR 20120095034 A KR20120095034 A KR 20120095034A KR 20140028540 A KR20140028540 A KR 20140028540A
- Authority
- KR
- South Korea
- Prior art keywords
- query term
- display device
- query
- user
- speech
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 43
- 239000000284 extract Substances 0.000 claims description 10
- 238000012790 confirmation Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000003203 everyday effect Effects 0.000 description 3
- 238000005452 bending Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Library & Information Science (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
본 발명에 따른 디스플레이 디바이스의 스피치 검색 방법은, 미디어 데이터를 출력하는 단계; 스피치 검색 명령을 수신하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계; 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계; 상기 스피치 검색 결과를 제공하는 단계를 포함한다.
Description
본 발명은 디스플레이 디바이스에 대한 것으로, 특히 디스플레이 장치의 스피치 검색 방법에 대한 것이다.
네트워크 기술을 발전으로 인해, 사용자는 다양한 정보를 손쉽게 검색할 수 있게 되었다. 특히, 사용자는 디지털 컨텐츠를 시청하면서 시청중인 컨텐츠에 대한 정보를 검색할 수 있다. 사용자는 컨텐츠에 대한 정보로서 컨텐츠 자체에 대한 정보뿐 아니라, 시청중인 컨텐츠의 부분 또는 컨텐츠의 오브젝트에 대한 정보를 검색할 수도 있다.
컨텐츠에 대한 정보의 검색은 다양한 방법으로 수행될 수 있다. 종래의 경우, 사용자는 키보드와 같은 별도의 입력 수단으로 원하는 검색 용어를 입력하였다. 그러나 최근 음성(voice) 인식 기술의 발전으로 인해, 사용자는 음성로 디바이스에 다양한 명령을 입력하여, 디바이스를 제어할 수 있게 되었다. 따라서 사용자는 스피치로 시청 중인 컨텐츠에 대한 정보를 검색할 수도 있다.
본 발명은, 사용자가 스피치 검색을 사용하여 더욱 편리하고 더욱 정확하게 원하는 정보를 획득할 수 있는 방법을 제공하고자 한다. 특히, 본 발명에 따르면 사용자가 검색 대상을 정확하게 인식하지 못한 경우에도, 사용자의 스피치 검색 명령 및 시청중인 미디어 데이터에 대한 컨텍스트 정보를 사용하여 사용자의 의도에 맞는 검색 결과를 제공할 수 있다.
전술한 기술적 과제를 해결하기 위하여, 본 발명의 디스플레이 디바이스의 스피치 검색 방법은, 미디어 데이터를 출력하는 단계; 스피치 검색 명령을 수신하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계; 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계; 상기 스피치 검색 결과를 제공하는 단계를 포함한다.
또한, 본 발명의 디스플레이 디바이스는, 미디어 데이터플 프로세싱하는 미디어 데이터 프로세싱 모듈; 상기 프로세싱된 미디어 데이터를 아웃풋하는 미디어 데이터 아웃풋 유닛; 스피치 검색 명령을 수신하는 오디오 인풋 유닛; 상기 스피치 검색 명령을 처리하여 쿼리 용어를 결정하고, 결정된 쿼리 용어로 스피치 검색을 수행하는 스피치 검색 모듈을 포함하며, 특히, 상기 디스플레이 디바이스는, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지 결정하고, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하고, 상기 결정된 쿼리 용어를 사용하여 스피치 검색을 수행한다.
본 발명에 따르면, 사용자의 스피치 검색 명령을 더욱 정확히 처리하여 사용자의 의도에 맞는 검색 결과를 제공할 수 있다.
특히, 사용자가 검색 대상을 정확히 인식하지 못하여 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 사용자가 부분적으로 인식한 단어를 통해 검색을 원하는 용어를 판단하고, 판단된 용어로 검색을 수행할 수 있다.
또한, 본 발명에 따르면, 사용자가 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 사용자가 시청중인 미디어 데이터에 대한 컨텍스트 정보를 사용, 검색 대상이 되는 용어를 결정할 수 있다.
또한, 본 발명에 따르면, 사용자가 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 컨텍스트 정보를 사용하여 사용자가 검색하고자 하는 대상의 용어 후보들을 제공하여, 사용자가 원하는 검색을 정확히 수행할 수 있도록 한다.
도 1은 본 발명의 일 실시예에 따른 네트워크의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 디스플레이 디바이스를 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 5는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 6은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 7은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 논리적 구성도를 나타낸 도면이다.
도 8은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 9는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 디스플레이 디바이스를 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 5는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 6은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 7은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 논리적 구성도를 나타낸 도면이다.
도 8은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 9는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
본 발명은 스피치 검색을 수행하여 검색 결과를 사용자에게 제공하는 디스플레이 디바이스에 대한 것이다. 스피치 검색이란, 사용자의 음성 명령을 인식하여, 음성 명령에 해당하는 검색을 수행하는 기술을 의미한다. 스피치 검색은 음성 인식 또는 스피치 인식 기술을 사용한다. 본 발명에서 사용하는 음성 인식 기술은 자연어 처리 기술을 포함한다. 자연어 처리란, 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통해 디바이스가 처리할 수 있도록 변환시키는 작업을 의미한다. 다시 말하면, 디바이스가 인식할 수 있는 기설정된 키워드가 아닌, 사용자의 자연스러운 대화를 처리하여 사용자의 의도에 해당하는 동작을 수행하는 방법을 의미한다.
본 발명에서 디스플레이 디바이스는, 디지털 미디어 데이터 또는 디지털 컨텐츠를 처리하여 출력할 수 있는 다양한 디바이스를 의미한다. 디지털 컨텐츠는, 텍스트 데이터, 오디오 데이터, 비디오 데이터 중 적어도 하나를 포함한다. 실시예로서, 디스플레이 디바이스는 TV, 셋탑 박스, 핸드폰, PDA(Personal Digital Assistants), 컴퓨터, 노트북, 태블릿 피씨 등의 다양한 전자 디바이스에 해당될 수 있다. 다시 말하면, 디스플레이 디바이스는 디지털 컨텐츠를 처리하여 사용자에게 제공할 수 있는 다양한 전자 디바이스를 의미하며, 이하에서 디바이스로 약칭할 수도 있다. 이하에서, 디지털 컨텐트 및 컨텐트는 이하에서 미디어 데이터로 지칭될 수 있다.
도 1은 본 발명의 일 실시예에 따른 네트워크의 개념도이다.
디스플레이 디바이스들(1040)은 네트워크(1030)에 연결된다. 네트워크(1030)는 케이블, 무선 통신, 광 통신, IP 네트워크 등 다양한 통신 프로토콜을 사용하여 데이터를 송수신할 수 있는 네트워크를 나타낸다. 디스플레이 디바이스(1040)는 네트워크(1030)를 통해 컨텐츠 서버(1010)로부터 컨텐츠를 수신할 수 있다. 컨텐츠 서버(1010)는 디지털 컨텐츠를 제공하는 컨텐츠 프로바이더로서, 네트워크 구성에 따라 디스플레이 디바이스(1040)도 컨텐츠 서버(1010)가 될 수 있다.
디스플레이 디바이스(1040)는 컨텐츠 서버(1010)로부터 수신한 컨텐츠를 처리하여 사용자에게 제공할 수 있다. 디스플레이 디바이스(1040)가 컨텐츠를 제공한다는 의미는, 수신한 컨텐츠 데이터를 프로세싱하여 컨텐츠를 디스플레이 또는 오디오 출력한다는 의미이다. 그리고 디스플레이 디바이스(1040)는 사용자로부터 검색 명령을 수신하여, 검색 용어를 검색 엔진(1020)으로 전송하고, 검색 엔진(1020)으로부터 검색 결과를 수신하여 사용자에게 제공할 수 있다.
이하에서 검색의 대상이 되는 적어도 하나의 단어를 쿼리 용어로 지칭할 수 있다. 쿼리 용어는, 검색 엔진을 사용하여 검색하게 되는 대상으로서, 적어도 하나의 단어를 포함할 수 있다. 디스플레이 디바이스(1040)는 쿼리 용어를 사용하여 디스플레이 디바이스(1040)가 포함하는 데이터 베이스로부터 검색을 수행하거나, 쿼리 용어를 검색 엔진(1020)로 전송하고, 검색 결과를 수신할 수도 있다. 그리고, 쿼리 용어가 포함하는 적어도 하나의 단어를 쿼리 워드라고 지칭할 수 있다. 쿼리 용어가 복수의 단어를 포함하는 경우, 각각의 단어들을 쿼리 워드로 지칭할 수 있다. 쿼리 용어가 하나의 단어를 포함하는 경우, 쿼리 워드가 곧 쿼리 용어가 될 수 있다. 다만, 이하에서 쿼리 워드는 사용자가 스피치 검색 명령을 말하면서 검색 대상을 지칭하는 단어를 의미한다. 다시 말하면, 불완전하거나 불분명한 단어를 사용자가 말할 수 있으며, 이러한 단어를 디스플레이 디바이스는 쿼리 워드로 인식할 수 있다. 이에 대해서는, 이하에서 예를 들면서 상세히 설명하도록 하겠다.
도 2는 본 발명의 일 실시예에 따른 디스플레이 디바이스를 나타낸 블록도이다.
도 2는, 도 1에서 도시한 디스플레이 디바이스(1040)를 나타내며, 디스플레이 디바이스는 스토리지 유닛(2010), 커뮤니케이션 유닛(2020), 센서 유닛(2030), 오디오 인풋/아웃풋 유닛(2040), 카메라 유닛(2050), 디스플레이 유닛(2060), 파워 유닛(21070), 프로세서(2080), 및 컨트롤러(2090)를 포함한다. 도 2의 디스플레이 디바이스는 예시적인 것으로, 도 2에 도시한 유닛들이 모두 구비되어야 하는 것은 아니다. 디스플레이 디바이스의 본 발명의 실시예에 따른 동작에 필요한 구조도는 이하에서 다시 설명하도록 할 것이다.
스토리지 유닛(2010)은 비디오, 오디오, 사진, 동영상, 애플리케이션 등 다양한 디지털 데이터를 저장할 수 있다. 스토리지 유닛(2010)은 플래시 메모리, HDD(Hard Disk Drive), SSD(Solid State Drive) 등의 다양한 디지털 데이터 저장 공간을 나타낸다. 이하에서, 데이터를 처리함에 필요한 버퍼 또한 스토리지 유닛(2010)에 포함될 수 있다. 또한, 스토리지 유닛(2010)은 정보 검색을 위한 데이터 베이스를 저장하고 있을 수도 있다.
커뮤니케이션 유닛(2020)은 디스플레이 디바이스 외부와 다양한 프로토콜을 사용하여 통신을 수행, 데이터를 송신/수신할 수 있다. 커뮤니케이션 유닛(2020)은 유선 또는 무선으로 외부 네트워크에 접속하여, 디지털 테이터를 송신/수신할 수 있다. 본 발명에서 디스플레이 디바이스는 커뮤니케이션 유닛(2020)을 사용하여 미디어 데이터를 수신하거나, 검색 쿼리를 전송하고 쿼리에 대한 검색 결과를 수신할 수 있다.
센서 유닛(2030)은 디스플레이 디바이스에 장착된 복수의 센서를 사용하여 사용자의 인풋 또는 디바이스의 환경을 인식하여 컨트롤러(2090)로 전달할 수 있다. 센서 유닛(2030)은 복수의 센싱 수단을 포함할 수 있다. 일 실시예로서, 복수의 센싱 수단은 중력(gravity) 센서, 지자기 센서, 모션 센서, 자이로 센서, 가속도 센서, 기울임(inclication) 센서, 밝기 센서, 고도 센서, 후각 센서, 온도 센서, 뎁스 센서, 압력 센서, 밴딩 센서, 오디오 센서, 비디오 센서, GPS(Global Positioning System) 센서, 터치 센서 등의 센싱 수단을 포함할 수 있다. 센서 유닛(2030)은 상술한 다양한 센싱 수단을 통칭하는 것으로, 사용자의 다양한 입력 및 사용자의 환경을 센싱하여, 디바이스가 그에 따른 동작을 수행할 수 있도록 센싱 결과를 전달할 수 있다. 상술한 센서들은 별도의 엘러먼트로 디바이스에 포함되거나, 적어도 하나 이상의 엘러먼트로 통합되어 포함될 수 있다. 센서 유닛(2030)은 실시예에 따라 선택적으로 구비될 수 있다.
오디오 인풋/아웃풋 유닛(2040)은 스피커 등의 오디오 출력 수단 및 마이크 등의 오디오 입력 수단을 포함하며, 디바이스의 오디오 출력 및 디바이스로의 오디오 입력을 수행할 수 있다. 오디오 인풋/아웃풋 유닛(2040)은 오디오 센서로 사용될 수도 있다. 다만 본 발명의 실시예에 따라, 디스플레이 디바이스가 스피커 또는 마이크를 포함하지 않는 경우(예를 들면, 셋탑 박스 등), 오디오 인풋/아웃풋 유닛(2040)은 오디오 데이터를 처리하여 외부로 디스플레이 장치로 전송하거나, 오디오 데이터를 수신하여 처리할 수도 있다. 오디오 인풋 유닛 및 오디오 아웃풋 유닛이 별도로 구비될 수도 있으며, 이러한 실시예에 대해서는 이하에서 상술하도록 한다.
카메라 유닛(2050)은 사진 및 동영상 촬영을 수행할 수 있으며, 실시예에 따라서 선택적으로 구비될 수 있다. 카메라 유닛(2050)은 상술한 모션 센서 또는 비주얼 센서로 사용될 수도 있다.
디스플레이 유닛(2060)은 디스플레이 화면에 이미지를 출력할 수 있다. 디스플레이 유닛(2060)은, 디스플레이가 터치 센서티브 디스플레이인 경우, 상술한 터치 센서로 사용될 수 있으며, 디스플레이 또는 디바이스가 플렉서블한 경우, 밴딩 센서로서 사용될 수도 있다. 다만 본 발명의 실시예에 따라, 디스플레이 디바이스가 디스플레이 패널 또는 스크린을 포함하지 않는 경우(예를 들면, 셋탑 박스 및 컴퓨터 등), 디스플레이 유닛은 디스플레이 데이터를 처리하여 외부 디스플레이 장치(모니터 등)로 전송할 수도 있다. 디스플레이 유닛(2060)은 이하에서 비디오 아웃풋 유닛으로 지칭할 수도 있다.
파워 유닛(2070)은 디바이스 내부의 배터리 또는 외부 전원과 연결되는 파워 소스로, 디바이스에 파워를 공급할 수 있다.
프로세서(2080)는 스토리지 유닛(1010)에 저장된 다양한 애플리케이션을 실행하고, 디바이스 내부의 데이터를 프로세싱할 수 있다.
컨트롤러(2090)는 상술한 디바이스의 유닛들을 제어하며, 유닛들 간의 데이터 송수신 및 각각의 동작을 매니징할 수도 있다.
프로세서(2080) 및 컨트롤러(2090)는 하나의 칩으로 구비되어, 상술한 각각의 동작을 함께 수행할 수 있다. 이러한 경우, 이하에서는 이를 컨트롤 유닛(2100)으로 지칭할 수 있다. 본 발명의 스피치 검색 방법은 컨트롤 유닛(2010)에 의해 수행될 수 있으며, 실시예에 따라 컨트롤 유닛(2010)에서 구동되는 모듈들에 의해 수행될 수 있으며, 이에 대하여는 이하에서 상술하도록 한다.
도 2은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 블록도로서, 분리하여 표시된 블록들은 디바이스의 엘러먼트들을 논리적으로 구별하여 도시한 것이다. 따라서 상술한 디바이스의 엘러먼트들은 디바이스의 설계에 따라 하나의 칩으로 또는 복수의 칩으로 장착될 수도 있다.
이하에서, 스피치 검색 방법은 도 2의 컨트롤 유닛(2100)에서 수행될 수 있으며, 실시예에 따라 스토리지 유닛(2010)에 저장되고 컨트롤러 유닛(2100)에 의해 구동되는 애플리케이션에 의해 실행될 수도 있다. 이러한 스피치 검색을 수행하는 컨트롤 유닛(2100)의 동작과 관련하여는, 이하에서 추가로 설명하도록 한다. 또한, 이하의 실시예들에서, 디스플레이 디바이스는 설명의 편의를 위하여 TV를 예로서 설명하나, 상술한 바와 같이 디스플레이 디바이스가 TV로 한정되지 않음은 당업자에게 자명한 것이다.
도 3은 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
일 실시예로서, 디스플레이 디바이스(3010)는 미디어 데이터로서 야구 컨텐트를 출력할 수 있다. 야구 컨텐트는, 실시간으로 수신하는 방송 컨텐트이거나, 디스플레이 디바이스(3010)의 스토리지 유닛에 기저장된 컨텐트일 수도 있다. 디스플레이 디바이스가 출력하는 컨텐트 즉 미디어 데이터는 비디오 데이터와 오디오 데이터를 포함할 수 있다. 디스플레이 디바이스(3010)는 디스플레이 스크린을 통해 비디오 데이터를 출력하고, 스피커를 통해 오디오 데이터를 출력할 수 있다.
디스플레이 디바이스(3010)를 통해 야구 컨텐트를 시청중인 사용자는, 음성으로 컨텐트에 관련된 정보를 검색할 수 있다. 예를 들면, 화면에 디스플레이되는 이미지에서, 선수의 정보를 검색하거나, 음성 중계에서 모르는 용어에 대한 정보를 검색할 수 있다. 도 3에서와 같이, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 말이 나온 경우, 사용자는 "플라이 아웃"이 무엇인지를 검색하고 싶을 수 있다. 이 경우, 본 발명에서 사용자는 음성 명령으로 플라이 아웃의 의미를 검색할 수 있다. 특히, 자연어 처리를 사용하여 "플라이 아웃이 뭐지?"와 같이 일상 생활에서 질문하는 방법으로 스피치 검색 기능을 호출하여 검색을 개시할 수 있다.
도 4는 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 4는 도 3에서 설명한 스피치 검색 방법을 좀 더 상세히 설명하는 순서도이다.
디스플레이 디바이스는 미디어 데이터를 출력할 수 있다(S4010). 상술한 바와 같이, 미디어 컨텐츠는 비디오 데이터, 오디오 데이터를 포함하며, 컨텐츠에 따라 텍스트 데이터 또한 포함할 수도 있다.
디스플레이 디바이스는 스피치 검색 명령을 수신할 수 있다(S4020). 스피치 검색 명령은, 기설정된 명령어를 사용할 수도 있으며, 자연어 처리 기술을 사용하여 일상 대화와 같은 자연스러운 명령이 될 수도 있다. 도 3의 실시예에서, "플라이 아웃이 뭐지?"가 스피치 검색 명령에 해당한다. 디스플레이 디바이스는, 음성 인식 기술을 사용하여 마이크를 통해 수신하는 사용자의 음성 중 스피치 검색 명령을 인식할 수 있다.
디스플레이 디바이스는 스피치 검색 명령으로부터 쿼리 용어를 추출할 수 있다(S4030). 디스플레이 디바이스가 사용자의 음성 중 스피치 검색 명령을 인식하면, 스피치 검색 명령으로부터 검색의 대상이 되는 쿼리 용어(query term)을 추출할 수 있다. 도 3의 실시예에서, "플라이 아웃이 뭐지?"라는 스피치 검색 명령에서, 쿼리 용어는 "플라이 아웃"이 된다. 디스플레이 디바이스는, "플라이 아웃이 뭐지?"라는 사용자의 음성을 스피치 검색 명령으로 인식하고, 인식된 스피치 검색 명령으로부터 검색을 수행할 쿼리 용어인 "플라이 아웃"을 추출할 수 있다.
이하에서, 스피치 검색 명령에 포함되는 단어들을 쿼리 워드라고 지칭할 수 있다. 도 3 및 도 4의 실시예에서, '플라이' 및 '아웃' 각각이 쿼리 워드에 해당한다. 디스플레이 디바이스는 쿼리 워드에 대하여 검색을 수행할 수도 있으나, 사용자가 원하는 검색어는 쿼리 워드 각각이 아닌 쿼리 워드의 조합 즉 쿼리 용어가 될 수 있다. 디스플레이 디바이스는 음성 인식 기술 및 자연어 처리 기술을 통해 쿼리 용어를 추출할 수 있으며, 이 경우 쿼리 용어의 추출은 쿼리 워드가 하나인 경우 쿼리 워드의 추출이 되며, 쿼리 워드가 복수인 경우 쿼리 워드의 조합인 쿼리 용어의 추출이 될 수도 있다. 쿼리 워드의 추출은, 미디어 데이터에 대한 컨텍스트 정보를 참조하여 수행될 수도 있다. 도 3 및 도 4의 실시예에서, 디스플레이 디바이스는 사용자가 야구 컨텐트를 시청하고 있으므로, 사용자가 검색을 원하는 용어는 '플라이' 또는 '아웃'보다는 야구 용어인 '플라이 아웃'인 것으로 판단할 수 있다.
디스플레이 디바이스는 추출된 쿼리 용어를 사용하여 검색을 수행할 수 있다(S4040). 디스플레이 디바이스는 디스플레이 디바이스 자체에 내장된 검색 엔진을 사용하여 쿼리 용어에 관련된 정보를 검색하거나, 쿼리 용어를 네트워크를 통해 검색 기능을 제공하는 외부 검색 엔진으로 전송하고, 검색 결과를 수신할 수도 있다. 쿼리 용어에 대한 검색 및 검색 결과는 용어에 대한 정의를 포함하여, 사용자가 시청중인 컨텐트와 관련된 다양한 데이터를 포함할 수 있다.
디스플레이 디바이스는 검색 결과를 사용자에게 제공할 수 있다(S4050). 검색 결과는 다양한 방법으로 제공될 수 있다. 예를 들면, 디스플레이 디바이스는 검색 결과를 음성으로 제공하거나, 디스플레이 출력으로 제공할 수도 있다. 다시 하면, 디스플레이 디바이스는 검색 결과를 음성으로 사용자에게 출력하거나, 디스플레이 화면에 자막과 같은 형태로 제공할 수도 있다.
다만, 도 3 및 도 4에서 설명한 실시예의 경우는 스피치 검색 명령이 완성된(complete) 쿼리 용어를 포함해야 한다. 즉, 쿼리 용어가 미완성이거나 모호한(ambiguous) 경우에는 검색을 위한 쿼리 용어를 추출할 수 없게 된다. 이에 대하여는 이하에서 상술하도록 한다. 이하에서, 도 3 및 도 4에서 설명한 바와 동일한 기술적 내용에 대하여는 중복하여 설명하지 않도록 한다.
도 5는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 3에서와 같이 디스플레이 디바이스(5010)는 컨텐트로서 야구 컨텐트를 출력한다. 야구 컨텐트는, 실시간으로 수신하는 방송 컨텐트이거나, 디스플레이 디바이스(5010)의 스토리지 유닛에 기저장된 컨텐트일 수도 있다. 디스플레이 디바이스가 출력하는 컨텐트는 비디오 데이터와 오디오 데이터를 포함한다. 디스플레이 디바이스(5010)는 디스플레이 스크린을 통해 비디오 데이터를 출력하고, 스피커를 통해 오디오 데이터를 출력할 수 있다.
디스플레이 디바이스(5010)를 통해 야구 컨텐트를 시청중인 사용자는, 음성으로 컨텐트에 관련된 정보를 검색할 수 있다. 예를 들면, 화면에 디스플레이되는 이미지에서, 선수의 정보를 검색하거나, 음성 중계에서 모르는 용어에 대한 정보를 검색할 수 있다. 도 3에서와 같이, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 말이 나온 경우, 사용자는 "플라이 아웃"이 무엇인지를 검색하고 싶을 수 있다. 이 경우, 본 발명에서 사용자는 음성 명령으로 플라이 아웃의 의미를 검색할 수 있다. 특히, 자연어 처리를 사용하여 "플라이 아웃이 뭐지?"와 같이 일상 생활에서 질문하는 방법으로 스피치 검색 기능을 호출하여 검색을 개시할 수 있다.
다만, 컨텐츠의 음성 데이터에 포함된 용어들에 대해 검색하려는 경우의 많은 경우, 사용자는 처음 듣거나 의미를 모르는 용어를 검색하고자 한다. 이러한 경우 사용자가 모르는 용어를 정확히 듣고 정확히 검색을 명령하기는 어려운 경우가 많다. 즉, 도 5에서와 같이 사용자가 "플라이 아웃"이라는 용어를 모르는 경우 사용자가 정확히 "플라이 아웃"이라는 용어에 대한 검색을 명령하기는 어려운 경우가 자주 발생할 수 있다. 특히, 비디오 데이터에 대한 검색과 달리, 오디오 데이터에 포함된 용어는 아웃풋과 동시에 바로 지나가 버리게 되므로, 그 용어가 다시 아웃풋되지 않으면 의미를 모르는 그 용어 자체가 무엇인지를 알기가 어렵다. 다시 말하면, 오디오 데이터에 포함된 용어는 즉시성이 강하므로, 정확한 검색 대상의 인식에 실패할 개연성이 비디오 데이터보다 높은 것이다.
따라서, 사용자는 도 3 내지 도 4에서와 같이 "플라이 아웃이 뭐지?"와 같은 정확한 쿼리 용어를 포함하는 스피치 검색 명령을 말할 수도 있지만, 도 5에서와 같이 "플.. 뭐라고?" 또는 "플라이.. 뭐?"와 같이 정확히 인식하지 못한 용어에 대해 검색을 원할 수도 있는 것이다.
도 6은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 6는 도 5에서 설명한 스피치 검색 방법에 대한 순서도이다.
디스플레이 디바이스를 통해, 사용자가 컨텐트 시청시 사용자가 모르는 용어가 음성 출력될 수 있다(S6010). 도 5의 경우를 예로 설명하면, 사용자는 야구 컨텐트를 시청하는 중에, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 음성을 들을 수 있으며, 이 경우 "플라이 아웃"이 사용자가 모르는 용어에 해당한다.
사용자는 스피치 검색 명령을 말할 수 있다(S6020). 이 경우 스피치 검색 명령은 불분명한 용어를 포함한다. 도 5의 경우를 예로 설명하면, 사용자는 "플.. 뭐라고?"와 같은 음성 명령을 말할 수 있다. "플.."이 불분명한 용어에 해당하며, 이는 쿼리 워드로 인식될 수도 있다.
디스플레이 디바이스는 컨텐트의 최근 오디오 프레임에서 사용자가 검색하려는 용어와 유사한 용어가 존재하는 지를 판단할 수 있다(S6030). 예를 들면, 디스플레이 디바이스는 음성 인식 및 자연어 처리를 통해 사용자의 스피치 검색 명령 "플.. 뭐라고?"로부터 "뭐라고" 부분이 스피치 검색을 원하는 내용이고, "플.."이 그 대상이 됨을 판단할 수 있다. 다만, 디스플레이 디바이스는 도 3 및 도 4의 실시예에서와 같이 바로 "플.."에 대해 검색하는 것이 아니라, "플.."을 불완전한 검색 용어로 판단하고 사용자가 검색하고자 하는 용어를 최근 오디오 데이터로부터 검색할 수 있다. 디스플레이 디바이스가 최근 오디오 데이터를 음성 인식 및 텍스트 전환 처리하면, "플라이 아웃"이라는 용어를 검색할 수 있다. 따라서 디스플레이 디바이스는, 스피치 검색 명령에 포함된 쿼리 워드 "플~"이 "플라이 아웃"을 검색하기 위한 쿼리 워드임을 판단할 수 있다.
디스플레이 디바이스는 판단 결과에 따라서 컨텐트의 내용에 기반한 검색 결과를 제공하거나(S6040), 컨텐트의 내용에 기반하지 않은 일반적인 검색 결과를 제공할 수 있다(S6050).
상술한 명세서에서는, 주로 스피치 검색 명령이 불완전한 용어를 포함하는 경우로 "플~ 뭐라고?"와 같은 경우를 예로서 설명하였으나, 사용자는 다양한 쿼리 워드를 포함하는 다양한 스피치 검색 명령을 말할 수 있다. 따라서, 디스플레이 디바이스는 컨텐트의 오디오 데이터에 쿼리 워드와 매칭되는 쿼리 용어가 결정되면, 결정된 쿼리 용어에 대한 검색 결과를 제공할 수 있다(S6040). 쿼리 워드와 매칭되는 쿼리 용어가 없는 것으로 결정되면, 디스플레이 디바이스는 수신한 쿼리 워드에 충실하게 검색을 수행하고, 쿼리 워드에 대한 검색 결과를 제공할 수 있다(S6050).
도 5 및 도 6에서 설명한 실시예에 대한 디스플레이 디바이스의 동작에 대하여는 이하에서 더욱 상술하게 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 논리적 구성도를 나타낸 도면이다.
도 7은 도 2에서 도시하고 설명한 디스플레이 디바이스를 본 발명의 실시에 필요한 구성을 위주로 논리적으로 도시한 도면이다.
도 7에서, 디스플레이 디바이스는 미디어 데이터 프로세싱 모듈(7010), 미디어 데이터 아웃풋 유닛(7020), 스피치 검색 모듈(7030), 오디오 인풋 유닛(7040)을 포함한다. 미디어 데이터 프로세싱 모듈(7010) 및 스피치 검색 모듈(7030)은 도 2의 컨트롤 유닛에 포함되거나, 컨트롤 유닛에서 구동되는 애플리케이션이 될 수 있다.
미디어 데이터 프로세싱 모듈(7010)은 텍스트 데이터, 오디오 데이터 및 비디오 데이터 중 적어도 하나를 포함하는 미디어 데이터를 프로세싱할 수 있다. 미디어 데이터 프로세싱 모듈(7010)은 미디어 데이터를 디코딩하여 미디어 데이터 아웃풋 유닛으로 출력할 수 있다. 실시예에 따라, 미디어 데이터 프로세싱 모듈(7010)은 버퍼(7050)를 구비할 수 있으며, 프로세싱하는 미디어 데이터의 일정 양을 버퍼(7050)에 저장할 수 있다. 버퍼(7050)는 도 2의 스토리지 유닛(1010)에 해당할 수 있다. 미디어 데이터 프로세싱 모듈(7010)은 미디어 데이터를 스트리밍하여 프로세싱하거나, 기 저장된 미디어 데이터를 프로세싱할 수 있다.
미디어 데이터 아웃풋 유닛(7020)은 미디어 데이터 프로세싱 모듈(7010)에서 프로세싱된 미디어 데이터를 외부로 출력할 수 있다. 미디어 데이터 아웃풋 유닛(7020)은 오디오 아웃풋 유닛(7060) 및 비디오 아웃풋 유닛(7070)을 포함할 수 있으며, 이들은 프로세싱된 미디어 데이터의 오디오 및 비디오를 각각 출력할 수 있다. 비디오 아웃풋 유닛(7070)은 프로세싱된 미디어 데이터의 이미지를 출력하며, 이미지는 동영상, 정지영상, 텍스트 등의 시각적인 데이터를 포함한다. 도 2의 실시예에서, 오디오 아웃풋 유닛(7060)은 오디오 인풋/아웃풋 유닛(2060)에, 비디오 아웃풋 유닛(7070)은 디스플레이 유닛(1060)에 해당할 수 있다. 또한, 상술한 바와 같이, 디스플레이 디바이스가 셋탑 박스와 같은 별도의 출력 수단을 포함하지 않는 경우, 오디오 아웃풋 유닛(7060) 및 비디오 아웃풋 유닛(7070)은 프로세싱된 미디어 데이터의 오디오 및 비디오를 출력하는 역할을 수행할 수도 있다.
오디오 인풋 유닛(7040)은 마이크와 같이, 디스플레이 디바이스 외부의 오디오를 입력받아 스피치 검색 모듈(7030)으로 전달한다.
스피치 검색 모듈(7030)은 본 발명의 실시예에 따른 스피치 검색 방법을 수행한다. 스피치 검색 모듈(7030)은, 오디오 인풋 유닛(7040)을 통해 사용자의 스피치 검색 명령을 수신할 수 있다. 스피치 검색 모듈(7030)은 미디어 데이터 프로세싱 모듈(7010)에 포함된 버퍼(7050)로부터 이미 출력된 미디어 데이터를 수신하여 처리할 수도 있다. 스피치 검색 모듈(7030)은 사용자의 음성을 인식하여 의미를 분석하고, 쿼리 워드 또는 쿼리 용어를 추출할 수 있는 음성 인식 모듈(7080)을 포함한다. 또한, 스피치 검색 모듈은 검색의 대상이 되는 쿼리 용어에 대한 관련 정보를 검색하여 제공하는 검색 엔진(7080)을 포함할 수 있다.
스피치 검색 모듈(7030)은 음성 인식 모듈(7080)을 사용하여 사용자의 스피치 검색 명령을 인식하고 분석할 수 있다. 음성 인식 모듈(7080)은 상술한 바와 같이 자연어 처리가 가능하며 오디오 데이터를 프로세싱하여 텍스트 데이터로 변환할 수도 있다. 음성 인식 모듈(7080)은, 사용자의 스피치 검색 명령에 포함된 쿼리 워드가 검색 가능한 완성된 쿼리 용어인지를 판단하고, 검색 가능한 완성된 쿼리 용어로 판단되면 검색 엔진(7090)을 사용하여 검색 쿼리 용어에 대한 정보를 검색, 검색 결과를 제공할 수 있다. 검색 결과는 미디어 데이터 프로세싱 모듈(7010)로 전달되거나, 바로 미디어 데이터 아웃풋 유닛(7020)으로 전달되어, 사용자에게 아웃풋될 수 있다. 검색 엔진(7090)은 디스플레이 디바이스가 구비한 데이터 베이스를 사용하여 검색을 수행하거나, 쿼리 용어를 도 1에서와 같은 외부 검색 엔진으로 전송하고, 그 결과를 수신할 수도 있다.
스피치 검색 모듈(7030)은 스피치 검색 명령에 포함된 적어도 하나의 쿼리 워드가 완성된 쿼리 용어가 아닌 것으로 판단하는 경우, 미디어 데이터 프로세싱 모듈(7010)의 버퍼(7050)에 포함된 오디오 데이터를 수신, 음성 인식 모듈(7080)로 처리할 수 있다. 스피치 검색 모듈(7030)은 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 소정 시간만큼 과거까지의 버퍼링된 오디오 데이터를 수신하고, 음성 인식 모듈(7080)로 이를 텍스트 변환할 수 있다. 그리고 처리된 결과를 분석된 쿼리 워드와 비교, 사용자의 검색 의도에 맞는 완성된 쿼리 용어를 추출할 수 있다. 그리고 검색 엔진(7090)은 추출된 쿼리 용어를 사용하여 검색을 수행, 검색 결과를 아웃풋할 수 있다.
스피치 검색 모듈(7030)은 컨텍스트 정보를 생성할 수 있다. 컨텍스트 정보는, 현재 프로세싱 및 출력중인 미디어 데이터에 대한 정보를 나타낸다. 먼저, 컨텍스트 정보는 현재 출력중인 컨텐트의 메타데이터 또는 메타데이터로부터 추출될 수 있는 컨텐트 관련 정보를 포함한다. 또한, 컨텍스트 정보는 소정 구간의 미디어 데이터러부터 추출되는 컨텐트 관련 정보를 포함한다. 스피치 검색 모듈(7030)은 상술한 바와 같이 미디어 데이터의 오디오 데이터를 추출하여 텍스트 변환할 수 있으며, 변환된 텍스트 정보 또한 컨텍스트 정보에 포함된다. 이러한 오디오 데이터를 처리한 결과 및 텍스터 정보를 미디어 데이터의 오디오 관련 정보라고 지칭할 수 있으며, 오디오 관련 정보는 상술한 컨텍스트 정보에 포함된다.
스피치 검색 모듈(7030)은 이미지 프로세싱 모듈을 더 포함할 수 있다. 이미지 프로세싱 모듈은 처리된 미디어 데이터의 출력 이미지를 프로세싱할 수 있다. 예를 들면, 이미지 프로세싱 모듈은 비디오 아웃풋 유닛(7070)을 통해 출력되는 이미지를 분석하여, 이미지에 대한 관련 정보를 추출할 수 있다. 이미지의 분석 결과는 미디어 데이터의 이미지 관련 정보라고 지칭할 수 있으며, 이미지 관련 정보는 상술한 컨텍스트 정보에 포함된다.
도 8은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 8과 관련하여, 도 4에서 설명된 내용과 동일하거나 중복되는 내용은 간략히 설명하도록 한다.
디스플레이 디바이스는 미디어 데이터를 출력할 수 있다(S8010). 상술한 바와 같이, 미디어 컨텐츠는 비디오 데이터, 오디오 데이터를 포함하며, 컨텐츠에 따라 텍스트 데이터 또한 포함할 수도 있다.
디스플레이 디바이스는 스피치 검색 명령을 수신할 수 있다(S8020). 디스플레이 디바이스가 수신한 스피치 검색 명령은, 적어도 하나의 쿼리 워드를 포함할 수 있다. 스피치 검색 명령은, 기설정된 명령어를 사용할 수도 있으며, 자연어 처리 기술을 사용하여 일상 대화와 같은 자연스러운 명령이 될 수도 있다. 도 5의 실시예에서, "플.. 뭐지?"가 스피치 검색 명령에 해당한다. 그리고 "플"이 쿼리 워드에 해당한다. 또는, "방금 뭐라고"와 같이 쿼리 워드를 포함하지 않는 경우도 있을 수 있다. 이에 대해서는, 이하에서 도 9와 함께 설명하도록 한다.
디스플레이 디바이스는 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정할 수 있다(S8030).
다시 말하면, 디스플레이 디바이스는 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 스피치 검색 명령에 포함된 적어도 하나의 쿼리 워드를 사용하여 판단할 수 있다. 디스플레이 디바이스는 스피치 검색 명령에 포함된 쿼리 워드가 사용자가 검색을 원하는 완성된 쿼리 용어인지 결정할 수 있다. 예를 들면, 도 5와 같은 실시예에서, 사용자가 "플.. 뭐라고?" 또는 "플라이.. 뭐라고?"와 같이 스피치 검색 명령을 말할 수 있다. 이 경우, 디스플레이 디바이스는 사용자의 말투나 억양, 현재 출력 중인 미디어 데이터의 컨텍스트(context) 정보를 사용하여 사용자가 검색을 원하는 쿼리 용어가 쿼리 워드인 "플" 또는 "플라이"인지, 아니면 "플라이 아웃"인지를 결정할 수 있다.
디스플레이 디바이스는, 사용자의 말투나 억양, 액센트 및 말흐림 등을 파악하여 쿼리 워드가 완성된 쿼리 용어인지를 결정할 수 있다. 일반적으로, 사용자들은 잘 모르는 용어를 잘 아는 용어와 상이하게 말한다. 특히, 잘 모르는 용어의 경우 악센트가 불분명하거나 어미를 흐리는 등의 패턴이 발생한다. 디스플레이 디바이스는 이러한 발음 패턴을 파악하여, 쿼리 워드로 검색을 할지 아니면 완성된 쿼리 용어를 찾아야 하는지를 결정할 수 있다.
또한, 디스플레이 디바이스는, 컨텍스트 정보를 참조하여 쿼리 워드가 완성된 쿼리 용어인지를 결정할 수 있다. 물론, 디스플레이 디바이스는 사용자의 발음 패턴과 컨텍스트 정보를 모두 사용할 수도 있다.
컨텍스트 정보는 미디어 데이터로부터 추출된 정보로서, 현재 사용자에게 출력중인 컨텐츠에 관련된 정보를 포함한다. 예를 들면, 미디어 데이터는 텍스트 데이터, 오디오 데이터, 비디오 데이터 및 메타데이터 중 적어도 하나를 포함할 수 있다. 메타데이터는 미디어 데이터에 대한 데이터로서, 미디어 데이터가 나타내는 컨텐츠에 대한 제목, 장르, 내용, 장면, 스케줄, 인물, 시간 등의 정보를 포함할 수 있다. 컨텍스트 정보는, 미디어 데이터에 관련된 정보로서, 특히 사용자가 시청중인 컨텐츠에 대한 정보이다. 상술한 실시예에서, 미디어 데이터가 나타내는 컨텐트가 야구 컨텐트인 경우, 메타 데이터는 해당 컨텐트가 스포츠 및 야구라는 것을 나타낼 수 있다. 또는, 디스플레이 디바이스가 미디어 데이터의 오디오, 이미지, 텍스트 등을 분석 또는 추출하여 해당 컨텐트가 야구라는 것을 알 수 있다. 이러한 경우 디스플레이 디바이스는 쿼리 워드인 '플라이'보다 컨텐트에 해당하는 용어로서, '플라이'를 포함하는 '플라이 아웃'이 사용자가 검색하고자 하는 쿼리 워드임을 판단할 수 있다. 디스플레이 디바이스는 컨텍스트 정보를 참고하여, 야구에 해당하는 용어 데이터베이스와 쿼리 워드를 비교, 위와 같은 판단을 할 수 있다.
컨텍스트 정보는 미디어 데이터의 메타 데이터, 미디어 데이터의 오디오 관련 정보 및 미디어 데이터의 이미지 관련 정보 중 적어도 하나를 포함할 수 있다. 미디어 데이터의 메타데이터는 컨텐트의 제목 정보, 장르 정보, 인물 정보, 장면 정보, 스케줄 정보 중 적어도 하나를 포함할 수 있다.
적어도 하나의 쿼리 워드가 완성된 쿼리 용어가 아닌 경우, 디스플레이 디바이스는 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 추출할 수 있다(8030).
디스플레이 디바이스는 버퍼에 저장된 오디오 데이터에서, 사용자의 스피치 검색 명령이 수신된 시점으로부터 소정의 지난 시간 분량에 해당하는 오디오 데이터를 읽어와 음성 인식 처리할 수 있다. 그리고 디스플레이 디바이스는 이 텍스트와 사용자의 쿼리 워드를 비교, 매칭되는 쿼리 용어를 추출할 수 있다.
예를 들면, 사용자가 "플..뭐라고?"를 말한 시점부터 과거 1분간의 오디오 데이터를 버퍼로부터 읽어와서 음성 인식 처리하여, 이를 텍스트 데이터로 변환할 수 있다. 이렇게 생성된 텍스트 데이터 역시 상술한 컨텍스트 정보로 지칭할 수 있다. 이 텍스트 데이터에는, 사용자가 스피치 검색 명령을 내린 시점 근처에 "중견수 플라이 아웃으로 이닝이 마무리됩니다.."라는 텍스트가 포함된다. 따라서, 디스플레이 디바이스는 "플~"이라는 쿼리 워드가 "플라이 아웃"을 의도했음을 파악하여, 완성된 쿼리 용어인 "플라이 아웃"을 추출할 수 있다. 다시 말하면, 디스플레이 디바이스는 "플~"이라는 쿼리 워드에 매칭되는 쿼리 용어가 "플라이" 또는 "플라이 아웃"임을 파악하고, 컨텍스트 정보를 사용하여 "플라이 아웃"이 사용자의 의도에 맞는 쿼리 용어임을 결정할 수 있다. 위의 예에서, 컨텍스트 정보인 텍스트 데이터에는 "중견수 플라이 아웃으로..."라는 문장이 포함되고, 명사 및 조사 등 문장 내 단어들의 배열을 분석하여 검색 대상이 "플라이 아웃"임을 결정할 수 있다.
디스플레이 디바이스는 추출된 쿼리 용어를 사용하여 검색을 수행할 수 있다(S8050). 디스플레이 디바이스는 디스플레이 디바이스 자체에 내장된 검색 엔진을 사용하여 쿼리 용어에 관련된 정보를 검색하거나, 쿼리 용어를 네트워크를 통해 검색 기능을 제공하는 외부 검색 엔진으로 전송하고, 검색 결과를 수신할 수도 있다. 쿼리 용어에 대한 검색 및 검색 결과는 용어에 대한 정의를 포함하여, 사용자가 시청중인 컨텐트와 관련된 다양한 데이터를 포함할 수 있다.
디스플레이 디바이스는 검색 결과를 사용자에게 제공할 수 있다(S8060). 검색 결과는 다양한 방법으로 제공될 수 있다. 예를 들면, 디스플레이 디바이스는 검색 결과를 음성으로 제공하거나, 디스플레이 출력으로 제공할 수도 있다. 다시 하면, 디스플레이 디바이스는 검색 결과를 음성으로 사용자에게 출력하거나, 디스플레이 화면에 자막과 같은 형태로 제공할 수도 있다.
실시예에 따라서, 단계(S8040)는 단계(8030)에 포함될 수도 있다. 즉, 상술한 바와 같이 쿼리 용어 결정 단계에서, 최근 오디오 데이터를 처리하여 오디오 관련 정보를 생성할 수 있다. 오디오 관련 정보는 상술한 바와 같이 컨텍스트 정보에 포함될 수 있다. 디스플레이 디바이스는, 컨텍스트 정보를 쿼리 워드와 비교 분석하여 쿼리 용어를 결정할 수 있다.
컨텍스트 정보는 상술한 바와 같이 미디어 데이터뿐만 아니라 미디어 데이터를 처리한 정보를 포함한다. 디스플레이 디바이스는 출력중인 미디어 데이터의 일정 부분을 처리할 수 있는데, 오디오 데이터의 경우는 상술한 바와 같다. 디스플레이 디바이스는 소정 시간 분량의 비디오 데이터를 이미지 프로세싱하여, 이 구간의 이미지에 대한 정보를 추출할 수 있다. 상술한 실시예에서, 이미지 프로세싱을 통해 디스플레이 디바이스는 현재 디스플레이 중인 컨텐츠가 야구의 장면임을 판단할 수 있다. 특히, 사용자가 야구 선수의 이름이나 정보를 검색하려는 경우로서, 예를 들면 '4번 선수가 누구지?"라는 스피치 검색 명령을 말할 수 있다. 이러한 경우 디스플레이 디바이스는 비디오 데이터를 이미지 프로세싱하여 4번 선수에 대한 이미지 정보를 획득하고, 이미지 검색 기술을 사용하여 4번 선수에 대한 추가 정보를 사용자에게 제공할 수 있다. 이러한 경우 디스플레이 디바이스는 도 7에서 도시한 구성에 추가로, 이미지 프로세싱 모듈을 포함할 수 있으며, 이미지 프로세싱 모듈은 버퍼에 저장된 비디오 데이터를 처리 및 분석할 수 있다. 또한, 이 경우 디스플레이 디바이스의 검색 엔진은 이미지 프로세싱 모듈로부터 이미지 정보를 수신하여 이 이미지 정보를 사용한 이미지 검색을 수행할 수도 있다.
도 9는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 8에서, 쿼리 워드에 매칭되는 쿼리 용어가 결정되지 않거나, 쿼리 워드도 불명확한 경우가 발생할 수 있다. 또는, 도 9에서와 같이 사용자의 스피치 검색 명령("뭐?")에 쿼리 워드가 포함되지 않을 수도 있다. 디스플레이 디바이스는 이러한 경우 도 9에서와 같이 쿼리 용어 후보들을 사용자에게 제공할 수 있다.
쿼리 용어 후보들은, 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 기설정된 시간 분량의 과거까지를 대상으로 할 수 있다. 예를 들면, 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 30초 사이의 오디오 데이터를 음성 인식하여, 검색이 가능한 용어들을 추출, 도 9와 같이 시계열적 순서로 디스플레이할 수 있다. 이 경우, 도 9에서와 같이 해당 용어가 출력된 시점의 이미지를 버퍼로부터 읽어와서 썸네일 이미지와 같은 형태로 디스플레이 출력할 수도 있다. 버퍼가 프로세싱하는 오디오 데이터뿐 아니라 비디오 데이터도 저장할 수 있음은 상술한 바와 같다. 사용자는 제공된 쿼리 용어 후보들로부터 검색을 원하는 쿼리 용어를 선택하여 검색을 개시할 수 있다. 쿼리 용어의 선택은, 리모콘 입력, 음성 입력, 제스처 입력 등 다양한 수단으로 수행될 수 있다.
도 9에서는, 쿼리 용어 후보를 디스플레이 출력하는 실시예를 도시하였으나, 디스플레이 디바이스는 쿼리 용어 후보를 음성으로 출력할 수도 있다.
도 9의 쿼리 용어 후보의 제공은, 도 8의 순서도에서 단계(S8030) 내지 단계(S8050)의 단계들과 함께 수행될 수 있다. 이 경우, 단계(S8030)은 쿼리 워드가 완성된 쿼리 용어를 결정하면서, 쿼리 워드가 있는지 여부를 함께 결정할 수 있다. 쿼리 워드가 획득되지 않거나, 쿼리 워드가 없는 것으로 판단되면, 디스플레이 디바이스는 단계(S8040)에서 적어도 하나의 쿼리 용어 후보를 추출하여, 사용자에게 제공하고, 사용자로터 쿼리 용어를 선택 신호를 수신할 수 있다.
도 8 및 도 9에서 설명한 바와 같이, 사용자가 원하는 검색 대상을 정확히 결정하기 어려운 경우, 디스플레이 디바이스는 쿼리 용어 후보를 사용자에게 제공하고 선택받을 수 있다. 또한, 도 8 및 도 9의 실시예에서 쿼리 용어의 결정 단계(S8040) 및 쿼리 용어를 사용한 스피치 검색 수행 단계(S8050) 사이에서, 디스플레이 디바이스는 결정된 쿼리 용어를 사용자에게 제공하고 컨펌을 요청할 수 있다. 사용자로부터 리모콘 입력이나 음성, 제스처 기타 입력으로 컨펌 입력을 수신하면, 디스플레이 디바이스는 결정된 쿼리 용어로 검색을 수행, 검색 결과를 제공할 수 있다. 사용자가 컨펌하지 않거나, 쿼리 용어가 원하는 대상이 아님을 입력하면, 디스플레이 디바이스는 사용자에게 추가적으로 쿼리 용어 후보들을 제공할 수도 있다.
예를 들면, 도 5 내지 도 9의 실시예에서, 디스플레이 디바이스가 쿼리 워드로 '플'을 인식하고, 쿼리 용어를 '플라이'로 결정할 수 있다. 이 경우 디스플레이 디바이스는 ""플라이"로 검색하시겠습니까?"와 같은 컨펌 요청을 출력할 수 있다. 컨펌 요청은 "예" 및 "아니오"와 같은 창과 함께 출력될 수 있다. 사용자가 "예"를 입력하거나 말하는 등으로 컨펌을 입력하면 디스플레이 디바이스는 "플라이"에 대한 검색을 수행하고 결과를 제공할 수 있다. 사용자가 "아니오"를 입력하거나 소정 시간동안 입력을 하지 않는 등, 컨펌을 하지 않거나 대상이 아님을 입력하면, 디스플레이 디바이스는 컨텍스트 정보를 다시 검토하여 "플라이 아웃"등의 적어도 하나의 쿼리 용어 후보를 제공할 수 있다. 그리고 사용자가 적어도 하나의 쿼리 용어 후보로부터 쿼리 용어를 선택하면, 디스플레이 디바이스는 선택받은 쿼리 용어로 검색을 수행, 결과를 제공할 수 있다.
또는, 컨텍스트 정보로부터 쿼리 워드에 해당하는 복수의 쿼리 용어 후보를 추출하여 제공할 수도 있다. 예를 들면, 상술한 실시예에서, "플라이" 및 "플라이 아웃"을 디스플레이하여 사용자에게 제공하고, 사용자로부터 선택된 쿼리 용어로 검색을 수행할 수도 있다.
즉, 위와 같은 방법으로 디스플레이 디바이스는 쿼리 용어 후보뿐 아니라 결정된 쿼리 용어를 사용자에게 제공하고 컨펌받는 단계를 추가로 수행하여, 사용자가 원하지 않은 용어의 검색 결과를 제공하는 오류를 피할 수 있다.
따라서, 본 발명의 스피치 검색 방법에 따르면 사용자가 시청중인 미디어 데이터에서, 이미 지나간 오디오 및 비디오에 대한 관련 정보를 용이하게 검색할 수 있다. 특히, 사용자가 검색하기를 원하는 대상을 정확하게 인식하지 못한 경우에도, 사용자의 발음 패턴 및 컨텍스트 정보를 사용하여 사용자 및 시청중인 미디어 데이터에 최적화된 검색 결과를 제공할 수 있다.
사용자가 말한 스피치 검색 명령이 불분명한 쿼리 워드를 포함하거나 쿼리 워드가 존재하지 않는 경우에도, 본 발명은 최적화된 검색 결과를 제공할 수 있다. 또한, 불완전한 쿼리 워드나 컨텍스트 정보를 사용하여도 사용자가 원하는 검색 대상의 결정이 어려운 경우, 소정 시간 구간에서의 쿼리 용어 후보를 사용자에게 제안함으로써 사용자가 검색하기를 원하는 대상을 선택하도록 할 수 있다.
1010: 컨텐츠 서버
1020: 검색 엔진
1030: 네트워크
1040: 디스플레이 디바이스
1020: 검색 엔진
1030: 네트워크
1040: 디스플레이 디바이스
Claims (18)
- 디스플레이 디바이스의 스피치 검색 방법에 있어서,
미디어 데이터를 출력하는 단계;
스피치 검색 명령을 수신하는 단계;
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계;
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계;
상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계;
상기 스피치 검색 결과를 제공하는 단계를 포함하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 1 항에 있어서,
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계는,
상기 스피치 검색 명령으로부터 적어도 하나의 쿼리 워드를 추출하는 단계;
상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지 결정하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 2 항에 있어서,
상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지의 결정은,
사용자의 발음 패턴 및 상기 미디어 데이터에 대한 컨텍스트 정보 중 적어도 하나를 기초로 결정하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 2 항에 있어서,
상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하는 단계;
상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하는 단계;
상기 적어도 하나의 쿼리 용어 후보로부터 상기 쿼리 워드와 매칭되는 쿼리 용어를 결정하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 4 항에 있어서,
상기 적어도 하나의 쿼리 용어 후보로부터 상기 적어도 하나의 쿼리 워드와 매칭되는 쿼리 용어가 결정되지 않는 경우, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 1 항에 있어서,
상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하는 단계;
상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하는 단계;
상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계;
사용자의 쿼리 용어 선택 입력을 수신하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 6 항에 있어서,
상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계는,
상기 적어도 하나의 쿼리 용어 후보를 시계열적인 순서로 제공하며, 상기 적어도 하나의 쿼리 용어 후보가 출력된 시점의 이미지를 함께 제공하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 3 항에 있어서,
상기 미디어 데이터에 대한 상기 컨텍스트 정보는, 상기 미디어 데이터의 제목 정보, 장르 정보, 인물 정보, 장면 정보, 스케줄 정보, 오디오 관련 정보, 이미지 관련 정보 중 적어도 하나를 포함하는, 디스플레이 디바이스의 스피치 검색 방법. - 제 1 항에 있어서,
상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계는,
상기 결정된 쿼리 용어에 대한 컨펌 요청을 사용자에게 제공하는 단계;
상기 쿼리 용어에 대한 컨펌을 수신한 경우, 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계를 더 포함하는,디스플레이 디바이스의 스피치 검색 방법. - 미디어 데이터플 프로세싱하는 미디어 데이터 프로세싱 모듈;
상기 프로세싱된 미디어 데이터를 아웃풋하는 미디어 데이터 아웃풋 유닛;
스피치 검색 명령을 수신하는 오디오 인풋 유닛;
상기 스피치 검색 명령을 처리하여 쿼리 용어를 결정하고, 결정된 쿼리 용어로 스피치 검색을 수행하는 스피치 검색 모듈을 포함하는 디스플레이 디바이스로서,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지 결정하고, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하고, 상기 결정된 쿼리 용어를 사용하여 스피치 검색을 수행하는, 디스플레이 디바이스. - 제 10 항에 있어서,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령으로부터 적어도 하나의 쿼리 워드를 추출하고, 상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지 결정하는, 디스플레이 디바이스. - 제 11 항에 있어서,
상기 디스플레이 디바이스는,
사용자의 발음 패턴 및 상기 미디어 데이터의 컨텍스트 정보 중 적어도 하나를 기초하여 상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지를 결정하는, 디스플레이 디바이스. - 제 11 항에 있어서,
상기 디스플레이 디바이스는,
상기 프로세싱되는 미디어 데이터를 저장하는 버퍼를 더 포함하며,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하고, 상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하고, 상기 적어도 하나의 쿼리 용어 후보로부터 상기 쿼리 워드와 매칭되는 쿼리 용어를 결정하는, 디스플레이 디바이스. - 제 13 항에 있어서,
상기 디스플레이 디바이스는,
상기 적어도 하나의 쿼리 용어 후보로부터 상기 적어도 하나의 쿼리 워드와 매칭되는 쿼리 용어가 결정되지 않는 경우, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는, 디스플레이 디바이스. - 제 10 항에 있어서,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하고, 상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하고, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하여, 사용자의 쿼리 용어 선택 입력을 수신하는, 디스플레이 디바이스. - 제 15 항에 있어서,
상기 디스플레이 디바이스는,
상기 적어도 하나의 쿼리 후보를 시계열적인 순서로 제공하며, 상기 적어도 하나의 쿼리 용어 후보가 출력된 시점의 이미지를 함께 제공하는, 디스플레이 디바이스. - 제 12 항에 있어서,
상기 미디어 데이터에 대한 상기 컨텍스트 정보는, 상기 미디어 데이터의 제목 정보, 장르 정보, 인물 정보, 장면 정보, 스케줄 정보, 오디오 관련 정보, 이미지 관련 정보 중 적어도 하나를 포함하는, 디스플레이 디바이스 - 제 10 항에 있어서,
상기 디스플레이 디바이스는,
상기 결정된 쿼리 용어에 대한 컨펌 요청을 사용자에게 제공하고, 상기 쿼리 용어에 대한 컨펌을 수신한 경우 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는, 디스플레이 디바이스.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120095034A KR102081925B1 (ko) | 2012-08-29 | 2012-08-29 | 디스플레이 디바이스 및 스피치 검색 방법 |
US13/761,102 US8521531B1 (en) | 2012-08-29 | 2013-02-06 | Displaying additional data about outputted media data by a display device for a speech search command |
US13/953,313 US9547716B2 (en) | 2012-08-29 | 2013-07-29 | Displaying additional data about outputted media data by a display device for a speech search command |
PCT/KR2013/006765 WO2014035061A1 (en) | 2012-08-29 | 2013-07-29 | Display device and speech search method |
EP13833521.1A EP2891084A4 (en) | 2012-08-29 | 2013-07-29 | DISPLAY DEVICE AND LANGUAGE SEARCH METHOD |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120095034A KR102081925B1 (ko) | 2012-08-29 | 2012-08-29 | 디스플레이 디바이스 및 스피치 검색 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140028540A true KR20140028540A (ko) | 2014-03-10 |
KR102081925B1 KR102081925B1 (ko) | 2020-02-26 |
Family
ID=48999837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120095034A KR102081925B1 (ko) | 2012-08-29 | 2012-08-29 | 디스플레이 디바이스 및 스피치 검색 방법 |
Country Status (4)
Country | Link |
---|---|
US (2) | US8521531B1 (ko) |
EP (1) | EP2891084A4 (ko) |
KR (1) | KR102081925B1 (ko) |
WO (1) | WO2014035061A1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016032021A1 (ko) * | 2014-08-27 | 2016-03-03 | 삼성전자주식회사 | 음성 명령 인식을 위한 장치 및 방법 |
WO2018016760A1 (ko) * | 2016-07-21 | 2018-01-25 | 삼성전자 주식회사 | 전자 장치 및 그의 제어 방법 |
KR20180072845A (ko) * | 2015-05-27 | 2018-06-29 | 구글 엘엘씨 | 제안되는 보이스 기반의 액션 쿼리들을 제공 |
US10957321B2 (en) | 2016-07-21 | 2021-03-23 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Families Citing this family (139)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR102081925B1 (ko) * | 2012-08-29 | 2020-02-26 | 엘지전자 주식회사 | 디스플레이 디바이스 및 스피치 검색 방법 |
JP6064629B2 (ja) * | 2013-01-30 | 2017-01-25 | 富士通株式会社 | 音声入出力データベース検索方法、プログラム、及び装置 |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10719591B1 (en) * | 2013-03-15 | 2020-07-21 | Google Llc | Authentication of audio-based input signals |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP6335437B2 (ja) * | 2013-04-26 | 2018-05-30 | キヤノン株式会社 | 通信装置、通信方法およびプログラム |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
CN104427350A (zh) * | 2013-08-29 | 2015-03-18 | 中兴通讯股份有限公司 | 关联内容处理方法及系统 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) * | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
KR102348084B1 (ko) * | 2014-09-16 | 2022-01-10 | 삼성전자주식회사 | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9830321B2 (en) | 2014-09-30 | 2017-11-28 | Rovi Guides, Inc. | Systems and methods for searching for a media asset |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10134386B2 (en) * | 2015-07-21 | 2018-11-20 | Rovi Guides, Inc. | Systems and methods for identifying content corresponding to a language spoken in a household |
WO2017019929A1 (en) * | 2015-07-29 | 2017-02-02 | Simplifeye, Inc. | System and method for facilitating access to a database |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
KR102453603B1 (ko) | 2015-11-10 | 2022-10-12 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10915234B2 (en) * | 2016-06-01 | 2021-02-09 | Motorola Mobility Llc | Responsive, visual presentation of informational briefs on user requested topics |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) * | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP2018054850A (ja) * | 2016-09-28 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
KR102562287B1 (ko) * | 2016-10-14 | 2023-08-02 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 오디오 신호 처리 방법 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
JP6697373B2 (ja) * | 2016-12-06 | 2020-05-20 | カシオ計算機株式会社 | 文生成装置、文生成方法及びプログラム |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10558421B2 (en) * | 2017-05-22 | 2020-02-11 | International Business Machines Corporation | Context based identification of non-relevant verbal communications |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
KR102353486B1 (ko) * | 2017-07-18 | 2022-01-20 | 엘지전자 주식회사 | 이동 단말기 및 그 제어 방법 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10602234B2 (en) * | 2018-07-12 | 2020-03-24 | Rovi Guides, Inc. | Systems and methods for gamification of real-time instructional commentating |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10878013B1 (en) * | 2018-11-26 | 2020-12-29 | CSC Holdings, LLC | Bi-directional voice enabled system for CPE devices |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10965976B2 (en) * | 2019-03-29 | 2021-03-30 | Spotify Ab | Systems and methods for delivering relevant media content by inferring past media content consumption |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN113365100B (zh) * | 2021-06-02 | 2022-11-22 | 中国邮政储蓄银行股份有限公司 | 视频处理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0794670A2 (en) * | 1996-03-07 | 1997-09-10 | International Business Machines Corporation | Context-based recognition system for interactive tv and telephony |
US20070033005A1 (en) * | 2005-08-05 | 2007-02-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
JP2011199698A (ja) * | 2010-03-23 | 2011-10-06 | Yamaha Corp | Av機器 |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831204B1 (en) * | 1981-11-03 | 2010-11-09 | Personalized Media Communications, Llc | Signal processing apparatus and methods |
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
DE4442999A1 (de) | 1994-12-02 | 1996-06-05 | Hexal Pharma Gmbh | Pharmazeutische Zusammensetzung mit einem aktiven Loratidin-Metaboliten |
US6480819B1 (en) * | 1999-02-25 | 2002-11-12 | Matsushita Electric Industrial Co., Ltd. | Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television |
US6941268B2 (en) * | 2001-06-21 | 2005-09-06 | Tellme Networks, Inc. | Handling of speech recognition in a declarative markup language |
US7950033B2 (en) * | 2001-10-10 | 2011-05-24 | Opentv, Inc. | Utilization of relational metadata in a television system |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US7467398B2 (en) * | 2002-03-21 | 2008-12-16 | International Business Machines Corproation | Apparatus and method of searching for desired television content |
US20040078814A1 (en) * | 2002-03-29 | 2004-04-22 | Digeo, Inc. | Module-based interactive television ticker |
AU2003267006A1 (en) * | 2002-09-27 | 2004-04-19 | International Business Machines Corporation | System and method for enhancing live speech with information accessed from the world wide web |
US20040210443A1 (en) * | 2003-04-17 | 2004-10-21 | Roland Kuhn | Interactive mechanism for retrieving information from audio and multimedia files containing speech |
US20060041926A1 (en) * | 2004-04-30 | 2006-02-23 | Vulcan Inc. | Voice control of multimedia content |
JP2006201749A (ja) * | 2004-12-21 | 2006-08-03 | Matsushita Electric Ind Co Ltd | 音声による選択装置、及び選択方法 |
US9116989B1 (en) * | 2005-08-19 | 2015-08-25 | At&T Intellectual Property Ii, L.P. | System and method for using speech for data searching during presentations |
JP2007081768A (ja) * | 2005-09-14 | 2007-03-29 | Fujitsu Ten Ltd | マルチメディア装置 |
SG133419A1 (en) * | 2005-12-12 | 2007-07-30 | Creative Tech Ltd | A method and apparatus for accessing a digital file from a collection of digital files |
US8209724B2 (en) * | 2007-04-25 | 2012-06-26 | Samsung Electronics Co., Ltd. | Method and system for providing access to information of potential interest to a user |
US20070225970A1 (en) * | 2006-03-21 | 2007-09-27 | Kady Mark A | Multi-context voice recognition system for long item list searches |
KR100807745B1 (ko) * | 2006-03-23 | 2008-02-28 | (주)비욘위즈 | Epg정보 제공 방법 및 시스템 |
US20080059522A1 (en) * | 2006-08-29 | 2008-03-06 | International Business Machines Corporation | System and method for automatically creating personal profiles for video characters |
US7272558B1 (en) | 2006-12-01 | 2007-09-18 | Coveo Solutions Inc. | Speech recognition training method for audio and video file indexing on a search engine |
JP5029030B2 (ja) * | 2007-01-22 | 2012-09-19 | 富士通株式会社 | 情報付与プログラム、情報付与装置、および情報付与方法 |
US7983915B2 (en) * | 2007-04-30 | 2011-07-19 | Sonic Foundry, Inc. | Audio content search engine |
US20080270110A1 (en) | 2007-04-30 | 2008-10-30 | Yurick Steven J | Automatic speech recognition with textual content input |
DE102007033472A1 (de) * | 2007-07-18 | 2009-01-29 | Siemens Ag | Verfahren zur Spracherkennung |
WO2009032672A1 (en) * | 2007-08-28 | 2009-03-12 | Nexidia Inc. | Keyword spotting using a phoneme-sequence index |
US8904442B2 (en) * | 2007-09-06 | 2014-12-02 | At&T Intellectual Property I, Lp | Method and system for information querying |
US20090150159A1 (en) * | 2007-12-06 | 2009-06-11 | Sony Ericsson Mobile Communications Ab | Voice Searching for Media Files |
US8019604B2 (en) * | 2007-12-21 | 2011-09-13 | Motorola Mobility, Inc. | Method and apparatus for uniterm discovery and voice-to-voice search on mobile device |
US8312022B2 (en) * | 2008-03-21 | 2012-11-13 | Ramp Holdings, Inc. | Search engine optimization |
US8832135B2 (en) * | 2008-05-02 | 2014-09-09 | Verint Systems, Ltd. | Method and system for database query term suggestion |
US8108214B2 (en) * | 2008-11-19 | 2012-01-31 | Robert Bosch Gmbh | System and method for recognizing proper names in dialog systems |
US8296141B2 (en) * | 2008-11-19 | 2012-10-23 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
US8510317B2 (en) * | 2008-12-04 | 2013-08-13 | At&T Intellectual Property I, L.P. | Providing search results based on keyword detection in media content |
US20100274667A1 (en) * | 2009-04-24 | 2010-10-28 | Nexidia Inc. | Multimedia access |
US8489774B2 (en) * | 2009-05-27 | 2013-07-16 | Spot411 Technologies, Inc. | Synchronized delivery of interactive content |
US8707381B2 (en) * | 2009-09-22 | 2014-04-22 | Caption Colorado L.L.C. | Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs |
KR20110103626A (ko) * | 2010-03-15 | 2011-09-21 | 삼성전자주식회사 | 휴대용 단말기에서 멀티미디어 데이터에 대한 태그 정보를 제공하기 위한 장치 및 방법 |
US8660355B2 (en) | 2010-03-19 | 2014-02-25 | Digimarc Corporation | Methods and systems for determining image processing operations relevant to particular imagery |
US20130073534A1 (en) * | 2010-03-24 | 2013-03-21 | Alex French | Method of searching recorded media content |
KR101009973B1 (ko) * | 2010-04-07 | 2011-01-21 | 김덕훈 | 미디어 컨텐츠 제공 방법, 그리고 그를 위한 장치 |
EP2585947A1 (en) * | 2010-06-23 | 2013-05-01 | Telefónica, S.A. | A method for indexing multimedia information |
US8918803B2 (en) * | 2010-06-25 | 2014-12-23 | At&T Intellectual Property I, Lp | System and method for automatic identification of key phrases during a multimedia broadcast |
WO2012103191A2 (en) * | 2011-01-26 | 2012-08-02 | Veveo, Inc. | Method of and system for error correction in multiple input modality search engines |
US20130007043A1 (en) * | 2011-06-30 | 2013-01-03 | Phillips Michael E | Voice description of time-based media for indexing and searching |
US9710461B2 (en) * | 2011-12-28 | 2017-07-18 | Intel Corporation | Real-time natural language processing of datastreams |
KR102081925B1 (ko) * | 2012-08-29 | 2020-02-26 | 엘지전자 주식회사 | 디스플레이 디바이스 및 스피치 검색 방법 |
US9734151B2 (en) * | 2012-10-31 | 2017-08-15 | Tivo Solutions Inc. | Method and system for voice based media search |
-
2012
- 2012-08-29 KR KR1020120095034A patent/KR102081925B1/ko active IP Right Grant
-
2013
- 2013-02-06 US US13/761,102 patent/US8521531B1/en active Active
- 2013-07-29 EP EP13833521.1A patent/EP2891084A4/en not_active Ceased
- 2013-07-29 WO PCT/KR2013/006765 patent/WO2014035061A1/en unknown
- 2013-07-29 US US13/953,313 patent/US9547716B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0794670A2 (en) * | 1996-03-07 | 1997-09-10 | International Business Machines Corporation | Context-based recognition system for interactive tv and telephony |
EP0794670B1 (en) * | 1996-03-07 | 2002-06-19 | International Business Machines Corporation | Context-based recognition system for interactive tv and telephony |
US20070033005A1 (en) * | 2005-08-05 | 2007-02-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
JP2011199698A (ja) * | 2010-03-23 | 2011-10-06 | Yamaha Corp | Av機器 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016032021A1 (ko) * | 2014-08-27 | 2016-03-03 | 삼성전자주식회사 | 음성 명령 인식을 위한 장치 및 방법 |
KR20180072845A (ko) * | 2015-05-27 | 2018-06-29 | 구글 엘엘씨 | 제안되는 보이스 기반의 액션 쿼리들을 제공 |
US10504509B2 (en) | 2015-05-27 | 2019-12-10 | Google Llc | Providing suggested voice-based action queries |
US11238851B2 (en) | 2015-05-27 | 2022-02-01 | Google Llc | Providing suggested voice-based action queries |
US11869489B2 (en) | 2015-05-27 | 2024-01-09 | Google Llc | Providing suggested voice-based action queries |
WO2018016760A1 (ko) * | 2016-07-21 | 2018-01-25 | 삼성전자 주식회사 | 전자 장치 및 그의 제어 방법 |
KR20180010955A (ko) * | 2016-07-21 | 2018-01-31 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US10957321B2 (en) | 2016-07-21 | 2021-03-23 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
US20140067402A1 (en) | 2014-03-06 |
US9547716B2 (en) | 2017-01-17 |
EP2891084A4 (en) | 2016-05-25 |
US8521531B1 (en) | 2013-08-27 |
WO2014035061A1 (en) | 2014-03-06 |
EP2891084A1 (en) | 2015-07-08 |
KR102081925B1 (ko) | 2020-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102081925B1 (ko) | 디스플레이 디바이스 및 스피치 검색 방법 | |
US8738371B2 (en) | User interactive apparatus and method, and computer program utilizing a direction detector with an electromagnetic transmitter for detecting viewing direction of a user wearing the transmitter | |
KR101897492B1 (ko) | 디스플레이 장치 및 이의 하이퍼링크 실행 방법 및 음성 인식 방법 | |
JP5042799B2 (ja) | 音声チャットシステム、情報処理装置およびプログラム | |
JP6271117B2 (ja) | ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法 | |
CN107533360A (zh) | 一种显示、处理的方法及相关装置 | |
CN104541325A (zh) | 混合模型语音识别 | |
JP7116088B2 (ja) | 音声情報処理方法、装置、プログラム及び記録媒体 | |
CN112806022A (zh) | 电子装置和用于控制该电子装置的方法 | |
US10043069B1 (en) | Item recognition using context data | |
CN110989847A (zh) | 信息推荐方法、装置、终端设备及存储介质 | |
US20230108256A1 (en) | Conversational artificial intelligence system in a virtual reality space | |
US20140136196A1 (en) | System and method for posting message by audio signal | |
KR20240034189A (ko) | 시맨틱적으로 증강된 컨텍스트 표현 생성 | |
CN113936697B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
KR102496617B1 (ko) | 영상 표시 장치 및 영상 표시 방법 | |
WO2017203764A1 (ja) | 情報処理装置および情報処理方法 | |
WO2020075358A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN110890095A (zh) | 语音检测方法、推荐方法、装置、存储介质和电子设备 | |
WO2003102816A1 (fr) | Systeme fournisseur de donnees | |
JP5330005B2 (ja) | デジタルフォトフレーム、情報処理システム及び制御方法 | |
KR102113236B1 (ko) | 개인 검색 패턴 가이드 제공 장치 및 방법 | |
JPWO2019098036A1 (ja) | 情報処理装置、情報処理端末、および情報処理方法 | |
US20240223861A1 (en) | Smart content search from audio/video captures while watching tv content itself | |
KR20190060157A (ko) | 전자 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |