KR102081925B1 - 디스플레이 디바이스 및 스피치 검색 방법 - Google Patents

디스플레이 디바이스 및 스피치 검색 방법 Download PDF

Info

Publication number
KR102081925B1
KR102081925B1 KR1020120095034A KR20120095034A KR102081925B1 KR 102081925 B1 KR102081925 B1 KR 102081925B1 KR 1020120095034 A KR1020120095034 A KR 1020120095034A KR 20120095034 A KR20120095034 A KR 20120095034A KR 102081925 B1 KR102081925 B1 KR 102081925B1
Authority
KR
South Korea
Prior art keywords
query term
user
query
display device
search
Prior art date
Application number
KR1020120095034A
Other languages
English (en)
Other versions
KR20140028540A (ko
Inventor
김용신
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020120095034A priority Critical patent/KR102081925B1/ko
Priority to US13/761,102 priority patent/US8521531B1/en
Priority to US13/953,313 priority patent/US9547716B2/en
Priority to PCT/KR2013/006765 priority patent/WO2014035061A1/en
Priority to EP13833521.1A priority patent/EP2891084A4/en
Publication of KR20140028540A publication Critical patent/KR20140028540A/ko
Application granted granted Critical
Publication of KR102081925B1 publication Critical patent/KR102081925B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명에 따른 디스플레이 디바이스의 스피치 검색 방법은, 미디어 데이터를 출력하는 단계; 스피치 검색 명령을 수신하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계; 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계; 상기 스피치 검색 결과를 제공하는 단계를 포함한다.

Description

디스플레이 디바이스 및 스피치 검색 방법{display device and speech search method thereof}
본 발명은 디스플레이 디바이스에 대한 것으로, 특히 디스플레이 장치의 스피치 검색 방법에 대한 것이다.
네트워크 기술을 발전으로 인해, 사용자는 다양한 정보를 손쉽게 검색할 수 있게 되었다. 특히, 사용자는 디지털 컨텐츠를 시청하면서 시청중인 컨텐츠에 대한 정보를 검색할 수 있다. 사용자는 컨텐츠에 대한 정보로서 컨텐츠 자체에 대한 정보뿐 아니라, 시청중인 컨텐츠의 부분 또는 컨텐츠의 오브젝트에 대한 정보를 검색할 수도 있다.
컨텐츠에 대한 정보의 검색은 다양한 방법으로 수행될 수 있다. 종래의 경우, 사용자는 키보드와 같은 별도의 입력 수단으로 원하는 검색 용어를 입력하였다. 그러나 최근 음성(voice) 인식 기술의 발전으로 인해, 사용자는 음성로 디바이스에 다양한 명령을 입력하여, 디바이스를 제어할 수 있게 되었다. 따라서 사용자는 스피치로 시청 중인 컨텐츠에 대한 정보를 검색할 수도 있다.
본 발명은, 사용자가 스피치 검색을 사용하여 더욱 편리하고 더욱 정확하게 원하는 정보를 획득할 수 있는 방법을 제공하고자 한다. 특히, 본 발명에 따르면 사용자가 검색 대상을 정확하게 인식하지 못한 경우에도, 사용자의 스피치 검색 명령 및 시청중인 미디어 데이터에 대한 컨텍스트 정보를 사용하여 사용자의 의도에 맞는 검색 결과를 제공할 수 있다.
전술한 기술적 과제를 해결하기 위하여, 본 발명의 디스플레이 디바이스의 스피치 검색 방법은, 미디어 데이터를 출력하는 단계; 스피치 검색 명령을 수신하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계; 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계; 상기 스피치 검색 결과를 제공하는 단계를 포함한다.
또한, 본 발명의 디스플레이 디바이스는, 미디어 데이터플 프로세싱하는 미디어 데이터 프로세싱 모듈; 상기 프로세싱된 미디어 데이터를 아웃풋하는 미디어 데이터 아웃풋 유닛; 스피치 검색 명령을 수신하는 오디오 인풋 유닛; 상기 스피치 검색 명령을 처리하여 쿼리 용어를 결정하고, 결정된 쿼리 용어로 스피치 검색을 수행하는 스피치 검색 모듈을 포함하며, 특히, 상기 디스플레이 디바이스는, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지 결정하고, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하고, 상기 결정된 쿼리 용어를 사용하여 스피치 검색을 수행한다.
본 발명에 따르면, 사용자의 스피치 검색 명령을 더욱 정확히 처리하여 사용자의 의도에 맞는 검색 결과를 제공할 수 있다.
특히, 사용자가 검색 대상을 정확히 인식하지 못하여 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 사용자가 부분적으로 인식한 단어를 통해 검색을 원하는 용어를 판단하고, 판단된 용어로 검색을 수행할 수 있다.
또한, 본 발명에 따르면, 사용자가 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 사용자가 시청중인 미디어 데이터에 대한 컨텍스트 정보를 사용, 검색 대상이 되는 용어를 결정할 수 있다.
또한, 본 발명에 따르면, 사용자가 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 컨텍스트 정보를 사용하여 사용자가 검색하고자 하는 대상의 용어 후보들을 제공하여, 사용자가 원하는 검색을 정확히 수행할 수 있도록 한다.
도 1은 본 발명의 일 실시예에 따른 네트워크의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 디스플레이 디바이스를 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 5는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 6은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 7은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 논리적 구성도를 나타낸 도면이다.
도 8은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 9는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
본 발명은 스피치 검색을 수행하여 검색 결과를 사용자에게 제공하는 디스플레이 디바이스에 대한 것이다. 스피치 검색이란, 사용자의 음성 명령을 인식하여, 음성 명령에 해당하는 검색을 수행하는 기술을 의미한다. 스피치 검색은 음성 인식 또는 스피치 인식 기술을 사용한다. 본 발명에서 사용하는 음성 인식 기술은 자연어 처리 기술을 포함한다. 자연어 처리란, 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통해 디바이스가 처리할 수 있도록 변환시키는 작업을 의미한다. 다시 말하면, 디바이스가 인식할 수 있는 기설정된 키워드가 아닌, 사용자의 자연스러운 대화를 처리하여 사용자의 의도에 해당하는 동작을 수행하는 방법을 의미한다.
본 발명에서 디스플레이 디바이스는, 디지털 미디어 데이터 또는 디지털 컨텐츠를 처리하여 출력할 수 있는 다양한 디바이스를 의미한다. 디지털 컨텐츠는, 텍스트 데이터, 오디오 데이터, 비디오 데이터 중 적어도 하나를 포함한다. 실시예로서, 디스플레이 디바이스는 TV, 셋탑 박스, 핸드폰, PDA(Personal Digital Assistants), 컴퓨터, 노트북, 태블릿 피씨 등의 다양한 전자 디바이스에 해당될 수 있다. 다시 말하면, 디스플레이 디바이스는 디지털 컨텐츠를 처리하여 사용자에게 제공할 수 있는 다양한 전자 디바이스를 의미하며, 이하에서 디바이스로 약칭할 수도 있다. 이하에서, 디지털 컨텐트 및 컨텐트는 이하에서 미디어 데이터로 지칭될 수 있다.
도 1은 본 발명의 일 실시예에 따른 네트워크의 개념도이다.
디스플레이 디바이스들(1040)은 네트워크(1030)에 연결된다. 네트워크(1030)는 케이블, 무선 통신, 광 통신, IP 네트워크 등 다양한 통신 프로토콜을 사용하여 데이터를 송수신할 수 있는 네트워크를 나타낸다. 디스플레이 디바이스(1040)는 네트워크(1030)를 통해 컨텐츠 서버(1010)로부터 컨텐츠를 수신할 수 있다. 컨텐츠 서버(1010)는 디지털 컨텐츠를 제공하는 컨텐츠 프로바이더로서, 네트워크 구성에 따라 디스플레이 디바이스(1040)도 컨텐츠 서버(1010)가 될 수 있다.
디스플레이 디바이스(1040)는 컨텐츠 서버(1010)로부터 수신한 컨텐츠를 처리하여 사용자에게 제공할 수 있다. 디스플레이 디바이스(1040)가 컨텐츠를 제공한다는 의미는, 수신한 컨텐츠 데이터를 프로세싱하여 컨텐츠를 디스플레이 또는 오디오 출력한다는 의미이다. 그리고 디스플레이 디바이스(1040)는 사용자로부터 검색 명령을 수신하여, 검색 용어를 검색 엔진(1020)으로 전송하고, 검색 엔진(1020)으로부터 검색 결과를 수신하여 사용자에게 제공할 수 있다.
이하에서 검색의 대상이 되는 적어도 하나의 단어를 쿼리 용어로 지칭할 수 있다. 쿼리 용어는, 검색 엔진을 사용하여 검색하게 되는 대상으로서, 적어도 하나의 단어를 포함할 수 있다. 디스플레이 디바이스(1040)는 쿼리 용어를 사용하여 디스플레이 디바이스(1040)가 포함하는 데이터 베이스로부터 검색을 수행하거나, 쿼리 용어를 검색 엔진(1020)로 전송하고, 검색 결과를 수신할 수도 있다. 그리고, 쿼리 용어가 포함하는 적어도 하나의 단어를 쿼리 워드라고 지칭할 수 있다. 쿼리 용어가 복수의 단어를 포함하는 경우, 각각의 단어들을 쿼리 워드로 지칭할 수 있다. 쿼리 용어가 하나의 단어를 포함하는 경우, 쿼리 워드가 곧 쿼리 용어가 될 수 있다. 다만, 이하에서 쿼리 워드는 사용자가 스피치 검색 명령을 말하면서 검색 대상을 지칭하는 단어를 의미한다. 다시 말하면, 불완전하거나 불분명한 단어를 사용자가 말할 수 있으며, 이러한 단어를 디스플레이 디바이스는 쿼리 워드로 인식할 수 있다. 이에 대해서는, 이하에서 예를 들면서 상세히 설명하도록 하겠다.
도 2는 본 발명의 일 실시예에 따른 디스플레이 디바이스를 나타낸 블록도이다.
도 2는, 도 1에서 도시한 디스플레이 디바이스(1040)를 나타내며, 디스플레이 디바이스는 스토리지 유닛(2010), 커뮤니케이션 유닛(2020), 센서 유닛(2030), 오디오 인풋/아웃풋 유닛(2040), 카메라 유닛(2050), 디스플레이 유닛(2060), 파워 유닛(21070), 프로세서(2080), 및 컨트롤러(2090)를 포함한다. 도 2의 디스플레이 디바이스는 예시적인 것으로, 도 2에 도시한 유닛들이 모두 구비되어야 하는 것은 아니다. 디스플레이 디바이스의 본 발명의 실시예에 따른 동작에 필요한 구조도는 이하에서 다시 설명하도록 할 것이다.
스토리지 유닛(2010)은 비디오, 오디오, 사진, 동영상, 애플리케이션 등 다양한 디지털 데이터를 저장할 수 있다. 스토리지 유닛(2010)은 플래시 메모리, HDD(Hard Disk Drive), SSD(Solid State Drive) 등의 다양한 디지털 데이터 저장 공간을 나타낸다. 이하에서, 데이터를 처리함에 필요한 버퍼 또한 스토리지 유닛(2010)에 포함될 수 있다. 또한, 스토리지 유닛(2010)은 정보 검색을 위한 데이터 베이스를 저장하고 있을 수도 있다.
커뮤니케이션 유닛(2020)은 디스플레이 디바이스 외부와 다양한 프로토콜을 사용하여 통신을 수행, 데이터를 송신/수신할 수 있다. 커뮤니케이션 유닛(2020)은 유선 또는 무선으로 외부 네트워크에 접속하여, 디지털 테이터를 송신/수신할 수 있다. 본 발명에서 디스플레이 디바이스는 커뮤니케이션 유닛(2020)을 사용하여 미디어 데이터를 수신하거나, 검색 쿼리를 전송하고 쿼리에 대한 검색 결과를 수신할 수 있다.
센서 유닛(2030)은 디스플레이 디바이스에 장착된 복수의 센서를 사용하여 사용자의 인풋 또는 디바이스의 환경을 인식하여 컨트롤러(2090)로 전달할 수 있다. 센서 유닛(2030)은 복수의 센싱 수단을 포함할 수 있다. 일 실시예로서, 복수의 센싱 수단은 중력(gravity) 센서, 지자기 센서, 모션 센서, 자이로 센서, 가속도 센서, 기울임(inclication) 센서, 밝기 센서, 고도 센서, 후각 센서, 온도 센서, 뎁스 센서, 압력 센서, 밴딩 센서, 오디오 센서, 비디오 센서, GPS(Global Positioning System) 센서, 터치 센서 등의 센싱 수단을 포함할 수 있다. 센서 유닛(2030)은 상술한 다양한 센싱 수단을 통칭하는 것으로, 사용자의 다양한 입력 및 사용자의 환경을 센싱하여, 디바이스가 그에 따른 동작을 수행할 수 있도록 센싱 결과를 전달할 수 있다. 상술한 센서들은 별도의 엘러먼트로 디바이스에 포함되거나, 적어도 하나 이상의 엘러먼트로 통합되어 포함될 수 있다. 센서 유닛(2030)은 실시예에 따라 선택적으로 구비될 수 있다.
오디오 인풋/아웃풋 유닛(2040)은 스피커 등의 오디오 출력 수단 및 마이크 등의 오디오 입력 수단을 포함하며, 디바이스의 오디오 출력 및 디바이스로의 오디오 입력을 수행할 수 있다. 오디오 인풋/아웃풋 유닛(2040)은 오디오 센서로 사용될 수도 있다. 다만 본 발명의 실시예에 따라, 디스플레이 디바이스가 스피커 또는 마이크를 포함하지 않는 경우(예를 들면, 셋탑 박스 등), 오디오 인풋/아웃풋 유닛(2040)은 오디오 데이터를 처리하여 외부로 디스플레이 장치로 전송하거나, 오디오 데이터를 수신하여 처리할 수도 있다. 오디오 인풋 유닛 및 오디오 아웃풋 유닛이 별도로 구비될 수도 있으며, 이러한 실시예에 대해서는 이하에서 상술하도록 한다.
카메라 유닛(2050)은 사진 및 동영상 촬영을 수행할 수 있으며, 실시예에 따라서 선택적으로 구비될 수 있다. 카메라 유닛(2050)은 상술한 모션 센서 또는 비주얼 센서로 사용될 수도 있다.
디스플레이 유닛(2060)은 디스플레이 화면에 이미지를 출력할 수 있다. 디스플레이 유닛(2060)은, 디스플레이가 터치 센서티브 디스플레이인 경우, 상술한 터치 센서로 사용될 수 있으며, 디스플레이 또는 디바이스가 플렉서블한 경우, 밴딩 센서로서 사용될 수도 있다. 다만 본 발명의 실시예에 따라, 디스플레이 디바이스가 디스플레이 패널 또는 스크린을 포함하지 않는 경우(예를 들면, 셋탑 박스 및 컴퓨터 등), 디스플레이 유닛은 디스플레이 데이터를 처리하여 외부 디스플레이 장치(모니터 등)로 전송할 수도 있다. 디스플레이 유닛(2060)은 이하에서 비디오 아웃풋 유닛으로 지칭할 수도 있다.
파워 유닛(2070)은 디바이스 내부의 배터리 또는 외부 전원과 연결되는 파워 소스로, 디바이스에 파워를 공급할 수 있다.
프로세서(2080)는 스토리지 유닛(1010)에 저장된 다양한 애플리케이션을 실행하고, 디바이스 내부의 데이터를 프로세싱할 수 있다.
컨트롤러(2090)는 상술한 디바이스의 유닛들을 제어하며, 유닛들 간의 데이터 송수신 및 각각의 동작을 매니징할 수도 있다.
프로세서(2080) 및 컨트롤러(2090)는 하나의 칩으로 구비되어, 상술한 각각의 동작을 함께 수행할 수 있다. 이러한 경우, 이하에서는 이를 컨트롤 유닛(2100)으로 지칭할 수 있다. 본 발명의 스피치 검색 방법은 컨트롤 유닛(2010)에 의해 수행될 수 있으며, 실시예에 따라 컨트롤 유닛(2010)에서 구동되는 모듈들에 의해 수행될 수 있으며, 이에 대하여는 이하에서 상술하도록 한다.
도 2은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 블록도로서, 분리하여 표시된 블록들은 디바이스의 엘러먼트들을 논리적으로 구별하여 도시한 것이다. 따라서 상술한 디바이스의 엘러먼트들은 디바이스의 설계에 따라 하나의 칩으로 또는 복수의 칩으로 장착될 수도 있다.
이하에서, 스피치 검색 방법은 도 2의 컨트롤 유닛(2100)에서 수행될 수 있으며, 실시예에 따라 스토리지 유닛(2010)에 저장되고 컨트롤러 유닛(2100)에 의해 구동되는 애플리케이션에 의해 실행될 수도 있다. 이러한 스피치 검색을 수행하는 컨트롤 유닛(2100)의 동작과 관련하여는, 이하에서 추가로 설명하도록 한다. 또한, 이하의 실시예들에서, 디스플레이 디바이스는 설명의 편의를 위하여 TV를 예로서 설명하나, 상술한 바와 같이 디스플레이 디바이스가 TV로 한정되지 않음은 당업자에게 자명한 것이다.
도 3은 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
일 실시예로서, 디스플레이 디바이스(3010)는 미디어 데이터로서 야구 컨텐트를 출력할 수 있다. 야구 컨텐트는, 실시간으로 수신하는 방송 컨텐트이거나, 디스플레이 디바이스(3010)의 스토리지 유닛에 기저장된 컨텐트일 수도 있다. 디스플레이 디바이스가 출력하는 컨텐트 즉 미디어 데이터는 비디오 데이터와 오디오 데이터를 포함할 수 있다. 디스플레이 디바이스(3010)는 디스플레이 스크린을 통해 비디오 데이터를 출력하고, 스피커를 통해 오디오 데이터를 출력할 수 있다.
디스플레이 디바이스(3010)를 통해 야구 컨텐트를 시청중인 사용자는, 음성으로 컨텐트에 관련된 정보를 검색할 수 있다. 예를 들면, 화면에 디스플레이되는 이미지에서, 선수의 정보를 검색하거나, 음성 중계에서 모르는 용어에 대한 정보를 검색할 수 있다. 도 3에서와 같이, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 말이 나온 경우, 사용자는 "플라이 아웃"이 무엇인지를 검색하고 싶을 수 있다. 이 경우, 본 발명에서 사용자는 음성 명령으로 플라이 아웃의 의미를 검색할 수 있다. 특히, 자연어 처리를 사용하여 "플라이 아웃이 뭐지?"와 같이 일상 생활에서 질문하는 방법으로 스피치 검색 기능을 호출하여 검색을 개시할 수 있다.
도 4는 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 4는 도 3에서 설명한 스피치 검색 방법을 좀 더 상세히 설명하는 순서도이다.
디스플레이 디바이스는 미디어 데이터를 출력할 수 있다(S4010). 상술한 바와 같이, 미디어 컨텐츠는 비디오 데이터, 오디오 데이터를 포함하며, 컨텐츠에 따라 텍스트 데이터 또한 포함할 수도 있다.
디스플레이 디바이스는 스피치 검색 명령을 수신할 수 있다(S4020). 스피치 검색 명령은, 기설정된 명령어를 사용할 수도 있으며, 자연어 처리 기술을 사용하여 일상 대화와 같은 자연스러운 명령이 될 수도 있다. 도 3의 실시예에서, "플라이 아웃이 뭐지?"가 스피치 검색 명령에 해당한다. 디스플레이 디바이스는, 음성 인식 기술을 사용하여 마이크를 통해 수신하는 사용자의 음성 중 스피치 검색 명령을 인식할 수 있다.
디스플레이 디바이스는 스피치 검색 명령으로부터 쿼리 용어를 추출할 수 있다(S4030). 디스플레이 디바이스가 사용자의 음성 중 스피치 검색 명령을 인식하면, 스피치 검색 명령으로부터 검색의 대상이 되는 쿼리 용어(query term)을 추출할 수 있다. 도 3의 실시예에서, "플라이 아웃이 뭐지?"라는 스피치 검색 명령에서, 쿼리 용어는 "플라이 아웃"이 된다. 디스플레이 디바이스는, "플라이 아웃이 뭐지?"라는 사용자의 음성을 스피치 검색 명령으로 인식하고, 인식된 스피치 검색 명령으로부터 검색을 수행할 쿼리 용어인 "플라이 아웃"을 추출할 수 있다.
이하에서, 스피치 검색 명령에 포함되는 단어들을 쿼리 워드라고 지칭할 수 있다. 도 3 및 도 4의 실시예에서, '플라이' 및 '아웃' 각각이 쿼리 워드에 해당한다. 디스플레이 디바이스는 쿼리 워드에 대하여 검색을 수행할 수도 있으나, 사용자가 원하는 검색어는 쿼리 워드 각각이 아닌 쿼리 워드의 조합 즉 쿼리 용어가 될 수 있다. 디스플레이 디바이스는 음성 인식 기술 및 자연어 처리 기술을 통해 쿼리 용어를 추출할 수 있으며, 이 경우 쿼리 용어의 추출은 쿼리 워드가 하나인 경우 쿼리 워드의 추출이 되며, 쿼리 워드가 복수인 경우 쿼리 워드의 조합인 쿼리 용어의 추출이 될 수도 있다. 쿼리 워드의 추출은, 미디어 데이터에 대한 컨텍스트 정보를 참조하여 수행될 수도 있다. 도 3 및 도 4의 실시예에서, 디스플레이 디바이스는 사용자가 야구 컨텐트를 시청하고 있으므로, 사용자가 검색을 원하는 용어는 '플라이' 또는 '아웃'보다는 야구 용어인 '플라이 아웃'인 것으로 판단할 수 있다.
디스플레이 디바이스는 추출된 쿼리 용어를 사용하여 검색을 수행할 수 있다(S4040). 디스플레이 디바이스는 디스플레이 디바이스 자체에 내장된 검색 엔진을 사용하여 쿼리 용어에 관련된 정보를 검색하거나, 쿼리 용어를 네트워크를 통해 검색 기능을 제공하는 외부 검색 엔진으로 전송하고, 검색 결과를 수신할 수도 있다. 쿼리 용어에 대한 검색 및 검색 결과는 용어에 대한 정의를 포함하여, 사용자가 시청중인 컨텐트와 관련된 다양한 데이터를 포함할 수 있다.
디스플레이 디바이스는 검색 결과를 사용자에게 제공할 수 있다(S4050). 검색 결과는 다양한 방법으로 제공될 수 있다. 예를 들면, 디스플레이 디바이스는 검색 결과를 음성으로 제공하거나, 디스플레이 출력으로 제공할 수도 있다. 다시 하면, 디스플레이 디바이스는 검색 결과를 음성으로 사용자에게 출력하거나, 디스플레이 화면에 자막과 같은 형태로 제공할 수도 있다.
다만, 도 3 및 도 4에서 설명한 실시예의 경우는 스피치 검색 명령이 완성된(complete) 쿼리 용어를 포함해야 한다. 즉, 쿼리 용어가 미완성이거나 모호한(ambiguous) 경우에는 검색을 위한 쿼리 용어를 추출할 수 없게 된다. 이에 대하여는 이하에서 상술하도록 한다. 이하에서, 도 3 및 도 4에서 설명한 바와 동일한 기술적 내용에 대하여는 중복하여 설명하지 않도록 한다.
도 5는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 3에서와 같이 디스플레이 디바이스(5010)는 컨텐트로서 야구 컨텐트를 출력한다. 야구 컨텐트는, 실시간으로 수신하는 방송 컨텐트이거나, 디스플레이 디바이스(5010)의 스토리지 유닛에 기저장된 컨텐트일 수도 있다. 디스플레이 디바이스가 출력하는 컨텐트는 비디오 데이터와 오디오 데이터를 포함한다. 디스플레이 디바이스(5010)는 디스플레이 스크린을 통해 비디오 데이터를 출력하고, 스피커를 통해 오디오 데이터를 출력할 수 있다.
디스플레이 디바이스(5010)를 통해 야구 컨텐트를 시청중인 사용자는, 음성으로 컨텐트에 관련된 정보를 검색할 수 있다. 예를 들면, 화면에 디스플레이되는 이미지에서, 선수의 정보를 검색하거나, 음성 중계에서 모르는 용어에 대한 정보를 검색할 수 있다. 도 3에서와 같이, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 말이 나온 경우, 사용자는 "플라이 아웃"이 무엇인지를 검색하고 싶을 수 있다. 이 경우, 본 발명에서 사용자는 음성 명령으로 플라이 아웃의 의미를 검색할 수 있다. 특히, 자연어 처리를 사용하여 "플라이 아웃이 뭐지?"와 같이 일상 생활에서 질문하는 방법으로 스피치 검색 기능을 호출하여 검색을 개시할 수 있다.
다만, 컨텐츠의 음성 데이터에 포함된 용어들에 대해 검색하려는 경우의 많은 경우, 사용자는 처음 듣거나 의미를 모르는 용어를 검색하고자 한다. 이러한 경우 사용자가 모르는 용어를 정확히 듣고 정확히 검색을 명령하기는 어려운 경우가 많다. 즉, 도 5에서와 같이 사용자가 "플라이 아웃"이라는 용어를 모르는 경우 사용자가 정확히 "플라이 아웃"이라는 용어에 대한 검색을 명령하기는 어려운 경우가 자주 발생할 수 있다. 특히, 비디오 데이터에 대한 검색과 달리, 오디오 데이터에 포함된 용어는 아웃풋과 동시에 바로 지나가 버리게 되므로, 그 용어가 다시 아웃풋되지 않으면 의미를 모르는 그 용어 자체가 무엇인지를 알기가 어렵다. 다시 말하면, 오디오 데이터에 포함된 용어는 즉시성이 강하므로, 정확한 검색 대상의 인식에 실패할 개연성이 비디오 데이터보다 높은 것이다.
따라서, 사용자는 도 3 내지 도 4에서와 같이 "플라이 아웃이 뭐지?"와 같은 정확한 쿼리 용어를 포함하는 스피치 검색 명령을 말할 수도 있지만, 도 5에서와 같이 "플.. 뭐라고?" 또는 "플라이.. 뭐?"와 같이 정확히 인식하지 못한 용어에 대해 검색을 원할 수도 있는 것이다.
도 6은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 6는 도 5에서 설명한 스피치 검색 방법에 대한 순서도이다.
디스플레이 디바이스를 통해, 사용자가 컨텐트 시청시 사용자가 모르는 용어가 음성 출력될 수 있다(S6010). 도 5의 경우를 예로 설명하면, 사용자는 야구 컨텐트를 시청하는 중에, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 음성을 들을 수 있으며, 이 경우 "플라이 아웃"이 사용자가 모르는 용어에 해당한다.
사용자는 스피치 검색 명령을 말할 수 있다(S6020). 이 경우 스피치 검색 명령은 불분명한 용어를 포함한다. 도 5의 경우를 예로 설명하면, 사용자는 "플.. 뭐라고?"와 같은 음성 명령을 말할 수 있다. "플.."이 불분명한 용어에 해당하며, 이는 쿼리 워드로 인식될 수도 있다.
디스플레이 디바이스는 컨텐트의 최근 오디오 프레임에서 사용자가 검색하려는 용어와 유사한 용어가 존재하는 지를 판단할 수 있다(S6030). 예를 들면, 디스플레이 디바이스는 음성 인식 및 자연어 처리를 통해 사용자의 스피치 검색 명령 "플.. 뭐라고?"로부터 "뭐라고" 부분이 스피치 검색을 원하는 내용이고, "플.."이 그 대상이 됨을 판단할 수 있다. 다만, 디스플레이 디바이스는 도 3 및 도 4의 실시예에서와 같이 바로 "플.."에 대해 검색하는 것이 아니라, "플.."을 불완전한 검색 용어로 판단하고 사용자가 검색하고자 하는 용어를 최근 오디오 데이터로부터 검색할 수 있다. 디스플레이 디바이스가 최근 오디오 데이터를 음성 인식 및 텍스트 전환 처리하면, "플라이 아웃"이라는 용어를 검색할 수 있다. 따라서 디스플레이 디바이스는, 스피치 검색 명령에 포함된 쿼리 워드 "플~"이 "플라이 아웃"을 검색하기 위한 쿼리 워드임을 판단할 수 있다.
디스플레이 디바이스는 판단 결과에 따라서 컨텐트의 내용에 기반한 검색 결과를 제공하거나(S6040), 컨텐트의 내용에 기반하지 않은 일반적인 검색 결과를 제공할 수 있다(S6050).
상술한 명세서에서는, 주로 스피치 검색 명령이 불완전한 용어를 포함하는 경우로 "플~ 뭐라고?"와 같은 경우를 예로서 설명하였으나, 사용자는 다양한 쿼리 워드를 포함하는 다양한 스피치 검색 명령을 말할 수 있다. 따라서, 디스플레이 디바이스는 컨텐트의 오디오 데이터에 쿼리 워드와 매칭되는 쿼리 용어가 결정되면, 결정된 쿼리 용어에 대한 검색 결과를 제공할 수 있다(S6040). 쿼리 워드와 매칭되는 쿼리 용어가 없는 것으로 결정되면, 디스플레이 디바이스는 수신한 쿼리 워드에 충실하게 검색을 수행하고, 쿼리 워드에 대한 검색 결과를 제공할 수 있다(S6050).
도 5 및 도 6에서 설명한 실시예에 대한 디스플레이 디바이스의 동작에 대하여는 이하에서 더욱 상술하게 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 논리적 구성도를 나타낸 도면이다.
도 7은 도 2에서 도시하고 설명한 디스플레이 디바이스를 본 발명의 실시에 필요한 구성을 위주로 논리적으로 도시한 도면이다.
도 7에서, 디스플레이 디바이스는 미디어 데이터 프로세싱 모듈(7010), 미디어 데이터 아웃풋 유닛(7020), 스피치 검색 모듈(7030), 오디오 인풋 유닛(7040)을 포함한다. 미디어 데이터 프로세싱 모듈(7010) 및 스피치 검색 모듈(7030)은 도 2의 컨트롤 유닛에 포함되거나, 컨트롤 유닛에서 구동되는 애플리케이션이 될 수 있다.
미디어 데이터 프로세싱 모듈(7010)은 텍스트 데이터, 오디오 데이터 및 비디오 데이터 중 적어도 하나를 포함하는 미디어 데이터를 프로세싱할 수 있다. 미디어 데이터 프로세싱 모듈(7010)은 미디어 데이터를 디코딩하여 미디어 데이터 아웃풋 유닛으로 출력할 수 있다. 실시예에 따라, 미디어 데이터 프로세싱 모듈(7010)은 버퍼(7050)를 구비할 수 있으며, 프로세싱하는 미디어 데이터의 일정 양을 버퍼(7050)에 저장할 수 있다. 버퍼(7050)는 도 2의 스토리지 유닛(1010)에 해당할 수 있다. 미디어 데이터 프로세싱 모듈(7010)은 미디어 데이터를 스트리밍하여 프로세싱하거나, 기 저장된 미디어 데이터를 프로세싱할 수 있다.
미디어 데이터 아웃풋 유닛(7020)은 미디어 데이터 프로세싱 모듈(7010)에서 프로세싱된 미디어 데이터를 외부로 출력할 수 있다. 미디어 데이터 아웃풋 유닛(7020)은 오디오 아웃풋 유닛(7060) 및 비디오 아웃풋 유닛(7070)을 포함할 수 있으며, 이들은 프로세싱된 미디어 데이터의 오디오 및 비디오를 각각 출력할 수 있다. 비디오 아웃풋 유닛(7070)은 프로세싱된 미디어 데이터의 이미지를 출력하며, 이미지는 동영상, 정지영상, 텍스트 등의 시각적인 데이터를 포함한다. 도 2의 실시예에서, 오디오 아웃풋 유닛(7060)은 오디오 인풋/아웃풋 유닛(2060)에, 비디오 아웃풋 유닛(7070)은 디스플레이 유닛(1060)에 해당할 수 있다. 또한, 상술한 바와 같이, 디스플레이 디바이스가 셋탑 박스와 같은 별도의 출력 수단을 포함하지 않는 경우, 오디오 아웃풋 유닛(7060) 및 비디오 아웃풋 유닛(7070)은 프로세싱된 미디어 데이터의 오디오 및 비디오를 출력하는 역할을 수행할 수도 있다.
오디오 인풋 유닛(7040)은 마이크와 같이, 디스플레이 디바이스 외부의 오디오를 입력받아 스피치 검색 모듈(7030)으로 전달한다.
스피치 검색 모듈(7030)은 본 발명의 실시예에 따른 스피치 검색 방법을 수행한다. 스피치 검색 모듈(7030)은, 오디오 인풋 유닛(7040)을 통해 사용자의 스피치 검색 명령을 수신할 수 있다. 스피치 검색 모듈(7030)은 미디어 데이터 프로세싱 모듈(7010)에 포함된 버퍼(7050)로부터 이미 출력된 미디어 데이터를 수신하여 처리할 수도 있다. 스피치 검색 모듈(7030)은 사용자의 음성을 인식하여 의미를 분석하고, 쿼리 워드 또는 쿼리 용어를 추출할 수 있는 음성 인식 모듈(7080)을 포함한다. 또한, 스피치 검색 모듈은 검색의 대상이 되는 쿼리 용어에 대한 관련 정보를 검색하여 제공하는 검색 엔진(7080)을 포함할 수 있다.
스피치 검색 모듈(7030)은 음성 인식 모듈(7080)을 사용하여 사용자의 스피치 검색 명령을 인식하고 분석할 수 있다. 음성 인식 모듈(7080)은 상술한 바와 같이 자연어 처리가 가능하며 오디오 데이터를 프로세싱하여 텍스트 데이터로 변환할 수도 있다. 음성 인식 모듈(7080)은, 사용자의 스피치 검색 명령에 포함된 쿼리 워드가 검색 가능한 완성된 쿼리 용어인지를 판단하고, 검색 가능한 완성된 쿼리 용어로 판단되면 검색 엔진(7090)을 사용하여 검색 쿼리 용어에 대한 정보를 검색, 검색 결과를 제공할 수 있다. 검색 결과는 미디어 데이터 프로세싱 모듈(7010)로 전달되거나, 바로 미디어 데이터 아웃풋 유닛(7020)으로 전달되어, 사용자에게 아웃풋될 수 있다. 검색 엔진(7090)은 디스플레이 디바이스가 구비한 데이터 베이스를 사용하여 검색을 수행하거나, 쿼리 용어를 도 1에서와 같은 외부 검색 엔진으로 전송하고, 그 결과를 수신할 수도 있다.
스피치 검색 모듈(7030)은 스피치 검색 명령에 포함된 적어도 하나의 쿼리 워드가 완성된 쿼리 용어가 아닌 것으로 판단하는 경우, 미디어 데이터 프로세싱 모듈(7010)의 버퍼(7050)에 포함된 오디오 데이터를 수신, 음성 인식 모듈(7080)로 처리할 수 있다. 스피치 검색 모듈(7030)은 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 소정 시간만큼 과거까지의 버퍼링된 오디오 데이터를 수신하고, 음성 인식 모듈(7080)로 이를 텍스트 변환할 수 있다. 그리고 처리된 결과를 분석된 쿼리 워드와 비교, 사용자의 검색 의도에 맞는 완성된 쿼리 용어를 추출할 수 있다. 그리고 검색 엔진(7090)은 추출된 쿼리 용어를 사용하여 검색을 수행, 검색 결과를 아웃풋할 수 있다.
스피치 검색 모듈(7030)은 컨텍스트 정보를 생성할 수 있다. 컨텍스트 정보는, 현재 프로세싱 및 출력중인 미디어 데이터에 대한 정보를 나타낸다. 먼저, 컨텍스트 정보는 현재 출력중인 컨텐트의 메타데이터 또는 메타데이터로부터 추출될 수 있는 컨텐트 관련 정보를 포함한다. 또한, 컨텍스트 정보는 소정 구간의 미디어 데이터러부터 추출되는 컨텐트 관련 정보를 포함한다. 스피치 검색 모듈(7030)은 상술한 바와 같이 미디어 데이터의 오디오 데이터를 추출하여 텍스트 변환할 수 있으며, 변환된 텍스트 정보 또한 컨텍스트 정보에 포함된다. 이러한 오디오 데이터를 처리한 결과 및 텍스터 정보를 미디어 데이터의 오디오 관련 정보라고 지칭할 수 있으며, 오디오 관련 정보는 상술한 컨텍스트 정보에 포함된다.
스피치 검색 모듈(7030)은 이미지 프로세싱 모듈을 더 포함할 수 있다. 이미지 프로세싱 모듈은 처리된 미디어 데이터의 출력 이미지를 프로세싱할 수 있다. 예를 들면, 이미지 프로세싱 모듈은 비디오 아웃풋 유닛(7070)을 통해 출력되는 이미지를 분석하여, 이미지에 대한 관련 정보를 추출할 수 있다. 이미지의 분석 결과는 미디어 데이터의 이미지 관련 정보라고 지칭할 수 있으며, 이미지 관련 정보는 상술한 컨텍스트 정보에 포함된다.
도 8은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 8과 관련하여, 도 4에서 설명된 내용과 동일하거나 중복되는 내용은 간략히 설명하도록 한다.
디스플레이 디바이스는 미디어 데이터를 출력할 수 있다(S8010). 상술한 바와 같이, 미디어 컨텐츠는 비디오 데이터, 오디오 데이터를 포함하며, 컨텐츠에 따라 텍스트 데이터 또한 포함할 수도 있다.
디스플레이 디바이스는 스피치 검색 명령을 수신할 수 있다(S8020). 디스플레이 디바이스가 수신한 스피치 검색 명령은, 적어도 하나의 쿼리 워드를 포함할 수 있다. 스피치 검색 명령은, 기설정된 명령어를 사용할 수도 있으며, 자연어 처리 기술을 사용하여 일상 대화와 같은 자연스러운 명령이 될 수도 있다. 도 5의 실시예에서, "플.. 뭐지?"가 스피치 검색 명령에 해당한다. 그리고 "플"이 쿼리 워드에 해당한다. 또는, "방금 뭐라고"와 같이 쿼리 워드를 포함하지 않는 경우도 있을 수 있다. 이에 대해서는, 이하에서 도 9와 함께 설명하도록 한다.
디스플레이 디바이스는 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정할 수 있다(S8030).
다시 말하면, 디스플레이 디바이스는 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 스피치 검색 명령에 포함된 적어도 하나의 쿼리 워드를 사용하여 판단할 수 있다. 디스플레이 디바이스는 스피치 검색 명령에 포함된 쿼리 워드가 사용자가 검색을 원하는 완성된 쿼리 용어인지 결정할 수 있다. 예를 들면, 도 5와 같은 실시예에서, 사용자가 "플.. 뭐라고?" 또는 "플라이.. 뭐라고?"와 같이 스피치 검색 명령을 말할 수 있다. 이 경우, 디스플레이 디바이스는 사용자의 말투나 억양, 현재 출력 중인 미디어 데이터의 컨텍스트(context) 정보를 사용하여 사용자가 검색을 원하는 쿼리 용어가 쿼리 워드인 "플" 또는 "플라이"인지, 아니면 "플라이 아웃"인지를 결정할 수 있다.
디스플레이 디바이스는, 사용자의 말투나 억양, 액센트 및 말흐림 등을 파악하여 쿼리 워드가 완성된 쿼리 용어인지를 결정할 수 있다. 일반적으로, 사용자들은 잘 모르는 용어를 잘 아는 용어와 상이하게 말한다. 특히, 잘 모르는 용어의 경우 악센트가 불분명하거나 어미를 흐리는 등의 패턴이 발생한다. 디스플레이 디바이스는 이러한 발음 패턴을 파악하여, 쿼리 워드로 검색을 할지 아니면 완성된 쿼리 용어를 찾아야 하는지를 결정할 수 있다.
또한, 디스플레이 디바이스는, 컨텍스트 정보를 참조하여 쿼리 워드가 완성된 쿼리 용어인지를 결정할 수 있다. 물론, 디스플레이 디바이스는 사용자의 발음 패턴과 컨텍스트 정보를 모두 사용할 수도 있다.
컨텍스트 정보는 미디어 데이터로부터 추출된 정보로서, 현재 사용자에게 출력중인 컨텐츠에 관련된 정보를 포함한다. 예를 들면, 미디어 데이터는 텍스트 데이터, 오디오 데이터, 비디오 데이터 및 메타데이터 중 적어도 하나를 포함할 수 있다. 메타데이터는 미디어 데이터에 대한 데이터로서, 미디어 데이터가 나타내는 컨텐츠에 대한 제목, 장르, 내용, 장면, 스케줄, 인물, 시간 등의 정보를 포함할 수 있다. 컨텍스트 정보는, 미디어 데이터에 관련된 정보로서, 특히 사용자가 시청중인 컨텐츠에 대한 정보이다. 상술한 실시예에서, 미디어 데이터가 나타내는 컨텐트가 야구 컨텐트인 경우, 메타 데이터는 해당 컨텐트가 스포츠 및 야구라는 것을 나타낼 수 있다. 또는, 디스플레이 디바이스가 미디어 데이터의 오디오, 이미지, 텍스트 등을 분석 또는 추출하여 해당 컨텐트가 야구라는 것을 알 수 있다. 이러한 경우 디스플레이 디바이스는 쿼리 워드인 '플라이'보다 컨텐트에 해당하는 용어로서, '플라이'를 포함하는 '플라이 아웃'이 사용자가 검색하고자 하는 쿼리 워드임을 판단할 수 있다. 디스플레이 디바이스는 컨텍스트 정보를 참고하여, 야구에 해당하는 용어 데이터베이스와 쿼리 워드를 비교, 위와 같은 판단을 할 수 있다.
컨텍스트 정보는 미디어 데이터의 메타 데이터, 미디어 데이터의 오디오 관련 정보 및 미디어 데이터의 이미지 관련 정보 중 적어도 하나를 포함할 수 있다. 미디어 데이터의 메타데이터는 컨텐트의 제목 정보, 장르 정보, 인물 정보, 장면 정보, 스케줄 정보 중 적어도 하나를 포함할 수 있다.
적어도 하나의 쿼리 워드가 완성된 쿼리 용어가 아닌 경우, 디스플레이 디바이스는 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 추출할 수 있다(8030).
디스플레이 디바이스는 버퍼에 저장된 오디오 데이터에서, 사용자의 스피치 검색 명령이 수신된 시점으로부터 소정의 지난 시간 분량에 해당하는 오디오 데이터를 읽어와 음성 인식 처리할 수 있다. 그리고 디스플레이 디바이스는 이 텍스트와 사용자의 쿼리 워드를 비교, 매칭되는 쿼리 용어를 추출할 수 있다.
예를 들면, 사용자가 "플..뭐라고?"를 말한 시점부터 과거 1분간의 오디오 데이터를 버퍼로부터 읽어와서 음성 인식 처리하여, 이를 텍스트 데이터로 변환할 수 있다. 이렇게 생성된 텍스트 데이터 역시 상술한 컨텍스트 정보로 지칭할 수 있다. 이 텍스트 데이터에는, 사용자가 스피치 검색 명령을 내린 시점 근처에 "중견수 플라이 아웃으로 이닝이 마무리됩니다.."라는 텍스트가 포함된다. 따라서, 디스플레이 디바이스는 "플~"이라는 쿼리 워드가 "플라이 아웃"을 의도했음을 파악하여, 완성된 쿼리 용어인 "플라이 아웃"을 추출할 수 있다. 다시 말하면, 디스플레이 디바이스는 "플~"이라는 쿼리 워드에 매칭되는 쿼리 용어가 "플라이" 또는 "플라이 아웃"임을 파악하고, 컨텍스트 정보를 사용하여 "플라이 아웃"이 사용자의 의도에 맞는 쿼리 용어임을 결정할 수 있다. 위의 예에서, 컨텍스트 정보인 텍스트 데이터에는 "중견수 플라이 아웃으로..."라는 문장이 포함되고, 명사 및 조사 등 문장 내 단어들의 배열을 분석하여 검색 대상이 "플라이 아웃"임을 결정할 수 있다.
디스플레이 디바이스는 추출된 쿼리 용어를 사용하여 검색을 수행할 수 있다(S8050). 디스플레이 디바이스는 디스플레이 디바이스 자체에 내장된 검색 엔진을 사용하여 쿼리 용어에 관련된 정보를 검색하거나, 쿼리 용어를 네트워크를 통해 검색 기능을 제공하는 외부 검색 엔진으로 전송하고, 검색 결과를 수신할 수도 있다. 쿼리 용어에 대한 검색 및 검색 결과는 용어에 대한 정의를 포함하여, 사용자가 시청중인 컨텐트와 관련된 다양한 데이터를 포함할 수 있다.
디스플레이 디바이스는 검색 결과를 사용자에게 제공할 수 있다(S8060). 검색 결과는 다양한 방법으로 제공될 수 있다. 예를 들면, 디스플레이 디바이스는 검색 결과를 음성으로 제공하거나, 디스플레이 출력으로 제공할 수도 있다. 다시 하면, 디스플레이 디바이스는 검색 결과를 음성으로 사용자에게 출력하거나, 디스플레이 화면에 자막과 같은 형태로 제공할 수도 있다.
실시예에 따라서, 단계(S8040)는 단계(8030)에 포함될 수도 있다. 즉, 상술한 바와 같이 쿼리 용어 결정 단계에서, 최근 오디오 데이터를 처리하여 오디오 관련 정보를 생성할 수 있다. 오디오 관련 정보는 상술한 바와 같이 컨텍스트 정보에 포함될 수 있다. 디스플레이 디바이스는, 컨텍스트 정보를 쿼리 워드와 비교 분석하여 쿼리 용어를 결정할 수 있다.
컨텍스트 정보는 상술한 바와 같이 미디어 데이터뿐만 아니라 미디어 데이터를 처리한 정보를 포함한다. 디스플레이 디바이스는 출력중인 미디어 데이터의 일정 부분을 처리할 수 있는데, 오디오 데이터의 경우는 상술한 바와 같다. 디스플레이 디바이스는 소정 시간 분량의 비디오 데이터를 이미지 프로세싱하여, 이 구간의 이미지에 대한 정보를 추출할 수 있다. 상술한 실시예에서, 이미지 프로세싱을 통해 디스플레이 디바이스는 현재 디스플레이 중인 컨텐츠가 야구의 장면임을 판단할 수 있다. 특히, 사용자가 야구 선수의 이름이나 정보를 검색하려는 경우로서, 예를 들면 '4번 선수가 누구지?"라는 스피치 검색 명령을 말할 수 있다. 이러한 경우 디스플레이 디바이스는 비디오 데이터를 이미지 프로세싱하여 4번 선수에 대한 이미지 정보를 획득하고, 이미지 검색 기술을 사용하여 4번 선수에 대한 추가 정보를 사용자에게 제공할 수 있다. 이러한 경우 디스플레이 디바이스는 도 7에서 도시한 구성에 추가로, 이미지 프로세싱 모듈을 포함할 수 있으며, 이미지 프로세싱 모듈은 버퍼에 저장된 비디오 데이터를 처리 및 분석할 수 있다. 또한, 이 경우 디스플레이 디바이스의 검색 엔진은 이미지 프로세싱 모듈로부터 이미지 정보를 수신하여 이 이미지 정보를 사용한 이미지 검색을 수행할 수도 있다.
도 9는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 8에서, 쿼리 워드에 매칭되는 쿼리 용어가 결정되지 않거나, 쿼리 워드도 불명확한 경우가 발생할 수 있다. 또는, 도 9에서와 같이 사용자의 스피치 검색 명령("뭐?")에 쿼리 워드가 포함되지 않을 수도 있다. 디스플레이 디바이스는 이러한 경우 도 9에서와 같이 쿼리 용어 후보들을 사용자에게 제공할 수 있다.
쿼리 용어 후보들은, 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 기설정된 시간 분량의 과거까지를 대상으로 할 수 있다. 예를 들면, 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 30초 사이의 오디오 데이터를 음성 인식하여, 검색이 가능한 용어들을 추출, 도 9와 같이 시계열적 순서로 디스플레이할 수 있다. 이 경우, 도 9에서와 같이 해당 용어가 출력된 시점의 이미지를 버퍼로부터 읽어와서 썸네일 이미지와 같은 형태로 디스플레이 출력할 수도 있다. 버퍼가 프로세싱하는 오디오 데이터뿐 아니라 비디오 데이터도 저장할 수 있음은 상술한 바와 같다. 사용자는 제공된 쿼리 용어 후보들로부터 검색을 원하는 쿼리 용어를 선택하여 검색을 개시할 수 있다. 쿼리 용어의 선택은, 리모콘 입력, 음성 입력, 제스처 입력 등 다양한 수단으로 수행될 수 있다.
도 9에서는, 쿼리 용어 후보를 디스플레이 출력하는 실시예를 도시하였으나, 디스플레이 디바이스는 쿼리 용어 후보를 음성으로 출력할 수도 있다.
도 9의 쿼리 용어 후보의 제공은, 도 8의 순서도에서 단계(S8030) 내지 단계(S8050)의 단계들과 함께 수행될 수 있다. 이 경우, 단계(S8030)은 쿼리 워드가 완성된 쿼리 용어를 결정하면서, 쿼리 워드가 있는지 여부를 함께 결정할 수 있다. 쿼리 워드가 획득되지 않거나, 쿼리 워드가 없는 것으로 판단되면, 디스플레이 디바이스는 단계(S8040)에서 적어도 하나의 쿼리 용어 후보를 추출하여, 사용자에게 제공하고, 사용자로터 쿼리 용어를 선택 신호를 수신할 수 있다.
도 8 및 도 9에서 설명한 바와 같이, 사용자가 원하는 검색 대상을 정확히 결정하기 어려운 경우, 디스플레이 디바이스는 쿼리 용어 후보를 사용자에게 제공하고 선택받을 수 있다. 또한, 도 8 및 도 9의 실시예에서 쿼리 용어의 결정 단계(S8040) 및 쿼리 용어를 사용한 스피치 검색 수행 단계(S8050) 사이에서, 디스플레이 디바이스는 결정된 쿼리 용어를 사용자에게 제공하고 컨펌을 요청할 수 있다. 사용자로부터 리모콘 입력이나 음성, 제스처 기타 입력으로 컨펌 입력을 수신하면, 디스플레이 디바이스는 결정된 쿼리 용어로 검색을 수행, 검색 결과를 제공할 수 있다. 사용자가 컨펌하지 않거나, 쿼리 용어가 원하는 대상이 아님을 입력하면, 디스플레이 디바이스는 사용자에게 추가적으로 쿼리 용어 후보들을 제공할 수도 있다.
예를 들면, 도 5 내지 도 9의 실시예에서, 디스플레이 디바이스가 쿼리 워드로 '플'을 인식하고, 쿼리 용어를 '플라이'로 결정할 수 있다. 이 경우 디스플레이 디바이스는 ""플라이"로 검색하시겠습니까?"와 같은 컨펌 요청을 출력할 수 있다. 컨펌 요청은 "예" 및 "아니오"와 같은 창과 함께 출력될 수 있다. 사용자가 "예"를 입력하거나 말하는 등으로 컨펌을 입력하면 디스플레이 디바이스는 "플라이"에 대한 검색을 수행하고 결과를 제공할 수 있다. 사용자가 "아니오"를 입력하거나 소정 시간동안 입력을 하지 않는 등, 컨펌을 하지 않거나 대상이 아님을 입력하면, 디스플레이 디바이스는 컨텍스트 정보를 다시 검토하여 "플라이 아웃"등의 적어도 하나의 쿼리 용어 후보를 제공할 수 있다. 그리고 사용자가 적어도 하나의 쿼리 용어 후보로부터 쿼리 용어를 선택하면, 디스플레이 디바이스는 선택받은 쿼리 용어로 검색을 수행, 결과를 제공할 수 있다.
또는, 컨텍스트 정보로부터 쿼리 워드에 해당하는 복수의 쿼리 용어 후보를 추출하여 제공할 수도 있다. 예를 들면, 상술한 실시예에서, "플라이" 및 "플라이 아웃"을 디스플레이하여 사용자에게 제공하고, 사용자로부터 선택된 쿼리 용어로 검색을 수행할 수도 있다.
즉, 위와 같은 방법으로 디스플레이 디바이스는 쿼리 용어 후보뿐 아니라 결정된 쿼리 용어를 사용자에게 제공하고 컨펌받는 단계를 추가로 수행하여, 사용자가 원하지 않은 용어의 검색 결과를 제공하는 오류를 피할 수 있다.
따라서, 본 발명의 스피치 검색 방법에 따르면 사용자가 시청중인 미디어 데이터에서, 이미 지나간 오디오 및 비디오에 대한 관련 정보를 용이하게 검색할 수 있다. 특히, 사용자가 검색하기를 원하는 대상을 정확하게 인식하지 못한 경우에도, 사용자의 발음 패턴 및 컨텍스트 정보를 사용하여 사용자 및 시청중인 미디어 데이터에 최적화된 검색 결과를 제공할 수 있다.
사용자가 말한 스피치 검색 명령이 불분명한 쿼리 워드를 포함하거나 쿼리 워드가 존재하지 않는 경우에도, 본 발명은 최적화된 검색 결과를 제공할 수 있다. 또한, 불완전한 쿼리 워드나 컨텍스트 정보를 사용하여도 사용자가 원하는 검색 대상의 결정이 어려운 경우, 소정 시간 구간에서의 쿼리 용어 후보를 사용자에게 제안함으로써 사용자가 검색하기를 원하는 대상을 선택하도록 할 수 있다.
1010: 컨텐츠 서버
1020: 검색 엔진
1030: 네트워크
1040: 디스플레이 디바이스

Claims (18)

  1. 디스플레이 디바이스의 스피치 검색 방법에 있어서,
    미디어 데이터를 출력하는 단계;
    스피치 검색 명령을 수신하는 단계;
    상기 스피치 검색 명령으로부터 적어도 하나의 쿼리 워드를 추출하는 단계;
    사용자의 발음 패턴을 기초로 상기 추출된 적어도 하나의 쿼리 워드가 검색 가능하고 완성된 쿼리 용어를 포함하는지를 결정하는 단계;
    상기 적어도 하나의 쿼리 워드가 검색 가능한 완성된 쿼리 용어를 포함하지 않고, 사용자의 발음 패턴이 제 2 패턴인 경우, 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계;
    적어도 하나의 쿼리 워드가 검색 가능하고 완성된 쿼리 용어를 포함하고, 사용자의 발음 패턴이 제 1 패턴인 경우, 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계;
    상기 스피치 검색 결과를 제공하는 단계를 포함하되,
    상기 제 1 패턴은 사용자의 액센트가 명확하고, 사용자의 발음에 웅얼거림이 없음을 의미하고,
    상기 제 2 패턴은 사용자의 액센트가 불명확하고, 사용자의 발음에 웅얼거림이 있음을 의미하는,
    디스플레이 디바이스의 스피치 검색 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계는,
    상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하는 단계;
    상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하는 단계;
    상기 적어도 하나의 쿼리 용어 후보로부터 상기 쿼리 워드와 매칭되는 쿼리 용어를 결정하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
  5. 제 4 항에 있어서,
    상기 적어도 하나의 쿼리 용어 후보로부터 상기 적어도 하나의 쿼리 워드와 매칭되는 쿼리 용어가 결정되지 않는 경우, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
  6. 제 1 항에 있어서,
    상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계는,
    상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하는 단계;
    상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하는 단계;
    상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계;
    사용자의 쿼리 용어 선택 입력을 수신하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
  7. 제 6 항에 있어서,
    상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계는,
    상기 적어도 하나의 쿼리 용어 후보를 시계열적인 순서로 제공하며, 상기 적어도 하나의 쿼리 용어 후보가 출력된 시점의 이미지를 함께 제공하는, 디스플레이 디바이스의 스피치 검색 방법.
  8. 삭제
  9. 제 1 항에 있어서,
    상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계는,
    상기 결정된 쿼리 용어에 대한 컨펌 요청을 사용자에게 제공하는 단계;
    상기 쿼리 용어에 대한 컨펌을 수신한 경우, 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계를 더 포함하는,디스플레이 디바이스의 스피치 검색 방법.
  10. 미디어 데이터플 프로세싱하는 미디어 데이터 프로세싱 모듈;
    상기 프로세싱된 미디어 데이터를 아웃풋하는 미디어 데이터 아웃풋 유닛;
    스피치 검색 명령을 수신하는 오디오 인풋 유닛;
    상기 스피치 검색 명령을 처리하여 쿼리 용어를 결정하고, 결정된 쿼리 용어로 스피치 검색을 수행하는 스피치 검색 모듈을 포함하는 디스플레이 디바이스로서,
    상기 디스플레이 디바이스는,
    상기 스피치 검색 명령으로부터 적어도 하나의 쿼리 워드를 추출하고,
    사용자의 발음 패턴을 기초로 상기 추출된 적어도 하나의 쿼리 워드가 검색 가능하고 완성된 쿼리 용어를 포함하는지를 결정하고,
    상기 적어도 하나의 쿼리 워드가 검색 가능한 쿼리 용어를 포함하지 않고, 사용자의 발음 패턴이 제 2 패턴인 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하고,
    상기 적어도 하나의 쿼리 워드가 검색 가능하고 완성된 쿼리 용어를 포함하고, 사용자의 발음 패턴이 제 1 패턴인 경우, 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는,
    디스플레이 디바이스.
  11. 삭제
  12. 삭제
  13. 제 10 항에 있어서,
    상기 프로세싱되는 미디어 데이터를 저장하는 버퍼를 더 포함하며,
    상기 디스플레이 디바이스는,
    상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하고, 상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하고, 상기 적어도 하나의 쿼리 용어 후보로부터 상기 쿼리 워드와 매칭되는 쿼리 용어를 결정하는, 디스플레이 디바이스.
  14. 제 13 항에 있어서,
    상기 디스플레이 디바이스는,
    상기 적어도 하나의 쿼리 용어 후보로부터 상기 적어도 하나의 쿼리 워드와 매칭되는 쿼리 용어가 결정되지 않는 경우, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는, 디스플레이 디바이스.
  15. 제 10 항에 있어서,
    상기 디스플레이 디바이스는,
    상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하고, 상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하고, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하여, 사용자의 쿼리 용어 선택 입력을 수신하는, 디스플레이 디바이스.
  16. 제 15 항에 있어서,
    상기 디스플레이 디바이스는,
    상기 적어도 하나의 쿼리 후보를 시계열적인 순서로 제공하며, 상기 적어도 하나의 쿼리 용어 후보가 출력된 시점의 이미지를 함께 제공하는, 디스플레이 디바이스.
  17. 삭제
  18. 제 10 항에 있어서,
    상기 디스플레이 디바이스는,
    상기 결정된 쿼리 용어에 대한 컨펌 요청을 사용자에게 제공하고, 상기 쿼리 용어에 대한 컨펌을 수신한 경우 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는, 디스플레이 디바이스.
KR1020120095034A 2012-08-29 2012-08-29 디스플레이 디바이스 및 스피치 검색 방법 KR102081925B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020120095034A KR102081925B1 (ko) 2012-08-29 2012-08-29 디스플레이 디바이스 및 스피치 검색 방법
US13/761,102 US8521531B1 (en) 2012-08-29 2013-02-06 Displaying additional data about outputted media data by a display device for a speech search command
US13/953,313 US9547716B2 (en) 2012-08-29 2013-07-29 Displaying additional data about outputted media data by a display device for a speech search command
PCT/KR2013/006765 WO2014035061A1 (en) 2012-08-29 2013-07-29 Display device and speech search method
EP13833521.1A EP2891084A4 (en) 2012-08-29 2013-07-29 DISPLAY DEVICE AND LANGUAGE SEARCH METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120095034A KR102081925B1 (ko) 2012-08-29 2012-08-29 디스플레이 디바이스 및 스피치 검색 방법

Publications (2)

Publication Number Publication Date
KR20140028540A KR20140028540A (ko) 2014-03-10
KR102081925B1 true KR102081925B1 (ko) 2020-02-26

Family

ID=48999837

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120095034A KR102081925B1 (ko) 2012-08-29 2012-08-29 디스플레이 디바이스 및 스피치 검색 방법

Country Status (4)

Country Link
US (2) US8521531B1 (ko)
EP (1) EP2891084A4 (ko)
KR (1) KR102081925B1 (ko)
WO (1) WO2014035061A1 (ko)

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102081925B1 (ko) * 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
JP6064629B2 (ja) * 2013-01-30 2017-01-25 富士通株式会社 音声入出力データベース検索方法、プログラム、及び装置
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10719591B1 (en) * 2013-03-15 2020-07-21 Google Llc Authentication of audio-based input signals
JP6335437B2 (ja) * 2013-04-26 2018-05-30 キヤノン株式会社 通信装置、通信方法およびプログラム
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
WO2016032021A1 (ko) * 2014-08-27 2016-03-03 삼성전자주식회사 음성 명령 인식을 위한 장치 및 방법
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
KR102348084B1 (ko) * 2014-09-16 2022-01-10 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9830321B2 (en) 2014-09-30 2017-11-28 Rovi Guides, Inc. Systems and methods for searching for a media asset
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10134386B2 (en) * 2015-07-21 2018-11-20 Rovi Guides, Inc. Systems and methods for identifying content corresponding to a language spoken in a household
WO2017019929A1 (en) * 2015-07-29 2017-02-02 Simplifeye, Inc. System and method for facilitating access to a database
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
KR102453603B1 (ko) * 2015-11-10 2022-10-12 삼성전자주식회사 전자 장치 및 그 제어 방법
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10915234B2 (en) * 2016-06-01 2021-02-09 Motorola Mobility Llc Responsive, visual presentation of informational briefs on user requested topics
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
KR102403149B1 (ko) * 2016-07-21 2022-05-30 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10957321B2 (en) 2016-07-21 2021-03-23 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) * 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP2018054850A (ja) * 2016-09-28 2018-04-05 株式会社東芝 情報処理システム、情報処理装置、情報処理方法、及びプログラム
KR102562287B1 (ko) * 2016-10-14 2023-08-02 삼성전자주식회사 전자 장치 및 전자 장치의 오디오 신호 처리 방법
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
JP6697373B2 (ja) * 2016-12-06 2020-05-20 カシオ計算機株式会社 文生成装置、文生成方法及びプログラム
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10558421B2 (en) * 2017-05-22 2020-02-11 International Business Machines Corporation Context based identification of non-relevant verbal communications
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
KR102353486B1 (ko) * 2017-07-18 2022-01-20 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10602234B2 (en) * 2018-07-12 2020-03-24 Rovi Guides, Inc. Systems and methods for gamification of real-time instructional commentating
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10878013B1 (en) * 2018-11-26 2020-12-29 CSC Holdings, LLC Bi-directional voice enabled system for CPE devices
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10965976B2 (en) 2019-03-29 2021-03-30 Spotify Ab Systems and methods for delivering relevant media content by inferring past media content consumption
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113365100B (zh) * 2021-06-02 2022-11-22 中国邮政储蓄银行股份有限公司 视频处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0794670B1 (en) 1996-03-07 2002-06-19 International Business Machines Corporation Context-based recognition system for interactive tv and telephony
US20070033005A1 (en) * 2005-08-05 2007-02-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP2011199698A (ja) 2010-03-23 2011-10-06 Yamaha Corp Av機器

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831204B1 (en) * 1981-11-03 2010-11-09 Personalized Media Communications, Llc Signal processing apparatus and methods
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
DE4442999A1 (de) 1994-12-02 1996-06-05 Hexal Pharma Gmbh Pharmazeutische Zusammensetzung mit einem aktiven Loratidin-Metaboliten
US6480819B1 (en) * 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US6941268B2 (en) * 2001-06-21 2005-09-06 Tellme Networks, Inc. Handling of speech recognition in a declarative markup language
US7950033B2 (en) * 2001-10-10 2011-05-24 Opentv, Inc. Utilization of relational metadata in a television system
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7467398B2 (en) * 2002-03-21 2008-12-16 International Business Machines Corproation Apparatus and method of searching for desired television content
US20040078814A1 (en) * 2002-03-29 2004-04-22 Digeo, Inc. Module-based interactive television ticker
JP4378284B2 (ja) * 2002-09-27 2009-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション ワールド・ワイド・ウェブからの情報を使用してライブ・スピーチの機能を拡張するためのシステムおよび方法
US20040210443A1 (en) * 2003-04-17 2004-10-21 Roland Kuhn Interactive mechanism for retrieving information from audio and multimedia files containing speech
US20060041926A1 (en) * 2004-04-30 2006-02-23 Vulcan Inc. Voice control of multimedia content
JP2006201749A (ja) * 2004-12-21 2006-08-03 Matsushita Electric Ind Co Ltd 音声による選択装置、及び選択方法
US9116989B1 (en) * 2005-08-19 2015-08-25 At&T Intellectual Property Ii, L.P. System and method for using speech for data searching during presentations
JP2007081768A (ja) * 2005-09-14 2007-03-29 Fujitsu Ten Ltd マルチメディア装置
SG133419A1 (en) * 2005-12-12 2007-07-30 Creative Tech Ltd A method and apparatus for accessing a digital file from a collection of digital files
US8209724B2 (en) * 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US20070225970A1 (en) * 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
KR100807745B1 (ko) * 2006-03-23 2008-02-28 (주)비욘위즈 Epg정보 제공 방법 및 시스템
US20080059522A1 (en) * 2006-08-29 2008-03-06 International Business Machines Corporation System and method for automatically creating personal profiles for video characters
US7272558B1 (en) 2006-12-01 2007-09-18 Coveo Solutions Inc. Speech recognition training method for audio and video file indexing on a search engine
JP5029030B2 (ja) * 2007-01-22 2012-09-19 富士通株式会社 情報付与プログラム、情報付与装置、および情報付与方法
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US20080270110A1 (en) 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
US8311828B2 (en) * 2007-08-28 2012-11-13 Nexidia Inc. Keyword spotting using a phoneme-sequence index
US8904442B2 (en) * 2007-09-06 2014-12-02 At&T Intellectual Property I, Lp Method and system for information querying
US20090150159A1 (en) * 2007-12-06 2009-06-11 Sony Ericsson Mobile Communications Ab Voice Searching for Media Files
US8019604B2 (en) * 2007-12-21 2011-09-13 Motorola Mobility, Inc. Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
US8312022B2 (en) * 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8832135B2 (en) * 2008-05-02 2014-09-09 Verint Systems, Ltd. Method and system for database query term suggestion
US8296141B2 (en) * 2008-11-19 2012-10-23 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US8108214B2 (en) * 2008-11-19 2012-01-31 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems
US8510317B2 (en) * 2008-12-04 2013-08-13 At&T Intellectual Property I, L.P. Providing search results based on keyword detection in media content
US20100274667A1 (en) * 2009-04-24 2010-10-28 Nexidia Inc. Multimedia access
US8489774B2 (en) * 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US8707381B2 (en) * 2009-09-22 2014-04-22 Caption Colorado L.L.C. Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
KR20110103626A (ko) * 2010-03-15 2011-09-21 삼성전자주식회사 휴대용 단말기에서 멀티미디어 데이터에 대한 태그 정보를 제공하기 위한 장치 및 방법
US8660355B2 (en) 2010-03-19 2014-02-25 Digimarc Corporation Methods and systems for determining image processing operations relevant to particular imagery
US20130073534A1 (en) * 2010-03-24 2013-03-21 Alex French Method of searching recorded media content
KR101009973B1 (ko) * 2010-04-07 2011-01-21 김덕훈 미디어 컨텐츠 제공 방법, 그리고 그를 위한 장치
WO2011160741A1 (en) * 2010-06-23 2011-12-29 Telefonica, S.A. A method for indexing multimedia information
US8918803B2 (en) * 2010-06-25 2014-12-23 At&T Intellectual Property I, Lp System and method for automatic identification of key phrases during a multimedia broadcast
US20120215533A1 (en) * 2011-01-26 2012-08-23 Veveo, Inc. Method of and System for Error Correction in Multiple Input Modality Search Engines
US20130007043A1 (en) * 2011-06-30 2013-01-03 Phillips Michael E Voice description of time-based media for indexing and searching
JP5922255B2 (ja) * 2011-12-28 2016-05-24 インテル コーポレイション データストリームのリアルタイム自然言語処理
KR102081925B1 (ko) * 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
US9734151B2 (en) * 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0794670B1 (en) 1996-03-07 2002-06-19 International Business Machines Corporation Context-based recognition system for interactive tv and telephony
US20070033005A1 (en) * 2005-08-05 2007-02-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP2011199698A (ja) 2010-03-23 2011-10-06 Yamaha Corp Av機器

Also Published As

Publication number Publication date
EP2891084A4 (en) 2016-05-25
US8521531B1 (en) 2013-08-27
US9547716B2 (en) 2017-01-17
KR20140028540A (ko) 2014-03-10
US20140067402A1 (en) 2014-03-06
WO2014035061A1 (en) 2014-03-06
EP2891084A1 (en) 2015-07-08

Similar Documents

Publication Publication Date Title
KR102081925B1 (ko) 디스플레이 디바이스 및 스피치 검색 방법
EP3251115B1 (en) Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
KR102241972B1 (ko) 환경 콘텍스트를 이용한 질문 답변
JP5042799B2 (ja) 音声チャットシステム、情報処理装置およびプログラム
US20070174326A1 (en) Application of metadata to digital media
US20130325462A1 (en) Automatic tag extraction from audio annotated photos
JP6244560B2 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
US11881209B2 (en) Electronic device and control method
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
JP7116088B2 (ja) 音声情報処理方法、装置、プログラム及び記録媒体
US10043069B1 (en) Item recognition using context data
US20230108256A1 (en) Conversational artificial intelligence system in a virtual reality space
CN110989847A (zh) 信息推荐方法、装置、终端设备及存储介质
US20140136196A1 (en) System and method for posting message by audio signal
CN118215913A (zh) 用于提供与查询语句相关的搜索结果的电子设备和方法
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
KR102496617B1 (ko) 영상 표시 장치 및 영상 표시 방법
CN110890095A (zh) 语音检测方法、推荐方法、装置、存储介质和电子设备
KR20210027991A (ko) 전자장치 및 그 제어방법
WO2003102816A1 (fr) Systeme fournisseur de donnees
JPWO2013035670A1 (ja) 物体検索システムおよび物体検索方法
JP2017211430A (ja) 情報処理装置および情報処理方法
KR20240034189A (ko) 시맨틱적으로 증강된 컨텍스트 표현 생성
KR102113236B1 (ko) 개인 검색 패턴 가이드 제공 장치 및 방법
US20230360648A1 (en) Electronic device and method for controlling electronic device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant