KR20140028540A

KR20140028540A - 디스플레이 디바이스 및 스피치 검색 방법

Info

Publication number: KR20140028540A
Application number: KR20120095034A
Authority: KR
Inventors: 김용신
Original assignee: 엘지전자 주식회사
Priority date: 2012-08-29
Filing date: 2012-08-29
Publication date: 2014-03-10
Also published as: US20140067402A1; US9547716B2; EP2891084A4; US8521531B1; WO2014035061A1; EP2891084A1; KR102081925B1

Abstract

본 발명에 따른 디스플레이 디바이스의 스피치 검색 방법은, 미디어 데이터를 출력하는 단계; 스피치 검색 명령을 수신하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계; 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계; 상기 스피치 검색 결과를 제공하는 단계를 포함한다.

Description

디스플레이 디바이스 및 스피치 검색 방법{display device and speech search method thereof}

본 발명은 디스플레이 디바이스에 대한 것으로, 특히 디스플레이 장치의 스피치 검색 방법에 대한 것이다.

네트워크 기술을 발전으로 인해, 사용자는 다양한 정보를 손쉽게 검색할 수 있게 되었다. 특히, 사용자는 디지털 컨텐츠를 시청하면서 시청중인 컨텐츠에 대한 정보를 검색할 수 있다. 사용자는 컨텐츠에 대한 정보로서 컨텐츠 자체에 대한 정보뿐 아니라, 시청중인 컨텐츠의 부분 또는 컨텐츠의 오브젝트에 대한 정보를 검색할 수도 있다.

컨텐츠에 대한 정보의 검색은 다양한 방법으로 수행될 수 있다. 종래의 경우, 사용자는 키보드와 같은 별도의 입력 수단으로 원하는 검색 용어를 입력하였다. 그러나 최근 음성(voice) 인식 기술의 발전으로 인해, 사용자는 음성로 디바이스에 다양한 명령을 입력하여, 디바이스를 제어할 수 있게 되었다. 따라서 사용자는 스피치로 시청 중인 컨텐츠에 대한 정보를 검색할 수도 있다.

본 발명은, 사용자가 스피치 검색을 사용하여 더욱 편리하고 더욱 정확하게 원하는 정보를 획득할 수 있는 방법을 제공하고자 한다. 특히, 본 발명에 따르면 사용자가 검색 대상을 정확하게 인식하지 못한 경우에도, 사용자의 스피치 검색 명령 및 시청중인 미디어 데이터에 대한 컨텍스트 정보를 사용하여 사용자의 의도에 맞는 검색 결과를 제공할 수 있다.

전술한 기술적 과제를 해결하기 위하여, 본 발명의 디스플레이 디바이스의 스피치 검색 방법은, 미디어 데이터를 출력하는 단계; 스피치 검색 명령을 수신하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계; 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계; 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계; 상기 스피치 검색 결과를 제공하는 단계를 포함한다.

또한, 본 발명의 디스플레이 디바이스는, 미디어 데이터플 프로세싱하는 미디어 데이터 프로세싱 모듈; 상기 프로세싱된 미디어 데이터를 아웃풋하는 미디어 데이터 아웃풋 유닛; 스피치 검색 명령을 수신하는 오디오 인풋 유닛; 상기 스피치 검색 명령을 처리하여 쿼리 용어를 결정하고, 결정된 쿼리 용어로 스피치 검색을 수행하는 스피치 검색 모듈을 포함하며, 특히, 상기 디스플레이 디바이스는, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지 결정하고, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하고, 상기 결정된 쿼리 용어를 사용하여 스피치 검색을 수행한다.

본 발명에 따르면, 사용자의 스피치 검색 명령을 더욱 정확히 처리하여 사용자의 의도에 맞는 검색 결과를 제공할 수 있다.

특히, 사용자가 검색 대상을 정확히 인식하지 못하여 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 사용자가 부분적으로 인식한 단어를 통해 검색을 원하는 용어를 판단하고, 판단된 용어로 검색을 수행할 수 있다.

또한, 본 발명에 따르면, 사용자가 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 사용자가 시청중인 미디어 데이터에 대한 컨텍스트 정보를 사용, 검색 대상이 되는 용어를 결정할 수 있다.

또한, 본 발명에 따르면, 사용자가 정확한 용어를 사용하여 검색 명령을 하지 못한 경우에도, 컨텍스트 정보를 사용하여 사용자가 검색하고자 하는 대상의 용어 후보들을 제공하여, 사용자가 원하는 검색을 정확히 수행할 수 있도록 한다.

도 1은 본 발명의 일 실시예에 따른 네트워크의 개념도이다.
도 2는 본 발명의 일 실시예에 따른 디스플레이 디바이스를 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 5는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.
도 6은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 7은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 논리적 구성도를 나타낸 도면이다.
도 8은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.
도 9는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

본 발명은 스피치 검색을 수행하여 검색 결과를 사용자에게 제공하는 디스플레이 디바이스에 대한 것이다. 스피치 검색이란, 사용자의 음성 명령을 인식하여, 음성 명령에 해당하는 검색을 수행하는 기술을 의미한다. 스피치 검색은 음성 인식 또는 스피치 인식 기술을 사용한다. 본 발명에서 사용하는 음성 인식 기술은 자연어 처리 기술을 포함한다. 자연어 처리란, 일상 생활 언어를 형태 분석, 의미 분석, 대화 분석 등을 통해 디바이스가 처리할 수 있도록 변환시키는 작업을 의미한다. 다시 말하면, 디바이스가 인식할 수 있는 기설정된 키워드가 아닌, 사용자의 자연스러운 대화를 처리하여 사용자의 의도에 해당하는 동작을 수행하는 방법을 의미한다.

본 발명에서 디스플레이 디바이스는, 디지털 미디어 데이터 또는 디지털 컨텐츠를 처리하여 출력할 수 있는 다양한 디바이스를 의미한다. 디지털 컨텐츠는, 텍스트 데이터, 오디오 데이터, 비디오 데이터 중 적어도 하나를 포함한다. 실시예로서, 디스플레이 디바이스는 TV, 셋탑 박스, 핸드폰, PDA(Personal Digital Assistants), 컴퓨터, 노트북, 태블릿 피씨 등의 다양한 전자 디바이스에 해당될 수 있다. 다시 말하면, 디스플레이 디바이스는 디지털 컨텐츠를 처리하여 사용자에게 제공할 수 있는 다양한 전자 디바이스를 의미하며, 이하에서 디바이스로 약칭할 수도 있다. 이하에서, 디지털 컨텐트 및 컨텐트는 이하에서 미디어 데이터로 지칭될 수 있다.

도 1은 본 발명의 일 실시예에 따른 네트워크의 개념도이다.

디스플레이 디바이스들(1040)은 네트워크(1030)에 연결된다. 네트워크(1030)는 케이블, 무선 통신, 광 통신, IP 네트워크 등 다양한 통신 프로토콜을 사용하여 데이터를 송수신할 수 있는 네트워크를 나타낸다. 디스플레이 디바이스(1040)는 네트워크(1030)를 통해 컨텐츠 서버(1010)로부터 컨텐츠를 수신할 수 있다. 컨텐츠 서버(1010)는 디지털 컨텐츠를 제공하는 컨텐츠 프로바이더로서, 네트워크 구성에 따라 디스플레이 디바이스(1040)도 컨텐츠 서버(1010)가 될 수 있다.

디스플레이 디바이스(1040)는 컨텐츠 서버(1010)로부터 수신한 컨텐츠를 처리하여 사용자에게 제공할 수 있다. 디스플레이 디바이스(1040)가 컨텐츠를 제공한다는 의미는, 수신한 컨텐츠 데이터를 프로세싱하여 컨텐츠를 디스플레이 또는 오디오 출력한다는 의미이다. 그리고 디스플레이 디바이스(1040)는 사용자로부터 검색 명령을 수신하여, 검색 용어를 검색 엔진(1020)으로 전송하고, 검색 엔진(1020)으로부터 검색 결과를 수신하여 사용자에게 제공할 수 있다.

이하에서 검색의 대상이 되는 적어도 하나의 단어를 쿼리 용어로 지칭할 수 있다. 쿼리 용어는, 검색 엔진을 사용하여 검색하게 되는 대상으로서, 적어도 하나의 단어를 포함할 수 있다. 디스플레이 디바이스(1040)는 쿼리 용어를 사용하여 디스플레이 디바이스(1040)가 포함하는 데이터 베이스로부터 검색을 수행하거나, 쿼리 용어를 검색 엔진(1020)로 전송하고, 검색 결과를 수신할 수도 있다. 그리고, 쿼리 용어가 포함하는 적어도 하나의 단어를 쿼리 워드라고 지칭할 수 있다. 쿼리 용어가 복수의 단어를 포함하는 경우, 각각의 단어들을 쿼리 워드로 지칭할 수 있다. 쿼리 용어가 하나의 단어를 포함하는 경우, 쿼리 워드가 곧 쿼리 용어가 될 수 있다. 다만, 이하에서 쿼리 워드는 사용자가 스피치 검색 명령을 말하면서 검색 대상을 지칭하는 단어를 의미한다. 다시 말하면, 불완전하거나 불분명한 단어를 사용자가 말할 수 있으며, 이러한 단어를 디스플레이 디바이스는 쿼리 워드로 인식할 수 있다. 이에 대해서는, 이하에서 예를 들면서 상세히 설명하도록 하겠다.

도 2는 본 발명의 일 실시예에 따른 디스플레이 디바이스를 나타낸 블록도이다.

도 2는, 도 1에서 도시한 디스플레이 디바이스(1040)를 나타내며, 디스플레이 디바이스는 스토리지 유닛(2010), 커뮤니케이션 유닛(2020), 센서 유닛(2030), 오디오 인풋/아웃풋 유닛(2040), 카메라 유닛(2050), 디스플레이 유닛(2060), 파워 유닛(21070), 프로세서(2080), 및 컨트롤러(2090)를 포함한다. 도 2의 디스플레이 디바이스는 예시적인 것으로, 도 2에 도시한 유닛들이 모두 구비되어야 하는 것은 아니다. 디스플레이 디바이스의 본 발명의 실시예에 따른 동작에 필요한 구조도는 이하에서 다시 설명하도록 할 것이다.

스토리지 유닛(2010)은 비디오, 오디오, 사진, 동영상, 애플리케이션 등 다양한 디지털 데이터를 저장할 수 있다. 스토리지 유닛(2010)은 플래시 메모리, HDD(Hard Disk Drive), SSD(Solid State Drive) 등의 다양한 디지털 데이터 저장 공간을 나타낸다. 이하에서, 데이터를 처리함에 필요한 버퍼 또한 스토리지 유닛(2010)에 포함될 수 있다. 또한, 스토리지 유닛(2010)은 정보 검색을 위한 데이터 베이스를 저장하고 있을 수도 있다.

커뮤니케이션 유닛(2020)은 디스플레이 디바이스 외부와 다양한 프로토콜을 사용하여 통신을 수행, 데이터를 송신/수신할 수 있다. 커뮤니케이션 유닛(2020)은 유선 또는 무선으로 외부 네트워크에 접속하여, 디지털 테이터를 송신/수신할 수 있다. 본 발명에서 디스플레이 디바이스는 커뮤니케이션 유닛(2020)을 사용하여 미디어 데이터를 수신하거나, 검색 쿼리를 전송하고 쿼리에 대한 검색 결과를 수신할 수 있다.

센서 유닛(2030)은 디스플레이 디바이스에 장착된 복수의 센서를 사용하여 사용자의 인풋 또는 디바이스의 환경을 인식하여 컨트롤러(2090)로 전달할 수 있다. 센서 유닛(2030)은 복수의 센싱 수단을 포함할 수 있다. 일 실시예로서, 복수의 센싱 수단은 중력(gravity) 센서, 지자기 센서, 모션 센서, 자이로 센서, 가속도 센서, 기울임(inclication) 센서, 밝기 센서, 고도 센서, 후각 센서, 온도 센서, 뎁스 센서, 압력 센서, 밴딩 센서, 오디오 센서, 비디오 센서, GPS(Global Positioning System) 센서, 터치 센서 등의 센싱 수단을 포함할 수 있다. 센서 유닛(2030)은 상술한 다양한 센싱 수단을 통칭하는 것으로, 사용자의 다양한 입력 및 사용자의 환경을 센싱하여, 디바이스가 그에 따른 동작을 수행할 수 있도록 센싱 결과를 전달할 수 있다. 상술한 센서들은 별도의 엘러먼트로 디바이스에 포함되거나, 적어도 하나 이상의 엘러먼트로 통합되어 포함될 수 있다. 센서 유닛(2030)은 실시예에 따라 선택적으로 구비될 수 있다.

오디오 인풋/아웃풋 유닛(2040)은 스피커 등의 오디오 출력 수단 및 마이크 등의 오디오 입력 수단을 포함하며, 디바이스의 오디오 출력 및 디바이스로의 오디오 입력을 수행할 수 있다. 오디오 인풋/아웃풋 유닛(2040)은 오디오 센서로 사용될 수도 있다. 다만 본 발명의 실시예에 따라, 디스플레이 디바이스가 스피커 또는 마이크를 포함하지 않는 경우(예를 들면, 셋탑 박스 등), 오디오 인풋/아웃풋 유닛(2040)은 오디오 데이터를 처리하여 외부로 디스플레이 장치로 전송하거나, 오디오 데이터를 수신하여 처리할 수도 있다. 오디오 인풋 유닛 및 오디오 아웃풋 유닛이 별도로 구비될 수도 있으며, 이러한 실시예에 대해서는 이하에서 상술하도록 한다.

카메라 유닛(2050)은 사진 및 동영상 촬영을 수행할 수 있으며, 실시예에 따라서 선택적으로 구비될 수 있다. 카메라 유닛(2050)은 상술한 모션 센서 또는 비주얼 센서로 사용될 수도 있다.

디스플레이 유닛(2060)은 디스플레이 화면에 이미지를 출력할 수 있다. 디스플레이 유닛(2060)은, 디스플레이가 터치 센서티브 디스플레이인 경우, 상술한 터치 센서로 사용될 수 있으며, 디스플레이 또는 디바이스가 플렉서블한 경우, 밴딩 센서로서 사용될 수도 있다. 다만 본 발명의 실시예에 따라, 디스플레이 디바이스가 디스플레이 패널 또는 스크린을 포함하지 않는 경우(예를 들면, 셋탑 박스 및 컴퓨터 등), 디스플레이 유닛은 디스플레이 데이터를 처리하여 외부 디스플레이 장치(모니터 등)로 전송할 수도 있다. 디스플레이 유닛(2060)은 이하에서 비디오 아웃풋 유닛으로 지칭할 수도 있다.

파워 유닛(2070)은 디바이스 내부의 배터리 또는 외부 전원과 연결되는 파워 소스로, 디바이스에 파워를 공급할 수 있다.

프로세서(2080)는 스토리지 유닛(1010)에 저장된 다양한 애플리케이션을 실행하고, 디바이스 내부의 데이터를 프로세싱할 수 있다.

컨트롤러(2090)는 상술한 디바이스의 유닛들을 제어하며, 유닛들 간의 데이터 송수신 및 각각의 동작을 매니징할 수도 있다.

프로세서(2080) 및 컨트롤러(2090)는 하나의 칩으로 구비되어, 상술한 각각의 동작을 함께 수행할 수 있다. 이러한 경우, 이하에서는 이를 컨트롤 유닛(2100)으로 지칭할 수 있다. 본 발명의 스피치 검색 방법은 컨트롤 유닛(2010)에 의해 수행될 수 있으며, 실시예에 따라 컨트롤 유닛(2010)에서 구동되는 모듈들에 의해 수행될 수 있으며, 이에 대하여는 이하에서 상술하도록 한다.

도 2은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 블록도로서, 분리하여 표시된 블록들은 디바이스의 엘러먼트들을 논리적으로 구별하여 도시한 것이다. 따라서 상술한 디바이스의 엘러먼트들은 디바이스의 설계에 따라 하나의 칩으로 또는 복수의 칩으로 장착될 수도 있다.

이하에서, 스피치 검색 방법은 도 2의 컨트롤 유닛(2100)에서 수행될 수 있으며, 실시예에 따라 스토리지 유닛(2010)에 저장되고 컨트롤러 유닛(2100)에 의해 구동되는 애플리케이션에 의해 실행될 수도 있다. 이러한 스피치 검색을 수행하는 컨트롤 유닛(2100)의 동작과 관련하여는, 이하에서 추가로 설명하도록 한다. 또한, 이하의 실시예들에서, 디스플레이 디바이스는 설명의 편의를 위하여 TV를 예로서 설명하나, 상술한 바와 같이 디스플레이 디바이스가 TV로 한정되지 않음은 당업자에게 자명한 것이다.

도 3은 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.

일 실시예로서, 디스플레이 디바이스(3010)는 미디어 데이터로서 야구 컨텐트를 출력할 수 있다. 야구 컨텐트는, 실시간으로 수신하는 방송 컨텐트이거나, 디스플레이 디바이스(3010)의 스토리지 유닛에 기저장된 컨텐트일 수도 있다. 디스플레이 디바이스가 출력하는 컨텐트 즉 미디어 데이터는 비디오 데이터와 오디오 데이터를 포함할 수 있다. 디스플레이 디바이스(3010)는 디스플레이 스크린을 통해 비디오 데이터를 출력하고, 스피커를 통해 오디오 데이터를 출력할 수 있다.

디스플레이 디바이스(3010)를 통해 야구 컨텐트를 시청중인 사용자는, 음성으로 컨텐트에 관련된 정보를 검색할 수 있다. 예를 들면, 화면에 디스플레이되는 이미지에서, 선수의 정보를 검색하거나, 음성 중계에서 모르는 용어에 대한 정보를 검색할 수 있다. 도 3에서와 같이, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 말이 나온 경우, 사용자는 "플라이 아웃"이 무엇인지를 검색하고 싶을 수 있다. 이 경우, 본 발명에서 사용자는 음성 명령으로 플라이 아웃의 의미를 검색할 수 있다. 특히, 자연어 처리를 사용하여 "플라이 아웃이 뭐지?"와 같이 일상 생활에서 질문하는 방법으로 스피치 검색 기능을 호출하여 검색을 개시할 수 있다.

도 4는 본 발명의 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.

도 4는 도 3에서 설명한 스피치 검색 방법을 좀 더 상세히 설명하는 순서도이다.

디스플레이 디바이스는 미디어 데이터를 출력할 수 있다(S4010). 상술한 바와 같이, 미디어 컨텐츠는 비디오 데이터, 오디오 데이터를 포함하며, 컨텐츠에 따라 텍스트 데이터 또한 포함할 수도 있다.

디스플레이 디바이스는 스피치 검색 명령을 수신할 수 있다(S4020). 스피치 검색 명령은, 기설정된 명령어를 사용할 수도 있으며, 자연어 처리 기술을 사용하여 일상 대화와 같은 자연스러운 명령이 될 수도 있다. 도 3의 실시예에서, "플라이 아웃이 뭐지?"가 스피치 검색 명령에 해당한다. 디스플레이 디바이스는, 음성 인식 기술을 사용하여 마이크를 통해 수신하는 사용자의 음성 중 스피치 검색 명령을 인식할 수 있다.

디스플레이 디바이스는 스피치 검색 명령으로부터 쿼리 용어를 추출할 수 있다(S4030). 디스플레이 디바이스가 사용자의 음성 중 스피치 검색 명령을 인식하면, 스피치 검색 명령으로부터 검색의 대상이 되는 쿼리 용어(query term)을 추출할 수 있다. 도 3의 실시예에서, "플라이 아웃이 뭐지?"라는 스피치 검색 명령에서, 쿼리 용어는 "플라이 아웃"이 된다. 디스플레이 디바이스는, "플라이 아웃이 뭐지?"라는 사용자의 음성을 스피치 검색 명령으로 인식하고, 인식된 스피치 검색 명령으로부터 검색을 수행할 쿼리 용어인 "플라이 아웃"을 추출할 수 있다.

이하에서, 스피치 검색 명령에 포함되는 단어들을 쿼리 워드라고 지칭할 수 있다. 도 3 및 도 4의 실시예에서, '플라이' 및 '아웃' 각각이 쿼리 워드에 해당한다. 디스플레이 디바이스는 쿼리 워드에 대하여 검색을 수행할 수도 있으나, 사용자가 원하는 검색어는 쿼리 워드 각각이 아닌 쿼리 워드의 조합 즉 쿼리 용어가 될 수 있다. 디스플레이 디바이스는 음성 인식 기술 및 자연어 처리 기술을 통해 쿼리 용어를 추출할 수 있으며, 이 경우 쿼리 용어의 추출은 쿼리 워드가 하나인 경우 쿼리 워드의 추출이 되며, 쿼리 워드가 복수인 경우 쿼리 워드의 조합인 쿼리 용어의 추출이 될 수도 있다. 쿼리 워드의 추출은, 미디어 데이터에 대한 컨텍스트 정보를 참조하여 수행될 수도 있다. 도 3 및 도 4의 실시예에서, 디스플레이 디바이스는 사용자가 야구 컨텐트를 시청하고 있으므로, 사용자가 검색을 원하는 용어는 '플라이' 또는 '아웃'보다는 야구 용어인 '플라이 아웃'인 것으로 판단할 수 있다.

디스플레이 디바이스는 추출된 쿼리 용어를 사용하여 검색을 수행할 수 있다(S4040). 디스플레이 디바이스는 디스플레이 디바이스 자체에 내장된 검색 엔진을 사용하여 쿼리 용어에 관련된 정보를 검색하거나, 쿼리 용어를 네트워크를 통해 검색 기능을 제공하는 외부 검색 엔진으로 전송하고, 검색 결과를 수신할 수도 있다. 쿼리 용어에 대한 검색 및 검색 결과는 용어에 대한 정의를 포함하여, 사용자가 시청중인 컨텐트와 관련된 다양한 데이터를 포함할 수 있다.

디스플레이 디바이스는 검색 결과를 사용자에게 제공할 수 있다(S4050). 검색 결과는 다양한 방법으로 제공될 수 있다. 예를 들면, 디스플레이 디바이스는 검색 결과를 음성으로 제공하거나, 디스플레이 출력으로 제공할 수도 있다. 다시 하면, 디스플레이 디바이스는 검색 결과를 음성으로 사용자에게 출력하거나, 디스플레이 화면에 자막과 같은 형태로 제공할 수도 있다.

다만, 도 3 및 도 4에서 설명한 실시예의 경우는 스피치 검색 명령이 완성된(complete) 쿼리 용어를 포함해야 한다. 즉, 쿼리 용어가 미완성이거나 모호한(ambiguous) 경우에는 검색을 위한 쿼리 용어를 추출할 수 없게 된다. 이에 대하여는 이하에서 상술하도록 한다. 이하에서, 도 3 및 도 4에서 설명한 바와 동일한 기술적 내용에 대하여는 중복하여 설명하지 않도록 한다.

도 5는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.

도 3에서와 같이 디스플레이 디바이스(5010)는 컨텐트로서 야구 컨텐트를 출력한다. 야구 컨텐트는, 실시간으로 수신하는 방송 컨텐트이거나, 디스플레이 디바이스(5010)의 스토리지 유닛에 기저장된 컨텐트일 수도 있다. 디스플레이 디바이스가 출력하는 컨텐트는 비디오 데이터와 오디오 데이터를 포함한다. 디스플레이 디바이스(5010)는 디스플레이 스크린을 통해 비디오 데이터를 출력하고, 스피커를 통해 오디오 데이터를 출력할 수 있다.

디스플레이 디바이스(5010)를 통해 야구 컨텐트를 시청중인 사용자는, 음성으로 컨텐트에 관련된 정보를 검색할 수 있다. 예를 들면, 화면에 디스플레이되는 이미지에서, 선수의 정보를 검색하거나, 음성 중계에서 모르는 용어에 대한 정보를 검색할 수 있다. 도 3에서와 같이, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 말이 나온 경우, 사용자는 "플라이 아웃"이 무엇인지를 검색하고 싶을 수 있다. 이 경우, 본 발명에서 사용자는 음성 명령으로 플라이 아웃의 의미를 검색할 수 있다. 특히, 자연어 처리를 사용하여 "플라이 아웃이 뭐지?"와 같이 일상 생활에서 질문하는 방법으로 스피치 검색 기능을 호출하여 검색을 개시할 수 있다.

다만, 컨텐츠의 음성 데이터에 포함된 용어들에 대해 검색하려는 경우의 많은 경우, 사용자는 처음 듣거나 의미를 모르는 용어를 검색하고자 한다. 이러한 경우 사용자가 모르는 용어를 정확히 듣고 정확히 검색을 명령하기는 어려운 경우가 많다. 즉, 도 5에서와 같이 사용자가 "플라이 아웃"이라는 용어를 모르는 경우 사용자가 정확히 "플라이 아웃"이라는 용어에 대한 검색을 명령하기는 어려운 경우가 자주 발생할 수 있다. 특히, 비디오 데이터에 대한 검색과 달리, 오디오 데이터에 포함된 용어는 아웃풋과 동시에 바로 지나가 버리게 되므로, 그 용어가 다시 아웃풋되지 않으면 의미를 모르는 그 용어 자체가 무엇인지를 알기가 어렵다. 다시 말하면, 오디오 데이터에 포함된 용어는 즉시성이 강하므로, 정확한 검색 대상의 인식에 실패할 개연성이 비디오 데이터보다 높은 것이다.

따라서, 사용자는 도 3 내지 도 4에서와 같이 "플라이 아웃이 뭐지?"와 같은 정확한 쿼리 용어를 포함하는 스피치 검색 명령을 말할 수도 있지만, 도 5에서와 같이 "플.. 뭐라고?" 또는 "플라이.. 뭐?"와 같이 정확히 인식하지 못한 용어에 대해 검색을 원할 수도 있는 것이다.

도 6은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.

도 6는 도 5에서 설명한 스피치 검색 방법에 대한 순서도이다.

디스플레이 디바이스를 통해, 사용자가 컨텐트 시청시 사용자가 모르는 용어가 음성 출력될 수 있다(S6010). 도 5의 경우를 예로 설명하면, 사용자는 야구 컨텐트를 시청하는 중에, 중계에서 "... 중견수 플라이 아웃으로 이닝이 마무리 됩니다..."라는 음성을 들을 수 있으며, 이 경우 "플라이 아웃"이 사용자가 모르는 용어에 해당한다.

사용자는 스피치 검색 명령을 말할 수 있다(S6020). 이 경우 스피치 검색 명령은 불분명한 용어를 포함한다. 도 5의 경우를 예로 설명하면, 사용자는 "플.. 뭐라고?"와 같은 음성 명령을 말할 수 있다. "플.."이 불분명한 용어에 해당하며, 이는 쿼리 워드로 인식될 수도 있다.

디스플레이 디바이스는 컨텐트의 최근 오디오 프레임에서 사용자가 검색하려는 용어와 유사한 용어가 존재하는 지를 판단할 수 있다(S6030). 예를 들면, 디스플레이 디바이스는 음성 인식 및 자연어 처리를 통해 사용자의 스피치 검색 명령 "플.. 뭐라고?"로부터 "뭐라고" 부분이 스피치 검색을 원하는 내용이고, "플.."이 그 대상이 됨을 판단할 수 있다. 다만, 디스플레이 디바이스는 도 3 및 도 4의 실시예에서와 같이 바로 "플.."에 대해 검색하는 것이 아니라, "플.."을 불완전한 검색 용어로 판단하고 사용자가 검색하고자 하는 용어를 최근 오디오 데이터로부터 검색할 수 있다. 디스플레이 디바이스가 최근 오디오 데이터를 음성 인식 및 텍스트 전환 처리하면, "플라이 아웃"이라는 용어를 검색할 수 있다. 따라서 디스플레이 디바이스는, 스피치 검색 명령에 포함된 쿼리 워드 "플~"이 "플라이 아웃"을 검색하기 위한 쿼리 워드임을 판단할 수 있다.

디스플레이 디바이스는 판단 결과에 따라서 컨텐트의 내용에 기반한 검색 결과를 제공하거나(S6040), 컨텐트의 내용에 기반하지 않은 일반적인 검색 결과를 제공할 수 있다(S6050).

상술한 명세서에서는, 주로 스피치 검색 명령이 불완전한 용어를 포함하는 경우로 "플~ 뭐라고?"와 같은 경우를 예로서 설명하였으나, 사용자는 다양한 쿼리 워드를 포함하는 다양한 스피치 검색 명령을 말할 수 있다. 따라서, 디스플레이 디바이스는 컨텐트의 오디오 데이터에 쿼리 워드와 매칭되는 쿼리 용어가 결정되면, 결정된 쿼리 용어에 대한 검색 결과를 제공할 수 있다(S6040). 쿼리 워드와 매칭되는 쿼리 용어가 없는 것으로 결정되면, 디스플레이 디바이스는 수신한 쿼리 워드에 충실하게 검색을 수행하고, 쿼리 워드에 대한 검색 결과를 제공할 수 있다(S6050).

도 5 및 도 6에서 설명한 실시예에 대한 디스플레이 디바이스의 동작에 대하여는 이하에서 더욱 상술하게 설명하도록 한다.

도 7은 본 발명의 일 실시예에 따른 디스플레이 디바이스의 논리적 구성도를 나타낸 도면이다.

도 7은 도 2에서 도시하고 설명한 디스플레이 디바이스를 본 발명의 실시에 필요한 구성을 위주로 논리적으로 도시한 도면이다.

도 7에서, 디스플레이 디바이스는 미디어 데이터 프로세싱 모듈(7010), 미디어 데이터 아웃풋 유닛(7020), 스피치 검색 모듈(7030), 오디오 인풋 유닛(7040)을 포함한다. 미디어 데이터 프로세싱 모듈(7010) 및 스피치 검색 모듈(7030)은 도 2의 컨트롤 유닛에 포함되거나, 컨트롤 유닛에서 구동되는 애플리케이션이 될 수 있다.

미디어 데이터 프로세싱 모듈(7010)은 텍스트 데이터, 오디오 데이터 및 비디오 데이터 중 적어도 하나를 포함하는 미디어 데이터를 프로세싱할 수 있다. 미디어 데이터 프로세싱 모듈(7010)은 미디어 데이터를 디코딩하여 미디어 데이터 아웃풋 유닛으로 출력할 수 있다. 실시예에 따라, 미디어 데이터 프로세싱 모듈(7010)은 버퍼(7050)를 구비할 수 있으며, 프로세싱하는 미디어 데이터의 일정 양을 버퍼(7050)에 저장할 수 있다. 버퍼(7050)는 도 2의 스토리지 유닛(1010)에 해당할 수 있다. 미디어 데이터 프로세싱 모듈(7010)은 미디어 데이터를 스트리밍하여 프로세싱하거나, 기 저장된 미디어 데이터를 프로세싱할 수 있다.

미디어 데이터 아웃풋 유닛(7020)은 미디어 데이터 프로세싱 모듈(7010)에서 프로세싱된 미디어 데이터를 외부로 출력할 수 있다. 미디어 데이터 아웃풋 유닛(7020)은 오디오 아웃풋 유닛(7060) 및 비디오 아웃풋 유닛(7070)을 포함할 수 있으며, 이들은 프로세싱된 미디어 데이터의 오디오 및 비디오를 각각 출력할 수 있다. 비디오 아웃풋 유닛(7070)은 프로세싱된 미디어 데이터의 이미지를 출력하며, 이미지는 동영상, 정지영상, 텍스트 등의 시각적인 데이터를 포함한다. 도 2의 실시예에서, 오디오 아웃풋 유닛(7060)은 오디오 인풋/아웃풋 유닛(2060)에, 비디오 아웃풋 유닛(7070)은 디스플레이 유닛(1060)에 해당할 수 있다. 또한, 상술한 바와 같이, 디스플레이 디바이스가 셋탑 박스와 같은 별도의 출력 수단을 포함하지 않는 경우, 오디오 아웃풋 유닛(7060) 및 비디오 아웃풋 유닛(7070)은 프로세싱된 미디어 데이터의 오디오 및 비디오를 출력하는 역할을 수행할 수도 있다.

오디오 인풋 유닛(7040)은 마이크와 같이, 디스플레이 디바이스 외부의 오디오를 입력받아 스피치 검색 모듈(7030)으로 전달한다.

스피치 검색 모듈(7030)은 본 발명의 실시예에 따른 스피치 검색 방법을 수행한다. 스피치 검색 모듈(7030)은, 오디오 인풋 유닛(7040)을 통해 사용자의 스피치 검색 명령을 수신할 수 있다. 스피치 검색 모듈(7030)은 미디어 데이터 프로세싱 모듈(7010)에 포함된 버퍼(7050)로부터 이미 출력된 미디어 데이터를 수신하여 처리할 수도 있다. 스피치 검색 모듈(7030)은 사용자의 음성을 인식하여 의미를 분석하고, 쿼리 워드 또는 쿼리 용어를 추출할 수 있는 음성 인식 모듈(7080)을 포함한다. 또한, 스피치 검색 모듈은 검색의 대상이 되는 쿼리 용어에 대한 관련 정보를 검색하여 제공하는 검색 엔진(7080)을 포함할 수 있다.

스피치 검색 모듈(7030)은 음성 인식 모듈(7080)을 사용하여 사용자의 스피치 검색 명령을 인식하고 분석할 수 있다. 음성 인식 모듈(7080)은 상술한 바와 같이 자연어 처리가 가능하며 오디오 데이터를 프로세싱하여 텍스트 데이터로 변환할 수도 있다. 음성 인식 모듈(7080)은, 사용자의 스피치 검색 명령에 포함된 쿼리 워드가 검색 가능한 완성된 쿼리 용어인지를 판단하고, 검색 가능한 완성된 쿼리 용어로 판단되면 검색 엔진(7090)을 사용하여 검색 쿼리 용어에 대한 정보를 검색, 검색 결과를 제공할 수 있다. 검색 결과는 미디어 데이터 프로세싱 모듈(7010)로 전달되거나, 바로 미디어 데이터 아웃풋 유닛(7020)으로 전달되어, 사용자에게 아웃풋될 수 있다. 검색 엔진(7090)은 디스플레이 디바이스가 구비한 데이터 베이스를 사용하여 검색을 수행하거나, 쿼리 용어를 도 1에서와 같은 외부 검색 엔진으로 전송하고, 그 결과를 수신할 수도 있다.

스피치 검색 모듈(7030)은 스피치 검색 명령에 포함된 적어도 하나의 쿼리 워드가 완성된 쿼리 용어가 아닌 것으로 판단하는 경우, 미디어 데이터 프로세싱 모듈(7010)의 버퍼(7050)에 포함된 오디오 데이터를 수신, 음성 인식 모듈(7080)로 처리할 수 있다. 스피치 검색 모듈(7030)은 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 소정 시간만큼 과거까지의 버퍼링된 오디오 데이터를 수신하고, 음성 인식 모듈(7080)로 이를 텍스트 변환할 수 있다. 그리고 처리된 결과를 분석된 쿼리 워드와 비교, 사용자의 검색 의도에 맞는 완성된 쿼리 용어를 추출할 수 있다. 그리고 검색 엔진(7090)은 추출된 쿼리 용어를 사용하여 검색을 수행, 검색 결과를 아웃풋할 수 있다.

스피치 검색 모듈(7030)은 컨텍스트 정보를 생성할 수 있다. 컨텍스트 정보는, 현재 프로세싱 및 출력중인 미디어 데이터에 대한 정보를 나타낸다. 먼저, 컨텍스트 정보는 현재 출력중인 컨텐트의 메타데이터 또는 메타데이터로부터 추출될 수 있는 컨텐트 관련 정보를 포함한다. 또한, 컨텍스트 정보는 소정 구간의 미디어 데이터러부터 추출되는 컨텐트 관련 정보를 포함한다. 스피치 검색 모듈(7030)은 상술한 바와 같이 미디어 데이터의 오디오 데이터를 추출하여 텍스트 변환할 수 있으며, 변환된 텍스트 정보 또한 컨텍스트 정보에 포함된다. 이러한 오디오 데이터를 처리한 결과 및 텍스터 정보를 미디어 데이터의 오디오 관련 정보라고 지칭할 수 있으며, 오디오 관련 정보는 상술한 컨텍스트 정보에 포함된다.

스피치 검색 모듈(7030)은 이미지 프로세싱 모듈을 더 포함할 수 있다. 이미지 프로세싱 모듈은 처리된 미디어 데이터의 출력 이미지를 프로세싱할 수 있다. 예를 들면, 이미지 프로세싱 모듈은 비디오 아웃풋 유닛(7070)을 통해 출력되는 이미지를 분석하여, 이미지에 대한 관련 정보를 추출할 수 있다. 이미지의 분석 결과는 미디어 데이터의 이미지 관련 정보라고 지칭할 수 있으며, 이미지 관련 정보는 상술한 컨텍스트 정보에 포함된다.

도 8은 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 순서도이다.

도 8과 관련하여, 도 4에서 설명된 내용과 동일하거나 중복되는 내용은 간략히 설명하도록 한다.

디스플레이 디바이스는 미디어 데이터를 출력할 수 있다(S8010). 상술한 바와 같이, 미디어 컨텐츠는 비디오 데이터, 오디오 데이터를 포함하며, 컨텐츠에 따라 텍스트 데이터 또한 포함할 수도 있다.

디스플레이 디바이스는 스피치 검색 명령을 수신할 수 있다(S8020). 디스플레이 디바이스가 수신한 스피치 검색 명령은, 적어도 하나의 쿼리 워드를 포함할 수 있다. 스피치 검색 명령은, 기설정된 명령어를 사용할 수도 있으며, 자연어 처리 기술을 사용하여 일상 대화와 같은 자연스러운 명령이 될 수도 있다. 도 5의 실시예에서, "플.. 뭐지?"가 스피치 검색 명령에 해당한다. 그리고 "플"이 쿼리 워드에 해당한다. 또는, "방금 뭐라고"와 같이 쿼리 워드를 포함하지 않는 경우도 있을 수 있다. 이에 대해서는, 이하에서 도 9와 함께 설명하도록 한다.

디스플레이 디바이스는 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정할 수 있다(S8030).

다시 말하면, 디스플레이 디바이스는 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 스피치 검색 명령에 포함된 적어도 하나의 쿼리 워드를 사용하여 판단할 수 있다. 디스플레이 디바이스는 스피치 검색 명령에 포함된 쿼리 워드가 사용자가 검색을 원하는 완성된 쿼리 용어인지 결정할 수 있다. 예를 들면, 도 5와 같은 실시예에서, 사용자가 "플.. 뭐라고?" 또는 "플라이.. 뭐라고?"와 같이 스피치 검색 명령을 말할 수 있다. 이 경우, 디스플레이 디바이스는 사용자의 말투나 억양, 현재 출력 중인 미디어 데이터의 컨텍스트(context) 정보를 사용하여 사용자가 검색을 원하는 쿼리 용어가 쿼리 워드인 "플" 또는 "플라이"인지, 아니면 "플라이 아웃"인지를 결정할 수 있다.

디스플레이 디바이스는, 사용자의 말투나 억양, 액센트 및 말흐림 등을 파악하여 쿼리 워드가 완성된 쿼리 용어인지를 결정할 수 있다. 일반적으로, 사용자들은 잘 모르는 용어를 잘 아는 용어와 상이하게 말한다. 특히, 잘 모르는 용어의 경우 악센트가 불분명하거나 어미를 흐리는 등의 패턴이 발생한다. 디스플레이 디바이스는 이러한 발음 패턴을 파악하여, 쿼리 워드로 검색을 할지 아니면 완성된 쿼리 용어를 찾아야 하는지를 결정할 수 있다.

또한, 디스플레이 디바이스는, 컨텍스트 정보를 참조하여 쿼리 워드가 완성된 쿼리 용어인지를 결정할 수 있다. 물론, 디스플레이 디바이스는 사용자의 발음 패턴과 컨텍스트 정보를 모두 사용할 수도 있다.

컨텍스트 정보는 미디어 데이터로부터 추출된 정보로서, 현재 사용자에게 출력중인 컨텐츠에 관련된 정보를 포함한다. 예를 들면, 미디어 데이터는 텍스트 데이터, 오디오 데이터, 비디오 데이터 및 메타데이터 중 적어도 하나를 포함할 수 있다. 메타데이터는 미디어 데이터에 대한 데이터로서, 미디어 데이터가 나타내는 컨텐츠에 대한 제목, 장르, 내용, 장면, 스케줄, 인물, 시간 등의 정보를 포함할 수 있다. 컨텍스트 정보는, 미디어 데이터에 관련된 정보로서, 특히 사용자가 시청중인 컨텐츠에 대한 정보이다. 상술한 실시예에서, 미디어 데이터가 나타내는 컨텐트가 야구 컨텐트인 경우, 메타 데이터는 해당 컨텐트가 스포츠 및 야구라는 것을 나타낼 수 있다. 또는, 디스플레이 디바이스가 미디어 데이터의 오디오, 이미지, 텍스트 등을 분석 또는 추출하여 해당 컨텐트가 야구라는 것을 알 수 있다. 이러한 경우 디스플레이 디바이스는 쿼리 워드인 '플라이'보다 컨텐트에 해당하는 용어로서, '플라이'를 포함하는 '플라이 아웃'이 사용자가 검색하고자 하는 쿼리 워드임을 판단할 수 있다. 디스플레이 디바이스는 컨텍스트 정보를 참고하여, 야구에 해당하는 용어 데이터베이스와 쿼리 워드를 비교, 위와 같은 판단을 할 수 있다.

컨텍스트 정보는 미디어 데이터의 메타 데이터, 미디어 데이터의 오디오 관련 정보 및 미디어 데이터의 이미지 관련 정보 중 적어도 하나를 포함할 수 있다. 미디어 데이터의 메타데이터는 컨텐트의 제목 정보, 장르 정보, 인물 정보, 장면 정보, 스케줄 정보 중 적어도 하나를 포함할 수 있다.

적어도 하나의 쿼리 워드가 완성된 쿼리 용어가 아닌 경우, 디스플레이 디바이스는 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 추출할 수 있다(8030).

디스플레이 디바이스는 버퍼에 저장된 오디오 데이터에서, 사용자의 스피치 검색 명령이 수신된 시점으로부터 소정의 지난 시간 분량에 해당하는 오디오 데이터를 읽어와 음성 인식 처리할 수 있다. 그리고 디스플레이 디바이스는 이 텍스트와 사용자의 쿼리 워드를 비교, 매칭되는 쿼리 용어를 추출할 수 있다.

예를 들면, 사용자가 "플..뭐라고?"를 말한 시점부터 과거 1분간의 오디오 데이터를 버퍼로부터 읽어와서 음성 인식 처리하여, 이를 텍스트 데이터로 변환할 수 있다. 이렇게 생성된 텍스트 데이터 역시 상술한 컨텍스트 정보로 지칭할 수 있다. 이 텍스트 데이터에는, 사용자가 스피치 검색 명령을 내린 시점 근처에 "중견수 플라이 아웃으로 이닝이 마무리됩니다.."라는 텍스트가 포함된다. 따라서, 디스플레이 디바이스는 "플~"이라는 쿼리 워드가 "플라이 아웃"을 의도했음을 파악하여, 완성된 쿼리 용어인 "플라이 아웃"을 추출할 수 있다. 다시 말하면, 디스플레이 디바이스는 "플~"이라는 쿼리 워드에 매칭되는 쿼리 용어가 "플라이" 또는 "플라이 아웃"임을 파악하고, 컨텍스트 정보를 사용하여 "플라이 아웃"이 사용자의 의도에 맞는 쿼리 용어임을 결정할 수 있다. 위의 예에서, 컨텍스트 정보인 텍스트 데이터에는 "중견수 플라이 아웃으로..."라는 문장이 포함되고, 명사 및 조사 등 문장 내 단어들의 배열을 분석하여 검색 대상이 "플라이 아웃"임을 결정할 수 있다.

디스플레이 디바이스는 추출된 쿼리 용어를 사용하여 검색을 수행할 수 있다(S8050). 디스플레이 디바이스는 디스플레이 디바이스 자체에 내장된 검색 엔진을 사용하여 쿼리 용어에 관련된 정보를 검색하거나, 쿼리 용어를 네트워크를 통해 검색 기능을 제공하는 외부 검색 엔진으로 전송하고, 검색 결과를 수신할 수도 있다. 쿼리 용어에 대한 검색 및 검색 결과는 용어에 대한 정의를 포함하여, 사용자가 시청중인 컨텐트와 관련된 다양한 데이터를 포함할 수 있다.

디스플레이 디바이스는 검색 결과를 사용자에게 제공할 수 있다(S8060). 검색 결과는 다양한 방법으로 제공될 수 있다. 예를 들면, 디스플레이 디바이스는 검색 결과를 음성으로 제공하거나, 디스플레이 출력으로 제공할 수도 있다. 다시 하면, 디스플레이 디바이스는 검색 결과를 음성으로 사용자에게 출력하거나, 디스플레이 화면에 자막과 같은 형태로 제공할 수도 있다.

실시예에 따라서, 단계(S8040)는 단계(8030)에 포함될 수도 있다. 즉, 상술한 바와 같이 쿼리 용어 결정 단계에서, 최근 오디오 데이터를 처리하여 오디오 관련 정보를 생성할 수 있다. 오디오 관련 정보는 상술한 바와 같이 컨텍스트 정보에 포함될 수 있다. 디스플레이 디바이스는, 컨텍스트 정보를 쿼리 워드와 비교 분석하여 쿼리 용어를 결정할 수 있다.

컨텍스트 정보는 상술한 바와 같이 미디어 데이터뿐만 아니라 미디어 데이터를 처리한 정보를 포함한다. 디스플레이 디바이스는 출력중인 미디어 데이터의 일정 부분을 처리할 수 있는데, 오디오 데이터의 경우는 상술한 바와 같다. 디스플레이 디바이스는 소정 시간 분량의 비디오 데이터를 이미지 프로세싱하여, 이 구간의 이미지에 대한 정보를 추출할 수 있다. 상술한 실시예에서, 이미지 프로세싱을 통해 디스플레이 디바이스는 현재 디스플레이 중인 컨텐츠가 야구의 장면임을 판단할 수 있다. 특히, 사용자가 야구 선수의 이름이나 정보를 검색하려는 경우로서, 예를 들면 '4번 선수가 누구지?"라는 스피치 검색 명령을 말할 수 있다. 이러한 경우 디스플레이 디바이스는 비디오 데이터를 이미지 프로세싱하여 4번 선수에 대한 이미지 정보를 획득하고, 이미지 검색 기술을 사용하여 4번 선수에 대한 추가 정보를 사용자에게 제공할 수 있다. 이러한 경우 디스플레이 디바이스는 도 7에서 도시한 구성에 추가로, 이미지 프로세싱 모듈을 포함할 수 있으며, 이미지 프로세싱 모듈은 버퍼에 저장된 비디오 데이터를 처리 및 분석할 수 있다. 또한, 이 경우 디스플레이 디바이스의 검색 엔진은 이미지 프로세싱 모듈로부터 이미지 정보를 수신하여 이 이미지 정보를 사용한 이미지 검색을 수행할 수도 있다.

도 9는 본 발명의 다른 일 실시예에 따른 스피치 검색 방법을 나타낸 도면이다.

도 8에서, 쿼리 워드에 매칭되는 쿼리 용어가 결정되지 않거나, 쿼리 워드도 불명확한 경우가 발생할 수 있다. 또는, 도 9에서와 같이 사용자의 스피치 검색 명령("뭐?")에 쿼리 워드가 포함되지 않을 수도 있다. 디스플레이 디바이스는 이러한 경우 도 9에서와 같이 쿼리 용어 후보들을 사용자에게 제공할 수 있다.

쿼리 용어 후보들은, 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 기설정된 시간 분량의 과거까지를 대상으로 할 수 있다. 예를 들면, 사용자로부터 스피치 검색 명령을 수신한 시점으로부터 30초 사이의 오디오 데이터를 음성 인식하여, 검색이 가능한 용어들을 추출, 도 9와 같이 시계열적 순서로 디스플레이할 수 있다. 이 경우, 도 9에서와 같이 해당 용어가 출력된 시점의 이미지를 버퍼로부터 읽어와서 썸네일 이미지와 같은 형태로 디스플레이 출력할 수도 있다. 버퍼가 프로세싱하는 오디오 데이터뿐 아니라 비디오 데이터도 저장할 수 있음은 상술한 바와 같다. 사용자는 제공된 쿼리 용어 후보들로부터 검색을 원하는 쿼리 용어를 선택하여 검색을 개시할 수 있다. 쿼리 용어의 선택은, 리모콘 입력, 음성 입력, 제스처 입력 등 다양한 수단으로 수행될 수 있다.

도 9에서는, 쿼리 용어 후보를 디스플레이 출력하는 실시예를 도시하였으나, 디스플레이 디바이스는 쿼리 용어 후보를 음성으로 출력할 수도 있다.

도 9의 쿼리 용어 후보의 제공은, 도 8의 순서도에서 단계(S8030) 내지 단계(S8050)의 단계들과 함께 수행될 수 있다. 이 경우, 단계(S8030)은 쿼리 워드가 완성된 쿼리 용어를 결정하면서, 쿼리 워드가 있는지 여부를 함께 결정할 수 있다. 쿼리 워드가 획득되지 않거나, 쿼리 워드가 없는 것으로 판단되면, 디스플레이 디바이스는 단계(S8040)에서 적어도 하나의 쿼리 용어 후보를 추출하여, 사용자에게 제공하고, 사용자로터 쿼리 용어를 선택 신호를 수신할 수 있다.

도 8 및 도 9에서 설명한 바와 같이, 사용자가 원하는 검색 대상을 정확히 결정하기 어려운 경우, 디스플레이 디바이스는 쿼리 용어 후보를 사용자에게 제공하고 선택받을 수 있다. 또한, 도 8 및 도 9의 실시예에서 쿼리 용어의 결정 단계(S8040) 및 쿼리 용어를 사용한 스피치 검색 수행 단계(S8050) 사이에서, 디스플레이 디바이스는 결정된 쿼리 용어를 사용자에게 제공하고 컨펌을 요청할 수 있다. 사용자로부터 리모콘 입력이나 음성, 제스처 기타 입력으로 컨펌 입력을 수신하면, 디스플레이 디바이스는 결정된 쿼리 용어로 검색을 수행, 검색 결과를 제공할 수 있다. 사용자가 컨펌하지 않거나, 쿼리 용어가 원하는 대상이 아님을 입력하면, 디스플레이 디바이스는 사용자에게 추가적으로 쿼리 용어 후보들을 제공할 수도 있다.

예를 들면, 도 5 내지 도 9의 실시예에서, 디스플레이 디바이스가 쿼리 워드로 '플'을 인식하고, 쿼리 용어를 '플라이'로 결정할 수 있다. 이 경우 디스플레이 디바이스는 ""플라이"로 검색하시겠습니까?"와 같은 컨펌 요청을 출력할 수 있다. 컨펌 요청은 "예" 및 "아니오"와 같은 창과 함께 출력될 수 있다. 사용자가 "예"를 입력하거나 말하는 등으로 컨펌을 입력하면 디스플레이 디바이스는 "플라이"에 대한 검색을 수행하고 결과를 제공할 수 있다. 사용자가 "아니오"를 입력하거나 소정 시간동안 입력을 하지 않는 등, 컨펌을 하지 않거나 대상이 아님을 입력하면, 디스플레이 디바이스는 컨텍스트 정보를 다시 검토하여 "플라이 아웃"등의 적어도 하나의 쿼리 용어 후보를 제공할 수 있다. 그리고 사용자가 적어도 하나의 쿼리 용어 후보로부터 쿼리 용어를 선택하면, 디스플레이 디바이스는 선택받은 쿼리 용어로 검색을 수행, 결과를 제공할 수 있다.

또는, 컨텍스트 정보로부터 쿼리 워드에 해당하는 복수의 쿼리 용어 후보를 추출하여 제공할 수도 있다. 예를 들면, 상술한 실시예에서, "플라이" 및 "플라이 아웃"을 디스플레이하여 사용자에게 제공하고, 사용자로부터 선택된 쿼리 용어로 검색을 수행할 수도 있다.

즉, 위와 같은 방법으로 디스플레이 디바이스는 쿼리 용어 후보뿐 아니라 결정된 쿼리 용어를 사용자에게 제공하고 컨펌받는 단계를 추가로 수행하여, 사용자가 원하지 않은 용어의 검색 결과를 제공하는 오류를 피할 수 있다.

따라서, 본 발명의 스피치 검색 방법에 따르면 사용자가 시청중인 미디어 데이터에서, 이미 지나간 오디오 및 비디오에 대한 관련 정보를 용이하게 검색할 수 있다. 특히, 사용자가 검색하기를 원하는 대상을 정확하게 인식하지 못한 경우에도, 사용자의 발음 패턴 및 컨텍스트 정보를 사용하여 사용자 및 시청중인 미디어 데이터에 최적화된 검색 결과를 제공할 수 있다.

사용자가 말한 스피치 검색 명령이 불분명한 쿼리 워드를 포함하거나 쿼리 워드가 존재하지 않는 경우에도, 본 발명은 최적화된 검색 결과를 제공할 수 있다. 또한, 불완전한 쿼리 워드나 컨텍스트 정보를 사용하여도 사용자가 원하는 검색 대상의 결정이 어려운 경우, 소정 시간 구간에서의 쿼리 용어 후보를 사용자에게 제안함으로써 사용자가 검색하기를 원하는 대상을 선택하도록 할 수 있다.

1010: 컨텐츠 서버
1020: 검색 엔진
1030: 네트워크
1040: 디스플레이 디바이스

Claims

디스플레이 디바이스의 스피치 검색 방법에 있어서,
미디어 데이터를 출력하는 단계;
스피치 검색 명령을 수신하는 단계;
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계;
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계;
상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계;
상기 스피치 검색 결과를 제공하는 단계를 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
제 1 항에 있어서,
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지를 결정하는 단계는,
상기 스피치 검색 명령으로부터 적어도 하나의 쿼리 워드를 추출하는 단계;
상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지 결정하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
제 2 항에 있어서,
상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지의 결정은,
사용자의 발음 패턴 및 상기 미디어 데이터에 대한 컨텍스트 정보 중 적어도 하나를 기초로 결정하는, 디스플레이 디바이스의 스피치 검색 방법.
제 2 항에 있어서,
상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하는 단계;
상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하는 단계;
상기 적어도 하나의 쿼리 용어 후보로부터 상기 쿼리 워드와 매칭되는 쿼리 용어를 결정하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
제 4 항에 있어서,
상기 적어도 하나의 쿼리 용어 후보로부터 상기 적어도 하나의 쿼리 워드와 매칭되는 쿼리 용어가 결정되지 않는 경우, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
제 1 항에 있어서,
상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하는 단계는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하는 단계;
상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하는 단계;
상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계;
사용자의 쿼리 용어 선택 입력을 수신하는 단계를 더 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
제 6 항에 있어서,
상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는 단계는,
상기 적어도 하나의 쿼리 용어 후보를 시계열적인 순서로 제공하며, 상기 적어도 하나의 쿼리 용어 후보가 출력된 시점의 이미지를 함께 제공하는, 디스플레이 디바이스의 스피치 검색 방법.
제 3 항에 있어서,
상기 미디어 데이터에 대한 상기 컨텍스트 정보는, 상기 미디어 데이터의 제목 정보, 장르 정보, 인물 정보, 장면 정보, 스케줄 정보, 오디오 관련 정보, 이미지 관련 정보 중 적어도 하나를 포함하는, 디스플레이 디바이스의 스피치 검색 방법.
제 1 항에 있어서,
상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계는,
상기 결정된 쿼리 용어에 대한 컨펌 요청을 사용자에게 제공하는 단계;
상기 쿼리 용어에 대한 컨펌을 수신한 경우, 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는 단계를 더 포함하는,디스플레이 디바이스의 스피치 검색 방법.
미디어 데이터플 프로세싱하는 미디어 데이터 프로세싱 모듈;
상기 프로세싱된 미디어 데이터를 아웃풋하는 미디어 데이터 아웃풋 유닛;
스피치 검색 명령을 수신하는 오디오 인풋 유닛;
상기 스피치 검색 명령을 처리하여 쿼리 용어를 결정하고, 결정된 쿼리 용어로 스피치 검색을 수행하는 스피치 검색 모듈을 포함하는 디스플레이 디바이스로서,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하는지 결정하고, 상기 스피치 검색 명령이 검색 가능한 완성된 쿼리 용어를 포함하지 않는 경우, 상기 미디어 데이터의 최근 오디오 데이터를 처리하여 쿼리 용어를 결정하고, 상기 결정된 쿼리 용어를 사용하여 스피치 검색을 수행하는, 디스플레이 디바이스.
제 10 항에 있어서,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령으로부터 적어도 하나의 쿼리 워드를 추출하고, 상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지 결정하는, 디스플레이 디바이스.
제 11 항에 있어서,
상기 디스플레이 디바이스는,
사용자의 발음 패턴 및 상기 미디어 데이터의 컨텍스트 정보 중 적어도 하나를 기초하여 상기 적어도 하나의 쿼리 워드가 상기 쿼리 용어에 해당하는지를 결정하는, 디스플레이 디바이스.
제 11 항에 있어서,
상기 디스플레이 디바이스는,
상기 프로세싱되는 미디어 데이터를 저장하는 버퍼를 더 포함하며,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하고, 상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하고, 상기 적어도 하나의 쿼리 용어 후보로부터 상기 쿼리 워드와 매칭되는 쿼리 용어를 결정하는, 디스플레이 디바이스.
제 13 항에 있어서,
상기 디스플레이 디바이스는,
상기 적어도 하나의 쿼리 용어 후보로부터 상기 적어도 하나의 쿼리 워드와 매칭되는 쿼리 용어가 결정되지 않는 경우, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하는, 디스플레이 디바이스.
제 10 항에 있어서,
상기 디스플레이 디바이스는,
상기 스피치 검색 명령을 수신한 시점으로부터 소정 기간 과거의 오디오 데이터를 음성 인식 처리하고, 상기 음성 인식 처리 결과로부터 적어도 하나의 쿼리 용어 후보를 추출하고, 상기 적어도 하나의 쿼리 용어 후보를 사용자에게 제공하여, 사용자의 쿼리 용어 선택 입력을 수신하는, 디스플레이 디바이스.
제 15 항에 있어서,
상기 디스플레이 디바이스는,
상기 적어도 하나의 쿼리 후보를 시계열적인 순서로 제공하며, 상기 적어도 하나의 쿼리 용어 후보가 출력된 시점의 이미지를 함께 제공하는, 디스플레이 디바이스.
제 12 항에 있어서,
상기 미디어 데이터에 대한 상기 컨텍스트 정보는, 상기 미디어 데이터의 제목 정보, 장르 정보, 인물 정보, 장면 정보, 스케줄 정보, 오디오 관련 정보, 이미지 관련 정보 중 적어도 하나를 포함하는, 디스플레이 디바이스
제 10 항에 있어서,
상기 디스플레이 디바이스는,
상기 결정된 쿼리 용어에 대한 컨펌 요청을 사용자에게 제공하고, 상기 쿼리 용어에 대한 컨펌을 수신한 경우 상기 쿼리 용어를 사용하여 스피치 검색을 수행하는, 디스플레이 디바이스.