KR101775532B1

KR101775532B1 - 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법

Info

Publication number: KR101775532B1
Application number: KR1020110004443A
Authority: KR
Inventors: 강민구
Original assignee: 엘지전자 주식회사
Priority date: 2011-01-17
Filing date: 2011-01-17
Publication date: 2017-09-06
Also published as: KR20120083025A

Abstract

본 발명의 일실시예에 의한 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스는, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 보이스 센서와, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 전처리부와, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석하는 인식부와, 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 제어부와, 그리고 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송하는 네트워크 인터페이스를 포함한다.

Description

서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법{MULTIMEDIA DEVICE FOR PROVIDING VOICE RECOGNITION SERVICE BY USING AT LEAST TWO OF DATABASE AND THE METHOD FOR CONTROLLING THE SAME}

본 발명은 멀티미디어 장치 기술에 대한 것으로서, 보다 상세하게는 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법에 대한 것이다.

영상표시기기는 예를 들어, 사용자가 시청할 수 있는 방송영상을 수신하여 처리하는 기능을 갖춘 장치이다. 영상표시기기는 예를 들어, 방송국에서 송출되는 방송신호 중 사용자가 선택한 방송을 디스플레이에 표시한다. 현재 방송은 전 세계적으로 아날로그 방송에서 디지털 방송으로 전환하고 있는 추세이다.

디지털 방송은 디지털 영상 및 음성 신호를 송출하는 방송을 의미한다. 디지털 방송은 아날로그 방송에 비해, 외부 잡음에 강해 데이터 손실이 작으며, 에러 정정에 유리하며, 해상도가 높고, 선명한 화면을 제공한다. 또한, 디지털 방송은 아날로그 방송과 달리 양방향 서비스가 가능하다. 한편, 최근 들어, 영상표시기기의 기능 및 멀티미디어기기의 기능을 결합시킨 스마트 TV(Smart TV)가 논의되고 있다.

또한, 최근에 있어서, 종래 기술에 의한 일부 디바이스들은 음성 인식 기술을 선보이고 있다. 그러나, 제한된 데이터베이스만을 이용하는 한계가 있어서, 사용자에게 보다 폭넓은 범위의 음성 인식 서비스를 제공할 수 없는 문제점이 있었다.

본 발명의 일실시예는, 멀티미디어 디바이스의 내부 데이터베이스 및 외부 데이터베이스를 모두 이용하여, 음성 인식의 범위를 대폭 증대시키는 솔루션을 제공하고자 한다.

또한, 본 발명의 다른 일실시예는, 멀티미디어 디바이스 자체를 컨트롤 하는 음성 인식 명령과 키워드 관련 데이터를 제공하는 음성 인식 명령을 구별함으로써, 사용자가 액세스 하고자 하는 서비스를 보다 신속히 제공하는 프로토콜을 정의하고자 한다.

그리고, 본 발명의 또 다른 일실시예는, 멀티미디어 디바이스와 통신 가능한 모바일 장치를 이용하여 외부 잡음에 강인한 음성 인식 성능을 담보하기 위한 기술을 제공하고자 한다.

본 발명의 일실시예에 의한 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스의 제어 방법은, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 단계와, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 단계와, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계와, 상기 제1데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계와, 상기 제1데이터베이스에 존재하지 않는 경우, 상기 멀티미디어 디바이스 외부에 위치하며 또한 네트워크로 연결된 제2데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계와, 그리고 상기 제2데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계를 포함한다.

그리고, 본 발명의 일실시예에 의한 서로 다른 적어도 2개 이상의 데이터베이스(DataBase)를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스(multimedia device)는, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 보이스 센서와, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 전처리부와, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석하는 인식부와, 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 제어부와, 그리고 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송하는 네트워크 인터페이스를 포함한다.

본 발명의 일실시예에 의하면, 멀티미디어 디바이스의 내부 데이터베이스 및 외부 데이터베이스를 모두 이용하여, 음성 인식의 범위를 대폭 증대시키는 솔루션을 제공한다.

또한, 본 발명의 다른 일실시예에 의하면, 멀티미디어 디바이스 자체를 컨트롤 하는 음성 인식 명령과 키워드 관련 데이터를 제공하는 음성 인식 명령을 구별함으로써, 사용자가 액세스 하고자 하는 서비스를 보다 신속히 제공하는 프로토콜을 정의한다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 멀티미디어 디바이스와 통신 가능한 모바일 장치를 이용하여 외부 잡음에 강인한 음성 인식 성능을 담보하기 위한 기술을 제공한다.

보다 구체적인 발명의 효과에 대해서는, 이하 목차에서 상세히 후술하도록 하겠다.

도 1은 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 시스템의 일예를 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일실시예에 의한 멀티미디어 디바이스와, 외부 디바이스, 그리고 서버가 네트워크로 연결된 상태를 도시한 도면이다.
도 3은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 구성 모듈을 보다 상세히 도시한 도면이다.
도 4는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제1실시예를 도시한 도면이다.
도 5는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제2실시예를 도시한 도면이다.
도 6은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다.
도 7은 도 6에 도시된 전체 단계들 중에서, 특정 S640 단계를 보다 상세히 도시한 플로우 차트이다.
도 8은 도 6에 도시된 전체 단계들 중에서, 특정 S660 단계를 보다 상세히 도시한 플로우 차트이다.
도 9는 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다.
도 10은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 일예를 도시한 도면이다.
도 11은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 다른 일예를 도시한 도면이다.
그리고, 도 12는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 또 다른 일예를 도시한 도면이다.

이하에서는 첨부된 도면을 참조하여 본 발명의 여러가지 실시예들을 보다 상세히 설명하도록 하겠다. 나아가, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함을 고려하여 부여되는 것으로서, 상기 "모듈" 및 "부"는 서로 혼용되어 사용될 수 있으며, 하드웨어 또는 소프트웨어로 설계 가능하다.

한편, 본 명세서에서 기술되는 멀티미디어 장치(device)는, 예컨대 방송 데이터를 수신하여 처리하는 여러가지 타입의 디바이스들에 해당한다. 나아가 상기 멀티미디어 디바이스는 Connected TV에 대응할 수도 있으며, 상기 Connected TV는 방송 수신 기능 뿐만 아니라 유무선 통신 장치 등이 추가되어, 수기 방식의 입력 장치, 터치 스크린 또는 모션(motion) 인식 리모콘 등 보다 사용에 편리한 인터페이스를 가질 수 있다. 그리고, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속되어, 이메일, 웹브라우징, 뱅킹 또는 게임 등의 기능도 수행가능하다. 이러한 다양한 기능을 위해 표준화된 범용 OS가 사용될 수도 있다.

따라서, 상기 Connected TV는, 예를 들어 범용의 OS 커널 상에, 다양한 애플리케이션이 자유롭게 추가되거나 삭제 가능하므로, 사용자 친화적인 다양한 기능이 수행될 수 있다. 상기 Connected TV는, 보다 구체적으로 예를 들면, 웹 TV, 인터넷 TV, HBBTV, 스마트 TV, DTV 등이 될 수 있으며, 경우에 따라 스마트폰에도 적용 가능하다.

나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

도 1은 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 방송 시스템의 일예를 개략적으로 나타낸 도면이다. 도 1의 멀티미디어 장치는 예컨대 Connected TV에 대응할 수도 있으나, 본 발명의 권리범위가 Connected TV 만으로 한정되는 것은 아니며 본 발명의 권리범위는 원칙적으로 특허청구범위에 의해 정해져야 한다.

도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 멀티미디어 장치를 포함한 전체 시스템은, 컨텐츠 제공자(Content Provider;CP)(10), 서비스 제공자(Service Provider;SP)(20), 네트워크 제공자(Network Provider; NP)(30) 및 HNED(40)로 구분될 수 있다. 상기 HNED(40) 는, 예를 들어 본 발명의 실시예에 따른 멀티미디어 장치인 클라이언트(100)에 대응한다.

컨텐츠 제공자(10)는, 각종 컨텐츠를 제작하여 제공한다. 컨텐츠 제공자(10)에는 도 1에서와 같이 지상파 방송 송출자(terrestrial broadcaster), 케이블 방송 사업자(cable SO(System Operator) 또는 MSO(Multiple System Operator), 위성 방송 송출자(satellite broadcaster), 인터넷 방송 송출자(Internet broadcaster) 등이 예시될 수 있다. 또한, 컨텐츠 제공자(10)는, 방송 컨텐츠 외에, 다양한 애플리케이션 등을 제공할 수도 있다.

서비스 제공자(20)는, 컨텐츠 제공자(10)가 제공하는 컨텐츠들을 서비스 패키지화하여 제공할 수 있다. 예를 들어, 도 1의 서비스 제공자(20)는, 제1 지상파 방송, 제2 지상파 방송, 케이블 MSO, 위성 방송, 다양한 인터넷 방송, 애플리케이션 등을 패키지화하여 사용자에게 제공할 수 있다.

네트워크 제공자(30)는, 서비스를 클라이언트(100)에게 제공하기 위한 네트워크 망을 제공할 수 있다. 클라이언트(100)는 홈 네트워크(Home Network End User;HNED)를 구축하여 서비스를 제공받을 수도 있다.

한편, 클라이언트(100)도 네트워크를 통해, 컨텐츠를 제공하는 것이 가능하다. 이러한 경우, 상술한 바와 달리, 역으로, 클라이언트(100)가 컨텐츠 제공자가 될 수 있으며, 컨텐츠 제공자(10)가 클라이언트(100)로부터 컨텐츠를 수신할 수도 있다. 이와 같이 설계된 경우, 양방향 컨텐츠 서비스 또는 데이터 서비스가 가능한 장점이 있다.

도 2는 본 발명의 일실시예에 의한 멀티미디어 디바이스와, 외부 디바이스, 그리고 서버가 네트워크로 연결된 상태를 도시한 도면이다. 이하, 도 2를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 음성 인식 서비스를 실행하는 과정에서 내부 데이터베이스 및 외부 데이터베이스를 이용하는 과정을 개략적으로 설명하면 다음과 같다.

본 발명의 일실시예에 의한 멀티미디어 디바이스(200)는 음성 인식이 가능한 디바이스로서, 예컨대 커넥티드 TV, 스마트 TV, 웹 TV, 인터넷 TV, 네트워크 TV 등에 해당한다. 나아가, 상기 멀티미디어 디바이스(200)는, 음성 인식 과정에서 필요한 내부 데이터베이스(201)를 포함하고 있다. 그러나, 전술한 내부 데이터베이스(201)는 상대적으로 제한된 데이터만을 구비하고 있으므로, 음성 인식에 따른 기능 실행 역시 제한적일 수 밖에 없다.

이와 같은 문제점을 해결하기 위하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스(200)는 외부에 위치한 제1기기의 데이터베이스(210) 및 제2기기의 데이터베이스(220)와 연결되어 있으며, 전술한 제1기기 및 제2기기는 예컨대 DLNA(Digital Living Network Alliance) 기반의 주변 디바이스들에 해당한다. 또는, 상기 전술한 제1기기 및 제2기기는 예를 들어 USB, HDMI CEC 연결 장비 등에 해당한다.

그리고, 상기 멀티미디어 디바이스(200)는, 인터넷 등의 네트워크로 연결된 서버(230)와 통신하여, 음성 인식 과정에서 외부 데이터베이스(231) 또한 이용할 수 있도록 설계된다.

따라서, 이와 같이 설계하는 경우, 멀티미디어 디바이스(200)는 내부의 제한된 데이터베이스(201)에만 의존하지 않고, 외부의 데이터베이스들에 액세스 가능하게 되므로, 보다 다양한 음성 인식 서비스가 가능해 지는 장점이 있다. 또한, 특정 컨디션에 따라, 내부 데이터베이스 또는 외부 데이터베이스를 선택적으로 사용하도록 설계함으로써, 처리 속도도 함께 개선되는 효과가 있다. 이하, 도 3을 참조하여 본 발명의 일실시예에 의한 멀티미디어 디바이스의 동작에 대해 보다 상세히 후술하도록 하겠다.

도 3은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 구성 모듈을 보다 상세히 도시한 도면이다. 이하, 도 3을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 내부 또는 외부 데이터베이스를 이용하여, 음성 인식 서비스를 실행하는 과정을 상세히 설명하면 다음과 같다.

도 3에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(300)는, 보이스 센서(301), 전처리부(302), 인식부(303), 제어부(304), 네트워크 인터페이스(305), 그리고 디스플레이부(306) 등을 포함하여 이루어 진다. 다만, 도 3에 도시된 모듈들은 일실시예이며, 본 발명의 권리범위는 원칙적으로 특허청구범위에 의해 정해져야 한다. 또한, 상기 멀티미디어 디바이스(300) 내부의 보이스 센서(301)에서 유저의 음성을 디텍트 하도록 설계하는 것도 가능하지만, 도 3에 도시된 모바일 디바이스(310)를 이용하여, 유저의 음성을 디텍트 하는 것도 가능하다. 이와 같이 설계하는 경우, 유저는 자신의 입과 보다 인접한 모바일 디바이스(310)에 부착된 음성 디텍팅 센서를 통해 음성 데이터를 전달하는 것이 가능하므로, 주변 노이즈 또는 멀티미디어 디바이스(300) 자체의 오디오 신호를 배제할 수 있는 장점이 있다. 또한, 상기 멀티미디어 디바이스(300)와 통신 가능한 상기 모바일 디바이스(310)는, 예를 들어 휴대폰, 스마트폰, 랩탑, 태블릿 PC 등이 될 수가 있다.

한편, 본 발명의 일실시예에 의한 멀티미디어 디바이스(300)의 음성 인식 단계는 크게 2가지 영역으로 나누어 설명할 수 있다. 즉, 도 3에 도시된 전처리부(302) 및 인식부(303)에서 주요 역할을 수행하게 된다.

상기 전처리부(302)는 사용자가 발성한 음성으로부터 인식에 필요한 특징 벡터를 추출하고, 상기 인식부(303)는 특징 벡터를 분석하여 음성 인식 결과를 얻는다. 예컨대, 마이크 등을 통해 입력된 음성이 멀티미디어 디바이스(300)로 들어오면, 상기 전처리부(302)는, 일정 시간(예를 들어, 1/100초)마다 음성학적 특징을 표현할 수 있는 특징 벡터들을 추출한다.

전술한 특징 벡터들은 음성학적 특성을 잘 나타내며 그 이외의 요소, 즉 배경 잡음, 화자 차이, 발음 태도 등에는 둔감해야 하며 이 과정을 거쳐 상기 인식부(303)는 순수하게 음성학적 특성에만 집중해 분석할 수 있게 된다. 추출된 음성 특징 벡터들은 상기 인식부(303)로 넘어가 미리 저장된 음향모델과 비교하게 되며 그 결과는 언어처리 과정을 거쳐 최종 인식된 문장으로 출력되게 된다.

특히, 미리 저장된 음향 모델과 비교하는 과정에서 데이터베이스가 사용되며, 본 발명의 일실시예에 의한 멀티미디어 디바이스는 내부 데이터베이스 및 외부 데이터베이스를 동시에 이용 가능하도록 설계된다. 이에 대해서는 다시 상세히 설명하도록 하겠다.

한편, 특징 벡터 추출 방법은, 인간이 음성을 인지하는 방법을 흉내내는 관점에 따라 여러 종류가 있으며 대표적으로는, 모든 주파수 대역에 동일하게 비중을 두어 분석하는 LPC(Linear Predictive Coding) 추출법, 혹은 사람의 음성 인지 양상이 선형적이지 않고 로그 스케일과 비슷한 멜 스케일을 따른다는 특성을 반영한 MFCC(Mel Frequency Cepstral Coefficients) 추출법, 음성과 잡음을 뚜렷하게 구별하기 위해 고주파 성분을 강조해 주는 고역강조 추출법, 음성을 짧은 구간으로 나누어 분석할 때 생기는 단절로 인한 왜곡현상을 최소화 하는 창 함수 추출법 등이 있다.

그리고, 상기 인식부(303)는 상기 멀티미디어 디바이스(300)의 내부 또는 외부에 위치한 음성 인식 관련 데이터베이스의 음성학적 정보와 상기 전처리부(302)에서 넘어온 특징 벡터와의 비교를 통해 음성 인식 결과를 획득하게 된다.

또한, 음성 인식을 위한 데이터베이스 검색 과정은, 크게 단어 단위 검색과 문장 단위 검색으로 분류할 수가 있다. 단어 단위 검색에서는 얻어 낸 특징 벡터를 데이터베이스에 저장된 단어 모델, 즉 각 단어의 음성학적 특징, 또는 그보다 짧게 음소 단위의 음향 모델과의 비교를 통해 가능한 단어에 대한 경우를 추출한다. 데이터베이스에 미리 저장된 음향 모델과의 패턴 비교를 통해 적절한 후보 패턴을 찾아내는 과정이므로 패턴분류라고 하기도 한다.

패턴 분류 과정을 거친 결과는 일련의 후보 단어 또는 후보 음소의 형태로 문장 단위 검색으로 넘어가게 된다. 이 과정에서는 후보단어 또는 후보음소들의 정보를 토대로 하며 문법 구조, 전체적인 문장 문맥, 특정 주제에의 부합 여부를 판단하여 어떤 단어나 음소가 가장 적합한지를 판단하게 된다. 예를 들어 ‘나는 간다’는 문장에서 불명확한 발음이 섞여 ‘는’과 ‘능’이 잘 구분이 되지 않는다고 가정해 보자.

이 때 음성인식 시스템은 패턴 분류 과정에서 ‘는’과 ‘능’이라는 두 개의 후보 단어를 결과로 생성해 내게 된다. 곧이어 따라 나오는 문장 단위 검색 과정에서는 문장 구조 분석을 통해 ‘는’이 문장에서 조사 역할을 담당한다는 것을 알아내게 되고 ‘능’이라는 조사는 존재하지 않으므로 후보에서 배제하게 된다.

즉, 어휘 및 문법 구조에의 제약을 통해 인식성능을 향상시키는 과정이다. 이 과정에서는 문법 구조 뿐만 아니라 의미 정보도 함께 이용되며 따라서 언어처리 과정이라고도 한다. 또한, 패턴 분류와 언어처리 과정에서 이용되는 데이터들은 미리 컴퓨터에 의해 학습되어 데이터베이스에 저장된다.

상기 인식부(303)에서 주로 사용되는 대표적인 기술은 HMM(Hidden Markov Model)으로 통계적 패턴 인식을 기반으로 하며 단어 단위 검색과 문장 단위 검색 과정이 하나의 최적화 과정으로 통합된 방식이다. 이 방법은 음성단위에 해당하는 패턴들의 통계적 정보를 확률모델 형태로 저장하고 미지의 입력패턴이 들어오면 각각의 모델에서 이 패턴이 나올 수 있는 확률을 계산함으로써 이 패턴에 가장 적합한 음성단위를 찾아내는 방법이다.

다시 도 3을 참조하여, 상기 인식부(303)에서 음성 인식을 위해 필요한 데이터베이스(특히, 본 발명의 일실시예에 의하면, 내부 데이터베이스 및 외부 데이터베이스 등 하이브리드 형태의 DB 를 사용함)에 액세스 및 음성 인식 결과를 처리하는 과정을 상세히 설명하면 다음과 같다.

도 3에 도시된 바와 같이, 상기 보이스 센서(301)는, 상기 멀티미디어 디바이스(300)의 유저의 음성 데이터를 수신하고, 상기 전처리부(302)는 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출한다. 또는, 상기 전처리부(302)는 외부 모바일 디바이스(310)로부터 음성 데이터를 수신하도록 설계할 수도 있다.

상기 인식부(303)는, 우선 상기 멀티미디어 디바이스(300)내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석한다. 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 제어부(304)는 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어한다.

반면, 상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 네트워크 인터페이스(305)는 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송한다. 상기 외부 디바이스는, 예를 들어 도 2에 도시된 서버(230) 등에 해당한다.

따라서, 멀티미디어 디바이스(300) 자체의 기능을 컨트롤 하는 키워드와 관련된 음성 인식 데이터베이스는 내부 DB가 이용되므로, 보다 신속하게 명령을 실행할 수 있고 또한 기능 자체는 제한되어 있으므로, 외부 DB 를 이용할 필요가 없다. 나아가, 멀티미디어 디바이스(300)의 기능과 무관한 키워드와 관련된 음성 인식 데이터베이스는 외부 DB가 이용되므로, 보다 다양한 음성 인식 서비스사 가능한 장점이 있다. 상기 외부 DB는 업데이트가 용이하고 상대적으로 많은 데이터를 보유하고 있다는 점에서 내부 DB와 구별된다.

한편, 전술하여 설명한 기설정된 태그(tag)라 함은, 예컨대 상기 멀티미디어 디바이스(300)를 컨트롤 하는 명령을 실행하기 위한 특정 글자의 조합으로 구성되어 있다. 이에 대해서는 도 4 및 도 5를 참조하여 보다 상세히 후술하도록 하겠다.

또한, 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스(300)는, 도 3에 도시된 바와 같이 디스플레이부(306)를 더 포함하고 있다. 상기 디스플레이부(306)는, 상기 멀티미디어 디바이스(300)의 현재 상태가 타이핑 모드인 경우, 전술하여 설명한 외부 디바이스로부터 수신된 키워드 자체를 타이핑 영역에 디스플레이 한다. 반면, 상기 디스플레이부(306)는, 상기 멀티미디어 디바이스(300)의 현재 상태가 타이핑 모드가 아닌 경우에는, 상기 외부 디바이스로부터 수신된 키워드와 관련된 컨텐츠 리스트를 디스플레이 하도록 설계된다. 상기 외부 디바이스는, 예컨대 상기 멀티미디어 디바이스(300)와 네트워크로 연결된 서버(도 2에 도시된 230)에 대응한다. 한편, 상기 디스플레이부(306)가 출력하는 스크린에 대해서는 도 10 내지 도 12를 참조하여 보다 상세히 후술하도록 하겠다.

도 4는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제1실시예를 도시한 도면이다. 이하, 도 4를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 "TV" 란 공통 태그를 저장하고 있는 내부 데이터베이스를 이용하여 음성 인식 서비스를 수행하는 방법을 설명하면 다음과 같다.

도 4에 도시된 바와 같이, 멀티미디어 디바이스(예를 들어, TV 등) 자체의 기능을 컨트롤 하는 키워드에 대해서는, 공통적으로 "TV" 라는 태그를 붙이도록 설정하고 이를 내부 데이터베이스에 저장하도록 설계한다. 따라서, "TV" 라는 음성이 인식된 경우에는 내부 데이터베이스에 신속히 액세스 하고, "TV" 가 아닌 다른 단어가 인식된 경우에는 내부 DB 또는 외부 DB에 액세스 하여 보다 다양한 정보들을 컬렉트할 수 있도록 설계한다.

또한, "TV" 다음에 발음되어진 개별 명령어(도 4에 도시된 볼륨 업, 볼륨 다운, 파워 온, 파워 오프)를 인식한 다음, 해당 컨트롤 명령을 수행하도록 제어함으로써, 불필요하게 외부 데이터베이스까지 액세스하는 과정에서 발생하는 시간 낭비를 줄일 수가 있다.

도 5는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식을 위한 내부 데이터베이스(DataBase)의 제2실시예를 도시한 도면이다. 이하, 도 5를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 "기기" 란 공통 태그를 저장하고 있는 내부 데이터베이스를 이용하여 음성 인식 서비스를 수행하는 방법을 설명하면 다음과 같다.

도 5에 도시된 바와 같이, 멀티미디어 디바이스(예를 들어, 기기 등) 자체의 기능을 컨트롤 하는 키워드에 대해서는, 공통적으로 "기기" 라는 태그를 붙이도록 설정하고 이를 내부 데이터베이스에 저장하도록 설계한다. 따라서, "기기" 라는 음성이 인식된 경우에는 내부 데이터베이스에 신속히 액세스 하고, "기기" 가 아닌 다른 단어가 인식된 경우에는 내부 DB 또는 외부 DB에 액세스 하여 보다 다양한 정보들을 컬렉트할 수 있도록 설계한다.

또한, "기기" 다음에 발음되어진 개별 명령어(도 5에 도시된 채널 업, 채널 다운, 파워 온, 파워 오프)를 인식한 다음, 해당 컨트롤 명령을 수행하도록 제어함으로써, 불필요하게 외부 데이터베이스까지 액세스하는 과정에서 발생하는 시간 낭비를 줄일 수가 있다.

도 6은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다. 이하, 도 6을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스가 내부 DB 및 외부 DB를 선택적으로 이용하여 음성 인식 서비스를 제공하는 방법을 설명하면 다음과 같다.

서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스는, 상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신한다(S610). 또한, 상기 멀티미디어 디바이스는, 상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출한다(S620).

상기 멀티미디어 디바이스는, 상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단한다(S630).

상기 판단 결과(S630) 상기 제1데이터베이스에 존재하는 경우, 상기 멀티미디어 디바이스는 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어한다(S640).

반면, 상기 판단 결과(S630) 상기 제1데이터베이스에 존재하지 않는 경우, 상기 멀티미디어 디바이스는, 상기 멀티미디어 디바이스 외부에 위치하며 또한 네트워크로 연결된 제2데이터베이스에 액세스 한다(S650). 또한, 상기 멀티미디어 디바이스는, 상기 제2데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단한다.

상기 제2데이터베이스에 존재하는 경우, 상기 멀티미디어 디바이스는 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어한다(S660).

도 7은 도 6에 도시된 전체 단계들 중에서, 특정 S640 단계를 보다 상세히 도시한 플로우 차트이다. 이하, 도 7을 참조하여, 도 6에 도시된 S640 단계의 세부 스텝들을 설명하면 다음과 같다.

전술하여 설명한 상기 S640 단계는, 도 7에 도시된 바와 같이 상기 키워드가 기설정된 태그를 포함하고 있는지 여부를 판단하는 단계(S641)를 더 포함한다. 상기 태그는 도 4 및 도 5에서 상세히 설명하였으므로, 동일한 설명은 생략하도록 하겠다.

그리고, 상기 S640 단계는, 상기 판단 결과(S641) 포함하고 있는 경우, 상기 키워드에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 단계(S642)와, 그리고 상기 판단 결과(S641) 포함하고 있지 않은 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계(S643)를 더 포함하도록 설계한다. 특히, 전술하여 설명한 S642 단계는 도 10을 참조하여 보충적으로 해석할 수 있으며, 전술하여 설명한 S643 단계는 도 11을 참조하여 보충적으로 해석할 수가 있다.

도 8은 도 6에 도시된 전체 단계들 중에서, 특정 S660 단계를 보다 상세히 도시한 플로우 차트이다. 이하, 도 8을 참조하여, 도 6에 도시된 S660 단계의 세부 스텝들을 설명하면 다음과 같다.

전술하여 설명한 상기 S660 단계는, 도 8에 도시된 바와 같이 상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드인지 여부를 판단하는 단계(S661)를 더 포함한다.

그리고, 상기 S660 단계는, 상기 판단 결과(S661) 타이핑 모드인 경우, 상기 키워드 자체를 타이핑 영역에 디스플레이 하는 단계(S662)와, 그리고 상기 판단 결과(S661) 타이핑 모드가 아닌 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계(S663)를 더 포함하도록 설계한다. 특히, 전술하여 설명한 S662 단계는 도 12를 참조하여 보충적으로 해석할 수 있으며, 전술하여 설명한 S663 단계는 도 11을 참조하여 보충적으로 해석할 수도 있다.

도 9는 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스의 제어 방법을 시간 흐름에 따라 도시한 플로우 차트이다. 이하, 도 9를 참조하여, 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스의 제어 방법을, 임베디드 영역과 서버 영역으로 나누어 설명하도록 하겠다. 특히, 상기 임베디드 영역이라 함은, 예컨대 전술하여 설명한 내부 데이터베이스를 이용하여 음성 인식을 처리하는 부분을 의미하고, 상기 서버 영역이라 함은, 예컨대 전술하여 설명한 외부 데이터베이스를 이용하여 음성 인식을 처리하는 부분을 의미한다.

본 발명의 다른 일실시예에 의한 멀티미디어 디바이스는, 유저의 음성 데이터를 수신한다(S910). 나아가, 상기 멀티미디어 디바이스는, 상기 수신된 음성 데이터가 내부 DB에 존재하는지 여부를 1차적으로 판단한다(S920). 상기 내부 DB는 예를 들어, 도 4 또는 도 5에 도시된 바와 같이 공통 태그를 포함하도록 설계한다.

상기 판단 결과(S920) 내부 DB에 존재하는 경우, 인식된 음성 데이터가 명령어에 해당하는지 여부를 다시 판단한다(S930). 상기 판단 결과(S930) 명령어에 해당하는 경우, 멀티미디어 디바이스의 특정 기능을 자동으로 실행한다(S940).

반면, 상기 판단 결과(S930) 명령어에 해당하지 않는 경우에는, 인식된 음성 데이터와 관련된 검색 결과를 디스플레이 한다(S980).

한편, 상기 판단 결과(S920) 내부 DB에 존재하지 않는 경우에는, 인식된 음성 데이터를 외부 서버로 전송한다(S950). 그리고 이 때, 상기 외부 서버의 데이터베이스를 이용 가능하도록 설계된다.

그리고, 멀티미디어 디바이스의 현재 상태가 타이핑 모드인지 여부를 판단한다(S960). 상기 판단 결과(S960) 타이핑 모드인 경우에는 인식된 음성 데이터 자체에 대한 딕테이션(dictation) 을 수행하며(S970), 상기 판단 결과(S960) 타이핑 모드가 아닌 경우에는 인식된 음성 데이터와 관련된 검색 결과를 디스플레이 한다(S980).

다시 정리하여 설명하면, 음성 인식 결과, 공통 구분자(Tag)가 삽입되어 있는 경우(예를 들어, "TV on", "TV Off", "TV Volume up" 등)에는, 지체없이 해당 명령어에 대응하는 디바이스 컨트를을 수행한다.

반면, 음성 인식 결과, 공통 구분자(예컨대 "TV")가 존재하지 않는 경우(예를 들어, "무안 도전", "소년 시대" 등)에는, 외부 서버에 액세스 하여 검색을 수행한다.

또한, 음성 인식 시 명령어 DB (Embedded type)에 단어 일치율이 낮은 경우 (예를 들어, 도 4 또는 도 5에 도시된 명령어 List 에 존재 하지 않는 단어)에는, 서버를 통해 음성 데이터를 전송하고, 서버 영역에서 음성 데이터를 처리한다.

한편, 음성 인식 결과 컨텐츠에 대한 검색이 요청되는 경우에는, 멀티미디어 디바이스 내부 또는 근거리에 위치한 다른 디바이스(예들 들어, PC, Set-top, Mobile, Network HDD)의 데이터베이스를 이용하여 검색을 실시한다. 또한, 전술한 과정과 더불어 병행하여, 음성 데이터를 서버로 전송하여 원거리 네트워크 상의 웹검색도 동시에 수행하도록 설계할 수도 있다.

그리고, 멀티미디어 디바이스의 입력 상태(state)를 우선적으로 확인하여, 단순 딕테이션이 목적인지 또는 관련 컨텐츠 검색이 목적인지 여부에 대한 사용자 의도를 판별한다.

도 10은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 일예를 도시한 도면이다. 이하, 도 10을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스 중, 내부 데이터베이스를 이용하여 특정 기능을 수행하는 과정을 설명하면 다음과 같다.

우선, 도 10의 (a)에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1000)는 볼륨 상태가 "3" 레벨(1030)로 설정되어 있다고 가정하겠다. 이 때, 상기 멀티미디어 디바이스(1000)의 유저(1010)가, 'TV 볼륨 업'(1020)이라고 발성한 경우, 해당 음성 데이터는 상기 멀티미디어 디바이스(1000)로 전송된다. 이 때, 상기 멀티미디어 디바이스(1000)는 도 3과 같이 설계되어 진다.

그 다음, 내부 데이터베이스를 이용하여 상기 해당 음성 데이터를 인식한 멀티미디어 디바이스(1050)는, 도 10의 (b)에 도시된 바와 같이 TV 볼륨 상태를 한 단계 높여서 "4" 레벨(1060)로 자동 설정한다. 상기 내부 데이터베이스에 대해서는 전술한 도 4 또는 도 5에서 충분히 설명한 바, 동일한 설명은 생략하도록 하겠다.

도 11은 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 다른 일예를 도시한 도면이다. 이하, 도 11을 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스 중, 외부 데이터베이스를 이용하여 관련 컨텐츠 리스트를 제공하는 과정을 설명하면 다음과 같다.

우선, 도 11의 (a)에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1100)의 유저(1110)가, '마이크 잭스'(1120)라고 발성한 경우, 해당 음성 데이터는 상기 멀티미디어 디바이스(1100)로 전송된다. 이 때, 상기 멀티미디어 디바이스(1100)는 도 3과 같이 설계되어 진다.

그 다음, 외부 데이터베이스를 이용하여 상기 해당 음성 데이터를 인식한 멀티미디어 디바이스(1150)는, 도 11의 (b)에 도시된 바와 같이 인식된 해당 음성 데이터와 관련된 컨텐츠 리스트(1160, 1170, 1180, 1190)를 자동으로 디스플레이 하도록 설계한다.

그리고, 도 12는 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스의 또 다른 일예를 도시한 도면이다. 이하, 도 12를 참조하여, 본 발명의 일실시예에 의한 멀티미디어 디바이스의 음성 인식 서비스 중, 외부 데이터베이스를 이용하여 인식된 음성 데이터의 딕테이션(dictation)을 실행하는 과정을 설명하면 다음과 같다.

우선, 도 12의 (a)에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(1200)의 유저(1210)가, '키 크는 방법'(1220)이라고 발성한 경우, 해당 음성 데이터는 상기 멀티미디어 디바이스(1200)로 전송된다. 이 때, 상기 멀티미디어 디바이스(1200)는 도 3과 같이 설계되어 진다.

그 다음, 외부 데이터베이스를 이용하여 상기 해당 음성 데이터를 인식한 멀티미디어 디바이스(1250)는, 도 12의 (b)에 도시된 바와 같이 인식된 해당 음성 데이터(1260)를 그대로 출력한다. 도 11과 달리 관련 컨텐츠 리스트를 디스플레이 하지 않는 이유는, 도 12에 도시된 바와 같이 현재 멀티미디어 디바이스의 상태가 키워드 타이핑 모드에 해당하기 때문이다. 따라서, 멀티미디어 디바이스의 현재 모드, 상태에 따라 다른 종류의 결과물을 제공하는 것이 본 발명 특유의 효과라 할 것이다.

이상 전술하여 설명한 본 발명의 일실시예들에 의하면, 내부 데이터베이스를 이용하여 명령 수행은 빠른 수행 타임을 유지하고, 많은 데이터 처리를 요구하는 경우에는 외부 데이터베이스를 이용하여 보다 다이나믹한 컨텐츠 검색 결과를 디스플레이 하는 장점이 있다.

한편, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양발명의 설명은 보충적으로 적용될 수가 있다. 또한, 설명의 편의상 각 도면을 나누어 설명하고 있으나, 도면 또는 실시예들을 결합하여 다른 실시예를 구현하는 것도 본 발명의 권리범위에 속한다.

본 발명에 따른 방법 발명은 모두 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

200 : 멀티미디어 디바이스
210 : 제1기기 데이터베이스(DB)
220 : 제2기기 데이터베이스(DB)
230 : 서버

Claims

서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스의 제어 방법에 있어서,
상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 단계;
상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 단계;
상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계;
상기 제1데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계;
상기 제1데이터베이스에 존재하지 않는 경우, 상기 멀티미디어 디바이스 외부에 위치하며 또한 네트워크로 연결된 제2데이터베이스를 이용하여, 상기 추출된 특징 벡터에 대응하는 키워드가 존재하는지 여부를 판단하는 단계; 그리고
상기 제2데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 단계를 포함하고,
상기 제2데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 상기 단계는,
상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드인지 여부를 판단하는 단계;
상기 판단 결과 타이핑 모드인 경우, 상기 키워드 자체를 타이핑 영역에 디스플레이 하는 단계; 그리고
상기 판단 결과 타이핑 모드가 아닌 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계
를 포함하는 멀티미디어 디바이스의 제어 방법.
제1항에 있어서,
상기 제1데이터베이스에 존재하는 경우, 상기 키워드에 따른 음성 인식 서비스가 실행되도록 제어하는 상기 단계는,
상기 키워드가 기설정된 태그를 포함하고 있는지 여부를 판단하는 단계;
상기 판단 결과 포함하고 있는 경우, 상기 키워드에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 단계; 그리고
상기 판단 결과 포함하고 있지 않은 경우, 상기 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 단계
를 포함하는 멀티미디어 디바이스의 제어 방법.
삭제
제1항에 있어서,
상기 제2데이터베이스는,
상기 멀티미디어 디바이스와 네트워크로 연결된 서버에 의해 관리되는 데이터베이스에 대응하는 것을 특징으로 하는 멀티미디어 디바이스의 제어 방법.
제1항에 있어서,
상기 수신하는 단계는,
상기 멀티미디어 디바이스와 통신이 가능한 모바일 디바이스에 부착된 음성 디텍팅 센서로부터 획득된 음성 데이터를 수신하는 것을 특징으로 하는 멀티미디어 디바이스의 제어 방법.
삭제
서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스에 있어서,
상기 멀티미디어 디바이스의 유저의 음성 데이터를 수신하는 보이스 센서;
상기 수신된 음성 데이터로부터 인식에 필요한 특징 벡터를 추출하는 전처리부;
상기 멀티미디어 디바이스내 위치한 제1데이터베이스를 이용하여, 상기 추출된 특징 벡터를 분석하는 인식부;
상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있는 경우, 상기 음성 데이터에 대응하는 디바이스 컨트롤 명령이 실행되도록 제어하는 제어부;
상기 분석 결과 상기 음성 데이터가 기설정된 태그를 포함하고 있지 않은 경우, 상기 추출된 특징 벡터를, 제2데이터베이스를 포함하는 외부 디바이스로 전송하는 네트워크 인터페이스; 그리고
상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드인 경우, 상기 외부 디바이스로부터 수신된 키워드 자체를 타이핑 영역에 디스플레이 하고,
상기 멀티미디어 디바이스의 현재 상태가 타이핑 모드가 아닌 경우, 상기 외부 디바이스로부터 수신된 키워드와 관련된 컨텐츠 리스트를 디스플레이 하는 디스플레이부를 포함하는 멀티미디어 디바이스.
삭제
제7항에 있어서,
상기 외부 디바이스는,
상기 멀티미디어 디바이스와 네트워크로 연결된 서버에 대응하는 것을 특징으로 하는 멀티미디어 디바이스.
제7항에 있어서,
상기 기설정된 태그는,
상기 디바이스 컨트롤 명령을 실행하기 위한 특정 글자의 조합으로 구성되는 것을 특징으로 하는 멀티미디어 디바이스.
제7항에 있어서,
상기 멀티미디어 디바이스는,
네트워크 TV, 커넥티드 TV, 스마트 TV, 웹 TV, 인터넷 TV 중 적어도 하나에 대응하는 멀티미디어 디바이스.