KR20130097513A

KR20130097513A - 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법

Info

Publication number: KR20130097513A
Application number: KR1020120019231A
Authority: KR
Inventors: 강민구; 이쌍수; 조기형
Original assignee: 엘지전자 주식회사
Priority date: 2012-02-24
Filing date: 2012-02-24
Publication date: 2013-09-03
Also published as: KR101962126B1

Abstract

본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스의 제어 방법은, 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 단계와, 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 단계와, 상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 단계와, 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 단계와, 그리고 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하는 단계를 포함한다.

Description

음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법{MULTIMEDIA DEVICE FOR ACCESSING DATABASE ACCORDING TO RESULT OF VOICE RECOGNITION AND METHOD FOR CONTROLLING THE SAME}

본 발명은 멀티미디어 디바이스(multimedia device)에 대한 것으로서, 보다 상세하게는 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법에 관한 것이다. 상기 멀티미디어 디바이스는, 예를 들어 DTV(digital television), 네트워크 TV, IPTV, 스마트 TV, 웹 TV, 모바일 디바이스 또는 스마트폰 등에 적용될 수가 있다.

최근 모바일 폰 또는 TV 등의 멀티미디어 디바이스를 이용한 보이스 인식 기술이 논의되고 있다. 다만, 종래 기술에 의하면, 응답에 대한 참조값의 데이터베이스가 자동으로 업데이트 되지 않아서 항상 동일한 고정된 답변만을 확인하는 한계가 있었다.

또한, 종래 기술에 의한 TTS(Text To Speech) 서비스는 지정된 화자 또는 디폴트된 화자의 목소리 만으로 답변이 제공되므로, 유저에게 다양한 멀티미디어 서비스를 제공할 수 없는 문제점이 있었다.

본 발명의 일실시예는, 전술하여 설명한 문제점들을 해결하고저 유저의 질문값에 최적화된 데이터베이스(database)를 자동으로 업데이트 하는 솔루션을 제안하고자 한다.

또한, 본 발명의 다른 일실시예는, 유저의 질문값에 대응하는 데이터베이스 검색 실패시 유저에게 차선의 데이터를 제공하는 방법을 제안하고자 한다.

그리고, 본 발명의 또 다른 일실시예는, 음성 인식 서비스의 결과물을 단순 텍스트로만 출력하지 않고, 맵핑된 멀티미디어 데이터와 연동하여 서비스를 제공하는 프로토콜을 정의하고자 한다.

나아가, 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스는, 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 추출 모듈과, 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 메모리와, 상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 인식 모듈과, 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 검색 엔진과, 그리고 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하는 디스플레이 모듈을 포함한다.

본 발명의 일실시예에 의하면, 유저의 질문값에 최적화된 데이터베이스(database)를 자동으로 업데이트 하는 솔루션을 제공한다.

또한, 본 발명의 다른 일실시예는, 유저의 질문값에 대응하는 데이터베이스 검색 실패시 유저에게 차선의 데이터를 제공하는 방법을 제공한다.

그리고, 본 발명의 또 다른 일실시예는, 음성 인식 서비스의 결과물을 단순 텍스트로만 출력하지 않고, 맵핑된 멀티미디어 데이터와 연동하여 서비스를 제공하는 프로토콜을 정의한다.

도 1은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 도시한 블록도이다.
도 2는 도 1에 도시된 인식 모듈을 보다 상세히 설계한 도면이다.
도 3은 본 발명의 일실시예에 따라 추출된 텍스트 데이터 및 오디오 데이터를 예시한 도면이다.
도 4는 본 발명의 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 화자별 데이터베이스를 도시한 도면이다.
도 5는 본 발명의 다른 일실시에에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 장르별 데이터베이스를 도시한 도면이다.
도 6은 본 발명의 또 다른 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 선호채널별 데이터베이스를 도시한 도면이다.
도 7은 본 발명의 일실시예에 의한 멀티미디어 디바이스를 이용하여 유저의 음성 신호를 입력하는 과정을 도시한 도면이다.
도 8은 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장된 경우의 처리 프로세스를 도시한 도면이다.
도 9는 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장되어 있지 않은 경우의 처리 프로세스를 도시한 도면이다.
그리고, 도 10은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 제어하는 방법을 도시한 플로우 차트이다.

이하에서는 도면을 참조하여 본 발명을 더욱 상세하게 설명한다.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함을 고려하여 부여되는 것으로서, 상기 "모듈" 및 "부"는 서로 혼용되어 사용될 수도 있다.

나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시 예를 상세하게 설명하지만, 본 발명이 실시 예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

도 1은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 도시한 블록도이다. 이하, 도 1을 참조하여, 유저로부터 전송되는 음성 신호를 처리하는 과정과, 그리고 방송국이나 서버로부터 전송되는 방송 신호를 처리하는 과정을 설명하도록 하겠다.

네트워크 인터페이스(110)는 방송국이나 서버 등으로부터 방송 화면을 구현하기 위한 일반적인 A/V 데이터를 수신할 뿐만 아니라, 각 방송의 캡션(teletext) 데이터를 수신한다. 상기 캡션 데이터를 텍스트 데이터로 명명할 수 있으며, 오디오 데이터와 맵핑되어 있다. 따라서, 오디오 신호의 싱크 정보에 기초하여, 적절한 타이밍에 텍스트 데이터를 출력할 수가 있다.

추출 모듈(120)은 적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하고, 메모리(130)는 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하고 있다. 또한, 추출된 방송의 EPG 정보(ex : 방송 시간, 프로그램명, 출연자 정보 등)를 추가적으로 이용하여, 부가 서비스를 제공할 수도 있다.

특히, 본 발명의 일실시예에 의하면, 유저의 음성 신호에 대하여 동일한 답변을 제공하는 종래 기술의 문제점을 해결하여 데이터베이스를 자동으로 업데이트 한다. 관련하여, 도 3 내지 도 6을 참조하여 보다 상세히 후술하도록 하겠다.

예를 들어, 방송 신호의 텍스트 데이터에 포함된 주요 키워드를 추출하며, 특히 노출 빈도가 높은 참조어들(예를 들어, 날씨, 스포츠, 뉴스, 교통사고, 화재 등)에 대한 데이터베이스를 축적한다. 나아가, 전술한 방송 신호의 텍스트 데이터에 물음표가 포함된 경우, 이어지는 답변을 데이터베이스에 우선적으로 저장하도록 설계한다.

인식 모듈(140)은, 상기 멀티미디어 디바이스(100)의 유저로부터 음성 신호를 인식하고, 검색 엔진(150)은 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하도록 설계한다. 상기 인식 모듈(140)에 대해서는, 도 2를 참조하여 보다 상세히 후술하겠다.

그리고, 디스플레이 모듈(180)은, 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하도록 설계한다. 물론, 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하는 경우에는, 대응하는 멀티미디어 데이터 중 그래픽 데이터는 디스플레이 모듈(180)을 통해 출력하고 상기 대응하는 멀티미디어 데이터 중 오디오 데이터는 스피커(170)를 통해 출력하도록 컨트롤러(160)를 설계한다.

종래 기술에 의하면, 유저의 음성을 인식할 수 없거나 관련된 응답 데이터가 메모리에 저장되어 있지 않은 경우, 아무러 결과물을 출력하지 않거나 단순히 에러 메시지를 디스플레이 한다. 반면, 전술한 본 발명의 일실시예에 의하면, 인식된 키워드가 입력된 웹페이지 화면을 유저가 신속하게 액세스할 수 있도록 설계하는 장점이 있다.

도 2는 도 1에 도시된 인식 모듈을 보다 상세히 설계한 도면이다. 이하, 도 2를 참조하여 본 발명의 일실시예에 의한 멀티미디어 디바이스가 유저의 음성 신호를 인식하는 프로세스를 설명하도록 하겠다. 다만, 도 2는 일실시예이며, 다른 프로세스로 음성 인식이 이루어 지도록 설계할 수도 있다.

음성인식 기술은 일반적으로 패턴 매칭 기법을 기반으로 한다. 즉, 인식 대상 단어 또는 음소의 특징 파라미터를 미리 컴퓨터의 메모리에 저장해 놓고, 화자의 음성이 입력되면 이를 분석하여 특징을 추출한 후 미리 저장되어 있는 단어 또는 음소의 특징들과 유사도를 측정하여 가장 유사한 것을 인식 결과로 출력한다.

또한, 인식 알고리즘의 대표적인 예로 동적적합법(Dynamic Time Warping, DTW), 은닉마코프모델(Hidden Markov Model, HMM), 신경망(Neural Network) 등이 있으며, 대략적인 방법을 설명하면 다음과 같다.

동적적합법(Dynamic time warping:DTW)은, 대표 패턴과 주어진 input 패턴을 비교하여 유사성을 판별하는 방법이다. 같은 단어를 발성할 경우라도 화자, 감정, 주변환경에 따라 각기 다른 지속시간을 가지므로, 이러한 지속길이의 불일치를 비선형적으로 최적화하는 방법으로 부분최적화에 기반을 두어 전체적인 최적화를 수행하는 특성을 갖는다. 방법은 인식 대상 어휘가 작은 고립단어인식에 주로 이용되며, 기준 패턴을 쉽게 만들 수 있기 때문에 음성인식 시스템의 업무내용을 용이하게 변경할 수 있는 장점이 있다.

은닉 마코프모델(Hidden Markov Model:HMM)은, 높은 인식율과 편리한 학습성으로 음성인식에 가장 널리 쓰이는 방법으로써 음성의 시간적 변화를 모델링하는 천이확률과 스펙트럼(spectrum) 변화를 모델링하는 출력확률로 구성된다. 입력패턴과 출력패턴간의 유사도를 이용하기보다는 주어진 모델과의 확률적인 추정값을 사용하여 모델의 유사도를 계산한다.

신경망(Neural Network)은, 인간의 뇌가 정보를 암호화하고 해독하는 과정을 공학적인 측면에서 모델링한 신경회로망을 이용하는 방법이다. 단순 퍼리 기능을 가진 인공뉴런들이 상호 밀도있게 연결되어 있으며, 이들간의 연결에 따라 다양한 기능을 수행하게 된다. 병렬계산능력,내고장성,적음 및 학습능력을 가지고 있다.

한편, 종래의 음성 처리 장치는 입력된 음성을 미리 설정된 어휘와 문법에 기반하여 인식하여 그 인식된 결과에 반응한다. 따라서, 종래 기술에 의할 경우, 문법상 하자 없는 음성에 대해서만 정확한 인식이 가능한 한계가 있었다.

이와 같은 문제점을 해결하기 위한 일방안을 도 2를 참조하여 설명하겠다. 다만, 다른 실시예로 음성 인식을 구현하는 것도 본 발명의 권리범위에 속하며, 특허청구범위에 기재된 사항에 따라 권리범위가 해석되어야 한다.

우선, 개체 추출부(241)는 입력된 음성으로부터 하나 이상의 개체 정보 및 그 개체 정보에 해당하는 상위개체명을 추출한다. 예를 들어, 음성신호는 "오늘 김태희가 나오는 드라마?" 라고 가정하도록 하겠다.

개체정보는 입력된 음성의 내용을 이루는 세분화된 정보를 의미한다. 결국, 음성은 하나 이상의 개체정보로 이루어질 수 있다. 예컨대, "오늘", "김태희", "가", "나오는", "드라마"로 분할될 수 있으며 각각이 개체정보이다.

결국, 음성을 이루는 각 문장속의 모든 개체 정보들은 서로 의미적으로 연결되어 있으나, 정상인이 이해 불가한 음성이 입력된다면, 개체정보들은 의미적으로 연결되어 있지 않다.

한편, 개체명은 현실 속의 모든 지칭 가능한 사물(thing)의 카테고리를 의미한다. 이러한 개체명은 트리구조와 같이 계층적으로 구성된다. 이와 같은 계층적 의미 체계를 이하 "온톨로지" 라 명명할 수도 있다.

예를 들어, 지칭 가능한 사물 중 하나인 "오늘"의 개체명은 시각일 수도 있고, 날짜 일 수도 있고, 방송 날짜일 수도 있다. 즉, "오늘"이 속한 카테고리는 "시각", "날짜", 또는 "방송 날짜" 이다. 이 경우, "시각"은 "날짜" 또는 "방송날짜" 보다 상위개념이며, "날짜" 는 "방송 날짜" 보다 상위 개념이다.

이와 같이, 복수의 개체명들간에는 소정의 계층적 상하관계가 성립한다. 따라서, "시각"은 "날짜" 보다 상위개체명이며, "날짜"는 "방송날짜" 보다 상위개체명이다.

결국, 전술한 예시에서 개체 추출부(241)는 "오늘, 김태희, 드라마" 라는 개체정보를 추출할 수 있고, 그에 해당하는 상위개체명으로 "날짜, 주연배우, 방송 장르, 방송 프로그램먕" 등을 추출할 수가 있다. 메모리(230)는 복수의 개체정보 및 개체명을 데이터베이스화하여 저장하고 있으며, 정기적으로 업데이트 되도록 설계한다.

개체 추출부(241)는 입력된 음성 신호의 내용 중 메모리(230)에 저장된 개체정보와 일치하는 부분을 감지하고, 그 감지된 개체 정보를 메모리(230)에서 추출한다.

또한, 개체 추출부(241)는 추출된 개체정보에 해당하는 상위개체명을 메모리(230)에서 추출한다. 전술한 예시에서, "오늘" 이라는 개체정보를 독출한 경우, 개체 추출부(241)는 "날짜" 라는 상위 개체명을 독출한다.

한편, 메모리(230)에는 복수의 상위개체명 뿐만 아니라 각각의 상위개체명에 속하는 복수의 하위개체명도 미리 저장하고 있다.

초점 결정부(242)는 추출된 개체정보들 중 반응을 요구하는 내용을 갖는 개체정보들을 이용하여, 초점을 결정한다. 전술한 예시에서, 개체 추출부(241)는 "오늘 김태희가 나오는 드라마" 음성 신호에서 명사 부분에 초점을 맞추어, "오늘", "김태희", "드라마" 부분의 개체명에 독출한다.

매핑부(243)는 상기 초점 결정부(242)에서 독출된 3개의 단어를 조합하여 검증부(244)에 전달하고, 상기 검증부(244)는 메모리(230)에 액세스 하여 방송 신호의 EPG 정보에서 대응하는 값들만을 불러 들인다.

즉, 김태희 라는 배우명을 가지는 드라마 중에서 오늘 방영되는 방송 프로그램들에 대한 정보를 읽어 들인다. 따라서, 인식부(245)는 예를 들어, 금일 방송 예정인 프로그램들 중에서, 김태희가 출연하는 드라마 중 특정 드라마에 대한 정보만을 인식하도록 설계된다.

도 3은 본 발명의 일실시예에 따라 추출된 텍스트 데이터 및 오디오 데이터를 예시한 도면이다. 이하, 도 3을 참조하여, 본 발명의 일실시예에 따라 추출된 텍스트 데이터 및 오디오 데이터를 이용하는 프로세스를 설명하도록 하겠다.

최근 데이터 방송에 의하면, 드라마, 뉴스, 연예 프로그램에서 제공하는 오디오 데이터에 대응하는 텍스트 데이터를 함께 제공한다. 따라서, 오디오 데이터 및 텍스트 데이터를 맵핑하여 추출 및 저장하는 것이 가능하다.

예를 들어, 도 3에 도시된 바와 같이, 연예 뉴스라는 방송 프로그램의 대본이 방송 신호를 통해 제공된다면, 김태희 라는 배우가 답변한 내용을 텍스트 및 오디오 데이터로 함께 저장한다. 특히, 각각의 답변 이전의 텍스트 데이터가 물음표로 종결되는 경우에 한해 데이터베이스로 구축함으로써, 추후 유저가 질문한 사항에 대해 답변하는 형식의 서비스를 제공하도록 유도하는 것이 가능하다.

전술한 도 1 및 도 2에서 설명한 바와 같이, 유저에 의해 인식된 음성 신호가 도 3에 도시된 리포터의 질문(예를 들어, 요즘 어때요? 또는 올해 나이는? 등)과 동일하거나 적어도 하나 이상의 키워드가 매칭하는 경우, 김태희 라는 배우가 답변한 각각의 내용을 특정 배우의 음성으로 출력하는 것이 가능하다.

즉, 이와 같이 설계하는 경우, 종래 기술과 같이 고정된(fixed) 한 사람의 음성 만으로 음성 서비스가 이루어 지지 않고, 유저가 원하는 유명인 상대방의 음성으로 오디오 서비스가 제공되는 장점이 있다. 따라서, 마치 가상의 현실 속에서 대화를 하는 듯한 인터랙티브 서비스가 가능한 효과가 있다.

도 4는 본 발명의 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 화자별 데이터베이스를 도시한 도면이다. 이하, 도 4를 참조하여, 본 발명의 일실시예에 의한 인터랙티브(interactive) 음성 서비스를 제공하기 위한 데이터베이스를 화자별로 구축하는 프로세스를 설명하도록 하겠다.

전술한 도 1 내지 도 3에서 설명한 바와 같이, 방송 신호를 통해 오디오 데이터에 대응하는 텍스트 데이터 및 화자가 맵핑되어 있는 것으로 가정하겠다.

우선, 제1유명인의 데이터베이스(410)는 방송 신호에 포함된 텍스트 데이터를 이용하여, 나이 및 주거지에 대한 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.

나아가, 제2유명인의 데이터베이스(420) 역시 방송 신호에 포함된 텍스트 데이터를 이용하여, 올해 목표 및 주거지에 대한 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.

전술하여 설명한 가상의 질의값을 맵핑하여 저장하는 이유는, 추후 유저로부터 인식된 음성 신호에 포함된 키워드와 가상의 질의값의 맵핑 정도에 따라 해당 답변을 출력할지 여부를 결정하기 위함이다.

예를 들어, 인식된 키워드와 75% 이상 일치하는 경우에 한하여 해당 답변을 오디오 데이터 등의 형태로 출력하되, 75% 일치율에 미달하는 경우에는 인식된 키워드를 특정 웹사이트의 검색창에 입력된 형태로 디스플레이 한다. 따라서, 유저에게 잘못된 정보를 전달할 확률을 최소화할 수 있는 장점이 있다.

도 5는 본 발명의 다른 일실시에에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 장르별 데이터베이스를 도시한 도면이다. 이하, 도 5를 참조하여, 본 발명의 일실시예에 의한 인터랙티브(interactive) 음성 서비스를 제공하기 위한 데이터베이스를 장르별로 구축하는 프로세스를 설명하도록 하겠다.

전술한 도 1 내지 도 3에서 설명한 바와 같이, 방송 신호를 통해 오디오 데이터에 대응하는 텍스트 데이터 및 장르(genre) 정보가 맵핑되어 있는 것으로 가정하겠다.

우선, 제1장르의 데이터베이스(510)는 방송 신호에 포함된 텍스트 데이터를 이용하여, 야구 결과 및 NBA 소식에 대한 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.

나아가, 제2장르의 데이터베이스(520) 역시 방송 신호에 포함된 텍스트 데이터를 이용하여, 시청률 및 특정 드라마의 주연배우 정보를 가상의 질의값과 함께 맵핑하여 저장하도록 설계한다.

이와 같이, 인식된 유저의 음성 신호에 대응하는 오디오 및 텍스트 데이터를 모든 데이터베이스에서 검색하도록 설계하지 않고, 인식된 음성 신호에 포함된 장르 정보에 기초하여 해당 장르 데이터베이스를 우선적으로 써치하도록 설계함으로써 데이터 처리 속도를 제고할 수 있는 장점이 있다.

도 6은 본 발명의 또 다른 일실시예에 따라, 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 선호채널별 데이터베이스를 도시한 도면이다.

이전 도 4 및 도 5에서는 유저의 특별한 액션 없이 자동으로 데이터베이스가 구축되는 경우를 상정하였다. 다만, 이하 후술할 도 6에서는 유저의 니즈를 보다 명확히 반영하는 실시예를 설명하도록 하겠다.

로그인 정보를 처리할 수 있는 멀티미디어 디바이스의 경우, 동일한 멀티미디어 디바이스를 사용하는 각 유저별로 선호 채널을 설정할 수가 있다. 예를 들어, A 유저는 채널 1, 2, 3을 선호채널로 설정하여 장기간 시청하며, B 유저는 채널 5, 6, 7을 선호채널로 설정하여 상대적으로 많은 시간 시청할 가능성이 높다.

따라서, 인식된 유저의 음성 신호에 대응하는 답변을 모든 데이터베이스에서 검색하는 것 보다, 로그인한 유저의 선호 채널 DB 부터 우선적으로 써치하도록 설계함이 바람직하다.

또한, 도 6에 도시된 선호 채널 DB(610)는 다수의 채널로부터 수신하는 방송 신호 중에서 특히, 특정 유저가 설정한 선호 채널로부터 수신하는 방송 신호로 수집한 텍스트 데이터 및 오디오 데이터만을 제한적으로 포함하고 있다. 반면, 기타 DB(620)는 선호 채널 이외의 채널로부터 수신한 방송 신호에 포함된 텍스트 데이터 및 오디오 데이터를 저장하고 있다.

예를 들어, 12번의 스포츠 채널을 선호 채널로 등록한 유저는 스포츠 관련 오디오 서비스를 제공받고저 할 가능성이 상대적으로 높다. 따라서, 다른 데이터베이스에 대한 검색에 앞서, 유저에 인식된 음성 신호(예를 들어, 오늘 A 축구 게임 중계 시각은?, B 야구 선수의 기록은? 등)에 대응하는 텍스트/오디오 데이터를 12번 선호 채널 DB 에서 우선적으로 검색하도록 설계한다.

도 7은 본 발명의 일실시예에 의한 멀티미디어 디바이스를 이용하여 유저의 음성 신호를 입력하는 과정을 도시한 도면이다. 이하, 도 7을 참조하여, 특정 채널의 방송을 시청하던 유저가 본 발명이 적용된 서비스를 구현하는 과정을 설명하도록 하겠다.

우선, 도 7에 도시된 본 발명의 일실시예에 의한 멀티미디어 디바이스(700)는 도 1 및 도 2에 도시된 블록도를 참조하여 반복 실시 가능하다. 물론, 당업자의 필요에 따라 다른 음성 인식 기술을 적용하는 경우도 본 발명의 권리범위에 속한다.

또한, 상기 멀티미디어 디바이스(700)는 예를 들어, 네트워크 TV, DTV, 스마트 TV, 웹 TV, 인터넷 TV, HBBTV 등으로 구현할 수도 있다.

상기 멀티미디어 디바이스(700)를 이용하여 임의의 방송 채널 화면(702)을 시청하던 유저(701)는 현재 시청 중인 방송 화면(702)과 관계 없는 음성 신호(예를 들어, 요즘 김태희는?)를 생성한다.

본 발명의 일실시예에 의한 멀티미디어 디바이스(700)가 음성 신호를 분석하여 인식하는 방법에 대해서는, 이전 도 1 및 도 2에서 충분히 설명한 바, 반복 설명은 생략하도록 하겠다.

나아가, 멀티미디어 디바이스(700)는 적어도 하나 이상의 데이터베이스를 검색하여, 유저(701)에 의해 생성된 음성 신호에 대응하는 텍스트 데이터 및 오디오 데이터를 확정한다. 또한, 상기 데이터베이스에 대해서는, 이전 도 3 내지 도 6에서 충분히 설명한 바 있다.

다만, 상기 멀티미디어 디바이스(700)가 음성 신호에 대응하는 해당 텍스트 데이터 및 오디오 데이터를 찾은 경우의 실시예(도 8)와 그렇지 아니한 경우의 실시예(도 9)를 나누어 설명하도록 하겠다.

도 8은 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장된 경우의 처리 프로세스를 도시한 도면이다. 이하, 도 8을 참조하여, 검색된 텍스트 데이터 및 오디오 데이터를 출력하는 프로세스를 상세히 설명하도록 하겠다.

우선, 도 7과 대비하여 도 8에 도시된 멀티미디어 디바이스(800)는 이전 방송 화면(702) 대신 유저(801)의 음성 신호에 대응하는 그래픽 이미지 데이터(802)를 디스플레이 한다. 예를 들어, 인식된 음성 신호의 키워드에 포함된 영화배우의 캡쳐 화면 또는 동영상 등이 될 수가 있다.

물론, 도 8에서는 도 7과 대비하여 전체 화면이 완전히 다른 그래픽으로 변경되는 경우의 실시예를 도시하였으나, 기존 방송 화면(702)과 그래픽 이미지 데이터(802)를 PIP 형태로 동시에 출력하는 것도 본 발명의 권리범위에 속한하고 할 것이다.

또한, 본 발명의 다른 일실시예에 의한 멀티미디어 디바이스(800)는, 적어도 하나 이상의 스피커(804a, 804b)를 통해 인식된 유저(801)의 음성신호에 대응하는 오디오 데이터를 출력한다. 도 3 내지 도 6에서 전술한 바와 같이, 상기 오디오 데이터는 텍스트 데이터와 함께 데이터베이스에 저장되어 있다.

나아가, 본 발명의 또 다른 일실시예에 의한 멀티미디어 디바이스(800)는, 오디오 데이터에 대응하는 텍스트 데이터를 화면의 일측면(803)에 함께 디스플레이 함으로써, 오디오 데이터를 들을 수 없는 환경에서도 인터랙티브 서비스가 가능한 장점이 있다.

도 9는 도 7에서 입력된 유저의 음성 신호에 대응하는 멀티미디어 데이터가 DB 에 저장되어 있지 않은 경우의 처리 프로세스를 도시한 도면이다. 이하, 도 9를 참조하여, 검색된 텍스트 데이터 및 오디오 데이터를 출력할 수 없는 경우의 솔루션을 설명하도록 하겠다.

종래 음성 인식 서비스의 가장 큰 문제점은 음성 인식에 에러가 발생하거나 대응하는 답변이 데이터베이스에 존재하지 않는 경우, 아무러 반응이 없거나 단순히 에러 메시지를 디스플레이 한다는 점이었다.

반면, 도 9에 도시된 바와 같이, 본 발명의 일실시예에 의한 멀티미디어 디바이스(900)는 인식된 음성 신호에 대응하는 답변이 데이터베이스에 저장되어 있지 않은 경우, 자동으로 특정 웹사이트 접속 화면(901)을 출력한다. 즉, 상기 멀티미디어 디바이스(900)는 도 1에 도시된 바와 같이 예를 들어 네트워크 인터페이스를 통해 IP 네트워크로 연결되어 있는 것으로 가정한다.

또한, 상기 멀티미디어 디바이스(900)는 검색 입력창(902)에 자동으로 인식된 키워드 중 특정 키워드(예를 들어, 김태희)만 입력되도록 설계한다. 물론, 도 7에서 유저가 생성한 음성 신호 전문(ex : 요즘 김태희는?)을 그대로 입력창(902)에 입력하도록 설계하는 것도 본 발명의 권리범위에 속한다.

따라서, 유저는 멀티미디어 디바이스(900)의 데이터베이스가 구축되지 않은 상황에서도 관련 정보를 신속하게 제공받을 수 있고, 나아가 본 발명의 다른 일실시예에 의하면 웹사이트에서 제공하는 오디오 데이터를 데이터베이스에 직접 저장하도록 설계할 수도 있다.

그리고, 도 10은 본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스를 제어하는 방법을 도시한 플로우 차트이다. 도 10은 이전 도 1 내지 도 9에 대한 설명을 참조하여 보충 해석할 수도 있다.

본 발명의 일실시예에 의한 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스의 제어 방법은, 적어도 하나 이상의 채널을 스캔하는 단계(S1010)와 텍스트 데이터 및 오디오 데이터를 추출하는 단계(S1020)를 포함하도록 설계한다.

나아가, 상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하고(S1030), 상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식한다(S1040).

그리고, 상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하고(S1050), 상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 한다(S1060).

상기 데이터베이스(DB)는, 예를 들어 상기 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있도록 설계한다. 이전 도 3 내지 도 6을 참조하여 해석 가능하다.

상기 데이터베이스(DB)가 오디오 데이터의 화자별로 구축되어 있는 경우, 상기 S1050 단계는, 상기 인식된 음성 신호에 포함된 인물 키워드가 상기 DB의 특정 화자에 대응하는지 여부를 판단하는 단계 및 상기 DB에 저장된 특정 화자의 오디오 데이터를 스피커를 통해 출력하는 단계를 더 포함한다.

상기 데이터베이스(DB)가 오디오 데이터의 장르별로 구축되어 있는 경우, 상기 S1050 단계는, 상기 인식된 음성 신호에 포함된 장르 키워드를 추출하는 단계 및 상기 추출된 장르 키워드에 대응하는 특정 데이터베이스를 제한적으로 검색하는 단계를 더 포함한다.

상기 유저가 로그인 한 경우, 상기 S1050 단계는, 상기 유저가 기설정한 선호 채널의 데이터베이스를 최우선으로 검색하는 단계 및 상기 인식된 음성 신호에 대응하는 오디오 데이터기 존재하지 않는 경우, 상기 선호 채널의 데이터베이스가 아닌 나머지 데이터베이스를 차순위로 검색하는 단계를 더 포함한다.

따라서, 본 발명의 일실시예에 의하면 실감형 인터랙션 서비스(Interaction service)를 제공한다. 예를 들어, 실제 방송상의 화자가 이야기하는 육성을 그대로 들려줌으로써 마치 그 사람과 대화하는 듯한 효과를 준다.

나아가, 본 발명의 다른 일실시예에 의하면, 자동으로 음성 서비스를 위한 데이터베이스를 업데이트 한다. 따라서, 기존 틀에 박힌 정형화된 답변을 회피할 수 있는 장점이 있다.

당해 명세서에서는 도 1 내지 도 10을 설명의 편의상 각각 설명하고 있으나, 각 도면의 특징 중 일부를 결합하여 다른 실시예를 구현하는 것도 본 발명의 권리범위에 속함은 자명하다.

그리고, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양발명의 설명은 보충적으로 적용될 수가 있다.

본 발명에 따른 방법 발명은 모두 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.

상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

110 : 네트워크 인터페이스
120 : 추출 모듈
130 : 메모리
140 : 인식 모듈
150 : 검색 엔진
160 : 컨트롤러
170 : 스피커
180 : 디스플레이 모듈

Claims

음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스의 제어 방법에 있어서,
적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 단계;
상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 단계;
상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 단계;
상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 단계; 그리고
상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하는 단계
를 포함하는 멀티미디어 디바이스의 제어 방법.
제1항에 있어서,
상기 데이터베이스(DB)는,
상기 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 것을 특징으로 하는 멀티미디어 디바이스의 제어 방법.
제2항에 있어서,
상기 데이터베이스(DB)가 오디오 데이터의 화자별로 구축되어 있는 경우,
상기 검색하는 단계는,
상기 인식된 음성 신호에 포함된 인물 키워드가 상기 DB의 특정 화자에 대응하는지 여부를 판단하는 단계;
상기 DB에 저장된 특정 화자의 오디오 데이터를 스피커를 통해 출력하는 단계
를 더 포함하는 멀티미디어 디바이스의 제어 방법.
제2항에 있어서,
상기 데이터베이스(DB)가 오디오 데이터의 장르별로 구축되어 있는 경우,
상기 검색하는 단계는,
상기 인식된 음성 신호에 포함된 장르 키워드를 추출하는 단계; 그리고
상기 추출된 장르 키워드에 대응하는 특정 데이터베이스를 제한적으로 검색하는 단계
를 더 포함하는 멀티미디어 디바이스의 제어 방법.
제2항에 있어서,
상기 유저가 로그인 한 경우,
상기 검색하는 단계는,
상기 유저가 기설정한 선호 채널의 데이터베이스를 최우선으로 검색하는 단계; 그리고
상기 인식된 음성 신호에 대응하는 오디오 데이터기 존재하지 않는 경우, 상기 선호 채널의 데이터베이스가 아닌 나머지 데이터베이스를 차순위로 검색하는 단계
를 더 포함하는 멀티미디어 디바이스의 제어 방법.
제1항 내지 제5항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스에 있어서,
적어도 하나 이상의 채널을 스캔하여, 텍스트 데이터 및 오디오 데이터를 추출하는 추출 모듈;
상기 추출된 텍스트 데이터 및 음성 데이터를 기설정된 기준에 따라, 데이터베이스(DB)에 저장하는 메모리;
상기 멀티미디어 디바이스의 유저로부터 음성 신호를 인식하는 인식 모듈;
상기 인식된 음성 신호에 대응하는 오디오 데이터를, 상기 DB내에서 검색하는 검색 엔진; 그리고
상기 인식된 음성 신호에 대응하는 오디오 데이터가 상기 DB에 존재하지 않는 경우, 웹 페이지 검색 결과를 디스플레이 하는 디스플레이 모듈
을 포함하는 멀티미디어 디바이스.
제7항에 있어서,
상기 데이터베이스(DB)는,
상기 추출된 텍스트 데이터에 대응하는 가상의 질의값을 맵핑하여 저장하고 있는 것을 특징으로 하는 멀티미디어 디바이스.
제8항에 있어서,
상기 데이터베이스(DB)는,
상기 추출된 텍스트 데이터에 대응하는 멀티미디어 데이터를 추가적으로 맵핑하여 저장하고 있는 것을 특징으로 하는 멀티미디어 디바이스.
제9항에 있어서,
상기 인식된 음성 신호에 대응하는 오디오 데이터를, 스피커를 통해 출력하도록 제어하고, 또한
상기 인식된 음성 신호에 대응하는 멀티미디어 데이터를 출력하도록 상기 디스플레이 모듈을 제어하는 컨트롤러
를 더 포함하는 멀티미디어 디바이스.