KR20050023941A

KR20050023941A - 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 ａ/ｖ 장치 및 그 방법

Info

Publication number: KR20050023941A
Application number: KR1020030061511A
Authority: KR
Inventors: 최승억; 정선화; 명인식; 이정봉
Original assignee: 삼성전자주식회사
Priority date: 2003-09-03
Filing date: 2003-09-03
Publication date: 2005-03-10
Also published as: CN1591571A; US20050049862A1; JP2005078072A; CN1300765C; EP1513136A1

Abstract

본 발명은 리모컨의 무선 마이크를 통해 사용자의 음성이 입력되면 상기 입력된 음성 신호에 대한 음성 인식 및 화자 인식을 수행하고, 입력된 명령어에 대한 판단을 수행하여 해당 사용자의 개별화된 서비스를 제공하는 A/V 장치로 구성되며, 사용자가 리모컨의 무선 마이크를 통해 음성을 입력하는 단계와, 상기 음성이 입력되면 입력된 음성과 음성을 입력한 화자를 인식하는 단계와, 상기 입력된 음성을 기초로 명령어를 판단하는 단계 및 상기 판단 결과에 따른 서비스를 제공하는 단계를 포함하는 것을 특징으로 한다.

Description

음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 Ａ/Ｖ 장치 및 그 방법{AUDIO/VIDEO APPARATUS AND METHOD FOR PROVIDING PERSONALIZED SERVICES THROUGH VOICE RECOGNITION AND SPEAKER RECOGNITION}

본 발명은 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 A/V 장치 및 방법에 관한 것으로서, 특히 사용자의 음성이 입력되면 음성 인식 및 화자 인식을 동시에 수행하고, 화자 인식에 따른 개별화된 서비스를 제공하는 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 A/V 장치 및 방법에 관한 것이다.

종래에는 개별화된 서비스를 제공받기 위해서, 사용자가 화자 인식 모드를 선택한 후 이미 등록해 놓은 암호(입력어)를 발성하여 사용자 인식을 수행하고, 그 다음 원하는 서비스를 제공받기 위해 해당 명령어를 발성함으로써, 개별화된 서비스를 제공 받았다.

따라서, 사용자는 화자 인식을 위한 암호 입력 과정과, 음성 인식을 위한 명령어 입력 과정이라는 2단계 과정을 수행해야만 개별화된 서비스를 제공받을 수 있어 2단계 과정을 수행해야 하는 번거로움이 있었으며, 또한 화자 인식을 위한 입력어(암호)와 음성 인식을 위한 입력어(명령어)가 서로 다르게 적용되어 각각의 입력어를 항상 암기하고 있어야 하는 불편함이 있다.

또한, 다른 사용자가 개인화된 서비스를 제공 받고자 할 경우에, "사용자 전환"이라는 명령어를 입력한 후 화자 인식 및 음성 인식을 수행해야 하는 번거로움이 있다.

본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 사용자의 음성이 입력되면 음성 인식 및 화자 인식을 동시에 수행함으로써, 별도의 사용자 인식 과정을 수행하지 않아도 되는 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 A/V 장치 및 방법을 제공하는 것이다.

본 발명의 다른 목적은 음성 인식 및 화자 인식에 사용되는 입력어(명령어)를 동일하게 적용 함으로써, 원하는 서비스를 빠르게 제공 받을 수 있는 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 A/V 장치 및 방법을 제공하는 것이다.

상기 목적을 달성하기 위하여 본 발명은, 리모컨의 무선 마이크를 통해 사용자의 음성이 입력되면 상기 입력된 음성 신호에 대한 음성 인식 및 화자 인식을 수행하고, 입력된 명령어에 대한 판단을 수행하여 해당 사용자의 개별화된 서비스를 제공하는 A/V 장치로 구성된다.

또한, 상기 A/V 장치는 상기 음성 입력부를 통해 입력된 음성을 인식하는 음성 인식부와, 상기 음성 입력부를 통해 입력된 음성을 기초로 사용자를 인식하는 화자 인식부와, 상기 음성 인식부가 인식한 음성이 어떠한 명령어 인지를 판단하는 판단부와, 상기 사용자 정보, 음성 정보, 사용자의 개별화된 서비스 정보 및 명령어를 저장하는 데이터베이스 및 상기 데이터베이스에서 상기 인식된 명령어 및 사용자의 개별화된 서비스 정보에 해당하는 서비스를 검색하는 서비스 검색부를 포함하는 것을 특징한다.

그리고, 사용자가 리모컨의 무선 마이크를 통해 음성을 입력하는 단계와, 상기 음성이 입력되면 입력된 음성과 음성을 입력한 화자를 인식하는 단계와, 상기 입력된 음성을 기초로 명령어를 판단하는 단계 및 상기 판단 결과에 따른 서비스를 제공하는 단계를 포함하는 것을 특징으로 한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다.

도 1은 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 A/V 장치를 개략적으로 나타낸 도면으로서, A/V 장치(200)는 음성 인식부(210), 화자 인식부(220), 제어부(230), 판단부(240), 서비스 검색부(250) 및 데이터베이스(260)로 구성된다.

A/V 장치(200)는 리모컨(100)의 무선 마이크를 통해 사용자의 음성이 입력되면 상기 입력된 음성 신호에 대한 음성 인식 및 화자를 인식하고, 입력된 명령어에 대한 판단을 수행하여 해당 사용자의 개별화된 서비스를 제공한다.

음성 인식부(210)는 리모컨(100)에 구비된 음성 입력부(110)를 통해 입력된 음성을 인식하는 것으로서, 사용자가 입력한 명령어를 인식한다.

화자 인식부(220)는 음성 입력부(110)를 통해 입력된 음성을 기초로 화자를 인식하는 것으로서, 데이터베이스(260)에 저장된 사용자의 음성 정보를 통해 음성을 입력한 사용자를 인식한다.

판단부(240)는 음성 인식부(210)가 인식한 음성이 어떠한 명령어인지를 판단하는 것으로서, 즉 음성 인식부(210)가 인식한 명령어를 분석하여 사용자 정보가 필요한 명령어인지, 사용자 정보가 필요없는 명령어인지를 판단한다.

데이터베이스(260)는 사용자 정보, 음성 정보, 사용자의 개별화된 서비스 정보 및 발생 가능한 명령어들을 저장하는 것으로서, 음성 인식부(210) 및 화자 인식부(220)에서 인증 수행 시 저장된 명령어 및 해당 사용자의 정보를 제공한다. 여기서, 발생 가능한 명령어는 사용자에 의해 입력될 수 있는 모든 명령어를 말하며, 예를 들어 채널 검색을 위한 명령어, 채널 등록을 위한 명령어 및 채널 삭제를 위한 명령어 등으로 이해될 수 있다.

또한, 명령어는 사용자 인증 수행의 필요한 명령어와 그렇지 않은 명령어로 분리되어 저장되어 있다. 데이터베이스(260)에 저장된 명령어는 하기 도 3에서 자세히 설명한다.

서비스 검색부(250)는 판단부(240)의 판단 결과에 따라 데이터베이스(260)에서 해당 명령어에 따른 정보 및 사용자의 개별화된 서비스 정보를 검색하는 것으로서, 즉 판단부(240)의 판단 결과에 따른 해당 서비스를 검색한다.

제어부(230)는 서비스 검색부(250)가 검색한 서비스를 제공하는 것으로서, 즉 사용자가 입력한 명령어에 대한 해당 서비스를 제공한다. 여기서, 해당 서비스는 선호 채널의 방송 프로그램 디스플레이, 추천 프로그램의 정보 디스플레이, 선호 음악 재생 및 선택한 음악의 장르 재생 등으로 이해될 수 있다.

한편, 사용자의 음성은 리모컨(100)에 구비된 음성 입력부(110)를 통해 입력되며, 여기서 사용자의 음성 입력을 위하여 무선 마이크가 이용된다.

도 2는 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법을 개략적으로 나타낸 순서도로서, 먼저 사용자가 리모컨에 구비된 무선 마이크를 통해 음성을 입력하면(S100), 음성 입력부(110)는 무선 마이크를 통해 입력된 사용자 음성(명령어)을 음성 인식부(210)로 전송한다.

그 다음, 음성 입력부(110)가 전송한 명령어를 음성 인식부(210)가 인식함과 동시에 화자 인식부(220)는 입력된 음성을 통해 화자 인식을 수행한다(S110). 즉, 사용자가 입력한 명령어를 음성 인식부(210)가 인식을 하며, 이와 동시에 화자 인식부(220)가 입력된 음성을 통해 사용자에 대한 화자 인식을 한다. 여기서, 음성 인식부(210)는 입력된 명령어를 텍스트로 변환하여 판단부(240)로 전송하고, 화자 인식부(220)는 입력된 음성으로부터 특징 추출 및 분석을 수행한 후, 데이터베이스(260)에 저장된 사용자의 음성들 중에서 입력된 음성과 가장 근접한 음성 신호를 갖는 사용자의 음성을 검색하여 명령어를 입력한 사용자가 누구인지를 인식한다. 여기서, 화자 인식을 위해 사용자는 미리 사용자 등록 과정을 수행해야 하는데, 상기 사용자 등록을 통해 사용자의 특정 정보가 데이터베이스(260)에 등록되고, 이로써 음성을 통한 화자 인식을 수행할 수 있다. 그리고, 데이터베이스(260)에 등록되는 등록어는 개인화된 서비스를 필요로 하는 명령어들로 구성되며, 이로써 등록어와 명령어가 동일하게 적용되어 음성 인식과 화자 인식을 동시에 수행할 수 있다.

그 다음, 음성 인식부(210)가 인식한 명령어는 판단부(240)로 전송되고, 이에 판단부(240)는 음성 인식부(210)가 인식한 명령어를 분석한다(S120). 즉, 입력된 명령어가 어떤 동작의 수행을 명령하는 것인지를 분석하고, 분석된 명령어가 사용자 정보를 필요로 하는 사용자별로 개별화된 명령어인지 아니면 사용자 정보가 필요없는 일반적인 명령어인지를 판단한다. 여기서, 사용자별로 개별화된 명령어는 사용자의 취향 및 기호에 따라 사용자가 자주 입력하는 명령어로서, 선호 채널, 알림 예약, 알림 목록, 녹화 예약, 예약 목록, 녹화 목록, 추천 프로, 유료 채널 및 쇼핑 채널 등으로 이해될 수 있다. 그리고, 일반적인 명령어는 사용자의 취향 및 기호가 반영되지 않은 명령어로서, 뉴스, 드라마 및 스포츠 등으로 이해될 수 있다.

그 다음, 판단부(240)의 판단 결과 입력된 명령어가 개별화된 서비스를 요청하는 명령어인 경우(S130), 서비스 검색부(250)는 음성을 입력한 사용자가 데이터베이스(260)에 등록되어 화자 인식부(220)를 통해 화자 인식이된 사용자인지를 판단한다(S140).

만일, 판단 결과 음성을 입력한 사용자가 데이터베이스(260)에 등록되어 있는 사용자인 경우(S140), 사용자 별로 등록된 데이터베이스(260)에서 화자 인식부(220)가 인증한 사용자의 정보를 검색 및 추출한 후, 추출된 사용자 정보에 저장된 서비스 목록 중에서 사용자가 입력한 명령어에 해당하는 개별화된 서비스를 검색한다(S150, S160).

그 다음, 제어부(230)가 서비스 검색부(250)로부터 검색된 개인화된 서비스를 사용자에게 제공한다(S170).

한편, 판단 결과 음성을 입력한 사용자가 데이터베이스(260)에 등록되어 있는 사용자가 아닌 경우(S140), 서비스 검색부(250)는 A/V 장치에 기본적으로 설정되어 있는 기본 서비스를 제공하거나(S190, S200), 또는 사용자에게 등록된 개별화된 서비스가 없음을 통보하고 사용자 등록을 수행하도록 요청한다(S210). 여기서, 기본적인 서비스란 개별화된 서비스에 있어서 음성을 입력한 사용자에 대한 사용자 등록이 이루어지지 않아, 음성을 입력한 사용자에게 제공할 개별화된 서비스가 없을 경우 제공하는 A/V 장치에 디폴트로 설정된 서비스를 말하는 것으로서, 데이터베이스(260)에 등록되지 않은 사용자에게 임시적으로 제공하는 것이다. 예를 들어, 사용자가 '추천 프로그램'을 입력한 경우 판단부(240)는 입력된 명령어를 분석하고, 분석결과 사용자가 입력한 명령어가 개별화된 서비스를 요청하는 명령어라는 판단 결과를 서비스 검색부(250)로 전송하고, 이에 서비스 검색부(250)는 음성을 입력한 사용자가 데이터베이스(260)에 등록되어 있는 사용자인지를 판단한다.

그 다음, 판단 결과 명령어('추천 프로그램')를 력한 사용자가 데이터베이스(260)에 등록되어 있지 않은 사용자로 판단되면, 해당 사용자에게 제공할 개별화된 서비스가 존재하지 않기 때문에 A/V 장치에 디폴트로 설정된 서비스(예를 들어, MBC 9시 뉴스)를 제공해 준다.

한편, 판단부(240)의 판단 결과 입력된 명령어가 일반적인 서비스를 요청하는 명령어인 경우(S130), 서비스 검색부(250)는 입력된 명령어에 해당하는 일반적인 서비스를 데이터베이스(260)에서 검색하고(S180), 이후 제어부(230)가 서비스 검색부(250)로부터 검색된 서비스를 사용자에게 제공한다(S170).

한편, 다른 사용자가 리모컨에 구비된 무선 마이크를 통해 명령어를 입력할 경우, 해당 사용자의 음성 및 화자 인식을 수행하여 검색된 사용자 정보에 따른 개별화된 서비스를 제공한다.

도 3은 본 발명에 따른 개별화된 명령어 테이블을 나타낸 도면으로서, 도 3(a)는 영상 기기(디지털 TV) 사용시 입력될 수 있는 개별화된 명령어를 나타낸 표이고, 도3 (b)는 음향 기기(오디오, MP3 재생기, 또는 멀티미디어 재생기 등) 사용시 입력될 수 있는 개별화된 명령어를 나타낸 표이다.

먼저, 도 3(a)에 도시된 영상 기기 사용시 입력될 수 있는 개별화된 명령어를 나타낸 표를 살펴보자.

선호채널(Favorite channel)은 사용자가 자신이 좋아하는 채널들을 데이터베이스(260)에 등록해 놓은 것으로, 즉 사용자가 명령어로 '선호채널' 이라고 입력하면 데이터베이스(260)에 저장된 선호채널 목록 중 어느 하나의 채널이 화면에 제공된다.

알림(notify)예약은 사용자가 알림을 받고자 하는 임의의 프로그램에 대해서 방송 시작 전(후)에 방송의 시작을 알려주도록 설정하는 것으로, 즉 사용자가 해당 프로그램의 정보(방송시간, 채널 정보, 프로그램 제목 등)를 예약/입력하면, 해당 프로그램의 시작을 알려준다.

알림목록은 사용자가 알림 예약 해놓은 프로그램 목록들을 데이터베이스(260) 등록 및 보관하는 목록으로서, 즉 사용자가 명령어로 '알림목록' 이라고 입력하면 등록된 알람 목록이 화면에 제공된다. 여기서, 해당 사용자의 요구에 따라 목록의 조작 및 가공이 가능하다.

녹화예약은 사용자가 보고자 하는 프로그램을 녹화 예약하는 것으로, 즉 사용자가 해당 프로그램의 정보(방송시간, 채널 정보, 프로그램 제목 등)를 입력하면, 설정된 시간에 해당 방송을 녹화해 준다.

예약목록은 사용자가 녹화 예약 및 알림 예약해 놓은 프로그램 목록들을 데이터베이스(260)에 등록 및 보관하는 목록으로서, 즉 사용자가 명령어로 '예약목록' 이라고 입력하면 등록된 예약 목록이 화면에 제공된다. 여기서, 해당 사용자의 요구에 따라 목록의 조작 및 가공이 가능하다.

녹화목록은 녹화된 프로그램 목록들을 데이터베이스(260)에 등록 및 보관하는 목록으로서, 즉 사용자가 명령어로 '녹화목록' 이라고 입력하면 등록된 녹화 목록이 화면에 제공된다. 여기서, 사용자의 필요에 따라서 프로그램이 재생되거나 삭제될 수 있다.

추천프로(Recommend program)은 사용자와 유사한 취향을 가진 다른 사람들이 추천한 프로그램에 대한 정보를 컨텐츠 제공 업체나 방송사로부터 제공받아 등록해 놓은 것으로, 즉 사용자가 명령어로 '추천프로' 라고 입력하면 사용자에게 추천된 프로그램 및 관련 정보가 제공된다.

유료채널(Pay Per View)은 사용자가 유료 채널을 탐색하거나 시청할 때, 사용자 식별(화자 인식)을 통해 개인정보에 따라 시청가능 여부를 판단하여, 시청 가능한 해당 정보를 제공한다.

성인채널(Adult channel)은 연령 제한이 있는 채널을 탐색하거나 시청할 때, 사용자 식별(화자 인식)을 통해 개인정보에 따라 시청가능 여부를 판단하여, 시청 가능한 사용자인 경우에만 해당 정보를 제공한다.

쇼핑채널(Shopping channel)은 TV 상거래를 수행하려고 할 때, 사용자 식별(화자 인식)을 통해 개인정보에 따라 상거래 이용가능 여부를 판단하여, 이용 가능한 사용자인 경우에만 해당 정보를 제공한다.

도 3(b)에 도시된 음향 기기 사용시 입력될 수 있는 개별화된 명령어를 나타낸 표를 살펴보자.

재생(Play)은 사용자 식별(화자 인식)을 통해 발성한 사용자의 프로필 정보에 따라 개인화된 노래 목록들을 재생 주는 것으로, 즉 사용자가 명령어로 '재생'이라고 입력하면 재생 목록에 등록된 노래를 재생해 준다.

장르별 선택은 가요, 재즈, 클래식, 팝 등 장르별로 개인화된 서비스를 제공하는 것으로, 즉 사용자가 명령어로 여러 장르중 하나(예를 들어, 가요)를 입력하면, 해당 장르(가요)의 음악을 재생 해준다.

선호곡(Favorite song list)은 사용자가 자신이 좋아하는 노래들을 데이터베이스(260)에 등록해 놓은 것으로, 즉 사용자가 명령어로 '선호곡'이라고 입력하면 등록된 선호곡이 재생된다.

한편, 사용자는 상기에서 설명한 명령어 이외에 다른 명령어를 입력 및 등록할 수 있다.

도 4는 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법의 일 실시예를 나타낸 도면으로서, 먼저 사용자가 스포츠 뉴스 채널을 시청하던 중 리모컨에 구비된 무선 마이크에 '선호 채널'이라고 말하면, 음성 입력부(110)는 사용자가 입력한 '선호 채널'이라는 명령어를 음성 인식부(210)로 전송한다.

그 다음, 음성 인식부(210)는 입력된 '선호 채널'이라는 명령어를 인식하고, 이와 동시에 화자 인식부(220)는 입력된 음성을 통해 화자 인식을 수행한다.

그 다음, 음성 입력부(210)는 판단부(240)에 입력된 명령어('선호 채널')를 전송하고, 판단부(240)는 전송된 명령어를 분석한다. 여기서, 판단부(240)는 명령어를 분석함으로써, 전송된 명령어가 '선호 채널'을 청하는 명령어이며, 분석된 '선호 채널'이라는 명령어가 사용자 정보를 필요로 하는 개별화된 명령어라는 것을 서비스 검색부(250)로 전송한다.

이에, 서비스 검색부(250)는 화자 인식부(220)가 인식한 사용자에 해당하는 사용자 정보를 데이터베이스(260)에서 추출하고, 추출된 사용자 정보에 저장된 서비스 목록 중에서 '선호 채널' 목록을 검색한다.

그 다음, 제어부(230)가 검색된 선호 채널(예를 들어, '야인시대')을 사용자에게 제공한다.

한편, 사용자가 '야인시대'를 시청하다가 다시 '선호채널'이라고 명령어를 입력하면 선호 채널 목록들 중 '야인시대'와 가장 근접한 번호를 갖는 '한밤의 TV 연예'로 채널이 변경된다(도4에 도시된 테이블 참조).

또한, 사용자가 '야인시대'를 시청하다가 아래로(또는 위로)라고 명령어를 입력하면 아래 등록되어 있는 '한밤의 TV 연예' 채널로 화면이 변경된다.

도 5는 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법의 다른 실시예를 나타낸 도면으로서, 다수의 사용자가 음성 입력을 통해 원하는 채널의 서비스를 제공 받은 과정을 나타낸 것이다.

먼저, 사용자가 TV를 시청하던 중 리모컨에 구비된 무선 마이크에 '선호채널'이라고 말하면, 음성 인식부(210) 및 화자 인식부(220)는 입력된 '선호채널'이라는 명령어를 통해 음성 인식 및 화자 인식을 수행한다.

그 다음, 판단부(240)는 입력된 명령어를 분석하여 사용자가 원하는 서비스가 무엇인지를 판단하고, 판단 결과 입력된 명령어가 개별화된 서비스를 요청하는 '선호채널'이라는 것을 서비스 검색부(250)로 전송한다.

이에, 서비스 검색부(250)는 사용자의 데이터베이스(260)에 저장된 서비스 목록 중에서 '선호채널' 목록을 검색하여 해당 채널(예를 들어, 개그 콘서트)을 사용자에게 제공해 준다.

이 후, 다른 사용자가 리모컨에 구비된 무선 마이크에 '선호채널'이라고 말하면, 음성 인식부(210) 및 화자 인식부(220)는 입력된 '선호채널'이라는 명령어를 통해 음성 인식 및 화자 인식을 수행는데, 이때 화자 인식을 통해 명령어를 입력한 사용자가 동일한 사용자가 아니라는 것을 판단한다.

그 다음, 판단부(240)는 사용자가 입력한 명령어를 분석하여 분석된 결과를 서비스 검색부(250)로 다시 전송하고, 서비스 검색부(250)는 해당 사용자의 데이터베이스(260)에 저장된 서비스 목록 중에서 '선호채널' 목록을 검색하여 해당 채널(예를 들어, 여름 향기)을 사용자에게 제공해 준다.

본 발명의 바람직한 또 다른 실시예로 사용자가 오디오를 통해 음악을 들을 경우를 설명하면, 먼저 사용자가 오디오 리모컨에 구비된 무선 마이크에 '재즈'라는 명령어를 입력하면, 음성 입력부(110)는 사용자가 입력한 '재즈'라는 명령어를 음성 인식부(210)로 전송한다.

그 다음, 음성 입력부(210)는 입력된 '재즈'라는 명령어를 인식하고, 이와 동시에 화자 인식부(220)는 입력된 음성을 통해 사용자에 대한 화자 인식을 수행한다.

그 다음, 음성 입력부(210)는 판단부(240)에 입력된 명령어(재즈)를 전송하고, 판단부(240)는 전송된 명령어를 분석한다. 여기서, 판단부(240)는 명령어(재즈)를 분석하여 서비스 검색부(250)로 전송한다.

이에, 서비스 검색부(250)는 화자 인식부(220)가 인식한 사용자에 해당하는 사용자 정보를 데이터베이스(260)에서 추출하고, 추출된 사용자 정보에 저장된 음악 장르 중에서 '재즈'를 검색하여 재생시킨다.

이상에서 본 발명에 대하여 상세히 기술하였지만, 본 발명이 속하는 기술 분야에 있어서 통상의 지식을 가진 사람이라면, 첨부된 청구범위에 정의된 본 발명의 정신 및 범위를 벗어나지 않으면서 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음은 자명하며, 따라서 본 발명의 실시예에 따른 단순한 변경은 본 발명의 기술을 벗어날 수 없을 것이다.

상기한 바와 같이 이루어진 본 발명에 따르면, 무선 마이크를 통해 사용자 음성 입력시, 음성 인식 및 화자 인식을 동시에 수행함으로써, 별도의 사용자 인식 과정을 수행하지 않고 개인화된 서비스를 검색해 주어 빠르게 원하는 서비스를 제공받을 수 있는 효과가 있다.

또한, 음성 인식 및 화자 인식에 사용되는 입력어(명령어)를 동일하게 적용 함으로써, 사용자는 인증 수행을 위한 입력어를 암기하지 않아도 되며, 음성 인식과 화자 인식을 위한 별도의 장치를 구비하지 않아도 되는 효과가 있다.

도 1은 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 A/V 장치를 개략적으로 나타낸 도면.

도 2는 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법을 개략적으로 나타낸 순서도.

도 3은 본 발명에 따른 명령어 테이블을 나타낸 도면.

도 4는 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법의 일 실시예를 나타낸 도면.

도 5는 본 발명에 따른 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법의 다른 실시예를 나타낸 도면.

<도면의 주요 부분에 관한 부호의 설명>

100 : 리모컨 110 : 음성 입력부

200 : A/V 장치 210 : 음성 인식부

220 : 화자 인식부 230 : 제어부

240 : 판단부 250 : 서비스 제공부

260 : 데이터베이스

Claims

리모컨의 무선 마이크를 통해 사용자의 음성이 입력되면 상기 입력된 음성 신호에 대한 음성 인식 및 화자 인식을 수행하고, 입력된 명령어에 대한 판단을 수행하여 해당 사용자의 개별화된 서비스를 제공하는 A/V 장치.
제 1항에 있어서,

상기 리모컨은 사용자의 음성을 입력받는 음성 입력부를 포함하는 것을 특징으로 하는 A/V 장치.
제 1항에 있어서,

상기 A/V 장치는,

상기 음성 입력부를 통해 입력된 음성을 인식하는 음성 인식부;

상기 음성 입력부를 통해 입력된 음성을 기초로 사용자를 인식하는 화자 인식부; 및

상기 음성 인식부가 인식한 음성이 어떠한 명령어 인지를 판단하는 판단부를 포함하는 것을 특징으로 하는 음성 인식 및 화자 인식을 통한 개별화된 서비스 제공 장치.
제 1항 또는 3항에 있어서,

상기 사용자 정보, 음성 정보, 사용자의 개별화된 서비스 정보 및 명령어를 저장하는 데이터베이스; 및

상기 데이터베이스에서 상기 인식된 명령어 및 사용자의 개별화된 서비스 정보에 해당하는 서비스를 검색하는 서비스 검색부를 더 포함하는 것을 특징으로 하는 음성 인식 및 화자 인식을 통한 개별화된 서비스 제공 장치.
제 1항에 있어서,

사용자의 음성 인식과 화자 인식을 동시에 수행하는 것을 특징으로 하는 음성 인식 및 화자 인식을 통한 개별화된 서비스 제공 장치.
사용자가 리모컨의 무선 마이크를 통해 음성을 입력하는 단계;

상기 음성이 입력되면 입력된 음성과 음성을 입력한 화자를 인식하는 단계;

상기 입력된 음성을 기초로 명령어를 판단하는 단계; 및

상기 판단 결과에 따른 서비스를 제공하는 단계를 포함하는 것을 특징으로 하는 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법.
제 6항에 있어서,

상기 입력된 음성을 기초로 명령어를 판단하는 단계는,

상기 입력된 음성이 어떠한 명령어 인지를 판단하는 단계;

상기 판단 결과 개별화된 서비스를 요청하는 명령어인 경우, 데이터베이스에 저장된 사용자 별 서비스 정보를 이용하여 해당 서비스를 검색하는 단계; 및

상기 판단 결과 개별화된 서비스를 요청하는 명령어가 아닌 경우, 입력된 명령어에 따른 서비스를 검색하는 단계를 포함하는 것을 특징으로 하는 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법.
제 6항에 있어서,

상기 음성 인식 및 사용자 인식에 사용되는 명령어가 동일하게 적용되는 것을 특징으로 하는 음성 인식 및 화자 인식을 통한 개별화된 서비스를 제공하는 방법.