KR101289081B1

KR101289081B1 - 음성 인터페이스를 이용한 ｉｐｔｖ 시스템 및 서비스 방법

Info

Publication number: KR101289081B1
Application number: KR1020090085423A
Authority: KR
Inventors: 강병옥; 정의석; 왕지현; 최미란
Original assignee: 한국전자통신연구원
Priority date: 2009-09-10
Filing date: 2009-09-10
Publication date: 2013-07-22
Also published as: KR20110027362A; US20110060592A1

Abstract

음성입력 장치, 음성인식을 수행하여 텍스트로 변환하는 음성처리 장치, 질의어 처리 및 컨텐츠 검색 장치, 컨텐츠 제공 장치를 포함하는 음성 인터페이스를 이용한 IPTV 시스템이 제공된다. 음성처리 장치는 음질 향상, 잡음 제거 등의 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부, 음향모델 및 언어모델 데이터베이스, 음향모델과 언어모델을 이용하여 특징벡터를 텍스트로 변환하는 디코딩부를 포함하며, 음향모델 데이터베이스는 각 사용자별로 적응된 개인적응 음향모델과 일반화자 음향모델로 구성되어 사용자별 음성특성을 이용하여 음성을 인식한다. 또한, 사용자 프로파일과 선호도를 저장하여 개인화된 서비스를 제공한다. 사용자에 대한 서비스가 제공될 때마다 음성인식의 결과가 음향모델 데이터베이스와 사용자 프로파일 데이터베이스에 업데이트되어 음성인식 성능 및 개인화된 서비스의 성능이 지속적으로 개선될 수 있다.

IPTV, 컨텐츠 검색, 음성인식, 개인화 서비스, 음성 인터페이스

Description

음성 인터페이스를 이용한 ＩＰＴＶ 시스템 및 서비스 방법{IPTV system and service using voice interface}

본 발명은 IPTV 시스템 및 서비스 방법에 관한 것으로서, 보다 상세하게는 음성 인터페이스를 이용한 IPTV시스템 및 서비스 방법에 관한 것이다.

본 발명은 지식경제부 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].”

본 발명이 속하는 기술분야는 IPTV(Internet Protocol Television)의 VOD(Video On Demand) 서비스 및 시스템에 대한 분야이다.

IPTV는 인터넷을 이용해 정보서비스, 영화 및 방송 등을 TV로 제공하는 서비스를 일컫는다. IPTV를 이용하기 위해서는 TV와 함께 인터넷이 연결된 셋톱박스(set-top box)가 필요하다. 인터넷과 TV의 융합이라는 점에서 디지털 컨버전스(digital convergence)의 한 유형이라고 할 수 있는데, 기존의 인터넷 TV와 다른 점이라면 컴퓨터 모니터 대신 TV를 이용하고, 마우스 대신 리모컨을 사용한다는 점이다. 따라서 컴퓨터에 익숙하지 않은 사람이라도 리모컨을 이용하여 간단하게 인 터넷 검색은 물론 영화감상, 홈쇼핑, 온라인 게임 등 인터넷이 제공하는 다양한 컨텐츠 및 부가 서비스를 제공받을 수 있다. IPTV는 비디오를 비롯한 방송 컨텐츠를 제공한다는 점에서는 일반 케이블 방송이나 위성방송과 차이점이 없지만, 양방향성이 추가된다는 점이 특징이다. 일반 공중파 방송이나 케이블방송 및 위성방송과는 달리 시청자가 자신이 편리한 시간에 자신이 보고 싶은 프로그램만 볼 수 있고, 이러한 양방향성은 다양한 형태의 서비스 도출을 가능하게 한다.

현재의 IPTV서비스는 사용자가 리모컨의 버튼을 클릭하여 VOD나 기타 서비스들을 제공받는 형상이다. 키보드 및 마우스를 통한 사용자 인터페이스를 갖는 컴퓨터에 비해, IPTV의 경우 현재까지 리모컨 이외에 별다른 사용자 인터페이스가 나타나지 않고 있다. 이는 아직까지는 IPTV를 통한 서비스의 형태가 제한된 형태이고 반대로 리모컨에 의존적인 서비스 형태만 제공되고 있기 때문으로, 앞으로 다양한 서비스가 제공될 경우 인터페이스로서 리모컨은 한계를 드러낼 것이다.

본 발명이 해결하고자 하는 과제는, 리모컨 버튼 컨트롤에 의존적인 현재의 IPTV서비스의 한계를 극복하여, 사용자에게 다양한 IPTV서비스를 편리하게 제공받을 수 있도록 하는 것이다.

상기와 같은 본 발명의 목적은, 사용자의 음성을 입력받는 음성입력 장치, 입력된 음성을 전달받아 음성인식을 수행하여 텍스트로 변환하는 음성처리 장치, 텍스트로부터 질의어를 추출하고 컨텐츠를 검색하는 질의어 처리 및 컨텐츠 검색 장치, 검색된 컨텐츠를 사용자에게 제공하는 컨텐츠 제공 장치를 포함하는 음성 인터페이스를 이용한 IPTV 시스템에 의해 달성 가능하다.

여기에서 상기 음성처리 장치는 전달받은 음성에 대하여 음질 향상 또는 잡음 제거를 포함하는 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부, 추출된 특징벡터를 텍스트로 변환하기 위하여 사용하는 음향모델과 언어모델을 각각 저장하고 있는 음향모델 데이터베이스 및 언어모델 데이터베이스, 음향모델과 언어모델을 이용하여 특징벡터를 텍스트로 변환하는 디코딩부를 포함한다.

상기 음향모델 데이터베이스는 특정 사용자에게 적응된 음향모델을 저장하는 적어도 하나의 개인적응 음향모델 데이터베이스와 특정 사용자가 아닌 사용자의 음성인식을 위해 사용하는 일반화자 음향모델 데이터베이스를 포함하는 것이 바람직하며, 이를 위하여 상기 음성처리 장치는 사용자별로 개인적응 음향모델 데이터베 이스를 생성하는 제1 화자 적응부를 포함하는 사용자 등록부와, 입력된 음성을 전달받아 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 화자 식별부를 더 포함할 수 있다.

본 발명의 음성 인터페이스를 이용한 IPTV 시스템은 입력된 사용자의 음성을 이용하여 개인적응 음향모델 데이터베이스를 개선하는 제 2 화자 적응부를 더 포함할 수 있다. 또한, 사용자 등록부는 사용자별로 ID, 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 작성하는 사용자 프로파일 작성부를 더 포함하며, 음성처리 장치는 상기 사용자 프로파일을 저장하는 사용자 프로파일 데이터베이스와 질의어, 컨텐츠의 목록, 사용자에게 제공된 컨텐츠 중 적어도 하나를 사용자 프로파일 데이터베이스에 저장함으로써 사용자 프로파일을 개선하는 사용자 선호도 적응부를 더 포함할 수도 있다.

또한, 음성처리 장치는 입력된 음성을 전달받아 피치 또는 발성패턴을 포함하는 음성특성을 이용하여 사용자가 성인인지 아동인지를 식별하는 성인/아동 식별부와, 식별 결과 사용자가 아동으로 판단될 경우 제공되는 컨텐츠를 제한하는 컨텐츠 제한부를 더 포함할 수도 있다.

본 발명의 음성 인터페이스를 이용한 IPTV 시스템에서, 음성입력 장치는 사용자 단말기에 위치하고, 음성처리 장치는 셋톱박스에 위치하여, 음성입력 장치로 입력된 음성이 Bluetooth, ZigBee, RF, WiFi, WiFi+유선망 중 하나의 통신 방식으로 음성처리 장치로 전송될 수 있다.

이와 달리, 음성입력 장치와 음성처리 장치가 모두 사용자 단말기에 위치하 거나 모두 셋톱박스에 위치할 수도 있으며, 후자의 경우 음성입력 장치는 다채널 마이크로 구성되는 것이 바람직하다.

또한, 음성입력 장치와 음성처리 장치 중 음성 전처리부는 사용자 단말기에 위치하고, 음성처리 장치 중 음성 전처리부를 제외한 나머지 부분은 셋톱박스에 위치하여, 음성 전처리부로부터 출력된 특징벡터가 셋톱박스에 위치하는 음성처리 장치의 나머지 부분으로 전달될 수도 있다.

또한, 상기와 같은 본 발명의 목적은, 사용자의 질의어 음성발화를 입력하는 단계, 음성발화를 음성처리하여 텍스트로 변환하는 단계, 변환된 텍스트로부터 질의어를 추출하고 질의어에 대응하는 컨텐츠 리스트를 생성하는 단계, 컨텐츠 리스트를 사용자에게 제공하는 단계, 사용자의 선택에 따라 컨텐츠 리스트에 포함된 컨텐츠를 사용자에게 제공하는 단계를 포함하는 음성 인터페이스를 이용한 IPTV 서비스 방법에 의하여도 달성 가능하다.

본 발명의 음성 인터페이스를 이용한 IPTV 서비스 방법은 사용자별로 개인적응 음향모델 데이터베이스를 생성하는 단계를 더 포함할 수 있으며, 이 경우 음성발화를 음성처리하여 텍스트로 변환하는 단계는 음성을 전달받아 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 단계를 포함하며, 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 존재하는 경우에는 식별된 사용자에 대응하는 개인적응 음향모델 데이터베이스를 이용하여 음성발화를 음성처리하고, 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 없는 경우에는 일반화자 음향모델 데이터베이스를 이용하여 음성발화를 음성처리하며, 사용자 식별 단계 에서 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 존재하더라도, 식별 신뢰도가 기준치보다 낮은 경우 일반화자 음향모델 데이터베이스를 이용하여 음성발화를 음성처리할 수 있다.

한편, 사용자의 음성발화를 이용하여 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스를 개선하는 단계를 더 포함할 수도 있으며, 사용자로부터 ID와 사용자의 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 입력받는 단계, 사용자 프로파일을 사용자 프로파일 데이터베이스에 저장하는 단계, 추출된 질의어, 검색된 컨텐츠 리스트, 사용자에게 제공된 컨텐츠 중 적어도 하나를 사용자 프로파일 데이터베이스에 저장함으로써 사용자 프로파일을 개선하는 단계를 더 포함할 수도 있다.

한편, 입력된 음성발화의 피치 또는 발성패턴을 포함하는 음성특성을 이용하여 사용자가 성인인지 아동인지를 식별하는 단계와, 아동으로 판단될 경우 제공되는 컨텐츠를 제한하는 단계를 더 포함할 수도 있다.

본 발명에 의하면, 음성 인터페이스를 이용함으로써 종래의 리모컨 버튼 컨트롤에 의존적인 서비스와 비교할 때 더 편리하고 다양한IPTV 서비스를 제공할 수 있으며, 사용자 개인의 음성특성 및 선호도 정보를 이용한 음성인식 성능향상 및 서비스 성능향상을 얻을 수 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하에서 첨부한 도면을 참고로 하여 본 발명의 바람직한 실시예를 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템의 기본 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템(100)은 크게 음성입력 장치(110), 음성처리 장치(120), 질의어 처리 및 컨텐츠 검색 장치(150), 컨텐츠 제공 장치(160)로 구성된다.

음성처리 장치는 사용자(120)로부터 입력된 음성발화에 대해 음성인식을 수행하여 텍스트로 변환하는 기능을 수행하며, 음향모델 데이터베이스(123), 언어모델 데이터베이스(124), 음성 전처리부(121), 디코딩부(122)를 포함하여 구성된다.

여기서 음성 전처리부(121)는 입력된 음성신호에 대해 음질향상 또는 잡음제거 등의 전처리를 수행하고, 음성신호의 특징을 추출하여, 특징 벡터를 출력한다. 디코딩부(122)는 음성 전처리부(121)로부터 받은 특징 벡터를 입력으로 하여 음향모델 데이터베이스(123)와 언어모델 데이터베이스(124)를 이용하여 텍스트로 변환하는 실제 음성인식을 수행한다. 음향모델 데이터베이스(123)와 언어모델 데이터베이스(124)는 음성 전처리부(121)로부터 출력된 특징 벡터를 텍스트로 변환하기 위해 이용되는 음향모델과 언어모델을 각각 저장하고 있다.

질의어 처리 및 컨텐츠 검색 장치(150)는 음성처리 장치(120)로부터 받은 사용자의 음성으로부터 변환된 텍스트를 입력으로 질의어를 추출하고, 추출된 질의어를 키워드로 하여 메타데이터 및 내부의 검색 알고리즘에 따라 컨텐츠를 검색하는 기능을 수행하고, 그 결과를 디스플레이(도시하지 않음) 등을 통해 사용자(10)에 전달한다. 여기에서 메타데이터는 각 컨텐츠에 대해 장르, 배우명, 감독명, 분위기, OST, 연관검색어 등의 추가정보를 테이블로 가지고 있어 검색에 활용할 수 있는 형태의 데이터를 말한다. 질의어는 컨텐츠명/배우명/장르명/감독명 등의 고립어 형태일 수도 있고, "장동건이 출연한 영화를 원해"와 같은 자연어 형태일 수도 있다.

컨텐츠 제공 장치(160)는 IPTV 원래의 기능으로 음성 인터페이스를 이용한 IPTV 시스템(100)을 통해 사용자(10)가 검색하고 선택한 컨텐츠를 사용자(10)에게 제공하는 기능을 수행한다.

본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템을 구성하고 있는 각 구성요소들은 시스템 형상과 필요에 따라 사용자 단말기, 셋톱박스, IPTV 서비스 제공 서버 등에 위치할 수 있다. 예를 들어 음성 입력 장치(110)는 사용자 단말기 또는 셋톱박스에 위치할 수 있으며, 음성처리 장치(120) 내의 음성 전처리부(121) 또는 음성처리 장치 전체(120)가 사용자 단말기 또는 셋톱박스에 위치할 수 있다. 질의어 처리 및 컨텐츠 검색 장치(150)는 필요에 따라 셋톱박스 혹은 IPTV 서비스 제공 서버에 위치할 수 있다. 이와 같이 다양한 구성을 갖는 본 발명의 음성 인터페이스를 이용한 IPTV 시스템의 실시예에 대해서는 추후 상술하기로 한다.

본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템에서의 컨텐츠 제공 방법의 흐름이 도 1에 간단히 도시되어 있다.

도 1에 나타난 바와 같이, 사용자(10)는 음성을 발화함으로써 음성 인터페이스를 이용한 IPTV 시스템(100)에 음성을 입력한다(①). ②는 사용자(10)로부터 입력된 음성을 음성처리 장치(120)를 통해 처리한 다음, 질의어 처리 및 컨텐츠 검색 장치(150)를 통해 원하는 컨텐츠의 리스트를 생성하여 사용자(10)에게 전달하는 흐름이다. ③은 ②를 통해 제공된 컨텐츠 리스트 중 사용자(10)가 원하는 컨텐츠를 선택하여 음성 인터페이스를 이용한 IPTV 시스템(100)에 전달하는 흐름이다. ④는 ③을 통해 사용자(10)가 선택한 컨텐츠를 컨텐츠 제공 장치(160)가 TV와 같은 디스플레이(도시하지 않음)를 통해 사용자(109)에게 전달하는 흐름이다. 이러한 일련의 흐름을 통해 사용자(10)가 원하는 컨텐츠를 음성 인터페이스를 통해 사용자에게 전달할 수 있다.

이하에서 각각의 시스템 형상에 따른 실시예를 각각 설명한다. 다만, 도 1에 도시된 본 발명의 실시예의 구성 및 기능과 중복되는 부분에 대해서는 그 기재를 생략하거나 간략한 기재로 대신한다.

도 2는 본 발명의 다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템(200)의 구성을 나타낸 도면으로서, 음성처리 장치(220)는 셋톱박스(230)에 위치하고, 리모컨과 같은 사용자 단말기(210)에 음성입력을 위한 마이크(211)가 장착된 형태이다.

즉, 단말기(210)에 장착된 마이크(211)가 음성입력 장치의 기능을 수행하며, 입력된 사용자의 음성을 무선전송방식인 Bluetooth, ZigBee, RF, WiFi 이나 WiFi+유선망 등 형태의 방식을 통해 셋톱박스(230) 내의 음성처리 장치(220)에 전달한다. 여기에서 WiFi+유선망 전송방식은 셋톱박스(230)는 유선망에 연결되어 있고 단말기(210)는 WiFi가 지원되며 WiFi 액세스 포인트가 가정내의 유선망에 연결되어 있는 형태의 네트워크를 말한다.

음성처리 장치(220)의 구성 및 기능은 도 1을 참고로 설명한 본 발명의 실시예와 유사한 것으로, 음향모델 데이터베이스(223), 언어모델 데이터베이스(224), 음성 전처리부(221), 디코딩부(222)를 포함한다.

질의어 처리 및 컨텐츠 검색 장치(250)는 시스템 형상에 따라 셋톱박스(230) 혹은 IPTV 서비스 제공서버(240)에 위치할 수 있다. 컨텐츠 제공 장치(260)는 IPTV 서비스 사업자의 IPTV 서비스 제공서버(240)에 위치한다.

도 3은 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시 스템(300)의 구성을 나타낸 도면으로서, 음성처리 장치(320)가 셋톱박스(330)에 위치하고, 리모컨과 같은 단말기(310)에 음성입력을 위한 마이크(311)가 장착되어 있으되, 음성처리 장치의 전처리 기능을 리모컨과 같은 사용자 단말기(310)에서 수행하도록 구성되어 있다. 이를 위하여 단말기(310) 내에 음성 전처리부(321)가 포함되어 있으며, 셋톱박스(330) 내의 음성처리 장치(320)는 음성 전처리부(321)를 제외한 음향모델 데이터베이스(223), 언어모델 데이터베이스(224), 디코딩부(222)를 포함하는 구성을 가진다.

즉, 음성을 처리함에 있어서 단말기(310)의 음성 전처리부(321)와 셋톱박스(330)의 음성처리 장치(320)가 분산된 형태인 분산 음성 인식(Distibuted Speech Recognition)을 수행한다. 이렇게 할 경우, 사용자로부터 마이크(311)를 통해 단말기(310)로 입력된 음성은 단말기(310) 내의 음성 전처리부(321)에 의해 음질향상, 잡음제거 등이 수행된 후 특징추출 과정을 거쳐 특징벡터를 생성하게 되고, 단말기(310)는 음성신호 대신에 음성전처리부(408)을 거친 특징벡터를 셋톱박스(330) 내의 음성처리 장치(320)로 전송한다. 이는 무선전송 방식에 따라 단말기(310)와 셋톱박스(330) 간의 전송능력이나 전송오류로 인한 제한을 줄이는 장점이 있다.

기타 질의어 처리 및 컨텐츠 검색 장치(350)와 컨텐츠 제공 장치(360)의 위치, 구성 및 기능 등은 도 2를 참고로 설명한 본 발명의 실시예와 유사하다.

도 4는 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한IPTV 시스템(400)의 구성을 나타낸 도면으로서, 음성처리 장치(420)와 마이크(431)가 모두 셋톱박스(430)에 위치하는 형태로 구성되어 있다.

이러한 실시예에서 사용자는 셋톱박스(430)에 장착된 마이크(431)에 음성입력을 하면 음성처리 장치(420)가 음성인식 및 처리 기능을 수행한다. 마이크(431)로는 도 2의 실시예에서와 같이 단일채널 마이크를 사용하거나, 원거리 음성입력으로 인한 외부 소음을 제거하기 위해 다채널 마이크를 사용할 수 있다.

음성처리 장치(420) 내부의 구성이나 질의어 처리 및 컨텐츠 검색 장치(450) 및 컨텐츠 제공 장치(460)에 관한 내용은 도 2의 실시예와 유사하므로 그 설명을 생략한다.

도 5는 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템(500)을 나타낸 도면으로서, 리모컨과 같은 단말기(510)에 음성입력을 위한 마이크(511)과 음성인식 수행을 위한 음성처리 장치(520)가 통합되어 있다.

즉 사용자는 단말기(510)의 마이크(511)에 음성입력을 하면, 단말기(510) 내부에 장착된 음성처리 장치(520)가 음성인식 기능을 수행한다. 단말기(510)의 음성인식 결과는 무선전송방식인 Bluetooth, ZigBee, RF, WiFi 나 WiFi+유선망 등의 방식을 통해 셋톱박스(530)에 전달되어 이후의 처리가 이루어지게 된다. 그밖의 시스템 구성은 도 2의 실시예와 유사하므로 설명을 생략한다.

도 6은 개인화 서비스가 추가된 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템에서 사용되는 음성처리 장치의 구성도이다.

도 6에 도시된 바와 같이, 개인화 서비스가 추가된 음성처리 장치(620)에서 음향모델 데이터베이스(623)는 단일 음향모델이 아닌 개인적응 음향모델 데이터베이스(6230)과 일반화자 음향모델 데이터베이스(6231)로 구성된다.

개인적응 음향모델 데이터베이스(6230)는 다시 복수개의 개인 음향모델 데이터베이스(6231_1, 6231_2...6231_n)를 포함한다. 개인 음향모델은 해당 IPTV 시스템을 사용하는 사용자 별로 각각 구성되는 것으로서, 예를 들면, 가족 구성원 별로 구성될 수 있으며, 이와 같이 개인에게 적응된 음향모델을 이용함으로써 음성인식 성능을 향상시킬 수 있다.

일반화자 음향모델 데이터베이스(6231)는 도 1의 음향모델 데이터베이스(123)와 유사한 것으로서, 뒤에 설명될 화자 식별을 통해 가족 구성원 외의 일반화자로 식별될 경우 혹은 가족 구성원 중 1인으로 식별되나 신뢰도가 떨어질 경우 사용되는 음향모델 데이터베이스이다.

한편, 본 발명의 실시예에 따른 개인화 서비스가 추가된 음성처리 장치(620)는, 화자적응을 비롯한 개인화 서비스를 위해 해당 IPTV 시스템을 사용하는 사용자를 등록하는 사용자 등록부(625)를 포함한다. 사용자 등록부(625)는 각 사용자 별로 개인적응 음향모델을 생성하기 위한 화자 적응부(6251)를 포함하는데, 화자 적응부(6251)는 사용자가 사용자 등록시에 제공되는 발성목록을 발화하면 그 정보를 이용하여 개인적응 음향모델(6230) 중 해당 화자의 음향모델 데이터베이스를 생성하고 적응시키는 기능을 수행한다.

음성 전처리부(621)는 본 발명의 다른 실시예에서와 마찬가지로 입력 음성신호에 대해 음질향상, 잡음제거, 특징추출 등의 기능을 수행한다. 다음, 화자 식별부(626)를 통해 사용자를 식별한다. 사용자를 식별하는 데에는 사용자 등록시 개인적응 음향모델 데이터베이스(6230)에 저장되고 적응된 개인적응 음향모델을 이용할 수 있다. 그 후, 음성 인식부(디코딩부)(622)는 음성 전처리부(621)로부터 받은 특징 벡터를 입력으로 하여 음향모델 데이터베이스(623)와 언어모델 데이터베이스(624)를 이용하여 이를 텍스트로 변환하는 실제 음성인식을 수행하는데, 이 때 화자 식별부(626)으로부터 받은 화자 정보로부터 개인적응 음향모델(6230) 중 해당 화자의 개인적응 음향모델을 적용하여 음성인식 기능을 수행한다.

여기에서, 화자 식별 결과 외부의 화자로 인식되거나, 가족 내 화자로 인식되더라도 식별의 신뢰도가 미리 정한 기준치에 미치지 못할 경우는 일반 화자로 분류하여 일반화자 음향모델(6231)을 이용하여 음성인식 기능을 수행한다.

도 7은 개인화 서비스가 추가된 본 발명의 또다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템에서 사용되는 음성처리 장치의 구성도이다.

도 7에 도시된 본 발명의 음성처리 장치(720)에서는 개인별로 사용자 프로파일을 관리함으로써 개인별 음성인식 기능 이외에도 사용자의 연령, 선호도 등을 바탕으로 다양한 개인화 서비스를 제공할 수 있으며, 사용자가 IPTV 시스템을 사용하기 위하여 결과 선택을 할 때마다 해당 음성 인식 결과와 화자의 결과 선택을 바탕으로 해당 화자의 음향 모델을 화자에 적응되도록 함으로써 등록시에 적응된 음향모델을 해당 화자에게 더욱 잘 적응되도록 할 수 있다.

도 7에 도시된 본 발명의 또다른 실시예에 따르면, 음성 처리 장치(720)는 개인화 서비스를 위해 사용자 등록부(725) 내에 화자 적응부(7251)와 함께 사용자 프로파일 작성부(7252)를 포함한다. 화자 적응부(7251)의 구성과 기능은 도 6의 실시예와 유사하므로 설명을 생략한다. 사용자 프로파일 작성부(7252)는 해당 IPTV 시스템을 사용하는 사용자, 예들 들면 가족 구성원이 사용자로 등록할 때에 사용자의 ID와 함께 성별, 연령, 선호도 등의 개인정보를 입력하여, 이를 개인화 서비스에 이용할 수 있도록 한다. 입력된 개인정보는 사용자 프로파일 데이터베이스(727)에 저장된다.

또한, 음성처리 장치(720)는 사용자의 연령에 적합한 정보를 제공하기 위하여 성인/아동 식별부(728)와 컨텐츠 제한부(7281)를 포함하고 있다. 음성처리 장치(720)로 음성이 입력되면 음성 전처리부(721)를 거쳐 입력된 신호에 대해 성인/아동 식별부(728)는 피치, 발성패턴 등의 음성특성을 이용해서 성인과 아동을 식별한다. 식별 결과, 사용자가 아동으로 판단될 경우 컨텐츠 제한부(7281)는 제공되는 컨텐츠의 내용을 제한한다. 이 때 제공되는 컨텐츠는 사용자의 요청에 의해서 제공되는 VOD 타입의 컨텐츠는 물론이고 실시간으로 제공되는 방송 채널을 포함하는 의미이다. 즉, 식별 결과 사용자가 아동으로 판단될 경우 컨텐츠 제한부(7281)는 해당 사용자가 특정 방송 채널을 시청할 수 없도록 제한할 수 있다.

성인/아동 식별부(728)를 통해 성인과 아동이 구분 식별된 후에는 화자 식별부(726)를 통해 화자를 식별하고 그에 따른 음성 인식을 수행한다. 이 때의 음성인식 과정은 도 6을 참고로 설명한 바와 동일하다. 음성 인식의 결과는 화자 적응부(729)를 통해 음성인식 결과와 화자의 결과 선택을 바탕으로 해당화자의 음향모델을 화자에게 더욱 맞도록 개선하기 위하여 사용되며, 선호도 적응부(7210)는 화자의 음성으로부터 인식되고 추출된 질의어, 질의어로부터 검색된 컨텐츠 목록, 컨텐츠 목록으로부터의 사용자의 선택 결과 등을 바탕으로 해당 화자의 사용자 프로 파일(727)을 추가 및 변경함으로써 사용자에게 개인화된 정보를 제공할 수 있도록 한다.

이상에서 바람직한 실시예를 기준으로 본 발명을 설명하였지만, 본 발명의 음성 인터페이스를 이용한 IPTV 시스템은 반드시 상술된 실시예에 제한되는 것은 아니며 발명의 요지와 범위로부터 벗어남이 없이 다양한 수정이나 변형을 하는 것이 가능하다. 첨부된 특허청구의 범위는 본 발명의 요지에 속하는 한 이러한 수정이나 변형을 포함할 것이다.

도 1은 본 발명의 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템의 기본 구성도,

도 2내지 도 5는 본 발명의 다른 실시예에 따른 음성 인터페이스를 이용한 IPTV 시스템의 구성도,

도 6 및 도 7은 본 발명의 다른 실시예에 따른 음성처리 장치의 구성도이다.

Claims

삭제
사용자의 음성을 입력받는 음성 입력 장치와,

상기 음성 입력 장치로 입력된 음성을 전달받아 음성인식을 수행하여 상기 음성을 텍스트로 변환하는 음성처리 장치와,

변환된 상기 텍스트를 전달받아 질의어를 추출하고 상기 질의어를 키워드로 컨텐츠를 검색하는 질의어 처리 및 컨텐츠 검색 장치와,

검색된 상기 컨텐츠를 상기 사용자에게 제공하는 컨텐츠 제공 장치를 포함하며,

상기 음성처리 장치는

전달받은 상기 음성에 대하여 음질 향상 또는 잡음 제거를 포함하는 전처리를 수행하고 특징벡터를 추출하는 음성 전처리부와,

추출된 상기 특징벡터를 텍스트로 변환하기 위하여 사용하는 음향모델을 저장하고 있는 음향모델 데이터베이스와,

추출된 상기 특징벡터를 텍스트로 변환하기 위하여 사용하는 언어모델을 저장하고 있는 언어모델 데이터베이스와,

상기 음향모델과 상기 언어모델을 이용하여 상기 특징벡터를 텍스트로 변환하는 디코딩부를 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
제2항에 있어서,

상기 음향모델 데이터베이스는 특정 사용자에게 적응된 음향모델을 저장하는 적어도 하나의 개인적응 음향모델 데이터베이스와 상기 특정 사용자가 아닌 사용자의 음성인식을 위해 사용하는 일반화자 음향모델 데이터베이스를 포함하며,

상기 음성처리 장치는 사용자별로 상기 사용자에 대응하는 상기 개인적응 음향모델 데이터베이스를 생성하는 제1 화자 적응부를 포함하는 사용자 등록부와, 상기 음성입력 장치로 입력된 음성을 전달받아 상기 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 화자 식별부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
제3항에 있어서, 상기 음성처리 장치는

입력된 상기 사용자의 음성을 이용하여 상기 사용자의 상기 개인적응 음향모델 데이터베이스를 개선하는 제 2 화자 적응부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
제3항에 있어서,

상기 사용자 등록부는 사용자별로 상기 사용자의 ID와 상기 사용자의 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 작성하는 사용자 프로파일 작성부를 더 포함하며,

상기 음성처리 장치는,

상기 사용자 프로파일을 저장하는 사용자 프로파일 데이터베이스,

추출된 상기 질의어, 검색된 상기 컨텐츠의 목록, 사용자에게 제공된 상기 컨텐츠 중 적어도 하나를 상기 사용자 프로파일 데이터베이스에 저장함으로써 상기 사용자 프로파일을 개선하는 사용자 선호도 적응부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
제2항에 있어서, 상기 음성처리 장치는

상기 음성입력 장치로 입력된 음성을 전달받아 피치 또는 발성패턴을 포함하는 음성특성을 이용하여 사용자가 성인인지 아동인지를 식별하는 성인/아동 식별부와, 상기 성인/아동 식별부의 식별 결과 상기 사용자가 아동으로 판단될 경우 제공되는 상기 컨텐츠를 제한하는 컨텐츠 제한부를 더 포함하는 음성 인터페이스를 이용한 IPTV 시스템.
제2항 내지 제6항 중 어느 한 항에 있어서,

상기 음성입력 장치는 사용자 단말기에 위치하고, 상기 음성처리 장치는 셋톱박스에 위치하며,

상기 음성입력 장치로 입력된 음성이 무선통신 방식으로 상기 음성처리 장치로 전송되는 음성 인터페이스를 이용한 IPTV 시스템.
제7항에 있어서,

상기 무선통신 방식은 Bluetooth, ZigBee, RF, WiFi, WiFi+유선망 중 하나인 음성 인터페이스를 이용한 IPTV 시스템.
제2항 내지 제6항 중 어느 한 항에 있어서,

상기 음성입력 장치와 상기 음성처리 장치는 사용자 단말기에 위치하는 음성 인터페이스를 이용한 IPTV 시스템.
제2항 내지 제6항 중 어느 한 항에 있어서,

상기 음성입력 장치와 상기 음성처리 장치는 셋톱박스에 위치하는 음성 인터페이스를 이용한 IPTV 시스템.
제10항에 있어서,

상기 음성입력 장치는 다채널 마이크로 구성되는 음성 인터페이스를 이용한 IPTV 시스템.
제2항 내지 제6항 중 어느 한 항에 있어서,

상기 음성입력 장치와 상기 음성처리 장치의 상기 음성 전처리부는 사용자 단말기에 위치하고, 상기 음성처리 장치의 상기 음성 전처리부를 제외한 나머지 부분은 셋톱박스에 위치하며,

상기 음성 전처리부로부터 출력된 특징벡터가 상기 셋톱박스에 위치하는 상 기 음성처리 장치의 상기 음성 전처리부를 제외한 나머지 부분으로 무선통신 방식으로 전달되는 음성 인터페이스를 이용한 IPTV 시스템.
제12항에 있어서,

상기 무선통신 방식은 Bluetooth, ZigBee, RF, WiFi, WiFi+유선망 중 하나인 음성 인터페이스를 이용한 IPTV 시스템.
삭제
사용자의 질의어 음성발화를 입력하는 단계와,

상기 음성발화를 음성처리하여 텍스트로 변환하는 단계와,

변환된 상기 텍스트로부터 질의어를 추출하고 상기 질의어에 대응하는 컨텐츠 리스트를 생성하는 단계와,

상기 컨텐츠 리스트를 상기 사용자에게 제공하는 단계와,

상기 사용자의 선택에 따라 상기 컨텐츠 리스트에 포함된 컨텐츠를 상기 사용자에게 제공하는 단계와,

사용자별로 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스를 생성하는 단계를 더 포함하며,

상기 음성발화를 음성처리하여 텍스트로 변환하는 단계는,

입력된 음성을 전달받아 상기 개인적응 음향모델 데이터베이스에 대응하는 사용자를 식별하는 단계를 포함하며,

상기 사용자에 대응하는 상기 개인적응 음향모델 데이터베이스가 존재하는 경우에는 상기 식별된 사용자에 대응하는 상기 개인적응 음향모델 데이터베이스를 이용하여 상기 음성발화를 음성처리하여 텍스트로 변환하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
제15항에 있어서,

상기 사용자 식별 단계에서 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 없는 경우에는 일반화자 음향모델 데이터베이스를 이용하여 상기 음성발화를 음성처리하여 텍스트로 변환하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
제16항에 있어서,

상기 사용자 식별 단계에서 상기 사용자에 대응하는 개인적응 음향모델 데이터베이스가 존재하더라도, 상기 사용자 식별 단계에서 식별된 사용자에 대한 식별 신뢰도가 미리 정한 기준치보다 낮은 경우, 상기 일반화자 음향모델 데이터베이스를 이용하여 상기 음성발화를 음성처리하여 텍스트로 변환하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
삭제
제15항에 있어서,

사용자로부터 상기 사용자의 ID와 상기 사용자의 성별, 연령, 선호도 중 적어도 하나를 포함하는 사용자 프로파일을 입력받는 단계,

상기 사용자 프로파일을 사용자 프로파일 데이터베이스에 저장하는 단계,

추출된 상기 질의어, 검색된 상기 컨텐츠 리스트, 사용자에게 제공된 상기 컨텐츠 중 적어도 하나를 상기 사용자 프로파일 데이터베이스에 저장함으로써 상기 사용자 프로파일을 개선하는 단계를 더 포함하는 음성 인터페이스를 이용한 IPTV 서비스 방법.
삭제