KR100560750B1

KR100560750B1 - 홈네트워크의 음성 인식 시스템

Info

Publication number: KR100560750B1
Application number: KR1020030087773A
Authority: KR
Inventors: 심현식; 정명기
Original assignee: 삼성전자주식회사
Priority date: 2003-12-04
Filing date: 2003-12-04
Publication date: 2006-03-13
Also published as: KR20050054399A

Abstract

본 발명에 의하면, 다양한 멀티미디어 기기가 설치된 홈네트워크 환경에서 음성 인터페이스를 통하여 각 홈네트워크 기기를 제어하고자 할때, 멀티미디어 기기의 멀티미디어 음향이 잡음으로 인식되는 상황에서 홈네트워크 시스템의 유무선 통신망을 통하여 그 멀티미디어기기의 멀티미디어 데이터를 수신하고, 홈로봇과 같은 이동형 홈에이전트를 통해 명령자의 음성 명령과 멀티미디어 음향들을 수신하여 음성 인식 서버에 무선 네트워크를 통해 전송함으로써, 음성 인식서버에서 효과적으로 멀티 미디어 기기의 음향 데이터를 제거하고 명령자의 음성을 효과적으로 추출할 수 있다.

음성인식, 멀티미디어, 홈로봇, 홈에이전트, 홈네트워크, 잡음

Description

홈네트워크의 음성 인식 시스템{speech recognition system of home network}

도 1은 본 발명의 제 1 실시예에 따른 홈네트워크의 음성 인식 시스템을 구성하는 블록도.

도 2는 유무선 통신 인터페이스를 통해 송수신되는 데이터의 구조도.

도 3은 도 1에 도시된 음성 인식 서버의 구성 블록도.

도 4는 도 1에 도시된 본 발명에 따른 오디오의 구성 블록도.

도 5는 도 1에 도시된 본 발명에 따른 TV의 구성 블록도.

도 6은 도 1에 도시된 본 발명에 따른 이동형 홈에이전트의 구성 블록도.

도 7은 도 1에 도시된 홈네트워크의 음성 인식 시스템의 동작 흐름도.

도 8은 본 발명의 제 2 실시예에 따른 홈네트워크 음성 인식 시스템의 구성도.

도 9는 도 8에 도시된 홈네트워크의 음성 인식 시스템의 동작 흐름도.

<도면의 주요부분에 대한 부호의 설명>

1 -4 : 스피커 5: 명령자

6: 패턴 잡음원 10 : 음성 인식 서버

11 : 통신 연결부 12 : 음성 추출부

13 : 음성 인식부 14 : 결과 처리부

20 : 오디오 21 : 통신 연결부

22 : 음향 전처리부 23 : 오디오 모듈

30 : TV 31 : 통신 연결부

32 : 음향 전처리부 33 : TV 모듈

40 : 이동형 홈에이전트 41 : 통신 연결부

42 : 음성 입력부 43 : 음향 전처리부

44 : 감쇄 계수 추정부 45 : 홈에이전트 모듈

50 : MDS

본 발명은 홈네트워크의 음성 인식 시스템에 관한 것으로, 상세하게는 가정 내에서 발생하는 음성 이외의 잡음으로 인한 인식 성능의 저하를 막고 시간의 흐름에 따라 변화하는 잡음의 특성에 유연하게 적응 할 수 있도록 다양한 유/무선 통신 방식을 이용하여 잡음 신호의 원천 정보를 잡음 제거 및 보상에 이용한 홈네트워크의 음성 인식 시스템에 관한 것이다.

다가오는 디지털 스마트 홈과 유비퀴터스 월드에 맞추어 급속도록 발전하는 IT기술과 함께 인간과 컴퓨터와의 통신은 더욱 더 빠르고 편리하게 변화해 가고 있다. 인간이 가장 쉽고 편리하고 거부감을 느끼지 않는 음성은 이러한 변화에 가장 적합한 인터페이스라 할 수 있다.

음성 인식 또는 화자 인식 시스템에서 잡음이 부가된 음성 신호의 처리 기술은 음성 신호 처리 분야의 중요한 연구 과제로 최근에는 음성 및 화자 인식 시스템이 전화 통신망, PC 패키지, 인터넷을 통한 데이터 망, 임베디드 시스템 등 여러 가지 응용 분야에 적용됨에 따라 잡음에 강한 음성 인식 기술의 연구 개발이 다양한 관점에서 활발히 연구가 진행되고 있다.

첫 번째로 음성 인식 시스템의 전처리 또는 전처리의 후반부(Front-End)와 결합된 형태로 가산 잡음 또는 채널 왜곡을 제거하는 기술 분야이다. 음성 인식을 위한 특징을 추출하기 위하여 음성에서 잡음의 영향을 최소화 하는 기술로 많은 알고리즘이 소개 되었고 지금도 활발한 연구가 진행되고 있다.

두 번째는 잡음에 강인한 음성 분석 및 특징을 추출하는 기법이다. 이는 음성의 특징을 추출하는 과정에서 잡음에 강인한 성질을 가지도록 하는 기술 분야로 패턴 인식 측면에서의 음성 신호의 특성을 최대한 활용한다. 인간의 청각 특성을 가미한 특징 추출 방법이 현재 많은 음성 인식 시스템에서 사용되고 있다.

세 번째는 모델 적응 기술로 음성 신호에 대한 직접적인 수정 없이 인식을 위한 모델을 잡음에 적응시키는 방법이다. 이미 작성된 인식 모델을 잡음 환경에서 재 훈련시키지 안고 기존 모델을 사용하기 위한 방법이라 할 수 있다.

잡음에 강한 음성 인식을 위하여 모델 적응 방법은 잡음 환경에 대한 사전 정보가 필요한 단점을 지니고 있어 시간에 따라 변화하는 환경에 유연함을 지니지 못하고 패턴 인식 시스템 측면에서의 잡음 처리는 가장 효과적인 성능 향상 방법으로 생각되지만 아직까지 타당성을 지닌 방법이 제시되지 못하고 있는 상황이다.

음성 인식 시스템의 전처리로써의 잡음 제거 및 보상은 시스템의 연산량을 증가시키는 단점이 있으나 PC의 성능 향상으로 인해 서버급 PC에서의 연산을 통하여 보완 할 수 있다.

한편, 통신 기술의 발전은 전송 속도, 전송 대역폭의 증가로 많은 데이터를 빠른 속도로 전송할 수 있게 해 주어 다양한 멀티미디어를 유/무선을 통하여 전송할 수 있게 해준다. 한편, 데이터 통신기술의 발전에 따라 홈네트워크의 기술도 다양하게 발전하고 있으며, 홈네트워크 기술에서 사용자의 음성을 인식하여 각종 가전제품들을 제어하는 음성 인식 기술의 중요성도 더해가고 있다.

음성 인식 시스템은 이러한 홈 네트워크를 사용자가 사용하는데 가장 효율적이고 편리한 인터페이스 역할을 한다. 따라서 음성 인식 시스템의 성능 향상은 중요한 연구 개발 과제이고 인식 성능을 향상 시키기 위해 통신 기술과 결합하여 음성 이외의 잡음의 원천 정보를 실시간으로 음성 인식에 적용함으로 인식 시스템의 성능 향상시킬 수 있다.

가정환경에 존재하는 잡음의 종류는 셀 수도 없이 많다.

가정 내에서 발생하는 잡음의 예를 들면, TV Sound, Audio Sound, 에어컨, 선풍기, 냉장고, 출입문 소리, 초인종, 전화벨, 발소리, 일상 대화 등이 있다.

가정 외에서 영향을 주는 잡음의 예를 들면, 자동차, 기차, 비행기, 비 오는 소리 등이 있다.

위에 열거한 잡음들은 모두 인식에 영향을 끼칠 수 있는 잡음이나 일정한 패턴을 지닌 잡음은 상대적으로 제거/보상하기 쉽다.

일정 패턴을 지닌 잡음의 예를 들면, 에어컨, 선풍기, 냉장고, 출입문, 초인종, 전화벨, 발소리, 자동차, 기차/비행기, 비 오는 소리 등 있다. 한편, 일정 패턴이 없는 잡음의 예를 들면 TV / Audio Sound, 전화벨(Mobile), 주변 대화 등이 속한다.

더 상세하게 음향 기기가 동작하고 있는 가정환경에서의 사용자 음성을 인식하는 예를 들어보면, 사용자의 음성과 스피커의 출력, 그리고 신호의 전파에 걸리는 지연 시간 등 가변적인 요소를 고려해야 한다.

왜냐하면, 음성 신호의 분석이 10~40 msec의 단구간에서 처리되어진다고 하여도 전체적인 시스템에서 가변적인 요소를 고려하지 않으면 유/무선 통신을 위하여 전송되는 짧은 구간의 음성 신호를 동기화 시키거나 재조합할 수 없는 결과를 나타내기 때문이다.

본 발명은 이러한 종래의 필요성에 의해 안출된 것으로, 가정 내에서 잡음에 강인한 음성 인식을 위하여 잡음의 원천 정보를 이용하여 효과적으로 잡음을 제거하고, 가정 환경에서 발생하는 잡음을 최소화 하여 명령자의 음성 인식률을 증가시 킬 수 있는 홈네트워크의 음성 인식 시스템을 제공하는데 그 목적이 있다.

이러한 목적을 달성하기 위한 본 발명은 가정내에서의 음성 인식을 위해 근래에 급속도로 발전하고 있는 유/무선 통신 방식과 차세대 홈 로봇/이동형 단말을 이용한다. 아울러, 차세대 주거 환경은 가정 내/외에서 집 안의 전자기기나 안전 장치들을 제어할 수 있도록 변화하고 있다. 각 가정마다 홈 로봇과 같은 이동형 단말체가 에이젼트가 되어 이러한 것들을 담당하게 되고 사용자는 휴대폰을 이용하여 가정 외에서 집안 내의 상황을 모니터하고 컨트롤 할 수 있게 된다.

본 발명에 따른 홈네트워크의 음성 인식 시스템은 클라이언트/서버 개념을 적용하고 그 서버와 클라이언트는 다양한 유/무선 연결을 이용하여 서로 통신한다. 서버는 실제 음성 인식을 수행하고 클라이언트와의 통신을 관장한다. 클라이언트는 음성의 원천 정보와 잡음의 원천 정보를 입력 받아 서버로 전송한다.

서버는 클라이언트로부터 전송된 음성 정보와 잡음 원천 정보를 이용하여 잡음을 제거/보상하여 사용자가 입력한 음성 신호를 얻는다. 그리고, 그 얻어진 음성 신호를 이용하여 음성 인식을 수행한다. 또한, 각 클라이언트에서 전송한 데이터의 동기화를 수행한다.

클라이언트는 제 1 클라이언트(Home Agent)와, 제 2 클라이언트, 제 3 클라이언트로 구분될 수 있다.

제 1 클라이언트(예를 들어 홈로봇 또는 이동형 홈에이전트가 해당되는데)는 사용자의 음성 명령을 입력 받는다. 또한, EPD(End-point detection)를 수행하여 음성 구간을 검출한다. 사용자의 음성 명령과 함께 입력된 잡음 중 패턴을 지닌 잡음을 제거/보상한다. 그리고 처리된 음성을 서버로 전송한다.

제 2 클라이언트(예를 들어 TV, Audio가 해당되는데)는, 자신을 통해 출력되는 패턴을 지니지 않은 잡음의 원천 정보가 되는 음향 정보를 인식서버로 전송한다.

제 3 클라이언트(예를 들어, MDS(Multimedia Distribution Server)가 해당되는데)는 서버와 제 2 클라이언트의 사이에 연결되어 제 1 클라이언트를 제외한 제 2 클라이언트를 통해 출력되는 음향 정보를 인식 서버로 전송한다.

이때, 제 2 클라이언트 또는 제 3 클라이언트가 인식서버로 전송하는 음향정보는 다음과 같은 형태가 될 수 있다.

첫째로 Waveform Level이다. 이는 실제 음향 정보의 파형 또는 이를 압축하여 전송하는 것이다.

두번째는 Frequency Level이다. 이는 음향 정보를 주파수 분석하여 이 내용을 전송하는 것이다.

셋째는 Feature Level이다. 이는 음성 인식을 위한 특징을 추출하여 이를 전송하는 것이다.

네째는 Mixed Level이다. 이는 위의 세가지 방법들을 혼용하는 것이다.

도 1은 본 발명의 제 1 실시예에 따른 홈네트워크의 음성 인식 시스템을 구성하는 블록도이다.

도 1을 참조하면, 본 발명에 따른 홈네트워크의 음성 인식 시스템은 음성 인식 서버(10)와, 오디오(20)와, TV(30)와, 스피커들(1, 2, 3, 4)과, 이동형 홈 에이전트(40)로 이루어진다.

음성 인식 서버(10)는 실제 음성 인식을 수행하는 것으로 홈게이트웨이(Home Gateway)와 결합된 형태나 스마트 홈서버(Smart Home Server)와의 결합된 형태로 존재할 수 있고 혹은 단독으로 존재 할 수 있다.

음성 인식 서버(10)는 오디오(20) 또는 TV(30)로부터 해당 기기에서 스피커들을 통해 출력되는 음향에 대한 음향 출력 정보를 유무선 네트워크를 통해 수신하고, 무선 네트워크를 통해 이동형 홈에이전트(40)로부터 다양한 소리 정보를 수신하여 그 소리 정보중에서 그 음향 출력 정보에 상응하는 음향을 제거하고, 사람의 음성 신호만을 추출하여 음성 인식을 수행한다.

오디오(20)는 음성 인식에서 명령자(5)의 음성 인식 성능을 저하시킬 수 있는 잡음에 속하는 음향 정보를 출력하는 장치중의 하나로 자신이 출력할 음향정보를 유무선 네트워크를 통하여 음성 인식 서버(10)로 전송한다.

오디오(20)에서 음성 인식 서버(10)로 전송하는 음향 정보에는 오디오(20)에 의해 재생되는 음향 데이터와, 오디오(20)에서 스피커를 통해 출력되는 음향 출력 세기 정보가 포함된다.

TV(30)도 음성 인식에서 명령자(5)의 음성 인식 성능을 저하시킬 수 있는 잡음에 속하는 음향 정보를 출력하는 장치중의 하나로 자신이 출력할 음향정보를 유무선 네트워크를 통하여 음성 인식 서버(10)로 전송한다.

TV(30)에서 음성 인식 서버(10)로 전송하는 음향 정보에는 오디오(20)에 의해 재생되는 음향 데이터와, TV(30)에서 스피커를 통해 출력되는 음향 출력 세기 정보가 포함된다.

스피커들(1, 2, 3, 4)은 오디오(20)와 TV(30)의 음향을 출력하는 장치로서 댁내에서 일정한 자리에 위치하여 있다.

이동형 홈에이전트(40)는 정지 또는 이동중에 댁내에서 스피커들(1, 2, 3, 4)을 통해 출력되는 오디오(20) 또는 TV(30)의 다양한 음향과 명령자(5)로부터 발생된 사람의 음성과, 기타 패턴 잡음원(6)으로부터 발생된 잡음들을 포함한 소리 정보를 내장된 마이크를 통하여 수신하여 무선 네트워크를 통해 음성 인식 서버(10)에 전송한다.

음성 인식 서버(10)와 오디오(20) 및 TV(30)를 연결하는 네트워크는 다양한 유선 네트워크 또는 무선 네트워크가 사용될 수 있다. 예를 들면, 유선 LAN, 무선랜, 블루투스 등이 사용될 수 있다. 이를 위하여 음성 인식 서버(10)와 오디오(20) 및 TV(30)에는 유무선 통신을 위한 통신 인터페이스가 설치된다.

음성 인식 서버(10), 오디오(20), TV(30), 이동형 홈에이전트(40)간에 송수신하는 데이터 형식에는 Waveform Level을 사용하여 실제 음향 정보의 파형 또는 이를 압축하여 전송할 수 도 있고, Frequency Level을 사용하여 음향 정보를 주파수 분석하여 이 내용을 전송할 수 있다. 아울러, Feature Level을 사용하여 음성 인식을 위한 특징을 추출하여 이를 전송할 수 있고, Mixed Level을 사용하여 위의 세가지 방법들을 혼용할 수 있다. 어떤 방식을 사용하든지 간에 음성 인식 서버(10), 오디오(20), TV(30), 이동형 홈에이전트(40)간에는 패킷을 통하여 데이터를 송수신한다.

도 2는 이러한 통신 인터페이스를 통해 송수신되는 데이터의 구조를 보여준다.

도 2를 참조하면, 패킷은 헤더 필드와 데이터 필드로 이루어져 있으며, 데이터 필드에는 시간정보, 감쇄 계수 정보, 출력세기, 정보 음향 신호가 포함된다. 이때, VoIP 또는 RTP를 사용하는 통신에서는 헤더에 있는 타임 스탬프 필드를 시간정보로 활용이 가능하다.

도 3은 도 1에 도시된 음성 인식 서버(10)의 구성 블록도이다.

도 3을 참조하면 음성 인식 서버(10)는 통신 연결부(11)와, 음성 추출부(12)와, 음성 인식부(13)와, 결과 처리부(14)로 구성된다.

통신 연결부(11)는 이동형 홈에이전트(40)와 오디오(20) 및 TV(30)와의 유무선 네트워크를 통해 통신을 수행한다. 이동형 홈에이전트(40)와 오디오(20) 및 TV(30)로부터 사용자의 음성 정보 및 음향 정보를 전송 받고 필요할 경우 음성 인식 결과를 이동형 홈에이전트(40)로 전송하거나 동작이 필요한 장치로 메시지를 전송한다.

음성 추출부(12)는 이동형 홈에이전트(40)와 오디오(20) 및 TV(30)로부터 전송해 음성정보, 음향 정보, 위치 정보를 이용하여 잡음을 제거하여 명령자(5)가 발성한 원음성 또는 원음성의 특징을 추출해 낸다.

음성 인식부(13)는 추출해 낸 음성 또는 특징을 이용하여 음성 인식을 수행 한다. 음성 인식부(13)에서 음성 인식을 수행하는 방법에 대하여는 다양한 방법들이 공지되어 있다.

결과 처리부(14)는 인식한 결과에 대한 응답을 분류하여 홈네트워크내에서 사용자가 내린 음성 명령에 따라 해당 홈네트워크 장치의 동작에 필요한 메시지를 생성한다.

도 4는 도 1에 도시된 본 발명에 따른 오디오의 구성 블록도이다.

도 4를 참조하면, 오디오(20)는 통신 연결부(21)와, 음향 전처리부(22)와, 오디오 모듈(23)로 구성된다.

통신 연결부(21)는 음성 인식 서버(10)와 유무선 네트워크를 통해서 통신을 수행한다. 비콘의 수신, 입력 음성 정보의 송/수신을 담당한다.

음향 전처리부(22)는 출력되는 음향 신호를 음성 인식 서버(10)에서 효과적으로 음성 인식할 수 있도록 전처리를 수행한다. 오디오 모듈(23)에서 출력되는 음향 신호는 주로 오디오 CD, MP3, 오디오 테입등을 재생하거나, 다른 미디어 기기의 오디오 출력을 받아 오디오에 연결된 스피커를 통하여 재생할때 출력되는 음향들이다.

따라서, 오디오 모듈(23)을 통해서 출력되는 음향신호에는 다양한 형태의 악기소리, 사람 목소리 등이 혼합된 형태이고, 시간에 따라 그 패턴이 변하는 잡음에 속할수 있다. 그리고, 음악을 구성하는 오디오 신호는 사람의 음성신호에 비하여 높은 샘플링을 가지는 신호로 되어 있다.

한편, 오디오 모듈(23)에서 음향 신호를 출력하는 동안 통신 연결부(21)는 오디오 모듈(23)에서 출력되는 음향 데이터와 오디오 모듈(23)이 출력하는 음향 출력 세기 정보를 음성 인식서버(10)로 전송해준다.

이때, 음향 전처리부(22)는 오디오 모듈(23)에서 재생되어 출력되는 음향 데이터를 전처리하여 높은 샘플링의 음향신호를 사람의 음성을 디지털 신호로 변환하기 위해 샘플링을 수행할 때 사용하는 수준의 낮은 샘플링 수준으로 낮추어 샘플링을 수행한다. 즉, 명령자의 음성을 디지털 신호로 변환 시 사용되는 표본화율(Sampling Rate)과 동일한 정밀도(Resolution)를 가지도록 음향 전처리를 수행한다.

왜냐하면, 오디오 모듈(23)를 통해 재생되는 각종 음향신호는 비교적 높은 샘플링을 가지고 만들어져 있지만, 음성 인식 서버(10)에서 음성 인식을 위해 필요한 오디오(20)의 음향 데이터는 이동형 홈에이전트(40)를 통해 수신되는 오디오 음향 데이터를 제거하는데 필요한 정도의 샘플링 주파수만을 가지면 되기 때문이다.

즉, 이동형 홈에이전트(40)에서 사람의 음성 및 기타 잡음을 마이크를 통해 수신하여 음성 인식 서버(10)에 전송할 때, 아날로그 음성을 디지탈 신호로 변환할때 사람을 음성을 중심으로 처리하기 위하여 사람의 음성에 적합한 표본 비율로 샘플링하는 작업을 수행하게 된다. 따라서, 오디오(20)에서 재생되어 스피커를 통해 출력되는 음향 신호가 비록 높은 수준의 샘플링을 가지는 디지털 데이터라 하더라도 이동형 홈에이전트(40)를 통해 수신되는 음향 데이터는 사람의 음성을 샘플링하는 표본 비율로 음향 전처리를 하기 때문에 굳이 오디오 모듈(23)에서 출력되는 높은 수준의 샘플링 비율을 유지할 필요는 없다.

아울러, 이러한 작업은 오디오(20)와 음성 인식 서버(10)간에 통신을 수행할 때도 로드를 덜어주는 잇점을 주게 된다.

오디오 모듈(23)은 오디오 CD, MP3, 오디오 테입등의 오디오 기록매체에 저장된 오디오 데이터를 재생하는 기능모듈들을 통칭한다. 예를들어, 오디오 CD를 재생시키는 CD 플레이어, 테입을 재생시키는 테입 플레이어, MP3를 재생시키는 MP3 플레이어와, 라디오 수신 및 재생 모듈과 이러한 플레이어를 통해서 재생되는 음향 신호들을 증폭하고 볼륨을 제어하여 출력하고, 현재 동작상태를 표시하여 주는 디스플레이부등 각종 오디오 관련 모듈들을 의미한다.

도 5는 도 1에 도시된 본 발명에 따른 TV의 구성 블록도이다.

도 5를 참조하면, TV(30)는 통신 연결부(31)와, 음향 전처리부(32)와, TV 모듈(33)로 구성된다.

통신 연결부(31)는 음성 인식 서버(10)와 유무선 네트워크를 통해 통신을 수행한다. 비콘의 수신, 입력 음성 정보의 송/수신을 담당한다.

음향 전처리부(32)는 TV를 통해 출력되는 영상 및 음향 신호중에서 음향 신호를 음성 인식 서버(10)에 전송하기 전에 전처리를 수행한다. TV 모듈(33)에서 출력되는 음향 신호는 주로 공중파, 케이블, 위성 TV로부터 수신된 TV 데이터를 재생하여 출력하거나, VTR, DVD , 동영상 CD 등을 재생하여 자체 스피커 또는 연결된 스피커를 통하여 출력되는 음향들이다.

따라서, TV 모듈(33)를 통해서 출력되는 음향신호에는 다양한 형태의 상황에 따른 소리들, 예를 들어 차소리, 악기소리, 사람 목소리 등이 혼합된 형태이고, 시 간에 따라 그 패턴이 변하는 잡음에 속할수 있다. 그리고, TV 신호를 구성하는 오디오 신호는 사람의 음성신호에 비하여 높은 샘플링을 가지는 신호로 되어 있다.

한편, TV 모듈(33)에서 음향 신호를 출력하는 동안 통신 연결부(31)는 TV 모듈(33)에서 출력되는 음향 데이터와 TV 모듈(33)이 출력하는 음향 출력 세기 정보를 유무선 네트워크를 통해 음성 인식서버(10)로 전송해준다.

이때, 음향 전처리부(32)는 TV 모듈(33)에서 재생되어 출력되는 음향 데이터를 전처리하여 높은 샘플링의 음향신호를 사람의 음성을 디지털 신호로 변환하기 위해 샘플링을 수행할 때 사용하는 수준의 낮은 샘플링 수준으로 낮추어 샘플링을 수행한다. 즉, 명령자의 음성을 디지털 신호로 변환 시 사용되는 표본화율(Sampling Rate)와 동일한 정밀도(Resolution)를 가지도록 음향 전처리를 수행한다.

왜냐하면, TV 모듈(33)를 통해 재생되는 각종 음향신호는 비교적 높은 샘플링을 가지고 만들어져 있지만, 음성 인식 서버(10)에서 음성 인식을 위해 필요한 TV(30)의 음향 데이터는 이동형 홈에이전트(40)를 통해 수신되는 오디오 음향 데이터를 제거하는데 필요한 정도의 샘플링 주파수만을 가지면 되기 때문이다.

즉, 이동형 홈에이전트(40)에서 사람의 음성 및 기타 잡음을 마이크를 통해 수신하여 음성 인식 서버(10)에 전송할 때, 아날로그 음성을 디지탈 신호로 변환할때 사람을 음성을 중심으로 처리하기 위하여 사람의 음성에 적합한 표본 비율로 샘플링하는 작업을 수행하게 된다. 따라서, TV(30)에서 재생되어 스피커를 통해 출력되는 음향 신호가 비록 높은 수준의 샘플링을 가지는 디지털 데이터라 하더라도 이 동형 홈에이전트(40)를 통해 수신되는 음향 데이터는 사람의 음성을 샘플링하는 표본 비율로 음향 전처리를 하기 때문에 굳이 TV 모듈(33)에서 출력되는 높은 수준의 샘플링 비율을 유지할 필요는 없다.

아울러, 이러한 작업은 TV(30)와 음성 인식 서버(10)간에 통신을 수행할 때도 로드를 덜어주는 잇점을 주게 된다.

TV 모듈(33)은 통상의 TV 신호를 수신하여 영상과 음성으로 재생하는 TV 기능모듈을 통칭하는 것으로, 공중파, 케이블, 위성 TV로부터 수신된 TV 데이터를 재생하여 출력하거나, VTR, DVD , 동영상 CD 등을 재생하여 자체 스피커 또는 연결된 스피커를 통하여 출력하는 기기들을 통칭한다.

한편, 이동형 홈에이전트(40)는 제 1 클라이언트로서 홈 로봇 또는 지능형 단말이 해당되는 것으로, 실내에서 이동하면서 홈네트워크내의 각종 장비(미도시됨)와 홈네트워크 서버(미도시됨)와의 인터페이스를 수행하는 에이전트이다.

도 6은 도 1에 도시된 본 발명에 따른 이동형 홈에이전트의 구성 블록도이다.

도 6을 참조하면, 이동형 홈에이전트(40)는 통신 연결부(41)와, 음성 입력부(42)와, 음향 전처리부(43)와, 감쇄 계수 추정부(44)와, 홈에이전트 모듈(45)를 포함하여 구성된다.

통신 연결부(41)는 음성 인식 서버(10)와 통신을 수행한다. 비콘의 수신, 입력 음성 정보의 송/수신을 담당한다.

음성 입력부(42)는 명령자로부터 음성을 입력받거나 가정환경에서 입력되는 다양한 잡음들, 예를 들면, 스피커들(1-4)을 통해 출력되는 오디오(20)나 TV(30)의 음향신호들과, 일정한 잡음 패턴을 가지는 잡음을 발생시키는 패턴 잡음원(6)으로부터 발생되는 잡음들(예를 들어, 세탁기 동작하는 소리, 청소기 동작하는 소리, 에어컨 동작하는 소리, 선풍기 동작하는 소리 등)을 입력받아 전기적인 신호를 변환하는 마이크를 포함한다.

음향 전처리부(43)는 음성 입력부(42)를 통해 입력된 다양한 잡음들을 전처리 필터링하는 기능을 수행한다. 이동형 홈에이전트(40)의 음향 전처리부(43)에서 수행하는 전처리에는 음성 입력부(42)를 통해 입력된 다양한 소리정보를 사람의 음성에 맞추어 다운 샘플링(8KHz/16KHz)을 수행하는 다운 샘플링처리와, 일정한 잡음 패턴을 가지고 반복되는 잡음들을 제거하기 위한 필터링을 수행하는 필터링 처리가 포함된다.

감쇄 계수 추정부(44)는 명령자(5)와 이동형 홈에이전트(40)와의 거리, 음성 서버(10)와 이동형 홈에이전트(40)의 이격 거리를 계산한다. 감쇄 계수 추정부(44)에서 임의의 음성 명령을 내리는 명령자(5) 및 스피커(1-4)와 이동형 홈에이전트(40)사이의 거리를 계산하는 것은 다양한 위치 계산 기술들이 적용될 수 있다.

예를 들어, 랜드 마크 기술과 형상 인식 기술들이 사용될 수 있다. 랜드 마크 기술은 본 발명이 가정이라는 일정한 공간에서 적용되는 것이고, 스피커의 위치가 일단 한번 고정되면 특별히 이동시키지 않는 한 일정한 위치에 고정됨에 따라 가정내의 천정 소정의 위치에 랜드 마크를 찍어놓은 상태에서 이동형 홈에이전트(40)에서 그 랜드 마크를 기준으로 스피커(1-4)의 위치를 추정하면 된다.

또한, 사람들이 실내에서 움직일 때 그 움직이는 사람과 이동형 홈에이전트(40)와의 거리를 추정하는 것은 사람의 형태를 인식하는 기술을 사용하여 기준이 되는 형상에 대한 정보를 저장한 상태에서 이동하는 사람의 형상을 찍어서 서로 비교하여 거리를 추정할 수 있다.

여기에서, 거리를 추정하는 것은 이동형 홈에이전트(40)가 이동하기 때문에 스피커들(1 - 4)과 서로 얼마만큼 떨어져 있느냐에 따라 이동형 홈에이전트(40)에 입력되는 스피커의 출력이 다르기 때문이다.

따라서, 감쇄 계수 추정부(44)에서 현시점에서의 스피커(1 - 4)의 위치와 명령자의 위치를 추정하여 그 거리 정보를 음성 인식서버(10)에 전송하게 되면 음성 인식 서버(10)에서는 그 거리 정보에 따라 감쇄율을 적용하여 스피커(1 -4)를 통해서 출력되는 음향들을 효과적으로 제거하여 명령자(5)의 음성들을 효과적으로 추출하여 음성 인식을 수행할 수 있다.

홈에이전트 모듈(45)은 이동형 홈에이전트(40)가 가정내에서 홈에이전트로 동작하기 위한 이동부, 연산부, 디스플레이부들을 통칭하여 말한다.

그러면, 이와 같이 구성된 홈네트워크의 음성 시스템에서 음성 인식 서버(10)의 음성 추출부(12)가 명령자의 음성을 추출하는 원리를 수식을 사용하여 설명하면 다음과 같다.

s[n] : 명령자의 음성 신호로 명령자가 임의의 음성 명령을 내렸을때 발생되 는 값이다.

t[n] : 음성 인식 서버에서 추출한 명령자의 음성 신호이다.

c1[n]는 오디오의 음향 신호로서 오디오에서 음성 인식 서버로 유무선 네트워크를 통해 전달되는 값이다.

c2[n]는 TV의 음향 신호로서 TV에서 음성 인식 서버로 유무선 네트워크를 통해 전달되는 값이다.

ac1[n]은 스피커를 통해 출력되어 이동형 홈에이전트에 입력되는 오디오의 음향 신호로서 이동형 홈에이전트를 통해 음성 인식서버에 무선 네트워크를 통해 전송된다.

ac2[n]는 스피커를 통해 출력되어 이동형 홈에이전트에 입력되는 TV의 음향 신호로서 이동형 홈에이전트를 통해 음성 인식 서버에 무선 네트워크를 통해 전송된다.

Gc1 는 오디오의 음향 출력 세기로 오디오에서 음성 인식 서버로 유무선 네트워크를 통해 전달되는 값이다.

Gc2 는 TV의 음향 출력 세기로 TV에서 음성 인식 서버로 유무선 네트워크를 통해 전달되는 값이다.

Dc1 은 오디오의 음향 신호를 출력하는 스피커로부터 거리를 추정한 감쇄계수로 이동형 홈에이전트에서 산출되어 음성 인식 서버로 무선 네트워크를 통해 전달되는 값이다.

Dc2 는 TV의 음향 신호를 출력하는 스피커로부터 거리를 추정한 감쇄계수로 이동형 홈에이전트에서 산출되어 음성 인식 서버로 무선 네트워크를 통해 전달되는 값이다.

h[n] 은 이동형 홈에이전트가 입력받은 전체 소리 신호이다. 이동형 홈에이전트에서 측정되는 값이다.

z[n] 은 패턴을 지닌 잡음이다.

S(e^jω), T(e^jω), C1(e^jω), C2(e^jω), H(e^jω), Z(e^jω), Ac1(e^jω), Ac2(e^jω) 은 각 신호의 주파수 특성이다.

이동형 홈에이전트(40)가 명령자(5)로부터 입력 받은 음성 신호에는 오디오디오(20), TV(30)로부터 시간에 따라 가변적인 음향과 가전 제품의 동작 소리와 같은 패턴을 지닌 잡음이 포함되어 있다. 따라서, 이동형 홈에이전트(40)에 입력되는 전체 소리정보는 수학식1 과 같이 나타낼 수 있다.

h[n]= s[n] + ac1[n] + ac2[n] + z[n]

수학식 1을 주파수 도메인으로 표현하면 수학식 2와 같이 나타낼 수 있다.

H(e^jω) = S(e^jω) + Ac1(e^jω) + Ac2(e^jω) + Z(e^jω)

오디오(20)의 스피커(1, 2), TV(30)의 스피커(3, 4)로부터 출력되어 이동성 홈에이전트(40)에 입력되는 음향 신호는 오디오(20), TV(30)의 음향 신호와 출력 세기, 그리고 감쇄 계수의 곱으로 나타낼 수 있다. 이를 수학식 3과 같이 나타낼 수 있다.

ac1[n] = Gc1·Dc1·c1[n]

ac2[n] = Gc2·Dc2·c2[n]

수학식 3을 주파수 도메인으로 나타내면 수학식 4가 된다.

Ac1(e^jω) = Gc1·Dc1·c1(e^jω)

Ac2(e^jω) = Gc2·Dc2·c2(e^jω)

이동형 홈에이전트(40)에 입력된 모든 소리 정보(h[n])와 이동형 홈에이전트(40)에서 위치 정보로부터 산출된 감쇄 계수(Dc1, Dc2)는 이동형 홈에이전트(40)로부터 전송된 값이다.

이동형 홈에이전트(40)로부터 전송된 모든 소리 정보(h[n])에서 일정한 패턴을 지닌 잡음(z[n])을 제거한 신호는 명령자의 음성 신호(s[n])에 오디오로부터 출력되어 이동형 홈에이전트(40)에 입력된 음향 신호(ac1[n])와 TV로부터 출력되어 이동형 홈에이전트(40)에 입력된 음향신호(ac2[n])의 합과 같다. 따라서, 이를 수학식 3을 참조하여 수학식으로 표현하면 수학식 5가 유도된다.

tm[n]= h[n] - z[n] = s[n] + Gc1·Dc1·c1[n] + Gc2·Dc2·c2[n]

수학식 5를 주파수 도메인으로 표현하면 수학식 6이 된다.

Tm(e^jω) = H(e^jω) - Z(e^jω) = Gc1·Dc1·c1(e^jω) + Gc2·Dc2·c2(e ^jω)

한편, 패턴 잡음이 제거된 신호(tm[n])에서 오디오로부터 출력되어 이동형 홈에이전트(40)에 입력된 음향 신호(ac1[n])와 TV로부터 출력되어 이동형 홈에이전트(40)에 입력된 음향신호(ac2[n])를 빼면 명령자의 음성 신호가 추출된다.

이를 수학식으로 나타내면 수학식 7과 같다.

t[n]= tm[n] - Gc1·Dc1·c1[n] - Gc2·Dc2·c2[n]

수학식 7을 수학식6에 의하여 정리하면 수학식 8이 유도된다.

t[n]= tm[n] - Gc1·Dc1·c1[n] - Gc2·Dc2·c2[n]

= s[n]

수학식 8를 주파수 도메인으로 나타내면 수학식 9가 된다.

T(e^jω) = Tm(e^jω) - Gc1·Dc1·c1(e^jω) - Gc2·Dc2·c2(e^jω)

= S(e^jω)

따라서, 수학식 8과 수학식 9를 참조하면 음성 인식 서버는 이동형 홈에이전트로부터 이동형 홈에이전트에 입력된 모든 소리 정보(h[n])에서 패턴 잡음(z[n])이 제거된 신호(tm[n])와, 감쇄계수(Dc1, Dc2)를 무선 네트워크를 통해서 수신하 고, 오디오(20)와 TV(30)로부터 오디오(20)와 TV(30)의 음향 데이터(c1[n], c2[n])와 음향 출력의 세기(Dc1, Dc2)를 수신할 수 있음에 따라 명령자의 음성만을 추출할 수 있게 된다.

이와 같이 구성된 홈네트워크의 음성 인식 시스템의 동작을 살펴보도록 한다.

도 7은 도 1에 도시된 홈네트워크의 음성 인식 시스템의 동작 흐름도이다.

도 7을 참조하면, 음성 인식 서버(10)는 무선 네트워크를 이용하는 경우 주기적인 비콘 신호를 전송하여 이동형 홈에이전트(40)와 오디오(20), TV(30)의 연결 상태를 확인하며 자신과 이동형 홈에이전트(40)와 오디오(20), TV(30)간에 시간을 동기화 시킨다(S1, S2, S3).

이와 같이 무선 연결의 경우 주기적인 비콘 신호를 이용하여 동기화 시킬 수 있다. 유선의 경우에는 타임 정보를 송수신하여 시간 동기화를 수행한다.

한편, 오디오(20), TV(30)는 각각 자신들을 통해 출력되는 음향 데이터에 대하여 명령자의 음성 정보의 표본화율(Sampling rate)과 동일한 비율과 동일한 해상도(Resolution)의 샘플링으로 다운 샘플링을 수행한다(S4, S5). 그리고, 샘플링된 음향 데이터와 음향 출력 세기정보로 이루어지는 음향 출력 정보를 시간정보와 함께 음성 인식 서버(10)에 유무선 네트워크를 통해 패킷 데이터로 전송한다(S6, S7).

아울러, 오디오(20)와 TV(30)는 음향 출력 세기를 가지고 증폭된 각자의 음향 전기 신호를 스피커(1 - 4)에 전송한다(S8, S9). 스피커(1 -4)는 오디오(20) 및 TV(30)로부터 수신된 음향 전기 신호를 아날로그 음향신호로 변환하여 출력하고, 그 음향 신호는 이동형 홈에이전트(40)에 입력된다(S10).

한편, 명령자(5)가 임의의 음성 명령을 내리면 그 음성 명령도 이동형 홈에이전트(40)에 입력된다(S11). 아울러, 일정한 패턴을 가지는 잡음을 발생시키는 패턴 잡음원(예를 들면, 냉장고 동작하는 소리, 세탁기 동작하는 소리..)들로부터 발생된 패턴 잡음도 이동형 홈에이전트(40)로 입력된다(S12).

이동형 홈에이전트(40)는 자신이 가정내에서 이동하면서 스피커(1 -4)로부터 수신한 오디오(20)와 TV(30)의 음향 신호와, 명령자(5)의 음성 명령과, 패턴잡음원(6)의 패턴 잡음이 포함된 소리정보를 사람의 음성을 샘플링하는 샘플링 비율로 다운 샘플링을 수행한다(S13). 그리고, 그 다운 샘플링된 신호에서 패턴 잡음을 제거하는 과정을 수행한다(S14).

아울러, 이동형 홈에이전트에 입력된 음향 잡음은 원천 정보에서 전파에 의한 감쇄(Attenuation)가 발생한다. 출력 세기 정보와 잡음원과의 추정 거리등이 변수로 이루어진 함수로 그 감쇄 계수를 계산한다.

함수는 선형적인 관계를 나타낼 수 도 있고 비 선형적인 함수가 될 수도 있으며 함수를 구성하는 변수들은 뉴럴 네트워크, 퍼지 알고리즘 등 여러 가지 알고리즘을 이용한 학습을 통하여 최적의 상태를 추정한다.

따라서, 여러 개의 스피커, 패턴 잡음원, 명령자와 이동형 홈에이전트와의 각각의 거리를 이용하여 잡음원과 이동형 홈에이전트와의 거리 추정을 수행하여 감쇄 계수를 추정한다(S15).

그 다음 이동형 홈에이전트(40)는 패턴 잡음이 제거된 신호와 감쇄계수를 무선 네트워크를 통하여 패킷으로 음성 인식 서버(10)에 전송한다(S16).

음성 인식 서버(10)는 이동형 홈에이전트(40)로부터 수신된 패턴 잡음이 제거된 소리 정보 및 감쇄계수와, 오디오(20) 및 TV(30)로부터 수신된 음향 데이터 및 출력 세기정보를 이용하여 명령자(5)의 음성 명령만을 추출해낸다(S17).

그리고, 그 추출한 음성 명령을 다양한 음성 인식 알고리즘을 이용하여 음성 인식을 수행한다(S18).

도 8은 본 발명의 제 2 실시예에 따른 홈네트워크 음성 인식 시스템의 구성도이다.

도 8을 참조하면 홈네트워크 음성 인식 시스템은 음성 인식 서버(10)와, 오디오(20)와, TV(30)와, 스피커들(1, 2, 3, 4)과, 이동형 홈 에이전트(40)와, MDS(50)로 이루어진다.

도 8에 도시된 제 2 실시예의 구성은 도 1에 도시된 제 1 실시예에서 MDS(50)의 구성이 더 추가된 것이다.

따라서, 제 1 실시예의 구성에서 이동형 홈에이전트(40)의 동작 및 구성을 제 1 실시예에서에 기재된 기술적 구성 및 동작이 동일하므로 그 설명을 생략하도록 하고, 다른 구성 요소들은 MDS(50)의 도입에 따라 기본적인 구성은 동일하지만 약간 다른 부분들에 대하여 중점적으로 설명하도록 한다.

우선, MDS(Multimedia Distribution Server)(50)에 대하여 설명하도록 한다. MDS(50)는 가정에 멀티미디어 데이터를 통합하여 관리하는 서버로서, 이동형 홈에 이전트(50)를 제외한 제 2 클라이언트들(예를 들어, 오디오, TV)에게 해당 기기들이 재생할 데이터들을 전송해주고, 해당 기기들로부터 해당 기기들이 출력할 음향 정보를 수신하여 음성 인식 서버(10)에 전송한다.

MDS(50)가 오디오(20) 및 TV(30)에 전달해주는 데이터들은 다양한 인터넷 동영상 자료들이나, 음악파일등이 해당될 수 있다. 따라서, MDS(50)에서 전송하는 영상 자료들은 TV(30)에서 재생될 수 있다. 아울러, MDS(50)에서 전송하는 음향 자료들은 오디오(20)에서 재생되어질 수 있다.

한편, 오디오(20)는 MDS(50)로부터 제공받은 데이터들만 재생하는 것은 아니라, 즉, 자체적으로 CD, 테입, MP3등의 기록매체를 재생하여 음향을 출력할 수 도 있다. 이러한 경우, 그 오디오(20)에서 출력되는 음향 데이터들은 MDS(50)에 보내져 음성 인식 서버(10)로 전송되어야 한다.

또한, TV(30)의 경우도 MDS(50)로부터 제공받은 데이터들만 재생하는 것이 아니라, TV(30)에 부가적으로 연결된 DVD, VCR 등으로부터 데이터들을 전송받아 재생할 수 도 있다. 이러한 경우 그 TV(30)에서 출력되는 음향 데이터들은 MDS(50)에 보내져 음성 인식 서버(10)로 전송되어야 한다.

아울러, MDS(50)는 오디오(20) 및 TV(30)로부터 그러한 음향 데이터들을 수신할 뿐만 아니라, 오디오(20) 및 TV(30)가 음향 데이터를 출력할 때의 음향 출력 세기 정보를 수신하여 음성 인식 서버(10)에 전송한다.

음성 인식 서버(10)는 오디오(20) 또는 TV(30)의 스피커들을 통해 출력되는 음향에 대한 음향 출력 정보를 유무선 네트워크를 통해 MDS(50)로부터 수신하고, 무선 네트워크를 통해 이동형 홈에이전트(40)로부터 다양한 소리 정보를 수신하여 그 소리 정보중에서 그 음향 출력 정보에 상응하는 음향을 제거하고, 사람의 음성 신호만을 추출하여 음성 인식을 수행한다.

음성 인식 서버(10)는 제 1 실시예를 설명하는 도 3에 도시된 바와 같은 구성과 동일하며 다만, 동작에 있어서 제 1 실시예에서는 음성 인식 서버(10)가 오디오(20) 및 TV(30)로부터 음향 데이터 및 음향 출력 세기 정보를 유무선 네트워크를 통하여 직접 받았지만, 제 2 실시예에서는 MDS(50)를 통하여 오디오(20) 및 TV(30)의 음향 데이터 및 음향 출력 세기 정보를 수신한다는 점에 있어서는 그 동작이 구별된다.

오디오(20)는 음성 인식에서 명령자(5)의 음성 인식 성능을 저하시킬 수 있는 잡음에 속하는 음향 정보를 출력하는 장치중의 하나로 자신이 출력할 음향정보를 음성 인식 서버(10)에 전송하기 위해 유무선 네트워크를 통하여 MDS(50)에 전송한다.

오디오(20)에서 MDS(50)로 전송하는 음향 정보에는 오디오(20)에 의해 재생되는 음향 데이터와, 오디오(20)에서 스피커를 통해 출력되는 음향 출력 세기 정보가 포함된다.

TV(30)도 음성 인식에서 명령자(5)의 음성 인식 성능을 저하시킬 수 있는 잡 음에 속하는 음향 정보를 출력하는 장치중의 하나로 자신이 출력할 음향정보를 음성 인식 서버(10)에 전송하기 위해 유무선 네트워크를 통하여 MDS(50)로 전송한다.

TV(30)에서 MDS(50)로 전송하는 음향 정보에는 TV(30)에 의해 재생되는 음향 데이터와, TV(30)에서 스피커를 통해 출력되는 음향 출력 세기 정보가 포함된다.

스피커1, 2(1, 2)는 오디오(20)의 음향 전기 신호를 받아 음향으로 출력하고, 스피커3, 4(3, 4)는 TV(30)의 음향 전기 신호를 받아 음향으로 출력하는 장치로서 댁내에서 일정한 자리에 위치하여 있다.

음성 인식 서버(10)와 MDS(50)와 오디오(20) 및 TV(30)를 연결하는 네트워크는 다양한 유선 네트워크 또는 무선 네트워크가 사용될 수 있다. 예를 들면, 유선 LAN, 무선랜, 블루투스 등이 사용될 수 있다. 이를 위하여 음성 인식 서버(10)와 오디오(20) 및 TV(30), MDS(50)에는 유무선 통신을 위한 통신 인터페이스가 설치된다.

음성 인식 서버(10)와 오디오(20) 및 TV(30), MDS(50)간에는 패킷을 통하여 데이터를 송수신한다.

오디오의 구성 및 동작에 대하여 살펴보도록 한다.

제 2 실시예에서 오디오의 구성은 제 1 실시예를 설명하기 위한 도 4의 구성과 같다. 다만, 제 2 실시예에서는 MDS(50)를 거쳐 음성 인식 서버(10)에 연결됨에 따라 그 동작이 약간 차이가 있으므로 도 4를 참조하여 제 2 실시예에 따른 오디오의 구성 및 동작을 설명하도록 한다.

도 4에서 볼 수 있는 바와 같이 제 2 실시예에 따른 오디오(20)도 통신 연결부(21)와, 음향 전처리부(22)와, 오디오 모듈(23)로 구성된다.

통신 연결부(21)는 MDS(50)와 유무선 네트워크를 통해서 통신을 수행한다. 비콘의 수신, 입력 음성 정보의 송/수신을 담당한다.

음향 전처리부(22)는 출력되는 음향 신호를 전처리한다. 오디오 모듈(33)에서 출력되는 음향 신호는 주로 오디오 CD, MP3, 오디오 테입등을 재생하거나, 다른 미디어 기기의 오디오 출력을 받아 오디오에 연결된 스피커를 통하여 재생할때 출력되는 음향들이다.

따라서, 오디오 모듈(23)를 통해서 출력되는 음향신호에는 다양한 형태의 악기소리, 사람 목소리 등이 혼합된 형태이고, 시간에 따라 그 패턴이 변하는 잡음에 속할수 있다. 그리고, 음악을 구성하는 오디오 신호는 사람의 음성신호에 비하여 높은 샘플링을 가지는 신호로 되어 있다.

한편, 오디오 모듈(23)에서 음향 신호를 출력하는 동안 통신 연결부(21)는 오디오 모듈(23)에서 출력되는 음향 데이터와 오디오 모듈(23)이 출력하는 음향 출력 세기 정보를 MDS(50)로 전송해준다.

이때, 음향 전처리부(22)는 오디오 모듈(23)에서 재생되어 출력되는 음향 데 이터를 전처리하여 높은 샘플링의 음향신호를 사람의 음성을 디지털 신호로 변환하기 위해 샘플링을 수행할 때 사용하는 수준의 낮은 샘플링 수준으로 낮추어 샘플링을 수행한다. 즉, 명령자의 음성을 디지털 신호로 변환 시 사용되는 표본화율(Sampling Rate)와 동일한 정밀도(Resolution)를 가지도록 음향 전처리를 수행한다.

오디오 모듈(23)은 오디오 CD, MP3, 오디오 테입등의 오디오 기록매체에 저 장된 오디오 데이터를 재생하는 기능모듈들을 통칭한다. 예를들어, 오디오 CD를 재생시키는 CD 플레이어, 테입을 재생시키는 테입 플레이어, MP3를 재생시키는 MP3 플레이어와, 라디오 수신 및 재생 모듈과 이러한 플레이어를 통해서 재생되는 음향 신호들을 증폭하고 볼륨을 제어하여 출력하고, 현재 동작상태를 표시하여 주는 디스플레이부등 각종 오디오 관련 모듈들을 의미한다.

TV의 구성 및 동작에 대하여 살펴보도록 한다.

제 2 실시예에서 TV의 구성은 제 1 실시예를 설명하기 위한 도 5의 구성과 같다. 다만, 제 2 실시예에서는 MDS(50)를 거쳐 음성 인식 서버(10)에 연결됨에 따라 그 동작이 약간 차이가 있으므로 도 5를 참조하여 제 2 실시예에 따른 TV의 구성 및 동작을 설명하도록 한다.

도 5에서 볼 수 있는 바와 같이 제 2 실시예에 따른 TV(30)도 통신 연결부(31)와, 음향 전처리부(32)와, TV 모듈(33)로 구성된다.

통신 연결부(31)는 MDS(50)와 유무선 네트워크를 통해 통신을 수행한다. 비콘의 수신, 입력 음성 정보의 송/수신을 담당한다.

음향 전처리부(32)는 TV를 통해 출력되는 영상 및 음향 신호중에서 음향 신호를 MDS(50)에 전송하기 전에 전처리를 수행한다. TV 모듈(33)에서 출력되는 음향 신호는 MDS(50)를 통하여 수신한 공중파, 케이블, 위성 TV, 인터넷 제공자로부터 수신된 TV 데이터 또는 동영상 데이터를 재생하여 출력하거나, MDS(50)를 거치지 않고 VTR, DVD , 동영상 CD 등을 재생하여 자체 스피커 또는 연결된 스피커를 통하여 출력되는 음향들이다.

따라서, TV 모듈(33)를 통해서 출력되는 음향신호에는 다양한 형태의 상황에 따른 소리들, 예를 들어 차소리, 악기소리, 사람 목소리 등이 혼합된 형태이고, 시간에 따라 그 패턴이 변하는 잡음에 속할수 있다. 그리고, TV 신호를 구성하는 오디오 신호는 사람의 음성신호에 비하여 높은 샘플링을 가지는 신호로 되어 있다.

한편, TV 모듈(33)에서 음향 신호를 출력하는 동안 통신 연결부(31)는 TV 모듈(33)에서 출력되는 음향 데이터와 TV 모듈(33)이 출력하는 음향 출력 세기 정보를 유무선 네트워크를 통해 MDS(50)로 전송해준다.

즉, 이동형 홈에이전트(40)에서 사람의 음성 및 기타 잡음을 마이크를 통해 수신하여 음성 인식 서버(10)에 전송할 때, 아날로그 음성을 디지탈 신호로 변환할때 사람을 음성을 중심으로 처리하기 위하여 사람의 음성에 적합한 표본 비율로 샘 플링하는 작업을 수행하게 된다. 따라서, TV(30)에서 재생되어 스피커를 통해 출력되는 음향 신호가 비록 높은 수준의 샘플링을 가지는 디지털 데이터라 하더라도 이동형 홈에이전트(40)를 통해 수신되는 음향 데이터는 사람의 음성을 샘플링하는 표본 비율로 음향 전처리를 하기 때문에 굳이 TV 모듈(33)에서 출력되는 높은 수준의 샘플링 비율을 유지할 필요는 없다.

TV 모듈(33)은 통상의 TV 신호를 수신하여 영상과 음성으로 재생하는 TV 기능모듈을 통칭하는 것으로, MDS(50)를 통하여 수신한 공중파, 케이블, 위성 TV, 인터넷 제공자로부터 수신된 TV 데이터 또는 동영상 데이터를 재생하여 출력하거나, VTR, DVD , 동영상 CD 등을 재생하여 자체 스피커 또는 연결된 스피커를 통하여 출력하는 기기들을 통칭한다.

이동형 홈에이전트(40)의 구성 및 동작은 도 6에서 이미 설명한 바와 같으므로 설명을 생략하도록 한다.

도 9는 도 8에 도시된 홈네트워크의 음성 인식 시스템의 동작 흐름도이다.

도 9를 참조하면, 음성 인식 서버(10)는 무선 네트워크를 이용하는 경우 주기적인 비콘 신호를 전송하여 MDS(50)와 이동형 홈에이전트(40)에 전송하고, MDS(50)는 오디오(20), TV(30)에 그 비콘 신호를 전송하여 연결 상태를 확인하며 자신과 MDS(50) 이동형 홈에이전트(40)와 오디오(20), TV(30)간에 시간을 동기화 시킨다(S21, S22, S23, S24).

MDS(50)은 외부 네트워크, 예를 들면 인터넷을 통하여 수신되는 오디오 데이터 및 TV 데이터를 각각 오디오(20)와 TV(30)에 유무선 네트워크를 통하여 전송한다(S25, S26)

한편, 오디오(20), TV(30)는 MDS(50)로부터 수신한 오디오 데이터 및 TV 데이터외에 자신의 오디오 모듈(23) 및 자신의 TV(33)를 통해 MDS(50)와 독립적으로 재생하여 각각 자신들을 통해 출력되는 음향 데이터들이 있을 수 있다. 따라서, 오디오(20), TV(30)는는 이러한 음향 데이터에 대하여 명령자의 음성 정보의 표본화율(Sampling rate)과 동일한 비율과 동일한 해상도(Resolution)의 샘플링으로 다운 샘플링을 수행한다(S27, S28). 그리고, 샘플링된 음향 데이터와 음향 출력 세기정보로 이루어지는 음향 출력 정보를 시간정보와 함께 MDS(50)에 유무선 네트워크를 통해 패킷 데이터로 전송한다(S29, S30).

한편, MDS(50)는 자신이 오디오(20)와 TV(30)에 전송해준 오디오 데이터 및 TV 데이터중에서 음향 데이터에 대하여 명령자의 음성 정보의 표본화율(Sampling rate)과 동일한 비율과 동일한 해상도(Resolution)의 샘플링으로 다운 샘플링을 수행한다(S31).

그리고, 오디오(20)와 TV(30)로부터 수신된 음향 출력 정보와 샘플링된 음향 데이터를 시간정보와 함께 음성 인식 서버(10)에 유무선 네트워크를 통해 패킷 데 이터로 전송한다(S32).

아울러, 오디오(20)와 TV(30)는 음향 출력 세기를 가지고 증폭된 각자의 음향 전기 신호를 스피커(1 - 4)에 전송한다(S33, S34). 스피커(1 -4)는 오디오(20) 및 TV(30)로부터 수신된 음향 전기 신호를 아날로그 음향신호로 변환하여 출력하고, 그 음향 신호는 이동형 홈에이전트(40)에 입력된다(S35).

한편, 명령자(5)가 임의의 음성 명령을 내리면 그 음성 명령도 이동형 홈에이전트(40)에 입력된다(S36). 아울러, 일정한 패턴을 가지는 잡음을 발생시키는 패턴 잡음원(예를 들면, 냉장고 동작하는 소리, 세탁기 동작하는 소리..)들로부터 발생된 패턴 잡음도 이동형 홈에이전트(40)로 입력된다(S37).

이동형 홈에이전트(40)는 자신이 가정내에서 이동하면서 스피커(1 -4)로부터 수신한 오디오(20)와 TV(30)의 음향 신호와, 명령자(5)의 음성 명령과, 패턴잡음원(6)의 패턴 잡음이 포함된 소리정보를 사람의 음성을 샘플링하는 샘플링 비율로 다운 샘플링을 수행한다(S38). 그리고, 그 다운 샘플링된 신호에서 패턴 잡음을 제거하는 과정을 수행한다(S39).

따라서, 여러 개의 스피커, 패턴 잡음원, 명령자와 이동형 홈에이전트와의 각각의 거리를 이용하여 잡음원과 이동형 홈에이전트와의 거리 추정을 수행하여 감쇄 계수를 추정한다(S40).

그 다음 이동형 홈에이전트(40)는 패턴 잡음이 제거된 신호와 감쇄계수를 무선 네트워크를 통하여 패킷으로 음성 인식 서버(10)에 전송한다(S41).

음성 인식 서버(10)는 이동형 홈에이전트(40)로부터 수신된 패턴 잡음이 제거된 소리 정보 및 감쇄계수와, MDS(50)로부터 수신된 음향 데이터 및 출력 세기정보를 이용하여 명령자(5)의 음성 명령만을 추출해낸다(S42).

그리고, 그 추출한 음성 명령을 다양한 음성 인식 알고리즘을 이용하여 음성 인식을 수행한다(S43).

이에 따라, 멀티미디어 음향 기기가 사용되고 있는 홈네트워크 환경에서 음성 인식 인터페스를 운영할 수 있어서 디지털 스마트 홈과 텔레매틱스(Telematics)의 음성 인터페이스 시스템을 효과적으로 구현할 수 있다.

Claims

자신이 재생하여 스피커를 통해 출력하는 멀티미디어 음향에 관한 음향 출력정보를 생성하는 멀티미디어 기기와,

댁내에서 상기 멀티미디어 음향과 사람의 음성 명령을 포함한 소리 정보를 수신하여 무선 네트워크를 통해 전송하는 이동형 홈에이전트와,

상기 멀티 미디어 기기로부터 상기 생성된 음향 출력 정보를 네트워크를 통해 수신하고, 상기 무선 네트워크를 통해 상기 이동형 홈에이전트로부터 음향 정보를 수신하여 그 음향 정보중에서 상기 음향 출력 정보에 상응하는 멀티 미디어 음향을 제거하고, 사람의 음성 신호를 추출하여 음성 인식을 수행하는 음성 인식 서버를 포함하는 홈네트워크의 음성 인식 시스템.
제 1항에 있어서, 상기 음향 출력 정보는,

멀티미디어 기기를 통해 출력되는 음향 데이터, 그 음향 데이터의 출력 세기를 포함하는 홈네트워크의 음성 인식 시스템.
제 1항에 있어서,

상기 네트워크는 유무선 인터페이스를 포함하는 홈네트워크의 음성 인식 시 스템.
제 1항에 있어서, 상기 음성 인식 서버는,

상기 이동형 홈에이전트로부터 이동형 홈에이전트에 입력된 음향 신호에서 패턴 잡음이 제거된 신호와, 상기 멀티미디어 음향에 대한 감쇄계수를 무선을 통해 수신하고, 상기 멀티미디어 기기로부터 멀티미디어 음향 데이터와 음향 출력의 세기를 유무선을 통해 수신하는 통신 연결부와,

상기 패턴 잡음이 제거된 신호로부터 멀티 미디어 음향 데이터, 음향 출력 세기, 감쇄계수를 곱한 신호를 제거하여 사람의 음성 명령만을 추출하는 음성 추출부와,

상기 음성 추출부에 의해 추출된 음성에 대하여 음성 인식을 수행하는 음성 인식부와,

상기 음성 인식한 결과에 대한 응답을 분류하여 홈네트워크내에서 사용자가 내린 음성 명령에 따라 해당 홈네트워크 장치의 동작에 필요한 메시지를 생성하는 결과 처리부를 포함하는 홈네트워크의 음성 인식 시스템.
제 1항에 있어서, 상기 이동형 홈에이전트는,

음성 명령을 입력받거나 상기 멀티미디어 음향을 포함하여 가정환경에서 입력되는 잡음들을 입력받는 음성 입력부와,

상기 음성 입력부를 통해 입력된 음성 명령 및 잡음들을 전처리 필터링하는 음향 전처리부와,

상기 멀티미디어 음향이 출력되는 스피커와 이동형 홈에이전트와의 거리를 계산하여 상기 멀티미디어 음향의 감쇄계수를 추정하는 감쇄 계수 추정부와,

상기 음향 전처리부에 의해 전처리된 음향 신호와 감쇄 계수 추정부에 의한 감쇄 계수를 상기 음성 인식 서버에 무선으로 전송하는 홈에이전트 모듈을 포함하는 포함하는 홈네트워크의 음성 인식 시스템.
제 5항에 있어서, 상기 음향 전처리부는,

상기 음성 입력부를 통해 입력된 음성 명령 및 잡음들을 사람의 음성에 맞추어 다운 샘플링을 수행하고 일정한 잡음 패턴을 가지고 반복되는 잡음들을 제거하기 위한 필터링을 수행하는 홈네트워크의 음성 인식 시스템.
제 1항에 있어서, 상기 멀티미디어 기기는,

자신이 재생할 멀티미디어 데이터를 재생하여 스피커로 출력하는 멀티미디어 재생모듈과,

상기 멀티미디어 재생모듈을 통해 출력되는 멀티미디어 신호중에서 음향 신 호를 사람의 음성에 맞추어 다운 샘플링하여 상기 음성 인식 서버에서의 음성 인식을 위한 전처리를 수행하는 음향 전처리부와,

상기 전처리된 음향 신호와 상기 멀티미디어 모듈에서 스피커로 출력하는 음향 출력 세기 정보를 상기 음성 인식 서버로 유무선 네트워크를 통해 전송하는 통신 연결부를 포함하는 홈네트워크의 음성 인식 시스템.
제 7항에 있어서, 상기 통신 연결부는,

시간 정보를 상기 음성 인식 서버에 전송하는 홈네트워크의 음성 인식 시스템.
자신에게 연결된 멀티미디어 기기에 해당 멀티미디어 데이터를 제공하고, 각 멀티미디어 기기를 통해 출력될 멀티미디어 음향에 관한 음향 출력 정보를 생성하는 멀티미디어 분산 서버와,

상기 멀티 미디어 분산 서버로부터 멀티 미디어 데이터를 수신하여 재생하고, 자신이 재생하여 출력하는 음향의 출력 세기 정보를 상기 멀티미디어 분산 서버에 전송하는 멀티미디어 기기와,

댁내에서 수신되는 상기 멀티미디어 음향과 사람의 음성을 포함한 음향 정보를 무선 네트워크를 통해 전송하는 이동형 홈에이전트와,

상기 멀티 미디어 분산 서버로부터 음향 출력 정보를 네트워크를 통해 수신하고, 상기 무선 네트워크를 통해 상기 이동형 홈에이전트로부터 음향 정보를 수신하여 그 음향 정보중에서 상기 음향 출력 정보에 상응하는 멀티 미디어 음향을 제거하고, 사람의 음성 신호를 추출하여 음성 인식을 수행하는 음성 인식 서버를 포함하는 홈네트워크의 음성 인식 시스템.
제 9항에 있어서, 상기 멀티미디어 분산 서버는,

상기 음성 인식 서버에 전송할 음향 데이터를 사람의 음성에 맞추어 다운 샘플링하여 상기 음성 인식 서버에서의 음성 인식을 위한 전처리를 수행하는 홈네트워크의 음성 인식 시스템.
제 9항에 있어서, 상기 멀티미디어 기기는,

상기 멀티미디어 분산 서버와 독립적으로 자신이 재생하여 출력하는 음향 데이터를 사람의 음성에 맞추어 다운 샘플링하여 상기 음성 인식 서버에서의 음성 인식을 위한 전처리를 수행하고 그 전처리된 음향 신호를 상기 멀티미디어 분산 서버에 전송하는 홈네트워크의 음성 인식 시스템.