KR20120072243A

KR20120072243A - 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법

Info

Publication number: KR20120072243A
Application number: KR1020100134080A
Authority: KR
Inventors: 이재연; 한문성; 조재일; 김재홍; 손주찬
Original assignee: 한국전자통신연구원
Priority date: 2010-12-23
Filing date: 2010-12-23
Publication date: 2012-07-03
Also published as: US20120166190A1

Abstract

본 발명에 따른 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 장치는, 상기 마이크를 통해 수신되는 신호를 미리 설정된 제1 차단 주파수를 근거로 필터링하는 제1 저역 통과 필터와, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 미리 설정된 제2 차단 주파수를 근거로 필터링하는 제2 저역 통과 필터와, 가산부/감산부의 출력 신호를 근거로 필터의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터의 출력 신호를 필터링하는 적응 필터와, 상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 가산부/감산부와, 상기 가산부/감산부로부터 출력되는 신호를 음성 인식하고, 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 제어부를 포함한다.

Description

음향/음성 인식을 위한 잡음 제거 장치 및 그 방법{Apparatus for removing noise for sound/voice recognition and method thereof}

본 발명은 코그노 TV(cogno TV)에서 잡음에 해당하는 TV 소리를 제거하거나 미리 알고 있는 소리를 근거로 간섭(interference)을 제거하고 음향 및/또는 음성 인식을 수행하는 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법에 관한 것이다.

영상 신호 제어 장치인 텔레비전(television : 이하 'TV'라 함)은 수신되는 방송 신호를 소정 신호 처리(디코딩, 증폭 등 포함)하고, 상기 소정 신호 처리된 방송 신호에 포함된 영상 데이터 및/또는 음성 데이터를 출력하는 장치이다.

특히 동작을 인식하고 인식된 동작을 근거로 TV의 동작을 제어하는 코그노 TV는 동작(또는, 제스처(gesture))의 경우에는 TV 소리와 상관이 없지만 음향 및/또는 음성 인식의 경우에는 TV 소리와의 상관 관계(correlation)가 높아 음향 및/또는 음성 인식률이 많이 낮아지게 된다.

또한, 일반적인 코그노 TV의 경우 레퍼런스로 이용할 수 있는 TV 소리에 대한 정보를 이용하여 시간 도메인(time domain)에서의 감소(subtraction) 방법, 스펙트럴 감소(spectral subtraction) 방법 등을 이용하여 음향 및/음성 인식을 수행하나, 레퍼런스로 이용되는 TV 소리와 음향 및/또는 음성 인식을 위해 사용되는 마이크 입력단에서의 TV 소리는 유사하지만 동일하지 않아 잡음에 해당하는 TV 소리를 정확하게 제거할 수 없게 되고 음향 및/또는 음성 신호도 일부 제거된다.

본 발명에서는 이러한 문제점을 해결하기 위해서 유사한 신호를 제거하기 위해 필터 계수를 적응(adaptation)할 수 있는 적응 필터(adaptive filter)를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하고 음향 및/또는 음성 인식을 수행하는 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법을 제공하는데 그 목적이 있다.

상기의 기술적 과제를 해결하기 위한 본 발명의 일 양태로서, 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 장치에 있어서, 상기 마이크를 통해 수신되는 신호를 미리 설정된 제1 차단 주파수를 근거로 필터링하는 제1 저역 통과 필터와, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 미리 설정된 제2 차단 주파수를 근거로 필터링하는 제2 저역 통과 필터와, 가산부/감산부의 출력 신호를 근거로 필터의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터의 출력 신호를 필터링하는 적응 필터와, 상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 가산부/감산부와, 및 상기 가산부/감산부로부터 출력되는 신호를 음성 인식하고, 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 제어부를 포함할 수 있다.

상기 마이크는, 카메라를 통해 수신되는 영상 정보 내에서 미리 설정된 물체의 움직임이 감지될 때, 상기 마이크를 통해 신호를 수신할 수 있다.

상기 제1 차단 주파수 또는 상기 제2 차단 주파수는, 8kHz일 수 있다.

상기 마이크를 통해 수신되는 신호는, 음향 신호, 음성 신호 및, 상기 스피커를 통해 출력되는 오디오 신호를 포함할 수 있다.

상기 제어부는, 상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 출력하거나 통신 연결된 임의의 단말에 전송할 수 있다.

상기 미리 설정된 물체의 움직임은, 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향으로의 슬라이딩 동작 및, 다각형을 그리는 동작 중 어느 하나를 포함할 수 있다.

상기 제어부는, 상기 스피커를 통해 출력되는 소리의 크기가 미리 설정된 크기 이상일 때, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 상기 물체의 움직임이 감지된 시점부터 제어할 수 있다.

상기 제어부는, 상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계(auto-correlation)를 수행할 수 있다.

본 발명의 다른 양태로서, 마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 방법에 있어서, 카메라를 통해 수신되는 영상 정보에 포함된 물체의 움직임을 감지하는 단계와, 상기 감지된 물체의 움직임이 미리 설정된 움직임일 때, 상기 마이크를 통해 신호를 수신하는 단계와, 상기 마이크를 통해 수신되는 신호를 제1 저역 통과 필터를 통해 미리 설정된 제1 차단 주파수를 근거로 필터링하는 단계와, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 제2 저역 통과 필터를 통해 미리 설정된 제2 차단 주파수를 근거로 필터링하는 단계와, 가산부/감산부의 출력 신호를 근거로 적응 필터의 계수를 조정하고, 조정된 계수를 근거로 적응 필터를 통해 제2 저역 통과 필터의 출력 신호를 필터링하는 단계와, 상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 단계와, 상기 가산 또는 감산에 따른 출력 신호를 음성 인식하는 단계와, 및 상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계를 포함할 수 있다.

상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계는, 상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 프린터를 통해 출력하거나 또는, 통신 연결된 임의의 단말에 전송할 수 있다.

상기 스피커를 통해 출력되는 소리의 크기가 미리 설정된 크기 이상일 때, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 상기 물체의 움직임이 감지된 시점부터 제어하는 단계를 더 포함할 수 있다.

상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계하는 단계를 더 포함할 수 있다.

본 발명은 다음과 같은 효과가 있다.

첫째, 코그노 TV의 음향/음성 인식에서 적응 필터를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하여 음향 및/또는 음성 인식률을 높일 수 있다.

둘째, TV의 스피커의 출력 전의 디지털화된 신호를 레퍼런스 신호로 이용하여 적응 필터의 계수(coefficient)를 조정하여, TV 소리를 제거하고 음향 및/또는 음성 인식률을 높일 수 있다.

도 1은 본 발명의 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.

이하의 실시예들은 본 발명의 구성 요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성 요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성 요소 또는 특징은 다른 구성 요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성 요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.

본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.

하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리 유닛은 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결" 되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성 요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.

또한, 본 명세서에서 기재한 모듈(module)이란 용어는 특정한 기능이나 동작을 처리하는 하나의 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현할 수 있다.

이하의 설명에서 사용되는 특정(特定) 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.

본 발명은 유사한 신호를 제거하기 위해 필터 계수를 적응할 수 있는 적응 필터를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하고 음향 및/또는 음성 인식을 수행하는 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법에 관한 것이다.

이하, 첨부된 도면들을 참조하여, 본 발명에 따른 실시예들에 대하여 상세하게 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치의 구성도이다.

본 발명의 일 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치(100)는, 입력부(110), 제1 저역 통과 필터(first low-pass filter)(120), 제2 저역 통과 필터(130), 적응 필터(140), 가산부/감산부(150) 및, 제어부(160)를 포함한다.

본 발명의 실시예에 따른 입력부(110)는 오디오 신호를 수신하기 위한 적어도 하나 이상의 마이크(미도시) 및/또는 비디오 신호를 수신하기 위한 적어도 하나 이상의 카메라(미도시)를 포함할 수 있다. 또한, 입력부(110)는 마이크를 통해 임의의 음향 신호(또는, 음향 정보) 및/또는 사용자의 음성 신호(또는, 사용자의 음성 정보)를 수신한다. 이때, 마이크를 통해 임의의 음향 신호 및/또는 사용자의 음성 신호를 수신하는 경우, 임의의 음향 신호 및/또는 사용자의 음성 신호 이외에도 스피커(300)를 통해 출력되는 TV의 오디오 신호가 함께 수신될 수 있다.

그리고 입력부(110)는 사용자에 의해 입력된 정보에 대응하는 신호를 수신하며, 키패드(Key Pad), 돔 스위치(Dome Switch), 조그셔틀, 마우스(mouse), 스타일러스 펜(Stylus Pen), 터치스크린(touch screen), 터치 패드(정압/정전), 터치 펜(Touch Pen) 등의 다양한 장치가 사용될 수 있다.

그리고 마이크는, 통화 모드, 녹음 모드, 음성 인식 모드, 영상 회의 모드, 영상 통화 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호(사용자의 음성(음성 신호 또는 음성 정보), 스피커(300)를 통해 출력되는 TV의 오디오 신호 등 포함)를 수신하여 전기적인 음성 데이터로 처리한다. 또한, 상기 처리된 음성 데이터(일 예로, 음향 신호, 음성 시호, TV의 오디오 신호 등에 대응하는 전기적인 음성 데이터 포함)는 스피커(300)를 통해 출력하거나 또는, 통신부(미도시)를 통하여 외부 단말기로 송신 가능한 형태로 변환되어 출력될 수 있다.

그리고 카메라는, 영상 통화 모드, 촬영 모드, 영상 회의 모드 등에서 이미지 센서(카메라 모듈 또는, 카메라)에 의해 얻어지는 정지영상(gif 형태, jpeg 형태 등 포함) 또는 동영상(wma 형태, avi 형태, asf 형태 등 포함) 등의 화상 프레임을 처리한다. 즉, 코덱(CODEC)에 따라 이미지 센서에 의해 얻어지는 해당 화상 데이터들을 각 규격에 맞도록 인코딩(부호화 : encoding)한다. 상기 처리된 화상 프레임은, 제어부(160)의 제어에 의해 디스플레이부(미도시)에 표시될 수 있다. 일 예로, 카메라는, 객체(또는, 피사체)(사용자 영상)를 촬영하고, 그 촬영된 영상(피사체 영상)에 대응하는 비디오 신호를 출력한다. 또한, 카메라에서 처리된 화상 프레임은, 저장부(미도시)에 저장되거나 통신부(미도시)를 통해 통신 연결된 임의의 외부 단말기에 전송될 수 있다.

즉, 입력부(110)는 마이크 및/또는 카메라를 통해 멀티미디어 정보를 수신한다. 여기서, 멀티미디어 정보(또는, 데이터 스트림)는, 마이크를 통해 수신되는 음향 정보, 음성 정보, 스피커(300)를 통해 출력되는 오디오 정보 및, 카메라를 통해 수신되는(또는, 촬상되는) 영상 정보(video information/image information : 정지 영상, 동영상 등 포함) 등을 포함한다.

본 발명의 실시예에 따른 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신된 데이터(음향 신호, 음성 신호, TV의 오디오 신호 중 하나 이상 포함)를 미리 설정된 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다. 또한, 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신된 데이터에 포함된 잡음을 제거하기 위한 다양한 잡음 제거 알고리즘을 적용할 수도 있다.

본 발명의 실시예에 따른 제2 저역 통과 필터(130)는 TV에 포함된 디코더(미도시) 또는 제어부(160)의 제어에 의해 임의의 방송 신호에 포함된 오디오 데이터를 디코딩하고, 상기 디코딩된 오디오 데이터를 미리 설정된 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다. 여기서, 디코딩된 오디오 데이터는 음향/음성 인식을 위한 잡음 제거 장치(100)에서의 레퍼런스 신호로 이용되며, 디지털화된 신호(digitized signal)이다. 또한, 디코딩된 오디오 데이터는 오디오 증폭부(200)를 통해 증폭되고, 증폭된 오디오 데이터는 스피커(300)를 통해 출력된다.

본 발명의 실시예에 따른 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정(또는, 업데이트)하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)의 출력 신호를 필터링하여 출력한다. 즉, 적응 필터(140)는 적응 필터(140)에 입력되는 신호 또는 시스템 파라미터가 변하는 경우, 자가 학습(self-learning)을 통해 필터의 계수를 조정하고, 조정된 계수를 이용하여 제2 저역 통과 필터(130)의 출력 신호를 필터링한다.

그리고 적응 필터(140)는 최소 평균 제곱(Least Mean Square : LMS) 알고리즘을 이용하여 필터의 계수를 조정한다. 즉, 적응 필터(140)는 아래 기재되는 수학식들을 이용하여 필터의 계수를 최적화시킨다.

가산부/감산부(150)로부터 출력되는 신호(또는, 에러 신호)는 다음과 같이 표현된다.

여기서, e(n)은 가산부/감산부(150)로부터 출력되는 에러 신호를 나타내고, d(n)은 제1 저역 통과 필터의 출력 신호를 나타내고, y(n)은 적응 필터(140)의 출력 신호를 나타낸다.

또한, y(n)은 다음의 수학식으로 표현된다.

여기서, w(n, k)는 필터의 계수(coefficient)를 나타내고, x(n-k)는 제2 저역 통과 필터(130)에 의해 필터링된 디지털화된 오디오 신호(또는, 레퍼런스 신호로 이용되는 디코딩된 오디오 데이터)를 나타낸다.

[수학식 1]에 대해 최소 평균 제곱 알고리즘을 적용하면, 다음의 수학식으로 표현된다.

여기서, E[]은 평균을 나타낸다.

웨이트(weight)가 1인 경우를 예를 들어 설명하며, [수학식 2]를 [수학식 3]에 대입하여 정리하면, 다음의 수학식으로 표현된다.

여기서, A=E[d²(n)], β=E[d(n)x(n)], C=E[x²(n)]이라 하면, [수학식 4]는 다음과 같이 표현된다.

[수학식 5]를 w(0)에 대해서 미분하면 다음의 값을 얻는다.

즉, [수학식 6]의 경우일 때, [수학식 5]는 최소값을 가지게 되고, d(n)으로 표시되는 제1 저역 통과 필터의 출력 신호와 y(n)으로 표시되는 적응 필터(140)의 출력 신호 간의 간섭이 최소화되는 경우이다.

또한, 다음 웨이트는 다음의 수학식으로 표현된다. 다음 웨이트에 의해 이전 웨이트는 대체된다.

본 발명의 실시예에 따른 가산부/감산부(150)는 제1 저역 통과 필터(120)로부터 출력된 데이터(일 예로, 음향 신호, 음성 신호, TV의 오디오 신호 등에 대응하는 전기적인 음성 데이터 포함)와 적응 필터(140)로부터 출력된 데이터(일 예로, 레퍼런스 신호에 해당하는 TV의 오디오 신호 등 포함)를 가산(또는, 감산)하여 입력부(110)를 통해 수신한 데이터에 포함된 TV의 오디오 신호를 제거한다. 그리고 가산부/감산부(150)는 가산부/감산부(150)의 출력을 적응 필터(140) 또는 제어부(160)에 전달한다.

본 발명의 실시예에 따른 제어부(160)는 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터(또는, 신호)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과를 근거로 임의의 기능(또는, 동작)을 수행하도록 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV를 제어한다.

그리고 제어부(160)는 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터로부터 특징 벡터를 추출하고, 추출된 특징 벡터를 근거로 화자를 인식한다. 이때, 특징 벡터의 추출 기술들로는 LSF(Line Spectral Frequencies), 주파수 대역별 에너지(Filter Bank Energy), 켑스트럼(Cepstrum), MFCC(Mel Frequency Cepstral Coefficients), 선형예측계수(LPC : Linear Predictive Coefficient) 등이 있다. 또한, 제어부(160)는 추출된 특징 벡터를 근거로 추출된 특징 벡터와 저장부(미도시)에 미리 저장된 하나 이상의 화자 모델 사이의 확률값을 계산하고, 계산된 확률값을 근거로 저장부에 기등록된 화자인지 아닌지 여부를 판단하는 화자 식별(Speaker Identification)이나, 올바른 사용자의 접근인지를 판단하는 화자 검증(Speaker Verification)을 수행한다. 즉 제어부(160)는 저장부에 미리 저장된 다수의 화자 모델들에 대한 최우추정법(Maximum Likelihood Estimation)을 수행한 결과, 가장 높은 확률 값을 갖는 화자 모델을 상기 음성을 발성한 화자로 선택하게 된다. 또한, 상기 수행 결과 가장 높은 확률 값이 기설정된 임계값보다 작거나 같은 경우에는 저장부에 기등록된 화자들 중에서는 상기 음성을 발성한 화자가 없는 것으로 판단하여, 상기 음성을 발성한 화자에 대해서는 화자 식별 결과 기등록된 화자가 아닌 것으로 판단하게 된다. 또한, 화자 검증의 경우에는, 로그 우도비(LLR : Log-Likelihood Ratio) 방법을 이용하여 올바른 화자 인지 여부를 판별하게 된다. 그리고 제어부(160)는 기등록된 화자가 아닌 것으로 판단한 경우, 추출된 특징 벡터를 근거로 화자 모델을 새로 생성한다. 이때, 제어부(160)는 신경망(Neural Network), GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 등을 이용하여 상기 화자 모델을 생성하게 된다. 또한, 제어부(160)는 추출된 특징 벡터를 근거로 EM(Expectation Maximazation) 알고리즘을 이용하여 화자 모델인 GMM을 생성할 수도 있다. 그리고 제어부(160)는 추출된 특징 벡터를 근거로 EM 알고리즘을 이용하여 UBM(Universal Background Model)을 생성하고, 생성된 UBM에 대해 저장부에 미리 저장된 적응 알고리즘(Adaptation Algorithm)을 수행하여 발성한 화자에 적응된 화자 모델 즉, GMM을 생성할 수 있다. 이때, 저장부에 미리 저장된 적응 알고리즘은, MAP(Maximum A Posteriori), MLLR(Maximum Likelihood Linear Regression) 또는, 아이겐보이스(Eigenvoice) 방법 등을 포함할 수 있다.

그리고 제어부(160)는 음성 인식된 데이터에 대해서 자연어 처리 과정(Natural Language Processing)을 수행하고, 상기 음성 인식된 데이터에 대한 자연어 처리 수행 결과를 근거로 임의의 기능(또는, 동작)을 수행하도록 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV를 제어할 수 있다.

그리고 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보(또는, 영상 신호)를 근거로 영상 정보에 포함된 임의의 물체(일 예로, 사용자)의 움직임이 기설정된 움직임에 해당될 때, 상기 구성 요소들(110, 120, 130, 140, 150)을 이용하여 입력부(110)에서 마이크를 통해 수신된 임의의 음향 신호, 사용자의 음성 신호, 스피커(300)를 통해 출력되는 TV의 오디오 신호 중 하나 이상을 포함하는 오디오 데이터에 포함된 TV의 오디오 신호를 제거하도록 구성할 수도 있다. 여기서, 사용자의 기설정된 움직임은 팔(또는, 손)을 이용하여 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 상하/좌우/대각선으로 선을 그리는 동작(또는, 임의의 방향으로의 슬라이딩 동작), 뫼비우스의 띠(또는, 8 모양)를 그리는 동작, 다각형을 그리는 동작 등을 포함할 수 있다.

그리고 제어부(160)는 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터(또는, 신호)를 근거로 음성 인식 과정을 수행하고, 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 TV의 디스플레이부(미도시)의 임의의 위치(또는, 좌표)에 대응시키고, 상기 음성 인식 수행 결과를 근거로 상기 대응된 좌표 상에 위치한 임의의 메뉴의 기능을 수행하거나, 상기 대응된 좌표 상에 위치한 임의의 화면을 출력하거나 또는, 통신 연결된 임의의 단말에 전송한다.

그리고 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보(또는, 영상 신호)를 근거로 영상 정보에 포함된 임의의 물체(일 예로, 사용자)의 움직임을 감지하고, 가산부/감산부(150)로부터 출력되는 TV의 오디오 신호가 제거된 데이터(또는, 신호)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 결과와 상기 감지된 물체의 움직임을 근거로 상기 음성 인식 결과에 대응하는 TV의 기능/동작(일 예로, 채널, 볼륨, 뮤트(mute), 환경(파라미터) 등 포함)을 상기 감지된 물체의 움직임에 대응하여 미리 설정된 기능/동작(일 예로, 업/다운, 기능 수행, 정지 등 포함)을 수행하도록 제어한다.

그리고 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신된 영상 정보를 근거로 영상 정보에 포하된 임의의 물체의 움직임이 기설정된 움직임에 해당될 때, 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 채널 변경 기능, 볼륨 조절 기능, 뮤트(mute) 기능, TV의 환경(파라미터) 설정 기능 등을 수행하도록 제어할 수 있다. 여기서, 사용자의 기설정된 움직임은 팔(또는, 손)을 이용하여 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 상하/좌우/대각선으로 선을 그리는 동작(또는, 임의의 방향으로의 슬라이딩 동작), 뫼비우스의 띠(또는, 8 모양)를 그리는 동작, 다각형을 그리는 동작 등을 포함할 수 있다.

그리고 제어부(160)는 스피커를 통해 출력되는 소리의 크기가 미리 설정된 크기 이상일 때, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 상기 물체의 움직임이 감지된 시점부터 제어한다.

그리고 제어부(160)는 음성/음향 인식 구간을 찾기 위해서, TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계(auto-correlation)를 수행한다.

본 발명의 실시예에 따른 음향/음성 인식을 위한 잡음 제거 장치(100)는 물체의 움직임을 감지하기 위해서 앞서 기재된 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 이용할 수도 있고, 물체의 움직임을 감지하는 동작 인식 센서(Motion Recognition Sensor)를 추가로 포함할 수도 있다. 여기서, 동작 인식 센서는 물체의 움직임이나 위치를 인식하는 센서, 지자기 센서(Geomagnetism Sensor), 가속도 센서(Acceleration Sensor), 자이로 센서(Gyro Sensor), 관성 센서(Inertial Sensor), 고도계(Altimeter), 진동 센서 등의 센서를 포함하며, 동작 인식에 관련된 센서들이 추가로 포함될 수 있다. 또한, 동작 인식 센서는 물체의 기울어진 방향, 기울어진 각도 및/또는 상기 기울어지는 속도, 상하/좌우/대각선 등의 방향으로의 진동 방향 및/또는 진동 횟수 등을 포함하는 정보를 감지한다. 여기서, 상기 감지되는 정보들(기울어진 방향, 기울어진 각도 및/또는 상기 기울어지는 속도, 진동 방향 및/또는 진동 횟수)은 디지털 신호 처리 과정을 통해 디지털화되어, 상기 디지털화된 정보들이 제어부(160)에 전달된다.

이와 같이, 유사한 신호를 제거하기 위해 필터 계수를 적응할 수 있는 적응 필터를 이용하여 잡음 신호에 해당하는 TV 소리를 제거하고 음향 및/또는 음성 인식을 수행할 수 있다.

도 2는 본 발명의 일 실시예에 따라 음향/음성 인식을 위한 잡음 제거 방법을 설명하는 플로우 차트를 도시한 도면이다.

이하에서는 도 1 및 도 2를 이용하여 본 도면을 설명하도록 한다.

먼저 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다. 여기서, 마이크를 통해 수신되는 데이터는, 음향 신호, 음성 신호 및, TV의 스피커를 통해 출력되는 오디오 신호 등을 포함한다(S110).

그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S120).

그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S130).

그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S140).

그리고 제어부(160)는 가산부/감산부(150)의 출력 신호(일 예로, 마이크를 통해 수신되는 신호 중에서 TV 스피커(300)의 출력 오디오 신호가 제거된 음향 신호 및/또는 음성 신호)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과를 근거로 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 임의의 기능/동작 제어를 수행한다.

예를 들어, 제어부(160)는 가산부/감산부(150)의 출력 신호("화면 프린트"라는 음성 신호 포함)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과인 "화면 프린트"라는 내용을 근거로 TV의 디스플레이부에 표시되는 화면을 TV에 연결된 프린터(미도시)에 출력하도록 TV와 프린터를 제어한다(S150).

도 3은 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.

이하에서는 도 1 및 도 3을 이용하여 본 도면을 설명하도록 한다.

먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 감지하고, 감지된 물체의 움직임이 미리 설정된 움직임에 해당될 때, 입력부(110)에 포함된 마이크를 통해 데이터를 수신한다. 여기서, 마이크를 통해 수신되는 데이터는, 음향 신호, 음성 신호 및, TV의 스피커를 통해 출력되는 오디오 신호 등을 포함한다. 또한, 미리 설정된 움직임은 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향(일 예로, 상하 방향, 좌우 방향, 대각선 방향 등 포함)으로의 슬라이딩 동작 및, 다각형을 그리는 동작 등을 포함한다(S210).

그리고 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다(S220).

그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S230).

그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S240).

그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S250).

예를 들어, 제어부(160)는 가산부/감산부(150)의 출력 신호("화면 전송"이라는 음성 신호 포함)를 근거로 음성 인식 과정을 수행하고, 상기 음성 인식 수행 결과인 "화면 전송"이라는 내용을 근거로 TV의 디스플레이부에 표시되는 화면을 TV에 포함된 통신부(미도시)와 통신 연결된 임의의 단말(미도시)에 전송한다(S260).

도 4는 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.

이하에서는 도 1 및 도 4를 이용하여 본 도면을 설명하도록 한다.

먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임(또는, 위치)을 감지하고, 감지된 물체의 움직임을 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 디스플레이부(미도시)의 임의의 위치(또는, 좌표)에 대응(또는, 매핑(mapping))시킨다.

예를 들어, 제어부(160)는 카메라를 통해 수신되는 영상 정보 내의 사용자의 손의 위치 정보를 감지하고, 감지된 손의 위치 정보를 TV의 디스플레이부의 위치(좌표)에 대응시킨다(S310).

그리고 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다(S320).

그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S330).

그리고 적응 필터(140)는 그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S340).

그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S350).

그리고 제어부(160)는 가산부/감산부(150)의 출력 신호(일 예로, 마이크를 통해 수신되는 신호 중에서 TV 스피커(300)의 출력 오디오 신호가 제거된 음향 신호 및/또는 음성 신호)를 근거로 음성 인식 과정을 수행한다(S360).

그리고 제어부(160)는 상기 음성 인식 수행 결과와 상기 TV의 디스플레이부의 임의의 위치(좌표)에 대응하는 화면을 근거로 임의의 기능/동작을 수행하도록 TV를 제어한다.

예를 들어, 제어부(160)는 가산부/감산부(150)의 출력 신호("화면 프린트"라는 음성 신호 포함)와 상기 TV의 디스플레이부의 임의의 위치(좌표)에 대응하는 화면(일 예로, 복수의 분할된 화면 중 제1 화면)을 근거로 TV의 디스플레이부에 표시되는 화면(일 예로, 상기 제1 화면)을 TV에 연결된 프린터(미도시)에 출력하도록 TV와 프린터를 제어한다(S370).

도 5는 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.

이하에서는 도 1 및 도 5를 이용하여 본 도면을 설명하도록 한다.

먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 감지한다(S410).

그리고 제1 저역 통과 필터(120)는 입력부(110)에 포함된 마이크를 통해 수신되는 데이터를 미리 설정된 제1 차단 주파수(일 예로, 8kHz)를 근거로 저역 통과 필터링한다(S420).

그리고 제2 저역 통과 필터(130)는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 미리 설정된 제2 차단 주파수(일 예로, 8kHz)를 근거로 필터링한다. 여기서, 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호는 TV에 구비된 디코더(미도시) 또는 제어부(160)에 의해 임의의 방송 신호에 포함된 오디오 데이터(또는, 오디오 신호)를 디코딩한 신호이다(S430).

그리고 적응 필터(140)는 그리고 적응 필터(140)는 가산부/감산부(150)의 출력 신호를 근거로 적응 필터(140)의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호를 필터링한다. 여기서, 제2 저역 통과 필터(130)에 의해 필터링된 오디오 신호는 잡음 신호에 해당하는 스피커(300)를 통해 출력되기 이전의 디지털화된 오디오 신호를 포함하고, 가산부/감산부(150)의 출력 신호는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한 신호를 포함한다(S440).

그리고 가산부/감산부(150)는 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호(음향 신호, 음성 신호, TV 스피커(300)의 출력 오디오 신호 등 포함)와 적응 필터(140)의 출력 신호를 가산/감산한다. 이때, 가산부/감산부(150)는, 적응 필터(140)의 계수 값이 최적화된 경우, 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호에 대응하는 적응 필터(140)의 출력 신호를 근거로 제1 저역 통과 필터(130)에 의해 필터링된 오디오 신호에 포함된 TV 스피커(300)의 출력 오디오 신호를 제거하여, 마이크를 통해 수신되는 음향 신호 및/또는 음성 신호 성분만을 제어부(160)에 출력할 수 있다(S450).

그리고 제어부(160)는 가산부/감산부(150)의 출력 신호(일 예로, 마이크를 통해 수신되는 신호 중에서 TV 스피커(300)의 출력 오디오 신호가 제거된 음향 신호 및/또는 음성 신호)를 근거로 음성 인식 과정을 수행한다(S460).

그리고 제어부(160)는 상기 음성 인식 수행 결과와 상기 감지된 물체의 움직임을 근거로 임의의 기능/동작을 수행하도록 TV를 제어한다. 여기서, 상기 음성 인식 수행 결과에는, TV의 임의의 기능/동작에 대응하는 메시지(예를 들어, 채널, 볼륨, 뮤트 및, 환경(파라미터) 등 포함)가 포함된다.

일 예로, 제어부(160)는 상기 음성 인식 수행 결과에 '채널'이 포함되고 상기 감지된 물체의 움직임이 미리 설정된 반시계 방향으로 원을 그리는 동작인 경우, TV의 채널을 한 단계 감소시킨다.

다른 일 예로, 제어부(160)는 상기 음성 인식 수행 결과에 '뮤트'가 포함되고 상기 감지된 물체의 움직임이 미리 설정된 대각선 방향으로의 슬라이딩 동작인 경우, TV의 뮤트 기능을 수행한다(S470).

도 6은 본 발명의 일 실시예에 따라 보행 상태 인식 방법을 설명하는 플로우 차트를 도시한 도면이다.

이하에서는 도 1 및 도 6을 이용하여 본 도면을 설명하도록 한다.

먼저 제어부(160)는 입력부(110)에 포함된 카메라를 통해 수신되는 영상 정보를 근거로 영상 정보에 포함된 임의의 물체의 움직임을 감지한다(S510).

그리고 제어부(160)는 감지된 물체의 움직임이 미리 설정된 움직임에 해당되는지 판단한다. 여기서, 미리 설정된 움직임은 시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향(일 예로, 상하 방향, 좌우 방향, 대각선 방향 등 포함)으로의 슬라이딩 동작 및, 다각형을 그리는 동작 등을 포함한다(S520).

상기 판단 결과, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 움직임에 해당되는 경우, 음향/음성 인식을 위한 잡음 제거 장치(100)가 구비된 TV의 미리 설정된 기능을 제어한다. 즉, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 움직임에 해당되는 경우, TV의 채널 변경 기능, 볼륨 조절 기능, 뮤트 기능 및, 환경(또는, 파라미터) 설정 기능 중 어느 하나의 기능을 수행한다.

일 예로, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 시계 방향으로 원을 그리는 동작인 경우, TV의 볼륨을 한 단계 증가시킨다.

다른 일 예로, 제어부(160)는 감지된 물체의 움직임이 미리 설정된 위에서 아래 방향으로의 슬라이딩 동작인 경우, TV의 채널을 한 단계 감소시킨다(S530).

본 발명은 본 발명의 정신 및 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함시킬 수 있다.

본 발명에 따른 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법은, 예를 들어, 필터 계수를 적응할 수 있는 적응 필터를 이용하여 유사한 신호를 제거하는 분야에는 어디든 적용가능하다.

100 : 잡음 제거 장치 110 : 입력부
120 : 제1 저역 통과 필터 130 : 제2 저역 통과 필터
140 : 적응 필터 150 : 가산부/감산부
160 : 제어부

Claims

마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 장치에 있어서,
상기 마이크를 통해 수신되는 신호를 미리 설정된 제1 차단 주파수를 근거로 필터링하는 제1 저역 통과 필터;
TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 미리 설정된 제2 차단 주파수를 근거로 필터링하는 제2 저역 통과 필터;
가산부/감산부의 출력 신호를 근거로 필터의 계수를 조정하고, 조정된 계수를 근거로 제2 저역 통과 필터의 출력 신호를 필터링하는 적응 필터;
상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 가산부/감산부; 및
상기 가산부/감산부로부터 출력되는 신호를 음성 인식하고, 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 제어부;를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
제1항에 있어서,
상기 마이크는,
카메라를 통해 수신되는 영상 정보 내에서 미리 설정된 물체의 움직임이 감지될 때, 상기 마이크를 통해 신호를 수신하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
제1항에 있어서,
상기 제1 차단 주파수 또는 상기 제2 차단 주파수는,
8kHz인 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
제2항에 있어서,
상기 마이크를 통해 수신되는 신호는,
음향 신호, 음성 신호 및, 상기 스피커를 통해 출력되는 오디오 신호를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
제1항에 있어서,
상기 제어부는,
상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 출력하거나 통신 연결된 임의의 단말에 전송하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
제2항에 있어서,
상기 미리 설정된 물체의 움직임은,
시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향으로의 슬라이딩 동작 및, 다각형을 그리는 동작 중 어느 하나를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
제2항에 있어서,
상기 제어부는,
상기 물체의 움직임이 감지된 시점부터, 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 제어하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
제2항에 있어서,
상기 제어부는,
상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계(auto-correlation)를 수행하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 장치.
마이크를 통해 수신되는 신호에 포함된 잡음 신호를 제거하는 음향/음성 인식을 위한 잡음 제거 방법에 있어서,
카메라를 통해 수신되는 영상 정보에 포함된 물체의 움직임을 감지하는 단계;
상기 감지된 물체의 움직임이 미리 설정된 움직임일 때, 상기 마이크를 통해 신호를 수신하는 단계;
상기 마이크를 통해 수신되는 신호를 제1 저역 통과 필터를 통해 미리 설정된 제1 차단 주파수를 근거로 필터링하는 단계;
TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터를 제2 저역 통과 필터를 통해 미리 설정된 제2 차단 주파수를 근거로 필터링하는 단계;
가산부/감산부의 출력 신호를 근거로 적응 필터의 계수를 조정하고, 조정된 계수를 근거로 적응 필터를 통해 제2 저역 통과 필터의 출력 신호를 필터링하는 단계;
상기 제1 저역 통과 필터의 출력 신호와 상기 적응 필터의 출력 신호를 가산하거나 감산하는 단계;
상기 가산 또는 감산에 따른 출력 신호를 음성 인식하는 단계; 및
상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계;를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
제9항에 있어서,
상기 마이크를 통해 수신되는 신호는,
음향 신호, 음성 신호 및, 상기 스피커를 통해 출력되는 오디오 신호를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
제9항에 있어서,
상기 음성 인식 결과를 근거로 상기 TV의 기능 또는 동작을 제어하는 단계는,
상기 음성 인식 결과를 근거로 상기 TV의 디스플레이부에 표시되는 화면을 프린터를 통해 출력하거나 또는, 통신 연결된 임의의 단말에 전송하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
제9항에 있어서,
상기 미리 설정된 물체의 움직임은,
시계 방향 또는 반시계 방향으로 원을 그리는 동작, 임의의 방향으로의 슬라이딩 동작 및, 다각형을 그리는 동작 중 어느 하나를 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
제9항에 있어서,
상기 물체의 움직임이 감지된 시점부터 채널, 볼륨, 뮤트 및, 환경 중 어느 하나의 내용을 포함하는 상기 음성 인식 결과에 대응하는 상기 TV의 기능을 제어하는 단계;를 더 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.
제9항에 있어서,
상기 TV에 구비된 스피커를 통해 출력되기 이전의 디지털화된 오디오 데이터와 상기 마이크를 통해 수신되는 신호와의 자기-상관 관계하는 단계;를 더 포함하는 것을 특징으로 하는 음향/음성 인식을 위한 잡음 제거 방법.