KR20100072746A

KR20100072746A - 다채널 잡음처리 장치 및 방법

Info

Publication number: KR20100072746A
Application number: KR1020080131238A
Authority: KR
Inventors: 정호영; 박기영; 이성주; 강병옥; 박전규; 정훈; 김종진; 왕지현; 강점자; 정의석; 전형배; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2008-12-22
Filing date: 2008-12-22
Publication date: 2010-07-01
Also published as: KR101082839B1

Abstract

본 발명은 다채널 잡음처리 장치 및 방법에 관한 것으로, 다채널 음성 인식 환경에 기반하여 다채널 잡음처리 방식 가운데 빔포밍 방식과 음원분리 방식을 잡음처리 성능이 최대가 되도록 환경조건에 따라 선택하여 적용함으로써 음성 인식의 성능을 향상시킬 수 있으며, 특히, 로봇에 음성인식을 적용하는 환경에서는 고정된 형태 및 위치가 아닌 다양한 형태 및 위치의 잡음원이 존재할 수 있으므로 음성 인식을 수행할 상황에 적합한 잡음처리가 적용되어야 하기에, 본 발명에 의하면 효과적인 잡음처리를 제공하여 음성 인식의 성능을 향상시킬 수 있는 이점이 있다.

음성 인식, 다채널 잡음처리, 빔포밍, 음원분리, 다단계 잡음처리

Description

다채널 잡음처리 장치 및 방법{METHOD AND APPARATUS FOR MULTI CHANNEL NOISE REDUCTION}

본 발명은 다채널 잡음처리 장치 및 방법에 관한 것으로서, 더욱 상세하게는 주변 잡음원의 개수 및 위치 정보를 파악하여 이를 바탕으로 복수의 다채널 잡음처리 방식을 상황에 맞게 효과적으로 운용하여 음성 인식의 성능을 향상시킬 수 있도록 하는 다채널 잡음처리 장치 및 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호 : 2006-S-036-03, 과제명 : 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].

주지하는 바와 같이, 음성 인식 기술에서 잡음환경에서의 성능 확보는 상용화를 위해 해결해야 하는 여러 문제들 중의 하나이다. 음성 인식에 영향을 주는 잡음은 특성에 따라 정적잡음과 동적잡음으로 나누어지며, 시간에 따라 특성이 크게 변하지 않는 정적잡음은 어느 정도 해결이 가능하나 동적잡음을 제거하여 음성 인식을 수행하는 것은 매우 어려운 문제이다.

한편, 동적잡음을 처리하여 음성 인식 성능을 확보하기 위해 여러 개의 마이크를 사용하는 다채널 잡음처리 기술이 개발되어 왔다.

종래 기술에 따른 다채널 잡음처리 기술의 대표적인 것은 특정 형태의 마이크로폰 배열을 이용하여 사용자가 발성하는 방향의 신호를 강화하는 빔포밍(beam-forming) 방식과 여러 개의 음원으로 인해 혼합된 신호를 이용하여 각 음원별로 분리해내는 음원분리 방식이다.

그러나, 빔포밍 방식은 입력장치가 원거리를 지원하는 경우 거리에 크게 영향을 받지 않으나, 음원분리 방식은 원거리의 경우 사용자 발성이 작게 입력되어 분산잡음이 근거리에 비해 상대적으로 커지는 경향이 있고 이로 인해 분리성능이 떨어지는 문제가 있다. 사용자 음성 개선의 관점에서 음원분리 방식은 음성과 잡음원을 효과적으로 분리해내는데 비해 빔포밍 방식은 사용자 방향 이외의 신호는 가능한 입력되지 않도록 막고 사용자 방향의 신호를 강화하기 때문에 잡음원을 완전히 제거하는데 문제가 있다. 또한 사용자와 잡음원의 위치 관점에서 빔포밍 방식과 음원분리 방식은 모두 사용자와 음원이 근접하게 있는 경우 잡음처리 성능이 떨어지는 단점이 있다. 따라서 음성 인식기가 적용된 환경에서의 잡음특성을 파악해 각 상황에 적합한 잡음처리 기술을 적용하는 것이 효과적이라 볼 수 있다.

앞서 설명한 바와 같이 종래에 따른 다채널 잡음처리 기술을 대표하는 빔포밍 방식은 잡음원이 사용자와 비슷한 방향에 있으면 동작하지 않고, 사용자 방향과 다른 방향에서 입력되는 신호를 완벽하게 제거하지 못하는 문제점이 있다. 다른 대표 기술로서 음원분리 방식은 사용자 음성과 잡음을 효과적으로 분리하지만 분산잡음이 많은 경우에 분리 성능이 떨어지고, 사용자와 잡음원의 위치, 음원의 개수 등에 영향을 받는 문제점이 있다. 이러한 문제점들로 인하여 빔포밍 방식과 음원분리 방식은 조건에 따라 성능에 제약을 가짐으로써 음성 인식을 위해 활발히 적용되지 못하는 실정이다.

본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 다채널 음성 인식 환경에 기반하여 다채널 잡음처리 방식 가운데 빔포밍 방식과 음원분리 방식을 잡음처리 성능이 최대가 되도록 환경조건에 따라 선택하여 적용할 수 있는 다채널 잡음처리 장치 및 방법을 제공한다.

본 발명의 제 1 관점으로서 다채널 잡음처리 장치는, 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보를 파악할 수 있는 잡음환경 감시부와, 상기 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보에 따라 복수의 다채널 잡음처리 방식 중에서 어느 하나의 다채널 잡음처리 방식을 선택하여 잡음처리를 수행할 수 있는 다채널 잡음처리부를 포함한다.

여기서, 상기 잡음환경 감시부는, 다채널 신호의 음성 여부를 판별하여 사용자 입력을 판단할 수 있는 채널 판단부와, 다채널 음원분리를 적용하여 얻어진 분리 필터로부터 상기 배경음원의 개수, 위치 및 특성을 파악할 수 있는 배경음원 정보 획득부와, 상기 배경음원과 상기 사용자 음성의 상대적인 위치를 파악할 수 있는 상대적 위치 정보 추정부를 포함한다.

상기 다채널 잡음처리부는, 상기 음원의 개수 및 위치 정보를 분석하여 빔포밍과 음원분리 중에서 어느 하나의 다채널 잡음처리 방식을 선택할 수 있는 잡음처리 방식 선택부와, 선택한 상기 다채널 잡음처리 방식에 의한 잡음처리를 수행하여 음성 인식을 위한 신호를 출력할 수 있는 잡음처리 출력부를 포함한다.

본 발명의 제 2 관점으로서 다채널 잡음처리 방법은, 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보를 파악하는 단계와, 상기 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보에 따라 복수의 다채널 잡음처리 방식 중에서 어느 하나의 다채널 잡음처리 방식을 선택하여 잡음처리를 수행하는 단계를 포함한다.

여기서, 상기 상대적 위치 정보를 파악하는 단계는, 다채널 신호의 음성 여부를 판별하여 사용자 입력을 판단하는 단계와, 다채널 음원분리를 적용하여 얻어진 분리 필터로부터 상기 배경음원의 개수, 위치 및 특성을 파악하는 단계와, 상기 배경음원과 상기 사용자 음성의 상대적인 위치를 파악하는 단계를 포함한다.

상기 잡음처리를 수행하는 단계는, 상기 음원의 개수 및 위치 정보를 분석하 여 빔포밍과 음원분리 중에서 어느 하나의 다채널 잡음처리 방식을 선택하는 단계와, 선택한 상기 다채널 잡음처리 방식에 의한 잡음처리를 수행하여 음성 인식을 위한 신호를 출력하는 단계를 포함한다.

본 발명에 의하면 다채널 음성 인식 환경에 기반하여 다채널 잡음처리 방식 가운데 빔포밍 방식과 음원분리 방식을 잡음처리 성능이 최대가 되도록 환경조건에 따라 선택하여 적용함으로써, 음성 인식의 성능을 향상시킬 수 있다.

특히, 로봇에 음성인식을 적용하는 환경에서는 고정된 형태 및 위치가 아닌 다양한 형태 및 위치의 잡음원이 존재할 수 있으므로 음성 인식을 수행할 상황에 적합한 잡음처리가 적용되어야 하기에, 본 발명에 의하면 효과적인 잡음처리를 제공하여 음성 인식의 성능을 향상시킬 수 있는 효과가 있다.

이하, 본 발명의 일부 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

본 발명의 실시예에 의하면, 음성 인식의 대기시간 동안 주기적으로 음원분 리 방식과 연계하여 배경 잡음원의 개수를 추정하며, 음원분리 방식과 연계하여 음원의 위치 정보를 파악하고, 잡음원의 특성이 정적인지 동적인지를 파악하며, 음원의 개수와 잡음원과 사용자의 상대적인 위치를 이용하여 상황에 가장 적합한 다채널 잡음처리 방식을 선택한다.

도 1은 본 발명의 실시예에 따른 다채널 잡음처리 장치의 블록 구성도이다.

이에 나타낸 바와 같이 본 발명의 다채널 잡음처리 장치는, 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보를 파악하는 잡음환경 감시부(100)와, 잡음환경 감시부(100)에 의해 파악한 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보에 따라 복수의 다채널 잡음처리 방식 중에서 어느 하나의 다채널 잡음처리 방식을 선택하여 잡음처리를 수행하는 다채널 잡음처리부(200)를 포함하여 구성된다.

잡음환경 감시부(100)는 음성과 비음성의 판별에 필요한 특징을 추출하여 입력된 N개의 채널 중에 사용자 음성이 존재하는지를 판단하는 채널 판단부(110)와, 배경음원에 대한 정보를 수집하여 N개 신호를 분리해내는 분리필터를 생성하는 음원 분리필터 생성부(120)와, 음원분리 필터 생성부(120)에서 생성한 분리필터를 이용하여 필요한 정보를 얻을 수 있도록 처리하는 분리필터 분석부(130)와, 다채널 음원분리를 적용하여 얻어진 분리 필터로부터 배경음원의 개수, 위치 및 특성을 파악하는 배경음원 정보 획득부(140)와, 사용자 음성이 있기 전까지의 배경음원에 대한 개수 및 위치 정보와 사용자 음성이 있는 순간의 전체 음원의 위치 정보를 비교 하여 사용자와 잡음원의 상대적인 위치를 파악하는 상대적 위치 정보 추정부(150) 등을 포함한다.

배경음원 정보 획득부(140)는 분리필터 분석부(130)에서 처리한 분리필터를 이용하여 최대 N개의 음원 내에서 현재 배경에 존재하고 있는 음원의 개수를 추정하는 배경음원 개수 추정부(141)와, 마이크로폰 배열에 따라 분리필터를 2개씩 짝을 지어 추정된 음원 개수에 따라 분리되는 신호의 방향각을 추정하는 배경음원 위치 추정부(143)와, 분리된 각 음원을 대상으로 시간에 따른 스펙트럼을 구한 후 스펙트럼 특성의 변화 정도에 따라 정적/동적 잡음을 판단하는 배경음원 특성 파악부(145) 등을 포함한다.

다채널 잡음처리부(200)는 음원의 개수 및 위치 정보를 분석하여 빔포밍과 음원분리 중에서 어느 하나의 다채널 잡음처리 방식을 선택하는 잡음처리 방식 선택부(210)와, 선택한 다채널 잡음처리 방식에 의한 잡음처리를 수행하여 음성 인식을 위한 신호를 출력하는 잡음처리 출력부(220) 등을 포함한다.

이와 같이 구성된 본 발명의 실시예에 따른 잡음처리 장치에 의한 잡음처리 과정에 대해 도 2를 참조하여 보다 상세히 살펴보기로 한다.

먼저, 잡음환경 감시부(100)는 사용자가 음성 인식 서비스를 이용하기 전에 대기상태에서 주변 잡음상황을 파악하는 기능과 사용자가 발성한 순간 잡음원과 사용자 음성을 포함한 전체 음원의 상황을 파악하는 기능을 수행한다. 대기 상태에서는 시간에 따라 주기적으로 음원을 파악하다가 음원의 수가 증가하면 음성의 여부 를 파악하여 음성 신호로 판단되면 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보를 제공하게 된다. 예컨대, 파악할 수 있는 최대 음원의 개수 및 음원 위치 정보는 음성 인식을 수행하는 로봇 시스템에 장착된 마이크로폰의 개수에 따라 결정된다.

이러한 잡음환경 감시부(100)의 동작 과정을 자세히 살펴보기로 한다.

채널 판단부(110)는 음성 또는 비음성 판별에 필요한 일반적인 특징을 추출(S301)하여 입력된 N개 채널 중에 사용자 음성이 있는지를 판단하게 된다. 아울러 음원 분리필터 생성부(120)는 다채널 잡음처리 방식의 하나인 음원분리 방식을 적용하는 것으로 최종 분리 신호를 출력하는 것이 아니라 N개 신호를 분리해 내는 분리필터를 생성하며(S303), 분리필터 분석부(130)에서는 생성된 분리필터를 이용하여 필요한 정보를 얻을 수 있도록 처리한다(S305).

N개 채널 중에 사용자 음성이 없다고 판단(S307)되면 배경 음원에 대한 정보를 수집 및 획득하게 되는데(S309), 배경음원 정보 획득부(140)의 배경음원 개수 추정부(141)에서는 분리필터를 이용하여 최대 N개 음원 내에서 현재 배경에 존재하고 있는 음원의 개수를 추정한다. 배경음원 개수 추정부(141)에서의 처리과정은 분리필터를 적용하여 일정 길이의 N개 신호를 생성한 후 2개씩 짝을 지어 신호사이의 유사도 및 결합분포의 히스토그램을 분석하여 전체 음원의 개수를 파악한다.

배경음원 정보 획득부(140)의 배경음원 위치 추정부(143)에서는 마이크로폰 배열에 따라 분리필터를 2개씩 짝을 지어 추정된 음원 개수에 따라 분리되는 신호의 방향각을 추정한다. 이것은 일반적으로 알려진 음원분리 기반 음원 위치 추정 기술을 활용한다.

배경음원 정보 획득부(140)의 배경음원 특성 파악부(145)에서는 분리된 각 음원을 대상으로 시간에 따른 스펙트럼을 구한 후 스펙트럼 특성의 변화 정도에 따라 정적/동적 잡음을 판단하게 된다. 이때 스펙트럼 특성의 변화 정도는 스펙트럼 사이의 거리척도를 이용한 유사도 판단과 시간에 따른 가우시안 분포를 통계적으로 계산하여 가우시안 거리척도를 이용한 유사도 판단을 적용할 수 있다. 예컨대, 이것은 기존의 BIC(Bayesian Information Criterion) 방법론에 기반하며, 기존 방법이 1~2분 단위로 변화를 판단하는 것을 10초 단위로 판단하도록 개선하여 적용할 수 있다.

상대적 위치 정보 추정부(150)는 사용자 음성이 있기 전까지의 배경음원에 대한 개수 및 위치 정보와 사용자 음성이 있는 순간의 전체 음원의 위치 정보를 비교하여 사용자와 잡음원의 상대적인 위치를 파악한다(S311).

다음으로, 다채널 잡음처리부(200)는 잡음환경 감시부(100)에서 제공하는 음원의 개수 및 위치 정보를 이용하여 적용할 잡음처리 기술을 결정하게 된다(S313). 예를 들어 음원분리 방식의 성능 및 계산량으로 인해 실시간으로 4채널 신호를 분리할 수 있는 경우 음원의 개수가 5개 이상이면 음원분리 방식은 적용하기 힘들고 빔포밍 방식을 적용하여 잡음처리를 수행하게 된다. 사용자 음성과 잡음원이 비슷한 방향에 있는 경우 빔포밍 방식은 잡음을 제거하기 어려우며, 이때는 음원분리 방식을 적용하게 된다(S315). 만약 빔포밍 방식과 음원분리 방식을 적용해서 성능을 얻기 어려운 상황이라고 판단되면 잡음이 심한 상태라는 것을 사용자에게 알려 주게 된다.

이러한 다채널 잡음처리부(200)의 동작 과정을 자세히 살펴보기로 한다.

잡음처리 방식 선택부(210)에서는 음원의 개수 및 위치 정보를 이용하여 적용할 다채널 잡음처리 기술을 결정하게 된다. 예컨대, 이를 위해 적용하는 규칙은 아래와 같이 정의된다.

첫째, 전체 음원 개수가 2개이고 음성과 잡음원 사이의 각도가 60도 이상이고 사용자가 인식시스템으로부터 가까이 있는 경우 2채널 시간영역 음원분리 방식을 적용한다.

둘째, 전체 음원 개수가 2~4개 이고 사용자가 인식시스템으로부터 가까이 있는 경우 4채널 주파수영역 음원분리 방식을 적용한다.

셋째, 음원개수가 4개를 초과하고 사용자 가까이에 잡음원이 없는 경우 빔포밍 방식을 적용한다.

넷째, 사용자가 인식시스템과 멀리 있고 사용자 주변에 잡음원이 없는 경우 빔포밍 방식을 적용한다.

다섯째, 전체 음원의 개수가 4개를 초과하고 사용자 주변에 잡음원이 있는 경우 정적잡음이면 인식을 수행하고, 동적잡음이면 인식불가능을 사용자에게 알린다.

여섯째, 위의 다섯째 경우는 신호대 잡음비가 10dB미만이면 성립하며 10dB 이상인 경우는 모두 인식가능으로 처리한다.

이와 같은 정의 규칙에 따라 잡음처리 방식 선택부(210)가 잡음처리 방식을 결정하면, 잡음처리 출력부(220)는 선택한 다채널 잡음처리 방식에 의한 잡음처리를 수행하여 음성 인식을 위한 신호를 출력한다. 즉 잡음처리 방식 선택부(210)는 앞서 서술한 정의 규칙을 적용하여 인식 가능 여부를 판단하며, 가능한 경우에 잡음처리 출력부(220)는 선택된 다채널 잡음처리 방식을 적용하게 된다.

잡음처리 출력부(220)는 다채널 잡음처리 방식을 적용하여 얻어진 신호를 실제 인식기에 전달하게 된다. 이때 빔포밍 방식을 적용한 경우는 잡음제거된 1채널 신호를 바로 얻을 수 있으나, 음원분리 방식을 적용한 경우에는 분리된 여러 채널의 신호가 나오므로 음성신호를 포함한 채널 판단부(110)의 처리와 비교할 때에 유사한 처리를 하여 분리된 채널 중 사용자 음성을 찾아내는 기능을 수행하게 된다.

본 발명에 의한 잡음처리 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 잡음처리 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.

지금까지 본 발명에 대하여 그 일부 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 2는 본 발명의 실시예에 따른 다채널 잡음처리 방법을 설명하기 위한 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

100 : 잡음환경 감시부 110 : 채널 판단부

120 : 음원 분리필터 생성부 130 : 분리필터 분석부

140 : 배경음원 정보 획득부 141 : 배경음원 개수 추정부

143 : 배경음원 위치 추정부 145 : 배경음원 특성 파악부

150 : 상대적 위치 정보 추정부 200 : 다채널 잡음처리부

210 : 잡음처리 방식 선택부 220 : 잡음처리 출력부

Claims

음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보를 파악할 수 있는 잡음환경 감시부와,

상기 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보에 따라 복수의 다채널 잡음처리 방식 중에서 어느 하나의 다채널 잡음처리 방식을 선택하여 잡음처리를 수행할 수 있는 다채널 잡음처리부

를 포함하는 잡음처리 장치.
제 1 항에 있어서,

상기 잡음환경 감시부는,

다채널 신호의 음성 여부를 판별하여 사용자 입력을 판단할 수 있는 채널 판단부와,

다채널 음원분리를 적용하여 얻어진 분리 필터로부터 상기 배경음원의 개수, 위치 및 특성을 파악할 수 있는 배경음원 정보 획득부와,

상기 배경음원과 상기 사용자 음성의 상대적인 위치를 파악할 수 있는 상대적 위치 정보 추정부

를 포함하는 잡음처리 장치.
제 1 항 또는 제 2 항에 있어서,

상기 다채널 잡음처리부는,

상기 음원의 개수 및 위치 정보를 분석하여 빔포밍과 음원분리 중에서 어느 하나의 다채널 잡음처리 방식을 선택할 수 있는 잡음처리 방식 선택부와,

선택한 상기 다채널 잡음처리 방식에 의한 잡음처리를 수행하여 음성 인식을 위한 신호를 출력할 수 있는 잡음처리 출력부

를 포함하는 잡음처리 장치.
음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보를 파악하는 단계와,

상기 음원의 개수 정보 및 배경음원과 사용자 음성의 상대적 위치 정보에 따라 복수의 다채널 잡음처리 방식 중에서 어느 하나의 다채널 잡음처리 방식을 선택하여 잡음처리를 수행하는 단계

를 포함하는 잡음처리 방법.
제 4 항에 있어서,

상기 상대적 위치 정보를 파악하는 단계는,

다채널 신호의 음성 여부를 판별하여 사용자 입력을 판단하는 단계와,

다채널 음원분리를 적용하여 얻어진 분리 필터로부터 상기 배경음원의 개수, 위치 및 특성을 파악하는 단계와,

상기 배경음원과 상기 사용자 음성의 상대적인 위치를 파악하는 단계

를 포함하는 잡음처리 방법.
제 4 항 또는 제 5 항에 있어서,

상기 잡음처리를 수행하는 단계는,

상기 음원의 개수 및 위치 정보를 분석하여 빔포밍과 음원분리 중에서 어느 하나의 다채널 잡음처리 방식을 선택하는 단계와,

선택한 상기 다채널 잡음처리 방식에 의한 잡음처리를 수행하여 음성 인식을 위한 신호를 출력하는 단계

를 포함하는 잡음처리 방법.