KR20100025140A

KR20100025140A - 2개의 마이크를 사용한 음원 분리 방법

Info

Publication number: KR20100025140A
Application number: KR1020080083786A
Authority: KR
Inventors: 이행우
Original assignee: 남서울대학교 산학협력단
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2010-03-09

Abstract

본 발명은 2개의 마이크를 사용한 음원 분리 방법에 관한 것으로서, 복수의 음원으로부터 발생된 혼합음이 존재하는 환경에서 2개의 마이크를 사용하여 각 음원을 분리해내는 방법을 제공하는 것이다.

또한, 본 발명은 여러 소리가 시간 영역이나 주파수 영역, 또는 발생 방향에서 중첩되더라도 이들을 분리해낼 수 있는 기술을 제안하는 것으로, 각 마이크에 유입되는 신호의 크기가 다르고 도달시간이 다르다는 특성을 활용하여 반복적인 계산을 통해 음원을 구하는 방법을 제공하는 것이다.

음원 분리 방법, 마이크, 음성신호, 잡음

Description

2개의 마이크를 사용한 음원 분리 방법 {Method of voice source separation}

본 발명은 2개의 마이크를 사용한 음원 분리 방법에 관한 것으로서, 마이크 간의 신호의 크기와 도달시간의 차이를 이용한 음원 분리 방법에 관한 것이다.

음성처리기술이 점차 다양한 응용분야에서 활용되고 있으나 음성처리 결과의 음질을 저하시키는 잡음이 주요 문제가 되고 있다. 이를 해결하기 위해 현재 상용화된 기술인 잡음제거 필터나 잡음제거용 마이크로는 만족할만한 수준까지 성능을 향상시키는데 한계가 있었다. 이는 음성신호 고유의 특성이라 할 수 있는 높은 상관도 때문이다.

일반적으로, 음성처리기술에 있어서 음성인식은 음성신호 입력시 함께 들어오는 배경잡음과 채널잡음, 잔향 등 다양한 노이즈에 의해 그 인식 성능이 현저히 떨어져 실험공간이 아닌 실제 상황에서 사용하기에 어려운 점이 많았으며, 이와 같은 문제점들을 극복하려는 노력들이 이어져 왔다.

이러한 배경잡음을 제거하기 위해 특정 주파수 대역을 제거하는 주파수 차감법, 포만트 트랙킹 등을 사용하여 성능을 향상시키려는 시도가 있었으나, 이러한 방법들은 노이즈 성분의 변화가 심하고 다양한 노이즈가 존재하는 실제 상황에서는 인식 성능에 크게 도움이 되지 못하는 단점이 있었다.

이와 같이, 종래의 음성처리기술이 갖는 각각의 문제점들을 해결하기 위해서는 잡음제거기술과는 구분되도록, 시간영역에서 혼합음으로부터 각 음원신호를 분리해내는 음원분리기술이 요구되었으며, 그러한 기술을 구현함에 있어서 시간영역이나 주파수영역, 또는 발생방향 등에서 중첩이 되더라도 이들을 분리해낼 수 있는 음원분리기술이 요구되었다.

따라서, 본 발명은 상술한 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 복수의 음원으로부터 발생된 혼합음이 존재하는 환경에서 2개의 마이크를 사용하여 각 음원을 분리해내는 방법을 제공하는 것이다.

상술한 목적을 달성하기 위한 기술적 수단으로, 본 발명은 마이크 1(M ₁), 마이크 2(M ₂)에 각각 유입되는 음원신호 V_A, V_B에 대해, 파라미터 α, β를 구하는 방법은,

와 같은 수식으로부터 연산되는 것을 특징으로 한다.

바람직하게, 상기의 음원신호 V_A, V_B를 구하는 방법은,

와 같은 수식으로부터 연산되는 것을 특징으로 한다.

본 발명에 따른 2개의 마이크를 사용한 음원 분리 방법에 의하면, 본 발명은 2개의 마이크를 사용함으로써 여러 혼합음이 존재하는 환경에서 음성신호와 잡음을 분리해낼 수 있는 것으로, 음향반향제거기 대신 본 기술을 사용하면 반향신호와 음성신호를 분리할 수 있는 것이다.

본 발명이 제안하는 음원분리기술은 마이크 간에 신호의 크기와 도달시간의 차이를 이용한다. 다시 말해서, 이 알고리즘은 여러 비선형 수학적 계산식을 구현하는 것이다.

복수의 음향신호는 3가지 차원에서 중첩됨으로 인하여 서로 혼합되고 간섭된 다. 세 차원은 시간, 주파수, 그리고 도착 방향을 말한다.

지금까지 시간영역에서 중첩하는 신호는 주파수 스펙트럼이나 도착 방향을 이용하여 구별하였다. 그러나 본 기술은 시간, 스펙트럼, 도착 방향이 동시에 중첩된 신호들도 구분할 수 있는 것이다.

복수의 음원으로부터 발생한 신호들이 스펙트럼이나 도착 방향에 상관없이 시간 영역에서 오버랩하지 않으면 신호분리의 문제는 존재하지 않는다. 왜냐하면, 신호들이 마이크에 동시에 도착하지 않아 결코 혼합되는 경우가 없기 때문이다. 복수의 음원으로부터 발생한 신호들이 주파수 영역에서 오버랩하지 않는다면 대역 필터를 사용하여 신호들을 분리할 수 있다. 또한, 복수의 음원으로부터 발생한 신호들이 도착 방향의 측면에서 오버랩하지 않는다면 지향성 마이크를 사용하여 대부분 문제를 해결할 수 있다. 그러나 세 부문에서 모두 오버랩할 경우 현재 개발된 기술 가운데 어느 기술도 만족할만한 성능을 기대할 수 없다.

본 발명에서 다루는 기술은 소리들이 시간 영역이나 주파수 영역, 또는 발생 방향에서 중첩되더라도 이들을 분리해내는 것이다. 즉, 복수의 음원으로부터 발생된 혼합음이 존재하는 환경에서 2개의 마이크를 사용하여 각 음원을 분리해낼 수 있는 것이다. 이는 각 마이크에 유입되는 신호의 크기가 다르고 도달시간이 다르기 때문에 이러한 특성을 활용하여 반복적인 계산을 통해 음원을 구하게 된다. 따라서 기존의 음성처리기술은 잡음이나 반향 성분을 직접 제거하는 방식이지만, 본 기술을 사용하면 잡음이나 반향신호를 음성신호와 분리하여 해결할 수 있다.

이하, 첨부된 도면을 참조하면서 본 발명에 대해 상세하게 설명한다.

도 1은 본 발명에 따른 음원분리방법의 시스템 개념도이다.

상기와 같이, 본 발명의 실시예에 따르면 사용자의 음성이 입력되는 각각의 마이크(1,2)에 해당하는 Mic(1) 및 Mic(2)와, 상기 Mic(1) 및 Mic(2)로부터 입력된 음원을 분리하는 음원분리장치(100)를 포함하여 구성되는 것이다.

상기의 음원분리장치(100)로부터 음원을 분리하는 방법은 이하 서술되는 방법을 통해 이루어지는 것이다.

본 발명은 혼합신호로부터 서로를 구별하기 위하여 독립된 음원의 신호 크기와 통계적 특성에 대한 마이크 유입신호 간 차이를 이용하는 것이다. 먼저 각 음향신호가 어떻게 마이크로 유입되는지 살펴보기로 한다.

하나의 음원으로부터 발생한 음파는 마이크에서 음원과 마이크간 거리에 반비례하는 신호를 생성한다. 따라서, 음원과 각 마이크간 거리가 다르다면 고정된 음원은 두 마이크에 다른 각도로 유입된다. 마이크가 음원에 가까울수록 유입하는 신호의 세기는 커진다. 도 1에서 마이크 1(Mic 1)은 마이크 2(Mic 2)보다 더 큰 음성신호 Voice_A를 유입시킨다. 반대로 마이크 2(Mic 2)는 마이크 1(Mic 1)보다 더 큰 음성신호 Voice_B를 유입시킨다.

여러 음원으로부터 동시에 하나의 마이크에 어떻게 유입되는지 살펴보기로 한다.

임의의 순간에 복수의 음원으로부터 발생하는 음파에 의해 마이크로 유입되 는 신호는 각 음원으로부터 발생하는 음파에 의해 마이크로 유입되는 신호들의 합과 같다. 다시 말해서, 마이크 1로 음성 A와 B가 동시에 유입될 때 전체 신호는 음성 A가 발생하는 신호에 음성 B가 발생하는 신호를 더하면 된다. 따라서 각 마이크에 유입되는 신호는 다음과 같이 표현된다.

여기서

는 각 음원으로부터 마이크까지의 거리에 반비례하는 파라미터이다. M ₁ 과 M ₂는 우리가 알고 있는 측정값이다. 그러나

는 미지수이다. 미지수의 개수를 줄이기 위하여 각 마이크에 유입되는 두 음성신호중 큰 값을 기준신호로 삼으면

이 되어 수식이 간략화된다.

음성을 구하는 형태로 수식을 다시 표현하면 ,

이 식은 마이크 1과 2의 혼합신호로부터 음원신호 V _A, V _B를 구할 수 있도록 한다. 아직도 미지수는 4개인데 방정식은 2개이기 때문에 간단한 대수식으로는 해를 구할 수 없다. 그러나, 각 독립된 신호의 통계적 특성을 이용하는 방법이 있다. 가령 8 kHz로 샘플링되는 혼합 음향신호들의 통계적 관계를 계산하는 것이다. 이러한 관계를 기반으로 계수 α,β를 적응적으로 산출하고 이 값을 이용하여 음향신호 V_A, V_B를 산출할 수 있다. 계산과정은 새로운 샘플이 생성될 때마다 반복해서 적응적으로 이루어지게 된다.

신호 분리 과정에서 미지의 파라미터 α, β는 초기값을 영(zero)으로 설정한다. 즉, 처음에 α=β=0으로 가정한다. 따라서 식 (3)은 최초 다음과 같은 관계에서 출발한다.

그 다음 α, β를 새로운 값으로 갱신한다.

이 계수들의 변화값은 음향신호 V _A, V _B 사이에 통계적 독립성이 보장되어야 한다는 전제를 기반으로 하여 결정된다. 에러신호

및

의 자승값이 제로가 되었을 때를 수렴의 목표라고 하면 steepest-descent 알고리즘을 사용하여 파라미터의 새로운 값을 구할 수 있다.

여기서

는 반복해서 적응적으로 α, β에 접근해감에 있어 수렴속도를 결정하는 스텝 크기를 나타내고,

는 다음과 같이 구해진다.

따라서, 식 (7)을 (6)에 대입하면 각 계수에 대한 업데이트 관계식을 얻을 수 있다.

식 (3)과 (8)을 연립하여 순차적으로 해를 구하여 나가면 최종적으로 정확한 음향신호 V _A, V _B에 수렴하게 된다. 수렴과정은 계수의 변화값 Δα, Δβ가 거의 변화하지 않는 상태가 될 때까지 반복적으로 수행된다. 그러나, 실제로 주변환경이나 조건이 계속 변하기 때문에 적응과정은 무한히 반복된다.

본 기술은 두 음향신호가 혼합되어 유입될 때 둘 중 어느 하나의 신호를 분리해낸다. 먼저 음성신호와 잡음신호가 혼합되어 유입될 때 각 신호의 분리 실험을 수행하였다.

도 2 내지 도 7은 음성신호 음원을 나타낸 파형도로서, 사용된 실제음성 「실제 윈도우즈 프로그램 내에서」라는 여성의 발음을 다양한 실시예로 표현한 음원 파형도이다.

상기에서 음성신호 및 잡음의 음원은 각각 도 2, 도 4와 같고, 각 마이크 유입신호는 도 4, 도 5와 같다. 그리고, 도 6, 도 7은 음성신호를 분리한 경우와 잡음신호를 분리한 경우의 각 출력신호 파형을 나타낸 것이다.

상기한 바와 같이, 본 발명의 기술적 사상을 바람직한 실시 예를 참조하여 설명하였지만 해당 기술분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있는 것이다.

도 1은 본 발명에 따른 음원분리방법의 시스템 개념도이며,

도 2는 음성신호 음원을 나타내는 파형도이며,

도 3은 잡음신호 음원을 나타내는 파형도이며,

도 4는 Mic 1의 입력신호를 나타내는 파형도이며,

도 5는 Mic 2의 입력신호를 나타내는 파형도이며,

도 6은 분리된 음성신호를 나타내는 파형도이며,

도 7은 분리된 잡음신호를 나타내는 파형도이다.

Claims

마이크 1(M ₁), 마이크 2(M ₂)에 각각 유입되는 음성신호 V_A, V_B 에 대해, 파라미터 α, β를 구하는 방법은,

와 같은 수식으로부터 연산되는 것을 특징으로 하는 2개의 마이크를 사용한 음원 분리 방법.
제 1항에 있어서,

음성신호 V_A, V_B를 구하는 방법은,

와 같은 수식으로부터 연산되는 것을 특징으로 하는 2개의 마이크를 사용한 음원 분리 방법.