KR102438701B1

KR102438701B1 - 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치

Info

Publication number: KR102438701B1
Application number: KR1020210047029A
Authority: KR
Inventors: 장지호; 조완호
Original assignee: 한국표준과학연구원
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-09-01

Abstract

본 발명은 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치에 관한 것으로, 주파수 영역을 고려하여 음성신호를 보다 정확하게 제거하고, 마이크로폰 신호와의 상관성을 고려하여 음성신호의 제거 정도를 결정하는 음성신호 제거방법 및 제거장치에 관한 것이다.
본 발명에 따른 음성신호 제거방법은 전처리부가 마이크로폰 어레이로부터 다채널 신호를 수신하고, 상기 다채널 신호를 복수의 프레임으로 분할하며, 상기 프레임 중 적어도 어느 하나를 대상으로 빔포밍을 수행하는 전처리 단계, 음원방향추적기가 상기 빔포밍 결과를 이용하여 출력 레벨이 최대인 주음원의 방향을 추적하는 음원 방향 추적단계, 제어부가 상기 빔포밍 결과와 상기 방향을 이용하여 상기 주음원을 추출하고, 상기 주음원이 음성신호인지 여부를 판단하는 음성신호 판단단계 및 상기 주음원이 음성신호에 해당하는 경우, 음성신호제거부가 상기 다채널 신호에서 상기 주음원을 제거하는 음성신호 제거단계를 포함할 수 있다.

Description

마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치{A method and device for removing voice signal using microphone array}

본 발명은 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치에 관한 것으로, 더욱 상세하게는 시간영역뿐만 아니라 주파수 영역을 함께 고려하여 음성신호를 보다 정확하게 제거하고, 음성신호 제거 시 마이크로폰 신호와의 상관성을 고려하여 제거 정도를 결정하는 마이크로폰 어레이를 이용한 음성신호 제거방법 및 제거장치에 관한 것이다.

여러 개의 음원의 조합으로 이루어진 오디오 신호에 음성이 포함되었는지 여부를 확인하고, 오디오 신호에 포함된 음성을 텍스트로 변환하여 그 의미를 분석하는 방법과 관련하여서는 다수의 기술들이 연구 및 개발되어 왔으나 오디오 신호에 포함된 음성신호를 제거하는 기술과 관련하여서는 연구 및 개발이 활발하지 않은 실정이다.

일상생활에서 발생하는 다양한 소리정보가 포함된 오디오 신호를 처리하고 분석하기 위한 연구에서는 다수의 오디오 신호 데이터들이 사용된다. 그러나 이러한 데이터를 생성하는 과정에 있어 오디오 신호 즉, 데이터에 사람의 음성이 포함된 경우 사생활 침해 등과 같은 법적인 문제가 발생할 수 있다.

위와 같은 법적인 문제를 피하기 위해서는 사람이 없는 장소에서 오디오 신호를 녹음할 것이 요구되는데, 이는 특히, 여러 가지의 경우의 수를 갖는 다수의 데이터가 필요한 딥러닝 연구 및 분석에 있어서, 학습에 사용되는 데이터의 수 및 종류를 한정시킨다는 문제점이 있다.

위와 같은 문제점을 해결 하기 위한 방안으로서, 마이크로폰 어레이를 이용하여 오디오 신호를 레코딩하는 과정에서 자동적으로 사람의 음성을 인식, 제거하는 방법 및 장치의 개발이 요구되고 있는 실정이다.

KR 10-2019-0104278 A

상기 전술한 문제점을 해결하기 위하여 본 발명은 마이크로폰 어레이를 이용하여 음성신호의 물리적인 입사방향을 추정하고, 이에 따라 음성신호를 더 높은 신호대잡음비(SNR, Signal Noise Ratio)로 추출하고, 음성신호가 각 마이크로폰 채널에서 어느 구간에 해당하는지 역추산하여 음성신호를 더욱 정확하게 제거하는 마이크로폰을 이용한 음성신호 제거방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명의 일 실시 예로써, 마이크로폰 어레이를 이용한 음성신호 제거방법이 제공된다.

본 발명의 일 실시 예에 따른 음성신호 제거방법은, 전처리부가 마이크로폰 어레이로부터 다채널 신호를 수신하고, 상기 다채널 신호를 복수의 프레임으로 분할하며, 상기 프레임 중 적어도 어느 하나를 대상으로 빔포밍을 수행하는 전처리 단계, 음원방향추적기가 상기 빔포밍 결과를 이용하여 출력 레벨이 최대인 주음원의 방향을 추적하는 음원 방향 추적단계, 제어부가 상기 빔포밍 결과와 상기 방향을 이용하여 상기 주음원을 추출하고, 상기 주음원이 음성신호인지 여부를 판단하는 음성신호 판단단계 및 상기 주음원이 음성신호에 해당하는 경우, 음성신호제거부가 상기 다채널 신호에서 상기 주음원을 제거하는 음성신호 제거단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거방법에서, 상기 전처리 단계는, 상기 복수의 프레임의 평균을 대상으로 빔포밍을 수행하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거방법에서, 상기 음원방향 추적단계는, 기 학습된 딥러닝 모델을 이용하여 상기 빔포밍 결과로부터 상기 주음원의 방향을 추적하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거방법에서, 상기 음성신호 판단단계는, 기 학습된 딥러닝 모델을 이용하여 상기 주음원이 음성인지 여부를 판단하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거방법에서, 상기 음성신호 제거단계는, 상기 주음원을 푸리에 변환하여, 상기 주음원의 특징을 추출하는 주음원 특징 추출단계, 상기 다채널 신호를 푸리에 변환(Fourier Transform, FT)하여 주파수 스펙트럼으로 변환시키는 음향신호 변환단계 및 상기 주음원의 특징을 이용하여 상기 다채널 신호의 주파수 스펙트럼에서 상기 주음원을 제거하는 주음원 제거단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거방법에서, 상기 주음원 제거단계는, 각각의 마이크로폰으로 입력된 신호와 상기 주음원을 교차상관(cross correlation)하여 상관성을 산출하고, 상기 상관성을 기준으로 각각의 마이크로폰으로 입력된 신호에서 상기 주음원을 제거하는 정도를 결정하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거방법은, 상기 음향신호에 포함된 모든 음성신호가 제거될 때까지 상기 음원 방향 추적단계 내지 상기 음성신호 제거단계를 반복하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예로써, 전술한 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체가 제공된다.

본 발명의 일 실시 예로써, 마이크로폰 어레이를 이용한 음성신호 제거장치가 제공된다.

본 발명의 일 실시 예에 따른 음성신호 제거장치는, 복수의 마이크로폰이 배치된 마이크로폰 어레이, 상기 마이크로폰 어레이로부터 다채널 신호를 수신하고, 상기 다채널 신호를 복수의 프레임으로 분할하며, 상기 프레임 중 적어도 어느 하나를 대상으로 빔포밍을 수행하는 전처리부, 상기 빔포밍 결과를 이용하여 출력 레벨이 최대인 주음원의 방향을 추적하는 음원방향추적기, 상기 빔포밍 결과와 상기 방향을 이용하여 상기 주음원을 추출하고, 상기 주음원이 음성신호인지 여부를 판단하는 제어부 및 상기 주음원이 음성신호에 해당하는 경우, 상기 다채널 신호에서 상기 주음원을 제거하는 음성신호 제거부를 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거장치에서, 상기 전처리부는, 상기 복수의 프레임의 평균을 대상으로 빔포밍을 수행하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거장치에서, 상기 음원방향추적기는, 기 학습된 딥러닝 모델을 이용하여 상기 빔포밍 결과로부터 상기 주음원의 방향을 추적하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거장치에서, 상기 제어부는, 기 학습된 딥러닝 모델을 이용하여 상기 주음원이 음성인지 여부를 판단하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거장치에서, 상기 음성신호 제거부는, 상기 주음원을 푸리에 변환하여, 상기 주음원의 특징을 추출하는 주음원 특징 추출부, 상기 다채널 신호를 푸리에 변환(Fourier Transform, FT)하여 주파수 스펙트럼으로 변환시키는 음향신호 변환부 및 상기 주음원의 특징을 이용하여 상기 다채널 신호의 주파수 스펙트럼에서 상기 주음원을 제거하는 주음원 제거부를 더 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성신호 제거장치에서, 상기 주음원 제거부는, 각각의 마이크로폰으로 입력된 신호와 상기 주음원을 교차상관(cross correlation)하여 상관성을 산출하고, 상기 상관성을 기준으로 각각의 마이크로폰으로 입력된 신호에서 상기 주음원을 제거하는 정도를 결정하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따르면, 마이크로폰 어레이를 이용하여 오디오 신호를 녹음하는 과정에서 취득되는 음성신호를 자동적으로 제거할 수 있다는 이점이 있다.

또한, 본 발명의 일 실시 예에 따르면, 오디오 신호에 포함된 음성신호를 보다 정확하게 제거할 수 있다는 이점이 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급된 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시 예에 따른 음성신호 제거방법의 순서도이다.
도 2는 본 발명의 일 실시 예에 따른 음성신호 제거단계의 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 음성신호 제거장치의 블록도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "~부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 소자를 사이에 두고"연결되어 있는 경우도 포함한다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시 예에 따른 음성신호 제거방법의 순서도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 음성신호 제거방법은 전처리 단계(S100), 음원 방향 추적단계(S200), 음성신호 판단단계(S300) 및 음성신호 제거단계(S400)를 포함할 수 있다.

상기 전처리 단계(S100)에서는 전처리부(200)가 마이크로폰 어레이(100)로부터 다채널 신호를 수신하고, 상기 다채널 신호를 복수의 프레임으로 분할하며, 상기 프레임 중 적어도 어느 하나를 대상으로 빔포밍(Beamforming)을 수행한다.

실시 예에 따라, 상기 전처리 단계(S100)는 상기 복수의 프레임의 평균을 대상으로 빔포밍을 수행하는 것을 특징으로 할 수 있다.

즉, 전처리 단계(S100)에서 전처리부(200)는 분할된 복수의 프레임 중 하나의 프레임을 대상으로 빔포밍을 수행할 수 있으며, 복수 개의 프레임 중에서 둘 이상의 프레임을 평균화한 결과 값을 대상으로 빔포밍을 수행할 수 있을 것이다.

상기 음원 방향 추적단계(S200)에서는 음원방향추적기(300)가 상기 빔포밍 결과를 이용하여 출력 레벨이 최대인 주음원의 방향을 추적한다.

이때, 빔포밍 결과는 다채널 신호에 포함된 복수 개의 음원들 중 출력 레벨이 최대인 주음원에 대한 영향을 가장 많이 받은 것이므로, 상기 빔포밍 결과를 분석할 경우 출력 레벨이 최대인 주음원에 대한 대략적인 방향을 알 수 있을 것이다.

실시 예에 따라, 복수 개의 프레임의 평균을 이용하여 도출된 빔포밍 결과를 사용할 경우, 보다 정확한 주음원의 방향을 추적할 수 있을 것이다.

실시 예에 따라, 상기 음원방향 추적단계는 기 학습된 딥러닝 모델을 이용하여 상기 빔포밍 결과로부터 상기 주음원의 방향을 추적하는 것을 특징으로 할 수 있다.

상기 기 학습된 딥러닝 모델이란 빔포밍 결과를 입력 데이터로, 출력 레벨이 최대인 주음원의 방향을 결과 데이터로 하여 학습된 딥러닝 알고리즘으로 구현될 수 있다. 예를 들어, 복수의 음원에 대한 정보를 갖는 빔포밍 지도를 입력 데이터로, 빔포밍 지도로부터 추론된 복수의 음원들의 위치, 출력 레벨 또는 방향 등의 음장정보가 포함된 음원지도를 결과 데이터로 하여 기 학습된 딥러닝 모델 등이 적용될 수 있을 것이다.

상기 음성신호 판단단계(S300)에서는 빔포밍 결과와 주음원의 방향을 이용하여 다채널 신호에서 주음원을 추출하고, 상기 주음원이 음성신호인지 여부를 판단한다.

주음원이 음성신호인지 여부를 판단하기 위해 사용되는 주요 파라미터의 예로는 음향에너지의 크기와 영교차율 및 연속성 등이 포함될 수 있다.

예를 들어, 주음원이 가진 에너지가 기준치보다 작거나 영교차율이 기준치보다 크면 음성신호가 아니고, 주음원이 가진 에너지가 기준치보다 크거나 영교차율이 기준치보다 작으면 음성신호인 것으로 판단한다.

실시 예에 따라, 상기 음성신호 판단단계(S300)는 기 학습된 딥러닝 모델을 이용하여 상기 주음원이 음성인지 여부를 판단하는 것을 특징으로 할 수 있다.

예를 들어, 음성인 신호와 음성이 아닌 신호를 데이터로 사용하여 음성신호가 갖는 특징들을 학습시키고, 이로부터 추출한 특징들을 파라미터로 하여 입력되는 데이터들이 음성신호인지 여부를 판단하는 딥러닝 모델 등이 적용될 수 있을 것이다.

상기 음성신호 제거단계(S400)에서는 주음원이 음성신호에 해당하는 경우, 음성신호제거부가 다채널 신호에서 주음원을 제거한다. 이때, 음성신호에 해당하는 것으로 판단된 주음원은 마이크로폰 어레이(100)의 채널 별로 수신되는 신호들 각각에서 제거됨이 바람직할 것이다.

다채널 신호에서 주음원을 제거하는 상세한 과정에 관하여는 이하, 도 2를 참고하여 상세히 설명하기로 한다.

본 발명의 일 실시 예에 따른 음성신호 제거방법은, 상기 음향신호에 포함된 모든 음성신호가 제거될 때까지 상기 음원 방향 추적단계(S200) 내지 상기 음성신호 제거단계(S400)를 반복하는 것을 특징으로 할 수 있다.

예를 들어, 음원 방향 추적단계(S200)와 음성신호 판단단계(S300)를 통해 주음원이 음성신호인지 여부를 판단하여 주음원이 음성신호인 경우 이를 표시하여 두고, 다채널 신호에서 주음원을 제거하는 과정을 다채널 신호에 포함된 모든 음원이 제거될 때까지 반복한 다음, 음성신호에 해당하는 것으로 표시된 주음원들을 다채널 신호에서 제거함으로써 다채널 신호에 포함된 복수의 음성신호를 제거할 수 있을 것이다.

도 2는 본 발명의 일 실시 예에 따른 음성신호 제거단계(S400)의 순서도이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 음성신호 제거단계(S400)는 주음원 특징 추출단계(S410), 음향신호 변환단계(S420) 및 주음원 제거단계(S430)를 더 포함할 수 있다.

상기 주음원 특징 추출단계(S410)에서는 주음원을 푸리에 변환하여, 상기 주음원의 특징을 추출한다. 이때, 추출되는 주음원의 특징으로는 주음원의 주파수 성분 등이 포함될 수 있다.

상기 음향신호 변환단계(S420)에서는 다채널 신호를 푸리에 변환(Fourier Transform, FT)하여 주파수 스펙트럼으로 변환시킨다.

상기 주음원 제거단계(S430)에서는 주음원의 특징을 이용하여 다채널 신호의 주파수 스펙트럼에서 주음원을 제거한다. 즉, 다채널 신호의 주파수 스펙트럼에서 상기 주음원의 주파수 성분을 제거한다.

본 발명에 따른 음성신호 제거단계(S400)에서는 시간영역뿐만 아니라 주파수 영역을 함께 고려함으로써 다채널 신호에 포함된 음성신호를 보다 정확하게 제거할 수 있다.

실시 예에 따라, 상기 주음원 제거단계(S430)는 각각의 마이크로폰으로 입력된 신호와 주음원을 교차상관(cross correlation)하여 상관성을 산출하고, 상기 상관성을 기준으로 각각의 마이크로폰으로 입력된 신호에서 상기 주음원을 제거하는 정도를 결정하는 것을 특징으로 할 수 있다.

예를 들어, 제1 및 제2 마이크로폰으로 구성된 마이크로폰 어레이(100)로 입력된 다채널 신호에 있어서, 제1 마이크로폰으로 입력된 신호와 주음원 간의 상관성이 제2 마이크로폰으로 입력된 신호와 주음원 간의 상관성에 비해 큰 경우 제1 마이크로폰으로 입력된 신호에서는 주음원의 제거정도를 90%로 설정하고, 제2 마이크로폰으로 입력된 신호에서는 주음원의 제거정도를 50% 미만으로 설정할 수 있을 것이다.

즉, 마이크로폰으로 입력된 신호와 주음원 간의 상관성이 클수록 제거 정도를 크게 설정함이 바람직하다. 주음원과의 상관성이 적은 마이크로폰 신호에서는 주음원에 해당하는 주파수 성분의 제거 정도를 낮게 하여도 다채널 신호 전체에서의 음성신호 제거 성능에 크게 영향을 미치지 않을 것이므로, 상관성을 기준으로 제거 정도를 달리 설정함으로써, 처리 속도를 빠르게 하여 효율성을 증가시키기 위함이다.

일반적인 교차상관(Normalized Cross Correlation)에서 사용되는 수식은 하기의 [수학식 1]과 같다.

여기서,

는 추출된 주음원 신호이고,

는 제1 마이크로폰 신호이다.

본 발명에 따른 교차상관에서 사용되는 수식은 하기의 [수학식 2]와 같다.

여기서,

는 시간,

는 주파수이고,

는 추출된 주음원 신호의 스펙트로그램(spectrogram)이고,

는 제1 마이크로폰 신호의 스펙트로그램이다.

는 교차상관 함수이다.

본 발명에 따른 교차상관 함수에서 입력값은 일반적인 교차상관 수식에서의 max값(i.e.

)과

값을, 출력값은 0과 1 사이의 값을 갖는다. 또한, 교차상관 함수의 출력값은 입력값인 max 값과

값이 클수록 작아진다.

즉, 상관성(correlation)이 크고, 추출된 신호의 크기가 큰 경우에는 0과 가까운 값이 곱해지므로 제1 마이크로폰 신호에서 추출된 주음원의 제거 정도가 크게 되고, 반대로 상관성이 작고, 추출된 신호의 크기가 작은 경우에는 1과 가까운 값이 곱해지므로 제1 마이크로폰 신호에서 추출된 주음원의 제거 정도가 작게 된다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

도 3은 본 발명의 일 실시 예에 따른 음성신호 제거장치의 블록도이다.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 음성신호 제거장치는 복수의 마이크로폰이 배치된 마이크로폰 어레이(100), 상기 마이크로폰 어레이(100)로부터 다채널 신호를 수신하고, 상기 다채널 신호를 복수의 프레임으로 분할하며, 상기 프레임 중 적어도 어느 하나를 대상으로 빔포밍을 수행하는 전처리부(200), 상기 빔포밍 결과를 이용하여 출력 레벨이 최대인 주음원의 방향을 추적하는 음원방향추적기(300), 상기 빔포밍 결과와 상기 방향을 이용하여 상기 주음원을 추출하고, 상기 주음원이 음성신호인지 여부를 판단하는 제어부(400) 및 상기 주음원이 음성신호에 해당하는 경우, 상기 다채널 신호에서 상기 주음원을 제거하는 음성신호 제거부(500)를 포함할 수 있다.

실시 예에 따라, 상기 전처리부(200)는 상기 복수의 프레임의 평균을 대상으로 빔포밍을 수행하는 것을 특징으로 할 수 있다.

실시 예에 따라, 상기 음원방향추적기(300)는 기 학습된 딥러닝 모델을 이용하여 상기 빔포밍 결과로부터 상기 주음원의 방향을 추적하는 것을 특징으로 할 수 있다.

실시 예에 따라, 상기 제어부(400)는 기 학습된 딥러닝 모델을 이용하여 상기 주음원이 음성인지 여부를 판단하는 것을 특징으로 할 수 있다.

실시 예에 따라, 상기 음성신호 제거부(500)는 상기 주음원을 푸리에 변환하여, 상기 주음원의 특징을 추출하는 주음원 특징 추출부(510), 상기 다채널 신호를 푸리에 변환(Fourier Transform, FT)하여 주파수 스펙트럼으로 변환시키는 음향신호 변환부(520) 및 상기 주음원의 특징을 이용하여 상기 다채널 신호의 주파수 스펙트럼에서 상기 주음원을 제거하는 주음원 제거부(530)를 더 포함할 수 있다.

실시 예에 따라, 상기 주음원 제거부(530)는 각각의 마이크로폰으로 입력된 신호와 상기 주음원을 교차상관(cross correlation)하여 상관성을 산출하고, 상기 상관성을 기준으로 각각의 마이크로폰으로 입력된 신호에서 상기 주음원을 제거하는 정도를 결정하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 장치와 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 장치와 관련하여서는 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며, 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1: 마이크로폰 어레이를 이용한 음성신호 제거장치
100: 마이크로폰 어레이
200: 전처리부
300: 음원방향추적기
400: 제어부
500: 음성신호 제거부
510: 주음원 특징 추출부
520: 음향신호 변환부
530: 주음원 제거부

Claims

마이크로폰 어레이를 이용한 음성신호 제거방법에 있어서,
전처리부가 제1 및 제2 마이크로폰을 포함하는 마이크로폰 어레이로부터 다채널 신호를 수신하고, 상기 다채널 신호를 복수의 프레임으로 분할하며, 상기 프레임 중 적어도 어느 하나를 대상으로 빔포밍을 수행하는 전처리 단계;
음원방향추적기가 상기 빔포밍 결과를 이용하여 출력 레벨이 최대인 주음원의 방향을 추적하는 음원 방향 추적단계;
제어부가 상기 빔포밍 결과와 상기 방향을 이용하여 상기 주음원을 추출하고, 상기 주음원이 음성신호인지 여부를 판단하는 음성신호 판단단계; 및
상기 주음원이 음성신호에 해당하는 경우, 음성신호제거부가 상기 다채널 신호에서 상기 주음원을 제거하는 음성신호 제거단계를 포함하고,
상기 음성신호 제거단계는,
상기 주음원을 푸리에 변환(Fourier Transform, FT)하여, 상기 주음원의 특징을 추출하는 주음원 특징 추출단계;
상기 다채널 신호를 푸리에 변환하여 주파수 스펙트럼으로 변환시키는 음향신호 변환단계; 및
상기 주음원의 특징을 이용하여 상기 다채널 신호의 주파수 스펙트럼에서 상기 주음원을 제거하는 주음원 제거단계를 포함하고,
상기 주음원 제거단계는,
상기 마이크로폰 어레이로 입력된 신호와 상기 주음원을 교차상관(cross correlation)하여 상관성을 산출하고, 상기 상관성을 기준으로 각각의 마이크로폰으로 입력된 신호에서 상기 주음원을 제거하는 정도를 결정하되, 상기 제1 마이크로폰으로 입력된 신호와 주음원 간의 상관성이 상기 제2 마이크로폰으로 입력된 신호와 주음원 간의 상관성에 비해 큰 경우, 상기 제1 마이크로폰으로 입력된 신호에서 주음원의 제거정도를 상기 제2 마이크로폰으로 입력된 신호에서 주음원 제거정도 보다 크게 설정하는 것인, 음성신호 제거방법.
제 1 항에 있어서,
상기 전처리 단계는,
상기 복수의 프레임의 평균을 대상으로 빔포밍을 수행하는 것을 특징으로 하는 음성신호 제거방법.
제 1 항에 있어서,
상기 음원방향 추적단계는,
기 학습된 딥러닝 모델을 이용하여 상기 빔포밍 결과로부터 상기 주음원의 방향을 추적하는 것을 특징으로 하는 음성신호 제거방법.
제 1 항에 있어서,
상기 음성신호 판단단계는,
기 학습된 딥러닝 모델을 이용하여 상기 주음원이 음성인지 여부를 판단하는 것을 특징으로 하는 음성신호 제거방법.
삭제
삭제
제 1 항에 있어서,
상기 다채널 신호에 포함된 모든 음성신호가 제거될 때까지 상기 음원 방향 추적단계 내지 상기 음성신호 제거단계를 반복하는 것을 특징으로 하는 음성신호 제거방법.
제 1 항 내지 제 4 항, 제 7 항 중, 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
마이크로폰 어레이를 이용한 음성신호 제거장치에 있어서,
제1 및 제2 마이크로폰이 배치된 마이크로폰 어레이;
상기 마이크로폰 어레이로부터 다채널 신호를 수신하고, 상기 다채널 신호를 복수의 프레임으로 분할하며, 상기 프레임 중 적어도 어느 하나를 대상으로 빔포밍을 수행하는 전처리부;
상기 빔포밍 결과를 이용하여 출력 레벨이 최대인 주음원의 방향을 추적하는 음원방향추적기;
상기 빔포밍 결과와 상기 방향을 이용하여 상기 주음원을 추출하고, 상기 주음원이 음성신호인지 여부를 판단하는 제어부; 및
상기 주음원이 음성신호에 해당하는 경우, 상기 다채널 신호에서 상기 주음원을 제거하는 음성신호 제거부를 포함하고,
상기 음성신호 제거부는,
상기 주음원을 푸리에 변환(Fourier Transform, FT)하여, 상기 주음원의 특징을 추출하는 주음원 특징 추출부;
상기 다채널 신호를 푸리에 변환하여 주파수 스펙트럼으로 변환시키는 음향신호 변환부; 및
상기 주음원의 특징을 이용하여 상기 다채널 신호의 주파수 스펙트럼에서 상기 주음원을 제거하는 주음원 제거부를 포함하고,
상기 주음원 제거부는,
각각의 마이크로폰으로 입력된 신호와 상기 주음원을 교차상관(cross correlation)하여 상관성을 산출하고, 상기 상관성을 기준으로 각각의 마이크로폰으로 입력된 신호에서 상기 주음원을 제거하는 정도를 결정하되, 상기 제1 마이크로폰으로 입력된 신호와 주음원 간의 상관성이 상기 제2 마이크로폰으로 입력된 신호와 주음원 간의 상관성에 비해 큰 경우, 상기 제1 마이크로폰으로 입력된 신호에서 주음원의 제거정도를 상기 제2 마이크로폰으로 입력된 신호에서 주음원 제거정도 보다 크게 설정하는 것인, 음성신호 제거장치.
제 9 항에 있어서,
상기 전처리부는,
상기 복수의 프레임의 평균을 대상으로 빔포밍을 수행하는 것을 특징으로 하는 음성신호 제거장치.
제 9 항에 있어서,
상기 음원방향추적기는,
기 학습된 딥러닝 모델을 이용하여 상기 빔포밍 결과로부터 상기 주음원의 방향을 추적하는 것을 특징으로 하는 음성신호 제거장치.
제 9 항에 있어서,
상기 제어부는,
기 학습된 딥러닝 모델을 이용하여 상기 주음원이 음성인지 여부를 판단하는 것을 특징으로 하는 음성신호 제거장치.
삭제
삭제