KR102218151B1

KR102218151B1 - 음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법

Info

Publication number: KR102218151B1
Application number: KR1020190083248A
Authority: KR
Inventors: 조정권; 지원섭; 홍표제
Original assignee: 주식회사 위스타
Priority date: 2019-05-30
Filing date: 2019-07-10
Publication date: 2021-02-23
Also published as: KR20200137900A

Abstract

본 명세서는 음성 구간을 정확히 검출하면서도 잡음을 제거한 뒤 음성의 스펙트럼을 최대한 변형시키지 않아서 음성 인식률을 향상시킬 수 있는 장치 및 방법을 개시한다. 본 명세서에 따른 타겟 음성 신호 출력 장치 및 방법은 스펙트럼 차감법을 사용하지 않아서 사람의 음성 스펙트럼 변형이 거의 없는 제1 잡음 제거 모듈과 스펙트럼 차감법을 사용하여 제1 잡음 제거 모듈에 비해 잡음이 더 많이 제거된 제2 잡음 제거 모듈을 포함할 수 있다. 음성 구간 검출 모듈은 잡음이 상대적으로 많이 제거된 제2 잡은 제거 모듈에서 출력된 신호를 이용하여 음성 구간을 판단할 수 있다. 그리고 타겟 신호 출력 모듈은 제1 잡음 제거 모듈에서 출력된 신호 중 상기 음성 구간 검출 모듈에서 판단된 음성 구간만 출력하여 음성이 거의 변형되지 않으면서도 음성 구간만 정확하게 출력할 수 있다.

Description

음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법{TARGET VOICE SIGNAL OUTPUT APPARATUS FOR IMPROVING VOICE RECOGNITION AND METHOD THEREOF}

본 발명은 음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법에 관한 것이며, 보다 상세하게는 소음을 제거하고 사람의 음성 인식률을 향상시킬 수 있는 장치 및 방법에 관한 것이다.

최근 GPU(Graphics Processing Unit)의 기술 발전과 함께 발전된 기술이 AI(Artificial Intelligence)이다. AI 기술에는 다양한 분야가 있지만, 최근 가장 관심을 많이 받은 분야는 머신 러닝(Machine learning)이며, 머신 러닝 기술을 활용한 음성 인식 기술은 상용화 단계까지 이르렀다.

이러한 음성 인식 기술이 적용된 AI 스피커 또는 로봇에서 사람의 음성을 분석하는 기술 자체는 상당히 정확하지만, 주변 소음으로 인해 음성 인식률이 낮아지는 문제가 있다. 주변 소음을 저감 시키는 다양한 기술들이 이미 존재하지만, 소음 저감 과정에서 음성 신호의 변형이 발생하고 이로 인하여 음성의 인식률이 낮아지는 단점이 있다.

보다 구체적으로, 2대의 마이크로폰을 통해 주변 소음을 저감시키고 사람의 음성만을 추출하는 과정에서 신호의 스펙트럼 차감법을 널리 사용한다. 이때, 소음의 스펙트럼이 차감되는 효과와 동시에 음성의 스펙트럼도 약간이지만 함께 차감되기 때문에 음성의 일부가 깨지고, 이로 인해 음성 인식 프로그램에서 정확한 음성을 판별하기 어렵다.

대한민국 공개특허공보 제10-2015-0096090호

본 명세서는 음성 구간을 정확히 검출하면서도 잡음을 제거한 뒤 음성의 스펙트럼을 최대한 변형시키지 않아서 음성 인식률을 향상시킬 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다.

본 명세서는 상기 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 명세서에 따른 타겟 음성 신호 출력 장치는, 제1 마이크로폰으로부터 출력된 메인 신호에서 제2 마이크로폰으로부터 출력된 서브 신호를 제거한 신호를 출력하는 제1 잡음 제거 모듈; 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱한 신호를 출력하는 제2 잡음 제거 모듈; 상기 제2 잡음 제거 모듈에서 출력된 신호에서 음성 시작점과 음성 종료점을 판단하는 음성 구간 검출 모듈; 및 상기 제1 잡음 제거 모듈에서 출력된 신호 중 상기 음성 구간 검출 모듈에서 판단된 음성 시작점부터 음성 종료점까지의 구간에 해당하는 신호를 출력하는 타겟 신호 출력 모듈;을 포함할 수 있다.

본 명세서의 일 실시예에 따르면, 상기 제2 잡음 제거 모듈은 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 MMSE 또는 MMSE-LSA의 스펙트럼 차감법을 이용하여 게인값을 곱한 신호를 출력할 수 있다.

상기 음성 구간 검출 모듈은 다양한 방식으로 구현이 가능하다.

제1 실시예에 따르면 상기 음성 구간 검출 모듈은, 신호의 진폭이 미리 설정된 파워 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 파워 기준값 이하인 지점을 음성 종료점으로 판단할 수 있다.

제2 실시예에 따르면, 상기 음성 구간 검출 모듈은 신호의 주파수가 미리 설정된 굴곡도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 굴곡도 기준값 이하인 지점을 음성 종료점으로 판단할 수 있다.

제3 실시예에 따르면, 상기 음성 구간 검출 모듈은 신호의 주파수가 미리 설정된 편평도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 편평도 기준값 이하인 지점을 음성 종료점으로 판단할 수 있다.

본 명세서의 다른 실시예에 따르면, 상기 제1 잡음 제거 모듈은, 상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거하는 에코 제거 모듈;을 더 포함할 수 있다.

본 명세서의 다른 실시예에 따르면, 상기 제2 잡음 제거 모듈은, 상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거하는 에코 제거 모듈; 및 상기 에코 제거 모듈에서 출력된 신호에서 잔여 에코를 제거하는 잔여 에코 제거 모듈;을 더 포함할 수 있다.

상술한 과제를 해결하기 위한 본 명세서에 따른 타겟 음성 신호 출력 방법은 제1 마이크로폰으로부터 출력된 메인 신호에서 제2 마이크로폰으로부터 출력된 서브 신호를 제거한 신호를 출력하는 제1 잡음 제거 단계; 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱한 신호를 출력하는 제2 잡음 제거 단계; 상기 제2 잡음 제거 모듈에서 출력된 신호에서 음성 시작점과 음성 종료점을 판단하는 음성 구간 검출 단계; 및 상기 제1 잡음 제거 모듈에서 출력된 신호 중 상기 음성 구간 검출 모듈에서 판단된 음성 시작점부터 음성 종료점까지의 구간에 해당하는 신호를 출력하는 타겟 신호 출력 단계;을 포함할 수 있다.

본 명세서에 따른 타겟 음성 신호 출력 방법은 컴퓨터에서 각 단계들을 수행하도록 작성되어 컴퓨터로 독출 가능한 기록 매체에 기록된 컴퓨터프로그램의 형태로 구현될 수 있다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 명세서의 일 측면에 따르면, 음성 구간을 정확히 검출하기 때문에 음성 외 구간 신호로 인한 오류의 발생 확률이 낮아질 수 있다.

본 명세서의 다른 측면에 따르면, 잡음을 제거하면서도 음성의 스펙트럼의 최대한 변형시키지 않으므로 음성 인식 프로그램에서 정확한 음성으로 분석할 확률이 상당히 상승할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 장치의 개략적인 블럭도이다.
도 2는 본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 장치의 개략적인 블럭도이다.
도 3은 본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 방법에 대한 개략적인 흐름도이다.
도 4는 본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 방법에 대한 개략적인 흐름도이다.
도 5는 본 명세서의 또 다른 실시예에 따른 타겟 음성 신호 출력 장치의 구성을 개략적으로 도시한 블럭도이다.
도 6은 본 명세서의 또 다른 실시예에 따른 타겟 음성 신호 출력 방법의 흐름도이다.
도 7은 예시적인 신호의 파형 참고도이다.

본 명세서에 개시된 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 명세서가 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 명세서의 개시가 완전하도록 하고, 본 명세서가 속하는 기술 분야의 통상의 기술자(이하 '당업자')에게 본 명세서의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 명세서의 권리 범위는 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 명세서의 권리 범위를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 명세서가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 장치의 개략적인 블럭도이다.

도 1을 참조하면, 본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 장치(100)는 제1 잡음 제거 모듈(110), 제2 잡음 제거 모듈(120), 음성 구간 검출 모듈(130) 및 타겟 신호 출력 모듈(140)을 포함할 수 있다.

본 명세서에 따른 타겟 음성 신호 출력 장치(100)는 적어도 2개의 마이크로폰으로부터 출력된 신호를 입력 신호로서 수신할 수 있다. 상기 적어도 2개의 마이크로폰은 본 명세서에서 제1 마이크로폰 및 제2 마이크로폰으로 명명하겠다. 상기 제1 마이크로폰은 메인 마이크로폰으로서 상기 제2 마이크로폰에 비해 상대적으로 사람의 입에 가깝게 위치될 수 있다. 상기 제2 마이크로폰은 서브 마이크로폰으로서 상기 제1 마이크로폰에 비해 상대적으로 사람의 입에서 먼 쪽에 위치될 수 있다. 본 명세서에서는 상기 제1 마이크로폰에서 출력된 신호를 '메인 신호(Mic 1)', 상기 제2 마이크로폰에서 출력된 신호를 '서브 신호(Mic 2)'라고 명명하겠다.

상기 제1 잡음 제거 모듈(110)은 제1 마이크로폰으로부터 출력된 메인 신호(Mic 1)에서 제2 마이크로폰으로부터 출력된 서브 신호(Mic 2)를 선형적(linear)으로 제거할 수 있다. 이를 통해, 상기 제1 잡음 제거 모듈(110)은 사람의 음성에서 주변 소음이 제거된 신호가 출력할 수 있다.

일 실시예에 따르면, 상기 제1 잡음 제거 모듈(110)은 디지털 적응필터(Adaptive Digital Filter)를 사용하여 상기 메인 신호(Mic 1)에서 상기 서브 신호(Mic 2)를 제거할 수 있다. 상기 디지털 적응필터(ADF)의 구성 및 작동원리에 대해서는 당업자에게 알려져 있으므로 상세한 설명은 생략하겠다.

상기 제1 잡음 제거 모듈(110)은 상기 메인 신호(Mic 1)에서 상기 서브 신호(Mic 2)가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱하니 신호를 출력할 수 있다. 상기 제2 잡음 제거 모듈(120)에서 출력된 신호는 스펙트럼 차감법을 사용하기 때문에, 상기 제1 잡음 제거 모듈(110)에서 출력된 신호에 비해서 잡음이 상대적으로 더 많이 제거될 수 있다. 그래서 상기 제2 잡음 제거 모듈(120)에서 출력된 신호는 음성 구간인지 잡음 구간인지 보다 판단하기 용이한 신호 특성을 가질 수 있다.

본 명세서의 일 실시예에 따르면, 상기 제2 잡음 제거 모듈(120)은 상기 메인 신호(Mic 1)에서 상기 서브 신호(Mic 2)가 제거된 신호에 MMSE 또는 MMSE-LSA(Minimum Mean Square Error short time Log Spectral Amplitude)의 스펙트럼 차감법을 이용하여 게인값을 곱한 신호를 출력할 수 있다. 상기 게인값은 0~1의 값을 가질 수 있다. 상기 제2 잡음 제거 모듈(120) 역시 디지털 적응필터(ADF)를 포함할 수 있다.

상기 음성 구간 검출 모듈(130)은 상기 제2 잡음 제거 모듈(120)에서 출력된 신호에서 음성 시작점과 음성 종료점을 판단할 수 있다. 상기 음성 구간 검출 모듈(130)에서 판단된 음성 시작점에 대한 정보와 음성 종료점에 대한 정보는 상기 타겟 신호 출력 모듈(140)에게 출력될 수 있다.

상기 타겟 신호 출력 모듈(140)은 상기 제1 잡음 제거 모듈(110)에서 출력된 신호 중 상기 음성 구간 검출 모듈에서 판단된 음성 시작점부터 음성 종료점까지의 구간에 해당하는 신호를 출력할 수 있다. 즉, 상기 타겟 신호 출력 모듈(140)은 제1 잡음 제거 모듈(110)에서 출력된 신호에서 음성 이외 구간을 제외시키고 음성에 해당하는 구간만 출력할 수 있다. 상기 타겟 신호 출력 모듈(140)이 출력하는 신호(Target voice)는 음성 인식 장치로 출력되어 사람의 음성 명령을 판단하는데 사용될 수 있다.

도 7은 예시적인 신호의 파형 참고도이다.

도 7의 (a)는 제1 마이크로폰으로부터 출력된 메인 신호(Mic 1)의 예시적 파형이다. 도 7의 (a)에 도시된 신호의 파형에는 사람의 음성 외에도 주변 환경에서 발생하는 잡음이 함께 포함된 것을 확인할 수 있다.

도 7의 (b)는 제1 잡음 제거 모듈(110)에서 출력된 신호의 예시적 파형이다. 도 7의 (b)에 도시된 신호의 파형은, 도 7의 (a)에 도시된 신호의 파형에 비해, 잡음이 상대적으로 많이 제거된 것을 확인할 수 있다. 그러나 제1 잡음 제거 모듈(110)에서 출력된 신호는 아직 약간의 잡음이 남아 있어서 음성 구간을 정확하게 판단하기 어려울 수 있다.

도 7의 (c)는 제2 잡음 제거 모듈(120)에서 출력된 신호의 예시적 파형이다. 도 7의 (c)에 도시된 신호의 파형은, 도 7의 (b)에 도시된 신호의 파형에 비해, 음성 구간 외 영역 즉, 잡음 구간의 에너지 스펙트럼이 상대적으로 많이 줄어든 것을 확인할 수 있다. 그러므로 상기 음성 구간 검출 모듈(130)은 상기 제2 잡음 제거 모듈(120)에서 출력된 신호에서 음성 시작점과 음성 종료점을 용이하게 판단할 수 있다. 다만, 도 7의 (b)에 도시된 신호의 파형과 도 7의 (c)에 도시된 신호의 파형에서 음성 구간만 비교하면, 도 7의 (c)에 도시된 음성 구간 신호의 파형에 약간의 변화가 발생한 것을 함께 확인할 수 있다.

한편, 상기 음성 구간 검출 모듈(130)은 다양한 방법으로 음성 시작점과 음성 종료점을 판단할 수 있다.

제1 실시예에 따르면, 상기 음성 구간 검출 모듈(130)은 신호의 진폭이 미리 설정된 파워 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 파워 기준값 이하인 지점을 음성 종료점으로 판단할 수 있다. 즉, 음성에 해당하는 신호의 파워값이 다른 구간에 비해 크다는 것에 착안한 판단 방법이다.

제2 실시예에 따르면, 상기 음성 구간 검출 모듈(130)은 신호의 주파수가 미리 설정된 굴곡도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 굴곡도 기준값 이하인 지점을 음성 종료점으로 판단할 수 있다. 음성의 모음은 주파수 성분의 변화량이 크다는 점에 착안하여 주파수의 굴곡도 다른 구간에 비해 큰 지점을 음성 구간으로 판단하는 방법이다.

보다 상세하게, 상기 음성 구간 검출 모듈(130)은 아래 수학식 1을 통해 주파수의 굴곡도를 산출할 수 있다.

상기 수학식 1에서

는 k 번째 주파수,

는 i번째 프레임에서 k번째 주파수 성분, N은 주파수 굴곡도를 계산하는 주파수 성분의 상한값이다. 상기 미리 설정된 굴곡도 기준값은 실험을 통해서 적정값으로 결정될 수 있다.

제3 실시예에 따르면, 상기 음성 구간 검출 모듈(130)은 신호의 주파수가 미리 설정된 편평도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 편평도 기준값 이하인 지점을 음성 종료점으로 판단할 수 있다. 마찬가지로, 음성의 모음은 주파수 성분의 변화량이 크다는 점에 착안하여 주파수의 편평도가 다른 구간에 비해 작은 지점을 음성 구간으로 판단하는 방법이다.

보다 상세하게, 상기 음성 구간 검출 모듈(130)은 아래 수학식 2를 통해 주파수의 편평도를 산출할 수 있다.

입력신호

의 파워 스펙트럼

는 아래 수학식 3과 같이 계산될 수 있다.

상기 수학식 2 및 3에서

는 k 번째 주파수,

는 i번째 프레임에서 k번째 주파수 성분, M은 주파수 편평도를 계산하는데 사용하는 프레임의 개수이다. 상기 미리 설정된 편평도 기준값은 실험을 통해서 적정값으로 결정될 수 있다.

도 2는 본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 장치의 개략적인 블럭도이다.

도 2를 참조하면, 본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 장치(100')는 앞서 설명된 도 1과 비교하여 에코 신호(Ref)가 더 입력되고 있는 것을 확인할 수 있다. 상기 에코 신호(Ref)는 사람의 주변 스피커에서 출력된 음향에 대한 신호를 의미한다. 상기 메인 신호(Mic 1)와 서브 신호(Mic 2)를 이용하여 잡음을 제거할 수 있지만, 사람의 주변 환경에서 다른 장치에 의해 출력된 음향 신호가 있다면 그 음향 신호 자체에 대한 원 신호를 하나의 입력 신호로 참조하여 상기 메인 신호(Mic 1) 및 서브 신호(Mic 2)에 제거할 수 있다.

이 경우, 상기 제1 잡음 제거 모듈(110)은 상기 메인 신호(Mic 1) 및 상기 서브 신호(Mic 2)에서 에코 신호(Ref)를 제거하는 에코 제거 모듈(111, Acoustic Echo Canceller, AEC)를 더 포함할 수 있다.

또한, 상기 제2 잡음 제거 모듈(120)은 상기 메인 신호(Mic 1) 및 상기 서브 신호(Mic 2)에서 에코 신호(Ref)를 제거하는 에코 제거 모듈(121, AEC) 및 상기 에코 제거 모듈(121)에서 출력된 신호에서 잔여 에코를 제거하는 잔여 에코 제거 모듈(122, Residual Echo Suppressor, RES)를 더 포함할 수 있다. 상기 에코 제거 모듈(111, 121) 및 잔여 에코 제거 모듈(122)에 대한 구체적인 설명은 본 출원인의 공개특허 제10-2015-0096090호에 설명되어 있으므로, 상기 공개특허공보에 기재된 모든 내용을 본 명세서에서 원용할 수 있다.

이하에서는 상기 본 명세서에 따른 타겟 음성 신호 출력 장치(100)를 이용하여 타겟 음성 신호를 출력하는 방법에 대해서 설명하도록 하겠다. 다만, 본 명세서에 따른 타겟 음성 신호 출력 방법을 설명함에 있어서, 상술된 타겟 음성 신호 출력 장치(100)의 각 구성에 대한 설명은 중복되므로 생략하도록 하겠다.

도 3은 본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 방법에 대한 개략적인 흐름도이다.

도 3을 참조하면, 먼저 단계 S110에서 상기 제1 잡음 제거 모듈(110)은 제1 마이크로폰으로부터 출력된 메인 신호(Mic 1)에서 제2 마이크로폰으로부터 출력된 서브 신호(Mic 2)를 선형적으로 제거할 수 있다.

다음 단계 S120에서 상기 제2 잡음 제거 모듈(120)은 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱한 신호를 출력할 수 있다.

본 명세서의 일 실시예에 따르면, 상기 제2 잡음 제거 단계(S120)은 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 MMSE 또는 MMSE-LSA의 스펙트럼 차감법을 이용하여 게인값을 곱한 신호를 출력하는 단계일 수 있다.

다음 단계 S130에서 상기 음성 구간 검출 모듈(130)은 상기 제2 잡음 제거 모듈에서 출력된 신호에서 음성 시작점과 음성 종료점을 판단할 수 있다.

제1 실시예에 따르면, 상기 음성 구간 검출 단계(S130)은 신호의 진폭이 미리 설정된 파워 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 파워 기준값 이하인 지점을 음성 종료점으로 판단하는 단계일 수 있다.

제2 실시예에 따르면, 상기 음성 구간 검출 단계(S130)는 신호의 주파수가 미리 설정된 굴곡도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 굴곡도 기준값 이하인 지점을 음성 종료점으로 판단하는 단계일 수 있다.

제3 실시예에 따르면, 상기 음성 구간 검출 단계(S130)는 신호의 주파수가 미리 설정된 편평도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 편평도 기준값 이하인 지점을 음성 종료점으로 판단하는 단계일 수 있다.

본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 방법을 설명함에 있어서, 제1 잡음 제거 단계(S110) 다음에 제2 잡음 제거 단계(S120)이 실행되는 것을 설명하였으나, 상기 단계 S110과 S120은 그 실행 순서가 바뀔 수 있으면, 동시에 실행되는 것도 가능하다.

한편, 도 3에 도시된 본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 방법은 도 1에 도시된 본 명세서의 일 실시예에 따른 타겟 음성 신호 출력 장치(100)를 이용한 방법이다. 도 4에 도시된 본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 장치(100')를 이용한 방법에 대해서 더 설명하도록 하겠다.

도 4는 본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 방법에 대한 개략적인 흐름도이다.

도 4를 참조하면, 단계 S110 이전에 단계 S105가 추가된 것과 단계 S120 이전에 단계 S115가 추가된 것을 확인할 수 있다.

상기 단계 S105에서, 상기 에코 제거 모듈(111)는 상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거할 수 있다.

상기 단계 S115에서, 상기 에코 제거 모듈(121)는 상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거할 수 있고, 상기 잔여 에코 제거 모듈(122)는 상기 에코 제거 모듈(121)에서 출력된 신호에서 잔여 에코를 제거할 수 있다.

본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 방법을 설명함에 있어서, 제1 잡음 제거 단계(S110) 다음에 제2 잡음 제거 단계(S120)이 실행되는 것을 설명하였으나, 상기 단계 S110과 S120은 그 실행 순서가 바뀔 수 있으면, 동시에 실행되는 것도 가능하다. 다만, 단계 S110과 단계 S105는 그 순서가 유지되면, 단계 S120과 단계 S115 역시 그 순서가 유지된다.

한편, 본 명세서의 다른 실시예에 따른 타겟 음성 신호 출력 장치는 상기 제1 잡음 제거 모듈(110) 및 제2 잡음 제거 모듈(120)이 각각 에코 제거 모듈(111, 121)를 포함하고 있다. 따라서, 중복되는 에코 제거 모듈(111, 121)를 하나로 통합하여 구현하는 것을 고려할 수 있다.

도 5는 본 명세서의 또 다른 실시예에 따른 타겟 음성 신호 출력 장치의 구성을 개략적으로 도시한 블럭도이다.

도 5를 참조하면, 본 명세서의 또 다른 실시예에 따른 타겟 음성 신호 출력 장치(100')는 에코 제거 모듈(105), 제1 잡음 제거 모듈(110), 잔여 에코 제거 모듈(115), 제2 잡음 제거 모듈(120), 음성 구간 검출 모듈(130) 및 타겟 신호 출력 모듈(140)을 포함하고 있는 것을 확인할 수 있다.

상기 에코 제거 모듈(105)는 제1 마이크로폰으로부터 출력된 메인 신호(Mic 1) 및 제2 마이크로폰으로부터 출력된 서브 신호(Mic 2)에서 에코 신호(Ref)를 제거할 수 있다. 상기 에코 제거 모듈(105)는 에코 신호가 제거된 메인 신호(Mic 1')와 서브 신호(Mic 2')를 출력하고, 상기 에코 신호가 제거된 메인 신호(Mic 1')와 서브 신호(Mic 2')는 상기 제1 잡음 제거 모듈(110) 및 상기 잔여 에코 제기 모듈(115)에 입력될 수 있다.

상기 제1 잡음 제거 모듈(110)은 상기 에코 제거 모듈(105)에서 출력된 상기 메인 신호(Mic 1')에서 상기 서브 신호(MIC 2')를 선형적으로 제거할 수 있다.

상기 잔여 에코 제거 모듈(115)은 상기 에코 제거 모듈(105)에서 출력된 신호(Mic 1', MIC 2')에서 잔여 에코를 제거할 수 있다.

상기 제2 잡음 제거 모듈(120)은 상기 잔여 에코 제거 모듈(115)에서 출력된 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱한 신호를 출력할 수 있다.

상기 에코 제거 모듈(105), 잔여 에코 제거 모듈(115), 제1 잡음 제거 모듈(110), 제2 잡음 제거 모듈(120), 음성 구간 검출 모듈(130) 및 타겟 신호 출력 모듈(140)의 동작 원리에 대해서는 앞서 도 2에 도시된 실시예를 참조하며 설명하였으므로, 반복 설명은 생략한다.

도 6은 본 명세서의 또 다른 실시예에 따른 타겟 음성 신호 출력 방법의 흐름도이다.

도 6을 참조하면, 먼저 단계 S200에서 상기 에코 제거 모듈(105)은 제1 마이크로폰으로부터 출력된 메인 신호 및 제2 마이크로폰으로부터 출력된 서브 신호에서 에코 신호를 제거할 수 있다. 그리고 상기 에코 신호가 제거된 메인 신호(Mic 1')와 서브 신호(Mic 2')는 각각 상기 제1 잡음 제거 모듈(110) 및 상기 잔여 에코 제기 모듈(115)에 입력될 수 있다.

단계 S210에서 상기 제1 잡음 제거 모듈(110)은 상기 에코 신호가 제거된 상기 메인 신호에서 상기 서브 신호를 선형적으로 제거한 신호를 출력할 수 있다.

또한 단계 S220에서 상기 잔여 에코 제기 모듈(115)은 상기 에코 신호가 제거된 신호에서 잔여 에코를 제거할 수 있다. 그리고 단계 S221에서 상기 제2 잡음 제거 모듈(120)은 상기 잔여 에코가 제거된 상기 메인 신호에서 상기 잔여 에코가 제거된 서브 신호가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱한 신호를 출력할 수 있다. 그리고 단계 S222에서 상기 음성 구간 검출 모듈(130)은 상기 제2 잡음 제거 모듈에서 출력된 신호에서 음성 시작점과 음성 종료점을 판단할 수 있다.

다음 단계 S230에서 상기 타겟 신호 출력 모듈(140)은 상기 제1 잡음 제거 모듈에서 출력된 신호 중 상기 음성 구간 검출 모듈에서 판단된 음성 시작점부터 음성 종료점까지의 구간에 해당하는 신호를 출력할 수 있다.

상기 에코 제거 단계, 잔여 에코 제거 단계, 제1 잡음 제거 단계, 제2 잡음 제거 단계, 음성 구간 검출 단계 및 타겟 신호 출력 단계의 동작 원리에 대해서는 앞서 도 4에 도시된 실시예를 참조하며 설명하였으므로, 반복 설명은 생략한다.

한편, 본 명세서에 따른 타겟 음성 신호 출력 장치(100, 100', 100'')를 대해서 설명함에 있어서 각각의 기능들을 수행하는 모듈로 설명하였으나, 상기 모듈들이 반드시 물리적으로 분리된 구성을 의미하는 것은 아니다. 상기 모듈들은 본 명세서에서 설명된 알고리즘을 실행하기 위해 본 발명이 속한 기술분야에 알려진 프로세서, ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로, 레지스터, 통신 모뎀, 데이터 처리 장치 등을 포함할 수 있다. 이때, 상기 모듈들이 물리적으로 연결된 하나의 장치에 포함될 수 있으며, 일부 모듈들은 따로 분리된 형태로 구현될 수 있다.

나아가, 본 명세서에 따른 타겟 음성 신호 출력 방법은 상술한 방법이 소프트웨어로 구현될 때, 상기 타겟 음성 신호 출력 장치(100, 100', 100'')는 컴퓨터 프로그램의 집합으로 구현될 수 있다. 이 때, 컴퓨터 프로그램은 메모리 장치에 저장되고, 프로세서에 의해 실행될 수 있다.

상기 전술한 컴퓨터프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C/C++, C#, JAVA, Python, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사람의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

이상, 첨부된 도면을 참조로 하여 본 명세서의 실시예를 설명하였지만, 본 명세서가 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

110 : 제1 잡음 제거 모듈
120 : 제2 잡음 제거 모듈
130 : 음성 구간 검출 모듈
140 : 타겟 신호 출력 모듈

Claims

제1 마이크로폰으로부터 출력된 메인 신호에서 제2 마이크로폰으로부터 출력된 서브 신호를 제거한 신호를 출력하는 제1 잡음 제거 모듈;
상기 메인 신호에서 상기 서브 신호가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱한 신호를 출력하는 제2 잡음 제거 모듈;
상기 제2 잡음 제거 모듈에서 출력된 신호에서 아래 수식을 통해 산출된 신호의 굴곡도가 미리 설정된 굴곡도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 굴곡도 기준값 이하인 지점을 음성 종료점으로 판단하는 음성 구간 검출 모듈; 및
상기 제1 잡음 제거 모듈에서 출력된 신호 중 상기 음성 구간 검출 모듈에서 판단된 음성 시작점부터 음성 종료점까지의 구간에 해당하는 신호를 출력하는 타겟 신호 출력 모듈;을 포함하는 타겟 음성 신호 출력 장치.

는 k 번째 주파수,
는 i번째 프레임에서 k번째 주파수 성분, N은 주파수 굴곡도를 계산하는 주파수 성분의 상한값
청구항 1에 있어서,
상기 제2 잡음 제거 모듈은, 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 MMSE 또는 MMSE-LSA의 스펙트럼 차감법을 이용하여 게인값을 곱한 신호를 출력하는 것을 특징으로 하는 타겟 음성 신호 출력 장치.
삭제
삭제
삭제
청구항 1에 있어서,
상기 제1 잡음 제거 모듈은, 상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거하는 에코 제거 모듈;을 더 포함하는 타겟 음성 신호 출력 장치.
청구항 1에 있어서,
상기 제2 잡음 제거 모듈은,
상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거하는 에코 제거 모듈; 및
상기 에코 제거 모듈에서 출력된 신호에서 잔여 에코를 제거하는 잔여 에코 제거 모듈;을 더 포함하는 타겟 음성 신호 출력 장치.
제1 마이크로폰으로부터 출력된 메인 신호에서 제2 마이크로폰으로부터 출력된 서브 신호를 제거한 신호를 출력하는 제1 잡음 제거 단계;
상기 메인 신호에서 상기 서브 신호가 제거된 신호에 스펙트럼 차감법을 이용한 게인값을 곱한 신호를 출력하는 제2 잡음 제거 단계;
상기 제2 잡음 제거 모듈에서 출력된 신호에서 아래 수식을 통해 산출된 신호의 굴곡도가 미리 설정된 굴곡도 기준값 이상인 지점을 음성 시작점으로 판단하고, 상기 음성 시작점 이후 상기 신호의 진폭이 미리 설정된 굴곡도 기준값 이하인 지점을 음성 종료점으로 판단하는 음성 구간 검출 단계; 및
상기 제1 잡음 제거 모듈에서 출력된 신호 중 상기 음성 구간 검출 모듈에서 판단된 음성 시작점부터 음성 종료점까지의 구간에 해당하는 신호를 출력하는 타겟 신호 출력 단계;를 포함하는 타겟 음성 신호 출력 방법.

는 k 번째 주파수,
는 i번째 프레임에서 k번째 주파수 성분, N은 주파수 굴곡도를 계산하는 주파수 성분의 상한값
청구항 8에 있어서,
상기 제2 잡음 제거 단계는, 상기 메인 신호에서 상기 서브 신호가 제거된 신호에 MMSE 또는 MMSE-LSA의 스펙트럼 차감법을 이용하여 게인값을 곱한 신호를 출력하는 단계인 것을 특징으로 하는 타겟 음성 신호 출력 방법.
삭제
삭제
삭제
청구항 8에 있어서,
상기 제1 잡음 제거 단계 이전에, 상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거하는 에코 제거 단계;를 더 포함하는 타겟 음성 신호 출력 방법.
청구항 8에 있어서,
상기 제2 잡음 제거 단계 이전에,
상기 메인 신호 및 상기 서브 신호에서 에코 신호를 제거하는 에코 제거 단계; 및
상기 메인 신호 및 상기 서브 신호에서 에코 신호가 제거된 신호에서 잔여 에코를 제거하는 잔여 에코 제거 단계;를 더 포함하는 타겟 음성 신호 출력 방법.
컴퓨터에서 청구항 8, 9, 13 및 14 중 어느 한 청구항에 따른 타겟 음성 신호 출력 방법의 각 단계들을 수행하도록 작성되어 컴퓨터로 독출 가능한 기록 매체에 기록된 컴퓨터프로그램.