KR102136700B1

KR102136700B1 - 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법

Info

Publication number: KR102136700B1
Application number: KR1020200038930A
Authority: KR
Inventors: 전찬준; 전광명
Original assignee: 한국건설기술연구원; 인트플로우 주식회사
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-23

Abstract

카운팅 기반의 음성활성구간 검출 장치 및 방법이 제공된다. 전처리부는 입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 출력하고, 이진 마스크 추정부는 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정하고, VAD 수행부는 추정된 이진 마스크를 이용하여 상기 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수에 기초하여 상기 스펙트로그램 내에서 음성활성구간 검출(VAD: Voice Activity Detection)을 수행할 수 있다.

Description

톤 카운팅 기반의 음성활성구간 검출 장치 및 방법{VAD apparatus and method based on tone counting}

본 발명은 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법에 관한 것으로서, 보다 상세하게는, 스펙트로그램을 분석하여 음성에 해당하는 스펙트로그램으로부터 톤을 추정 및 카운팅하여 음성활성구간을 검출할 수 있는 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법에 관한 것이다.

음성 활성구간 검출(VAD: Voice Activity Detection) 방식은 일반적으로 신호의 구간마다 일정한 형태의 특징값을 추출하고, 추출된 특징값을 분석하여 해당 구간이 음성 또는 비음성에 속하는지를 판별한다.

신호에 소음이 간섭하면 음성 활성구간 검출을 위해 추출된 특징값에 영향을 주게 되는데, 신호대잡음비가 떨어지는 구간일수록 해당 구간의 특징값은 소음의 특성을 반영하게 된다. 즉, 실제로 음성이 있는 구간임에도 소음의 간섭이 심하면 해당 구간에서의 음성 활성구간 검출 정확성은 크게 떨어질 수 있다.

도 1은 깨끗한 음성신호와 소음이 포함된 음성신호의 예시도이다.

도 1을 참조하면, 소음 간섭이 없는 깨끗한 음성신호는 시간별 신호의 크기정보 만으로 정확한 음성 활성구간을 검출하는데 용이하지만, 음성 신호의 크기에 필적하는 소음이 수반된 구간의 경우 음성 활성구간을 검출하는데 어려움이 수반된다.

이에 따라서, 기존의 기술들은 주파수 차감법 등의 음성 개선 처리를 선행한 후 음성 활성구간 검출을 수행하는 접근을 취하는 경우가 대부분이다.

하지만, 소음의 패턴이 불규칙한 경우 음성 개선 처리를 거친 신호는 뮤지컬 잡음 등의 부작용이 발생하여 음성 활성구간 검출의 성능을 오히려 저해하는 경우가 발생할 수 있다.

기존의 음성 활성구간 검출 기술은 에너지 임계치 방식, 파형 및 주파수 분석 방식, 그리고 통계모델 방식으로 나뉜다.

에너지 임계치 방식은 [수학식 1]과 같이 단순히 구간별 신호의 크기가 일정 임계치를 넘기면 음성활성, 그렇지 않으면 비음성이라고 판별한다.

에너지 임계치 방식은 음성구간의 특성에 대한 고려 없이 크기만을 판별 기준으로 보기 때문에 소음의 간섭에 가장 취약하다.

파형 및 주파수 분석 방식은 이보다 한발 더 나아가 음성 구간에서 고유하게 찾을 수 있는 피치 및 하모닉 검출, 주기성 분석, 파형의 zero-crossing rate, 그리고 LPC 분석 등의 다양한 특징값을 활용하여 음성 활성구간을 검출한다. 파형 및 주파수 분석 방식은 공통적으로 음성구간에서 두드러지게 나타날 수 있는 상기의 특징값들을 음성활성여부의 판단 기준으로 활용하므로 어느 정도의 소음 간섭에도 동작할 수 있다. 그러나, 음성과 유사한 특성의 소음이 간섭하거나 소음의 크기가 크고 복잡한 경우 여전히 음성활성 검출 정확성이 크게 낮아질 수 있다.

마지막으로 통계모델 방식은 음성의 존재와 부재에 대한 통계적 모델을 우도비 테스트(LRT: Likelihood Ratio Test)에 적용하여 그 정확성을 개선시킨 방식이다. 구체적으로, 잡음이 섞인 음성신호 구간 y(t)에 STFT(Short-Term Fourier Transform)을 취하면 [수학식 2]와 같다.

[수학식 2]에서 Y(k, n), X(k, n), D(k, n)은 각각 잡음이 섞인 신호, 음성신호, 잡음신호의 STFT 계수들이다.

음성이 존재하지 않을 때 H0과 음성이 존재할 때 H1, 두 가지를 정의하면 [수학식 3]과 같다.

확률 밀도 함수(PDF: Probability Density Function)는 complex Gaussian probability distribution을 따른다는 가정하에 [수학식 4]와 같다.

이들에 대한 우도비(Likelihood ratio, LR)비는 [수학식 5]와 같이 구해진다.

마지막으로 최종적인 음성존재에 대한 결정은 우도비(LR)의 기하평균의 판별식인 [수학식 6]에 의해 이루어진다.

즉, 통계모델 방식은

이 특정 임계값보다 크면 음성이 존재하고 그렇지 않으면 음성이 존재하지 않는다고 판별한다. 이러한 통계모델 방식은 상술한 두 방식 대비 소음의 간섭을 통계 모델로써 가정하여 고안된만큼 소음의 간섭에도 비교적 강건한 모습을 보여준다. 그러나, 우도비(LR) 판별의 주요 요소인 신호대잡음비 추정치가 낮게 측정되면 음성이 실제로 존재한다고 해도 LRT가 낮게 나와 음성활성 검출에 실패할 수 있다.

국내 공개특허 제10-2018-0101057호

전술한 문제점을 해결하기 위하여 본 발명이 이루고자 하는 기술적 과제는, 소음과 함께 녹음된 음성신호에 대해 음성 전처리 및 음성신호의 구간별 톤 카운팅 기법을 적용하여 소음에 강건한 음성 활성구간을 검출할 수 있는 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법을 제시하는 데 있다.

본 발명의 해결과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 실시 예에 따르면, 톤 카운팅 기반의 음성활성구간 검출 장치는, 입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 출력하는 전처리부; 상기 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정하는 이진 마스크 추정부; 및 상기 추정된 이진 마스크를 이용하여 상기 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수에 기초하여 상기 스펙트로그램 내에서 음성활성구간 검출(VAD: Voice Activity Detection)을 수행하는 VAD 수행부;를 포함할 수 있다.

상기 전처리부가 상기 음성 스펙트로그램과 잡음 스펙트로그램 모두를 출력하는 경우, 상기 이진 마스크 추정부는 다음 식을 이용하여 이진 마스크를 추정한다.

여기서, M_i(t,k)는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 k에 해당하는 위치의 마스킹값, Xi(t,k)는 i번째 음성 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값, Di(t, k)는 i번째 잡음 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값이다.

상기 VAD 수행부는, 상기 스펙트로그램을 구성하는 다수의 프레임들 별로 톤의 개수를 카운팅하고, 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수 및 최대 톤 개수 사이에 속하면 해당 프레임은 음성활성구간을 포함하는 것으로 판단한다.

상기 VAD 수행부는 다음 식을 이용하여 프레임 별로 톤의 개수를 카운팅한다.

여기서, Tone_i(t)는 i번째 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수, B_L과 B_H는 각각 음성 대역에 해당하는 주파수 인덱스의 처음과 끝, M_i는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 2k에 해당하는 위치의 마스킹값이다.

한편, 전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 실시 예에 따르면, 톤 카운팅 기반의 음성활성구간 검출 방법은, (A) 전자장치가, 입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 출력하는 단계; (B) 상기 전자장치가, 상기 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정하는 단계; 및 (C) 상기 전자장치가, 상기 추정된 이진 마스크를 이용하여 상기 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수에 기초하여 상기 스펙트로그램 내에서 음성활성구간 검출(VAD: Voice Activity Detection)을 수행하는 단계;를 포함한다.

상기 (A) 단계가 상기 음성 스펙트로그램과 잡음 스펙트로그램 모두를 출력하는 경우, 상기 (B) 단계는 다음 식을 이용하여 이진 마스크를 추정한다.

상기 (C) 단계는, 상기 스펙트로그램을 구성하는 다수의 프레임들 별로 톤의 개수를 카운팅하고, 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수 및 최대 톤 개수 사이에 속하면 해당 프레임은 음성활성구간을 포함하는 것으로 판단한다.

상기 (C) 단계는 다음 식을 이용하여 프레임 별로 톤의 개수를 카운팅한다.

본 발명에 따르면, 스펙트로그램과 톤 카운팅을 기반으로 음성 활성구간을 검출함으로써 다양한 소음환경에 강건한 고품질 서비스를 제공할 수 있다.

또한, 본 발명에 따르면, 우도비(LR) 판별의 주요 요소인 신호대잡음비가 낮게 측정된 구간에서도 음성 검출이 정확히 추정될 수 있다.

또한, 본 발명에 따르면, 향후, 대화형 로봇, 차량제어, 스마트 가전제어, 음성비서 등 다양한 음성 및 오디오 관련 어플리케이션에 접목하여 서비스를 제공하고, 뿐만 아니라 음성인식, 화자인식, 대화형 번역 등 다양한 음성기반 서비스의 필수 요소 기술로서 활용함 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

도 1은 깨끗한 음성신호와 소음이 포함된 음성신호의 예시도,
도 2는 본 발명의 실시 예에 따른 톤 카운팅 기반의 음성활성구간 검출 장치를 도시한 블록도,
도 3a는 U-net 딥러닝 방식 기반 전처리 동작을 보여주는 예시도,
도 3b는 U-net 딥러닝 방식을 이용하여 VAD 정보를 획득하는 동작을 보여주는 도면,
도 4는 본 발명의 실시 예에 따른 톤 카운팅 기반 음성 활성구간 검출 결과를 보여주는 도면,
도 5는 본 발명의 실시 예에 따른 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법을 보여주는 흐름도, 그리고,
도 6은 본 발명의 일 실시 예에 따른 스마트 시설물 관리 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.

본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사항에 부합하는 의미와 개념으로 해석되어야 할 것이다.

또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.

어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.

또한, 어떤 엘리먼트(또는 구성요소)가 구현됨에 있어서 특별한 언급이 없다면, 그 엘리먼트(또는 구성요소)는 소프트웨어, 하드웨어, 또는 소프트웨어 및 하드웨어 어떤 형태로도 구현될 수 있는 것으로 이해되어야 할 것이다.

이하에서는 본 발명에서 실시하고자 하는 구체적인 기술내용에 대해 첨부도면을 참조하여 상세하게 설명하기로 한다.

도 2에 도시된 장치들의 각각의 구성은 기능 및/또는 논리적으로 분리될 수 있음을 나타내는 것이며, 반드시 각각의 구성이 별도의 물리적 장치로 구분되거나 별도의 코드로 생성됨을 의미하는 것은 아님을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

도 2는 본 발명의 실시 예에 따른 톤 카운팅 기반의 음성활성구간 검출 장치를 도시한 블록도이다.

도 2를 참조하면, 본 발명의 실시 예에 따른 톤 카운팅 기반의 음성활성구간 검출 장치(200)는 전처리부(210), 이진 마스크 추정부(220) 및 VAD 수행부(230)를 포함할 수 있다.

전처리부(210)는 입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 출력할 수 있다. 입력 스펙트로그램은 녹음된 오디오신호 또는 실시간으로 수신되는 오디오신호를 주파수 변환하여 획득한 스펙트로그램일 수 있으며, 다수의 프레임들을 포함한다.

전처리부(210)는 에너지 임계치 방식, 파형 및 주파수 분석 방식, 통계모델 방식 및 U-net 딥러닝 방식 중 하나를 이용하여 전처리를 수행함으로써 스펙트로그램 내의 잡음을 제거하거나 분리할 수 있다.

도 3a는 U-net 딥러닝 방식 기반 전처리 동작을 보여주는 예시도, 도 3b는 U-net 딥러닝 방식을 이용하여 VAD 정보를 획득하는 동작을 보여주는 도면이다.

도 3a를 참조하면, 전처리부(210)는 입력 스펙트로그램(Yi)을 U-net 딥러닝하여 음성 스펙트로그램(Xi)과 잡음 스펙트로그램(Di)으로 분리한다. i는 스펙트로그램의 인덱스이다. Xi는 i번째 스펙트로그램으로부터 분리된 i번째 음성 스펙트로그램, Di는 i번째 스펙트로그램으로부터 분리된 i번째 잡음 스펙트로그램이다.

도 3a에는 입력 스펙트로그램(Yi)을 음성 스펙트로그램(Xi)과 잡음 스펙트로그램(Di)으로 분리하는 실시 예가 도시되어 있으나, 이에 한정되지 않고 U-net 딥러닝을 이용하여 음성 스펙트로그램(Xi) 또는 잡음 스펙트로그램(Di)만 분리할 수도 있다.

이진 마스크 추정부(220)는 음성 스펙트로그램(Xi)과 잡음 스펙트로그램(Di) 중 적어도 하나를 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정할 수 있다. 예를 들어, 이진 마스크 추정부(220)는 음성 스펙트로그램의 시간축(t)과 주파수축(k)의 좌표 (t, k) 별로 음성 여부를 판단하여 음성인 경우 1, 음성이 아닌 경우 잡음 또는 무신호로 판단하여 0을 할당함으로써 이진 마스크를 추정할 수 있다. 이는 잡음 스펙트로그램에 대해서도 동일하다.

또한, 전처리부(210)가 음성 스펙트로그램(Xi)과 잡음 스펙트로그램(Di) 모두를 출력하는 경우, 이진 마스크 추정부(220)는 다음 [수학식 7]을 이용하여 이진 마스크를 추정할 수 있다.

여기서, M_i(t,k)는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 k에 해당하는 위치의 마스킹값, Xi(t, k)는 음성 스펙트로그램 중 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값, Di(t, k)는 음성 스펙트로그램 중 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값이다.

[수학식 7]을 참조하면, 이진 마스크 추정부(220)는 음성 스펙트로그램(Xi)과 잡음 스펙트로그램(Di)의 동일한 위치에 해당하는 에너지값을 비교하여 음성 스펙트로그램의 에너지값이 더 크거나 동일하면 그 위치는 톤인 것으로 추정하여 1을 마스킹한다. 반면, 동일한 위치(t, k)에서 음성 스펙트로그램(Xi)의 에너지값이 더 작으면 그 위치는 잡음이거나 신호가 없는 것으로 추정하여 0을 마스킹할 수 있다.

i번째 음성 스펙트로그램(Xi)과 잡음 스펙트로그램(Di)을 비교하여 모든 위치 (t, k)에 대한 마스킹이 완료되면, 이진 마스크 추정부(220)는 i번째 스펙트로그램에 해당하는 이진 마스크(Mi)를 생성하며, 위치 (t, k) 별로 마스킹된 값 0 또는 1은 메모리(미도시)에 저장될 수 있다.

한편, U-net의 강한 분리성향으로 인해 추정된 이진 마스크에는 잡음의 영역에 대부분 0이 할당되지만 일부 영역에 음성의 하모닉과 혼동하여 톤 형태로 1이 할당될 수도 있다. 특정 단일주파수에만 에너지가 집중되어 음향이 구성되는 구간을 톤 구간이라고 하며, 특정 주파수의 배수로 다수 주파수들에 톤이 나타나는 경우 이를 하모닉 성분이라고 한다.

따라서, 잡음을 하모닉과 혼동하여 잡음임에도 불구하고 톤 형태로 1이 할당될 수도 있는 성향을 활용하여 VAD 수행부(230)는 톤 카운팅을 활용하여 VAD 정보를 획득할 수 있으며, 아래 [수학식 8]에서와 같이 본 발명에서는 특정 주파수의 배수를 고려하여 하모닉 성분을 더 고려할 수 있으며, 이로써 잡음이 하모닉과 혼동하여 톤으로 마스킹되었을지라도 해당 잡음이 속한 구간을 VAD로 잘못 판단하는 것을 방지할 수 있다. VAD 정보를 획득하는 것은 음성활성구간을 검출하는 것을 의미할 수 있다.

먼저, VAD 수행부(230)는 [수학식 8]을 이용하여 톤의 개수를 프레임 별로 카운팅할 수 있다. 즉, VAD 수행부(230)는 이진 마스크 추정부(220)에서 추정된 이진 마스크(Mi)를 이용하여 스펙트로그램(Yi)의 t번째 프레임에 존재하는 톤의 개수를 카운팅할 수 있으며, 모든 프레임들에 대해 톤 카운팅을 수행할 수 있다.

여기서, Tone_i(t)는 i번째 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수, B_L과 B_H는 각각 음성 저대역에 해당하는 주파수(또는 bin) 인덱스의 처음과 끝, M_i는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 2k 또는 2k+1에 해당하는 위치의 마스킹값으로서 [수학식 7]에 의해 획득한 값이다.

음성 대역은 음성의 정보에 대한 주요 하모닉 성분들이 존재하는 주파수 범위로서 사용자가 설정할 수 있다. 예를 들어, 음성 대역의 범위는 20Hz~2000Hz일 수 있으며, 이 때, B_L은 20, B_H는 2000일 수 있으며, 음성 대역의 범위는 이에 한정되지 않고 변경가능하다.

[수학식 8]을 참조하면 VAD 수행부(230)는 t번째 프레임에서 k를 변경해 가면서 짝수 주파수들(2k)의 위치에 해당하는 톤 개수를 카운팅하여 제1카운팅 결과를 산출하고, 홀수 주파수들(2k+1)의 위치에 해당하는 톤 개수를 카운팅하여 제2카운팅 결과를 산출한 후, 제1카운팅 결과와 제2카운팅 결과 중 더 큰 결과를 t번째 프레임에 위치하는 톤의 개수로 정한다. 이는, 짝수 주파수들과 홀수 주파수들 모두에 대해 톤을 카운팅하면 어느 한 지점에 신호들이 뭉쳐있는 경우 톤과 잡음의 구분이 불명료하며, 잡음일 확률도 높기 때문이다.

예를 들어, 2k를 B_L부터 B_H까지 변경해 가면서 각 주파수의 위치에서 1이 마스킹된 개수를 카운팅한 제1카운팅 결과는 3개이고, (2k+1)을 B_L부터 B_H까지 변경해 가면서 각 주파수의 위치에서 1이 마스킹된 개수를 카운팅한 제2카운팅 결과는 2개인 경우, Tone_i(t)는 더 큰 값인 3이 된다.

이와 같이, [수학식 8]에서와 같이 2배수에 해당하는 주파수를 고려함으로써 하모닉 성분도 고려하여 톤을 카운팅할 수 있으며, 잡음을 톤으로 잘못 카운팅하여 VAD가 오판될 수도 있는 문제를 해결할 수 있다.

[수학식 8]에서 주파수 k의 배수를 의미하는 2는 2 이상의 정수들 중 하나로 변경 설정가능하며, 예를 들어, 3배수의 주파수를 고려하는 경우, [수학식 8]은 다음과 같이 변경될 수 있다.

[수학식 8]에 의해 스펙트로그램을 구성하는 다수의 프레임들 별로 톤의 개수가 모두 카운팅되면, VAD 수행부(230)는 카운팅된 톤의 개수에 기초하여 스펙트로그램 내에서 프레임 별로 음성활성구간 검출을 수행할 수 있다.

VAD 수행부(230)는 [수학식 9]를 이용하여 음성활성구간을 검출할 수 있다.

여기서, Vi(t)는 t번째 프레임의 VAD 정보, 최저 톤 개수(T_L) 및 최대 톤 개수(T_H)는 음성활성구간 판단을 위해 사전에 정해진 임계값, Tone_i(t)는 i번째 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수이다. T_L은 예를 들어 1, T_H는 5이거나, T_L은 2, T_H는 4일 수 있으며, 이에 한정되지 않는다.

[수학식 9]를 참조하면, VAD 수행부(230)는 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수(T_L) 및 최대 톤 개수(T_H) 사이에 속하면 Vi(t)=1이라는 VAD 정보를 획득한다. Vi(t)=1은, 해당 t번째 프레임은 음성활성검출 구간을 포함하는 것을 의미한다.

또한, VAD 수행부(230)는 프레임들 별로 카운팅된 톤의 개수가 최저 톤 개수(T_L) 미만이거나 최대 톤 개수(T_H)를 초과하면 Vi(t)=0이라는 정보를 획득한다. 이는 해당 t번째 프레임은 음성활성검출 구간을 포함하지 않는 것을 의미한다.

도 4는 본 발명의 실시 예에 따른 톤 카운팅 기반 음성 활성구간 검출 결과를 보여주는 도면이다.

도 4를 참조하면, 기존의 음성 활성구간 검출과 달리 SNR(신호대잡음비)이 낮은 -5Db와 0dB 수준의 매우 열악한 소음 환경에서도 정확한 음성활성구간을 검출할 수 있음을 알 수 있다. 도 4에서 초록색으로 표기된 음성활성검출 구간에 위치하는 띠들은 음성 신호에 하모닉 성분이 존재함을 의미한다.

도 5는 본 발명의 실시 예에 따른 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법을 보여주는 흐름도이다.

도 5의 톤 카운팅 기반의 음성활성구간 검출 방법을 수행하는 전자장치는 도 2 내지 도 4를 참조하여 설명한 톤 카운팅 기반의 음성활성구간 검출 장치(200)이거나 또는 톤 카운팅 기반의 음성활성구간 검출 장치(200)의 동작을 구현하기 위한 컴퓨팅 시스템(600)일 수도 있다.

도 5를 참조하면, 전자장치는 입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 출력할 수 있다(S510). S510단계는 예를 들어, 에너지 임계치 방식, 파형 및 주파수 분석 방식, 통계모델 방식 및 U-net 딥러닝 방식 중 하나를 이용하여 전처리를 수행할 수 있다.

전자장치는 음성 스펙트로그램과 잡음 스펙트로그램 중 적어도 하나를 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정할 수 있다(S520). S510단계에서 음성 스펙트로그램과 잡음 스펙트로그램 모두를 출력하는 경우, S520단계는 [수학식 7]을 이용하여 이진 마스크를 추정할 수 있다.

전자장치는 S520단계에서 이진 마스크를 이용하여 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수를 카운팅할 수 있다(S530)

S530단계에서, 전자장치는 [수학식 8]을 이용하여 입력 스펙트로그램을 구성하는 다수의 프레임들 별로 톤 카운팅을 수행할 수 있다. 또한, 전자장치는 연속하는 주파수들에 대해 톤 카운팅을 수행하지 않고, mk, mk+1, …, mk+(m-1)(여기서, m은 2 이상의 정수, k는 주파수의 bin)의 주파수들 각각에 대해 톤 카운팅을 수행하고, 다수의 주파수들(mk, mk+1, …, mk+(m-1)) 중 가장 많은 톤 카운팅 결과를 해당 t번째 프레임의 톤 카운팅 결과로 출력할 수 있다. 이로써 잡음 영역도 음성 영역으로 잘못 판단되는 확률을 줄일 수 있다.

전자장치는 S530단계의 톤 카운팅 결과에 기초하여 입력 스펙트로그램 내에서 음성활성구간을 검출하는 VAD를 수행할 수 있다(S540).

S540단계에서, 전자장치는 [수학식 9]를 이용하여 VAD를 수행할 수 있으며, 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수 및 최대 톤 개수 사이에 속하면 해당 프레임은 음성활성구간을 포함하는 것으로 판단할 수 있다.

도 6은 본 발명의 일 실시 예에 따른 톤 카운팅 기반의 음성활성구간 검출 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.

도 6을 참조하면, 컴퓨팅 시스템(600)은 버스(620)를 통해 연결되는 적어도 하나의 프로세서(610), 메모리(630), 사용자 인터페이스 입력 장치(640), 사용자 인터페이스 출력 장치(650), 스토리지(660), 및 네트워크 인터페이스(670)를 포함할 수 있다. 도 2의 음성활성구간 검출 장치(200)는 컴퓨팅 시스템(600)일 수 있다.

프로세서(610)는 중앙 처리 장치(CPU) 또는 메모리(630) 및/또는 스토리지(660)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(630) 및 스토리지(660)는 다양한 종류의 휘발성 또는 비휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(630)는 ROM(Read Only Memory)(631) 및 RAM(Random Access Memory)(632)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시 예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(610)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(630) 및/또는 스토리지(660))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(610)에 커플링되며, 그 프로세서(610)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(610)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다.

한편, 이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주하여야 할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

200: 톤 카운팅 기반의 음성활성구간 검출 장치
210: 전처리부
220: 이진 마스크 추정부
230: VAD 수행부

Claims

입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램을 출력하는 전처리부;
상기 음성 스펙트로그램과 잡음 스펙트로그램을 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정하는 이진 마스크 추정부; 및
상기 추정된 이진 마스크를 이용하여 상기 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수에 기초하여 상기 스펙트로그램 내에서 음성활성구간 검출(VAD: Voice Activity Detection)을 수행하는 VAD 수행부;를 포함하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치.
제1항에 있어서,
상기 전처리부가 상기 음성 스펙트로그램과 잡음 스펙트로그램 모두를 출력하는 경우, 상기 이진 마스크 추정부는 다음 식을 이용하여 이진 마스크를 추정하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치:

여기서, M_i(t,k)는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 k에 해당하는 위치의 마스킹값, Xi(t,k)는 i번째 음성 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값, Di(t, k)는 i번째 잡음 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값.
제1항에 있어서,
상기 VAD 수행부는,
상기 스펙트로그램을 구성하는 다수의 프레임들 별로 톤의 개수를 카운팅하고, 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수 및 최대 톤 개수 사이에 속하면 해당 프레임은 음성활성구간을 포함하는 것으로 판단하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치.
제3항에 있어서,
상기 VAD 수행부는 다음 식을 이용하여 프레임 별로 톤의 개수를 카운팅하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치:

여기서, Tone_i(t)는 i번째 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수, B_L과 B_H는 각각 음성 대역에 해당하는 주파수 인덱스의 처음과 끝, M_i는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 2k에 해당하는 위치의 마스킹값임.
(A) 전자장치가, 입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램을 출력하는 단계;
(B) 상기 전자장치가, 상기 음성 스펙트로그램과 잡음 스펙트로그램을 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정하는 단계; 및
(C) 상기 전자장치가, 상기 추정된 이진 마스크를 이용하여 상기 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수에 기초하여 상기 스펙트로그램 내에서 음성활성구간 검출(VAD: Voice Activity Detection)을 수행하는 단계;를 포함하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법.
제5항에 있어서,
상기 (A) 단계가 상기 음성 스펙트로그램과 잡음 스펙트로그램 모두를 출력하는 경우, 상기 (B) 단계는 다음 식을 이용하여 이진 마스크를 추정하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법:

여기서, M_i(t,k)는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 k에 해당하는 위치의 마스킹값, Xi(t,k)는 i번째 음성 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값, Di(t, k)는 i번째 잡음 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값.
제5항에 있어서,
상기 (C) 단계는,
상기 스펙트로그램을 구성하는 다수의 프레임들 별로 톤의 개수를 카운팅하고, 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수 및 최대 톤 개수 사이에 속하면 해당 프레임은 음성활성구간을 포함하는 것으로 판단하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법.
제5항에 있어서,
상기 (C) 단계는 다음 식을 이용하여 프레임 별로 톤의 개수를 카운팅하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법:

여기서, Tone_i(t)는 i번째 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수, B_L과 B_H는 각각 음성 대역에 해당하는 주파수 인덱스의 처음과 끝, M_i는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 2k에 해당하는 위치의 마스킹값임.