KR20200109072A

KR20200109072A - 음성 구간 검출장치 및 그 방법

Info

Publication number: KR20200109072A
Application number: KR1020190028107A
Authority: KR
Inventors: 이정혜; 홍운기; 최범석
Original assignee: 울산과학기술원
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2020-09-22
Also published as: KR102237286B1

Abstract

본 발명은 음성 구간 검출장치 및 그 방법에 관한 것이다.
본 발명에 따르면, 음성 구간 검출 장치를 이용한 음성 검출 방법에 있어서, 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 단계, 상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하는 단계, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 단계, 상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 단계, 그리고 상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 단계를 포함한다.

Description

음성 구간 검출장치 및 그 방법{APPARATUS FOR VOICE ACTIVITY DETECTION AND METHOD THEREOF}

본 발명은 음성 구간 검출장치 및 그 방법에 관한 것으로, 녹음된 음성파일을 분석하고, 분석된 음성 파일의 잡음과 음성을 구별하여 음성이 존재하는 구간을 검출하는 음성 구간 검출장치 및 그 방법에 관한 것이다.

음성과 음성이 아닌 구간의 검출하기 위한 기술은 효과적인 음성 압축 기술을 위한 음성 활성도 검출(Voice Activity Detection)방법을 이용하여 다양하게 개시되어 왔다. 이는 음성 프레임의 에너지를 임계치와 비교하여 묵음 구간 및 실 음성 구간으로 구분하는 구성을 포함할 수 있다. 음성과 음성이 아닌 구간의 검출하기 위한 또 다른 기술은 음성 프레임 간의 자기 상관값을 이용하여 음성 구간과 묵음 구간을 판별하는 구성을 포함할 수 있다.

하지만, 이러한 종래의 방법에 따르면, 단순히 임계치를 이용하여 음성 영역을 검출하므로 에러가 발생할 수 있으며, 잡음이 섞이면서 특징벡터들이 크게 변하여 정확한 음성 영역의 검출이 어려운 단점이 있다. 또한, 음성과 음성이 아닌 정보 즉, 묵음을 판별하는 것이기 때문에 음악 및 음향 효과 등이 공존하는 멀티미디어 컨텐츠에 상기 종래의 방법을 적용하는 것은 무리가 있었다.

한편, 음성과 음악을 구분하는 기술은 대부분 음성 인식 시스템의 성능 향상을 위한 전처리 기술로 개발되고 있으며, 기존의 음성/음악 분류 방법을 살펴보면 음악의 주요 특성이라고 생각될 수 있는 시간에 따른 리듬 변화를 이용하여 음성과 음악을 구분하는 방법들을 제안하고 있다. 이러한 방법들은 대체로 음악은 음성의 변화에 비해 상대적으로 느리고 비교적 일정한 간격으로 변한다는 원리를 사용하였기 때문에, 음악의 종류에 따라 템포가 빨라지거나 악기가 달리지는 것에 따라 그 성능이 크게 변할 수밖에 없었다.

따라서, 음성 구간을 정확히 검출하는 알고리즘의 필요성이 대두되고 있다.

본 발명의 배경이 되는 기술은 대한민국 국내공개특허 제10-2017-0124854호(2017.11.13 공개)에 개시되어 있다.

본 발명이 이루고자 하는 기술적 과제는 녹음된 음성파일을 분석하고, 분석된 음성 파일의 잡음과 음성을 구별하여 음성이 존재하는 구간을 검출하는 음성 구간 검출장치 및 그 방법에 관한 것이다.

이러한 기술적 과제를 이루기 위한 본 발명의 실시 예에 따르면, 음성 구간 검출 장치를 이용한 음성 검출 방법에 있어서, 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 단계, 상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하는 단계, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 단계, 상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 단계, 그리고 상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 단계를 포함한다.

상기 전처리 하는 단계는, 상기 음원 신호를 각각의 사용자별로 구분하는 단계, 상기 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하는 단계, 그리고 상기 스케일링된 음원 신호를 절대값으로 변환하는 단계를 포함할 수 있다.

상기 윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며, 상기 파생 변수를 생성하는 단계는, 가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 상기 파생 변수를 생성할 수 있다.

상기 평활화하는 단계는, 상기 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 상기 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지할 수 있다.

상기 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 상기 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지할 수 있다.

상기 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 상기 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 상기 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지할 수 있다.

상기 제1 기준값은 0.8이고, 제2 기준값은 0.6일 수 있다.

본 발명의 다른 실시예에 따르면, 음성 구간을 검출하기 위한 음성 구간 검출 장치에 있어서, 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 전처리부, 상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하고, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 제어부, 상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 평활화부, 그리고 상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 검출부를 포함한다.

이와 같이 본 발명에 따르면, 평활화된 음원 신호를 이용하여 잡음과 음성 구간을 검출할 수 있으며, 검출된 음성의 정확도를 향상시킬 수 있으며, 실시간으로 획득되는 음원에 해당되는 음성 및 노이즈를 구별할 수 있다.

도 1은 본 발명의 실시예에 따른 음성 구간 검출 장치의 구성을 나타낸 구성도이다.
도 2는 본 발명의 실시예에 따른 음성 구간 검출 창치를 이용한 음성 구간 검출 방법을 나타낸 순서도이다.
도 3은 본 발명의 실시예에 따른 도 2의 S210단계를 설명하기 위한 순서도이다.
도 4는 도 3의 S212 단계가 종료된 후 획득한 음원 신호를 나타낸 도면이다.
도 5는 도 3의 S213 단계가 종료된 후 변환된 음성 신호를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 로지스틱 회귀모델을 설명하기 위한 도면이다
도 7a는 도 2의 S243단계에서 변환된 값이 1일경우 평활화 과정을 설명하기 위한 도면이다.
도 7b는 도 7a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.
도 8a은 도 2의 S245단계에서 변환된 값이 0.5일경우 평활화 과정을 설명하기 위한 도면이다.
도 8b는 도 8a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 음성 구간 검출 장치의 구성을 나타낸 구성도이다.

도 1에서 나타낸 것처럼, 음성구간 검출 장치(100)는 전처리부(110), 제어부(120), 평활화부(130) 및 검출부(140)를 포함한다.

먼저, 전처리부(110)는 사용자로부터 복수의 녹음된 음원 파일을 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리한다.

이때, 전처리부(110)는 사용자로부터 획득한 음원 신호를 각각의 사용자별로 구분하고, 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하며, 상기 스케일링된 음원 신호를 절대값으로 변환한다.

다음으로, 제어부(120)는 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하고, 파생 변수를 로지스틱 회기 모델에 적용하여 해당 음원 신호가 음성일 확률을 예측한다.

여기서, 로지스틱 회귀 모델은 독립변수들의 선형결합을 활용하여 사건의 발생 가능성을 예측하는데 사용하는 통계기법이며, 본 발명의 실시예에서는 음원 신호가 음성일 확률을 예측하기 위해 사용한다.

또한, 제어부(120)는 가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 파생 변수를 생성한다.

여기서, 복수의 윈도우 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며, 사용자가 직접 선택할 수도 있다.

그러면, 평활화부(130)는 제어부(120)로부터 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화한다.

또한, 평활화부(130)는 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지한다.

그리고, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지한다.

또한, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지한다.

이하에서는, 도 2 내지 도 8b를 이용하여 본 발명의 실시예에 따른 음성 검출 방법에 대하여 설명한다.

도 2는 본 발명의 실시예에 따른 음성 구간 검출 창치를 이용한 음성 구간 검출 방법을 나타낸 순서도이다.

먼저, 전처리부(110)는 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 음원 파일에 저장된 음원 신호를 전처리 한다(S210).

이하에서는 도 3 내지 도 5를 이용하여 전처리부(110)가 음원 신호를 전처리하는 방법에 대하여 설명한다.

도 3은 본 발명의 실시예에 따른 도 2의 S210단계를 설명하기 위한 순서도이다.

도 3에서 나타낸 것처럼, 전처리부(110)는 음원 신호를 각각의 사용자별로 구분한다(S211).

이때, 전처리부(110)는 녹음된 복수의 음원 파일을 획득하고, 사용자 음성의 높낮이, 진폭 및 세기 중에서 어느 하나를 이용하여 사용자를 구분한다.

또한, 전처리부(110)는 녹음된 음원 파일뿐만 아니라 실시간으로 획득하는 음원 파일을 이용할 수 있다.

다음으로, 전처리부(110)는 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링을 한다(S212).

여기서, 전처리부(110)는 로지스틱 회귀 모델을 이용하여 구분된 음원 신호에 대하여 스케일링을 한다.

도 4는 도 3의 S212 단계가 종료된 후 획득한 음원 신호를 나타낸 도면이다.

도 4에서 x축은 시간축을 나타내며, y축은 스케일링된 음원 신호의 크기를 나타낸다.

그러면, 전처리부(110)는 도 4와 같이 음원 신호를 평균이 0이고, 분산이 1인 음원신호로 스케일링 한다.

이때, 스케일링 되는 음원신호는 양의 값 및 음의 값을 가질 수 있다.

그러면, 전처리부(110)는 스케일링된 음원 신호를 절대값으로 변환한다(S213).

도 5는 도 3의 S213 단계가 종료된 후 변환된 음성 신호를 나타낸 도면이다.

도 5에서 나타낸 것처럼, 전처리부(110)는 도 4에서 나타낸 음원 신호에 대하여 절대값을 취하여 0 과 1사이의 양의 값을 가지는 데이터로 변환한다.

또한, x축 및 y축은 도 4에서 나타낸 것과 같은 값을 의미한다.

다음으로, 제어부(120)는 전처리부(110)로부터 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성한다(S220).

여기서, 제어부(120)는 가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 파생 변수를 생성한다.

윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며, 사용자의 선택에 따라서 다양한 크기를 가질 수 있다.

그러면, 제어부(120)는 파생 변수를 로지스틱 회기 모델에 적용하여 음원 신호가 음성일 확률을 예측한다(S230).

도 6은 도 2의 S230 단계에서의 로지스틱 회귀모델을 설명하기 위한 도면이다

로지스틱 회귀 모델은 각각의 독립변수의 선형결합을 이용하여 각각의 사건 발생 확률을 나타낸 것으로, 도 6에서 나타낸 것처럼 각각의 변수 1 내지 30에 해당하는 확률 값으로 나타낸다.

여기서, 제어부(120)는 획득한 확률을 이용하여 음원이 음성 또는 노이즈 여부를 확인한다.

다음으로, 평활화부(130)는 예측된 음성 확률을 기준값과 비교한다(S240).

이하에서는 설명의 편의상 기준값을 0.8 및 0.6으로 예시하여 설명하며, 음성 환경이나 사용자의 선택에 따라서 기준값은 변경될 수 있다.

만일, 평활화부(130)는 예측된 음성 확률이 0.6보다 작으면 전처리된 음원 신호를 노이즈로 판단하여 0으로 변환시킨다(S241).

예를 들어, 예측된 음성 확률이 0.3이면, 평활화부(130)는 전처리된 음원 신호를 노이즈로 판단하고, 음원 신호를 0으로 변환한다.

또한, 평활화부(130)는 예측된 음성 확률이 0.8이상이면, 전처리된 음원 신호를 음성으로 판단하고 음원 신호의 값을 1로 변환시킨다(S242).

예를 들어, 예측된 음성 확률이 0.9이면, 평활화부(130)는 음원 신호의 값을 1로 변환한다.

그러면, 평활화부(130)는 제1 구간 및 제2 구간의 시간합을 기준시간(2초)와 비교하여 0 또는 1로 평활화한다(S243).

즉, 평활화부(130)는 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지한다.

도 7a는 도 2의 S243단계에서 변환된 값이 1일경우 평활화 과정을 설명하기 위한 도면이고, 도 7b는 도 7a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.

예를 들어, 도 7a 에서 나타낸 것처럼, 제1 구간 와 제2 구간의 시간의 합이 1.5초이면, 평활화부(130)는 제1 구간 와 제2 구간에 해당하는 시간의 합이 2초보다 작기 때문에 해당되는 음원 신호를 1로 변경하여 평활화한다.

그러면, 도 7b에서 나타낸 것처럼, 평활화부(130)는 제1 구간 와 제2 구간에 해당되는 음원 신호를 1로 변경하여 평활화한다.

다른 예를 들면, 제1 구간과 제2 구간의 시간의 합이 3초이면, 제1 구간과 제2 구간에 해당되는 시간의 합이 2초보다 크기 때문에 음원 신호의 값을 유지하여 평활화한다.

그리고, 평활화부(130)는 예측된 음성 확률이 0.6이상 0.8미만이면 전처리된 음원 신호를 0.5로 변환시킨다(S244).

예를 들어, 예측된 음성 확률이 0.7이면 평활화부(130)는 음원 신호를 0.5로 변환 시킨다.

그러면, 평활화부(130)는 제3 구간의 시간과 제4 구간의 시간을 기준시간(2초)와 비교하여 0 또는 0.5 또는 1로 평활화한다(S245).

즉, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제3 구간의 시간이 2초 이상이면, 제3 구간에 해당하는 음원 신호의 값을 그대로 유지한다.

또한, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 제4 구간의 시간이 2초 미만이면, 제4 구간에 해당하는 음원 신호의 값을 그대로 유지한다.

도 8a은 도 2의 S245단계에서 변환된 값이 0.5일경우 평활화 과정을 설명하기 위한 도면이고, 도 8b는 도 8a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.

예를 들어, 도 8a 에서 나타낸 것처럼, 제3 구간에 해당되는 시간이 2.3초이고, 제4 구간에 해당되는 시간이 2.5초이면, 평활화부(130)는 제3 구간에 해당되는 시간이 2초보다 크기 때문에 제3 구간에 해당하는 음원 신호의 값을 유지하고, 제4 구간에 해당하는 시간이 2초보다 크기 때문에 제4 구간에 해당하는 음원 신호의 값을 0으로 변환하여 평활화한다.

다른 예를 들면, 제3 구간에 해당되는 시간이 1.5초이고, 제4 구간에 해당되는 시간이 2.5초이면, 평활화부(130)는 제3 구간에 해당하는 구간의 시간이 2초보다 작기 때문에 1로 평활화하고, 제4 구간에 해당하는 시간이 2초보다 크기 때문에 제4 구간에 해당하는 음원 신호의 값을 0으로 변환하여 평활화한다.

그러면, 도 8b 에서 나타낸 것처럼, 평활화부(130)는 제3 구간과 제4 구간에 해당되는 음원 신호의 값을 변경하여 평활화한다.

그러면, 검출부(140)는 S241, S243, S245를 통하여 평활화된 음원 신호를 최종 음성구간으로 검출한다(S250).

즉, 검출부(140)는 평활화부(130)로부터 평활화된 음성신호를 최종 음성 구간으로 검출한다.

이와 같이 본 발명의 실시예에 따르면, 평활화된 음원 신호를 이용하여 잡음과 음성 구간을 검출 할 수 있으며, 검출된 음성의 정확도를 향상시킬 수 있으며, 실시간으로 획득되는 음원에 해당되는 음성 및 노이즈를 구별할 수 있다.

본 발명은 도면에 도시된 실시 예를 참고로 설명 되었으나 이는 예시적인 것이 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

100: 음성 구간 검출 장치, 110: 전처리부,
120: 제어부, 130: 평활화부,
140: 검출부

Claims

음성 구간 검출 장치를 이용한 음성 검출 방법에 있어서,
복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 단계,
상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하는 단계,
상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 단계,
상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 단계, 그리고
상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 단계를 포함하는 음성 검출 방법.
제1항에 있어서,
상기 전처리 하는 단계는,
상기 음원 신호를 각각의 사용자별로 구분하는 단계,
상기 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하는 단계, 그리고
상기 스케일링된 음원 신호를 절대값으로 변환하는 단계를 포함하는 음성 검출 방법.
제1항에 있어서,
상기 윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며,
상기 파생 변수를 생성하는 단계는,
가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 상기 파생 변수를 생성하는 음성 검출 방법.
제1항에 있어서,
상기 평활화하는 단계는,
상기 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 상기 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고,
상기 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지하는 음성 검출 방법.
제4항에 있어서,
상기 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 상기 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 방법.
제5항에 있어서,
상기 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 상기 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 상기 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 방법.
제1항에 있어서,
상기 제1 기준값은 0.8이고, 제2 기준값은 0.6인 음성 검출 방법.
음성 구간을 검출하기 위한 음성 구간 검출 장치에 있어서,
복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 전처리부,
상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하고, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 제어부,
상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 평활화부, 그리고
상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 검출부를 포함하는 음성 검출 장치.
제8항에 있어서,
상기 전처리부는,
상기 음원 신호를 각각의 사용자별로 구분하고, 상기 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하며, 상기 스케일링된 음원 신호를 절대값으로 변환하는 단계를 포함하는 음성 검출 장치.
제8항에 있어서,
상기 윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며,
상기 제어부는,
가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 상기 파생 변수를 생성하는 음성 검출 장치.
제8항에 있어서,
상기 평활화부는,
상기 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 상기 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고,
상기 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지하는 음성 검출 장치.
제11항에 있어서
상기 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 상기 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 장치.
제12항에 있어서,
상기 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 상기 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 상기 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 장치.
제8항에 있어서,
상기 제1 기준값은 0.8이고, 제2 기준값은 0.6인 음성 검출 장치.