KR20200109072A - 음성 구간 검출장치 및 그 방법 - Google Patents

음성 구간 검출장치 및 그 방법 Download PDF

Info

Publication number
KR20200109072A
KR20200109072A KR1020190028107A KR20190028107A KR20200109072A KR 20200109072 A KR20200109072 A KR 20200109072A KR 1020190028107 A KR1020190028107 A KR 1020190028107A KR 20190028107 A KR20190028107 A KR 20190028107A KR 20200109072 A KR20200109072 A KR 20200109072A
Authority
KR
South Korea
Prior art keywords
sound source
source signal
section
voice
value
Prior art date
Application number
KR1020190028107A
Other languages
English (en)
Other versions
KR102237286B1 (ko
Inventor
이정혜
홍운기
최범석
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Priority to KR1020190028107A priority Critical patent/KR102237286B1/ko
Publication of KR20200109072A publication Critical patent/KR20200109072A/ko
Application granted granted Critical
Publication of KR102237286B1 publication Critical patent/KR102237286B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 구간 검출장치 및 그 방법에 관한 것이다.
본 발명에 따르면, 음성 구간 검출 장치를 이용한 음성 검출 방법에 있어서, 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 단계, 상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하는 단계, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 단계, 상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 단계, 그리고 상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 단계를 포함한다.

Description

음성 구간 검출장치 및 그 방법{APPARATUS FOR VOICE ACTIVITY DETECTION AND METHOD THEREOF}
본 발명은 음성 구간 검출장치 및 그 방법에 관한 것으로, 녹음된 음성파일을 분석하고, 분석된 음성 파일의 잡음과 음성을 구별하여 음성이 존재하는 구간을 검출하는 음성 구간 검출장치 및 그 방법에 관한 것이다.
음성과 음성이 아닌 구간의 검출하기 위한 기술은 효과적인 음성 압축 기술을 위한 음성 활성도 검출(Voice Activity Detection)방법을 이용하여 다양하게 개시되어 왔다. 이는 음성 프레임의 에너지를 임계치와 비교하여 묵음 구간 및 실 음성 구간으로 구분하는 구성을 포함할 수 있다. 음성과 음성이 아닌 구간의 검출하기 위한 또 다른 기술은 음성 프레임 간의 자기 상관값을 이용하여 음성 구간과 묵음 구간을 판별하는 구성을 포함할 수 있다.
하지만, 이러한 종래의 방법에 따르면, 단순히 임계치를 이용하여 음성 영역을 검출하므로 에러가 발생할 수 있으며, 잡음이 섞이면서 특징벡터들이 크게 변하여 정확한 음성 영역의 검출이 어려운 단점이 있다. 또한, 음성과 음성이 아닌 정보 즉, 묵음을 판별하는 것이기 때문에 음악 및 음향 효과 등이 공존하는 멀티미디어 컨텐츠에 상기 종래의 방법을 적용하는 것은 무리가 있었다.
한편, 음성과 음악을 구분하는 기술은 대부분 음성 인식 시스템의 성능 향상을 위한 전처리 기술로 개발되고 있으며, 기존의 음성/음악 분류 방법을 살펴보면 음악의 주요 특성이라고 생각될 수 있는 시간에 따른 리듬 변화를 이용하여 음성과 음악을 구분하는 방법들을 제안하고 있다. 이러한 방법들은 대체로 음악은 음성의 변화에 비해 상대적으로 느리고 비교적 일정한 간격으로 변한다는 원리를 사용하였기 때문에, 음악의 종류에 따라 템포가 빨라지거나 악기가 달리지는 것에 따라 그 성능이 크게 변할 수밖에 없었다.
따라서, 음성 구간을 정확히 검출하는 알고리즘의 필요성이 대두되고 있다.
본 발명의 배경이 되는 기술은 대한민국 국내공개특허 제10-2017-0124854호(2017.11.13 공개)에 개시되어 있다.
본 발명이 이루고자 하는 기술적 과제는 녹음된 음성파일을 분석하고, 분석된 음성 파일의 잡음과 음성을 구별하여 음성이 존재하는 구간을 검출하는 음성 구간 검출장치 및 그 방법에 관한 것이다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시 예에 따르면, 음성 구간 검출 장치를 이용한 음성 검출 방법에 있어서, 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 단계, 상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하는 단계, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 단계, 상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 단계, 그리고 상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 단계를 포함한다.
상기 전처리 하는 단계는, 상기 음원 신호를 각각의 사용자별로 구분하는 단계, 상기 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하는 단계, 그리고 상기 스케일링된 음원 신호를 절대값으로 변환하는 단계를 포함할 수 있다.
상기 윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며, 상기 파생 변수를 생성하는 단계는, 가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 상기 파생 변수를 생성할 수 있다.
상기 평활화하는 단계는, 상기 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 상기 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지할 수 있다.
상기 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 상기 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지할 수 있다.
상기 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 상기 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 상기 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지할 수 있다.
상기 제1 기준값은 0.8이고, 제2 기준값은 0.6일 수 있다.
본 발명의 다른 실시예에 따르면, 음성 구간을 검출하기 위한 음성 구간 검출 장치에 있어서, 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 전처리부, 상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하고, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 제어부, 상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 평활화부, 그리고 상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 검출부를 포함한다.
이와 같이 본 발명에 따르면, 평활화된 음원 신호를 이용하여 잡음과 음성 구간을 검출할 수 있으며, 검출된 음성의 정확도를 향상시킬 수 있으며, 실시간으로 획득되는 음원에 해당되는 음성 및 노이즈를 구별할 수 있다.
도 1은 본 발명의 실시예에 따른 음성 구간 검출 장치의 구성을 나타낸 구성도이다.
도 2는 본 발명의 실시예에 따른 음성 구간 검출 창치를 이용한 음성 구간 검출 방법을 나타낸 순서도이다.
도 3은 본 발명의 실시예에 따른 도 2의 S210단계를 설명하기 위한 순서도이다.
도 4는 도 3의 S212 단계가 종료된 후 획득한 음원 신호를 나타낸 도면이다.
도 5는 도 3의 S213 단계가 종료된 후 변환된 음성 신호를 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 로지스틱 회귀모델을 설명하기 위한 도면이다
도 7a는 도 2의 S243단계에서 변환된 값이 1일경우 평활화 과정을 설명하기 위한 도면이다.
도 7b는 도 7a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.
도 8a은 도 2의 S245단계에서 변환된 값이 0.5일경우 평활화 과정을 설명하기 위한 도면이다.
도 8b는 도 8a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 음성 구간 검출 장치의 구성을 나타낸 구성도이다.
도 1에서 나타낸 것처럼, 음성구간 검출 장치(100)는 전처리부(110), 제어부(120), 평활화부(130) 및 검출부(140)를 포함한다.
먼저, 전처리부(110)는 사용자로부터 복수의 녹음된 음원 파일을 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리한다.
이때, 전처리부(110)는 사용자로부터 획득한 음원 신호를 각각의 사용자별로 구분하고, 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하며, 상기 스케일링된 음원 신호를 절대값으로 변환한다.
다음으로, 제어부(120)는 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하고, 파생 변수를 로지스틱 회기 모델에 적용하여 해당 음원 신호가 음성일 확률을 예측한다.
여기서, 로지스틱 회귀 모델은 독립변수들의 선형결합을 활용하여 사건의 발생 가능성을 예측하는데 사용하는 통계기법이며, 본 발명의 실시예에서는 음원 신호가 음성일 확률을 예측하기 위해 사용한다.
또한, 제어부(120)는 가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 파생 변수를 생성한다.
여기서, 복수의 윈도우 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며, 사용자가 직접 선택할 수도 있다.
그러면, 평활화부(130)는 제어부(120)로부터 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화한다.
또한, 평활화부(130)는 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지한다.
그리고, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지한다.
또한, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지한다.
이하에서는, 도 2 내지 도 8b를 이용하여 본 발명의 실시예에 따른 음성 검출 방법에 대하여 설명한다.
도 2는 본 발명의 실시예에 따른 음성 구간 검출 창치를 이용한 음성 구간 검출 방법을 나타낸 순서도이다.
먼저, 전처리부(110)는 복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 음원 파일에 저장된 음원 신호를 전처리 한다(S210).
이하에서는 도 3 내지 도 5를 이용하여 전처리부(110)가 음원 신호를 전처리하는 방법에 대하여 설명한다.
도 3은 본 발명의 실시예에 따른 도 2의 S210단계를 설명하기 위한 순서도이다.
도 3에서 나타낸 것처럼, 전처리부(110)는 음원 신호를 각각의 사용자별로 구분한다(S211).
이때, 전처리부(110)는 녹음된 복수의 음원 파일을 획득하고, 사용자 음성의 높낮이, 진폭 및 세기 중에서 어느 하나를 이용하여 사용자를 구분한다.
또한, 전처리부(110)는 녹음된 음원 파일뿐만 아니라 실시간으로 획득하는 음원 파일을 이용할 수 있다.
다음으로, 전처리부(110)는 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링을 한다(S212).
여기서, 전처리부(110)는 로지스틱 회귀 모델을 이용하여 구분된 음원 신호에 대하여 스케일링을 한다.
도 4는 도 3의 S212 단계가 종료된 후 획득한 음원 신호를 나타낸 도면이다.
도 4에서 x축은 시간축을 나타내며, y축은 스케일링된 음원 신호의 크기를 나타낸다.
그러면, 전처리부(110)는 도 4와 같이 음원 신호를 평균이 0이고, 분산이 1인 음원신호로 스케일링 한다.
이때, 스케일링 되는 음원신호는 양의 값 및 음의 값을 가질 수 있다.
그러면, 전처리부(110)는 스케일링된 음원 신호를 절대값으로 변환한다(S213).
도 5는 도 3의 S213 단계가 종료된 후 변환된 음성 신호를 나타낸 도면이다.
도 5에서 나타낸 것처럼, 전처리부(110)는 도 4에서 나타낸 음원 신호에 대하여 절대값을 취하여 0 과 1사이의 양의 값을 가지는 데이터로 변환한다.
또한, x축 및 y축은 도 4에서 나타낸 것과 같은 값을 의미한다.
다음으로, 제어부(120)는 전처리부(110)로부터 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성한다(S220).
여기서, 제어부(120)는 가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 파생 변수를 생성한다.
윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며, 사용자의 선택에 따라서 다양한 크기를 가질 수 있다.
그러면, 제어부(120)는 파생 변수를 로지스틱 회기 모델에 적용하여 음원 신호가 음성일 확률을 예측한다(S230).
도 6은 도 2의 S230 단계에서의 로지스틱 회귀모델을 설명하기 위한 도면이다
로지스틱 회귀 모델은 각각의 독립변수의 선형결합을 이용하여 각각의 사건 발생 확률을 나타낸 것으로, 도 6에서 나타낸 것처럼 각각의 변수 1 내지 30에 해당하는 확률 값으로 나타낸다.
여기서, 제어부(120)는 획득한 확률을 이용하여 음원이 음성 또는 노이즈 여부를 확인한다.
다음으로, 평활화부(130)는 예측된 음성 확률을 기준값과 비교한다(S240).
이하에서는 설명의 편의상 기준값을 0.8 및 0.6으로 예시하여 설명하며, 음성 환경이나 사용자의 선택에 따라서 기준값은 변경될 수 있다.
만일, 평활화부(130)는 예측된 음성 확률이 0.6보다 작으면 전처리된 음원 신호를 노이즈로 판단하여 0으로 변환시킨다(S241).
예를 들어, 예측된 음성 확률이 0.3이면, 평활화부(130)는 전처리된 음원 신호를 노이즈로 판단하고, 음원 신호를 0으로 변환한다.
또한, 평활화부(130)는 예측된 음성 확률이 0.8이상이면, 전처리된 음원 신호를 음성으로 판단하고 음원 신호의 값을 1로 변환시킨다(S242).
예를 들어, 예측된 음성 확률이 0.9이면, 평활화부(130)는 음원 신호의 값을 1로 변환한다.
그러면, 평활화부(130)는 제1 구간 및 제2 구간의 시간합을 기준시간(2초)와 비교하여 0 또는 1로 평활화한다(S243).
즉, 평활화부(130)는 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지한다.
도 7a는 도 2의 S243단계에서 변환된 값이 1일경우 평활화 과정을 설명하기 위한 도면이고, 도 7b는 도 7a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.
예를 들어, 도 7a 에서 나타낸 것처럼, 제1 구간 와 제2 구간의 시간의 합이 1.5초이면, 평활화부(130)는 제1 구간 와 제2 구간에 해당하는 시간의 합이 2초보다 작기 때문에 해당되는 음원 신호를 1로 변경하여 평활화한다.
그러면, 도 7b에서 나타낸 것처럼, 평활화부(130)는 제1 구간 와 제2 구간에 해당되는 음원 신호를 1로 변경하여 평활화한다.
다른 예를 들면, 제1 구간과 제2 구간의 시간의 합이 3초이면, 제1 구간과 제2 구간에 해당되는 시간의 합이 2초보다 크기 때문에 음원 신호의 값을 유지하여 평활화한다.
그리고, 평활화부(130)는 예측된 음성 확률이 0.6이상 0.8미만이면 전처리된 음원 신호를 0.5로 변환시킨다(S244).
예를 들어, 예측된 음성 확률이 0.7이면 평활화부(130)는 음원 신호를 0.5로 변환 시킨다.
그러면, 평활화부(130)는 제3 구간의 시간과 제4 구간의 시간을 기준시간(2초)와 비교하여 0 또는 0.5 또는 1로 평활화한다(S245).
즉, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 제3 구간의 시간이 2초 이상이면, 제3 구간에 해당하는 음원 신호의 값을 그대로 유지한다.
또한, 평활화부(130)는 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 제4 구간의 시간이 2초 미만이면, 제4 구간에 해당하는 음원 신호의 값을 그대로 유지한다.
도 8a은 도 2의 S245단계에서 변환된 값이 0.5일경우 평활화 과정을 설명하기 위한 도면이고, 도 8b는 도 8a의 과정을 통하여 평활화된 음성구간을 설명하기 위한 도면이다.
예를 들어, 도 8a 에서 나타낸 것처럼, 제3 구간에 해당되는 시간이 2.3초이고, 제4 구간에 해당되는 시간이 2.5초이면, 평활화부(130)는 제3 구간에 해당되는 시간이 2초보다 크기 때문에 제3 구간에 해당하는 음원 신호의 값을 유지하고, 제4 구간에 해당하는 시간이 2초보다 크기 때문에 제4 구간에 해당하는 음원 신호의 값을 0으로 변환하여 평활화한다.
다른 예를 들면, 제3 구간에 해당되는 시간이 1.5초이고, 제4 구간에 해당되는 시간이 2.5초이면, 평활화부(130)는 제3 구간에 해당하는 구간의 시간이 2초보다 작기 때문에 1로 평활화하고, 제4 구간에 해당하는 시간이 2초보다 크기 때문에 제4 구간에 해당하는 음원 신호의 값을 0으로 변환하여 평활화한다.
그러면, 도 8b 에서 나타낸 것처럼, 평활화부(130)는 제3 구간과 제4 구간에 해당되는 음원 신호의 값을 변경하여 평활화한다.
그러면, 검출부(140)는 S241, S243, S245를 통하여 평활화된 음원 신호를 최종 음성구간으로 검출한다(S250).
즉, 검출부(140)는 평활화부(130)로부터 평활화된 음성신호를 최종 음성 구간으로 검출한다.
이와 같이 본 발명의 실시예에 따르면, 평활화된 음원 신호를 이용하여 잡음과 음성 구간을 검출 할 수 있으며, 검출된 음성의 정확도를 향상시킬 수 있으며, 실시간으로 획득되는 음원에 해당되는 음성 및 노이즈를 구별할 수 있다.
본 발명은 도면에 도시된 실시 예를 참고로 설명 되었으나 이는 예시적인 것이 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100: 음성 구간 검출 장치, 110: 전처리부,
120: 제어부, 130: 평활화부,
140: 검출부

Claims (14)

  1. 음성 구간 검출 장치를 이용한 음성 검출 방법에 있어서,
    복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 단계,
    상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하는 단계,
    상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 단계,
    상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 단계, 그리고
    상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 단계를 포함하는 음성 검출 방법.
  2. 제1항에 있어서,
    상기 전처리 하는 단계는,
    상기 음원 신호를 각각의 사용자별로 구분하는 단계,
    상기 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하는 단계, 그리고
    상기 스케일링된 음원 신호를 절대값으로 변환하는 단계를 포함하는 음성 검출 방법.
  3. 제1항에 있어서,
    상기 윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며,
    상기 파생 변수를 생성하는 단계는,
    가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 상기 파생 변수를 생성하는 음성 검출 방법.
  4. 제1항에 있어서,
    상기 평활화하는 단계는,
    상기 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 상기 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고,
    상기 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지하는 음성 검출 방법.
  5. 제4항에 있어서,
    상기 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 상기 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 방법.
  6. 제5항에 있어서,
    상기 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 상기 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 상기 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 방법.
  7. 제1항에 있어서,
    상기 제1 기준값은 0.8이고, 제2 기준값은 0.6인 음성 검출 방법.
  8. 음성 구간을 검출하기 위한 음성 구간 검출 장치에 있어서,
    복수의 사용자들로부터 녹음된 복수의 음원 파일을 각각 획득하고, 상기 음원 파일에 저장된 음원 신호를 전처리하는 전처리부,
    상기 전처리된 음원 신호를 이용하여 복수의 윈도우 크기를 가지는 파생 변수를 생성하고, 상기 파생 변수를 로지스틱 회기 모델에 적용하여 상기 음원 신호가 음성일 확률을 예측하는 제어부,
    상기 예측된 음성 확률이 제1 기준값이상이면 전처리된 음원 신호를 음성으로 판단하여 해당 음원 신호를 1로 변환하고, 상기 예측된 음성 확률이 제2 기준값 미만이면 해당 음원 신호를 노이즈로 판단하여 0으로 변환하고, 상기 예측된 음성 확률이 제2 기준값 이상이고 제1 기준값 미만이면 음원 신호를 0.5로 변환하여 평활화 하는 평활화부, 그리고
    상기 평활화된 음원 신호를 최종 음성구간으로 검출하는 검출부를 포함하는 음성 검출 장치.
  9. 제8항에 있어서,
    상기 전처리부는,
    상기 음원 신호를 각각의 사용자별로 구분하고, 상기 구분된 음원 신호에 대하여 평균이 0이고, 분산이 1이 되도록 스케일링하며, 상기 스케일링된 음원 신호를 절대값으로 변환하는 단계를 포함하는 음성 검출 장치.
  10. 제8항에 있어서,
    상기 윈도우의 크기는 50, 100, 200 및 300 중에서 어느 하나로 설정되며,
    상기 제어부는,
    가우시안 윈도우 필터(Gaussian window filter), 사비치-글로리 필터(Savitzky-Golay filter), 이동평균(Moving Average) 및 이동 표준편차(Moving Standard deviation)기법 중에서 어느 하나를 이용하여 상기 파생 변수를 생성하는 음성 검출 장치.
  11. 제8항에 있어서,
    상기 평활화부는,
    상기 1로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제1 구간과 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제2 구간의 합산 시간이 2초보다 작으면, 상기 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 1으로 변환하고,
    상기 제1 구간과 제2 구간의 합산 시간이 2초 이상이면 제1 구간과 제2 구간에 해당되는 음원 신호의 값을 그대로 유지하는 음성 검출 장치.
  12. 제11항에 있어서
    상기 0.5로 변환된 음원 신호를 기준으로 직전에 음원 신호가 1이었던 시점까지에 해당하는 제3 구간의 시간이 2초보다 작으면, 상기 제3 구간에 해당되는 음원 신호의 값을 1으로 변환하고, 상기 제3 구간의 시간이 2초 이상이면, 상기 제3 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 장치.
  13. 제12항에 있어서,
    상기 0.5로 변환된 음원 신호를 기준으로 이후에 음원 신호가 1이 되는 시점까지에 해당하는 제4 구간의 시간이 2초보다 크면, 상기 제4 구간에 해당되는 음원 신호의 값을 0으로 변환하고, 상기 제4 구간의 시간이 2초 미만이면, 상기 제4 구간에 해당하는 음원 신호의 값을 그대로 유지하는 음성 검출 장치.
  14. 제8항에 있어서,
    상기 제1 기준값은 0.8이고, 제2 기준값은 0.6인 음성 검출 장치.
KR1020190028107A 2019-03-12 2019-03-12 음성 구간 검출장치 및 그 방법 KR102237286B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190028107A KR102237286B1 (ko) 2019-03-12 2019-03-12 음성 구간 검출장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190028107A KR102237286B1 (ko) 2019-03-12 2019-03-12 음성 구간 검출장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20200109072A true KR20200109072A (ko) 2020-09-22
KR102237286B1 KR102237286B1 (ko) 2021-04-07

Family

ID=72706739

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190028107A KR102237286B1 (ko) 2019-03-12 2019-03-12 음성 구간 검출장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102237286B1 (ko)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62134699A (ja) * 1985-12-06 1987-06-17 松下電器産業株式会社 音声認識方法
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
KR20090049300A (ko) * 2007-11-13 2009-05-18 삼성전자주식회사 음성 구간 검출 방법 및 장치
WO2010045450A1 (en) * 2008-10-15 2010-04-22 Qualcomm Incorporated Methods and apparatus for noise estimation in audio signals
WO2011077924A1 (ja) * 2009-12-24 2011-06-30 日本電気株式会社 音声検出装置、音声検出方法、および音声検出プログラム
US20140126745A1 (en) * 2012-02-08 2014-05-08 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
KR20170060108A (ko) * 2014-09-26 2017-05-31 사이퍼 엘엘씨 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
KR20170129697A (ko) * 2015-03-19 2017-11-27 인텔 코포레이션 마이크로폰 어레이 스피치 강화 기법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62134699A (ja) * 1985-12-06 1987-06-17 松下電器産業株式会社 音声認識方法
JP2008058876A (ja) * 2006-09-04 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> 音声信号区間推定方法、及びその装置とそのプログラムとその記憶媒体
KR20090049300A (ko) * 2007-11-13 2009-05-18 삼성전자주식회사 음성 구간 검출 방법 및 장치
WO2010045450A1 (en) * 2008-10-15 2010-04-22 Qualcomm Incorporated Methods and apparatus for noise estimation in audio signals
WO2011077924A1 (ja) * 2009-12-24 2011-06-30 日本電気株式会社 音声検出装置、音声検出方法、および音声検出プログラム
US20140126745A1 (en) * 2012-02-08 2014-05-08 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
KR20170060108A (ko) * 2014-09-26 2017-05-31 사이퍼 엘엘씨 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
KR20170129697A (ko) * 2015-03-19 2017-11-27 인텔 코포레이션 마이크로폰 어레이 스피치 강화 기법

Also Published As

Publication number Publication date
KR102237286B1 (ko) 2021-04-07

Similar Documents

Publication Publication Date Title
US7117149B1 (en) Sound source classification
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
Janicki Spoofing countermeasure based on analysis of linear prediction error.
US20030069728A1 (en) Method for detecting emotions involving subspace specialists
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN112397093B (zh) 一种语音检测方法与装置
Lee et al. Dual attention in time and frequency domain for voice activity detection
Jaiswal Performance analysis of voice activity detector in presence of non-stationary noise
US6757651B2 (en) Speech detection system and method
US11776532B2 (en) Audio processing apparatus and method for audio scene classification
EP0614169B1 (en) Voice signal processing device
KR102237286B1 (ko) 음성 구간 검출장치 및 그 방법
KR102295860B1 (ko) 상향식 주의집중과 하향식 주의집중 인공신경망을 이용한 음성 감정 인식 방법 및 장치
EP1391876A1 (en) Method of determining phonemes in spoken utterances suitable for recognizing emotions using voice quality features
JP7159655B2 (ja) 感情推定システムおよびプログラム
AU612737B2 (en) A phoneme recognition system
Vavrek et al. Audio classification utilizing a rule-based approach and the support vector machine classifier
KR20010091093A (ko) 음성 인식 및 끝점 검출방법
Greibus et al. Rule based speech signal segmentation
Steiner et al. Glottal Closure Instant Detection using Echo State Networks
AU2005252714B2 (en) Effective audio segmentation and classification
Buza et al. Algorithm for detection of voice signal periodicity
JPH1097269A (ja) 音声検出装置及び方法
CN117476042A (zh) 由电子设备执行的方法、电子设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant