KR20180067920A - 화성 성분에 기반한 음성 끝점 검출 장치 및 방법 - Google Patents

화성 성분에 기반한 음성 끝점 검출 장치 및 방법 Download PDF

Info

Publication number
KR20180067920A
KR20180067920A KR1020160169356A KR20160169356A KR20180067920A KR 20180067920 A KR20180067920 A KR 20180067920A KR 1020160169356 A KR1020160169356 A KR 1020160169356A KR 20160169356 A KR20160169356 A KR 20160169356A KR 20180067920 A KR20180067920 A KR 20180067920A
Authority
KR
South Korea
Prior art keywords
speech
voice
component
harmonic component
value
Prior art date
Application number
KR1020160169356A
Other languages
English (en)
Inventor
이성주
강병옥
박전규
이윤근
정의석
정훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160169356A priority Critical patent/KR20180067920A/ko
Publication of KR20180067920A publication Critical patent/KR20180067920A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

화성 성분에 기반한 음성 끝점 검출 장치 및 그 방법이 제공되며, 입력 신호에 대한 파워 스펙트럼을 추정하고, 단구간 신호 스펙트럼의 주파수 성분별 에너지 값에 기초하여 화성 성분 정보를 검출하고, 화성 성분 정보를 이용하여 화성 성분 에너지 값 및 잡음 에너지 값을 추정하고, 추정된 화성 성분 에너지 값 및 잡음 에너지 값에 기초하여 입력 프레임에 대한 음성 존재 시 확률과 음성 부재 시 확률에 대한 로그 우도를 추정하고, 로그 우도가 임계값보다 클 경우 음성이 존재하고 그렇지 않은 경우 음성이 존재하지 않은 것으로 판별하여 입력 프레임 별 음성 존재 여부를 판단하며, 입력 프레임별 음성 존재 여부 판단 결과에 기초하여 음성 시작점 및 끝점을 검출한다.

Description

화성 성분에 기반한 음성 끝점 검출 장치 및 방법{SYSTEM AND METHOD FOR END-POINT DETECTION OF SPEECH BASED IN HARMONIC COMPONENT}
본 발명은 음성(speech)의 끝점 검출(end-point detection, EPD)을 처리하는 장치 및 그 방법에 관한 것이다.
음성의 끝점 검출 기술은 입력 신호로부터 음성 구간의 시작점과 끝점을 검출하는 것으로서, 거의 모든 음성 인식 혹은 화자 인증 등의 음성응용분야의 전처리 기술로 사용된다. 이러한, 음성 끝점 검출의 성능에 따라 전체 음성응용시스템의 성능이 좌우될 수 있다.
기존의 음성 끝점 검출 방식은, 신호 처리를 기반으로 하는 끝점검출 방법과 음성/비음성 판별을 기반으로 하는 방법으로 크게 분류할 수 있다.
그 중 음성/비음성 판별을 기반으로 하는 음성 끝점 검출 기술은, 가우시안 혼합 모델(Gaussian mixture model)이나 심층신경망(deep neural network) 등을 이용하여 입력 신호로부터 음성 혹은 비음성 구간을 구별한 후, 음성 구간 정보를 이용하여 음성의 시작점과 끝점을 검출한다. 이러한 방식은, 성능이 매우 우수하다는 장점이 있으나, 가우시안 혼합모델 또는 심층신경망을 학습하기 위한 많은 양의 음성의 데이터 베이스를 필요로 하고 음성/비음성 구간 판별을 위하여 많은 양의 컴퓨팅 자원이 요구된다는 단점이 있다.
반면, 신호 처리를 기반으로 하는 음성 끝점 검출 방식은, 음향 모델 기반의 방식에 비해 아주 적은 컴퓨팅 자원을 이용하여 매우 효율적으로 그 시스템을 구성할 수 있고, 모델 학습을 위한 음성데이터 베이스를 필요로 하지 않는 장점이 있다. 그러나 신호 처리에 기반함에 따라 잡음의 에너지 레벨이 높은 잡음 환경에서는 그 성능이 크게 저하되는 단점을 가지고 있다.
따라서, 음향 모델 기반의 음성 끝점 검출 방식의 단점을 해결하면서도, 신호 처리 방법에 기반한 음성 끝점 검출 방식의 한계를 극복할 수 있는 효율적인 음성 끝점 검출 기술의 개발이 필요하다.
본 발명의 일 실시예는 기존의 신호 처리 방식에 기반한 음성 끝점 검출 시 잡음 환경에서의 단점을 해결하기 위하여, 배경 잡음에 강인한 음성의 화성 성분 (harmonic components) 검출에 기반한 음성 끝점 검출 장치 및 그 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 화성 성분에 기반한 음성 끝점 검출 방법은, 입력 신호에 대한 파워 스펙트럼을 추정하는 단계; 단구간 신호 스펙트럼의 주파수 성분 별 에너지 값에 기초하여 화성 성분 정보를 검출하는 단계; 상기 화성 성분 정보를 이용하여 화성 성분 에너지 값 및 잡음 에너지 값을 추정하는 단계; 상기 추정된 화성 성분 에너지 값 및 잡음 에너지 값에 기초하여, 입력 프레임에 대한 음성 존재 시 확률과 음성 부재 시 확률에 대한 로그 우도를 추정하는 단계; 상기 로그 우도가 임계값보다 클 경우 음성이 존재하고 그렇지 않은 경우 음성이 존재하지 않는 것으로 판별하여 입력 프레임 별 음성 존재 여부를 판단하는 단계; 및 상기 입력 프레임 별 음성 존재 여부 판단 결과에 기초하여 음성 시작점 및 끝점을 검출하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 인간의 음성에서 나타나는 음성의 화성 성분은 비교적 좁은 주파수 대역폭에 존재하나 다른 배경 잡음에 비해 그 에너지 레벨이 높아 음성과 비음성을 구분하는데 유효하므로, 음성의 화성 성분 검출을 통해 배경 잡음 환경에 강인하면서 계산량 측면에서 효율적인 음성의 끝점 검출을 수행할 수 있다.
[01] 도 1은 본 발명의 일 실시예에 따른 음성 끝점 검출 장치의 구성도이다.
[02] 도 2는 본 발명의 일 실시예에 따른 정점 값 검출 방식을 설명하기 위한 단구간 신호 스펙트럼의 일례이다.
[03] 도 3은 본 발명의 일 실시예에 따른 음성 신호 구간의 시작점 및 끝점 검출에 필요한 상태 천이도(state transition diagram)를 나타낸 도면이다.
[04] 도 4는 본 발명의 일 실시예에 따른 음성 끝점 검출 방식의 성능을 나타낸 도면이다.
[05] 도 5는 본 발명의 일 실시예에 따른 화성 성분에 기반한 음성 끝점 검출 방법을 설명하기 위한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 본 발명을 명확하게 설명하기 위해 도면에서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 도면을 참고하여 설명하면서, 같은 명칭으로 나타낸 구성일지라도 도면에 따라 도면 번호가 달라질 수 있고, 도면 번호는 설명의 편의를 위해 기재된 것에 불과하고 해당 도면 번호에 의해 각 구성의 개념, 특징, 기능 또는 효과가 제한 해석되는 것은 아니다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 명세서에 있어서 '부(部)' 또는 '모듈'이란, 하드웨어 또는 소프트웨어에 의해 실현되는 유닛(unit), 양방을 이용하여 실현되는 유닛을 포함하며, 하나의 유닛이 둘 이상의 하드웨어를 이용하여 실현되어도 되고, 둘 이상의 유닛이 하나의 하드웨어에 의해 실현되어도 된다.
도 1은 본 발명의 일 실시예에 따른 화성 성분에 기반한 음성 끝점 검출 장치의 구성도이다.
도 1에 도시한 바와 같이, 음성 끝점 검출 장치(100)는 신호 입력 모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.
신호 입력 모듈(110)은 연속하여 입력되는 오디오 신호를 일정 구간 단위로 시간 영역에서 주파수 영역으로 변환하여, 입력 신호에 대한 단구간 신호 스펙트럼(short time signal spectrum)을 프로세서(130)로 전달한다.
메모리(120)에는 입력 신호에 대해서 음성의 화성 성분을 검출하고, 검출된 화성 성분에 기초하여 음성 끝점을 검출하는 음성 끝점 검출 프로그램이 저장되어 있다. 이때, 음성 화성 성분 검출 및 음성 끝점 검출을 처리하는 프로그램은 하나의 프로그램으로 구현될 수 있으며, 별개의 프로그램이 서로 연동하여 동작하는 것도 가능하다.
이러한 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 또는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다.
프로세서(130)는 메모리(120)에 저장된 프로그램을 실행하여 그에 대응하는 처리들을 수행한다.
먼저, 프로세서(130)가 음성 끝점 검출 프로그램의 실행에 대응하여 입력 신호로부터 음성의 화성 성분을 검출하는 방식에 대해서 설명하도록 한다.
음성의 화성 성분을 검출하기 위하여 입력 신호에 대해 정점 표시(peak marking)를 처리한다.
구체적으로, 단구간 신호 스펙트럼(Short time signal spectrum)이 입력되면, 다음의 조건 1을 만족하는 주파수 성분에 대해 정점 표시(peak marking)을 수행한다. 참고로, 스펙트럼 에너지 값의 정점은 주변의 에너지 값에 비해 그 값이 항상 크게 나타나는 특성을 가지고 있다. 아래의 조건 1은 이러한 스펙트럼 에너지 값의 특성을 이용하여 정점 표시를 수행하기 위한 조건이다.
[조건 1]
Figure pat00001
위의 조건 1에서와 같이, 주파수 성분 i의 에너지 X(i)가 X(i-1) 및 X(i-1) 보다 각각 클 경우 해당 주파수 성분 i를 정점으로 판단하여 정점 값peak(i)으로서 1을 부여하고, 그렇지 않은 경우 peak(i)의 값은 0을 부여한다.
도 2는 본 발명의 일 실시예에 따른 정점 값 검출 방식을 설명하기 위한 신호 스펙트럼의 일례이다.
도 2에 도시한 바와 같이, 주변 주파수 성분들에 비해 높은 스펙트럼의 진폭(spectral amplitude) 값을 갖는 주파수 성분에 대해서는 해당 진폭 값(도 2에서는 '원'으로 표시)이 각각 정점으로 마킹될 수 있다.
다음으로, 단구간 신호 스펙트럼에 대해서 하기 수학식 1과 같은 내림(floor) 값을 산출한다. 이러한 주파수 성분별 내림 값은 화성 성분을 검출하기 위한 중요 특성이 된다.
Figure pat00002
위의 수학식 1에서는 임의의 주파수 성분 i의 주변 주파수 성분인 i-2, i-1, i+1, i+2 각각의 에너지 값에 대한 평균을 내림(floor) 연산한 값을 산출한다.
그리고, 다음의 조건 2에 따라, 스펙트럼의 내림(floor)값과 앞서 조건 1에서 검출한 스펙트럼 정점 값(peak value)을 이용하여 음성의 화성 성분을 검출한다.
[조건 2]
Figure pat00003
위의 조건 2에서 HTH는 사전에 정의된 임계값을 나타내며 h(i)는 검출된 음성의 화성 성분의 정보를 나타낸다. 즉, 주파수 성분 i의 정점 값 peak(i)가 1이면, 에너지 값 X(i)와 내림 값f(i)의 차의 로그 값이 기설정된 임계값보다 큰 경우 화성 성분 값 h(i)으로써 1을 부여하고, 그렇지 않은 경우 h(i)의 값으로 0을 부여한다.
그런 다음, 이상의 조건 1 및 2에 기초하여 검출된 화성 성분의 주기성을 판별한다.
음성의 화성 성분은 주파수 축에서 주기적으로 나타나는 특성을 가지기 때문에, 입력 신호에서 검출된 화성 성분이 주기적인 경우 해당 입력 신호 구간이 음성 구간이라 판단할 수 있다.
다음의 수학식 2에 기초하여 화성 성분의 수를 산출한다.
Figure pat00004
이때, 산출된 화성 성분의 개수가 사전에 설정된 정의된 임계값을 넘는 경우, 화성 성분의 주기성을 추정하는 주기성 검사를 처리하고, 그렇지 않은 경우 배경 잡음 구간으로 판단한다.
화성 성분의 주기성 검사는, 앞서 조건 2에 기초하여 검출된 화성 성분 정보 h(i)에 대하여, 하기 수학식 3에서와 같은 자기상관함수를 연산하여 처리될 수 있다.
Figure pat00005
이때, 임의의 주파수 구간(예: 60~600Hz 구간)에서 계산된 자기상관함수 R(k)가 "H_WEIGHT*R(0)" 보다 큰 경우, 해당 입력 신호 구간을 음성으로 판단한다. 이때, H_WEIGHT는 0과 1 사이의 상수 값을 나타낸다.
단구간 신호 스펙트럼 정보를 이용하여 위의 단계들을 거쳐 해당 입력 프레임이 음성으로 검출된 경우, 화성 성분이라 마킹된 주파수 성분에 해당되는 스펙트럼 에너지 X(i)로부터 화성 성분의 에너지 정보를 추정할 수 있다.
다음으로, 프로세서(130)가 음성 끝점 검출 프로그램의 실행에 대응하여, 앞서 검출된 화성 성분을 이용하여 음성의 끝점을 검출하는 방식에 대해서 설명하도록 한다.
입력 신호에 대해서 음성 부재 혹은 음성 존재 시 입력 에너지는 다음의 수학식 4와 같이 가정할 수 있다.
Figure pat00006
이처럼, 음성 부재 시에는 배경 잡음만 입력되어 X=N으로 표현되는 반면, 음성 존재 시는 배경 잡음과 음성의 화성 성분이 더해져 X=N+H로 입력된다. 이때, 음성의 화성 성분 에너지는 앞서 검출된 화성 성분으로부터 쉽게 구할 수 있다.
다음의 수학식 5를 통해, 음성 존재 시 입력 에너지의 확률과 음성 부재 시의 조건부 확률을 나타낼 수 있다.
Figure pat00007
여기서 λ N 은 배경 잡음의 에너지를 나타내고 λ H 는 음성의 순수한 화성 성분만의 에너지를 나타낸다.
음성의 존재 확률과 부재 확률의 우도비(likelihood ratio)는 하기 수학식 6과 같이 나타낼 수 있다.
Figure pat00008
수학식 6에서와 같이 우도비는 음성 존재 시 입력 에너지의 확률을 음성 부재 시의 확률로 나눈 값에 비례한다.
여기서 이전 신호대잡음비(prior SNR)는 결정 검출(decision direct) 방식을 이용하여 하기 수학식 7과 같이 구할 수 있다.
Figure pat00009
여기서,
Figure pat00010
은 최소평균제곱에러(Minimum Mean-Square Error, MMSE) 방식을 이용하여 추정한 n-1번째 프레임의 음성 화성 성분만의 순수 에너지를 나타낸다.
이상의 과정을 거쳐 산출된 음성의 존재 확률과 부재 확률의 우도비(likelihood ratio)를 로그 값으로 변환하고, 변환된 로그 우도(log-likelihood ratio, LLR)와 기설정된 임계값을 비교하여 로그 우도가 임계값보다 크면 음성이 존재하는 것으로 판단하고, 그렇지 않은 경우 음성이 존재하지 않는 것으로 판단할 수 있다.
또한, 상기 산출된 로그 우도는 배경 잡음의 에너지 λN를 추정하는데 이용될 수 있다. 이때, 배경 잡음의 에너지 추정을 위해 입력 스펙트럼 에너지의 평균을 이용한다. 배경 잡음 환경이 시간에 따라 변화하는 현상에 대처하기 위해서 최소 통계(minimum statistics)를 이용한 배경 잡음 업데이트 방식도 병행하여 사용할 수 있다.
도 3은 본 발명의 일 실시예에 따른 음성 신호 구간의 시작점 및 끝점 검출에 필요한 상태 천이도(state transition diagram)를 나타낸 도면이다.
도 3에는, 로그 우도 테스트(LLR test)를 거쳐 얻어진 음성(1) 혹은 비음성(0) 정보를 이용하여, 음성 신호 구간의 시작점과 끝점을 검출하는 필요한 상태도(state diagram)를 나타내었다.
도 4는 본 발명의 일 실시예에 따른 음성 끝점 검출 방식의 성능을 나타낸 도면이다.
도 4의 (a) 및 (b)의 그래프는 각각 기존의 끝점 검출 시스템(도 4에서는 "Previous"라고 나타냄)과 본 발명의 일 실시예에 따른 화성 성분에 기반한 끝점 검출 시스템(도 4에서는 "harmonic based"라고 나타냄)의 성능을 비교하였으며, 끝점 검출 시스템의 성능을 그로스 정확도 비율(gross accuracy rate)로 나타내었다. 여기서, gross accuracy rate는 시작점과 끝점의 정확도를 플러스/마이너스 50프레임 오차를 허용하여 측정한 것으로서, 도 4의(a) 및 (b) 그래프 상의 세로축에 해당한다.
또한, 도 4의(a) 및 (b) 그래프 상에서 가로축의 조건은 다음과 같은 예시들을 포함한다.
먼저, 도 4의 (a)에서 'S_SIL'는 잡음이 없는 조용한 환경을 의미하고, 'S_TVI'는 거실에서 TV가 켜져 있으나 TV 볼륨이 비교적 높지 않은 환경을 의미하고, 'S_RES'는 식당에서 발생하는 잡음으로 잡음 레벨이 비교적 높지 않은 환경을 의미하고, 'S_BUS'는 버스 내에서 발생하는 잡음으로 잡음 레벨이 비교적 높지 않은 환경을 의미하며, 'S_SUB'는 지하철 내에서 발생하는 잡음으로 잡음 레벨이 비교적 높지 않은 환경을 의미한다.
다음으로, 도 4의 (b)에서 'S_SIL'는 잡음이 없는 조용한 환경을 의미하고, 'L_TVI'는 거실에서 TV가 켜져 있고 TV 볼륨이 높은 환경을 의미하고, 'L_RES'는 식당에서 발생하는 잡음의 잡음 레벨이 높은 환경을 의미하고, 'L_BUS'는 버스 내에서 발생하는 잡음의 잡음 레벨이 높은 환경을 의미하며, 'L_SUB'는 지하철 내에서 발생하는 잡음으로 잡음 레벨이 비교적 높은 환경을 의미한다.
도 4에서는 기존의 끝점 검출 알고리즘으로서 노이즈 러버스트 밴드 에너지(noise robust band energy)와 영교차율(zero-crossing rate)를 특징으로 이용하는 음성의 끝점검출방식을 나타내었다.
도 4에서 가정한 환경에서의 실험 결과, 식당환경을 제외한 모든 환경에서 본 발명의 일 실시예에 따른 화성 성분에 기초한 음성 끝점 검출 방식의 성능이 우수하다는 것을 확인할 수 있다. 이처럼, 본 발명의 일 실시예에 따른 화성 성분에 기초한 음성 끝점 검출 방식은 다양한 환경에서 강인한 특성을 가지고 있으며, 특히 버스 환경과 같은 자동차 환경하에서 기존의 음성 끝점 검출 방식에 비해 그 성능이 매우 우수함을 알 수 있다.
이하, 도 5를 참조하여 본 발명의 일 실시예에 따른 화성 성분 기반의 음성 끝점 검출 장치(100)를 통한 음성 끝점 검출 방법에 대해서 상세히 설명하도록 한다.
도 5는 본 발명의 일 실시예에 따른 화성 성분에 기반한 음성 끝점 검출 방법을 설명하기 위한 순서도이다.
먼저, 연속하는 입력 신호(input signal)가 입력되면, 입력 신호를 일정 구간 단위로 시간 영역에서 주파수 영역으로 변환하여 파워 스펙트럼을 추정한다(power spectrum estimation)(S510).
그런 다음, 단구간 신호 스펙트럼에 대해 화성 성분을 검출한다(harmonic component detection)(S520).
이때, 단구간 신호 스펙트럼에 대해 주파수 성분 중 전/후 주변 주파수 성분보다 에너지 값이 큰 주파수 성분에 대해 정점 표시를 처리하고, 전/후 주변 주파수 성분의 에너지 값 평균에 대한 내림 연산 값을 산출하고, 정점인 주파수 성분들에 대해 에너지 값과 내림 값의 차이에 대한 로그 값에 기초하여 화성 성분 여부를 검출한다. 또한, 검출된 화성 성분에 기초하여 해당 입력 프레임 내 화성 성분의 주기성을 판별하여 음성 여부를 판단하되, 해당 입력 프레임 내 화성 성분의 개수가 임계값보다 클 경우 화성 성분에 대한 자기상관함수를 계산하여 자기상관함수 값에 기초하여 입력 프레임에 대한 음성 여부를 판단한다.
다음으로, 단구간 신호 스펙트럼 정보들을 이용하여, 입력 프레임에서 음성 존재 시의 화성 성분으로 마킹된 주파수 성분의 스펙트럼 에너지를 이용하여 화성 성분의 에너지 값을 추정한다(harmonic energy estimation)(S530).
또한, 단구간 신호 스펙트럼 정보들을 이용하여, 입력 프레임에서 음성 부재 시의 잡음 에너지 값을 추정한다(noise energy estimation).
그런 다음, 추정된 화성 성분 에너지 및 잡음 에너지에 기초하여 음성 존재 시의 확률과 음성 부재 시의 조건부 확률에 대한 우도비를 산출하고, 산출된 우도비를 로그 값으로 변환하여 로그 우도를 추정한다(log likelihood ratio estimation)(S540).
다음으로, 추정된 로그 우도를 기설정된 임계값과 비교하는 로그 우도 테스트를 처리하여, 로그 우도가 임계값보다 큰 경우 입력 프레임에 음성이 존재하는 것으로 판단하고, 그렇지 않은 경우 입력 프레임에 음성이 존재하지 않는 것으로 판단한다(S550).
다음으로, 입력 프레임별 로그 우도에 기초한 음성 존재 여부 판단 결과에 기초하여 음성 시작점 및 끝점을 검출한다(speech boundary detection)(S560).
이상에서 설명한 본 발명의 일 실시예에 따른 화성 성분에 기반한 음성 끝점 검출 장치 및 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독이 가능한 기록 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있으며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 음성 끝점 검출 장치
110: 신호 입력 모듈
120: 메모리
130: 프로세서

Claims (1)

  1. 화성 성분에 기반한 음성 끝점 검출 방법에서,
    입력 신호에 대한 파워 스펙트럼을 추정하는 단계;
    단 구간 신호 스펙트럼의 주파수 성분별 에너지 값에 기초하여 화성 성분 정보를 검출하는 단계;
    상기 화성 성분 정보를 이용하여 화성 성분 에너지 값 및 잡음 에너지 값을 추정하는 단계;
    상기 추정된 화성 성분 에너지 값 및 잡음 에너지 값에 기초하여, 입력 프레임에 대한 음성 존재 시 확률과 음성 부재 시 확률에 대한 로그 우도를 추정하는 단계;
    상기 로그 우도가 임계값보다 클 경우 음성이 존재하고 그렇지 않은 경우 음성이 존재하지 않은 것으로 판별하여 입력 프레임별 음성 존재 여부를 판단하는 단계; 및
    상기 입력 프레임별 음성 존재 여부 판단 결과에 기초하여 음성 시작점 및 끝점을 검출하는 단계를 포함하는, 화성 성분에 기반한 음성 끝점 검출 방법.
KR1020160169356A 2016-12-13 2016-12-13 화성 성분에 기반한 음성 끝점 검출 장치 및 방법 KR20180067920A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160169356A KR20180067920A (ko) 2016-12-13 2016-12-13 화성 성분에 기반한 음성 끝점 검출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160169356A KR20180067920A (ko) 2016-12-13 2016-12-13 화성 성분에 기반한 음성 끝점 검출 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20180067920A true KR20180067920A (ko) 2018-06-21

Family

ID=62806593

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160169356A KR20180067920A (ko) 2016-12-13 2016-12-13 화성 성분에 기반한 음성 끝점 검출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20180067920A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292758A (zh) * 2019-03-12 2020-06-16 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN112489692A (zh) * 2020-11-03 2021-03-12 北京捷通华声科技股份有限公司 语音端点检测方法和装置
CN113496706A (zh) * 2020-03-19 2021-10-12 北京字节跳动网络技术有限公司 音频处理方法、装置、电子设备及存储介质
CN113539300A (zh) * 2020-04-10 2021-10-22 宇龙计算机通信科技(深圳)有限公司 基于噪声抑制的语音检测方法、装置、存储介质以及终端
CN116095254A (zh) * 2022-05-30 2023-05-09 荣耀终端有限公司 音频处理方法和装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292758A (zh) * 2019-03-12 2020-06-16 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN111292758B (zh) * 2019-03-12 2022-10-25 展讯通信(上海)有限公司 语音活动检测方法及装置、可读存储介质
CN113496706A (zh) * 2020-03-19 2021-10-12 北京字节跳动网络技术有限公司 音频处理方法、装置、电子设备及存储介质
CN113496706B (zh) * 2020-03-19 2023-05-23 抖音视界有限公司 音频处理方法、装置、电子设备及存储介质
CN113539300A (zh) * 2020-04-10 2021-10-22 宇龙计算机通信科技(深圳)有限公司 基于噪声抑制的语音检测方法、装置、存储介质以及终端
CN112489692A (zh) * 2020-11-03 2021-03-12 北京捷通华声科技股份有限公司 语音端点检测方法和装置
CN116095254A (zh) * 2022-05-30 2023-05-09 荣耀终端有限公司 音频处理方法和装置
CN116095254B (zh) * 2022-05-30 2023-10-20 荣耀终端有限公司 音频处理方法和装置

Similar Documents

Publication Publication Date Title
KR20180067920A (ko) 화성 성분에 기반한 음성 끝점 검출 장치 및 방법
US11670325B2 (en) Voice activity detection using a soft decision mechanism
US9953661B2 (en) Neural network voice activity detection employing running range normalization
US10510363B2 (en) Pitch detection algorithm based on PWVT
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
JP6413741B2 (ja) 振動発生源推定装置、方法およびプログラム
CN109801646B (zh) 一种基于融合特征的语音端点检测方法和装置
US20160365088A1 (en) Voice command response accuracy
CN105810201B (zh) 语音活动检测方法及其系统
CN109616098B (zh) 基于频域能量的语音端点检测方法和装置
KR102188620B1 (ko) 누락 데이터에 대한 사인곡선 보간
JP4871191B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
KR102096533B1 (ko) 음성 구간을 검출하는 방법 및 장치
KR101559716B1 (ko) 전력레벨 차이비율을 이용한 이격 듀얼 마이크 기반의 음성 활성도 검출 방법 및 음성활성도 검출 장치
JP5936378B2 (ja) 音声区間検出装置
Eaton et al. A comparison of non-intrusive SNR estimation algorithms and the use of mapping functions
JP5134477B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
KR102424795B1 (ko) 음성 구간 검출 방법
JP2019060976A (ja) 音声処理プログラム、音声処理方法および音声処理装置
KR101083706B1 (ko) 투영오차를 이용한 고유분해 기반의 음성 검출 시스템 및 그의 제어 방법
Okamoto et al. A detection of danger sounds based on variable-state hidden Markov models
JP2018013683A (ja) 音声区間検出装置、音声区間検出方法、及びプログラム
JP6679881B2 (ja) 雑音推定装置、プログラム及び方法、並びに、音声処理装置
JP2017067844A (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置