KR100800873B1 - 음성 신호 검출 시스템 및 방법 - Google Patents

음성 신호 검출 시스템 및 방법 Download PDF

Info

Publication number
KR100800873B1
KR100800873B1 KR1020050102583A KR20050102583A KR100800873B1 KR 100800873 B1 KR100800873 B1 KR 100800873B1 KR 1020050102583 A KR1020050102583 A KR 1020050102583A KR 20050102583 A KR20050102583 A KR 20050102583A KR 100800873 B1 KR100800873 B1 KR 100800873B1
Authority
KR
South Korea
Prior art keywords
peaks
micro
peak
signal
voice
Prior art date
Application number
KR1020050102583A
Other languages
English (en)
Other versions
KR20070045846A (ko
Inventor
김현수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050102583A priority Critical patent/KR100800873B1/ko
Priority to JP2006271127A priority patent/JP4545729B2/ja
Priority to US11/542,866 priority patent/US7739107B2/en
Priority to DE602006000487T priority patent/DE602006000487T2/de
Priority to EP06122828A priority patent/EP1780704B1/en
Priority to CNA2006101427048A priority patent/CN1956055A/zh
Publication of KR20070045846A publication Critical patent/KR20070045846A/ko
Application granted granted Critical
Publication of KR100800873B1 publication Critical patent/KR100800873B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L15/00Devices or apparatus for measuring two or more fluid pressure values simultaneously
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

본 발명은 음성 신호 검출 시스템 및 방법에 있어서, 입력 신호에서 피크를 추출하고, 상기 추출된 피크들의 전압 레벨을 미리 결정된 임계 전압 레벨과 비교하여 그 비교 결과를 이진 시퀀스로 변환하며, 상기 변환된 이진 시퀀스를 검사하기 위한 테스트 윈도우 길이를 결정하고 상기 테스트 윈도우 길이 단위로 마이크로 이벤트를 검출하여 연결하고, 링크된 마이크로 이벤트들의 시작점 및 끝점을 검출하여 음성 신호의 시작점 및 끝점을 판단한다. 따라서 본 발명은 시간축의 피크 특징 정보 추출과 분석을 이용한 음성 검출 방법을 제시함으로써, 간단한 샘플 크기 비교에 의해 적은 계산량으로 찾아낼 수 있을 뿐만이 아니라, 항상 잡음의 위에 높이 존재하며 잡음에 매우 강인한 음성 검출 방법을 제공할 수 있는 효과가 있다.
음성 검출 시스템, 시간축, 피크 정보, 임계 전압 레벨, 마이크로 이벤트

Description

음성 신호 검출 시스템 및 방법{VOICE SIGNAL DETECTING SYSTEM AND METHOD}
도 1은 본 발명의 실시 예에 따른 음성 신호 검출 시스템의 블록 구성도
도 2는 본 발명의 실시 예에 따른 배경 잡음의 피크 분포를 이용한 임계 전압 레벨 결정 과정에 대한 흐름도
도 3은 본 발명의 실시 예에 따른 배경 잡음 신호에 대한 피크들과 그 피크들의 전압 레벨에 대한 히스토그램을 나타낸 도면
도 4는 본 발명의 실시 예에 따른 임계 전압 레벨을 이용한 음성 검출 방법에 대한 흐름도
도 5는 본 발명의 실시 예에 따른 배경 잡음의 피크에 대한 확률 밀도 그래프 일예도
도 6은 본 발명의 실시 예에 따른 잡음 신호와 음성과 잡음이 혼합된 신호 각각에 대한 확률 밀도 함수 그래프 일예도
도 7은 본 발명의 실시 예에 따른 여러 가지 세팅에 대한 음성 신호 검출결과를 나타낸 도면
본 발명은 음성 신호 검출 시스템 및 방법에 관한 것으로, 특히 시간축에서의 피크 정보를 이용하여 음성 신호를 검출하는 음성 신호 검출 시스템 및 방법에 관한 것이다.
최근 음성 신호를 이용하는 다양한 시스템이 개발되고 있으며, 음성 신호를 이용하는 시스템에서는 음성 신호를 바탕으로 코딩, 인식, 강화 등과 같은 음성 신호를 이용한 응용 프로세스를 수행한다. 이에 따라 음성 신호를 이용하는 시스템에서는 음성 신호의 검출이 가장 기본적이고 정확하게 이루어져야 하며, 이를 위해 음성 신호를 정확하고 효율적으로 검출할 수 있는 방법에 대한 연구가 계속되고 있다.
통상적으로 이용되는 음성 신호 검출 방법은 예를 들면, 입력 신호의 에너지를 이용하거나, 입력 신호의 영점 교차율(Zero Crossing Rate)을 이용하는 방법이 있다. 에너지를 이용하는 방법은 입력 신호의 에너지를 측정하고, 에너지 측정치가 높아지면 에너지 측정치가 높은 부분을 음성 신호로 검출하는 방법이다. 영점 교차율을 이용하는 방법은 입력 신호의 영점 축 통과율을 측정하여 입력 신호의 영점 축 통과율이 높은 부분을 음성 신호로 검출하는 방법이다. 최근에는 음성 신호 검출 정확도를 높이기 위해 상기한 바와 같은 두 가지 방법을 조합한 방법도 많이 이용되고 있다.
그런데 상기한 바와 같은 음성 신호 검출 방법들은 잡음이 존재하는 상황에 서는 음성 검출의 정확도가 낮다. 예를 들어 에너지 측정치가 높은 부분을 음성 신호로 검출하는 방법은 잡음 신호에 의해 에너지를 고려하지 않기 때문에 잡음 신호에 의한 에너지가 높아지면 잡음 신호가 음성 신호로 판단될 수도 있고, 음성 신호가 잡음 신호로 판단될 수도 있다.
또한, 영점 교차율이 높은 부분을 음성 신호로 검출하는 방법도 영점 교차가 잡음 신호에 의한 것인지 실제 음성 신호에 의한 것인지 판단할 수 없으므로, 잡음 신호에 의해 영점 교차율이 높아지면 잡음 신호가 음성 신호로 판단될 수도 있고, 음성 신호가 잡음 신호로 판단될 수도 있다.
상기한 바와 같이 잡음 신호가 음성 신호로 판단되는 경우를 가산 에러(additive error)라고 하고, 음성 신호가 잡음 신호로 판단되는 경우를 감산 에러(subtractive error)라고 하는데 가산 에러의 경우 부가적인 처리를 통해 잡음 신호를 걸러낼 수 있지만, 감산 에러의 경우 음성 신호가 이미 잡음 신호로 판단되어 손실된 상태이므로 복구할 수 없는 경우가 많다. 따라서 감산 에러를 원천적으로 방지할 수 있는 음성 검출 기술이 요구되고 있다.
또한 상기한 바와 같은 종래 음성 신호 검출 방법들은 주로 프레임(frame) 단위로 음성 신호를 검출하는데, 프레임 단위로 음성 신호를 검출하게 되면 프레임 단위보다 작은 단위의 에러가 발생해도, 프레임 단위의 에러로 인식되어 에러에 민감하다. 또한 상기한 바와 같은 종래 음성 신호 검출 방법들은 하나의 고정된 방법을 이용하여 음성 신호를 검출하는 것이므로, 정해진 알고리즘이 실패할 경우에 그 에러가 그대로 다음 단의 프로세스에 전달되어 에러가 누적되는 문제점이 있다.
따라서 본 발명에서는 잡음이 존재하는 상황에서도 음성 신호를 정확히 검출하는 음성 신호 검출 시스템 및 음성 신호 검출 시스템에서 시간축 피크 정보를 이용한 음성 신호 검출 방법을 제공하고자 한다.
또한 본 발명에서는 음성 신호가 잡음 신호로 판단되는 감산 에러를 방지하는 음성 신호 검출 시스템 및 음성 신호 검출 시스템에서 시간축 피크 정보를 이용한 음성 신호 검출 방법을 제공하고자 한다.
또한 본 발명에서는 프레임 단위가 아닌 샘플 단위로 음성 신호를 검출하여 에러의 영향을 적게 받는 음성 신호 검출 시스템 및 음성 신호 검출 시스템에서 시간축 피크 정보를 이용한 음성 신호 검출 방법을 제공하고자 한다.
또한 본 발명에서는 이전 음성 신호 검출 시의 에러가 다음 음성 신호 검출 시에 영향을 미치지 않도록 에러 누적을 방지하는 음성 신호 검출 시스템 및 음성 신호 검출 시스템에서 시간축 피크 정보를 이용한 음성 신호 검출 방법을 제공하고자 한다.
상기의 목적을 달성하기 위한 본 발명은 음성 신호 검출 시스템에 있어서, 입력 신호에서 피크를 추출하는 피크 추출부와, 상기 추출된 피크들의 전압 레벨을 미리 결정된 임계 전압 레벨과 비교하여 그 비교 결과를 이진 시퀀스로 변환하는 피크 검출부와, 상기 변환된 이진 시퀀스를 검사하기 위한 테스트 윈도우 길이를 결정하고 상기 테스트 윈도우 길이 단위로 마이크로 이벤트를 검출하는 마이크로 이벤트 검출부와, 상기 검출된 마이크로 이벤트들을 링크하는 마이크로 이벤트 링크부와, 상기 링크된 마이크로 이벤트들의 시작점 및 끝점을 검출하여 음성 신호의 시작점 및 끝점을 판단하는 음성 신호의 시작점 및 끝점 검출부를 포함함을 특징으로 한다.
또한 본 발명은 음성 신호 검출 방법에 있어서, 입력 신호에서 피크를 추출하는 과정과, 상기 추출된 피크들의 전압 레벨을 미리 결정된 임계 전압 레벨과 비교하여 그 비교 결과를 이진 시퀀스로 변환하는 과정과, 상기 변환된 이진 시퀀스를 검사하기 위한 테스트 윈도우 길이를 결정하고 상기 테스트 윈도우 길이 단위로 마이크로 이벤트를 검출하는 과정과, 상기 검출된 마이크로 이벤트들을 링크하는 과정과, 상기 링크된 마이크로 이벤트들의 시작점 및 끝점을 검출하여 음성 신호의 시작점 및 끝점을 판단하는 과정을 포함한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다. 도면에서 동일한 구성요소들에 대해서는 비록 다른 도면에 표시되더라도 가능한 동일한 참조번호 및 부호로 나타내고 있음에 유의해야 한다. 또한 본 발명을 설명함에 있어서 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
도 1은 본 발명의 실시 예에 따른 음성 신호 검출 시스템의 블록 구성도이다. 도 1을 참조하면, 본 발명의 실시 예에 따른 음성 신호 검출 시스템은 피크 추출부(102), 배경 잡음 히스토그램 생성부(122), 피크 검출 임계 전압 레벨 결정부(124), 피크 검출부(104), 마이크로 이벤트 검출부(106), 마이크로 이벤트 연결부(108), 음성 시작점 및 끝점 판단부(110)를 포함한다.
피크 추출부(102)는 입력 신호의 피크 추출을 위한 윈도우 길이(T)를 결정하고, 신호를 입력받아 입력 신호에서 피크를 추출한다. 본 발명의 실시 예에서는 입력 신호에 배경 잡음만이 존재하는 경우(null hypothesis) 그 입력 신호를 H0라고 하고, 입력 신호에 배경 잡음과 음성 신호가 모두 존재하는 경우(alternative hypothesis) 그 입력 신호를 H1이라고 한다.
배경 잡음 히스토그램 생성부(122)는 배경 잡음만이 존재하는 입력 신호로부터 추출된 피크들과 그 피크들의 전압 레벨을 이용하여 히스토그램을 생성한다. 즉, 배경 잡음 히스토그램 생성부(122)는 배경 잡음 신호로부터 추출된 피크들과 그 추출된 피크들의 전압 레벨을 이용하여 피크 크기(amplitude)의 확률 밀도 함수(PDF:Probability Density Function)의 추정치를 대표하는 히스토그램을 생성한다.
피크 검출 임계 전압 레벨 결정부(124)는 배경 잡음 신호로부터 추출된 피크들의 전압 레벨에 대한 히스토그램을 이용하여 미리 정해진 피크 선택률(count peak ratio)(일명 'r'이라 함)에 대응된 임계 전압 레벨 L을 결정한다. 예를 들어 배경 잡음 신호로부터 추출된 피크들이 100이라고 가정하면 피크 검출 임계 전압 레벨 결정부(124)는 r이 0.05인 경우 100개의 피크들 중 임계 전압 레벨 L 이상에 피크가 5개 존재하도록 그 임계 전압 레벨 L을 결정하고, r이 0.02인 경우 추출된 피크들 중 임계 전압 레벨 L 이상에 피크가 2개 존재하도록 그 임계 전압 레벨 L을 결정한다.
이와 같은 임계 전압 레벨 L은 배경 잡음만이 존재하는 상황에서는 임계 전압 레벨 L 이상인 부분에 피크가 존재할 확률이 하기 수학식 1과 같은 이항 계수의 합(sum of binominal coefficient)에 의해 산출될 수 있다는 근거에 의해 결정될 수 있다.
Figure 112005062055221-pat00001
상기 수학식 1에서 W는 한번에 한 피크씩 전진하는 테스트 윈도우의 길이를 나타내는 파라미터이며, r은 추출된 피크들 중 임계 전압 레벨 L 이상인 피크의 비율이다. 그리고 P는 W 길이의 피크 시퀀스가 최소 임계 전압 레벨 L 이상인 피크를 N개 이상 가질 확률을 나타낸다.
피크 검출부(104)는 상기한 바와 같이 임계 전압 레벨 L이 결정되면, 배경 잡음 신호와 음성 신호가 혼합된 입력 신호로부터 추출된 피크들의 전압 레벨을 상기 결정된 임계 전압 레벨 L과 비교하여 상기 임계 전압 레벨 L보다 큰 피크들을 검출한다. 이때 피크 검출부(104)는 배경 잡음 신호와 음성 신호가 혼합된 입력 신호로부터 추출된 피크 시퀀스(sequence)의 전압 레벨이 상기 결정된 임계 전압 레벨 L보다 큰지 작은지에 따라 그 피크 시퀀스를 이진 시퀀스로 변환한다. 입력 신 호로부터 추출된 피크 시퀀스의 전압 레벨이 상기 결정된 임계 전압 레벨 L보다 크면 1이 되고, 입력 신호로부터 추출된 피크 시퀀스의 전압 레벨이 상기 결정된 임계 전압 레벨 L보다 작으면 0이 된다. 예컨대 피크 시퀀스는 전압 레벨에 따라 '1100011110001111' 와 같은 피크 시퀀스로 변환된다. 그리고 상기 변환된 이진 시퀀스는 마이크로 이벤트 검출부(106)로 입력된다.
마이크로 이벤트 검출부(106)는 입력되는 이진 시퀀스들을 검사하기 위한 테스트 윈도우 W의 길이를 결정하고, 이진 시퀀스들을 테스트 윈도우 길이 단위로 검사하여 각 테스트 윈도우 내에 1값의 시퀀스 개수를 파악한다. 그리고 마이크로 이벤트 검출부(106)는 테스트 윈도우 내의 총 시퀀스 중 1값을 가지는 시퀀스의 개수가 미리 정해진 갯수가 되면 이를 마이크로 이벤트로 검출한다.
예를 들어, 본 발명의 실시 예에 따르면 테스트 윈도우 W의 길이를 4개의 시퀀스 길이로 결정하고, 그 테스트 윈도우 내에 1값을 가지는 시퀀스가 3개이면 이를 마이크로 이벤트로 검출하도록 정할 수 있다. 또한 테스트 윈도우 W의 길이를 5개의 시퀀스 길이로 결정하고, 그 테스트 윈도우 내에 1값을 가지는 시퀀스가 3개이면 이를 마이크로 이벤트로 검출하도록 정할 수 있다. 이러한 마이크로 이벤트는 음성으로 검출될 수 있는 피크들의 최소 단위라고 볼 수 있으며, 음성 검출의 단위로서 검출된 마이크로 이벤트들은 마이크로 이벤트 연결부(108)로 입력된다.
마이크로 이벤트 연결부(108)는 입력된 마이크로 이벤트들 중 서로 시간적인 상관 임계치(temporal relationship threshold)를 만족하는 마이크로 이벤트들을 링크한다. 이때 링크된 마이크로 이벤트들의 체인(chain)은 발화된 음성 신호의 각 부분들에 해당한다.
그런데 마이크로 이벤트들 링크 시 링크되는 마이크로 이벤트들 사이에 갭(gap)이 존재하면, 링크된 마이크로 이벤트와 실제 음성 신호 사이에 차이가 생겨, 실질적인 음성 시작과 끝점의 검출에 불확실성이 발생할 수 있다. 이러한 문제를 해결하기 위해 마이크로 이벤트의 링크를 위한 링크 조건(link criteria)이 필요하다. 이러한 링크 조건(link criteria)은 'B. Reaves, “Comments on: An Improved Endpoint Detector for Isolated Word Recognition”, IEEE Transactions on Signal Processing, Vol.39 No.2, February 1991.'와 같은 참고문헌의 음성의 성질과 temporal consistency의 연구를 참조하여 결정할 수 있다.
상기 참고 문헌에서는 두 음성 신호가 떨어져 있을 때에도 연결될 수 있는 성질에 대해 기재하고 있으며, 본 발명의 실시 예에 따르면 음성 신호의 링크를 위해 40ms의 링크 조건도 (실험적으로) 잘 동작한다. 이에 따라 본 발명에서는 링크 임계값(linking threshold)을 보통 40ms으로 사용하는 것이 바람직하다. 즉, 본 발명의 실시 예에서는 마이크로 이벤트의 간격이 40ms 이내이면 서로 연결 가능한 것으로 보고 연결한다.(실용적으로는 25-150ms까지도 연결 가능하도록 할 수 있다.) 여기서 링크 임계값은 L값이나 r값에 따라 변화시킬 수 있다. 한편, 상기한 바와 같이 링크 조건에 따라 링크된 마이크로 이벤트들은 음성 시작점 및 끝점 판단부(110)로 입력된다.
음성 시작점 및 끝점 판단부(110)는 링크된 마이크로 이벤트들의 시작점 및 끝점을 검출한다. 이때 음성 시작점 및 끝점 판단부(110)는 음성 신호의 특징에 따 라 링크된 마이크로 이벤트들의 시작점 및 끝점 검출의 정확도를 조절할 수 있다. 예컨대 음성 시작점 및 끝점 판단부(110)는 음성 신호의 특징에 따라 링크된 마이크로 이벤트들의 시작점 및 끝점을 매우 정확하게 (최선으로) 검출하거나, 음성 신호의 검출 성능에 영향을 미치지 않는 정도의 정확도로 (차선으로) 검출할 수 있다. 그리고 음성 시작점 및 끝점 판단부(110)는 상기 검출된 마이크로 이벤트들의 시작점 및 끝점을 이용하여 음성 신호 시작점과 끝점을 판단하고, 이러한 음성 신호의 시작점과 끝점을 이용하여 입력 신호 중 음성 신호 부분을 검출한다.
상기한 바와 같이 구성된 본 발명의 실시 예에 따른 음성 신호 검출 시스템에서는 배경 잡음만이 존재하는 상황에서 배경 잡음의 피크 분포를 이용하여 피크 선택률(r)을 결정하고, 피크 선택률(r)에 대응된 임계 전압 레벨을 결정한다. 그리고 나서 결정된 임계 전압 레벨 L을 이용하여 입력 신호에 포함된 음성 신호에 해당하는 피크들 중 해당 피크들을 검출하고, 음성 신호에 해당하는 피크들로부터 음성의 시작점 및 끝점을 검출하여 음성을 검출한다.
따라서 본 발명의 실시 예에 따른 음성 신호 검출 시스템은 입력 신호의 시간축 피크 정보를 이용하여 음성 신호를 검출함으로써 계산량이 적고, 배경 잡음의 영향을 적게 받으며, 상황에 따라 최적의 검출법을 적용할 수 있는 이점이 있다.
이하 상기한 바와 같이 구성된 본 발명의 실시 예에 따른 음성 신호 검출 시스템에서 시간축 피크 정보를 이용하여 음성 신호를 검출하는 방법을 상세히 설명한다.
먼저 배경 잡음만이 존재하는 상황에서 배경 잡음의 피크 분포에 따라 피크 선택을 위한 임계 전압 레벨(L)을 결정하는 과정을 설명한다.
도 2는 본 발명의 실시 예에 따른 배경 잡음의 피크 분포를 이용한 임계 전압 레벨 결정 과정에 대한 흐름도이다.
도 2를 참조하면, 음성 신호 검출 시스템은 202단계에서 배경 잡음 신호만이 포함된 입력 신호를 수신하여 배경 잡음 신호에 대한 피크를 추출한다.
그리고 음성 신호 검출 시스템은 204단계에서 배경 잡음 신호에 대한 피크들과 그 피크들의 전압 레벨을 이용하여 히스토그램을 생성한다.
도 3은 배경 잡음 신호에 대한 피크들과 그 피크들의 전압 레벨에 대한 히스토그램을 나타낸 도면이다. 도 3에서 가로축은 전압 레벨이고, 세로축은 피크 분포를 나타낸다. 도 3의 (a)를 참조하면, 전압 레벨에 따른 피크 분포를 나타내고 있다.
음성 신호 검출 시스템은 206단계에서 미리 정해진 피크 선택률(r)에 따라 도 3의 (b)에 도시된 바와 같이 전체 배경 잡음의 피크 분포 중 임계 전압 레벨 L 이상에 피크 선택률(r)만큼의 피크가 존재하도록 임계 전압 레벨 L을 결정한다.
상기한 바와 같이 임계 전압 레벨 L을 결정한 후, 음성 검출 시스템은 결정된 임계 전압 레벨 L을 이용하여 입력 신호에 포함된 음성 신호의 시작점 및 끝점을 판단하여 음성을 검출한다.
도 4는 본 발명의 실시 예에 따른 임계 전압 레벨 L을 이용한 음성 검출 방법에 대한 흐름도이다. 도 4를 참조하면, 음성 검출 시스템은 212단계에서 신호를 입력받는다. 그리고 214 단계에서 입력 신호의 피크 추출을 위한 윈도우 길이(T)를 결정한다.
그리고 216단계에서 결정된 윈도우 길이(T)에 따라 입력 신호에서 피크를 추출한다. 그리고 음성 검출 시스템은 218단계에서 상기 추출된 피크들의 전압 레벨을 미리 결정된 임계 전압 레벨 L과 비교하여 상기 임계 전압 레벨 L보다 큰 피크들을 검출한다.
그리고 나서 음성 검출 시스템은 220단계에서 상기 검출된 피크 시퀀스(sequence)의 전압 레벨이 상기 결정된 임계 전압 레벨 L보다 큰지 작은지에 따라 그 피크 시퀀스를 이진 시퀀스로 변환한다. 이때 입력 신호로부터 추출된 피크 시퀀스의 전압 레벨이 상기 결정된 임계 전압 레벨 L보다 크면 1이 되고, 입력 신호로부터 추출된 피크 시퀀스의 전압 레벨이 상기 결정된 임계 전압 레벨 L보다 작으면 0이 된다. 예컨대 피크 시퀀스는 전압 레벨에 따라 '1100011110001111' 와 같은 피크 시퀀스로 변환된다.
그리고 음성 검출 시스템은 222단계에서 상기 변환된 이진 시퀀스들을 이용하여 마이크로 이벤트를 검출한다. 즉, 음성 검출 시스템은 입력되는 이진 시퀀스들을 검사하기 위한 테스트 윈도우 W의 길이를 결정하고, 이진 시퀀스들을 테스트 윈도우 길이 단위로 검사하여 각 테스트 윈도우 내에 1값의 시퀀스 개수를 파악한다. 그리고 테스트 윈도우 내의 총 시퀀스 중 1값을 가지는 시퀀스의 개수가 미리 정해진 갯수가 되면 이를 마이크로 이벤트로 검출한다. 이러한 마이크로 이벤트는 음성으로 검출될 수 있는 피크들의 최소 단위라고 볼 수 있다.
음성 검출 시스템은 마이크로 이벤트들을 검출한 후, 224단계에서 마이크로 이벤트들을 연결(링크)한다. 이때 링크된 마이크로 이벤트들의 체인(chain)은 발화된 음성 신호의 각 부분들에 해당한다. 그런데 이때 마이크로 이벤트들 링크 시 링크되는 마이크로 이벤트들 사이에 갭(gap)이 존재하면, 링크된 마이크로 이벤트와 실제 음성 신호 사이에 차이가 생겨, 실질적인 음성 시작과 끝점의 검출에 불확실성이 발생할 수 있다. 이러한 문제를 해결하기 위해 마이크로 이벤트의 링크를 위한 링크 조건(link criteria)에 따라 조건이 만족되면 링크를 수행한다. 본 발명의 실시 예에서는 마이크로 이벤트의 간격이 40ms 이내이면 서로 연결 가능한 것으로 보고 연결한다.(실용적으로는 25-150ms까지도 연결 가능하도록 할 수 있다.)
상기한 바와 같이 링크 조건에 따라 마이크로 이벤트들을 링크 한 후, 음성 검출 시스템은 226단계에서 링크된 마이크로 이벤트들의 시작점 및 끝점을 검출한다. 이때 음성 신호의 특징에 따라 링크된 마이크로 이벤트들의 시작점 및 끝점 검출의 정확도를 조절할 수 있다. 음성 검출 시스템은 상기 검출된 마이크로 이벤트들의 시작점 및 끝점을 이용하여 음성 신호 시작점과 끝점을 판단한다.
그리고 음성 검출 시스템은 228단계에서 상기 판단한 음성 신호의 시작점과 끝점을 이용하여 입력 신호 중 음성 신호 부분을 검출한다.
상기한 바와 같이 구성된 본 발명의 실시 예에 따른 음성 신호 검출 시스템에서는 배경 잡음만이 존재하는 상황에서 배경 잡음의 피크 분포를 이용하여 피크 선택률(r)을 결정하고, 피크 선택률(r)에 대응된 임계 전압 레벨을 결정한다. 그리고 나서 결정된 임계 전압 레벨 L을 이용하여 입력 신호에 포함된 음성 신호에 해당하는 피크들 중 해당 피크들을 검출하고, 음성 신호에 해당하는 피크들로부터 음 성의 시작점 및 끝점을 검출하여 음성을 검출한다.
따라서 본 발명의 실시 예에 따른 음성 신호 검출 시스템은 입력 신호의 시간축 피크 정보를 이용하여 음성 신호를 검출함으로써 계산량이 적고, 배경 잡음의 영향을 적게 받으며, 상황에 따라 최적의 검출법을 적용할 수 있는 이점이 있다.
전술한 바와 같은 본 발명의 실시 예에 따른 음성 검출 방법을 좀더 구체적으로 설명하면, 본 발명의 실시 예에서는 미리 정해진 피크 선택률(r)에 따라 결정되는 임계 전압 레벨 L에 따라 음성 검출이 이루어진다. 이러한 가정 없는(non-parametric) 과정을 가우시안 노이즈 배경(Gaussian noise background)에서 백색 가우시안 신호(white Gaussian signal)를 파라미터를 이용하여 분석하면서 동작 범위(operating range)에 대한 이론을 전개할 수 있다. 즉, 이러한 과정은 가우시안 노이즈 배경에서의 파열음(plosive)들의 음성 검출을 매우 정확하게 할 수 있다. 하기에서는 이러한 경우에 대하여 동작 파라미터(operating parameter)를 선택할 수 있도록 상세한 예(analytic example)를 설명한다.
본 발명의 실시 예에 따른 음성 검출 방법에서는 배경 잡음 신호와 입력 신호의 진폭 경계(amplitude boundary)를 결정하는 진폭 임계 설정치(amplitude threshold setting)과 피크-주파수 임계치(peak-frequency (or rate-of-occurrence) threshold)라는 두 가지의 밀접한 관계의 파라미터가 선택되어야 한다.
여기서 진폭 밀도 임계치(amplitude consistency threshold)의 결정은 소나 검출(sonar detection) 문제에서의 일반적인 검출 임계치와 유사하다. 이는 특정 노이즈의 경우에 대해 본 발명의 검출 임계치를 특성화하기 위해 일반적인 기법이 사용될 수 있음을 의미한다. 경험에 의한 N개의 통계적으로 독립적인 값들의 집합으로 이루어진, 간단한 이진 가설에 따르면 잡음만이 존재하는 신호와, 잡음과 신호가 모두 포함된 신호는 하기의 수학식 2와 같이 표현될 수 있다.
Figure 112005062055221-pat00002
상기 수학식 2에서, 신호와 잡음은 백색 가우시안 프로세스(white Gaussian process)에 의해 하기 수학식 3과 같은 밀도 함수(density function)로 표현될 수 있다.
Figure 112005062055221-pat00003
Figure 112005062055221-pat00004
상기 수학식 3에서 잡음의 평균값은 신호가 더해진다 하더라도 변화하지 않으며 이 경우 신호와 잡음의 평균은 모두 0이다. 그러나 가우시안 신호가 존재할 때, 잡음은 변이량(variance)을 가진다.
이러한 잡음의 변이를 검출하는데 가장 많이 쓰이는 기법은 (전체 에러를 최 소화시켜 최적의 판단 룰(optimum decision rule)을 찾는 Bayer's criterion 기법이다. 최적의 Bayer's 판단 룰에 따른 중간 식(intermediate form) 하기 수학식 4와 같다.
Figure 112005062055221-pat00005
상기 수학식 4는 잘 알려진 가능성 비율 테스트(likelihood ratio test)로서
Figure 112005062055221-pat00006
는 가능성 비율이며,
Figure 112005062055221-pat00007
는 테스트의 진폭 임계값(amplitude threshold)이다. 이것은 이진 가정 테스트(binary hypothesis test)의 기본적인 형태이다. 가능성 비율 테스트(likelihood ratio test)를 이용하면 set of observations r에 대한 확률의 비례를 하기 수학식 5와 같이 정의할 수 있다.
Figure 112005062055221-pat00008
Likelihood ratio의 실험적인 형태는 경험치에 잡음과 신호의 확률 밀도 함수(PDF)를 대입하고 경험치들을 결합한 확률 밀도 함수들(PDFs)을 구함으로써 얻어진다. 진폭 임계치(Amplitude threshold)는 결정 비용(decision cost)와 이전 확률(prior probability)들에 대하여 에러를 최소화시키는 Bayer's criterion에 대해 적합하다.
일반적으로는 이러한 항목들을 설정하는데 있어, 신호와 잡음에 대하여 사전에 어떠한 가정들이 요구된다. 최적의 판단 기법에 대해 이용 가능한 식을 찾아내는 과정은 N개의 경험치들의 집합을 결합한 밀도 함수를 산출하는 것이다. 경험치들은 통계적으로 독립적이라고 가정되므로, 결합된 밀도 분포들은 하나의 샘플 밀도 분포들로 이용될 수 있다.
Figure 112005062055221-pat00009
Figure 112005062055221-pat00010
상기한 바와 같은 수학식 6 및 7을 수학식 5에 대입하면, likelihood ratio test 식인 수학식 4는 하기 수학식 8과 같이 표현될 수 있다.
Figure 112005062055221-pat00011
상기 수학식 8은 보통 충분조건 통계치(sufficient statistic)를 포함하는 식으로 재정렬될 수 있으며, 이것은 표준적인 검출 방법을 결정할 수 있게 한다.
본 발명의 음성 검출 방법과의 관계를 단순화시키기 위해서는 상기 수학식 8 은 위와 같은 중간적인 식으로 놔두는 것이 요구된다.
여기서 오류로 인한 경보(false alarm)의 확률을 구하기 위한 잡음에 대한 이진 계수가 하기 수학식 9와 같이 이용된다.
Figure 112005062055221-pat00012
상기 수학식 9에서 qn과 pn은 각각 성공 확룔(probability of success)과 실패 확률(probability of failure)을 나타낸다.
즉, 상기 수학식 9에서 qn과 pn이 각각 0.995, 0.005이면 10개 중 8개 이상의 피크가 잡음 임계치를 넘어갈 확률은 1.74E-17이 된다. 이와 같은 예에서 중요한 것은 0.5%의 피크만이 잡음 임계치 레벨 위에 존재하도록 정해졌다는 점이다. 음성 검출이 이루어 지기 위해서는 성공 확률이 실패 확률 즉, qn=0.005보다 더 커지도록 증가시킴으로써 잠재적인 분포 상태를 바꾸는 신호가 존재되도록 한다. 이러한 분석은 likelihood ratio test를 두 가지 다른 이진 계수의 합에 대한 비교로 쓸 수 있는 동기를 제공하게 된다.
따라서 본 발명의 실시 예에서는 잡음에 전개된 이진 계수를 신호와 잡음에 전개된 이진 계수와 비교한다. 이러한 잡음에 전개된 이진 계수를 신호와 잡음에 전개된 이진 계수를 비교하기 위한 식은 하기 수학식 10과 같다.
Figure 112005062055221-pat00013
상기 수학식 10에서는 두 가지 다른 분포(신호와 잡음)의 꼬리 부분의 영역에 근거한 이진 계수의 합을 비교하고 있다. 이러한 likelihood ratio test에서는 이진 합 또한 sufficient statistics이다.
본 발명의 실시 예를 실질적으로 적용하는데 있어서는 상기 수학식 10을 이용한 직접적인 계산보다는 다른 노이즈-피크 분포(noise-peak distribution)들에서의 임계치 설정값들을 결정하기 위하여, 룩업 테이블(look-up table)을 사용할 수도 있다.
이러한 임계치 설정값들은 피크 히스토그램에 근거하고 있으며 실질적으로 피크 크기 설정값들에 의해 결정된다.
한편 수학식 10을 이용하기 위해서는 잡음에서 임계치를 넘는 피크의 확률인 pn과 신호에서 임계치를 넘는 피크의 확률인 qn간의 관계를 정의하여야 한다. 이를 위하여 수학식 3의 신호와 잡음의 피크 확률 밀도 함수와 수학식 10의 이진 파라미터들을 수학적으로 연관시키는 식이 필요하다.
먼저 피크 확률 밀도 함수(Peak PDF)를 유도하기 위하여, 편리한 통계적 플랫폼으로써 차수 통계(order statistics (OS))를 사용할 수 있다. 이것은 데이터 샘플 집합의 차수를 설명하는데 사용되는 수학적 통계 방법이다. 여기서 피크는 중 간 값이 양쪽의 두 점들보다 더 큰, 세 점들의 집합으로 정의된다.
이러한 피크에 대한 정의는 H. J. Larson, “Introduction to Probability Theory and Statistical Inference”, 3rded., NY: Wiley, 1982., R. J. Larsen and M. L. Marx, “An Introduction to Mathematical Statistics and its Applications” 2nd edition, Prentice-Hall Inc., Engelwood Cliffs N.J., 1986.와 같은 참고 문헌을 참고하고, 상세한 설명을 생략한다.
배경 잡음에서의 세 점들의 샘플 사이즈를 생각하면, order가 3인 OS를 이용할 수 있다. 따라서 n=3, i=3으로 쓰면 하기 수학식 11과 같다.
Figure 112005062055221-pat00014
그리고 상기 수학식 11에서 i번째 OS는 하기 수학식 12와 같이 단순화될 수 있다.
Figure 112005062055221-pat00015
상기 수학식 12는 연속적인 임의의 변수(random variable)에 대해 (예컨대 프레임 길이 3에 대해) 피크의 PDF를 나타내는 수학식이다. 여기서 피크의 PDF에 대해 풀기 위해, 수학식 2에서와 같은 PDF의 배경 잡음에 대한 식을 삽입해야 한다. 상기 수학식 12에 배경 잡음에 대한 식을 삽입하면 3차 OS에 대해 하기 수학식 13이 산출된다.
Figure 112005062055221-pat00016
상기 수학식 13에서 직교 기법(quadrature technique)이나 변환 기법(transformation approach)을 사용한 적분값이 계산되어야 한다. 변환 기법은 현재의 적분값에서, 연결가능한 프로그램 라이브러리로 쉽게 계산되어지는 다른 적분식으로 변환해야 한다.
이를 위해,
Figure 112005062055221-pat00017
를 하기 수학식 14와 같은 식으로 변환할 수 있다.
Figure 112005062055221-pat00018
그리고 상기 수학식 12를 계산이 쉽도록 하기 위해 적분의 limit를 하기 수학식 15와 같이 적용할 수 있다.
Figure 112005062055221-pat00019
또한 수학식 12의 누적 분포 함수(cumulative distribution function)는 에러 함수(error function)를 사용하여 하기 수학식 16과 같은 식으로 변환될 수 있 다.
Figure 112005062055221-pat00020
Figure 112005062055221-pat00021
상기 수학식 16에 대한 확률 밀도 그래프가 도 5에 도시되어 있다. 도 5를 참조하면, 도 5의 (a)는 '3차 OS'를 이용한 확률 밀도 그래프를 나타낸다. 도 5의 (b)는 modified '3차 OS'를 이용한 확률 밀도 그래프를 나타낸다.
상기 도 5의 (a) 및 (b)에는 두가지 확률 밀도 그래프가 도시되어 있다. 두가지 확률 밀도 그래프 중 불규칙한 커브는 평균 값 0과 표준 편차 30을 가진 가우시안 잡음 배경의 피크에 대한 실험적인 확률 밀도 그래프이며, 가우시안 랜덤(random) 숫자들의 시퀀스 피크에 대해 히스토그램 기법을 사용하여 생성된 것이다.
그리고 부드러운 커브는 상기 수학식 16을 사용하여 생성된 확률 밀도 그래프로서 '3차 OS'의 정의에 따라 피크의 진폭에 대한 이론적인 확률 밀도 그래프를 나타낸다.
그런데 '3차 OS'의 정의에 따르면 두 커브가 잘 맞아야 하나 그렇지 못하다.그 이유는 실험적인 해석 시 'i차 OS'의 정의에 대한 제한이 있기 때문이다. 이론적으로 'ith OS'는 'ordered set에서 어떠한 두 값이 같지 않다'는 내용을 내포하고 있다. 그러나 실험적인 해석 시는 -128에서 +128 사이의 정수 값에 국한된 8 비트의 숫자가 무작위의 수를 저장하기 위해 사용된다. 이러한 한계에 의해 피크에서 셋 중 두 개의 점이 똑같은 상황이 발생하게 되는 것이다.
이러한 문제점을 해결하기 위해, 본 발명의 실시 예에서는 하기 수학식 17과 같은 modified '3차 OS'를 사용한다.
Figure 112005062055221-pat00022
상기 수학식 17에서 C는 상기 수학식 17이 실제 확률 밀도 함수가 되도록 만드는 표준 상수이다. 상기 수학식 17은 fx(y)가 0이 아닌 확률로 발생한다는 것을 인식함에 따라 modified '3차 OS'가 된다.
따라서 '3차 OS'를 구성하는 세점의 집합을 최대로 만들기 위하여 누적 분포 함수(cumulative distribution function) Fx(y)에서 fx(y)를 감산해야 한다.
이때 상기 수학식 17은 세가지 확률의 곱으로 이루어진다. 예를 들어, 피크가 같은 확률 밀도에서 뽑은 세 무작위 숫자에서 일어날 경우를 볼 수 있다.
이를 위해 먼저 확률 fx(y)의 한 무작위의 수를 뽑아야 하고, 첫 번째 보다 확실히 작아야 하는 두 번째 무작위 수를 뽑을 확률은,
Figure 112005062055221-pat00023
와 같다. 또한 세 번째도 마찬가지이다. 각 세 무작위 수를 뽑는 확률이 독립적이므로, 연속적일 확률은 세 확률의 곱이 된다.
이때 3차 OS를 만족시키면서, 세 개의 무작위 수를 뽑을 수 있는 6가지 다른 방법이 있다. 그러나 진짜 피크는 최대 점이 중간에 위치하는 경우만 해당되고, 이는 2/6=1/3의 확률이다. 따라서 하기 수학식 18 즉,
Figure 112005062055221-pat00024
의 아래의 영역이 약 1/3이면 표준화 상수(normalizing constant)에 대한 적정한 선택은 3C 이다.
도 5의 (a) 및 (b)는 같은 실험적인 피크 확률 밀도 함수 그래프를 도시하고 있으며, 이때 배경 잡음은 평균 0과 표준 편차 30을 가진 Gaussian 신호가 이용되었다. 도 5 (b)의 부드러운 커브는 상기 수학식 17에서 C=1.029의 modified '3차 OS'로 만들어낸 이론적인 피크 확률 밀도 함수이다. 이때 수학식 17에서 파라미터 C는 먼저 수학식 17을 표준화하여 적절한 확률 밀도 함수가 되도록 역함수 값을 예측하여 계산된다. 따라서 도 5의 (b)에서는 이론적인 확률 밀도 함수 그래프와 실험적인 확률 밀도 함수 그래프가 매우 정확히 일치함을 확인할 수 있다.
즉, 위와 같은 본 발명의 실시 예에 따르면 수학식 17은 피크 확률 밀도 함수의 실험적인 히스토그램과 잘 맞게 된다. 이에 근거하여 피크 확률 밀도 함수를 위한 수학식 17은 잡음 피크(noise-peak)와 싱글 피크 가우시안 밀도 함수(single-peak Gaussian density function)에 모두 사용될 수 있다.
이것은 본 발명의 pn=(1-qn)과 qn=(1-pn)에 관련된 likelihood ratio test의 동작을 설명하는데 필요한 'missing link'를 제공한다.
성공 확률(Probability of success) pn을 정함으로서 잠음 임계값이 결정되면 qn=(1-pn)에 의해 잡음의 피크에 대한 실패 확률(Probability of failure) qn도 결정된다.
여기서 임계치는 물리적인 전압 레벨(voltage level)로 정해지는 'rail'의 모습이며, 이러한 rail의 아래, 위에 대한 잡음 피크의 퍼센티지(percentage)로 설명될 수 있다. 가우시안(Gaussian) 신호가 나타나면, 새로운 신호잡음 가우시안 밀도 함수(signal noise Gaussian density function)이 생성된다. 이 새로운 커브는 'rail'의 아래, 위에서 다른 피크의 퍼센티지를 가진다. 따라서 일단 잡음의 피크에 대한 성공 확률 pn이 정의되면, 모든 신호 잡음 밀도(signal-plus-noise density)에 대한 잠재적 성공 확률 ps도 정의된다.
도 6은 본 발명의 실시 예에 따른 잡음 및 신호와 잡음이 혼합된 신호 각각에 대한 확률 밀도 함수 그래프를 도시하고 있다. 도 6에서는 modified '3차 OS'의 공식인 수학식 17에 근거한 PDF를 도시하고 있다. 왼쪽 커브는 잡음 피크에 대한 PDF이고, 오른쪽 커브는 signal-puls-noise의 피크에 대한 PDF이다. 이 그림에서 신호와 잡음은 zero mean Gaussian이고 표준 편차는 각각 잡음일 때 20, 신호일 때 40이다. 결과적인 SNR(신호대 잡음비)은 4.8dB로, 다른 검출 방법들보다 훨씬 좋은 피크 검출을 위한 최소 허용 가능한 목표 SNR이 된다. 커브에 있는 선은 pn=0.10에서 잡음 피크들 중 하이 레벨 피크의 성공 확률(probability of success :POS)에 대한 임계치 세팅값을 나타낸다. 이에 대응하는 실패 확률(probability of failure:POF)는 qn=0/9이며 이는 잡음 피크의 90%가 임계치 세팅 이하에 있음을 의미한다.
본 발명의 실시 예에서는 임계치를 선으로 그음으로써, signal-plus-noise density의 임계치 위에 있는 피크의 퍼센티지가 적분에 의해 쉽게 계산된다. 이 경우 POF는 잡음에서 0.9로 세팅되어 있고, signal-plus-noise의 POF는 0.46이다.
Figure 112005062055221-pat00025
이때 상기한 바와 같은 수학식 19가 efficient statistics를 표현하고, probability of detection and failure를 정의하므로, 'receiver operating characteristic' (ROC) 커브를 만들기 위하여 이용될 수 있다. 가우시안 잡음에서의 가우시안 신호의 standard detector analysis에서, coordinate system은 (subset of the terms in the likelihood ratio test이므로 )sufficient statistic 을 지원하기 위하여 바뀌어야 한다.
상기 수학식 19의 오른쪽 항은 잡음 피크에 대한 PDF의 위쪽 꼬리 아래의 영역을 표현하므로, 본 발명의 실시 예에 따른 음성 검출 방법에서는 하기 수학식 20과 같은 probability of false alarm, P(FA)이 된다.
Figure 112005062055221-pat00026
또한 본 발명의 실시 예에 따르면 먼저 잡음 임계치가 정해지고 어떤 레벨과 타입의 신호가 나타나느냐에 따라 ps가 결정된다. 이때 n과 k의 파라미터는 ('k out of n') 검출되는 신호의 성질에 따라 정해 주어야 한다. 여기서 n과 k의 적당한 설정에 의해 음성 신호 검출의 성능이 좌우된다.
또한, 상기 수학식 19의 왼쪽 항은 probability of detection P(D)이며, signal-plus-noise density function의 위쪽 꼬리의 아래 쪽 면적을 표현한다. 이러한 수학식 19의 왼쪽 항은 하기 수학식 21과 같이 표현될 수 있다.
Figure 112005062055221-pat00027
상기 수학식 21에서 잡음에 상대적인 신호의 세기에 따라 probability of success and failure가 정의되면, n과 k는P(D)를 결정하게 되며, P(D)의 결과는 예측 가능하다. 예를 들어 signal-plus-noise peak PDF가 오른쪽으로 많이 이동하게 되면 매우 큰 신호를 의미하며 P(D)=1이 된다. 그러나 P(FA)는 임계치 위에 있는 잡음 PDF 꼬리에만 의존하므로 여전히 0이 아니다.
도 6에서 임계치가 0.9 인 경우(즉 임계치 아래에 90%의 noise peak가 존재), 6dB 가우시안 신호에서 결과적인 ps는 1.0-0.46=0.54이다. 이러한 정보는 여러 가지의 n과 k 세팅에서의 ROC 커브를 만들어 내기 위해 쓰인다. 각 'k out of n' 시나리오는 각각 다른 하나의 검출기로 구현될 수 있다.
각 'k out of n' 시나리오를 예를 들면, 하기 표 1에서는 세 가지 probability of failure threshold 0.90, 0.95, 0.98에서 'k out of 5'에 대한 여러 가지 파라미터 세팅값에 대한 P(D)와, 그에 대응하는 P(FA)를 나타내고 있다.
Figure 112005062055221-pat00028
또한 하기 표 2에서는 세 가지 probability of failure threshold 0.90, 0.95, 0.98에서 'k out of 10'에 대한 여러 가지 파라미터 세팅값에 대한 P(D)와, 그에 대응하는 P(FA)를 나타내고 있다.
Figure 112005062055221-pat00029
본 발명의 실시 예에 따르면 상기한 바와 같은 각 'k out of n' 에 따른 테이블을 이용하면 상황에 따라 적합한 값으로 셋팅하여 음성 신호를 검출할 수 있다. 상기한 바와 같은 표 1 및 표 2의 셋팅 값을 이용한 음성 신호 검출 결과가 도 7에 도시되어 있다.
도 7은 본 발명의 실시 예에 따른 count ratio r=0.1, 0.05, 0.02에서 n=10, 5이고 k는 1에서 10까지, 1에서 5까지 각각 변화할 때의 여러 가지 세팅에 대한 검출값을 나타낸 도면이다.
도 7을 참조하면, 본 발명에서는 음성의 끝점을 피크 (3 데이터 포인트)에서 검출하므로, 최대 FA 비율이 어떤 검출을 같이 링크시킬 것 인가를 제어할 수 있도록 세팅되어야 한다. 각각의 피크 검출은 테스트 윈도우 사이즈에 근거한 하나의 마이크로 이벤트이다. 여기서 연속적이거나 서로 인접한 마이크로 이벤트는 자연스럽게 서로 링크되며 비인접한 마이크로 이벤트도 서로 링크될 수 있다. 이때 음성 에러를 만들어 낼 수 있는 마이크로 이벤트는 서로 링크하지 않도록 해야 한다.
유용한 FA 범위는 150 ms 이상 떨어져 있는 음성 에너지 펄스는 거의 항상 다른 발화에 속해 있다는 실험 결과를 활용하여 얻어낸다. 따라서 FA가 150ms 이상 떨어져 있어야 한다고 하면, 잘못된 링크는 일어나지 않는다. 150ms 는 8kHz에서 1200 포인트이며, white noise에 대해 약 400 피크에 해당한다. 매 150ms 마다 하나의 FA 이라는 것은 6.67 FAs /sec 에 해당하는데, 이러한 세팅에서 본 발명의 방법은 끝점 검출에 정확하게 해 낼 수 있다. 이러한 FA 제한을 테이블의 세팅과 비교하기 위해, 테이블된 P(FA) 값들은 테스팅 윈도우에 대한 FA들에서 시간에 대한 FA들로 변환되어야 한다. 이러한 변환 FA 비율에 대한 정보가 표 3에 도시되어 있다.
Figure 112005062055221-pat00030
하기 표 3은 표 1의 변환된 FA 비율 정보를 가지고 있다. * 표식이 있는 부분은 8 kHz 샘플링 율(sampling rate)에서 FA 설정값에 따라 (FAs 가 150 ms 마다 하나 이하라고 가정할 때) 본 발명의 실시 예에서 만족하는 동작 포인트를 도시하고 있다.
본 발명의 실시 예에서는 피크 시퀀스들을 임계 전압 레벨 L 에 근거하여 이진 시퀀스로 변환한다. 테스팅 윈도우 W 가 선택되면, 신호 존재 유무 확인을 위해 윈도우 내의 1의 갯수를 파악하고, 만약 임계치 세팅 L이 피크의 top 20%를 분리한다면, 최소한 10 개 중 8개의 피크가 현 잡음 배경에서 임계치를 넘을 확률은 7.79E-05 가 된다. 이러한 매우 낮은 확률은 10 개 중 8개의 피크를 포함한 테스팅 윈도우는 현 배경 잡음에서 온 것이 아니라, 실질적으로 새로운 신호라는 것을 나타낸다.
여기서 수치적인 확률은 10개 피크 윈도우의 관점에서 P(FA)로 생각될 수 있다. 테스팅 윈도우 (예를 들어 '4 out of 5'에서 5)는 매 세 데이터 포인트에서 하나의 피크의 비율로 나타나는 1차 피크로 이루어져 있으므로, false alarm rate는 7.79E-05 per 30 data points 이다.
에러에는 잡음이 신호로 판단되는 가산 에러(additive error)와 신호가 잡음으로 판단되는 감산 에러(subtractive error)가 있는데, 정보를 잃어버리는 감산 에러가 일어나지 않도록 하는 것이 중요하다. 따라서 낮은 SNR의 상황에서는 임계치가 훨씬 더 높아야 한다. 테스팅 윈도우가 긴 경우에는 sine wave의 주파수가 커질 때, 검출을 위한 피크 cluster가 더 적게 나타난다는 점이다. 더 큰 테스팅 윈도우를 사용하는 대신에, 작은 테스팅 윈도우를 사용하는 것이 false alarm rate를 더 줄이고 피크의 클러스터(cluster)를 검출하는 신뢰도를 더 높일 수 있다. 예를 들어 테스팅 윈도우 길이를 10에서 5로 줄이고, '4 out of 5' 가정으로 false alarm 확률을 3.0E-05으로 더 좋게 만들 수 있다. 이러한 '4 out of 5' 테스팅 윈도우는 normalized false alarm rate가 초당 0.12가 된다. 따라서 임계치 위의 주어진 피크 갯 수에 대하여, 테스팅 윈도우 길이를 최소화하면 P(FA)가 최소화된다.
기본적 개념은 테스팅 윈도우 길이를 검출될 피크 클러스터(cluster)나 마이크로 이벤트에 매치(match)시키는 것이다. 이러한 정보는 짧은 동안의 낮은 SNR 정현파를 신뢰성 있게 검출하는 것에 이용된다. 만약 정현파가 긴 구간을 가지고 있으면, 프로세싱 이득(processing gain)이 검출 이전에 구현되므로 주파수 영역 기법(spectral technique)을 쓸 수 있다. 하지만 짧은 정현파의 경우는 시간 축에서 검출이 이루어 져야 한다. 테스팅 윈도우 길이를 W=5로 줄일 때 낮은 주파수 정현파의 피크 사이에 아무런 검출이 이루어 지지 않는 영역이 있게 된다. 이것은 각 테스팅 윈도우가 완전한 검출된 신호를 포함하도록 요구되어 질 때에만 문제가 된다. 만약 신호가 여러 테스팅 윈도우에 걸쳐 있게 되면, 첫 번째와 마지막 테스팅 윈도우가 신호의 시작과 끝나는 시점을 정의하기 위하여 사용될 수 있다. 참고 문헌들에서 각 발화가 연관되어 있으며 각 파라미터들이 음성 검출을 위한 linking criteria로 사용될 수 있는지 결정하기 위하여, 파라미터들이 선택되어 있다. 여기서 음성은 상대적으로 기계적인 과정(mechanical process)에 의해 생성되며 발음부(articulator part)는 상대적으로 느리게 움직인다. 예를 들어, 음성상의 발음(phonetic utterance)의 램-업 시간(ramp-up time)은 40ms의 차수이며, 이는 12kHz 샘플링에서 480 데이터 포인트이다.
이때 백색 잡음 데이터(white Gaussian data)에서, 480 데이터 포인트에서 약 160 개의 피크가 발생되며, 연관된 낮은 에너지 음성 사이의 주어진 시간은 150ms 정도이다. 따라서 '5개 중 4개'의 테스팅 윈도우가 나타나고, 다음 '5개 중 4개'의 테스팅 윈도우가 나타날 때까지 30ms의 무음이 존재한다면, 이러한 두 개의 테스팅 윈도우는 하나의 이벤트로 묶일 수 있을 것이다. 본 발명에서는 이와 같은 접근 방법을 사용한다.
'4개 중 3개'나 '5개 중 4개'와 같은 작은 테스팅 윈도우를 만족하는 피크의 시퀀스는 본 발명에서는 마이크로 이벤트라고 한다. 이러한 마이크로 이벤트는 실제적으로 검출할 수 있는 가장 작은 피크의 패키지이며, 이러한 짧은 테스팅 윈도우를 FA 관점에서 강건하게 만들기 위하여, 히스토그램 임계치 이상의 피크의 퍼센티지 (즉 peak count ratio 'r')이 더 작게 세팅될 수 있다. 일단 이러한 마이크로 이벤트가 검출되면, 시간축에서 서로 연관되어 있는 것인지 결정하기 위한 논리가 사용될 수 있다. 마이크로 이벤트가 시간 관계 임계치(temporal relationship threshold)를 만족하면 서로 링크될 수 있다. 링크된 긴 마이크로 이벤트의 체인은 발화된 음성의 부분을 유효하게 검출하게 된다. 여기서 검출은 마이크로 이벤트의 세트로 구성되어 있으므로, 링크 조건에 따라 다수의 음성 시작점 및 끝점이 검출된다. 따라서 상황에 맞는 특징 추출 변수를 적용하여, 유연하고 최적화된 음성 검출이 가능하다.
실제 성능의 비교 실험 결과를 표로 나타내면 하기 표 4 및 표 5와 같다.
Figure 112005062055221-pat00031
Figure 112005062055221-pat00032
상기 표 4 및 5를 참조하면, 표 4 및 표 5에서 1번은 ideal한 경우이고 괄호 안은 에러의 양을 나타낸다. 2번은 에너지 검출 방법을 이용했을 때의 음성 검출 결과를 나타낸다. 3번은 영점 교차율 방법을 이용했을 때의 음성 검출 결과를 나타낸다. 4번은 에너지 검출 방법과 영점 교차율 방법 둘 다를 이용했을 때의 음성 검출 결과를 나타낸다. 그리고 5번은 본 발명의 실시 예에 따른 음성 검출 방법을 이용한 음성 검출 결과를 나타낸다.
표 4에서는 두 번의 'eight' 발화로 A (A')= 첫 번째 발화의 시작점, B (B')= 첫 번째 발화의 끝점, C (C') = 두 번째 발화의 시작점, D (D') = 두 번째 발화의 끝점이며, A,B,C,D는 잡음이 거의 없는 경우 (30dB) 이고 A',B',C',D'는 강한 잡음의 경우 (5dB) 이다. 여기서 + error는 가산 에러이며, - error는 감산 에러를 나타낸다. 본 발명의 결과는 종래의 방법들과는 달리, 정보를 잃어 버리는 감산 에러가 발생하지 않는 것이 확인된다. 또한 표 5에서도 다른 발화 'nine'에 대한 비교 결과를 나타낸 것으로 표 4처럼 감산 에러가 발생하지 않는 것이 확인된다. 즉, 본 발명의 실시 예에 따른 음성 검출 방법은 종래의 방법에 비해 잡음에서 성능이 월등할 뿐만이 아니라 감산 에러가 발생하지 않으며, 계산의 복잡도가 매우 적음이 확인된다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해 져야 한다.
따라서 본 발명은 시간축의 피크 특징 정보 추출과 분석을 이용한 음성 검출 방법을 제시함으로써, 간단한 샘플 크기 비교에 의해 적은 계산량으로 찾아낼 수 있을 뿐만이 아니라, 항상 잡음의 위에 높이 존재하며 잡음에 매우 강인한 음성 검출 방법을 제공할 수 있는 효과가 있다.
또한 본 발명은 종래의 프레임 단위의 검출과는 달리 샘플 단위의 음성 검출 로 몇 샘플 이내의 훨씬 더 정확한 검출이 가능한 이점이 있다.
또한 본 발명은 잡음 등의 상황에 따라 특징 추출 변수 (count peak ratio)를 최적화하여 사용할 수 있으며, 최선과 차선의 음성 검출 시작과 끝점을 제공하여 유연한 적용이 가능하다.
또한 본 발명은 피크 정보의 특징을 이용함으로써 음성 정보를 잃어버릴 수 있는 감산 에러를 방지할 수 있는 효과가 있다.
또한 본 발명은 별도의 파라미터의 정의없이 사용할 수 있으며 다른 방법들과 달리 신호에 대한 어떠한 가정을 하지 않아도 되는 효과가 있다.
또한 본 발명은 상황에 맞는 최적의 검출법을 선택함으로써 유연한 음성 검출이 가능하므로 실제 음성 코딩, 인식, 강화, 합성 등의 앞 단에 모두 사용 가능한 이점이 있다.
또한 본 발명은 작은 계산량으로 정확한 음성 검출을 가능하게 하여 핸드폰 단말, 텔레매틱스, PDA, mp3 등 이동성이 강하고 계산, 저장 용량의 제한이 있거나 빠른 프로세싱이 요구되는 어플리케이션에 사용하면 효과적이다.

Claims (16)

  1. 음성 신호 검출 시스템에 있어서,
    입력 신호에서 피크를 추출하는 피크 추출부와,
    상기 추출된 피크들의 전압 레벨을 미리 정해진 임계 전압 레벨과 비교하여 그 비교 결과를 이진 시퀀스로 변환하는 피크 검출부와,
    상기 변환된 이진 시퀀스를 검사하기 위한 테스트 윈도우 길이를 결정하고, 상기 결정된 테스트 윈도우 길이 단위로 마이크로 이벤트를 검출하는 마이크로 이벤트 검출부와,
    상기 검출된 마이크로 이벤트들을 링크하는 마이크로 이벤트 링크부와,
    상기 링크된 마이크로 이벤트들의 시작점 및 끝점을 검출하여 음성 신호의 시작점 및 끝점을 판단하는 음성 신호의 시작점 및 끝점 검출부를 포함함을 특징으로 하는 음성 신호 검출 시스템.
  2. 제1항에 있어서,
    상기 마이크로 이벤트는 음성으로 검출될 수 있는 피크들의 최소 단위임을 특징으로 하는 음성 신호 검출 시스템.
  3. 제1항에 있어서,
    상기 입력신호로부터 추출된 피크들 중 배경 잡음만이 존재하는 입력신호인 배경 잡음 신호로부터 추출된 피크들의 전압 레벨에 대한 히스토그램을 이용하여 미리 정해진 피크 선택률(count peak ratio)에 대응된 임계 전압 레벨 L을 결정하는 임계 전압 레벨 결정부를 더 포함함을 특징으로 하는 음성 신호 검출 시스템.
  4. 제1항에 있어서,
    상기 배경 잡음 신호로부터 추출된 피크들과 그 피크들의 전압 레벨을 이용하여 히스토그램을 생성하는 배경 잡음 히스토그램생성부를 더 포함함을 특징으로 하는 음성 신호 검출 시스템.
  5. 제1항에 있어서,
    상기 마이크로 이벤트 검출부는 상기 각 테스트 윈도우 내에 상기 임계 전압 레벨보다 큰 피크에 해당하는 시퀀스의 개수를 파악하고, 상기 각 테스트 윈도우 내에 상기 임계 전압 레벨보다 큰 피크에 해당하는 시퀀스의 개수가 미리 정해진 개수가 되면 그 시퀀스를 마이크로 이벤트로 검출함을 특징으로 하는 음성 신호 검출 시스템.
  6. 제1항에 있어서,
    상기 마이크로 이벤트 링크부는 상기 검출된 마이크로 이벤트들 중 서로 시간적인 상관 임계치(temporal relationship threshold)를 만족하는 마이크로 이벤트들을 링크함을 특징으로 하는 음성 신호 검출 시스템.
  7. 제6항에 있어서,
    상기 시간적인 상관 임계치는 40ms임을 특징으로 하는 음성 신호 검출 시스템.
  8. 제1항에 있어서,
    상기 음성 신호의 시작점 및 끝점 검출부는 음성 신호의 특징에 따라 링크된 마이크로 이벤트들의 시작점 및 끝점 검출의 정확도를 가변함을 특징으로 하는 음성 신호 검출 시스템.
  9. 음성 신호 검출 방법에 있어서,
    입력 신호에서 피크를 추출하는 과정과,
    상기 추출된 피크들의 전압 레벨을 미리 정해진 임계 전압 레벨과 비교하여 그 비교 결과를 이진 시퀀스로 변환하는 과정과,
    상기 변환된 이진 시퀀스를 검사하기 위한 테스트 윈도우 길이를 결정하고 상기 결정된 테스트 윈도우 길이 단위로 마이크로 이벤트를 검출하는 과정과,
    상기 검출된 마이크로 이벤트들을 링크하는 과정과,
    상기 링크된 마이크로 이벤트들의 시작점 및 끝점을 검출하여 음성 신호의 시작점 및 끝점을 판단하는 과정을 포함함을 특징으로 하는 음성 신호 검출 방법.
  10. 제9항에 있어서,
    상기 마이크로 이벤트는 음성으로 검출될 수 있는 피크들의 최소 단위임을 특징으로 하는 음성 신호 검출 방법.
  11. 제9항에 있어서,
    상기 피크 추출부로부터 추출된 피크들 중 배경 잡음만이 존재하는 입력신호인 배경 잡음 신호로부터 추출된 피크들의 전압 레벨에 대한 히스토그램을 이용하여 미리 정해진 피크 선택률(count peak ratio)에 대응된 임계 전압 레벨 L을 결정하는 과정을 더 포함함을 특징으로 하는 음성 신호 검출 방법.
  12. 제11항에 있어서,
    상기 배경 잡음 신호로부터 추출된 피크들과 그 피크들의 전압 레벨을 이용 하여 히스토그램을 생성하는 과정을 더 포함함을 특징으로 하는 음성 신호 검출 방법.
  13. 제9항에 있어서,
    상기 각 테스트 윈도우 내에 상기 임계 전압 레벨보다 큰 피크에 해당하는 시퀀스의 개수를 파악하는 과정과,
    상기 각 테스트 윈도우 내에 상기 임계 전압 레벨보다 큰 피크에 해당하는 시퀀스의 개수가 미리 정해진 개수이면 그 시퀀스를 마이크로 이벤트로 검출하는 과정을 더 포함함을 특징으로 하는 음성 신호 검출 방법.
  14. 제9항에 있어서, 상기 마이크로 이벤트들을 링크하는 과정은,
    상기 검출된 마이크로 이벤트들이 서로 시간적인 상관 임계치(temporal relationship threshold)를 만족하는지 판단하는 과정과,
    상기 검출된 마이크로 이벤트들이 서로 시간적인 상관 임계치를 만족하면 링크하는 과정을 포함함을 특징으로 하는 음성 신호 검출 방법.
  15. 제14항에 있어서,
    상기 시간적인 상관 임계치는 40ms임을 특징으로 하는 음성 신호 검출 방법.
  16. 제9항에 있어서,
    상기 음성 신호의 특징에 따라 링크된 마이크로 이벤트들의 시작점 및 끝점 검출의 정확도를 가변하는 과정을 더 포함함을 특징으로 하는 음성 신호 검출 방법.
KR1020050102583A 2005-10-28 2005-10-28 음성 신호 검출 시스템 및 방법 KR100800873B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020050102583A KR100800873B1 (ko) 2005-10-28 2005-10-28 음성 신호 검출 시스템 및 방법
JP2006271127A JP4545729B2 (ja) 2005-10-28 2006-10-02 音声信号検出システム及び方法
US11/542,866 US7739107B2 (en) 2005-10-28 2006-10-04 Voice signal detection system and method
DE602006000487T DE602006000487T2 (de) 2005-10-28 2006-10-24 Verfahren und Vorrichtung zur Sprachdetektion
EP06122828A EP1780704B1 (en) 2005-10-28 2006-10-24 Voice signal detection system and method
CNA2006101427048A CN1956055A (zh) 2005-10-28 2006-10-26 语音信号检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050102583A KR100800873B1 (ko) 2005-10-28 2005-10-28 음성 신호 검출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20070045846A KR20070045846A (ko) 2007-05-02
KR100800873B1 true KR100800873B1 (ko) 2008-02-04

Family

ID=37635197

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050102583A KR100800873B1 (ko) 2005-10-28 2005-10-28 음성 신호 검출 시스템 및 방법

Country Status (6)

Country Link
US (1) US7739107B2 (ko)
EP (1) EP1780704B1 (ko)
JP (1) JP4545729B2 (ko)
KR (1) KR100800873B1 (ko)
CN (1) CN1956055A (ko)
DE (1) DE602006000487T2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200017143A (ko) 2018-08-08 2020-02-18 주식회사 케이티 음성 신호를 처리하는 장치, 방법 및 컴퓨터 판독가능 매체

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515454B (zh) * 2008-02-22 2011-05-25 杨夙 用于语音、音乐、噪音自动分类的信号特征提取方法
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
CN101625859B (zh) * 2008-07-10 2012-06-06 新奥特(北京)视频技术有限公司 语音端点检测中的短时能频值波形斜率门限的确定方法
CN101625862B (zh) * 2008-07-10 2012-07-18 新奥特(北京)视频技术有限公司 自动字幕生成系统中语音区间的检测方法
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN102014017B (zh) 2010-09-30 2013-10-09 华为技术有限公司 一种信号检测电路、方法及系统
CN103856600B (zh) * 2012-12-04 2016-09-28 中兴通讯股份有限公司 一种内置搜索语音短信功能的移动终端及其搜索方法
KR20150105847A (ko) * 2014-03-10 2015-09-18 삼성전기주식회사 음성구간 검출 방법 및 장치
CN105095624B (zh) * 2014-05-15 2017-08-01 中国电子科技集团公司第三十四研究所 一种光纤传感振动信号的识别方法
CN105551491A (zh) * 2016-02-15 2016-05-04 海信集团有限公司 语音识别方法和设备
US10789965B2 (en) * 2018-07-03 2020-09-29 Silicon Laboratories Inc. System, apparatus and method for time synchronization of delayed data streams by matching of wavelet coefficients
US10891936B2 (en) 2019-06-05 2021-01-12 Harman International Industries, Incorporated Voice echo suppression in engine order cancellation systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02244200A (ja) * 1989-03-17 1990-09-28 Akio Ogiwara 音声信号処理用ピッチ検出回路
KR100195009B1 (ko) 1995-09-30 1999-06-15 윤종용 음성재생장치의 음성신호 검출회로 및 그 방법
JP2001067092A (ja) 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 音声検出装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1343869A (en) 1972-05-05 1974-01-16 Post Office Method and apparatus for detecting a speech signal in the presence of noise
US4514703A (en) * 1982-12-20 1985-04-30 Motrola, Inc. Automatic level control system
GB2139052A (en) 1983-04-20 1984-10-31 Philips Electronic Associated Apparatus for distinguishing between speech and certain other signals
JPS59104700A (ja) * 1983-11-18 1984-06-16 株式会社日立製作所 音声切り出し装置
US4975657A (en) 1989-11-02 1990-12-04 Motorola Inc. Speech detector for automatic level control systems
JPH0713585A (ja) 1993-06-21 1995-01-17 Casio Comput Co Ltd 音声区間切出し装置
US5563925A (en) 1995-07-20 1996-10-08 Siemens Medical Systems, Inc. Apparatus and method for adjusting radiation in a radiation-emitting device
JPH10301594A (ja) * 1997-05-01 1998-11-13 Fujitsu Ltd 有音検出装置
TW333610B (en) * 1997-10-16 1998-06-11 Winbond Electronics Corp The phonetic detecting apparatus and its detecting method
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6205422B1 (en) 1998-11-30 2001-03-20 Microsoft Corporation Morphological pure speech detection using valley percentage
JP3878482B2 (ja) * 1999-11-24 2007-02-07 富士通株式会社 音声検出装置および音声検出方法
US6904146B2 (en) * 2002-05-03 2005-06-07 Acoustic Technology, Inc. Full duplex echo cancelling circuit
JP2003330491A (ja) * 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
JP4413175B2 (ja) * 2005-09-05 2010-02-10 日本電信電話株式会社 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02244200A (ja) * 1989-03-17 1990-09-28 Akio Ogiwara 音声信号処理用ピッチ検出回路
KR100195009B1 (ko) 1995-09-30 1999-06-15 윤종용 음성재생장치의 음성신호 검출회로 및 그 방법
JP2001067092A (ja) 1999-08-26 2001-03-16 Matsushita Electric Ind Co Ltd 音声検出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200017143A (ko) 2018-08-08 2020-02-18 주식회사 케이티 음성 신호를 처리하는 장치, 방법 및 컴퓨터 판독가능 매체

Also Published As

Publication number Publication date
JP2007122047A (ja) 2007-05-17
DE602006000487T2 (de) 2009-01-22
CN1956055A (zh) 2007-05-02
JP4545729B2 (ja) 2010-09-15
EP1780704A1 (en) 2007-05-02
EP1780704B1 (en) 2008-01-23
KR20070045846A (ko) 2007-05-02
US7739107B2 (en) 2010-06-15
US20070100609A1 (en) 2007-05-03
DE602006000487D1 (de) 2008-03-13

Similar Documents

Publication Publication Date Title
KR100800873B1 (ko) 음성 신호 검출 시스템 및 방법
US20160322067A1 (en) Methods and Voice Activity Detectors for a Speech Encoders
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
US8311813B2 (en) Voice activity detection system and method
Ramírez et al. A new Kullback-Leibler VAD for speech recognition in noise
US9390729B2 (en) Method and apparatus for performing voice activity detection
US7774203B2 (en) Audio signal segmentation algorithm
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
US20040064314A1 (en) Methods and apparatus for speech end-point detection
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
US7860708B2 (en) Apparatus and method for extracting pitch information from speech signal
KR100631608B1 (ko) 음성 판별 방법
JP4682700B2 (ja) 音声認識装置
KR101697651B1 (ko) 음성 신호의 검출 방법 및 장치
US7254532B2 (en) Method for making a voice activity decision
KR20120056661A (ko) 음성 신호 전처리 장치 및 방법
US7630891B2 (en) Voice region detection apparatus and method with color noise removal using run statistics
US8103512B2 (en) Method and system for aligning windows to extract peak feature from a voice signal
KR100303477B1 (ko) 가능성비 검사에 근거한 음성 유무 검출 장치
Górriz et al. Generalized LRT-based voice activity detector
KR100530261B1 (ko) 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법
Torre et al. Noise robust model-based voice activity detection
Davis et al. A low complexity statistical voice activity detector with performance comparisons to ITU-T/ETSI voice activity detectors
Kim et al. Voice activity detection algorithm using radial basis function network
Ahn et al. An improved statistical model‐based VAD algorithm with an adaptive threshold

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121228

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131230

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20141223

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20151229

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee