KR100429896B1 - 잡음 환경에서의 음성신호 검출방법 및 그 장치 - Google Patents

잡음 환경에서의 음성신호 검출방법 및 그 장치 Download PDF

Info

Publication number
KR100429896B1
KR100429896B1 KR10-2001-0073007A KR20010073007A KR100429896B1 KR 100429896 B1 KR100429896 B1 KR 100429896B1 KR 20010073007 A KR20010073007 A KR 20010073007A KR 100429896 B1 KR100429896 B1 KR 100429896B1
Authority
KR
South Korea
Prior art keywords
voice
signal
speech
noise
basis function
Prior art date
Application number
KR10-2001-0073007A
Other languages
English (en)
Other versions
KR20030042286A (ko
Inventor
전형배
정호영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2001-0073007A priority Critical patent/KR100429896B1/ko
Priority to US10/074,451 priority patent/US20030097261A1/en
Publication of KR20030042286A publication Critical patent/KR20030042286A/ko
Application granted granted Critical
Publication of KR100429896B1 publication Critical patent/KR100429896B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)

Abstract

독립 요소 해석 기법의 기저 함수를 이용한 음성 신호 검출 장치 및 그 방법이 개시되어 있다. 본 발명은 소정의 학습 법칙에 의해 음성 신호의 기저함수와 잡음 신호의 기저함수를 훈련하는 과정, 마이크로 입력되는 잡음 특성을 반영하여 상기 과정에서 훈련된 잡음신호의 기저함수를 현재 환경에 적응시키는 과정, 상기 훈련된 음성신호의 기저함수와 상기 환경에 적응된 잡음신호의 기저함수를 바탕으로 음성 구간의 판별정보를 추출하는 과정, 상기 과정에서 추출된 판별정보로 입력되는 마이크 신호의 음성 시작점과 음성 끝점을 검출하는 과정을 포함한다.

Description

잡음 환경에서의 음성 신호 검출 방법 및 그 장치{Speech detection apparatus under noise environment and method thereof}
본 발명은 음성 신호 검출 장치 및 그 방법에 관한 것으로서, 특히 독립 요소 해석 기법(Independent Component Analysis)으로 훈련된 기저 함수(basis function)를 이용한 음성 신호 검출 장치 및 그 방법에 관한 것이다.
일반적으로 음성 인식은 컴퓨터와 같은 장치를 통해서 음성신호를 분석하여발화된 문장을 출력하는 기술이다. 음성인식 시스템 내에서 음성인식 모듈을 항상 구동하기 위해서는 많은 양의 메모리 등 고비용을 초래하기 때문에 음성이 시작되는 순간에서부터 음성인식 모듈을 동작시켜야 한다. 그렇기 때문에 음성인식 시스템에서 음성구간을 검출 하는 장치는 반듯이 필요하게 된다. 또한 음성 구간 검출 방식은 실제 잡음 환경하에서 강인하게 동작해야 하고, 실시간 음성인식기에 쓰이기 위해서 계산량이 적고 실시간으로 동작해야만 한다.
종래의 음성 구간 검출 장치는 음성 신호의 에너지 성분, 주파수 스펙트럼, 영교차율 정보 등을 이용한다. 그런데 음성 신호에 주변 잡음이 심하게 섞인 경우 음성 신호의 특징들이 잡음에 의해 손상되기 때문에 음성 구간의 검출이 어려워진다. 따라서, 종래의 음성구간 검출 방식은 신호대 잡음비(SNR) 값이 적은, 열악한 잡음 환경에서 음성 검출(Voice Activation Detection) 성능의 저하가 뚜렷하게 나타나며, 그에 따라 묵음을 음성인 것으로 오판하는 허위 경보율(False Alarm Rate)도 높아지게 되는 문제점이 있었다.
본 발명이 이루고자 하는 기술적 과제는 독립 요소 해석 기법을 이용하여 음성 신호와 잡음 신호의 기저 함수를 학습하고, 학습된 기저 함수를 이용해 신호 대 잡음비가 낮은 고잡음 환경에서도 안정된 음성 구간을 검출하는 음성 신호 검출 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 기술적 과제는 상기 음성 신호 검출 방법을 적용한 음성 신호 검출 장치를 제공하는 데 있다.
도 1은 기저함수들로 선형 조합된 음성 신호의 구성도이다.
도 2는 음성신호를 이용하여 기저함수를 훈련하는 독립요소해석기법 네트웍을 나타내는 개념도이다.
도 3은 본 발명에 따른 음성 신호 검출 장치를 보이는 블록도이다.
도 4는 도 3의 판별정보추출부의 상세도이다.
도 5는 판별정보 추출부에서 추출된 판별정보를 이용하여 음성의 시작과 끝을 판별하는 상태 천이도이다.
도 6은 본 발명에 따른 음성 신호 검출 방법을 보이는 흐름도이다.
상기의 기술적 과제를 해결하기 위하여, 본 발명에 의한 잡음 환경 하에서 음성 신호 검출 방법은
소정의 학습 법칙에 의해 음성 신호의 기저함수와 잡음 신호의 기저함수를 미리 훈련(training) 하는 과정;
마이크로 입력되는 잡음 특성을 반영하여 상기 과정에서 훈련된 잡음신호의 기저함수를 현재 환경에 적응시키는 과정;
상기 훈련된 음성신호의 기저함수와 상기 환경에 적응된 잡음신호의 기저함수를 바탕으로 음성 구간의 판별정보를 추출하는 과정;
상기 과정에서 추출된 판별정보를 이용하여 음성인식기에 입력되는 마이크 신호의 음성 시작점과 음성 끝점을 검출하는 과정을 포함하는 것을 특징으로 한다.
상기의 다른 기술적 과제를 해결하기 위하여, 본 발명에 의한 잡음 환경 하에서 음성 구간을 검출하는 음성 신호 검출 장치에 있어서,
소정의 학습 법칙에 의해 음성 신호의 기저함수와 잡음 신호의 기저함수를 훈련하고, 마이크로 입력되는 잡음 특성을 반영하여 훈련된 잡음신호의 기저함수를 현재 환경에 적응시키는 학습네트웍수단;
상기 학습네트웍수단에서 훈련된 음성신호의 기저함수와 환경에 적응된 잡음신호의 기저함수를 바탕으로 음성 구간의 판별정보를 추출하는 판별정보추출수단;
상기 판별정보추출수단에서 추출된 음성구간의 판별정보로부터 음성인식기에 입력되는 마이크 신호의 음성 시작점과 음성 끝점을 검출하는 음성구간판별수단을포함하는 것을 특징으로 한다.
이하 첨부된 도면을 참조로 하여 본 발명의 바람직한 실시 예를 설명하기로 한다.
먼저, 본 발명에서는 잡음에 강한 음성 구간 검출을 구현하기 위해 음성신호와 잡음신호의 기저함수를 이용한다. 기저함수는 음성신호, 또는 잡음신호를 구성하는 요소성분을 말한다. 따라서 기저함수에는 음성신호와 잡음신호의 고유한 특성들, 즉 주파수 특성 등이 반영된다. 기저함수의 이러한 특징을 이용하여, 잡음이 섞인 음성신호에서 잡음과 음성의 상대적인 에너지 비를 구해낼 수 있다.
이러한 음성신호와 잡음신호의 기저함수를 구하기 위해서는 독립요소해석기법이 사용된다. 독립요소해석기법은 독립인 신호가 서로 섞여서 마이크를 통해 수집된 신호로부터 원래의 신호가 서로 확률적으로 독립이라는 조건만을 이용하여 혼합되기 전의 신호와 혼합행렬을 찾아내는 방법이다.
도 1은 기저함수들로 선형 조합된 음성 신호의 구성도이다.
도 1을 참조하면, 음성신호를x라고 할 경우, 음성신호(103)는 생성 계수열(s)(101)과 기저함수(102)를 함유하는 혼합행렬(A)에 의해 수학식 1과 같이 구성된다
x=As
여기서 혼합행렬(A)의 행벡터가 음성신호의 기저함수가 된다. 독립요소해석기법으로 구한 음성신호의 기저함수(102)는 각각 특정 주파수 성분에 반응하는 파형으로 나타난다.
독립요소해석기법의 학습을 통하여 음성신호의 기저함수들을 찾아내는 과정은 다음과 같다.
도 2는 음성신호를 이용하여 기저함수를 훈련하는 독립요소해석기법 네트웍을 나타내는 개념도이다.
도 2를 참조하면, 독립요소해석기법의 학습 네트웍은 학습데이터로서 충분히 많은 양의 음성 신호를 사용하여 수학식 2에 기초하여 기저함수를 훈련한다.
수학식 2와 같은 독립요소해석기법 학습법칙에 의해서 행렬W(202)를 학습하게 되면, 네트웍(W)의 출력 신호인u(203)는 서로 확률적으로 독립인 신호열이 된다. 신호열(u)는 음성신호(210)중에서 서로 독립인 생성계수s를 추정한 신호열이다. 반복 학습과정을 수행하여W가 수렴할 동안 학습을 하여주고, 수렴한 후의W의 역행렬인A의 행 백터가 기저함수가 된다.
또한 잡음신호에 대해서도 음성신호와 같이 기저함수들을 학습할 수 있다.
그리고 음성 검출을 위해 충분한 양의 음성신호와 다양한 잡음 신호를 이용하여, 미리 음성신호와 잡음 신호의 기저함수를 학습해야한다.
도 3은 본 발명에 따른 음성 신호 검출 장치를 보이는 블록도이다.
도 3을 참조하면, 학습네트웍부(308)는 먼저 충분한 양의 음성신호와 다양한 잡음 신호를 이용하여 독립요소해석기법을 통해 음성신호와 잡음 신호의 기저함수를 미리 훈련(training)하여 메모리등에 저장해둔다. 마이크로부터 신호를 받아 들이는데, 음성 발성이 되기 전 묵음에 해당하는 초기의 음성 인식 대기 상태(301)에서의 마이크 신호에는 현재의 환경에 해당하는 잡음 신호가 들어있다. 음성 인식 대기 상태 동안에 학습네트웍부(308)는 마이크에 입력되는 현재 잡음의 특성을 학습하여 잡음신호의 기저함수(309)를 현재 환경에 맞도록 적응시킨다. 또한 묵음 구간에서의 잡음 특징은 추후 음성 시작점과 음성 끝점을 판별하기 위해 사용할 문턱값을 조정하는데 사용한다.
음성구간판별부(310)는 판별정보추출부(303)에서 추출된 판별정보를 바탕으로 음성시작점과 음성끝점을 판별한다. 음성구간판별부(310)를 상세하게 설명하면, 마이크 신호(302)가 입력되면 판별정보 추출부(303)는 이미 학습된 음성신호의 기저함수와 학습네트워크부(308)에서 현재 환경에 맞도록 적응된 잡음신호의 기저함수를 이용하여 음성 시작 및 끝점을 판별하는 판별정보를 계산한다. 음성시작점판별부(304)는 판별정보추출부(303)에서 추출된 판별정보를 사용하여 음성 시작점을 검출한다. 음성 인식부(305)는 음성시작점판별부(304)로부터 음성이 시작되었다는 정보가 넘어오면 마이크 신호(302)로부터 음성인식을 수행한다. 음성 끝점 검출부(306)는 판별정보추출부(303)에서 받은 판별정보와 음성인식부(305)의 인식결과를 이용하여 마이크 신호 중 음성 신호가 끝나는 지점을 검출한다. 이때 음성 시작점 판별부(304)와 음성 끝점 판별부(306)는 상태 천이 알고리즘에 의해 음성구간을 판별한다.
음성의 끝점을 검출 한 후 다시 음성 인식 대기 상태(307)로 복귀하며, 이때학습네트워크부(308)에서 현재 환경의 잡음 특성과 판별 문턱값의 적응이 이루어 진다.
도 4는 도 3의 판별정보추출부(303)의 상세도이다.
도 4를 참조하면, 먼저 학습네트웍부(308)는 독립요소해석기법을 통하여 미리 음성신호의 기저함수(408)와 잡음신호의 기저함수(409)를 갖는다. 음성 신호(301)가 들어오면 음성기저함수계수추출부(402)는 음성 기저함수(408)를 이용하여 음성 생성 계수를 추정한다. 이 추정된 음성생성계수는 각 기저함수가 음성신호에 얼마나 기여하고 있는지를 의미하는 양을 나타낸다. 또한 잡음기저함수계수추출부(403)는 잡음신호 기저함수(409)를 이용하여 역시 잡음신호의 생성계수를 추정한다.
음성 가능성도 계산부(404)는 추정된 음성 생성 계수를 파라메터로 하여 음성신호일 가능성을 의미하는 음성신호 가능성도(likelihood)를 계산한다.
잡음 가능성도 계산부(405)는 추정된 잡음 생성 계수를 파라메터로 하여 잡음 신호일 가능성을 의미하는 잡음신호 가능성도(likelihood)를 계산한다. 본 발명에서는 가능성도(likelihood)에 로그(log)를 취한 로그가능성도(log-likelihood)를 사용한다.
음성신호의 로그가능성도(log-likelihood)는 수학식 3과 같이 계산된다.
여기서 x는 마이크 신호이며, θ는 파라메터(기저함수, 생성계수 등)이며, s는 음성신호(speech)이며, As는 음성기저함수 정보를 갖는 혼합행렬이다.
또한 잡음 신호의 로그가능성도(log-likelihood)는 수학식 4와 같이 계산된다.
여기서 x는 마이크 신호이며, θ는 파라메터(기저함수, 생성계수등)이며, n은 잡음신호(noise)이며, An는 잡음기저함수 정보를 갖는 혼합행렬이다.
판별정보계산부(406)는 음성 가능성도 계산부(404) 및 잡음 가능성도 계산부(405)에서 계산된 가능성도(likelihood)값을 이용하여 음성 시작점과 끝점 판별에 이용할 파라메터 정보(406)들을 계산한다. 기본적으로 묵음 구간에서는 음성신호와 잡음신호의 로그가능성도(log-likelihood)값들이 비슷하였다가, 음성구간에서는 음성 신호의 로그가능성도(log-likelihood)의 값이 크게 증가하므로, 음성 및 잡음신호의 로그가능성도(log-likelihood)값들의 차이를 판별 정보로 이용한다.
음성 시작점을 찾는 판별정보I은 다음과 같이 구한다. 즉, 음성신호의 로그가능성도 (log-likelihood)와 잡음신호의 로그가능성도 (log-likelihood)와의 차이를 초기 묵음구간에서의 음성 로그가능성도와 잡음 로그가능성도의 차이로 정규화하여 판별정보로 사용한다. 그리고 이와 함께 잡음신호의 로그가능성도(log-likelihood)값이 음성의 고주파 성분에 잘 반응하는 특징을 이용하여 잡음신호의 로그가능성도(log-likelihood)를 정규화된 두 로그가능성도 (log-likelihood)의 차와 함께 사용하여 최종적으로 판별정보I을 구한다.
음성의 끝점을 찾는 판별정보II는 다음과 같이 구한다. 즉, 일정시간 동안의 음성구간에서의 음성신호와 잡음신호의 로그가능성도(log-likelihood)간 차의 변동폭을 음성시작점의 두 로그가능성도 (log-likelihood)의 차이값으로 정규화하여 판별정보로 사용한다. 이 판별정보는 음성이 끝나고 나서 다시 묵음이 시작하게 되면 두 로그가능성도 (log-likelihood)의 변동폭이 적은 값으로 수렴하는 성질을 사용한 것이다. 정규화된 두 로그가능성도의 차와 함께 음성인식기의 인식결과를 이용하여 최종적으로 판별정보 II를 구하여 준다.
도 5는 판별정보 추출부(303)에서 추출된 판별정보 I과 판별정보 II를 이용하여 음성의 시작과 끝을 판별하는 상태 천이도이다.
먼저, 초기의 잡음이 혼합된 묵음상태(501)에서 마이크 신호가 입력된다. 판별정보 I이 문턱값 I을 넘으면 시작점 대기상태(502)로 이동한다. 이어서, 잡음 환경에 둔감한 성능을 내기 위하여 일정 시간 이상 시작점 대기 상태(502)에 머물러야 음성 구간 상태(503)로 천이하도록 하였다. 이때 일정시간(Num I)을 카운트하기 위해 Count I을 사용한다. Count I은 초기상태(501)에서 0으로 초기화된다. 시작점 대기상태(501)에서 판별정보 I이 문턱값 I보다 크게 되면 시작점대기상태(501)에 머무르게 되는데, 이 때 Count I을 1씩 증가시켜주어 일정 시간동안 시작점 대기상태(502)에 머물렀는지를 체크하게 된다. Count I이 정해준 기준값 Num I 보다 크게 되면, 즉 일정 시간 이상 시작점 대기 상태(502)에 머물렀다면 음성구간 상태(503)로 이동한다. 시작점 대기 상태에서 음성구간상태로 천이한 순간에서 Num I 이전의시점이 음성 신호의 시작점이 된다. 시작점 대기 상태(502)에 머무르는 동안 판별정보 I이 문턱값 I보다 작아서 다시 초기 상태(501)로 이동 한다면, 시작점 대기 상태(502)에 머무르는 시간을 기록하고 있는 Count I은 0으로 다시 초기화된다.
음성구간상태(503)에서 판별정보 II가 문턱값 II보다 크게 되면 음성 구간 상태(503)에 머무른다. 음성구간상태(503)에서 판별정보 II가 문턱값 II보다 작게 되면 끝점대기상태(504)로 이동한다. 이어서, 끝점대기상태(504)에서 판별정보 II가 문턱값 II보다 작게 되어야 끝점대기상태(504)에 머무르게 되고, 머무르는 시간이 일정 시간 이상 되어야만 초기묵음상태(501)로 이동하게 된다. 머무르는 시간은 Count II로 세어준다. 끝점 대기 상태에서 초기 묵음 상태로 천이한 순간에서 Num II 이전의 시점이 음성 신호의 끝점이 된다. 끝점대기상태(504)에 머무르는 동안 판별정보 II가 문턱값 II보다 크게 되면 음성구간상태(503)로 되돌아간다. 음성구간상태(503)로 이동하면 Count II는 0으로 초기화 된다.
이어서, 음성의 끝점을 검출하여 끝점 대기 상태(504)에서 초기묵음상태(501)로 이동하게 되면 다시 음성의 시작점 검출을 수행한다. 이때 초기묵음상태(501)에서 판별정보 I이 문턱값 I보다 작은 동안 계속 머무른다.
도 6은 본 발명에 따른 음성 신호 검출 방법을 보이는 흐름도이다.
먼저, 음성을 포함하는 마이크 신호가 입력된다(602과정).
이어서, 마이크 신호로부터 생성계수를 추정하고(603과정), 추정한 생성계수와 기저함수로부터 가능성도(likelihood)값을 계산한다(604과정).
이어서, 음성신호의 가능성도(likelihood)값과 잡음신호의가능성도(likelihood)값으로부터 판별정보I를 계산한다(605과정).
이어서, 판별정보I로부터 음성 시작점이라고 판정되면(606 과정) 마이크 신호는 음성 신호 구간이 된다.
이어서, 음성이 시작되면 마이크 신호를 음성인식기에 입력하고(608 과정), 다른 한편으로 음성 끝점 검출을 위해 음성 신호로부터 생성계수를 추정하고(609과정), 추정한 생성계수와 기저함수로부터 가능성도(likelihood)값을 계산한다(610과정).
이어서, 구해진 음성신호의 가능성도(likelihood)값과 잡음신호의 가능성도(likelihood)값으로부터 음성 끝점 판정을 위한 판별정보II를 계산한다(611과정).
이어서, 판별정보II에 의해 음성 끝점이라고 판정되면(613 과정) 음성신호로부터 시작점과 끝점을 찾아낸다.(613과정).
반면에, 음성신호가 입력되지 않는 초기의 음성인식 대기 상태인 잡음이 섞인 묵음 구간에서는 학습을 통해 잡음신호 기저함수를 현재 잡음 환경에 맞도록 적응시키며, 또한 현재 잡음의 상태에 따라 시작점과 끝점을 결정할 때 사용하는 문턱값I,II를 적응시킨다(607 과정).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프,하드디스크, 플로피디스크, 플래쉬 메모리, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
상술한 바와 같이 본 발명에 따른 잡음 환경에서의 음성 신호 검출 방법 및 그 장치에 의하면 독립 요소 해석 기법으로 훈련된 기저 함수(basis function)를 이용함으로써 잡음이 심한 환경에서도 음성신호를 오류 없이 찾아낼 수 있다. 또한 계산량도 기존의 방법에 비해 적기 때문에 실시간 시스템에의 활용이 가능하다. 따라서 실시간으로 동작하는 음성인식기의 경우 잡음 환경하에서도 강인하게 음성신호를 찾아내어 인식기의 성능을 개선할 수 있다.

Claims (12)

  1. 잡음 환경 하에서 음성 신호 검출 방법에 있어서,
    소정의 학습 법칙에 의해 음성 신호의 기저함수와 잡음 신호의 기저함수를 훈련(training) 하는 과정;
    마이크로 입력되는 잡음 특성을 반영하여 상기 과정에서 훈련된 잡음신호의 기저함수를 현재 환경에 적응시키는 과정;
    상기 훈련된 음성신호의 기저함수와 상기 환경에 적응된 잡음신호의 기저함수를 바탕으로 음성 구간의 판별정보를 추출하는 과정;
    상기 과정에서 추출된 판별정보로 입력되는 마이크 신호의 음성 시작점과 음성 끝점을 검출하는 과정을 포함하는 음성 신호 검출 방법.
  2. 제1항에 있어서, 상기 소정의 학습 법칙은 독립요소해석기법임을 특징으로 하는 음성 신호 검출 방법.
  3. 제1항에 있어서, 상기 판별 정보 추출 과정은
    상기 음성 기저함수와 잡음 기저함수를 바탕으로 음성 및 잡음 생성 계수를 추정하는 과정;
    상기 과정에서 추정된 음성 및 잡음 생성 계수로 음성 신호 가능성도와 잡음 신호 가능 성도를 계산하는 과정;
    상기 과정에서 계산된 음성 신호 가능성도값과 잡음 신호 가능성도값 간의 차이로 음성 구간 판별 정보를 계산하는 과정을 포함하는 것을 특징으로 하는 음성 신호 검출 방법.
  4. 제3항에 있어서, 상기 음성 신호 가능성도는
    로 계산되며,
    여기서 x는 마이크 신호이며, θ는 파라메터이며, s는 음성 신호이며, As는 음성기저함수 정보를 갖는 혼합 행렬임을 특징으로 하는 음성 신호 검출 방법.
  5. 제1항에 있어서, 상기 과정에서 음성 시작점을 찾는 판별정보는 음성 신호의 가능성도와 잡음 신호의 가능성도간의 차이를 초기 묵음구간에서 음성신호의 가능성도와 잡음신호의 가능성도간의 차이로 정규화한 값임을 특징으로 하는 음성 신호 검출 방법.
  6. 제1항에 있어서, 상기 과정에서 음성 시작점을 찾는 판별정보는 음성 신호의 가능성도와 잡음 신호의 가능성도간의 차이를 초기 묵음구간에서 음성신호의 가능성도와 잡음신호의 가능성도간의 차이로 정규화한 값과 잡음 신호의 가능성도를 사용하는 것을 특징으로 하는 음성 신호 검출 방법.
  7. 제1항에 있어서, 상기 과정에서 음성 끝점을 찾는 판별정보는 일정시간 동안의 음성구간에서의 음성 및 잡음 가능성도의 차의 변동폭을 음성시작점의 음성 및 잡음 가능성도의 차이값으로 정규화한 값임을 특징으로 하는 음성 신호 검출 방법.
  8. 제1항에 있어서, 상기 음성 시작점과 음성 끝점 검출 과정은
    잡음이 혼합된 초기묵음상태에서 마이크 신호가 입력되면 음성시작점 판별정보가 제1문턱값을 넘으면 시작점 대기상태로 이동하며, 일정 프레임동안 음성 시작점판별정보가 제1문턱값 보다 크면 음성구간 상태로 이동하고 그렇지 않을 경우 초기 묵음 상태로 복귀하며, 상기 음성구간에서 음성 끝점 판별정보가 제2문턱값보다 적으면 음성 끝점 대기상태로 이동하며, 상기 끝점 대기상태에서 일정 시간 이상존재하면 초기 묵음 상태로 이동하고 그렇지 않을 경우에는 음성구간으로 복귀하는 것을 특징으로 하는 음성 신호 검출 방법.
  9. 제8항에 있어서, 상기 제1 및 제2 문턱값은 현재 잡음 상태에 따라 결정되는 것임을 특징으로 하는 음성 신호 검출 방법.
  10. 잡음 환경 하에서 음성 구간을 검출하는 음성 신호 검출 장치에 있어서,
    소정의 학습 법칙에 의해 음성 신호의 기저함수와 잡음 신호의 기저함수를 훈련하고, 마이크로 입력되는 잡음 특성을 반영하여 상기 잡음신호의 기저함수를 현재 환경에 적응시키는 학습네트웍수단;
    상기 학습 네트워크수단에서 훈련된 음성신호의 기저함수와 환경에 적응된 잡음신호의 기저함수를 바탕으로 음성 구간의 판별정보를 추출하는 판별정보추출수단;
    상기 판별정보추출수단에서 추출된 음성구간의 판별정보로 입력되는 마이크 신호의 음성 시작점과 음성 끝점을 검출하는 음성구간판별수단을 포함하는 음성 신호 검출 장치.
  11. 제10항에 있어서, 상기 판별정보추출수단은
    상기 음성 기저함수를 이용하여 음성 생성 계수를 추정하는 음성기저함수계수추출부;
    상기 잡음신호 기저함수를 이용하여 잡음신호의 생성계수를 추정하는 잡음기저함수계수추출부;
    상기 음성기저함수계추출부에서 추정된 음성 생성 계수로 음성신호가능성도를 계산하는 음성 가능성도 계산부;
    상기 잡음기저함수계추출부에서 추정된 잡음 생성 계수로 하여 잡음신호가능성도(likelihood)를 계산하는 잡음 가능성도 계산부;
    상기 음성가능성도계산부 및 잡음가능성도계산부에서 계산된 음성 신호 가능성도값과 잡음 신호 가능성도값간의 차이로 음성 판별 정보를 계산하는 판별정보계산부를 포함하는 것을 특징으로 하는 음성 신호 검출 장치.
  12. 프로세서를 구비한 컴퓨터 시스템에 있어서,
    소정의 학습 법칙에 의해 음성 신호의 기저함수와 잡음 신호의 기저함수를 미리 훈련하는 과정;
    마이크로 입력되는 잡음 특성을 반영하여 상기 과정에서 훈련된 잡음신호의 기저함수를 현재 환경에 적응시키는 과정;
    상기 훈련된 음성신호의 기저함수와 상기 환경에 적응된 잡음신호의 기저함수를 바탕으로 음성 구간의 판별정보를 추출하는 과정;
    상기 과정에서 추출된 판별정보로 입력되는 마이크 신호의 음성 시작점과 음성 끝점을 검출하는 과정을 포함하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR10-2001-0073007A 2001-11-22 2001-11-22 잡음 환경에서의 음성신호 검출방법 및 그 장치 KR100429896B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2001-0073007A KR100429896B1 (ko) 2001-11-22 2001-11-22 잡음 환경에서의 음성신호 검출방법 및 그 장치
US10/074,451 US20030097261A1 (en) 2001-11-22 2002-02-11 Speech detection apparatus under noise environment and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0073007A KR100429896B1 (ko) 2001-11-22 2001-11-22 잡음 환경에서의 음성신호 검출방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20030042286A KR20030042286A (ko) 2003-05-28
KR100429896B1 true KR100429896B1 (ko) 2004-05-03

Family

ID=19716201

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0073007A KR100429896B1 (ko) 2001-11-22 2001-11-22 잡음 환경에서의 음성신호 검출방법 및 그 장치

Country Status (2)

Country Link
US (1) US20030097261A1 (ko)
KR (1) KR100429896B1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100555499B1 (ko) * 2003-06-02 2006-03-03 삼성전자주식회사 2차 전방향 네트워크에 독립 해석 알고리즘을 이용하는반주/보이스 분리 장치 및 그 방법
US20060031067A1 (en) * 2004-08-05 2006-02-09 Nissan Motor Co., Ltd. Sound input device
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
CN108877776B (zh) * 2018-06-06 2023-05-16 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
CN108962227B (zh) * 2018-06-08 2020-06-30 百度在线网络技术(北京)有限公司 语音起点和终点检测方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03118600A (ja) * 1989-10-02 1991-05-21 Toshiba Corp 音声認識装置
JPH0546196A (ja) * 1991-08-21 1993-02-26 Nec Corp 音声認識装置
JPH0764589A (ja) * 1993-08-24 1995-03-10 Toshiba Corp 音声認識装置及び方法
JPH09198079A (ja) * 1996-01-12 1997-07-31 Brother Ind Ltd 音声認識装置
KR20000056527A (ko) * 1999-02-23 2000-09-15 조정남 선 스펙트럼 쌍 거리를 이용한 음성 구간 검출 방법
KR20010026402A (ko) * 1999-09-06 2001-04-06 윤장진 신경망을 이용한 음성인식장치 및 그 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6205422B1 (en) * 1998-11-30 2001-03-20 Microsoft Corporation Morphological pure speech detection using valley percentage
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
US7085711B2 (en) * 2000-11-09 2006-08-01 Hrl Laboratories, Llc Method and apparatus for blind separation of an overcomplete set mixed signals

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03118600A (ja) * 1989-10-02 1991-05-21 Toshiba Corp 音声認識装置
JPH0546196A (ja) * 1991-08-21 1993-02-26 Nec Corp 音声認識装置
JPH0764589A (ja) * 1993-08-24 1995-03-10 Toshiba Corp 音声認識装置及び方法
JPH09198079A (ja) * 1996-01-12 1997-07-31 Brother Ind Ltd 音声認識装置
KR20000056527A (ko) * 1999-02-23 2000-09-15 조정남 선 스펙트럼 쌍 거리를 이용한 음성 구간 검출 방법
KR20010026402A (ko) * 1999-09-06 2001-04-06 윤장진 신경망을 이용한 음성인식장치 및 그 방법

Also Published As

Publication number Publication date
KR20030042286A (ko) 2003-05-28
US20030097261A1 (en) 2003-05-22

Similar Documents

Publication Publication Date Title
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
US6711536B2 (en) Speech processing apparatus and method
KR101201146B1 (ko) 최적의 추정을 위한 중요한 양으로서 순간적인 신호 대 잡음비를 사용하는 잡음 감소 방법
KR101054704B1 (ko) 음성 활성도 검출 시스템 및 방법
US7610199B2 (en) Method and apparatus for obtaining complete speech signals for speech recognition applications
US6993481B2 (en) Detection of speech activity using feature model adaptation
US7277853B1 (en) System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
RU2393549C2 (ru) Способ и устройство для распознавания речи
US7933771B2 (en) System and method for detecting the recognizability of input speech signals
JP4531166B2 (ja) 信頼性尺度の評価を用いる音声認識方法
CN111326148B (zh) 置信度校正及其模型训练方法、装置、设备及存储介质
JP2007114413A (ja) 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
US20040015352A1 (en) Classifier-based non-linear projection for continuous speech segmentation
US6411925B1 (en) Speech processing apparatus and method for noise masking
KR100429896B1 (ko) 잡음 환경에서의 음성신호 검출방법 및 그 장치
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
US6560575B1 (en) Speech processing apparatus and method
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
KR101460059B1 (ko) 잡음 검출 방법 및 장치
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
CN112131541A (zh) 一种基于振动信号的身份验证方法和系统
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
JP3533773B2 (ja) 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100401

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee