KR20060056186A - 음성인식장치의 음성구간 검출방법 - Google Patents

음성인식장치의 음성구간 검출방법 Download PDF

Info

Publication number
KR20060056186A
KR20060056186A KR1020040095520A KR20040095520A KR20060056186A KR 20060056186 A KR20060056186 A KR 20060056186A KR 1020040095520 A KR1020040095520 A KR 1020040095520A KR 20040095520 A KR20040095520 A KR 20040095520A KR 20060056186 A KR20060056186 A KR 20060056186A
Authority
KR
South Korea
Prior art keywords
signal
mean
voice
section
region
Prior art date
Application number
KR1020040095520A
Other languages
English (en)
Other versions
KR100677396B1 (ko
Inventor
우경호
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020040095520A priority Critical patent/KR100677396B1/ko
Priority to JP2005334978A priority patent/JP4282659B2/ja
Priority to DE602005010525T priority patent/DE602005010525D1/de
Priority to AT05025231T priority patent/ATE412235T1/de
Priority to EP05025231A priority patent/EP1659570B1/en
Priority to CN2005101267970A priority patent/CN1805007B/zh
Priority to US11/285,270 priority patent/US7620544B2/en
Publication of KR20060056186A publication Critical patent/KR20060056186A/ko
Application granted granted Critical
Publication of KR100677396B1 publication Critical patent/KR100677396B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

본 발명은 음성인식장치가 입력 음성급 신호를 적은 연산량으로 실시간 처리하여 음성신호가 포함되는 구간을 검출하는 것으로, 음성신호와 잡음신호가 포함된 음성급 신호를 입력하는 입력부; 프레임 단위의 임계대역으로 포맷하며 신호임계값과 잡음임계값에 의하여 음성신호의 구간을 검출 출력하는 신호처리부; 임계대역 프레임 단위의 각 영역별로 신호임계값을 재귀법으로 연산 출력하는 신호임계부; 임계대역 프레임 단위의 각 영역별로 잡음임계값을 재귀법으로 연산 출력하는 잡음임계부; 음성신호가 검출되는 임계대역 프레임 구간을 검출하는 구간검출부; 입력되는 음성급 신호를 임계대역 프레임 단위로 포맷하며 3개의 영역으로 구분하는 임계대역부가 포함되어 이루어지는 특징과, 또한, 음성신호 구간을 검출하면, 음성급 신호를 임계대역 프레임으로 포맷하고 각 프레임을 3개 영역으로 구분하는 시작과정; 상기 포맷된 초기 4개 프레임의 영역별 에너지 평균값과 표준편차값을 연산하고 각 영역별 신호임계값과 잡음임계값을 설정하는 임계과정; 상기 설정된 임계값을 기준으로 임계대역 프레임 음성급 신호가 음성신호이거나 잡음신호인지 확인 검출하고 해당 구간으로 설정하는 출력과정; 상기의 다음 순서로 검출할 임계대역 프레임이 있으면, 재귀법에 의하여 각 영역별 신호임계값과 잡음임계값을 연산하고 갱신 설정하는 갱신과정으로 이루어지는 것을 특징으로 한다

Description

음성인식장치의 음성구간 검출장치 및 방법{A METHOD AND A APPARATUS OF DETECTING VOICE AREA ON VOICE RECOGNITION DEVICE}
도1 은 종래 기술에 의한 음성신호 구간 검출장치 기능 구성도,
도2 는 본 발명에 의한 음성인식장치의 음성구간 검출장치 기능 구성도,
도3 은 본 발명에 의한 음성인식장치의 음성구간 검출방법 순서도,
도4 는 본 발명에 의한 입력 음성급 신호의 임계대역 프레임 구성상태도.
** 도면의 주요 부분에 대한 부호 설명 **
100 : 입력부 110 : 신호처리부 120 : 메모리부
130 : 임계대역부 140 : 정합출력부 150 : 구간검출부
160 : 잡음임계부 170 : 신호임계부
본 발명은 음성인식장치가 입력되는 음성급(AUDIO) 신호로부터 음성(VOICE) 구간을 실시간 검출하는 것으로, 특히, 잡음이 포함되어 입력되는 음성급(AUDIO) 신호로부터 음성(VOICE) 신호 구간을 적은 계산량과 실시간 처리로 정확하고 신속하게 검출하는 음성인식장치의 음성구간 검출장치 및 방법에 관한 것이다.
음성신호는 인간이 타인과의 사이에서 자신이 표현할 의사전달을 위하여 가장 보편적이고 간편하며 용이하고 신속하게 사용되는 수단 또는 매체이다.
상기와 같은 음성신호는 근거리 의사전달 수단으로 매우 유용하지만, 자연적인 상태에서 중장거리 의사전달이 어렵고, 음성신호를 입력하여 해당 처리하므로 장거리 전달하거나 기록저장하여 전달하는 등의 방법이 있다.
상기 음성신호(VOICE SIGNAL)가 포함되는 음성급 신호는, 오디오(AUDIO) 신호 또는 가청신호는, 일반적으로 약 20 Hz 내지 20,000 Hz 범위(RANGE)이고, 상기 범위를 임계대역(CRITICAL BAND)이라고 하며, 숙달되거나 훈련에 의하여 상기의 임게대역 범위를 초과하는 경우와 신체적 장애 등으로 축소되는 경우가 있다.
상기 음성인식장치에 입력되는 음성(VOICE) 신호에는, 주변에서 발생하는 음성급(AUDIO) 신호가 함께 입력되고, 상기 주변에서 발생하여 입력되는 음성급 신호는 잡음(NOISE) 신호로 분류되며, 상기 잡음신호를 제거하거나 억제하는 경우, 필요로 하는 음성신호만을 추출하여 음성신호의 품질을 향상하게 된다.
상기 음성인식장치는, 입력된 음성급 신호로부터 해당 음성신호를 분리하고 해당 구간을 검색하여 추출된 음성신호의 패턴(PATTERN)을 분석 및 응용 또는 이용하는 것으로, 상기 응용범위가 매우 다양하며, 일 예로, 통신장비의 다이얼링, 방범 제어, 전달하는 음성신호의 압축 등등이 있다.
최근의 신호처리(SIGNAL PROCESSING) 기술 발달에 힘입어, 음성신호의 패턴(PATTERN)을 분석하고 필요한 처리를 하거나 제어를 하는 음성인식장치가 발달하고 있으나, 장치 구성이 복잡하고, 계산량이 많으며, 실시간 신속하게 처리하지 못하 는 문제가 있다.
따라서, 음성급(AUDIO) 신호를 입력하고 분석처리하여 음성(VOICE) 신호를 추출하는 음성인식 장치의 구성을 간단하게 하며, 적은 계산량으로, 음성신호 발생 구간을 신속하게 실시간 검색하는 기술을 개발할 필요가 있다.
이하, 종래 기술에 의한 음성인식장치의 음성구간 검출방식을 첨부된 도면을 참조하여 설명한다.
종래 기술을 설명하기 위하여 첨부된 것으로, 도1 은 종래 기술에 의한 음성신호 구간 검출장치 기능 구성도 이다.
상기 도1을 참조하여, 종래 기술에 의한 음성신호 구간 검출장치를 설명하면, 상기 키보드를 통하여 인가되는 제어명령을 인식한 신호처리부(20)의 제어에 의하여 입력부(10)에서 음성신호를 입력하고, 상기 입력부(10)에 음성신호가 입력되는 경우, 주변에서 발생되는 불필요한 음성급 신호가 함께 입력된다.
상기와 같이 입력부(10)를 통하여, 주변의 음성급 신호와 함께 입력되는 음성신호는 신호처리부(20)에 출력되고, 상기 신호처리부(20)에 의하여 구간검출부(30)에 인가되므로, 음성신호 구간을 검출한다.
상기 구간검출부(30)에서 음성신호의 구간을 검출하는 방법은, 일 예로, 에너지와 영교차율(ZERO CROSSING RATE) 검출방법, 소음으로 판별된 구간의 캡스트랄(CEPSTRAL) 계수와 현재 구간의 캡스트랄 거리(CEPSTRAL DISTANCE)를 구하여 음성신호의 존재 여부를 판단하는 방법, 음성(VOICE)과 잡음(NOISE)의 두 신호에 의한 일관성(COHERENT)을 측정하여 음성신호의 존재 유무를 판단하는 방법 등이 있다.
상기와 같이 종래 기술에서 적용되고 사용되는 음성신호 구간 검출방법은, 비교적 간단한 방법일 수 있으나, 실제 응용측면에서 검출성능이 우수하지 못하고, 장치 구성이 복잡하며 신호대잡음비(SNR: SIGNAL TO NOISE RATIO)가 낮은 경우에 적용하기 어려우며, 주변환경을 통해서 검출되는 배경 소음 또는 잡음이 급격하게 변하는 경우 음성구간을 검출하기 어려운 등의 문제가 있다.
특히, 상기 종래 기술은, 음성신호의 구간검출을 위한 계산량이 많아 처리 과정이 복잡하며, 실시간(REALTIME) 처리를 하지 못하는 문제가 있다.
본 발명은 음성신호가 포함되고 잡음으로 분류되는 신호와 함께 입력되는 음성급 신호의 임계대역(CRITICAL BAND) 단위 프레임(FRAME)을 3개 영역(AREA)으로 구분하고, 각 임계대역별로 평균값과 표준편차 값을 재귀적(RECURSIVE)으로 적용하는 적응 임계값(ADAPTIVE THRESHOLD)에 의하여 음성신호의 구간을 적은 계산량으로 정확하게 실시간(REALTIME) 검출하는 음성인식장치의 음성구간 검출장치 및 방법을 제공하는 것이 그 목적이다.
상기와 같은 목적을 달성하기 위하여 안출한 본 발명은, 음성인식장치의 해당 제어 신호에 의하여 음성신호와 잡음신호가 포함된 음성급 신호를 입력하는 입력부와; 상기 입력부에 접속하고 프레임 단위의 임계대역으로 포맷하며 신호임계값과 잡음임계값에 의하여 음성신호의 구간을 검출 출력하는 신호처리부와; 상기 신호처리부의 제어에 의하여 임계대역 프레임 단위의 각 영역별로 신호임계값을 재귀법으로 연산 출력하는 신호임계부와; 상기 신호처리부의 제어에 의하여 임계대역 프레임 단위의 각 영역별로 잡음임계값을 재귀법으로 연산 출력하는 잡음임계부와; 상기 신호처리부의 제어에 의하여 음성신호가 검출되는 임계대역 프레임 구간을 검출하는 구간검출부와; 상기 신호처리부에 접속하고 입력되는 음성급 신호를 임계대역 프레임 단위로 포맷하며 3개의 영역으로 구분하는 임계대역부가 포함되어 이루어지는 구성을 특징으로 한다.
또한, 상기와 같은 목적을 달성하기 위하여 안출한 본 발명은, 음성인식장치에 의하여 음성신호 구간을 검출하면, 입력되는 음성급 신호를 임계대역 프레임으로 포맷하고 각 프레임을 3개 영역으로 구분하는 시작과정과; 상기 과정에서 포맷된 초기 4개 프레임의 영역별 에너지 평균값과 표준편차 값을 연산하고 각 영역별 신호임계값과 잡음임계값을 설정하는 임계과정과; 상기 과정에서 설정된 임계값을 기준으로 임계대역 프레임 음성급 신호가 음성신호이거나 잡음신호인지 확인 검출하고 해당 구간으로 설정하는 출력과정과; 상기 과정에서 다음 순서로 검출할 임계대역 프레임이 있으면, 재귀법에 의하여 각 영역별 신호임계값과 잡음임계값을 연산하고 갱신 설정하는 갱신과정으로 이루어지는 것을 특징으로 한다.
이하, 본 발명에 의한 것으로, 음성인식장치의 음성구간 검출장치 및 방법을 첨부된 도면을 참조하여 설명한다.
본 발명을 설명하기 위하여 첨부된 것으로, 도2 는 본 발명에 의한 음성인식장치의 음성구간 검출장치 기능 구성도 이며, 도3 은 본 발명에 의한 음성인식장치의 음성구간 검출방법 순서도 이고, 도4 는 본 발명에 의한 입력 음성급 신호의 임 계대역 프레임 구성상태도 이다.
상기 첨부된 도3을 참조하여, 본 발명에 의한 음성인식장치의 음성구간 검출장치를 설명하면, 음성인식장치의 전체를 제어하고 감시하며 운용하는 신호처리부에 접속하고 출력되는 해당 제어 신호에 의하여 음성(VOICE)신호와 잡음(NOISE)신호가 포함된 음성급 신호를 입력하는 것으로, 입력하고자 하는 음성(VOICE)신호와 주변환경으로부터 발생되는 잡음(NOISE)신호를 포함하여 음성급(AUDIO) 신호로 입력하는 입력부(100)와,
상기 입력부(100)에 접속하고 프레임(FRAME) 단위의 임계대역(CRITICAL BAND)으로 포맷(FORMAT)하며 신호임계값(Ts: THRESHOLD SIGNAL)과 잡음임계값(Tn: THRESHOLD NOISE)에 의하여 음성신호의 구간을 검출 출력하는 것으로, 입력부(100)로부터 인가되는 음성급 신호를 임계대역부(130)에 인가하여 임계대역(CRITICAL BAND) 프레임(FRAME) 단위로 포맷하고 3개의 영역(AREA)으로 구분하며, 신호임계부(170)와 잡음임계부(160)를 각각 제어하여 초기 4개 프레임의 각 영역별 로그 에너지(LOG ENERGY)에 의한 음성신호와 잡음신호의 초기평균값(μ)과 초기표준편차값(δ)을 구하고, 구간검출부(150)를 제어하여 상기 각각 구한 임계값으로 임계대역 프레임 단위 음성신호 구간과 잡음신호 구간을 검출하며, 상기 음성신호와 잡음신호로 검출된 현재 에너지 값을 상기 신호임계부(170)와 잡음임계부(160)에 각각 인가하고 재귀법(RECURSIVE METHOD) 연산하여 다음 프레임의 해당 영역 값으로 갱신(UPDATE) 설정하고, 구간검출부(150)가 검출한 음성신호 구간 정보는 정합출력부(140)를 통하여 정합(MATCHING) 상태로 출력하며, 구간검출부(150)가 프레임 단위 로 음성신호 구간이거나 잡음신호 구간으로 검출하지 못하는 경우에 이전 프레임의 임계값을 다음 프레임에 그대로 적용하는 신호처리부(110)와,
상기 신호처리부(110)에 접속하고 음성인식장치를 운용하는 프로그램과 데이터를 포함하여 실험에 의한 히스테리시스(HYSTERESIS) 값을 기록저장 출력하는 메모리부(120)와,
상기 신호처리부(110)에 접속하고 입력되는 음성급 신호를 임계대역 프레임 단위로 포맷하며 3개의 영역으로 구분하는 것으로, 신호처리부(110)의 제어에 의하여 입력부(100)로부터 인가되는 음성급 신호를 임계대역 프레임의 소정 크기, 일 예로, 20 ms 주기로 포맷(FORMAT)하고, 상기 포맷된 각 프레임을 3개 영역(AREA)으로 구분하는 임계대역부(130)와,
상기 신호처리부(110)의 제어에 의하여 음성신호 구간으로 검출된 임계대역 정보를 정합(MATCHING)상태로 출력하는 정합출력부(140)와,
상기 신호처리부(110)의 제어에 의하여 음성신호가 검출되는 임계대역 프레임 구간을 검출하는 것으로, 임계대역 프레임 단위에서 음성신호 임계값보다 큰 신호가 검출되는 영역이 있으면, 일 예로, 임계대역 프레임의 각 영역에서 검출되는 음성신호의 로그에너지가 E1 > Ts1 또는, E2 > Ts2 또는, E3 > Ts3 에 해당하면 임계대역 프레임을 음성신호 구간으로 설정하여 검출하고, 상기 임계대역 프레임 단위에서 잡음신호 로그임계값보다 작은 신호가 검출되는 영역이 있으면, 일 예로, 임계대역 프레임의 각 영역에서 검출되는 잡음신호의 로그에너지가 E1 < Tn1 또는, E2 < Tn2 또는, E3 < Tn3 에 해당하면 임계대역 프레임을 잡음신호 구간으로 설정 하여 검출하는 구간검출부(150)와,
상기 신호처리부(110)의 제어에 의하여 임계대역 프레임 단위의 각 영역별로 잡음임계값을 재귀법으로 연산 출력하는 것으로, 임계대역(CRITICAL BAND) 프레임(FRAME)의 각 영역(AREA)별로 잡음임계값(Tn)을 식 Tn1 = μn1 + βn1 + δn1, Tn2 = μn2 + βn2 + δn2, Tn3 = μn3 + βn3 + δn3(μ는 평균값, δ는 표준편차값, β는 히스테리시스 값)을 적용하여 구하고, 상기 잡음임계값(Tn)이 구하여지는 영역은 재귀법(RECURSIVE METHOD)에 의하여 잡음임계값을 갱신하며 다음 프레임의 해당 영역에 적용하고, 상기 잡음임계값이 구하여지지 않는 영역은 현재 영역의 잡음임계값을 다음 프레임의 해당 영역에 동일하게 적용하는 잡음임계부(160)와,
상기 신호처리부(110)의 제어에 의하여 임계대역 프레임 단위의 각 영역별로 신호임계값을 재귀법으로 연산 출력하는 것으로, 임계대역(CRITICAL BAND) 프레임(FRAME)의 각 영역별로 신호임계값(Ts)을, 식 Ts1 = μn1 + αs1 + δn1, Ts2 = μn2 + αs2 + δn2, Ts3 = μn3 + αs3 + δn3(μ는 평균값, δ는 표준편차값, α는 히스테리시스 값)을 적용하여 구하고, 상기 신호임계값(Ts)이 구하여지는 영역은 재귀법(RECURSIVE METHOD)에 의하여 신호임계값을 갱신(UPDATE)하며 다음 순서 프레임의 해당 영역에 적용하고, 상기 신호임계값이 구하여지지 않는 영역은 현재 영역의 신호임계값을 다음 프레임의 해당 영역에 동일하게 적용하는 신호임계부(170)와,
상기 신호처리부(110)에 접속하고 음성인식장치를 제어하는 명령을 입력하는 키보드부(180)가 포함되어 이루어지는 구성이다.
또한, 상기 신호임계부(170)가 재귀법으로 영역별 갱신되는 신호임계값을 구하는 경우, 다음 식에 의한다.
μs1(t) = γ* μs1(t-1) + (1-γ) * E1
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δs1(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
μs2(t) = γ* μs2(t-1) + (1-γ) * E2
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δs2(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
μs3(t) = γ* μs3(t-1) + (1-γ) * E3
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δs3(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값
또한, 상기 잡음임계부(160)가 재귀법으로 영역별 갱신되는 잡음임계값을 구하는 경우, 다음 식에 의한다.
μn1(t) = γ* μn1(t-1) + (1-γ) * E1
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δn1(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
μn2(t) = γ* μn2(t-1) + (1-γ) * E2
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δn2(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
μn3(t) = γ* μn3(t-1) + (1-γ) * E3
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δn3(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값
이하, 상기와 같은 구성의 본 발명에 의한 것으로, 음성인식장치의 음성구간 검출장치를 첨부된 도면을 참조하여 상세히 설명한다.
상기 음성인식장치는, 입력되는 음성급 신호 또는 오디오(AUDIO) 신호로부터 음성(VOICE) 신호를 분리 추출하고, 음성신호의 패턴(PATTERN)을 분석하여 인식하는 것으로, 상기 음성급 신호로부터 음성신호를 분리하는 과정은, 정밀한 연산과정을 많이 필요로 하는 중요한 과정 중에 하나이다.
상기와 같이 음성급 신호로부터 음성신호를 분리하는 과정에 많은 연산이 필요하므로 실시간 처리하지 못하고, 음성구간 검출 결과에 신뢰성이 결여되었으나, 상기 연산과정을 신속하게 처리하는 동시에 정확한 음성구간을 검출하는 것이 본 발명 기술이다.
즉, 종래에 사용되는 에너지와 영교차율(ZERO CROSSING RATE) 방법, 과거 소음구간으로 판별되는 구간의 캡스트랄(CEPSTRAL) 계수와 현 구간의 캡스트랄 거리(CEPSTRAL DISTANCE)를 이용하는 방법, 잡음신호와 음성신호의 일관성(COHERENT)을 측정 이용하는 방법 등이 있으나, 간단한 반면에 연산과정이 매우 복잡하고, 처리결과의 정확성이 떨어지는 문제가 있다.
본 발명에서는, 입력되는 음성급 신호를, 일 예로, 20 ms 크기의 임계대역(CRITICAL BAND) 프레임으로 포맷하고 다시 3개 영역으로 구분하며, 상기 영역별로 신호임계값(Ts)과 잡음임계값(Tn)을 구하여, 입력되는 음성급 신호의 로그 에너지 레벨을 비교하므로 임계대역 단위로 신호인지 잡음인지를 판단하여 연산을 크게 줄이고 실시간(REALTIME) 처리한다.
또한, 각 임계대역 프레임 단위마다 3 개 영역으로 구분하고, 상기 3 개 영역 중에서 어느 하나의 영역이 검출하는 결과를 이용하므로 정확성을 더욱 향상 개선하며, 각 영역의 판단기준이 되는 신호임계값과 잡음임계값은, 재귀법(RECURSIVE METHOD)에 의하여 현재 프레임의 로그 에너지값과 평균한 값을 이용하므로 레벨의 변화에 적응하여 더 한층 정확성을 향상한다.
좀더 상세히 설명하면, 상기 음성인식장치의 신호처리부(110)는 동작전원이 인가되면, 상기 메모리부(120)로부터 운용 프로그램과 응용 프로그램과 데이터를 로드(LOAD)하여 음성인식 준비상태가 되고, 상기 키보드부(180)로부터 음성인식에 의한 음성구간을 검출하는 해당 제어명령이 인가되는 경우, 상기 입력부를 제어하여 음성(VOICE) 신호와 주변환경에 의하여 발생하는 잡음(NOISE) 신호가 포함되는 음성급(AUDIO) 신호를 입력한다.
상기 음성급 신호를 입력한 신호처리부(110)는, 임계대역부(130)와 신호임계부(170)와 잡음임계부(160)에 각각 인가하며, 상기 임계대역부(130)는, 인가되는 음성급 신호를, 일 예로, 20 ms 크기의 임계대역(CRITICAL BAND) 프레임(FRAME) 단위로 포맷(FORMAT)하고, 상기 각 임계대역 프레임을 3개의 영역(AREA)으로 구분한다.
상기 임계대역(CRITICAL BAND)은, 사람 또는 인간의 청취 가능한 청각적 특성을 고려한 주파수 대역으로, 일반적으로, 약 20 Hz 내지 20,000 Hz 까지의 범위이고, 훈련 등에 의하여 임계대역의 범위가 늘어나거나 또는, 신체적 장애 등에 의하여 축소된다.
상기 신호임계부(170)와 잡음임계부(160)는, 초기에 4개 임계대역(CRITICAL BAND) 프레임(FRAME)에 대한 각 영역(AREA) 별로 로그 에너지(LOG ENERGY)에 의한 초기 평균값(μ)과 초기 표준편차값(δ)을 구한다.
상기와 같이 구한 초기 평균값과 초기 표준편차 값을 이용하여 다음과 같은 수식에 적용하므로 각 영역별 음성신호의 초기 임계값과 잡음신호의 초기 임계값을 구한다.
(식 1)
Ts1 = μn1 + αs1 + δn1
Ts2 = μn2 + αs2 + δn2
Ts3 = μn3 + αs3 + δn3
단; μ는 평균값, δ는 표준편차값, α는 히스테리시스 값
(식 2)
Tn1 = μn1 + βn1 + δn1
Tn2 = μn2 + βn2 + δn2
Tn3 = μn3 + βn3 + δn3
단; μ는 평균값, δ는 표준편차값, β는 히스테리시스 값
상기 히스테리시스(HYSTERESIS) 값인 α와 β는, 다수 실험에 의하여 결정되고, 상기 메모리부(120)에 기록저장하여 이용하는 변수이다.
본 발명은, 상기와 같은 수식을 이용하므로, 연산과정을 간단화 시키고 실시간(REALTIME) 처리를 한다.
상기 첨부된 도4를 참조하여, 상세히 설명하면, 입력부(100)를 통하여 입력 되는 음성급(AUDIO) 신호를 임계대역부(130)에 의하여 20 ms 크기의 임계대역(CRITICAL BAND) 프레임(FRAME) 단위로 포맷(FORMAT)하는 동시에 각각의 프레임을 3개의 영역(AREA)으로 구분한다.
상기와 같이 입력되는 음성급 신호의 초기 4개 임계영역 프레임에는 음성급 신호가 없는 것으로 가정하고, 각 영역별 초기 평균값과 초기 표준편차 값을 구하며, 상기 초기값을 이용하여 각 영역의 신호임계값과 잡음임계값을 산출 적용한다.
상기도4의 하단부에 임계대역(CRITICAL BAND) 프레임의 각 영역(AREA)별로 신호임계값(Ts1, Ts2, Ts3)과 잡음임계값(Tn1, Tn2, Tn3)이 도시되어 있다.
상기 신호처리부(110)는, 상기와 같이 각 영역별로 신호임계값과 잡음임계값이 설정된 상태를 구간검출부(150)에 인가하는 동시에, 상기 입력부(100)로부터 인가되는 음성급 신호의 해당 임계대역 프레임을 상기 구간검출부(150)에 인가한다.
상기 구간검출부(150)는, 음성급 신호의 임계대역 프레임에 구성되는 영역별로 각각 로그 에너지(LOG ENERGY)(E1, E2, E3)를 구하고, 다음의 식을 적용하여 음성신호 영역인지 또는 잡음신호 영역인지를 판단하고, 상기 3개 영역 중에서 어느 하나의 영역이 음성신호 영역으로 판단되면 해당 임계대역 프레임을 음성구간으로 설정하고, 상기 3개 영역 중에서 어느 하나의 영역이 잡음신호 영역으로 판단되면 해당 임계대역 프레임을 잡음구간으로 설정한다.
(식 3)
IF (E1 > Ts1 OR E2 > Ts2 OR E3 > Ts3) VOICE_ACTIVITY = 음성신호
ELSE IF (E1 < Tn1 OR E2 < Tn2 OR E3 < Tn3) VOICE_ACTIVITY = 잡음신호
ELSE VOICE_ACTIVITY = VOICE_ACTIVITY before
단; E는 로그 에너지, Ts는 신호임계값, Tn은 잡음임계값
상기와 같이 구간검출부(150)에 의하여 각 영역별로 판단하고, 음성신호 영역 또는 잡음신호 영역으로 판단되면, 해당 임계대역 프레임을 음성신호 구간 또는 잡음신호 구간을 설정하며, 상기와 같이 판단하여 설정된 음성구간 정보는, 상기 신호처리부(110)에 의하여 정합출력부(140)에 인가되므로, 정합(MATCHING) 상태로 출력된다.
상기 신호처리부(110)는, 입력되는 음성급 신호의 레벨이 일정하지 않고, 불규칙하게 변하는 것이므로, 상기 신호임계부(170)와 잡음임계부(160)를 각각 제어하여, 현재 영역(AREA)에서의 로그 에너지(LOG ENERGY)와 해당 임계값(Ts, Tn)의 평균값을 각각 구하고, 다음 순서에 의한 임계대역(CRITICAL BAND) 프레임의 해당 영역(AREA)에 갱신(UPDATE) 적용하므로, 입력되는 음성급 신호에 적응(ADAPTIVE)하는 임계값(THRESHOLD VALUE)을 적용한다.
즉, 상기 신호처리부(110)는, 상기 구간검출부(150)가 음성신호 영역으로 판단하면, 상기 신호임계부(170)를 제어하여, 재귀법(RECURSIVE METHOD)에 의한 다음 수식을 적용하므로, 적응 임계값(ADAPTIVE THRESHOLD VALUE)에 의한 신호임계값을 구하도록 하며, 상기와 같이 재귀법에 의하여 구하여진 적응(ADAPTIVE) 신호임계값 (SIGNAL THRESHOLD VALUE)은, 다음 임계대역 프레임의 해당 영역(AREA)에 갱신(UPDATE)된다.
(식 4)
μs1(t) = γ* μs1(t-1) + (1-γ) * E1
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δs1(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
μs2(t) = γ* μs2(t-1) + (1-γ) * E2
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δs2(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
μs3(t) = γ* μs3(t-1) + (1-γ) * E3
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δs3(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값
또한, 상기 신호처리부(110)에 의하여, 상기 구간검출부(150)가 잡음신호 영 역으로 판단하면, 상기 잡음임계부(170)를 제어하여, 재귀법(RECURSIVE METHOD)에 의한 다음 수식을 적용하므로, 적응 임계값(ADAPTIVE THRESHOLD VALUE)에 의한 잡음임계값을 각각 구하도록 하며, 상기와 같이 재귀법으로 구하여진 적응(ADAPTIVE) 잡음임계값(NOISE THRESHOLD VALUE)은, 다음 임계대역 프레임의 해당 영역(AREA)에 갱신(UPDATE)된다.
(식 5)
μn1(t) = γ* μn1(t-1) + (1-γ) * E1
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δn1(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
μn2(t) = γ* μn2(t-1) + (1-γ) * E2
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δn2(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
μn3(t) = γ* μn3(t-1) + (1-γ) * E3
[E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
δn3(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값
상기 γ값은 반복되는 실험에 의하여 구하여진 변수이며, 상기 메모리부(120)에 기록저장하고 적용한다.
상기와 같이 신호임계부(170)와 잡음임계부(160)에 의하여 갱신(UPDATE)된 적응(ADAPTIVE) 임계값을 연산하고, 다음 순서 임계대역 프레임의 해당 영역에 적용되는 과정을 반복하므로, 입력되는 음성급(AUDIO) 신호로부터 음성(VOICE) 신호 구간 검출의 정확성과 신뢰성이 더욱 제고되는 장점이 있다.
이하, 상기 첨부된 도3을 참조하여, 본 발명에 의한 것으로, 음성인식장치의 음성구간 검출방법을 설명한다.
상기 음성인식장치에 의하여 음성신호 구간을 검출하면, 입력되는 음성급 신호를 임계대역(CRITICAL BAND) 프레임으로 포맷하고 각 프레임을 3개 영역으로 구분하는 것으로, 상기 음성인식장치에 의하여 입력되는 음성급 신호로부터 잡음신호와 구분되는 음성신호 구간을 검출할 것인지 판단하는 과정(S100); 상기 과정(S100)에서 음성신호 구간을 검출하는 경우, 입력되는 음성급 신호를 임계대역 프레임 단위로 포맷하는 과정(S110); 상기 과정(S110)에서 포맷된 각 임계대역 프레임을 3개 영역으로 구분하는 과정(S120)으로 이루어지는 시작과정과,
상기 시작과정에서 포맷된 초기 4개 프레임의 영역별 에너지 평균값과 표준편차 값을 연산하고 각 영역별 신호임계값과 잡음임계값을 설정하는 것으로, 임계대역 프레임의 초기 4개 프레임에 대한 에너지 평균값과 표준편차 값을 영역별로 연산하여 출력하는 과정(S130); 상기 과정(S130)에서 영역별로 연산된 평균값과 표준편차 값으로 각 영역별 신호임계값과 잡음임계값을 연산 설정하는 과정(S140)으로 이루어지는 임계과정과,
상기 임계과정에서 설정된 임계값을 기준으로 임계대역 프레임 음성급 신호가 음성신호이거나 잡음신호인지 확인 검출하고 해당 구간으로 설정하는 것으로, 영역별로 설정한 신호임계값과 잡음임계값을 기준으로 입력되는 음성급 신호의 에너지 레벨을 비교하여 음성신호 구간이거나 잡음신호 구간인지를 확인하고 검출하는 과정(S150); 상기 과정(S150)에서 음성신호 구간이거나 잡음신호 구간으로 확인되면 해당 구간으로 설정하여 출력하는 과정(S160)으로 이루어지는 출력과정과,
상기 출력과정에서 다음 순서로 검출할 임계대역 프레임이 있으면, 재귀법(RECURSIVE METHOD)에 의하여 각 영역별 신호임계값과 잡음임계값을 연산하고 갱신(UPDATE) 설정하는 것으로, 상기 출력과정에서 구간설정하고 출력한 임계대역 프레임의 다음 순서에 의한 프레임이 있는지 판단하는 과정(S170); 상기 과정(S170)에서 다음 순서 프레임이 있으면 재귀법에 의한 프레임의 영역별 신호임계값과 잡음임계값을 연산하여 갱신 설정하고 상기 출력과정(S150)으로 궤환(FEEDBACK)하는 과정(S180)으로 이루어지는 갱신과정과,
상기 출력과정(S150)에서 임계대역 프레임 신호가 음성신호이거나 잡음신호가 아니고 직전 프레임에서 판정된 결과에 의하여 직전 프레임의 각 영역이 음성구간이면 다음과 같이 μs1(t) = γ* μs1(t-1) + (1-γ) * E1, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δs1(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2), μs2(t) = γ* μs2(t-1) + (1-γ) * E2, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δs2(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2), μs3(t) = γ* μs3(t-1) + (1-γ) * E3, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δs3(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2), 단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값에 의한 식 4 를 적용하고,
소음구간이면 다음과 같이 μn1(t) = γ* μn1(t-1) + (1-γ) * E1, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δn1(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2), μn2(t) = γ* μn2(t-1) + (1-γ) * E2, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δn2(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2), μn3(t) = γ* μn3(t-1) + (1-γ) * E3, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δn3(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2), 단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값에 의한 식 5 을 적용하여 해당 임계값을 갱신(UPDATE) 적용 설정하는 적용과정(S190)으로 구성된다.
이하, 상기와 같은 구성의 본 발명에 의한 것으로, 음성인식장치의 음성구간 검출방법을 첨부된 도면을 참조하여 상세히 설명한다.
상기 음성인식장치의 전체 운용을 제어하고 감시하는 신호처리부는, 입력부(100)를 통하여 입력되는 음성급(AUDIO) 신호로부터 음성(VOICE) 신호 구간을 검출하고자 하는 경우(S100), 임계대역부(130)를 제어하여, 입력되는 음성급 신호를 20 ms의 임계대역(CRITICAL BAND) 프레임(FRAME) 단위로 포맷하고(S110), 각 임계대역 프레임을 3개의 영역으로 구분한다(S120).
상기 첨부된 도4를 참조하면, 상기와 같이 입력되는 음성급 신호가, 20 ms의 임계대역 프레임으로 포맷되고, 각각 3개의 영역으로 구분된 상태가 도시되어 있다.
상기 신호처리부는, 신호임계부와 잡음임계부를 각각 제어하여, 상기 포맷된 초기 4개의 임계대역 프레임으로부터 로그에너지에 의한 평균값과 표준편차 값을 각각 연산하여 구한다(S130).
일반적으로, 입력되는 음성급(AUDIO) 신호의 초기 4개의 프레임에는 음성신호가 없는 묵음 구간이므로, 상기과정(S130)에서도 4개 프레임을 묵음구간으로 가정하였다.
상기 과정(S130)에서 구한 값은, 상기 식1과 식2를 적용하여, 각 영역의 신호임계값(Ts)과 잡음임계값(Tn)으로 연산되고 설정되어 적용된다(S140).
상기 신호처리부(110)의 제어에 의하여, 상기와 같이 연산되고 적용되는 신호임계값(Ts)과 잡음임계값(Tn)은, 구간검출부(150)에 인가되고, 상기 구간검출부(150)에 의하여 해당 임계대역 프레임의 각 영역이 음성신호 영역인지 또는 잡음신호 영역인지를 판단한다(S150).
상기 과정의 판단(S150)에서, 3개의 영역(AREA) 중에서 어느 하나의 영역(AREA)이 음성신호 영역으로 판단되면, 해당 임계대역(CRITICAL BAND) 프레임(FRAME)은 음성신호 구간으로 판단 설정되고, 상기 3개의 영역 중에서 어느 하나의 영역을 잡음신호 영역으로 판단하면, 해당 임계대역 프레임은 잡음신호 구간으로 판단 설정된다.
상기 과정의 판단(S150)에서, 임계대역 프레임을 음성신호 구간 또는 잡음신호 구간으로 판단하는 경우, 상기 신호처리부(110)는 정합출력부(140)를 제어하여 정합된 정보로 출력(S160) 하므로, 음성인식장치의 다음 기능에 의한 분석 및 해당 처리하도록 한다.
상기 신호처리부(110)는, 분석 검출할 다음 순서의 임계대역 프레임이 있는지 판단하고(S170), 상기 판단(S170)에서 분석 검출할 다음 순서의 임계대역 프레임이 없으면 종료로 진행하며, 상기 판단(S170)에서 분석 검출할 다음 순서의 임계대역 프레임이 있는 경우는, 상기 신호임계부(170)와 잡음임계부(160)를 각각 제어하고, 재귀법(RECURSIVE METHOD)에 의하여, 임계대역 프레임의 각 영역별로 현재 로그에너지값과 이전 임계대역 프레임의 음성신호임계값(Ts) 및 잡음신호임계값(Tn)을 각각 평균 연산한다.
상기 재귀법(RECURSIVE METHOD)에 의한 연산에는 식 4와 식 5를 적용하며, 상기와 같이 재귀법에 의하여 현재 로그에너지와 이전 프레임의 해당 임계값을 평균 연산하는 것은, 입력되는 음성급 신호에 적응(ADAPTIVE)하는 해당 적응임계값(ADAPTIVE THRESHOLD VALUE)을 산출한다.
상기와 같이 재귀법에 의하여 연산되고 적응(ADAPTIVE) 상태로 산출된 해당 임계값은 각각 해당 영역(AREA)에 갱신(UPDATE)되어 적용 설정(S180)되고, 상기 신호처리부(110)는 다음 순서에 의한 임계대역 프레임에 대한 음성구간을 검출하기 위하여 상기 출력과정(S150)으로 궤환(FEEDBACK)한다.
상기 출력과정(S150)에서, 해당 임계대역 프레임의 각 영역으로부터 음성신호 영역 또는 잡음신호 영역이 아닌 것으로 판단되면, 해당 임계대역 프레임은 음성구간인지 또는 잡음구간인지의 판단을 할 수 없는 구간이므로, 이전 프레임에서 판정된 결과에 따라, 이전 또는 직전 프레임의 각 영역이 음성구간이면 상기 식(4)를 적용하며, 소음구간이면 상기 식(5)를 적용하고(S190), 해당 임계값을 갱신(UPDATE)하는 과정(S170)으로 진행한다.
따라서, 상기 구성은, 입력되는 음성급 신호로부터 음성신호 구간을 적은 연산으로 신속하게 실시간 처리하는 동시에 검출되는 음성신호의 정확성과 신뢰성을 향상 개선하는 장점이 있다.
상기와 같은 구성의 본 발명은, 음성인식장치에 있어서, 입력되는 음성급 신호를 간단한 구성과 적은 연산량에 의하여 음성신호 구간을 실시간 검출하는 산업적 이용효과가 있다.
또한, 입력되는 음성급 신호를 임계대역 프레임으로 포맷하고 다시 3개 영역으로 구분하며, 각 영역별로 음성신호를 검출하므로, 정확성과 신뢰성이 제고되는 사용상 편리한 효과가 있다.
또한, 입력되는 음성급 신호의 각 영역별로 현재 로그에너지와 이전 과정에 의한 임계값을 재귀법으로 평균 연산한 임계값을 다음 순서의 해당 영역에 임계값으로 적용하고, 입력신호의 레벨에 적응하여 음성신호 구간을 검출하므로, 정확성 과 신뢰성이 더욱 제고되는 산업적 이용효과가 있다.

Claims (20)

  1. 음성인식장치의 해당 제어 신호에 의하여 음성신호와 잡음신호가 포함된 음성급 신호를 입력하는 입력부와,
    상기 입력부에 접속하고 프레임 단위의 임계대역으로 포맷하며 신호임계값과 잡음임계값에 의하여 음성신호의 구간을 검출 출력하는 신호처리부와,
    상기 신호처리부의 제어에 의하여 임계대역 프레임 단위의 각 영역별로 신호임계값을 재귀법으로 연산 출력하는 신호임계부와,
    상기 신호처리부의 제어에 의하여 임계대역 프레임 단위의 각 영역별로 잡음임계값을 재귀법으로 연산 출력하는 잡음임계부와,
    상기 신호처리부의 제어에 의하여 음성신호가 검출되는 임계대역 프레임 구간을 검출하는 구간검출부와,
    상기 신호처리부에 접속하고 입력되는 음성급 신호를 임계대역 프레임 단위로 포맷하며 3개의 영역으로 구분하는 임계대역부가 포함되어 이루어지는 구성을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  2. 제1 항에 있어서,
    상기 신호처리부에 접속하고 음성인식장치를 제어하는 명령을 입력하는 키보드부와,
    상기 신호처리부에 접속하고 음성인식장치를 운용하는 프로그램과 데이터를 포함하여 실험에 의한 히스테리시스 값을 기록저장 출력하는 메모리부와,
    상기 신호처리부의 제어에 의하여 음성신호 구간으로 검출된 임계대역 정보를 정합상태로 출력하는 정합출력부가 더 포함되어 이루어지는 구성을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  3. 제1 항에 있어서, 상기 임계대역부는,
    상기 신호처리부의 제어에 의하여 상기 입력부로부터 인가되는 음성급 신호를 임계대역 프레임의 소정 크기로 포맷하고 각 프레임을 3개 영역으로 구분하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  4. 제1 항에 있어서, 상기 입력부는,
    상기 신호처리부의 제어에 의하여 입력하고자 하는 음성신호와 주변환경으로부터 발생되는 잡음신호를 포함하여 음성급 신호로 입력하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  5. 제1 항에 있어서, 상기 신호임계부는,
    상기 신호처리부의 제어에 의하여 임계대역 프레임의 각 영역별로 신호임계값을 구하고, 상기 신호임계값이 구하여지는 영역은 재귀법에 의하여 신호임계값을 갱신하며 다음 프레임의 해당 영역에 적용하고, 상기 신호임계값이 구하여지지 않는 영역은 현재 영역의 신호임계값을 다음 프레임의 해당 영역에 동일하게 적용하 는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  6. 제5 항에 있어서, 상기 신호임계값은,
    다음 식에 의하여 영역별 산출하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
    Ts1 = μn1 + αs1 + δn1
    Ts2 = μn2 + αs2 + δn2
    Ts3 = μn3 + αs3 + δn3
    단; μ는 평균값, δ는 표준편차값, α는 히스테리시스 값
  7. 제5 항에 있어서, 상기 재귀법에 의한 영역별 갱신되는 신호임계값은,
    다음 식에 의하여 영역별 산출하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
    μs1(t) = γ* μs1(t-1) + (1-γ) * E1
    [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
    δs1(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
    μs2(t) = γ* μs2(t-1) + (1-γ) * E2
    [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
    δs2(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
    μs3(t) = γ* μs3(t-1) + (1-γ) * E3
    [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
    δs3(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2)
    단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값
  8. 제1 항에 있어서, 상기 잡음임계부는,
    상기 신호처리부의 제어에 의하여 임계대역 프레임의 각 영역별로 잡음임계값을 구하고, 상기 잡음임계값이 구하여지는 영역은 재귀법에 의하여 잡음임계값을 갱신하며 다음 프레임의 해당 영역에 적용하고, 상기 잡음임계값이 구하여지지 않는 영역은 현재 영역의 잡음임계값을 다음 프레임의 해당 영역에 동일하게 적용하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  9. 제8 항에 있어서, 상기 잡음임계값은,
    다음 식에 의하여 영역별 산출하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
    Tn1 = μn1 + βn1 + δn1
    Tn2 = μn2 + βn2 + δn2
    Tn3 = μn3 + βn3 + δn3
    단; μ는 평균값, δ는 표준편차값, β는 히스테리시스 값
  10. 제8 항에 있어서, 상기 재귀법에 의한 영역별 갱신되는 잡음임계값은,
    다음 식에 의하여 영역별 산출하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
    μn1(t) = γ* μn1(t-1) + (1-γ) * E1
    [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
    δn1(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
    μn2(t) = γ* μn2(t-1) + (1-γ) * E2
    [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
    δn2(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
    μn3(t) = γ* μn3(t-1) + (1-γ) * E3
    [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2
    δn3(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2)
    단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값
  11. 제1 항에 있어서, 상기 구간검출부는,
    상기 신호처리부의 제어에 의하여 임계대역 프레임 단위에서 음성신호 임계값보다 큰 신호가 검출되는 영역이 있으면, 해당 임계대역 프레임을 음성신호 구간으로 설정하여 검출하고, 상기 임계대역 프레임 단위에서 잡음신호 임계값보다 작은 신호가 검출되는 영역이 있으면, 해당 임계대역 프레임을 잡음신호 구간으로 설정하여 검출하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  12. 제11 항에 있어서, 상기 구간검출은,
    임계대역 프레임의 각 영역에서 검출되는 음성신호의 로그에너지가 E1 > Ts1 또는, E2 > Ts2 또는, E3 > Ts3 에 해당하면 임계대역 프레임을 음성신호 구간으로 설정 검출하고, 임계대역 프레임의 각 영역에서 검출되는 잡음신호의 로그에너지가 E1 < Tn1 또는, E2 < Tn2 또는, E3 < Tn3 에 해당하면 임계대역 프레임을 잡음신호 구간으로 설정 검출하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  13. 제1 항에 있어서, 상기 신호처리부는,
    상기 입력부로부터 인가되는 음성급 신호를 상기 임계대역부에 인가하여 임계대역 프레임 단위로 포맷하고 3개의 영역으로 구분하며, 상기 신호임계부와 잡음임계부를 각각 제어하여 초기 4개 프레임의 각 영역별 로그 에너지에 의한 음성신호와 잡음신호의 초기평균값과 초기표준편차값을 구하고, 상기 구간검출부를 제어하여 상기 각각 구한 임계값으로 임계대역 프레임 단위 음성신호 구간과 잡음신호 구간을 검출하며, 상기 음성신호와 잡음신호로 검출된 현재 에너지 값을 상기 신호임계부와 잡음임계부에 각각 인가하고 재귀법 연산하여 다음 프레임의 해당 영역 값으로 갱신설정하고, 상기 구간검출부가 검출한 음성신호 구간 정보는 정합출력부를 통하여 정합상태로 출력하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  14. 제13 항에 있어서, 상기 신호처리부는,
    상기 구간검출부가 프레임 단위로 음성신호 구간이거나 잡음신호 구간으로 검출하지 못하는 경우에 이전 프레임의 임계값을 다음 프레임에 적용하는 구성으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출장치.
  15. 음성인식장치에 의하여 음성신호 구간을 검출하면, 입력되는 음성급 신호를 임계대역 프레임으로 포맷하고 각 프레임을 3개 영역으로 구분하는 시작과정과,
    상기 과정에서 포맷된 초기 4개 프레임의 영역별 에너지 평균값과 표준편차값을 연산하고 각 영역별 신호임계값과 잡음임계값을 설정하는 임계과정과,
    상기 과정에서 설정된 임계값을 기준으로 임계대역 프레임 음성급 신호가 음성신호이거나 잡음신호인지 확인 검출하고 해당 구간으로 설정하는 출력과정과,
    상기 과정에서 다음 순서로 검출할 임계대역 프레임이 있으면, 재귀법에 의하여 각 영역별 신호임계값과 잡음임계값을 연산하고 갱신 설정하는 갱신과정으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출방법.
  16. 제15 항에 있어서,
    상기 출력과정에서 임계대역 프레임 신호가 음성신호이거나 잡음신호가 아니고 직전 프레임에서 판정된 결과에 의하여 직전 프레임의 각 영역이 음성구간이면 다음과 같이 μs1(t) = γ* μs1(t-1) + (1-γ) * E1, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δs1(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2), μs2(t) = γ* μs2(t-1) + (1-γ) * E2, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δs2(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2), μs3(t) = γ* μs3(t-1) + (1-γ) * E3, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δs3(t) = 루트([E1부터2]mean(t) - [μsl(t)]**2), 단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값에 의한 수식을 적용하고,
    소음구간이면 다음과 같이 μn1(t) = γ* μn1(t-1) + (1-γ) * E1, [E1부터 2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δn1(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2), μn2(t) = γ* μn2(t-1) + (1-γ) * E2, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δn2(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2), μn3(t) = γ* μn3(t-1) + (1-γ) * E3, [E1부터2]mean(t) = γ * [E1부터2]mean(t-1) + (1-γ) * E1부터2, δn3(t) = 루트([E1부터2]mean(t) - [μnl(t)]**2), 단; μ는 평균값, δ는 표준편차값, t는 프레임 시간값, γ는 실험값에 의한 수식을 적용하여 해당 임계값을 갱신 적용 설정하는 적용과정이 더 포함되어 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출방법.
  17. 제15 항에 있어서, 상기 시작과정은,
    상기 음성인식장치에 의하여 입력되는 음성급 신호로부터 잡음신호와 구분되는 음성신호 구간을 검출할 것인지 판단하는 과정과,
    상기 과정에서 음성신호 구간을 검출하는 경우, 입력되는 음성급 신호를 임계대역 프레임 단위로 포맷하는 과정과,
    상기 과정에서 포맷된 각 임계대역 프레임을 3개 영역으로 구분하는 과정으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출방법.
  18. 제15 항에 있어서, 상기 임계과정은,
    상기 시작과정에 의한 임계대역 프레임의 초기 4개 프레임에 대한 에너지 평 균값과 표준편차값을 영역별로 연산하여 출력하는 과정과,
    상기 과정에서 영역별로 연산된 평균값과 표준편차값으로 각 영역별 신호임계값과 잡음임계값을 연산 설정하는 과정으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출방법.
  19. 제15 항에 있어서, 상기 출력과정은,
    상기 임계과정에서 영역별로 설정한 신호임계값과 잡음임계값을 기준으로 입력되는 음성급 신호의 에너지 레벨을 비교하여 음성신호 구간이거나 잡음신호 구간인지를 확인하고 검출하는 과정과,
    상기 과정에서 음성신호 구간이거나 잡음신호 구간으로 확인되면 해당 구간으로 설정하여 출력하는 과정으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출방법.
  20. 제15 항에 있어서, 상기 갱신과정은,
    상기 출력과정에서 구간설정하고 출력한 임계대역 프레임의 다음 순서에 의한 프레임이 있는지 판단하는 과정과,
    상기 과정에서 다음 순서 프레임이 있으면 재귀법에 의한 프레임의 영역별 신호임계값과 잡음임계값을 연산하여 갱신 설정하고 상기 출력과정으로 궤환하는 과정으로 이루어지는 것을 특징으로 하는 음성인식장치의 음성구간 검출방법.
KR1020040095520A 2004-11-20 2004-11-20 음성인식장치의 음성구간 검출방법 KR100677396B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020040095520A KR100677396B1 (ko) 2004-11-20 2004-11-20 음성인식장치의 음성구간 검출방법
JP2005334978A JP4282659B2 (ja) 2004-11-20 2005-11-18 音声信号処理装置の音声区間検出装置及び方法
DE602005010525T DE602005010525D1 (de) 2004-11-20 2005-11-18 Verfahren und Vorrichtung zum Erkennen von Sprachsegmenten bei der Sprachsignalverarbeitung
AT05025231T ATE412235T1 (de) 2004-11-20 2005-11-18 Verfahren und vorrichtung zum erkennen von sprachsegmenten bei der sprachsignalverarbeitung
EP05025231A EP1659570B1 (en) 2004-11-20 2005-11-18 Method and apparatus for detecting speech segments in speech signal processing
CN2005101267970A CN1805007B (zh) 2004-11-20 2005-11-21 用于在语音信号处理中检测语音片段的方法和装置
US11/285,270 US7620544B2 (en) 2004-11-20 2005-11-21 Method and apparatus for detecting speech segments in speech signal processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040095520A KR100677396B1 (ko) 2004-11-20 2004-11-20 음성인식장치의 음성구간 검출방법

Publications (2)

Publication Number Publication Date
KR20060056186A true KR20060056186A (ko) 2006-05-24
KR100677396B1 KR100677396B1 (ko) 2007-02-02

Family

ID=35723587

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040095520A KR100677396B1 (ko) 2004-11-20 2004-11-20 음성인식장치의 음성구간 검출방법

Country Status (7)

Country Link
US (1) US7620544B2 (ko)
EP (1) EP1659570B1 (ko)
JP (1) JP4282659B2 (ko)
KR (1) KR100677396B1 (ko)
CN (1) CN1805007B (ko)
AT (1) ATE412235T1 (ko)
DE (1) DE602005010525D1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835996B1 (ko) * 2006-12-05 2008-06-09 한국전자통신연구원 적응형 발성 화면 분석 방법 및 장치
US8380497B2 (en) 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008099163A (ja) * 2006-10-16 2008-04-24 Audio Technica Corp ノイズキャンセルヘッドフォンおよびヘッドフォンにおけるノイズキャンセル方法
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
CN101515454B (zh) * 2008-02-22 2011-05-25 杨夙 用于语音、音乐、噪音自动分类的信号特征提取方法
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
JP5535198B2 (ja) * 2009-04-02 2014-07-02 三菱電機株式会社 雑音抑圧装置
KR101251045B1 (ko) * 2009-07-28 2013-04-04 한국전자통신연구원 오디오 판별 장치 및 그 방법
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
AU2010308597B2 (en) * 2009-10-19 2015-10-01 Telefonaktiebolaget Lm Ericsson (Publ) Method and background estimator for voice activity detection
JP5575977B2 (ja) 2010-04-22 2014-08-20 クゥアルコム・インコーポレイテッド ボイスアクティビティ検出
CN102376303B (zh) * 2010-08-13 2014-03-12 国基电子(上海)有限公司 录音设备及利用该录音设备进行声音处理与录入的方法
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US20130151248A1 (en) * 2011-12-08 2013-06-13 Forrest Baker, IV Apparatus, System, and Method For Distinguishing Voice in a Communication Stream
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
JP6221257B2 (ja) * 2013-02-26 2017-11-01 沖電気工業株式会社 信号処理装置、方法及びプログラム
KR20150105847A (ko) * 2014-03-10 2015-09-18 삼성전기주식회사 음성구간 검출 방법 및 장치
CN107613236B (zh) * 2017-09-28 2021-01-05 盐城市聚龙湖商务集聚区发展有限公司 一种音像录制方法及终端、存储介质
KR20200141860A (ko) 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110689901B (zh) * 2019-09-09 2022-06-28 苏州臻迪智能科技有限公司 语音降噪的方法、装置、电子设备及可读存储介质
US20210169559A1 (en) * 2019-12-06 2021-06-10 Board Of Regents, The University Of Texas System Acoustic monitoring for electrosurgery
CN113098626B (zh) * 2020-01-09 2023-03-24 北京君正集成电路股份有限公司 一种近距离声波通信同步的方法
CN113098627B (zh) * 2020-01-09 2023-03-24 北京君正集成电路股份有限公司 一种实现近距离声波通信同步的系统
CN115240696B (zh) * 2022-07-26 2023-10-03 北京集智数字科技有限公司 一种语音识别方法及可读存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3626492B2 (ja) * 1993-07-07 2005-03-09 ポリコム・インコーポレイテッド 会話の品質向上のための背景雑音の低減
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
CN1225736A (zh) * 1996-07-03 1999-08-11 英国电讯有限公司 语音活动检测器
US5884255A (en) * 1996-07-16 1999-03-16 Coherent Communications Systems Corp. Speech detection system employing multiple determinants
US5866702A (en) * 1996-08-02 1999-02-02 Cv Therapeutics, Incorporation Purine inhibitors of cyclin dependent kinase 2
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
FR2767334B1 (fr) * 1997-08-12 1999-10-22 Commissariat Energie Atomique Kinase activatrice des proteine-kinases cycline dependantes, et ses utilisations
US6479487B1 (en) * 1998-02-26 2002-11-12 Aventis Pharmaceuticals Inc. 6, 9-disubstituted 2-[trans-(4-aminocyclohexyl)amino] purines
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
US6327564B1 (en) * 1999-03-05 2001-12-04 Matsushita Electric Corporation Of America Speech detection using stochastic confidence measures on the frequency spectrum
WO2000059449A2 (en) * 1999-04-02 2000-10-12 Euro-Celtique S.A. Purine derivatives having phosphodiesterase iv inhibition activity
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP2000310993A (ja) * 1999-04-28 2000-11-07 Pioneer Electronic Corp 音声検出装置
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US6812232B2 (en) * 2001-09-11 2004-11-02 Amr Technology, Inc. Heterocycle substituted purine derivatives as potent antiproliferative agents
US6667311B2 (en) * 2001-09-11 2003-12-23 Albany Molecular Research, Inc. Nitrogen substituted biaryl purine derivatives as potent antiproliferative agents
EP1425738A2 (en) * 2001-09-12 2004-06-09 Bitwave Private Limited System and apparatus for speech communication and speech recognition
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835996B1 (ko) * 2006-12-05 2008-06-09 한국전자통신연구원 적응형 발성 화면 분석 방법 및 장치
US8380497B2 (en) 2008-10-15 2013-02-19 Qualcomm Incorporated Methods and apparatus for noise estimation
KR101246954B1 (ko) * 2008-10-15 2013-03-25 퀄컴 인코포레이티드 오디오 신호에서의 잡음 추정을 위한 방법 및 장치

Also Published As

Publication number Publication date
US20060111901A1 (en) 2006-05-25
CN1805007A (zh) 2006-07-19
EP1659570B1 (en) 2008-10-22
ATE412235T1 (de) 2008-11-15
EP1659570A1 (en) 2006-05-24
CN1805007B (zh) 2010-11-03
DE602005010525D1 (de) 2008-12-04
KR100677396B1 (ko) 2007-02-02
US7620544B2 (en) 2009-11-17
JP2006146226A (ja) 2006-06-08
JP4282659B2 (ja) 2009-06-24

Similar Documents

Publication Publication Date Title
KR100677396B1 (ko) 음성인식장치의 음성구간 검출방법
US6314396B1 (en) Automatic gain control in a speech recognition system
KR100438826B1 (ko) 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
US5305422A (en) Method for determining boundaries of isolated words within a speech signal
EP1355296B1 (en) Keyword detection in a speech signal
EP0694906A1 (en) Method and system for speech recognition
KR20000022351A (ko) 음성 구간 검출 방법과 시스템 및 그 음성 구간 검출 방법과 시스템을 이용한 음성 속도 변환 방법과 시스템
JP3105465B2 (ja) 音声区間検出方法
US5361324A (en) Lombard effect compensation using a frequency shift
US6757651B2 (en) Speech detection system and method
US7292974B2 (en) Method for recognizing speech with noise-dependent variance normalization
JP2000163099A (ja) 雑音除去装置、音声認識装置および記憶媒体
JPH0449952B2 (ko)
JPH11126093A (ja) 音声入力調整方法および音声入力システム
JPH03114100A (ja) 音声区間検出装置
KR100262576B1 (ko) 운전자의 음성 신호 구간 검출 장치 및 그 방법
EP4024705A1 (en) Speech sound response device and speech sound response method
JPH1097269A (ja) 音声検出装置及び方法
JP3026855B2 (ja) 音声認識装置
JPS5999497A (ja) 音声認識装置
JPS61292199A (ja) 音声認識装置
JPH04264596A (ja) 雑音下音声認識方法
JP2017068153A (ja) 半導体装置、システム、電子機器、及び、音声認識方法
KR20010091093A (ko) 음성 인식 및 끝점 검출방법
JP2001067092A (ja) 音声検出装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121227

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131224

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141224

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151224

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee