KR19990060129A - 음성인식 시스템의 음성구간 검출방법 - Google Patents

음성인식 시스템의 음성구간 검출방법 Download PDF

Info

Publication number
KR19990060129A
KR19990060129A KR1019970080350A KR19970080350A KR19990060129A KR 19990060129 A KR19990060129 A KR 19990060129A KR 1019970080350 A KR1019970080350 A KR 1019970080350A KR 19970080350 A KR19970080350 A KR 19970080350A KR 19990060129 A KR19990060129 A KR 19990060129A
Authority
KR
South Korea
Prior art keywords
energy
threshold value
signal
section
recognition system
Prior art date
Application number
KR1019970080350A
Other languages
English (en)
Other versions
KR100273395B1 (ko
Inventor
김기백
Original Assignee
구자홍
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자 주식회사 filed Critical 구자홍
Priority to KR1019970080350A priority Critical patent/KR100273395B1/ko
Publication of KR19990060129A publication Critical patent/KR19990060129A/ko
Application granted granted Critical
Publication of KR100273395B1 publication Critical patent/KR100273395B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

본 발명은 음성인식 시스템에서 음성신호를 인식하는 기술에 관한 것으로, 주변 잡음신호의 변화에 관계없이 음성신호의 구간을 정확하게 인식할 수 있도록 하기 위하여, 입력 음성신호에 윈도우를 씌워 프레임별로 분할하고 각 프레임의 에너지를 계산하는 제1과정과; 최초 몇개의 프레임을 대상으로 문턱값을 설정할 때 "평균값 + 평균값에 따라 변화되는 값"으로 문턱값을 설정한 후 그 문턱값을 기준으로 음성신호 구간을 판단하는 제2과정과; 문턱값을 초과하는 신호 중에서 서로 인접된 신호의 에너지 분포를 이용하여 잡음신호를 구별한 다음 그 잡음신호를 제거하는 제3과정을 통해 음성신호의 구간을 인식하도록 하였다.

Description

음성인식 시스템의 음성구간 검출방법
본 발명은 음성인식 시스템에서 음성신호를 인식하는 기술에 관한 것으로, 특히 음성 검출시 사용하는 문턱값을 주변 잡음 에너지의 크기에 따라 적응적으로 설정하여 주변 잡음과 관계없이 일관성 있게 음성을 검출하고, 에너지 분포 특성을 이용하여 음성구간에서 주변 잡음을 제거하는데 적당하도록한 음성인식 시스템의 음성구간 검출방법에 관한 것이다.
종래기술에 의한 음성인식 시스템에서, 음성을 검출하기 위해 음성신호에 윈도우를 씌어서 프레임별로 나누고 각 프레임으로 부터 에너지를 구한다. 최초 n 프레임을 주변 잡음이라고 가정하고, 이 n 프레임을 기준으로 문턱값(Pthr)을 설정하게 되는데 이를 식으로 표현하면 다음과 같다.
Pthr=Pavg+2×Psd
즉, 주변잡음이라고 가정된 최초 n 프레임에 대해 에너지 평균값을 구하고, 여기에 표준 편차값을 더하여 문턱값을 구한다. 이렇게 구한 문턱값을 근거로 하여 주변잡음의 크기가 작을때와 클 때 음성을 검출하면 도 1의 (a),(b)와 같다.
그러나, 이와 같은 종래의 음성인식 기술에 있어서는 최초 몇 프레임을 음성신호가 아니라고 가정하여 그로부터 에너지의 문턱값을 구한 후 이후에 입력되는 신호에 대하여 그 문턱값을 넘는 에너지를 가진 프레임을 음성신호의 프레임이라고 판단하게 되므로 주변잡음 에너지의 크기가 변화되는 것에 대해 적절히 대응할 수 없게 되고, 이로 인하여 제대로 음성을 검출할 수 없게 되는 결함이 있었다.
따라서, 본 발명이 이루고자 하는 기술적 과제는 음성신호 검출시 사용하는 문턱값을 주변 잡음 에너지의 크기에 따라 적응적으로 설정하여 주변 잡음과 관계없이 일관성 있게 음성을 검출하고, 에너지 분포 특성을 이용하여 음성구간에서 주변 잡음을 적절하게 제거하는 음성구간 검출방법을 제공함에 있다.
도 1의 (a),(b)는 종래의 음성신호 구간 검출방법을 설명하기 위한 파형도.
도 2는 본 발명의 문턱값 설정 방법을 설명하기 위한 입력신호의 파형도.
도 3의 (a),(b)는 본 발명의 음성신호 구간 검출방법을 설명하기 위한 파형도.
도 4는 본 발명에서 문턱값을 초과하는 신호에 포함된 잡음신호를 제거하는 방법을 설명하기 위한 에너지 분포도.
도 5는 본 발명에 의한 음성인식 시스템의 음성구간 검출방법의 신호 흐름도.
***도면의 주요 부분에 대한 부호의 설명***
S1-S7 : 제1-7스텝
본 발명의 목적을 달성하기 위한 음성인식 시스템의 음성구간 검출방법은 입력 음성신호에 윈도우를 씌워 프레임별로 분할하고 각 프레임의 에너지를 계산하는 제1과정(S1-S3)과; 최초 몇개의 프레임을 대상으로 문턱값을 설정할 때 "평균값 + 평균값에 따라 변화되는 값"으로 문턱값을 설정한 후 그 문턱값을 기준으로 현재 입력되는 신호의 구간을 음성신호 구간으로 판단하거나 주변잡음신호 구간으로 판단하는 제2과정(S4-S7)으로 이루어지는 것으로, 이와 같이 이루어진 본 발명의 작용을 첨부한 도 2 내 지 도 5를 참조하여 설명하면 다음과 같다.
음성구간을 검출하기 위해서는 입력되는 음성신호를 각 프레임별로 분할하고 분할된 각 프레임의 에너지값을 주로 이용하게 된다.
종래에 있어서는 음성신호의 문턱값을 설정하는 방식이 주변잡음 에너지에 표준편차를 더하는 방식이므로 주변잡음 에너지의 크기에 적절하게 대응할 수 없었다.
따라서, 본 발명에서는 최초의 잡음 에너지값에 따라 음성신호의 판단기준값인 문턱값을 적절히 조정하여 주변잡음에 크게 영향을 받지 않는 일관성 있는 음성검출을 할 수 있도록 하였다.
예로써, 주변 잡음 에너지의 크기가 도 2와 같은 경우 문턱값(Pthr)은 다음의 식과 같이 설정하게 된다.
Pthr=Pavg+▵Pthr
즉, 본 발명에서는 문턱값을 설정할 때 n 프레임 에너지의 평균값에 표준편차를 더하던 기존의 방법과 달리 에너지의 평균값에 따라 변하는 값( ▵Pthr )을 더하여 구하도록 하였다. 이와 같은 방식으로 설정된 문턱값을 이용하여 음성신호를 검출하는 예를 도 3의 (a),(b)에 나타내었다.
상기 도 3의 (a),(b)를 살펴보면 기존의 방법과는 달리 주변잡음의 에너지가 클때나 작을때나 일관성 있게 음성신호를 검출하고 있음을 알 수 있다.
한편, 음성신호의 구간을 검출할 때 문턱값을 초과하는 신호라고 판단된 신호에 포함되어 있는 잡음신호를 구별하여 그 잡음신호를 제거할 필요가 있는데, 그 방법의 하나로서 에너지 분포를 이용하면 효과적으로 제거할 수 있게 된다.
예를들어, 에너지 문턱값을 초과하는 프레임의 에너지 분포가 도 4와 같다고 하자. 각 구간을 하나의 펄스라고 간주하면 도 4에서는 두 개의 펄스가 존재하며, 각 펄스로 부터 지속기간(d1,d2), 최대 에너지(pmax1, pmax2), 에너지의 합(psum1, psum2) 등의 정보를 얻을 수 있고, 두 펄스 사이의 간격(gap)도 정보가 된다.
두 펄스에 대한 정보와 그 사이 간격을 근거로 다음과 같은 조건을 검사하여 주변 잡음을 음성구간으로 부터 제외시킬 수 있다.
if gap > SHORT_GAP,
if 3*pmax1 < pmax2 or 3*(psum1/d1) < (psum2/d2)
펄스1을 주변잡음으로 간주
end
elsief pmax1 > 3*pmax2 or (psum1/d1) > 3*(psum2/d2)
펄스2를 주변잡음으로 간주
end
end
이상에서 상세히 설명한 바와 같이, 본 발명은 음성신호 검출시 사용하는 문턱값을 주변 잡음 에너지의 크기에 따라 적응적으로 설정하여 주변 잡음과 관계없이 일관성 있게 음성신호의 구간을 검출하고, 에너지 분포 특성을 이용하여 음성신호의 구간에서 주변 잡음을 적절하게 제거함으로써 주변의 환경 변화에 관계없이 음성신호의 구간을 정확하게 검출할 수 있는 효과가 있다.

Claims (3)

  1. 입력 음성신호에 윈도우를 씌워 프레임별로 분할하고 각 프레임의 에너지를 계산하는 제1과정과; 최초 몇개의 프레임을 대상으로 문턱값을 설정할 때 "평균값 + 평균값에 따라 변화되는 값"으로 문턱값을 설정한 후 그 문턱값을 기준으로 음성신호 구간을 판단하는 제2과정으로 이루어지는 것을 특징으로 하는 음성인식 시스템의 음성구간 검출방법.
  2. 제1항에 있어서, 문턱값을 초과하는 신호 중에서 서로 인접된 신호의 에너지 분포를 이용하여 잡음신호를 구별한 다음 그 잡음신호를 제거하는 과정을 더 포함하여 이루어지는 것을 특징으로 하는 음성인식 시스템의 음성구간 검출방법.
  3. 제2항에 있어서, 인접된 신호의 에너지 분포에서 이용되는 정보는 각 신호의 지속기간, 최대 에너지, 에너지의 합 정보임을 특징으로 하는 음성인식 시스템의 음성구간 검출방법.
KR1019970080350A 1997-12-31 1997-12-31 음성인식시스템의음성구간검출방법 KR100273395B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970080350A KR100273395B1 (ko) 1997-12-31 1997-12-31 음성인식시스템의음성구간검출방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970080350A KR100273395B1 (ko) 1997-12-31 1997-12-31 음성인식시스템의음성구간검출방법

Publications (2)

Publication Number Publication Date
KR19990060129A true KR19990060129A (ko) 1999-07-26
KR100273395B1 KR100273395B1 (ko) 2001-01-15

Family

ID=40749375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970080350A KR100273395B1 (ko) 1997-12-31 1997-12-31 음성인식시스템의음성구간검출방법

Country Status (1)

Country Link
KR (1) KR100273395B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
KR100705563B1 (ko) * 2004-12-07 2007-04-10 삼성전자주식회사 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
KR101336203B1 (ko) * 2007-09-28 2013-12-05 삼성전자주식회사 전자기기에서 음성 검출 방법 및 장치
CN103544961A (zh) * 2012-07-10 2014-01-29 中兴通讯股份有限公司 语音信号处理方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
KR100705563B1 (ko) * 2004-12-07 2007-04-10 삼성전자주식회사 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
KR101336203B1 (ko) * 2007-09-28 2013-12-05 삼성전자주식회사 전자기기에서 음성 검출 방법 및 장치
CN103544961A (zh) * 2012-07-10 2014-01-29 中兴通讯股份有限公司 语音信号处理方法及装置
CN103544961B (zh) * 2012-07-10 2017-12-19 中兴通讯股份有限公司 语音信号处理方法及装置

Also Published As

Publication number Publication date
KR100273395B1 (ko) 2001-01-15

Similar Documents

Publication Publication Date Title
US4821325A (en) Endpoint detector
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
KR910020641A (ko) 잡음예측장치와 이것을 사용한 신호처리장치
CN103886871A (zh) 语音端点的检测方法和装置
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
KR910015962A (ko) 음성신호처리장치
KR19990060129A (ko) 음성인식 시스템의 음성구간 검출방법
EP0770254B1 (en) Transmission system and method for encoding speech with improved pitch detection
WO2000052683A1 (en) Speech detection using stochastic confidence measures on the frequency spectrum
KR920009957B1 (ko) 과대음성 검출장치
KR19990011286A (ko) 잡음환경하에서 음성인식을 위한 음성구간 검출방법
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JPH0114599B2 (ko)
KR100262564B1 (ko) 차량용 음성 인식 장치
JP3484559B2 (ja) 音声認識装置および音声認識方法
KR20000059978A (ko) 음성인식 시스템의 음성구간 결정 방법
KR20010091093A (ko) 음성 인식 및 끝점 검출방법
KR970060044A (ko) 유색 잡음 환경에서 주파수 영역의 정보를 이용한 끝점 검출 방법
CN113889134A (zh) 一种噪声消除装置及其检测方法
JPS62238599A (ja) 音声区間検出方法
JPH04251299A (ja) 音声区間検出方法
Hu et al. A new method for automatic extraction of the voiced/unvoiced feature from Chinese continuous speech using wavelet transform
KR0128669B1 (ko) 음성 신호의 실시간 음성부 검출 방법
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置
JP2001134282A (ja) 音声波形分割装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070629

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee