KR940005047B1 - 음성전이구간 검출기 - Google Patents

음성전이구간 검출기 Download PDF

Info

Publication number
KR940005047B1
KR940005047B1 KR1019910023997A KR910023997A KR940005047B1 KR 940005047 B1 KR940005047 B1 KR 940005047B1 KR 1019910023997 A KR1019910023997 A KR 1019910023997A KR 910023997 A KR910023997 A KR 910023997A KR 940005047 B1 KR940005047 B1 KR 940005047B1
Authority
KR
South Korea
Prior art keywords
autocorrelation
distance
detector
frame
section
Prior art date
Application number
KR1019910023997A
Other languages
English (en)
Other versions
KR930014263A (ko
Inventor
김락용
Original Assignee
주식회사 금성사
이헌조
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금성사, 이헌조 filed Critical 주식회사 금성사
Priority to KR1019910023997A priority Critical patent/KR940005047B1/ko
Publication of KR930014263A publication Critical patent/KR930014263A/ko
Application granted granted Critical
Publication of KR940005047B1 publication Critical patent/KR940005047B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Abstract

내용 없음.

Description

음성전이구간 검출기
제1도는 종래 끝점 검출기의 구성도.
제2a도 내지 c도는 종래 끝점 검출기의 파형도.
제3도는 본 발명 음성인식 시스템의 구성도.
제4도는 본 발명 전이구간 검출기의 상세구성도.
제5a도 내지 e도는 본 발명 전이구간 검출기의 파형도.
* 도면의 주요부분에 대한 부호의 설명
1 : 마이크로폰 2 : 저역통과필터(LPF)
3 : A/D변환기 4 : 전이구간 검출기
5 : 거리측정부 6 : 기준패턴부
7 : 결정부 8 : 해밍윈도우부
9 : 자기상관분석기 10 : 피크에너지 프레임 검출기
11 : 거리측정기 12 : 스무딩/미분기
13 : 디시젼 로직
본 발명은 음성인식에 관한 것으로 특히, 소음이 다소 존재하는 경우 소음에 영향을 적게 받는 모음의 피크 에너지 프레임을 기준으로 측정한 상대 거리차 정보를 이용하여 음성의 전이구간을 정확하게 찾도록 한 음성전이구간 검출기에 관한 것이다.
종래의 끝점 검출기는 제1도에 도시한 바와 같이 단시간 에너지와 영교차율(ZCR)을 이용해서 전이구간(끝점)을 검출하는 것으로, 이하 기술내용을 설명한다.
먼저 입력된 신호(Sn)는 윈도우 함수(14), 단구간 에너지 및 영교차율 계산부(15)를 통해 단구간 에너지 및 영교차율을 구하고, 묵음구간이라고 가정하면 신호의 시작부분에서 몇 개의 프레임을 추출하여 구간 평균에너지 및 평균영교차율 계산부(16), 임계치(ITU,ITL,)계산부(17)를 통해 임계치를 구한다.
이와 같이 얻어진 임계치로 음성구간검출부(18)를 통해 에너지 정보를 이용한 음성구간을 구한후 음성구간보정부(19)를 통해 영교차율을 이용한 무성음 부분을 보정한다.
이와 같이하여 얻어진 구간을 최종적인 음성구간으로 출력하는 것으로, 이하 파형도인 제2도 (a)-(c)를 참고로 하여 재설명한다.
묵음구간에서 구한 평균에너지(IMN) 및 전구간에서 구한 최대값(IMX)을 이용하여 제2도 (a)에 도시한 바와 같은 하이 에너지 임계치(ITU) 및 로우 에너지 임계치(ITL)를 구하면 그 식들은 다음과 같다.
여기서 구해진 로우 에너지 임계치(ITL), 하이 에너지 임계치(ITU)를 이용해서 이 임계치를 넘는 구간을 잠정적인 음성구간으로 간주한후 묵음구간의 평균 ZCR(zero-crossing rate)인 제2도(b)에 도시한 바와 같은 ZCR 임계치()보다 큰 ZCR을 갖는 구간으로 넓혀서 무성음으로 시작하고, 끝나는 부분에 대한 보정을 한후 제2도 (c)에 도시한 바와 같이 최종적인 음성구간을 결정한다.
그런데, 상기와 같은 종래의 끝점 검출기에 있어서는 잡음이 다소 심할경우 에너지 정보만을 이용하게 되면 비교적 작은 에너지를 갖는 파열음(ㄱ,ㅂ,ㅌ)등이 잘 검출되지 않게되며, 배경잡음이 무성음과 비슷한 경우 실제로 정확한 끝점보다 더 넓게 음성구간이라고 잘못 결정되는 경우가 발생되는 문제점이 있었다.
본 발명의 목적은 상기와 같은 종래의 문제점을 해결하기 위해서 소음이 다소 존재하는 경우 소음에 영향을 적게 받는 모음의 피크에너지 프레임을 기준으로 측정한 상대거리차 정보를 이용하여 음성의 전이구간을 정확하게 찾도록한 음성전이구간 검출기를 창안한 것으로, 이하 첨부한 도면에 의해 상세히 설명한다.
제3도는 본 발명 음성인식 시스템의 구성도로서 이에 도시한 바와 같이, 마이크로폰(1)을 통한 입력 아날로그신호(S(t))를 저역통과필터(LPF)(2), A/D변환기(3)를 통해 전이구간검출기(4)에 디지털신호로 입력하여 특징을 검출하고, 거리측정부(5)에서 기준패턴부(6)의 출력으로 DTW(Dynamic Time Warping), HMM(Hidden Markov Model)과 같은 인식과정을 수행하여 결정부(7)를 통해 인식결과를 출력하게 구성한다.
제4도는 본 발명 전이구간 검출기의 상세구성도로서 이에 도시한 바와 같이, A/D변환기(3)를 거친 음성신호(S(n))를 해밍윈도우(hamming window)부(8)를 통해 자기상관분석기(9)에 입력시켜 영차(zero-order) 자기상관계수를 구하며, 피크에너지 프레임 검출기(10)를 통해 상기 영차자기 상관계수를 이용하여 최대값을 갖는 프레임을 찾으며, 거리측정기(11)를 통해 상기 찾아진 프레임을 중심으로 해서, 앞, 뒤시간 축으로 상대거리를 측정하고, 그 결과를 선형 스무딩(linear smoothing)/미분기(12)를 통해 디시젼로직(decision logic)(13)에 인가하여 최종적으로 음성의 전이구간을 프레임 번호로서 구해주게 구성한 것으로, 미설명된 M은 시프트 양이고, N은 윈도우 사이즈이다.
제5도는 (a) 내지 (e)는 본 발명 전이구간 검출기의 파형도로서 이에 도시한 바와 같이, (a)는 음성신호 S(n), (b)는 에너지 R(O), (c)는 거리값 d(n), (d)는 스무딩/미분기(12)를 통과한 거리값 d(n), (e)는 전이구간 펄스 P(n)를 나타내며, 이는 음성 "삼"에 대한 일예를 나타낸 것이다.
이하, 상기와 같이 구성된 본 발명의 작용, 효과를 설명한다.
디지털신호로 변환된 음성신호(S(n))는 윈도우 사이즈 N, 시프트양 M을 갖는 해밍윈도우부(8)를 거쳐서 자기상관분석기(9)에서 자기상관계수 및 선형예측계수를 구하며, 단구간 자기상관함수 Rn(K)는 (식 1과)같이 정의된다.
여기서 사용된 윈도우 함수 W(n)는 (식 2)와 같이 주어진다.
이와 같이 자기상관계수중 영차자기상관계수는 그 해당 프레임의 에너지를 의미하며, 피크에너지 프레임 검출기(10)를 통해 영차자기 상관계수가 가장 큰 프레임을 찾는다.
이와 같이 찾아진 프레임에서 거리측정기(11)를 통해 그 이전 프레임과의 상호거리를 구한후 다시 그 다음 프레임과의 거리를 구해 거리배열(distance array)에 그 값을 저장하며, 이때 사용된 거리 측정 함수는 이타쿠라 사이토 디스토션(Itakura-Saito distortion) 방법을 적용한 것으로 그 식은 (식 4)와 같다.
여기서,
여기서,
따라서, dIS는 (식 6)과 같이 주어지고,는 비교하고자 하는 프레임의 선형예측계수 벡터들이다.
이와 같이하여 구해진 거리값들을 이용해서 음성의 전이구간을 검출하기 위해 불필요한 피크성분을 제거하고, 전이구간을 펄스로서 구분하기 용이하게 하기위해서 선형 스무딩/미분 과정을 거치게 된다.
이와 같이 얻어진 최종 거리 배열값으로부터 음성의 전이구간 및 음성의 끝점을 찾는 디시젼로직(13)을 거쳐 음성의 존재구간, 전이부분에 대한 결과를 프레임 번호로 음성인식부에 넘겨진다.
따라서, 배경 잡음의 통계적 특성이 일정하다고 가정할 때 음성 "삼"에 대한 일예를 들면 음성신호 S(n), 에너지R(o), 거리값 d(n), 거리일차미분값 d(n), 전이구간펄스 P(n)은 제5도(a-e)에 도시한 바와 같다.
이상에서 상세히 설명한 바와 같이 본 발명은 단독음 음성인식 시스템에서 그 성능에 큰 영향을 끼치는 끝점 검출 및 전이구간 검출기의 소음이 존재시 기존의 에너지와 영교차율등의 정보를 이용한 경우 그 성능이 크게 떨어지거나 상대거리 정보를 이용함으로써 끝점 뿐만아니라 전이구간도 정확하게 검출할수 있는 것이다.

Claims (1)

  1. A/D변환기(3)의 음성신호에 윈도우 사이즈(N) 및 쉬프트 양(M)을 부가하는 해밍윈도우부(8)와, 이해밍윈도우부(8)의 음선신호에서 자기 상관계수 및 선형 예측 계수를 구하는 자기상관 분석기(9)와, 이 자기 상관분석기(9)의 자기상관 계수에서 영차자기 상관계수가 최대인 프레임을 찾는 피크 에너지 프레임 검출기(10)와, 이 피크 에너지 프레임 검출기(10)의 최대 프레임에서 양쪽 시간축의 상대 거리를 측정하는 거리측정기(11)와 , 이 거리 측정기(11)의 거리값에서 피크성분을 제거하여 최종 거리값을 출력하는 스무딩/미분기(12)와, 이 스무딩/미분기(12)의 최종 거리값에서 음성의 전이구간 및 끝점을 검출하는 디시젼 로직(13)으로 구성한 것을 특징으로 하는 음성전이구간 검출기.
KR1019910023997A 1991-12-23 1991-12-23 음성전이구간 검출기 KR940005047B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019910023997A KR940005047B1 (ko) 1991-12-23 1991-12-23 음성전이구간 검출기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910023997A KR940005047B1 (ko) 1991-12-23 1991-12-23 음성전이구간 검출기

Publications (2)

Publication Number Publication Date
KR930014263A KR930014263A (ko) 1993-07-22
KR940005047B1 true KR940005047B1 (ko) 1994-06-10

Family

ID=19325655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019910023997A KR940005047B1 (ko) 1991-12-23 1991-12-23 음성전이구간 검출기

Country Status (1)

Country Link
KR (1) KR940005047B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100434538B1 (ko) * 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법

Also Published As

Publication number Publication date
KR930014263A (ko) 1993-07-22

Similar Documents

Publication Publication Date Title
US6314396B1 (en) Automatic gain control in a speech recognition system
JPH0990974A (ja) 信号処理方法
JP3105465B2 (ja) 音声区間検出方法
US5033089A (en) Methods for forming reference voice patterns, and methods for comparing voice patterns
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
Kotnik et al. Evaluation of pitch detection algorithms in adverse conditions
US4920568A (en) Method of distinguishing voice from noise
Bořil et al. Direct time domain fundamental frequency estimation of speech in noisy conditions
KR940005047B1 (ko) 음성전이구간 검출기
JPH08221097A (ja) 音声成分の検出法
Samad et al. Pitch detection of speech signals using the cross-correlation technique
US5208861A (en) Pitch extraction apparatus for an acoustic signal waveform
US8306828B2 (en) Method and apparatus for audio signal expansion and compression
JPS63281200A (ja) 音声区間検出方式
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
JPS6338993A (ja) 音声区間検出装置
JPS6336000B2 (ko)
JPH03114100A (ja) 音声区間検出装置
JP2005115386A (ja) 誤認識予測方法
KR19980037190A (ko) 유성음 구간에서 프레임별 피치 검출 방법
JPS63259596A (ja) 音声区間検出方式
Rahman et al. Pitch determination using aligned AMDF.
US20220068270A1 (en) Speech section detection method
KR950001540B1 (ko) 음성신호의 끝점 검출장치
JPH0573090A (ja) 音声認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
G160 Decision to publish patent application
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 19961230

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee