KR100206090B1 - 실음성구간 검출방법 및 이를 이용한 음성인식방법 - Google Patents

실음성구간 검출방법 및 이를 이용한 음성인식방법 Download PDF

Info

Publication number
KR100206090B1
KR100206090B1 KR1019970022075A KR19970022075A KR100206090B1 KR 100206090 B1 KR100206090 B1 KR 100206090B1 KR 1019970022075 A KR1019970022075 A KR 1019970022075A KR 19970022075 A KR19970022075 A KR 19970022075A KR 100206090 B1 KR100206090 B1 KR 100206090B1
Authority
KR
South Korea
Prior art keywords
energy
frame
section
speech
real
Prior art date
Application number
KR1019970022075A
Other languages
English (en)
Other versions
KR19980085897A (ko
Inventor
양성일
권영헌
Original Assignee
김호진
양성일
권영헌
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김호진, 양성일, 권영헌 filed Critical 김호진
Priority to KR1019970022075A priority Critical patent/KR100206090B1/ko
Publication of KR19980085897A publication Critical patent/KR19980085897A/ko
Application granted granted Critical
Publication of KR100206090B1 publication Critical patent/KR100206090B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명은 빠르고 정확한 실음성구간을 검출하기 위한 것으로서, 음성신호의 초기의 각 프레임의 EL에너지의 평균을 구하여 이를 초기 임계치로 하고, 음성신호의 전체의 일정한 부분까지를 한도로 하여 연속된 일정 갯수의 프레임의 각각의 EL에너지가 상기 초기임계치보다 크게 되는 구간의 전(前) 프레임까지를 묵음구간(默音區間)으로 하고, 상기 묵음기간에서에 EL에너지의 평균값과 표준편차의 가중평균값을 최종임계치로 하고, 상기 묵음기간의 이후에서 연속되는 일정한 갯수의 프레임에서 각각의 프레임의 EL에너지가 상기 최종임계치보다 크게 되는 구간의 최초의 프레임을 실음성구간의 시작으로 하고, 상기 실음성구간의 시작 이후에서 연속되는 일정한 갯수의 프레임에서 각각의 프레임의 EL에너지가 상기 최종임계치보다 작게 되는 구간의 전(前) 프레임을 실음성구간의 끝으로 하는 것을 특징으로 하는 실음성구간의 검출방법이다.

Description

실음성구간 검출방법 및 이를 이용한 음성인식방법
제1도는 각 프레임에 있어서의 에너지를 계산하기 위한 설명도.
제2도는 묵음구간의 설정을 위한 초기임계치의 결정을 위한 설명도.
제3도는 묵음구간을 결정하기 위한 설명도.
제4도는 묵음구간에서의 에너지를 계산하기 위한 설명도.
제5도는 실음성구간의 시작점을 검출하기 위한 설명도.
제6도는 실음성구간의 끝점을 검출하기 위한 설명도.
제7도는 '일시정지'에 대한 실음성구간의 검출예를 나타내는 에너지 분포도.
제8도는 '재생'에 대한 실음성구간의 검출예를 나타내는 에너지 분포도.
제9도는 '레이디오(라디오)'에 대한 실음성구간의 검출예를 나타내는 에너지 분포도.
제10도는 '앞으로'에 대한 실음성구간의 검출예를 나타내는 에너지 분포도.
제11도는 음성특징의 추출과정을 나타내는 설명도.
제12도는 오버랩 길이를 가변하여 음성신호를 40개의 영역으로 나누는 설명도.
제13도는 어휘의 음성신호로부터 코드북을 생성하기 위한 설명도.
제14도는 본 발명의 방법을 적용한 오디오 시스템의 개략도.
제15도는 제14도의 시스템에 본 발명의 방법을 사용한 결과의 인식률을 나타내는 도면이다.
[산업상 이용분야]
본 발명은 음성인식에 관한 것으로서, 특히 실음성 구간을 검출하는 방법에 관한 것이다.
[종래의 기술]
음성의 실음성구간(實音聲區間) 검출은 음성인식 성능에 커다란 영향을 미친다. 잘못된 실음성구간 검출은 전체 인식시스템 전반에 영향을 줄 수 있으므로 정확한 검출이 요구된다.
기존에 사용되는 방식에는 에너지와 영교차율을 이용하는 방법(Rabiner Sambur)과 Teager 에너지를 이용하는 방법이 있다.
① 에너지와 영교차율을 이용하는 방법
무음성구간은 주파수가 높고 에너지가 낮다. 반면에 유성음구간은 주파수가 낮고 에너지가 높다. 음성을 몇 개의 영역(음성분석 구간)으로 나누었을 경우, 각 영역별 에너지와 영교차율을 구한다. 여기에서 영교차율은 신호가 '0'를 통과하는 횟수를 샘플수로 나눈 값이다. 에너지를 이용하여 유성음구간을 정하고 영교차율을 이용하여 무성음구간을 검출하는 방법이다.
② 티거(Teager)에너지를 이용하는 방법
티거(Teager)에너지는 신호의 크기와 주파수 성분을 모두 포함하여 표현한 것으로 다음과 같이 표현할 수 있다.
Figure kpo00002
여기에서,
Figure kpo00003
는 시간 영역에서의 입력 음성신호이고 A2은 에너지를, Ω는 주파수 성분을 나타낸다.
[발명이 해결하고자 하는 과제]
그러나 상기의 방법은, 실음성구간을 검출하는 데에 있어서 정확하지 않다는 단점이 있다. 따라서 음성인식에 있어서 그 인식율이 그리 높지 않게 된다. 또한 그 검출에 있어서 계산량이 많아 속도가 느리다는 단점이 있다.
[과제를 해결하기 위한 수단]
본 발명은 상기의 과제를 해결하기 위하여, 음성의 실음성구간을 검출하기 위해서 EL에너지를 이용하는 것으로서, 음성인식을 위한 특징 파라메터로서 실음성구간에서 STFT(Short Time Fourier Transform)을 이용한 음성의 주파수 성분을 추출한다. 추출된 음성신호의 특징벡터로부터 MSVQ(Multi-section Vector Quantinization)를 이용하여 인식어휘별 코드북을 작성한다. 인식과정에서 인식어휘별로 양자화된 코드북과 입력 음성신호의 특징벡터와의 거리(distance)를 비교하여 그 거리값이 최소가 되는 특징벡터에 해당하는 음성신호로 인식하는 것이다.
[실시예]
이하, 본 발명의 한 실시예를 도면을 참조하면서 설명한다. 본 실시예는 오디오에 음성으로 명령을 내리는 시스템에 관한 것이다.
우선, EL에너지를 이용한 실음성구간 검출에 관하여 설명한다.
에너지 E와 레벨교차율(level crossing rate) L의 곱을 이용한 에너지 함수를 이용하는 방법이다. 입력 음성신호의 i번째 샘플을
Figure kpo00004
라고 하고, 입력 음성신호의 10샘플을 하나의 소구간, 50샘플을 하나의 프레임이라 정의하면, 입력 음성신호의 j번째 소구간에서의 EL에너지 Ej는 아래와 같이 정의하여 사용한다.
Figure kpo00005
여기에서
Figure kpo00006
을, L은 11KHz로 8비트 샘플링한 경우에 신호가 기준레벨(-9<
Figure kpo00007
<5)을 통과하는 횟수를 소구간 샘플수로 나눈값이다.
기존의 Teager 에너지를 이용한 방법과는 달리, 본 EL에너지를 이용하는 방식에서는 소구간에서의 레벨교차율이 주파수 성분을 보여준다는 점에 착안하여, 시간축에서 주파수와 에너지 성분에 대한 정보를 얻어내어 사용하는 것이 본 발명의 독창적인 방법이다.
먼저, EL에너지의 계산에 관하여 설명한다.
도 1에 나타내는 바와 같이 입력된 음성신호를 50샘플로 나누되 5샘플씩 중복하게 하면 프레임은 총 9개의 소구간으로 나뉘어진다. 각 소구간마다 에너지 E와 레벨교차율 L을 구하여 J번째 프레임에서의 EL에너지 EJ를 다음과 같이 정의하여 구한다.
Figure kpo00008
위와 같은 방법으로 J번째 프레임에 대한 EL에너지 EJ를 결정하고 50샘플을 이동한 후 (J+1)번째 프레임에서도 위의 방법으로 EL에너지 EJ+1을 구한다.
다음에 입력된 신호에서 음성신호가 없는 묵음구간(默音區間) 검출에 대하여 설명한다.
묵음구간을 검출하기 위해서 사용하는 초기임계치 Th를 설정한다. 임계치 설정은 음성신호가 입력될 때마다 주위환경에 따라 새롭게 설정되어야 한다.
입력 음성신호의 처음 10개 프레임은 하드웨어에 의한 잡음영향이 강하므로 제외시키고, 그 다음 10개의 프레임은 묵음으로 간주하여 각각의 EL에너지의 평균을 묵음구간을 검출하는 초기임계치 Th로 설정한다(도 2 참조). 이후부터 전체 입력음성의 1/4되는 곳까지 10프레임을 기준으로 하여 10개의 프레임 각각의 EL에너지가 연속하여 설정된 초기임계치 Th보다 작으면 묵음으로 간주하고 1프레임씩 이동시킨다(도 3 참조). 만약 연속된 10개의 프레임이 설정된 임계치 Th보다 크게 되면 그 이전 프레임을 묵음구간의 끝으로 간주한다. 만약 음성의 1/4되는 부분에서 묵음구간의 끝이 검출되지 않으면 음성의 1/4구간 전체를 묵음구간으로 간주한다.
상기와 같이 묵음구간에서의 EL에너지를 이용하여 최종임계치 TENERGY를 구한다. 즉 묵음구간에서 EL에너지의 평균값 MSE와, 표준편차 DSE를 구하여 TENERGY를 계산한다(도 4 참조).
Figure kpo00009
여기에서 0.6 및 0.4는 TENERGY를 구하기 위한 가중치로서, 실험에 의하여 결정된 값이다. 또한 본 발명은 이 가중치에 한정되는 것은 아니고 각각 0.7, 0.3을 사용할 수도 있다.
이렇게 구한 묵음구간에서의 TENERGY를 이용하여 실음성구간의 시작점과 끝점을 구한다.
즉 실음성구간의 시작점은, TENERGY보다 큰 EL에너지가 연속되는 10개 프레임에서 검출되면 그 시작 프레임을 실음성구간의 시작점으로 정한다(도 5 참조).
실음성구간의 끝점은, 상기에서 구한 실음성구간의 시작점 이후부터 연속되는 3개 프레임에서 EL에너지가 TENERGY보다 작게 되면 그전 프레임을 실음성구간의 끝점으로 간주한다.
상기와 같이 구한 실음성구간이 소음이 아닌 진정한 실음성구간인지를 확인하기 위하여 그 구간의 에너지값을 조사한다. 즉 시작점과 끝점 사이에 EL에너지의 값이 10,000(11KHz, 8비트 샘플링, m=n=2일 경우)보다 큰 값이 존재하는지를 확인하여 존재하는 경우를 실음성구간으로, 존재하지 않는 경우는 소음으로 간주한다(도 6 참조).
도 7~도 10은 상기의 방법으로 구한 실음성구간의 검출예를 나타내고 있다. 도 7은 '일시정지', 도 8은 '재생', 도 9는 '레이디오(라디오)', 도 10은 '앞으로'에 대하여 상기의 과정을 거쳐 추출한 에너지의 상태를 각각 나타내고 있다.
다음에 실음성구간이 검출되면 음성의 특징으로 추출한다. 음성의 특징을 나타내는 여러 가지 방법 중에서 주파수 성분을 음성의 특징으로 사용한다. 주파수 성분을 추출하는 방법으로 STFT(Short Time Fourier Transform)을 이용한다. 4개의 프레임을 하나의 영역(200샘플)으로 설정하고 이 영역에서 256포인트 FFT(Fast Fourier Transform)를 수행한다. 256개의 주파수 스펙트럼을 10개의 밴드(band)로 나누어 이중에서 하위 8개 밴드에서의 에너지 값을 계산한다. 따라서 200개의 샘플은 8개의 밴드별 에너지를 대표하는 8차원의 특징벡터로 구해진다(도 11 참조).
동일한 음성이라도 시간에 따라 그 발음길이가 다를 수 있다. 따라서 이러한 음성의 특징을 추출하거나 비교할 때 음성의 시간적 특성을 고려해 주어야 한다. MSVQ(Multi-Section Vector Quantinization)는 음성의 시간적 특징을 고려해줄 수 있는 방법으로 그 구현 또한 간단하다.
즉, 실음성구간을 동일한 수의 영역으로 나눈다. 음성의 안정적인 구간에서 특징을 추출하기 위해서 200샘플을 한 영역의 길이로 설정한다. 모든 입력 음성신호에 대해서 200샘플을 한 영역으로 하는 40개의 영역을 구한다. 즉 프레임 간의 겹치는 오버랩 길이를 가변함으로써 모든 입력 음성신호를 40 영역으로 나누게 된다(도 12 참조).
상기의 방법으로 각 영역에서 제시한 방법으로 음성의 특징벡터를 추출한다. 두 번 발음한 동일한 어휘의 음성신호로부터 추출된 특징벡터의 평균값을 특징벡터의 값으로 정하여 VQ(Vector Quantinization)과정을 통하여 코드북을 생성한다(도 13 참조).
상기와 같은 과정을 통하여 생성된 특징벡터를 코드북을 사용하여 오디오 동작을 제어하는 시스템에 응용한 예를 도 14에 나타낸다.
도 14에 나타낸 바와 같이, 영역 정규화 및 음성 특징 추출 블록은 입력된 음성신호를 40개의 영역으로 나누어 각 영역별로 STFT를 이용하여 8차원의 특징벡터를 추출한다. 코드북 블록은 학습과정에서 각 오디오 음성에 대하여 8차원×40영역의 코드북을 생성한다. 패턴매칭 블록은 인식과정에서 영역별로 코드북과 입력되는 음성신호의 특징벡터와의 거리(distance)를 계산하여 거리값이 최소가 되는 단어를 인식단어로 결정하여 오디오를 동작하도록 한다.
[발명의 효과]
이상과 본 발명은 에너지를 사용하여 실음성구간을 결정하고, 여기에서 음성신호의 특징벡터를 사용하여 어휘별 코드북을 작성한다. 인식과정에서는 입력되는 음성신호의 코드북을 작성하여 이를 기 저장된 코드북과 비교하여 특징벡터간의 거리가 가장 짧은 음성신호를 입력된 음성신호로서 인식하게 된다.
상기 방법을 오디오를 동작시키는 시스템에 응용한 결과의 인식률을 도 15에 나타낸다.
도 15와 같이 본 발명의 방법은, 인식률이 100%에 달하는 아주 우수한 음성인식방법임을 알 수 있다.
또한 본 발명은 상기 실시예의 오디오 시스템 뿐만 아니라 전화, TV 등 다양한 기기에 응용될 수 있다.

Claims (2)

  1. 음성신호를 일정한 크기의 일련의 프레임으로 나누고, 각 프레임내에서 샘플링된 신호의 에너지와 레벨교차율(level crossing rate)을 곱한 EL에너지의 합을 구하여 실음성구간을 추출하는 방법에 있어서, 음성신호의 초기의 각 프레임의 EL에너지의 평균을 구하여 이를 초기임계치로 하고, 음성신호의 전체의 일정한 부분까지를 한도로 하여 연속된 일정 갯수의 프레임의 각각의 EL에너지가 상기 초기임계치보다 크게 되는 구간의 전(前) 프레임까지를 묵음구간(默音區間)으로 하고, 상기 묵음기간에서에 EL에너지의 평균값과 표준편차의 가중평균값을 최종임계치로 하고, 상기 묵음기간의 이후에서 연속되는 일정한 갯수의 프레임에서 각각의 프레임의 EL에너지가 상기 최종임계치보다 크게 되는 구간의 최초의 프레임을 실음성구간의 시작으로 하고, 상기 실음성구간의 시작 이후에서 연속되는 일정한 갯수의 프레임에서 각각의 프레임의 EL에너지가 상기 최종임계치보다 작게 되는 구간의 전(前) 프레임을 실음성구간의 끝으로 하는 것을 특징으로 하는 실음성구간의 검출방법.
  2. 음성신호를 일정한 크기의 일련의 프레임으로 나누고, 각 프레임내에서 샘플링된 신호의 에너지와 레벨교차율(level crossing rate)을 곱한 EL에너지의 합을 구하여 실음성구간을 추출하고 실음성구간에서 음성신호의 특징을 추출하여 음성인식을 하는 음성인식 방법에서 있어서, 음성신호의 초기의 각 프레임의 EL에너지의 평균을 구하여 이를 초기임계치로 하고, 음성신호의 전체의 일정한 부분까지를 한도로 하여 연속된 일정 갯수의 프레임의 각각의 EL에너지가 상기 초기임계치보다 크게 되는 구간의 전(前) 프레임까지를 묵음구간(默音區間)으로 하고, 상기 묵음기간에서에 EL에너지가 평균값과 표준편차의 가중평균값을 최종임계치로 하고, 상기 묵음기간의 이후에서 연속되는 일정한 갯수의 프레임에서 각각의 프레임의 EL에너지가 상기 최종임계치보다 크게 되는 구간의 최초의 프레임을 실음성구간의 시작으로 하고, 상기 실음성구간의 시작 이후에서 연속되는 일정한 갯수의 프레임에서 각각의 프레임의 EL에너지가 상기 최종임계치보다 작게 되는 구간의 전(前) 프레임을 실음성구간의 끝으로 하고, 상기 실음성구간의 시작과 상기 실음성구간의 끝 사이의 구간을 일정한 개수의 프레임으로 나누고 각 영역에서 푸리에(Fourier)변환을 하여 하위 밴드(band)의 에너지값을 다차원(多次元) 특징벡터로 하고, 동일한 어휘에 대하여 상기 전과정을 복수회 하여 상기 특징벡터의 평균을 생성하여 이를 코드북으로 하고, 입력되는 음성신호의 특징벡터를 생성하고 이 특징벡터와 상기 코드북의 특징벡터를 비교하여 그 거리가 가장 짧은 특징벡터에 해당하는 음성신호를 입력된 음성신호로 인식하는 것을 특징으로 하는 음성인식방법.
KR1019970022075A 1997-05-30 1997-05-30 실음성구간 검출방법 및 이를 이용한 음성인식방법 KR100206090B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970022075A KR100206090B1 (ko) 1997-05-30 1997-05-30 실음성구간 검출방법 및 이를 이용한 음성인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970022075A KR100206090B1 (ko) 1997-05-30 1997-05-30 실음성구간 검출방법 및 이를 이용한 음성인식방법

Publications (2)

Publication Number Publication Date
KR19980085897A KR19980085897A (ko) 1998-12-05
KR100206090B1 true KR100206090B1 (ko) 1999-07-01

Family

ID=19507961

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970022075A KR100206090B1 (ko) 1997-05-30 1997-05-30 실음성구간 검출방법 및 이를 이용한 음성인식방법

Country Status (1)

Country Link
KR (1) KR100206090B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100737358B1 (ko) * 2004-12-08 2007-07-09 한국전자통신연구원 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치

Also Published As

Publication number Publication date
KR19980085897A (ko) 1998-12-05

Similar Documents

Publication Publication Date Title
AU702852B2 (en) Method and recognizer for recognizing a sampled sound signal in noise
KR101988222B1 (ko) 대어휘 연속 음성 인식 장치 및 방법
US5692104A (en) Method and apparatus for detecting end points of speech activity
AU685788B2 (en) A method and apparatus for speaker recognition
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US5596680A (en) Method and apparatus for detecting speech activity using cepstrum vectors
WO2001029821A1 (en) Method for utilizing validity constraints in a speech endpoint detector
KR100827097B1 (ko) 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
Zbancioc et al. Using neural networks and LPCC to improve speech recognition
KR100206090B1 (ko) 실음성구간 검출방법 및 이를 이용한 음성인식방법
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
WO1994022132A1 (en) A method and apparatus for speaker recognition
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
KR20020063665A (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
RU2174714C2 (ru) Способ выделения основного тона
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
CN106920558A (zh) 关键词识别方法及装置
Joseph et al. Indian accent detection using dynamic time warping
Nosan et al. Speech recognition approach using descend-delta-mean and MFCC algorithm
Nosan et al. Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech
Tolba et al. Automatic speech recognition based on cepstral coefficients and a mel-based discrete energy operator
JP2001083978A (ja) 音声認識装置
KR19980037190A (ko) 유성음 구간에서 프레임별 피치 검출 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20030331

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee