KR0176623B1 - 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치 - Google Patents

연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치 Download PDF

Info

Publication number
KR0176623B1
KR0176623B1 KR1019960049328A KR19960049328A KR0176623B1 KR 0176623 B1 KR0176623 B1 KR 0176623B1 KR 1019960049328 A KR1019960049328 A KR 1019960049328A KR 19960049328 A KR19960049328 A KR 19960049328A KR 0176623 B1 KR0176623 B1 KR 0176623B1
Authority
KR
South Korea
Prior art keywords
unvoiced
extracting
pitch
voiced
streak
Prior art date
Application number
KR1019960049328A
Other languages
English (en)
Other versions
KR19980029993A (ko
Inventor
이시우
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1019960049328A priority Critical patent/KR0176623B1/ko
Publication of KR19980029993A publication Critical patent/KR19980029993A/ko
Application granted granted Critical
Publication of KR0176623B1 publication Critical patent/KR0176623B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

연속 음성의 유성음 구간과 무성 자음 구간을 탐색 및 추출하여 프레임을 재구성함으로써 유성음과 무성음을 판별할 수 있는 연속 음성의 유성음부와 무성자음부의 자동 추출 방법 및 장치를 개시한다. 디지탈 신호로 변환하는 아날로그/디지탈 변환부와 주파수 대역을 제한하는 FIR필터부와 포만트를 추출하는 STREAK필터부와 피치 위치의 결손을 방지하는 피치 위치 추출부와 프레임을 재구성하는 구간탐색/추출부로 구성한다. 연속 음성에서 유성음부와 무성자음부를 자동으로 추출하고, 유성음과 무성자음이 한 프레임내에 같이 존재하지 않게 하기 위해서 프레임을 재구성함으로서 유성음 또는 무성음을 판별할 때 발생하는 오류를 제거하여 음성의 인식률을 높이고, 유성음원 또는 무성음원의 어느 한 편을 사용함으로 인해 발생하는 음질 저하를 제거하는 효과를 제공한다.

Description

연속 음성의 유성음부와 무성자음부의 자동 추출 방법 및 장치
본 발명은 연속 음성의 자동 추출 방법에 관한 것으로, 상세하게는 연속 음성의 유성음 구간과 무성 자음 구간을 탐색 및 추출하여 프레임을 재구성함으로써 유성음과 무성음을 판별할 수 있는 연속 음성의 유성음부와 무성자음부의 자동 추출 방법 및 장치에 관한 것이다.
일반적으로 8Kbps이하의 낮은 전송률의 음성 부호화 방식에서는 연속 음성을 수십 mS의 프레임으로 분할하여 신호 처리하고, 프레임내의 음성신호를 분석하여 유성음과 무성음으로 구분하여 이에 맞는 유성음원과 파라메터, 피치 정보를 합성측에 전달하고 이러한 정보를 이용하여 음성합성을 실현한다. 이때 음성합성에 사용되는 유성음원과 무성음원은 피치정보의 유무에 따라 유성음과 무성음으로 판별하고 이 정보를 근거로 주기성의 유성음을 재생할때는 유성음원을 사용하고 비주기성의 무성자음을 재생할때는 무성음원을 사용한다. 그리고, 주기성 유성음의 재생은 피치를 구간마다 유성음원을 되풀이하여 사용하므로서 음성 재생을 실현한다. 이때 연속 음성을 일정주기의 프레임으로 분할하여 신호처리를 할때 프레임내에 주기성 유성음과 비주기성 무성음이 분리되어 같이 존재하는 경우 프레임내의 음성신호는 유성음원과 무성음원으로 각각 재생하여야 한다.
그러나, 종래에는 음성합성 및 음성부호화 방식에 있어서 연속 음성을 처리할 경우 대부분의 방식들은 유성음 또는 무성음을 판별하고 있다. 유성음 또는 무성음의 판별오류나 유성음과 무성음이 같이 존재하는 경우 유성음원과 무성음원으로 각각 재생하지 못하고, 프레임내의 음성신호를 유성음원 또는 무성음원의 어느 한쪽을 사용함으로 인하여 재생음질의 음질수준이 저하되는 문제점이 있고, 음성 인식에서는 음성신호의 전 처리과정으로서 음성신호의 유성음 또는 무성음을 판별할 때 발생하는 오류로 인해 음성의 인식률이 저하되는 문제점이 있었다.
본 발명이 이루고자 하는 기술적 과제는 프레임내에 유성음과 무성음이 각각 존재할 경우 무성음부를 자동으로 추출하여 프레임을 재구성함으로써 유성음원 또는 무성음원의 어느 한쪽을 사용하더라도 음원선택의 잘못으로 인한 음질 저하의 요인을 제거하는 방법과 그 장치를 제공하는데 있다.
도 1은 본 발명에 따른 연속 음성의 유성음부와 무성자음부의 자동 추출 방법 및 장치의 블록도이다.
도 2는 도 1의 비재귀형(FIR)필터부와 스트릭(STREAK)필터부의 상세한 회로도이다.
도 3은 도 1에 있는 피치 위치 추출부의 상세한 흐름도이다.
도 4는 도 1에 있는 구간 탐색/추출부의 상세한 흐름도이다.
상기 과제를 이루기 위하여 본 발명에 의한 연속 음성의 유성음부와 무성자음부의 자동 추출 방법은 주파수 대역을 제한하는 제1필터와 제1필터로부터 출력된 주파수 대역에 있는 포만트(formant)를 추출하는 제2필터를 통한 연속 음성에서 피치 위치 추출 방법에 있어서, 연속 음성이 일정한 주기의 프레임으로 분할된 잔차신호를 정규화치m으로 치환하는 잔차신호 치환 단계; 상기의 잔차신호 치환 단계로부터 피치(pitch)위치를 추정하는 피치 추정 단계; 상기의 추정한 피치위치를 재검증하여 피치위치를 보정하거나 보간하는 보정/보간 단계; 피치 위치를 보정하거나 보간하여 발생된 개별 피치 펄스로부터 유성음과 무성자음의 구간을 구간탐색/추출하는 방법에 있어서, 개별 피치 펄스로부터 피치 플래그가 0이면 무성음부로 판단하고, 피치 플래그가 1이면 유성음부로 구분하는 분리 단계; 상기 분리단계에서 피치 플래그 PF[t-1]이 0이고, PF[t]이 1이면 제로 크로싱률을 적용하는 단계; 제로 크로싱률의 차이가 0보다 작고,제로 크로싱률 Z[t-1]이 0.1이상이면 무성음을 구체화하기 위한 무성음 제로 크로싱률 계산단계; 상기의 무성음 제로 크로싱률 계산단계에서 무성음 제로 크로싱률 ZH(t)의 크기에 의해 무성음을 추출하는 단계; 상기의 유성음부와 무성자음부를 추출하여 프레임을 재구성하는 프레임 재구성 단계를 포함함을 특징으로 한다.
이때 상기의 제1필터는 주파수 대역을 제한하는 비재귀필터(FIR: Finite Impulse Filter)이고, 제2필터는 스펙트럴 엔빌롭 (Spectral Envelope)특성의 스트릭(STREAK: Simplified Technique for Recursive Estimate Autocorrelation K parameter)필터임을 특징으로 한다.
상기의 본 발명에 따른 연속 음성의 유성음부와 무성자음부의 자동 추출 장치는 입력되는 아날로그 음성을 디지탈 신호로 변환하는 아날로그/디지탈 변환부; 상기 아날로그/디지탈 변환부로부터 디지탈 출력을 입력하여 필터의 차수와 차단주파수의 주파수 대역을 제한하는 비재귀형(FIR)필터부; 상기의 FIR필터부로부터 출력된 주파수대역에 있는 음성의 모음을 특징짓는 주파수 범위인 포어먼트(formant)를 추출하는 스트릭(STREAK)필터부; 상기의 FIR필터부와 STREAK필터부로부터 출력된 출력 연속 음성을 일정주기의 프레임으로 분할 하는 잔차신호를 정규화하고 연속 음성에서 주기성 잔차신호의 누락을 보정 또는 보간 처리하여 피치 위치의 결손을 방지하는 피치 위치 추출부; 상기 피치 위치 추출부로부터 개별 피치를 입력하여 개별 피치 펄스의 존재 여부에 따라 유성음부와 무음부로 판정하고, 추출한 무성자음부만 음성신호에 대한 음성 주파수 성분 비율을 나타내는 제로 크로싱률(ZERO CROSSING RATE)을 적용하여 프레임을 재구성하는 구간탐색/추출부를 포함하는 것을 특징으로 한다.
본 발명은 연속 음성에서 무성음부의 길이가 약 20mS 전후이고 무성음부의 끝위치는 유성음부의 시작위치이기 때문에 유성음부의 시작위치를 알아냄으로써 무성음부의 끝위치를 알아낼 수 가 있다. 그리고, 유성음부의 시작위치를 알수가 없기 때문에 비재귀형 필터(FIR필터: Finite Impulse Response Filter), 격자형 스트릭 필터(STREAK FILTER), 후처리를 통해 피치 위치를 구하였다. 또한, 음성신호에 대한 음성 주파수 성분을 대표하는 제로 크로싱률(Zero Crossing Rate)파라메터도 사용하였다.
도 1은 본 발명에 따른 연속 음성의 유성음부와 무성자음부의 자동 추출 방법 및 장치의 블록도이다. 도 1에 있어서, 참조부호 100은 아날로그/디지탈 변환부이고, 102는 FIR필터부이고, 104는 STREAK필터부이고, 106은 피치위치 추출부이며, 108은 구간 탐색/추출부이다. 도 1은 본 발명의 목적을 달성하기 위한 전체 구성도로 입력되는 아날로그 음성을 디지탈 신호로 변환하는 10KHz의 12비트 구조의 아날로그/디지탈 변환부(100)와 상기 아날로그/디지탈 변환부(100)로부터 디지탈 출력을 입력하여 필터의 차수와 차단주파수의 주파수 대역을 제한하는 FIR필터부(102)와 상기의 FIR필터부(102)로부터 출력된 주파수대역에 있는 포어먼트(formant)를 추출하는 STREAK필터부(104)와 상기의 FIR필터부(102)와 STREAK필터부(104)로부터 출력된 출력 연속 음성을 일정주기의 프레임으로 분할 하는 잔차신호를 정규화하고 연속 음성에서 주기성 잔차신호의 누락을 보정 또는 보간 처리하여 피치 위치의 결손을 방지하는 피치 위치 추출부(106)와 상기 피치 위치 추출부(106)로부터 개별 피치를 입력하여 개별 피치 펄스의 존재 여부에 따라 유성음부와 무음부로 판정하고, 추출한 무성자음부만 음성신호에 대한 음성 주파수 성분비율을 나타내는 제로 크로싱률(ZERO CROSSING RATE)을 적용하여 프레임을 재구성하는 구간탐색/추출부(108)로 구성한다.
도 2는 도 1의 FIR필터부와 STREAK필터부의 회로도이다. 도 2에 있어서, 참조부호 200은 FIR의 제1지연소자이고, 201은 FIR의 제2지연소자이고, 202는 FIR의 제3지연소자이고, 203은 FIR의 제M지연소자이고, 204는 FIR의 제1계수곱셈기이고, 205는 FIR의 제2계수곱셈기이고, 206은 FIR의 제3계수곱셈기이고, 207은 FIR의 제4계수곱셈기이고, 208은 FIR의 제M계수곱셈기이고, 209는 FIR의 제1가산기이고, 210은 FIR의 제2가산기이고, 211은 FIR의 제3가산기이고, 212는 FIR의 제4가산기이고, 213은 STREAK의 제1지연소자이고, 214는 STREAK의 제2지연소자이고, 215는 STREAK의 제3지연소자이고, 216은 STREAK의 제1계수곱셈기이고, 217은 STREAK의 제2계수곱셈기이고, 218은 STREAK의 제3계수곱셈기이고, 219는 STREAK의 제4계수곱셈기이고, 220은 STREAK의 제5계수곱셈기이고, 221은 STREAK의 제6계수곱셈기이며, 222는 STREAK의 제1가산기이고, 223은 STREAK의 제2가산기이고, 224는 STREAK의 제3가산기이고, 225는 STREAK의 제4가산기이고, 226은 STREAK의 제5가산기이고, 227은 STREAK의 제6가산기이다. FIR필터부는 FIR의 지연소자들(200,201,202,203)과 FIR의 계수곱셈기들(204,205,206,207,208)과 FIR의 가산기들(209,210,211,212)로 구성이 되는데 상세하게는 음성신호를 각각 입력받는 FIR의 제1지연소자(200)와 FIR의 제1계수 곱셈기(204).
그리고 상기의 FIR의 제1지연소자(200)의 출력을 입력받는 FIR의 제2지연소자(201)와 상기의 FIR의 제2지연소자(201)의 출력을 입력받는 FIR의 제3지연소자(202)와 상기의 FIR의 제3지연소자(202)의 출력을 입력받는 FIR의 제M지연소자(203)와 상기의 FIR의 제1지연소자(200)의 출력을 입력하는 FIR의 제2 계수 곱셈기(205)와 상기의 FIR의 제2지연소자(201)의 출력을 입력하는 FIR의 제3 계수 곱셈기(206)와 상기의 FIR의 제3지연소자(202)의 출력을 입력하는 FIR의 제4지연소자(204)와 상기의 FIR의 제M지연소자(203)의 출력을 입력하는 FIR의 제M 계수 곱셈기(208)와 상기의 FIR의 제1계수 곱셈기(204)와 FIR의 제2계수 곱셈기(205)의 출력신호를 입력받는 FIR의 제1가산기(209)와 상기의 FIR의 제1가산기(209)의 출력과 FIR의 제3 계수 곱셈기(206)의 출력을 입력하는 FIR의 제2가산기(210)와 상기의 FIR의 제2가산기(210)의 출력과 FIR의 제4 계수 곱셈기(207)의 출력을 입력하는 FIR의 제3가산기(211)와 상기의 FIR의 제3가산기(211)의 출력과 FIR의 제M 계수 곱셈기(208)의 출력을 입력하는 FIR의 제4가산기(212)로 구성된다. STREAK필터부는 STREAK의 지연소자들(213,214,215)와 STREAK의 계수곱셈기들(216,217,218,219,220,221)와 STREAK의 가산기들(222,223,224,225,226,227)로 구성이 되는데 상세하게는 상기의 FIR의 제4가산기(212)로부터 출력된 신호를 각각 입력하는 STREAK의 제1지연소자(213)와 STREAK의 제1가산기(222)와 STREAK의 제1 계수 곱셈기(216).
그리고 상기의 STREAK의 제1지연소자(213)의 출력을 입력하는 STREAK의 제2 계수 곱셈기(217)와 상기의 STREAK의 제1지연소자(213)와 STREAK의 제1 계수 곱셈기(216)의 출력 신호를 각각 입력하는 STREAK의 제4가산기(225)와 상기의 STREAK의 제4가산기(225)의 출력을 입력하는 STREAK의 제2지연소자(214)와 STREAK의 제1가산기(222)의 출력을 입력하는 STREAK의 제3 계수 곱셈기(218)와 STREAK의 제2지연소자(214)의 출력을 입력하는 STREAK의 제4 계수 곱셈기(219)와 상기의 STREAK의 제1가산기(222)와 STREAK의 제4 계수 곱셈기(219)의 출력을 각각 입력하는 STREAK의 제2가산기(223)와 STREAK의 제2지연소자(214)의 출력과 STREAK의 제3 계수 곱셈기(218)의 출력을 각각 입력하는 STREAK의 제2가산기(226)와 상기의 STREAK의 제2가산기(226)의 출력을 입력하는 STREAK의 제3지연소자(215)와 상기의 STREAK의 제3지연소자(215)의 출력을 각각 입력하는 STREAK의 제6지연소자(227)와 STREAK의 제6 계수 곱셈기(221)와 STREAK의 제2가산기(223)의 출력을 입력하는 STREAK의 제5 계수 곱셈기(220)와 STREAK의 제2지연소자(223)의 출력과 STREAK의 제6 계수 곱셈기(221)의 출력을 입력하는 STREAK의 제3가산기(224)와 STREAK의 제3지연소자(215)의 출력과 STREAK의 제5 계수 곱셈기(220)의 출력을 각각 입력하는STREAK의 제6가산기(227)로 구성된다.
도 1의 아날로그/디지탈 변환부(100)에 의하여 디지탈 신호로 변환된 신호는 필터의 차수와 차단주파수가 각각 80차, 800Hz인 FIR필터에 의하여 주파수 대역을 제한한다. 상기의 FIR필터는 5KHz인 입력음성의 주파수대역으로부터 피치가 존재하는 주파수대역인 1KHz이하의 주파수로 대역을 제한하기 위함이다. 또한, 필터의 차단 주파수 및 차수는 본 발명의 목적을 달성하기 위하여 설정한 값이나, 입력된 음성의 주파수 특성상 차단주파수 및 차수를 약간 변경하여도 상관이 없고, 격자형 STREAK필터의 차수는 10차로 하였다. 왜냐하면 일반적으로 5KHz의 주파수 대역에 3-4개의 포만트(formant)가 존재하며, 이를 추출하기 위하여 격자형 필터에서는 8-10차의 필터 차수를 사용하고 있기 때문이다.
도 3은 피치 위치 추출의 흐름도이다. FIR 및 STREAK필터부(300단계)로부터 출력된 연속 음성을 일정주기의 프레임으로 분할 하는 잔차신호(E(n))는 n에 자연수를 대입한다(310단계) 그리고 다음과 같은 광대역 에너지의 최대치인 정규화치(m)을 얻는다.
m = E(n)/A ( 여기서, A:정규화 기준치이고, E(n):잔차신호이고, n:1,2,3,4,...,N )(320단계)
상기 320단계에 있어서, A의 초기치는 음성신호의 전체적인 진폭 레벨에 따라 바꿀수가 있으며, 본 발명에서는 20을 설정하였다. 또한, 주기성 잔차신호에서의 광대역 에너지의 최대치인 정규화치 m은 0.5 이상의 값을 얻을수가 있다 . 정규화치 m과 피치주파수가 80Hz-400Hz에 존재하고있기 때문에 연속 음성을 일정주기의 프레임으로 분할 하는 잔차신호의 간격(L)을 2.7mS-12.5mS로 제한하였다. 따라서, 광대역 에너지의 최대치인 정규화치 m0.5이고, 잔차신호의 간격이 2.7mS≤L≤12.5mS인 잔차신호가 피치의 후보로서 등록되어 정규화치 m0.5이고, 잔차신호의 간격이 2.7mS≤L≤12.5mS인 잔차신호인가를 판단한다.(330단계). 판단한 결과 범위외에 있으면 정규화치 m(320단계)으로 되돌아 가며, 판단한 결과 범위내에 있으면 잔차신호(E(n))가 정규화 기준치(A)보다 큰가를 판단한다.(340단계) 잔차신호(E(n))가 정규화 기준치(A)보다 크면은 정규화 기준치(A)는 잔차신호E(n)가 된다.(350단계) 이 350단계는 360단계로 이행되고, 잔차신호(E(n))가 정규화 기준치(A)보다 작으면 n이 N 이하인지를 판단한다.(360단계) n이 N 이하라고 판단되면 보정 또는 보간 처리된다.(370단계)
n이 N 보다 크다고 판정이 나면 초기의 320단계로 되돌아 간다. 보정 또는 보간 처리결과 개별 피치 펄스가 출력된다.
한편, 연속 음성에서 주기성 잔차신호의 누락이 존재할수 있으며 이를 보정 또는 보간 처리하므로서 피치위치의 결손을 방지할수 있다. 이 방법으로는 이전 프레임의 마지막 피치위치(Pm)와 현재 프레임의 시각 0에서 초기 피치 위치까지의 간격(ξ)으로부터 피치 간격 I는
I = N-Pm+ξ (여기서, N: 프레임 길이)
를 구한다.
그리고, 이전 프레임에 자음이 존재할 경우에는
0.5*x≥ I, I≥1.5*x
x = (Pm-Po)/M (여기서, x는 계산값이고, M은 카운트 수이고, Po는 최초의 개별 피치 펄스의 위치이다.) 를 적용하고, 자음이 존재하지 않을 경우에는
0.5*x≥ I, I≥1.5*x
x = (I+(Pm-P1))/M 를 적용하여 피치 간격이 Po+P1+...+Pm/M보다 50%이하이거나 150%이상 큰 경우에 다음식을 이용하여 피치위치(Pi)를 보정,보간 처리하였다.
Pi = (PI-1 + PI+1)/2
i=1,2,3,...,M
도 4는 유성음과 무성 자음 구간의 탐색/추출 흐름도이다. 도 4에서는 연속음성으로부터 유성음 및 무성자음을 탐색/추출하는 방법을 나타내고 있는데 도 2 및 도 3으로부터 개별 피치펄스의 위치를 추출한다.(400단계) 이때 프레임내에 개별 피치펄스의 존재 여부에 따라 피치 플래그(PF[t])를 1또는 0으로 한다.(410단계) 상기 피치 플래그(PF[t]:402단계)가 0이면 무음부(Silent:S)로 판정한다.(420단계) 또한 상기 피치 플래그(PF[t]:402단계)가 1이면 프레임내 음성신호를 유성음부(Voiced:V)로 판정한다.(430단계) 프레임내 음성신호를 유성음부로 판정하면 피치 플래그(PF[t-1])가 0이고, PF[t]가 1인지를 판단한다.(440단계) 판단한 결과 아니면 종료를 하고, 판단한 결과 피치 플래그(PF[t-1])가 0이고, PF[t]가 1이면 프레임내에 유성음과 무성자음이 같이 공존하는지의 여부를 음성신호에 대한 음성 주파수 성분을 대표하는 제로 크로싱률(Z[t])을 이용하여 판정한다.(450단계) 판정한후에 다음 단계인 제로 크로싱률의 차 (△Z[t])를 이용하여 판정한다.(460단계) 이때 프레임내에 유성음과 무성음이 같이 공존할 경우, 프레임 전체의 Z[t]가 급격히 감소할 것이고, 인접한 유성음을 내포한 프레임에 비교해 △Z[t]≥0을 나타내면 피치 플래그(410단계)로 되돌아 가고, 유성음이 시작되는 위치에서 최초의 개별 피치 펄스가 나타나게 되며, 최초의 개별 피치 펄스 위치 (P0)가 유성음이 시작되는 위치이며, 이 위치는 무성자음부 또는 무성음부의 끝을 나타내는 위치이다. 한편 인접한 유성음을 내포한 프레임에 비교해 △Z[t]〈0을 나타내면 (470단계) 다음 단계로 넘어간다. 다음 단계에서는 제로 크로싱 Z[t-1]이 0.1이상인지를 판단한다.(480단계) 판단 결과 제로 크로싱 Z[t-1]이 0.1보다 작다면 처음의 피치 플래그(410단계)로 되돌아 간다. 판단 결과 제로 크로싱 Z[t-1]이 0.1보다 크다면 Z[t]의 절반에 해당하는 제로 크로싱률(ZH[t])을 계산하여 무성음을 구체화한다.(490단계) 계산 결과 Z[t]의 절반에 해당하는 제로 크로싱률 ZH[t])이 0.128보다 큰지 작은지를 판단한다.(500단계) 계산 결과 Z[t]의 절반에 해당하는 제로 크로싱률(ZH[t])이 0.128보다 작다면 처음의 피치 플래그(410단계)로 되돌아 간다. 또한 계산 결과 음성신호에 대한 제로 크로싱률(ZH[t])이 0.128보다 크다면 무성 자음부를 추출하는 단계로 진행한다.(510) 연속 음성에 포함된 무성자음부의 길이가 25mS인 것을 감안하여 무성자음부의 시작되는 위치를 P0위치에서 25.6mS 이전의 위치로 추정할수 있다. 그러나, 음절의 어미부의 음성신호는 무성자음부와 같이 주기가 짧기 때문에 유성음부를 무성자음부로 판정을 우려가 있기 때문에 본 발명에서는 추출한 음성자음부의 12.8mS의 음성신호에 대한 제로 크로싱률(ZH[t])를 적용하였다. 무성 자음부를 추출한 다음에 무성자음부는 유성음부와 구분하여 프레임을 재구성하므로서(520단계) 프레임내 음성신호의 유성음과 무성자음을 판별할 수가 있다.
이상 설명한 바와같이 본 발명에 따른 연속 음성의 유성음부와 무성자음부의 자동 추출 방법 및 장치는 연속 음성에서 유성음부와 무성자음부를 자동으로 추출하고, 유성음과 무성자음이 한 프레임내에 같이 존재하지 않게 하기 위해서 프레임을 재구성함으로서 유성음 또는 무성음을 판별할 때 발생하는 오류를 제거하여 음성의 인식률을 높이고, 유성음원 또는 무성음원의 어느 한 편을 사용함으로 인해 발생하는 음질 저하를 제거하는 효과를 제공한다.

Claims (5)

  1. 주파수 대역을 제한하는 제1필터와 제1필터로부터 출력된 주파수 대역에 있는 포만트(formant)를 추출하는 제2필터를 통한 연속 음성의 피치 위치 추출 방법에 있어서.
    연속 음성이 일정한 주기의 프레임으로 분할된 잔차신호를 정규화치m으로 치환하는 잔차신호 치환 단계;
    상기의 잔차신호 치환 단계로부터 피치(pitch)위치를 삽입하는 피치 삽입 단계;
    상기의 삽입한 피치위치를 재검증하여 피치위치를 보정하거나 보간하는 보정/보간 단계를 포함하는 연속 음성의 유성음부와 무성자음부의 자동 추출 방법.
  2. 제 1항에 있어서, 상기의 잔차신호 치환 단계에서 출력 잔차신호 E(n)은 E(n)/A ( A는 정규화 기준치)를 광대역 에너지의 최대치인 정규화치m으로 치환하여 구해짐을 특징으로 하는 연속 음성의 유성음부와 무성자음부의 자동 추출 방법.
  3. 피치 위치를 보정하거나 보간하여 발생된 개별 피치 펄스로부터 유성음과 무성자음의 구간을 구간탐색/추출하는 방법에 있어서,
    개별 피치 펄스로부터 피치 플래그가 0이면 무성음부로 판단하고, 피치 플래그가 1이면 유성음부로 구분하는 분리 단계;
    상기 분리단계에서 피치 플래그 PF[t-1]이 0이고, PF[t]이 1이면 제로 크로싱률을 적용하는 단계;
    제로 크로싱률의 차이가 0보다 작고,제로 크로싱률 Z[t-1]이 0.1이상이면 무성음을 구체화하기 위한 무성음 제로 크로싱률 계산단계;
    상기의 무성음 제로 크로싱률 계산단계에서 무성음 제로 크로싱률 ZH(t)의 크기에 의해 무성음을 추출하는 단계;
    상기의 유성음부와 무성자음부를 추출하여 프레임을 재구성하는 프레임 재구성 단계를 포함함을 특징으로 하는 연속 음성의 유성음부와 무성자음부의 자동 추출 방법
  4. 제 3항에 있어서, 상기의 무성음을 추출하는 단계는 음성신호에 대한 음성 주파수 성분의 비율을 나타내는 제로 크로싱률(ZH[t])이 0.128보다 크면 무성 자음부를 추출하는 연속 음성의 유성음부와 무성자음부의 자동 추출 방법.
  5. 연속 음성의 유성음부와 무성자음부의 자동 추출 장치에 있어서,
    입력되는 아날로그 음성을 디지탈 신호로 변환하는 아날로그/디지탈 변환부;
    상기 아날로그/디지탈 변환부로부터 디지탈 출력을 입력하여 필터의 차수와 차단주파수의 주파수 대역을 제한하는 비재귀형(FIR)필터부;
    상기의 FIR필터부로부터 출력된 주파수대역에 있는 포어먼트(formant)를 추출하는 스트릭(STREAK)필터부;
    상기의 FIR필터부와 STREAK필터부로부터 출력된 출력 잔차신호를 정규화하고 연속 음성에서 주기성 잔차신호의 누락을 보정 또는 보간 처리하여 피치 위치의 결손을 방지하는 피치 위치 추출부; 및
    상기 피치 위치 추출부로부터 개별 피치를 입력하여 개별 피치 펄스의 존재 여부에 따라 유성음부와 무성음부로 판정하고, 추출한 무성자음부만 제로 크로싱률(ZERO CROSSING RATE)을 적용하여 프레임을 재구성하는 구간탐색/추출부를 포함하는 것을 특징으로 하는 연속 음성의 유성음부와 무성자음부의 자동 추출 장치.
KR1019960049328A 1996-10-28 1996-10-28 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치 KR0176623B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960049328A KR0176623B1 (ko) 1996-10-28 1996-10-28 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960049328A KR0176623B1 (ko) 1996-10-28 1996-10-28 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치

Publications (2)

Publication Number Publication Date
KR19980029993A KR19980029993A (ko) 1998-07-25
KR0176623B1 true KR0176623B1 (ko) 1999-04-01

Family

ID=19479373

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960049328A KR0176623B1 (ko) 1996-10-28 1996-10-28 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치

Country Status (1)

Country Link
KR (1) KR0176623B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689837B (zh) * 2021-08-24 2023-08-29 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법

Also Published As

Publication number Publication date
KR19980029993A (ko) 1998-07-25

Similar Documents

Publication Publication Date Title
JP4202090B2 (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP2638499B2 (ja) 音声のピッチを決定する方法と音声伝達システム
US6453287B1 (en) Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US7925502B2 (en) Pitch model for noise estimation
US8190432B2 (en) Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
EP0764937A2 (en) Method for speech detection in a high-noise environment
EP0380572A1 (en) SPEECH SYNTHESIS FROM SEGMENTS OF DIGITAL COARTICULATED VOICE SIGNALS.
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
Fuchs et al. The effects of mp3 compression on acoustic measurements of fundamental frequency and pitch range
JPH06161494A (ja) 音声のピッチ区間自動抽出方法
KR100217372B1 (ko) 음성처리장치의 피치 추출방법
KR0176623B1 (ko) 연속 음성의 유성음부와 무성자음부의 자동 추출방법 및 장치
Islam Interpolation of linear prediction coefficients for speech coding
JP3354252B2 (ja) 音声認識装置
Ding et al. Determining polarity of speech signals based on gradient of spurious glottal waveforms
US10354671B1 (en) System and method for the analysis and synthesis of periodic and non-periodic components of speech signals
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
Dasgupta et al. Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope.
Kasi Yet another algorithm for pitch tracking:(yaapt)
Vogten et al. The Formator: a speech analysis-synthesis system based on formant extraction from linear prediction coefficients
Hirst Phonetic and phonological annotation of speech prosody
Faycal et al. Pitch modification of speech signal using source filter model by linear prediction for prosodic transformations
KR100322704B1 (ko) 음성신호의지속시간변경방법
KR100211965B1 (ko) 유성음 구간에서 피치동기식 포먼트 추정방법
JP3271966B2 (ja) 符号化装置及び符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20071030

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee