KR19990049148A - 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법 - Google Patents

피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법 Download PDF

Info

Publication number
KR19990049148A
KR19990049148A KR1019970068012A KR19970068012A KR19990049148A KR 19990049148 A KR19990049148 A KR 19990049148A KR 1019970068012 A KR1019970068012 A KR 1019970068012A KR 19970068012 A KR19970068012 A KR 19970068012A KR 19990049148 A KR19990049148 A KR 19990049148A
Authority
KR
South Korea
Prior art keywords
waveform
ratio
speech waveform
similarity
sound
Prior art date
Application number
KR1019970068012A
Other languages
English (en)
Other versions
KR100291584B1 (ko
Inventor
배명진
이상효
윤창용
김영삼
Original Assignee
이봉훈
서울이동통신 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이봉훈, 서울이동통신 주식회사 filed Critical 이봉훈
Priority to KR1019970068012A priority Critical patent/KR100291584B1/ko
Priority to US09/169,164 priority patent/US6101463A/en
Publication of KR19990049148A publication Critical patent/KR19990049148A/ko
Application granted granted Critical
Publication of KR100291584B1 publication Critical patent/KR100291584B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Abstract

본 발명은 음성파형의 압축방법에 관한 것으로서, 음성파형을 일정한 크기의 프레임으로 나누는 과정과, 상기 일정한 크기로 나누어진 음성파형이 유성음인지를 판단하는 과정과, 유성음이라면 프레임내의 처음 구간의 F1/F0비를 구하고, 계속되는 파형의 다음 구간의 F1/F0비를 구하여 상기 양 F1/F0비의 차가 소정의 값 이하이면 해당구간의 신호를 처음 구간의 신호가 동일할 것으로 보아 압축을 하고, 소정의 값 이상이면 압축하지 않는 과정으로 이루어진다.

Description

피치 구간별 F0/F1률의 유사성에 의한 음성파형 압축방법
본 발명은, 음성파형의 압축방법에 관한 것으로서, 특히 피치 구간별의 F0/F1률의 유사성에 의한 음성파형의 압축방법에 관한 것이다.
음성파형의 전달에 대한 음성 부호화법의 주된 관점은 음성 정보의 전달에 대한 데이터의 전송과 압축률, 음성파형의 전달에 대한 데이터의 전송과 압축률, 합성음의 음질, 처리속도를 고려하여 처리하는 것이다. 그 중에서도 선형예측 모델링에 근거한 음성압축방법이 연구의 대부분을 차지하고 있다.
이 방법에서는, 입력된 음성은 저역여파기를 통과한 후 아날로그/디지털(A/D : Analog to Digital)로 변환되어, LPC(Linear Predictive Coding)분석을 수행하고 유성음인 경우, 피치를 추출하게 된다. 이 선형예측 모델링에 의한 음성부호화기의 구조는 도1과 같다. 추출된 LP계수, 피치, 에너지 등은 부호화기에 의해 부호화된 후, 통신 채널을 통해 전송되거나 합성을 위해 메모리에 저장된다. 음성의 합성은 전송 또는 저장된 파라미터를 보고화하여 합성필터를 통해 합성된다.
피치의 검출방법은 예측 오류 파형의 상관관계법, 음성파형의 저주파분석의 상관관계법, AMDF(Average Magnitude Difference Function)법, 캡스트럼법 등이 있다. 그러나 이 LPC분석의 전달함수는 전극형 모델을 사용하기 때문에 비음과 같이 영점성분이 있는 경우에 대해서는 부적당하다. 또한 음원이 펄스열 또는 백색 랜덤 가우시안 시퀀스로만 이원화되어 있기 때문에 다양한 음성의 변화를 만족하지 못하며, 유성음 또는 무성음의 구별과 함께 정확한 피치의 검출을 해야하는 어려움이 있다.
도1은, LPC(Linear Predictive Coding) 보코더 시스템의 구조를 나타내는 도면,
도2는, 유성음의 파형을 나타내는 그래프,
도3은, 유성음의 양자화 오차의 파형을 나타내는 그래프,
도4는, F0/F1률을 이용한 음성파형 압축의 예를 나타내는 그래프,
도5는 본 발명의 압축방법의 흐름을 나타내는 도면이다.
따라서 본 발명은, 선형예측모델을 사용하지 않고 F0/F1(Fundamental Frequency/First Formant Frequency)률 파라미터를 이용하여 음성파형의 반복성을 제거하는 피치동기 파형 부호화법을 새로이 발명하였다. 여기서 Fundamental Frequency라 함은 기본 주파수라고 하며, 화자의 개성정보, 감정을 가지고 있는 주파수이고, First Formant Frequency는 성문에서 입술끝까지 말하는 성도의 공명 주파수를 가르킨다.
이하 본 발명의 구성 및 작용 등을 상세하게 설명한다.
음성신호는 음원에 따라 유성음, 무성음, 파열음으로 구분할 수 있다. 무성음의 경우에는 불규칙 잡음생성기가 그 여기원이므로 주기성은 나타나지 않지만, 주로 3㎑ 근방에서 공진 봉우리를 갖기 때문에 유성음에 비해 평균 영교차율이 크다. 유성음은 폐에서 올라온 공기가 성문을 통하여 배출될 때 생성되므로 공진을 수반한다. 그리고 성도에서의 공명으로 인하여 도2(a)처럼 에너지가 크고 준-주기적인 형태의 신호가 된다. 이를 주파수 영역에서 살펴보면 도2(b)와 같이 성도의 공명 봉우리에 음성신호의 기본주파수 F0가 세세하게 나타내고 있다. 성도 공명 봉우리에 해당되는 주파수들을 포만트라고 하고 가장 낮은 주파수를 갖는 봉우리를 제1포만트 F1이라 한다.
유성음에서는 F1이 다른 포만트들보다 에너지가 약 10㏈이상 높다. 때문에 이를 시간영역으로 표현하면 F1의 영향이 주로 나타나며 한 피치구간에서 ZCI(Zero Crossing Interval)의 역수는 2F1의 주파수와 거의 같게 된다. 그리고 포만트들은 대역폭을 갖게 되므로 시간영역에서의 한 피치구간에서는 감쇄진동을 하게 된다.
성문특성 g(n) 즉 허파로부터 방출되는 준주기적인 펄스는 유한 길이이므로 전극 모델이 바람직하게 되며, G(z) = z[g(n)]에 대해 이극형모델로 보통 모델링하고 있다. 그리고 방사의 효과는 R(z) = R0(1-z-1)로 나타낼 수 있으며, 이는 고역 필터로 동작하여 성도의 주된 공명효과를 강조시키게 된다. 결국, 유성음 sv(n)은 성도와 성문특성이 시간영역에서 컨벌루션된 것으로 나타난다.
sv(n) ≒ h(n)*g(n) (1)
주파수 영역에서의 음성신호의 기본주파수는 40~400㎐범위에 존재하고, 제1포만트의 주파수는 200~800㎐ 사이에서 존재하는 것으로 알려져 있기 때문에 유성신호의 F1/F0의 비율은 1~20사이에서 거의 정수값이 된다. 시간 영역에서의 유성음은 기본주파수의 한 주기 표본수은 20에서 200의 샘플사이에서 값이 존재하고, 제1포만트 주파수의 한 주기 표본수은 10에서 32샘플사이에 값이 존재하는 구간으로 한정할 수 있다.
M비트로 선형 양자화된 음성신호 s(n)은 다음과 같이 나타낼 수 있다.
여기서 QL은 음성신호를 (M-N)비트로 부호화할 때 발생하는 양자화 오차이다.
유성음 파형의 경우에 낮은 쪽 포만트는 높은 쪽의 포만트에 비해 에너지가 아주 높다. 따라서 도3(b)와 같이 에너지가 우세한 기본주파수와 제1, 2포만트 성분들은 QL의 최대진폭을 유지하게 된다. 한편 에너지가 낮은 고차의 포만트들은 QL의 진폭범위내에서 파형의 빠른 변화를 이루게 된다. 양자화 오차 QL의 또 다른 특징은 진폭변화의 범위가 2N-1이내로 제한되어 정규화된 진폭특성을 얻게된다는 점이다. 이것은 시간영역에서 파형진폭의 변동에 따른 피치주기 검색에 미치는 영향을 감소시킬 수 있다. 양자화 오차 QL을 사용하여 저역특성이 강한 제1, 2 포만트 위주의 정규화 파형을 추출하여 도3(c)에 나타내었다.
도4는 F0/F1률을 이용한 원래의 음성파형과 압축된 파형과 복원된 음성파형을 나타낸다.
도5는 본 발명에서 제안한 처리블럭도이다.
블럭도에서, 부호화단에서 음력음성을 프레임단위 예를 들어 30㎳ 단위로 나눈 다음에 그 프레임에 대해서 유성음과 무성음 구간으로 나눈다. 그리고 유성음에 대해서만 음성파형분석 프레임에서 처음 나타나는 피치 구간을 대표 피치구간으로 설정한 다음 각각의 피치구간에 대해 F0/F1률을 측정한다. 그런 다음 상관값을 계산한다. 이 과정은 유성음 프레임내에 각 피치구간별 F0/F1율을 비교하여 압축여부를 결정하기 위한 것이다.
Rr-Rt= D (3)
Rr: 대표피치의 F0/F1율, Rt: 대상피치의 F0/F1
(3)식에서 D가 0이면 압축하게 된다. 즉 대표피치의 F0/F1률과 같은 율이 나오는 피치 구간에 대해서는 그 피치구간을 삭제하는 방법으로 데이터량을 압축하게 된다. 또한 D가 0이 아니라 일정한 값 이하가 되면 압축하는 방법을 사용하도 된다. 압축이 가능한 이 D의 값을 얼마로 결정하는 것은 응용되는 시스템에 따라 적당하게 조정할 수 있다.
무성음구간인 경우에는 데이터를 압축하지 않고 그 프레임 그대로 저장한다.
데이터 압축(Data Compression) 과정에서는 대표피치와 압축되는 대상 피치간의 구간차와 진폭차를 구하여 각각 2비트씩 PCM 양자화정보와 삭제된 대상피치구간의 위치와 개수를 헤더에 저장하여 전송 혹은 저장한다.
복호화과정에서는 먼저 프레임의 헤더를 검사하여 유성음인지 무성음인지를 확인하고, 무성음인 경우에는 그대로 복원하고, 유성음인 경우에는 그 프레임의 대표피치의 길이를 가지고 생략된 구간을 복원시킨다. 도5는 본 발명에서 제안한 처리블럭도이다.
상기와 같이 기존의 음성압축방식에 주류를 이루는 선형예측 모델링이 갖는 문제점을 극복하기 위하여 음성파형이 갖는 유사성을 F0/F1률 파라미터로 측정하여 음성파형의 반복성을 제거하는 본 발명에 의한 음성을 압축/복원하였을 때의 MOS(Mean Opinion Score : 주관적 음질평가 수단) 수치가 표 1에 나타나있다.
이 MOS수치가 4.0 이상일 때, 평균 64.14%의 압축률을 얻을 수 있다. 또한 주관적인 음질의 열화를 느끼지 못한다.
따라서, 음질의 열화없이 계산시간을 대폭 줄일 수 있게 되었으므로 이동통신분야 및 그외의 음성압축을 이용한 응용분야에서 배터리 수명 연장 및 실시간 처리의 구현에 이용이 가능하게 된다.
[표 1]

Claims (2)

  1. 음성파형를 일정한 크기의 프레임으로 나누는 과정과, 상기 일정한 크기로 나누어진 음성파형이 유성음인지를 판단하는 과정과, 유성음이라면 프레임내의 처음 구간의 F1/F0비를 구하고, 계속되는 파형의 다음 구간의 F1/F0비의 차가 소정의 값 이하이면 해당구간의 신호를 처음 구건의 신호가 동일할 것으로 보아 압축을 하고, 소정의 값 이상이면 압축하지 않는 과정으로 이루어진 피치 구간별 F0/F1률의 유사성에 의한 음성파형 압축방법.
  2. 제1항에 있어서, 소정의 값은 0인 것을 특징으로 하는 피치 구간별 F0/F1률의 유사성에 의한 음성파형 압축방법.
KR1019970068012A 1997-12-12 1997-12-12 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법 KR100291584B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019970068012A KR100291584B1 (ko) 1997-12-12 1997-12-12 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법
US09/169,164 US6101463A (en) 1997-12-12 1998-10-08 Method for compressing a speech signal by using similarity of the F1 /F0 ratios in pitch intervals within a frame

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970068012A KR100291584B1 (ko) 1997-12-12 1997-12-12 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법

Publications (2)

Publication Number Publication Date
KR19990049148A true KR19990049148A (ko) 1999-07-05
KR100291584B1 KR100291584B1 (ko) 2001-06-01

Family

ID=19527102

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970068012A KR100291584B1 (ko) 1997-12-12 1997-12-12 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법

Country Status (2)

Country Link
US (1) US6101463A (ko)
KR (1) KR100291584B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6535843B1 (en) * 1999-08-18 2003-03-18 At&T Corp. Automatic detection of non-stationarity in speech signals
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
US6907367B2 (en) * 2001-08-31 2005-06-14 The United States Of America As Represented By The Secretary Of The Navy Time-series segmentation
TW589618B (en) * 2001-12-14 2004-06-01 Ind Tech Res Inst Method for determining the pitch mark of speech
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US32124A (en) * 1861-04-23 Burner for purifying gas
USRE32124E (en) 1980-04-08 1986-04-22 At&T Bell Laboratories Predictive signal coding with partitioned quantization
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
US5020058A (en) * 1989-01-23 1991-05-28 Stratacom, Inc. Packet voice/data communication system having protocol independent repetitive packet suppression

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치

Also Published As

Publication number Publication date
KR100291584B1 (ko) 2001-06-01
US6101463A (en) 2000-08-08

Similar Documents

Publication Publication Date Title
KR100647336B1 (ko) 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
Sugamura et al. Speech analysis and synthesis methods developed at ECL in NTT—From LPC to LSP—
KR100427753B1 (ko) 음성신호재생방법및장치,음성복호화방법및장치,음성합성방법및장치와휴대용무선단말장치
JP3277398B2 (ja) 有声音判別方法
KR101116363B1 (ko) 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
CN101506877B (zh) 对宽带声码器的帧进行时间弯曲
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
KR100298300B1 (ko) 포만트유사도측정에의한피솔라를이용한음성파형부호화방식
CA2455059A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
US6985857B2 (en) Method and apparatus for speech coding using training and quantizing
McAulay et al. Multirate sinusoidal transform coding at rates from 2.4 kbps to 8 kbps
KR100291584B1 (ko) 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
KR101377667B1 (ko) 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
KR20050007853A (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
KR100399057B1 (ko) 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法
KR19990068413A (ko) 에프1/에프0율의유사성에의한음성파형압축방법.
Wang Low bit-rate vector excitation coding of phonetically classified speech
Ramadan Compressive sampling of speech signals
JPH07104793A (ja) 音声信号の符号化装置及び復号化装置
Alku Low bit rate speech coding with glottal linear prediction
Yuan The weighted sum of the line spectrum pair for noisy speech
KR100263252B1 (ko) 양자화 오차 추림에 의한 피치검색방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee