KR20020022257A - 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 - Google Patents

캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 Download PDF

Info

Publication number
KR20020022257A
KR20020022257A KR1020000054960A KR20000054960A KR20020022257A KR 20020022257 A KR20020022257 A KR 20020022257A KR 1020000054960 A KR1020000054960 A KR 1020000054960A KR 20000054960 A KR20000054960 A KR 20000054960A KR 20020022257 A KR20020022257 A KR 20020022257A
Authority
KR
South Korea
Prior art keywords
noise
spectral
harmonic
lpc
extracted
Prior art date
Application number
KR1020000054960A
Other languages
English (en)
Other versions
KR100348899B1 (ko
Inventor
김형중
이인성
김종학
박만호
윤병식
최송인
김대식
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1020000054960A priority Critical patent/KR100348899B1/ko
Priority to US09/751,302 priority patent/US6741960B2/en
Publication of KR20020022257A publication Critical patent/KR20020022257A/ko
Application granted granted Critical
Publication of KR100348899B1 publication Critical patent/KR100348899B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 하모닉 모델을 사용하는 유/무성음 혼합신호의 하모닉 노이즈 음성 부호화기 및 부호화 방법에 관한 것으로서, 입력되는 LPC 잔여신호를 캡스트럼을 이용하여 무성음 성분인 노이즈를 분리한 후 LPC 분석법으로 스펙트럴을 예측하여 상기 노이즈를 부호화 하는 노이즈-스펙트럴 추정 수단을 포함하는 것을 특징으로 하며, 유/무성음 혼합 신호를 기존의 하모닉 모델에 캡스트럼-LPC 분석법을 통해 예측된 노이즈 스펙트럴 모델을 사용하여 효과적으로 노이즈 분석을 하여 부호화 함으로써, 보다 개선된 음질을 구현할 수 있는 것을 특징으로 한다.

Description

캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및 부호화 방법{The Harmonic-Noise Speech Coding Algorhthm Using Cepstrum Analysis Method}
본 발명은 음성 부호화에 관한 것으로, 특히 저 전송률 음성 부호화 (Low Rate Speech Coding)에서 통상적으로 사용되는 하모닉 부호화 방법에서 잘 표현되지 않는 유/무성음 혼합 신호를 캡스트럼 분석법과 LPC(Linear Prediction Coefficient) 분석법을 사용하여, 보다 개선된 음질의 부호화가 가능한 하모닉 노이즈 음성 부호화 알고리즘을 사용한 음성 부호화기 및 부호화 방법에 관한 것이다.
저 전송률 음성 부호화기에서는, 일반적으로 하모닉 모델은 정현파 (Sinusoidal) 분석 및 합성을 바탕으로 하기 때문에 비 정체적인 특성을 갖는 노이즈 성분은 잘 표현하지 못한다. 따라서, 실제 음성의 스펙트럼에서 관찰되는 노이즈 성분을 모델화하기 위한 방법이 요구되었다.
이러한 요구에 따라, 저 전송률에서 주어진 적은 비트에서도 비교적 좋은 음질을 보장하는 것으로 알려진 하모닉 음성 부호화 모델인 MELP(Mixed Excitation Linear Prediction) 알고리즘 또는 MBE(Multi Band Excitaion) 알고리즘에 대한 연구가 진행되고 있는데, 상기 알고리즘의 특징은 음성을 대역별로 나누어 분석하여 관찰할 수 있다는 것이다.
그러나, 상기 알고리즘들은 고정적인 대역폭을 가지고 유/무성음 신호가 다양하게 혼합된 음향을 분석하고 있고, 또한 각 대역별로 유/무성음을 판단하는 2진 판단 구조로 되어 있어서 효과적인 표현을 하는데 있어서는 제한이 있으며, 특히 동시에 유/무성음이 혼합되어 있거나 대역 경계에 혼합 신호가 분포하는 경우에는 스펙트럴 왜곡이 발생하는 단점이 있다.
이러한 단점은 유/무성음 혼합신호에 대한 부호화 방법에서 하모닉 모델의 주파수 피크치만을 이용한 단일 모델링 방법을 사용하고 있기 때문이다. 이러한 상황은 저 전송률 모델의 유/무성음 혼합신호에 대한 표현부족에 따라 발생한 것이라 할 수 있는데, 최근 이러한 단점을 해결하기 위해 유/무성음 혼합신호에 대한 부호화 방법에 관한 연구가 활발히 진행되고 있다.
유/무성음 혼합신호에 대한 부호화는 주파수영역에서의 유성음 스펙트럴 및무성음 스펙트럴 두 부분을 효과적으로 표현하는데 그 목적이 있으며, 최근 분석방법에는 주파수 스펙트럴상에서의 주파수 전이 시점을 정의 하여 유/무성음 대역 두부분으로 나누어 부호화 하는 방법이 있고, 전체 스펙트럴 정보로부터 유성음 확률값을 정의하여 합성시에 유/무성음 혼합정도를 달리하는 방법이 있다.
상기 후자의 예로, Suat Yeldener.T 및 Joseph Gerard Aguilar 등의 미국특허 제5,774,837호인 "Speech Coding System And Method Using Voicing Probability Determination"가 있는데, 이 특허에는 유/무성음의 확률값을 이용하여 유/무성음 혼합신호를 분석하고 합성하기 위해 입력 음성신호의 스펙트럼에서 추출된 피치 및 파라메터로부터 계산된 유성음 확률값의 정도에 따라 유성음의 스펙트럴 및 무성음의 변형된 선형예측 파라미터를 분석하고 이를 이용하여 혼합신호를 합성하는 기술이 기재되어 있다.
그러나, 상기 언급한 종래 방법 및 선행기술은 유/무성음 혼합신호에 대한 스펙트럴을 전 구간이 아닌 두 구간으로 나누어 무성음을 추출하고 있고, 입력 음성신호를 확률값에 기초하여 분석 및 합성하고 있어서, 전 구간에 걸친 실제 스펙트럴값을 통한 효과적인 음성분석 및 합성을 할 수는 없다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 유/무성음 혼합 신호를 고정 대역별로 나누어 분석하지 않고, 노이즈 스펙트럴 성분을 예측하여 보다 개선된 음질을 제공하는 하모닉 노이즈 음성 부호화 알고리즘을 통해 효과적인 부호화가 가능한 음성 부호화기 및 부호화 방법을 제공하는 것을 목적으로 한다.
도 1은 본 발명에 따른 하모닉 노이즈 음성 부호화기 전체 블록다이어그램,
도 2는 도 1에 도시된 하모닉 음성 부호화기의 블록다이어그램, 및
도 3은 도 1에 도시된 캡스트럼-LPC 노이즈 부호화기의 블록다이어그램이다.
*도면의 주요 부호에 대한 간단한 설명
100 : 하모닉 노이즈 부호화기 200 : 하모닉 부호화기
300 : 노이즈 부호화기
상기의 목적을 달성하기 위한 본 발명에 따른 하모닉 모델을 사용하는 유/무성음 혼합신호의 하모닉 노이즈 음성 부호화기는, 입력되는 LPC 잔여신호를 캡스트럼을 이용하여 무성음 성분인 노이즈를 분리한 후 LPC 분석법으로 스펙트럴을 예측하여 상기 노이즈를 부호화 하는 노이즈-스펙트럴 추정 수단을 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 유/무성음 혼합신호의 하모닉 노이즈 음성 부호화 방법은, 상기 혼합신호 중 유성음을 부호화 하는 하모닉 부호화 단계, 및 상기 혼합신호 중 무성음을 추출하여 부호화 하는 노이즈 부호화 단계를 포함하고, 상기 노이즈 부호화 단계는, 상기 혼합신호를 캡스트럼 분석하여 노이즈 스펙트럴 포곡선을 추출하는 캡스트럼 분석 단계 및 상기 추출된 스펙트럼으로부터 노이즈 스펙트럴 정보를 추출하는 LPC 분석 단계로 이루어지는 것을 특징으로 한다.
지금부터 첨부한 도면을 참고하여 단지 예의 방법으로 본 발명의 적절한 실시예를 설명하도록 하겠다.
본 발명은 유/무성음 혼합 신호를 부호화하기 위하여 캡스트럼(cepstrum) 분석법과 LPC 분석법을 결합한 노이즈 스펙트럴 추정기(Noise Spectral Estimator) 및 하모닉 모델과 결합한 하모닉 노이즈 음성 부호화(Harmonic-Noise Speech Coding)에 관한 것임을 앞서 언급한 바 있다.
본 발명에 따른 부호화 방법을 간략히 언급하면, 노이즈 영역은 캡스트럼을 사용하여 분리한 후 LPC 분석법으로 노이즈 스펙트럴을 추정한다. 추정된 노이즈 스펙트럴은 LPC 계수로 파라미터화 된다. 유/무성음 혼합 신호에 대하여 유성음은 하모닉 부호화기을 사용하고 무성음에 대하여 캡스트럼 LPC 노이즈 부호화기를 사용한다. 가우시안 노이즈(Gaussian Noise)를 입력으로 LPC 합성필터(Synthesis Filter)를 거쳐 합성된 무성음 성분인 노이즈와 하모닉 합성기로 합성된 유성음을 합하여 합성된 여기 신호를 얻는다.
먼저 도 1을 참고하면, 본 발명에 따른 하모닉 노이즈 음성 부호화기(100)의 전체 블록다이어그램이 도시되어 있다.
상기 도 1을 통해 알 수 있듯이, 본 발명에 따른 부호화기(100)는 유/무성음 혼합 신호를 각각 부호화 하기 위해 하모닉 부호화기(200)와 노이즈 부호화기(300)를 포함하여 구성되어 있으며, LPC 잔여신호가 상기 하모닉 부호화기(200) 및 노이즈 부호화기(300) 각각의 입력 신호가 된다. 특히, 노이즈 스펙트럴을 추정하기위해 개루프(Open Loop) 피치값을 상기 노이즈 부호화기(300)에 입력으로 하여 캡스트럼과 LPC 분석법을 쓴다. 상기 개루프 피치값은 상기 하모닉 부호화기(200)에도 공통 입력으로 한다.
도 1에 도시된 기타 구성성분들에 대한 설명은 이하 발명의 상세한 설명을 통해 언급하도록 하겠다.
도 2를 참고하면, 상기 도 1에 도시된 유성음 성분을 위한 하모닉 부호화기(200)의 블록다이어그램이 도시되어 있다.
본 발명에 따른 부호화 방법에 사용되는 상기 하모닉 부호화기(200)의 개략적인 부호화 과정을 설명하면 다음과 같다. 먼저, 입력 신호인 LPC 잔여신호를 해밍 윈도우(Hamming Window)를 통과시켜 주파수축 상의 스펙트럼 분석을 통해 교정된 피치값과 하모닉 크기값(Harmonic Magnitude)을 추출한다. 합성과정은 역 패스트 푸리에 변환(Inverse Fast Fourier Transform:IFFT) 파형 합성을 통해 얻은 각 프레임의 대표되는 파형을 중첩/합산(Overlap/Add) 방법으로 합성하는 단계로 진행한다.
지금부터 각 파라미터 추출방법에 대한 좀더 상세한 설명 기본 이론을 통해 설명하도록 하겠다.
하모닉 모델의 대상은 LPC 잔여신호가 되며, 최종 추출 파라미터는 스펙트럼 크기값(Magnitudes)과 폐루프 피치값(ωo)을 얻게 된다. 좀더 구체적으로, 여기 신호인 LPC 잔여신호의 표현은 아래 수학식 1과 같은 사인파형 모델을 기초로 하여 세부적인 부호화를 단계 밟는다.
여기서, Al과 ll은 주파수가 ω인 사인 파형들의 개수를 나타낸다. 유성음 구간의 여기 신호에서는 하모닉 부분이 대부분의 음성신호 정보를 포함하고 있어, 적절한 스펙트럴 기본 모델을 이용하여 근사화할 수 있다. 아래 수학식 2는 선형위상 합성을 가지는 근사 모델을 표시한다.
여기서, k와 Lk는 프레임 번호와 각 프레임 당 하모닉 개수를 나타낸다. ω0는 피치 각주파수(Pitch Frequency)를 나타내며 Φk l는 k 번째 프레임, l번째 하모닉의 이산위상을 나타낸다. k 번째 프레임 하모닉 크기를 나타내는 Ak l는 복호기에 전송되는 정보이며, 해밍 윈도우의 256 이산 푸리에 변환(Discrete Fourier Transform:DFT)한 값을 기준 모델로 하여 아래 수학식 3의 값이 최소화되는 스펙트럴과 피치 파라미터 값을 폐루프 검색 방법으로 결정한다.
여기서 X(j)는 원래의 LPC 잔여신호 DFT 값, B(j)는 256-point 해밍윈도우 DFT 값, am,bm는 m번째 하모닉의 시작과 끝 DFT의 인덱스를 나타낸다. X(i)는 스펙트럴 기준 모델을 뜻한다. 이렇게 분석된 각각의 파라미터들은 합성을 위해 사용되며, 위상 합성법은 아래 수학식 4와 같은 일반적인 선형위상 ψk(l,ωo k-1,n) 합성방법을 쓴다.
선형위상은 이전 프레임과 현 프레임의 시간에 따른 피치 각주파수를 선형 보간하여 얻어진다. 인간의 청각 시스템은 위상 연속성이 보존되는 동안 선형 위상에 비 감각적이고. 부정확한 또는 완전히 판이한 이산 위상을 허용하는 것으로 가정하여도 무리가 없다. 이러한 인간의 지각적 특성은 저 전송률 부호화 방법에 있어 하모닉 모델의 연속성에 대한 중요한 조건이 된다. 따라서, 합성 위상은 측정된 위상을 대체할 수 있다.
이러한 하모닉 합성모델은 기존의 IFFT 합성방법으로 구현을 할 수 있고, 그 단계는 다음과 같다.
기준 파형을 합성하기 위해, 스펙트럴 파라미터에서 역 양자화과정을 통해 하모닉 크기들을 추출한다. 선형위상 합성방법을 사용하여 각 하모닉 크기들에 해당하는 위상정보를 만들어낸 후, 128-point IFFT를 통해 기준 파형을 만들어 낸다. 이렇게 만들어진 기준 파형은 피치정보를 포함하지 않은 상태이기 때문에 순환형태로 재구성한 다음, 피치 주기로부터 얻은 오버 샘플링 비율로 피치변화를 고려하여 보간하고 샘플링하여 최종 여기신호를 얻어낸다. 프레임간의 연속성을 보장하기 위해 오프셋(offset)으로 정의되는 시작점 위치를 아래 수학식 5와 같이 정의한다.
위의 식은 각각 오버-샘플률(ov )과 샘플링 위치(pov[n])를 나타낸다. 여기서 N은 프레임 길이, Tp는 피치주기, l은 하모닉 개수, k는 프레임 번호를 나타낸다. L은 N개의 샘플을 복원시키기 위해 오버-샘플링되는 데이터 개수이며, mod(x,y)는 x를y 로 나눈 나머지 값을 돌려준다. 또한 w'k(l)은 k번째 순환 파형을,wk(l) 은 k번째 기준 파형을 나타낸다.
반면에, 본 발명에 따른 부호화 방법에서 사용되는 노이즈 스펙트럴의 효율적인 모델링은 캡스트럼 및 LPC 분석법을 사용하여 노이즈 성분을 예측하는 구조로 이루어지며, 이하 첨부도면 3을 참고하여 그 과정을 상세히 설명하도록 하겠다.
음성 신호는 사람의 발성 구조를 분석하여 몇가지 필터로 구성된 모델로 가정될 수 있다. 본 발명에 따른 적절한 실시예에서는, 이러한 노이즈 영역을 얻기 위해 아래 수학식 6과 같은 가정을 한다.
여기서, s(t)는 음성신호이고, h(t)는 보컬 트랙의 임펄스 응답이고, e(t)는여기 신호, v(t) 및 u(t)는 각각 여기 신호의 의사(pesudo) 주기 및 주기 부분이다. 상기 수학식 6에 나타난 바와 같이, 음성신호는 여기신호와 보컬 트랙 임펄스 응답의 콘볼루션(Convolution)으로 표현될 수 있다. 여기 신호는 주기 신호와 비 주기 신호로 나뉘어지는데, 여기서 주기 신호는 피치 주기의 성문 펄스열을 뜻하며, 비 주기 신호는 폐로부터의 공기흐름이나 입술로부터의 방사에 의한 노이즈 유사신호를 뜻한다. 상기 수학식 6은 스펙트럴 영역으로 변환될 수 있으며, 아래 수학식 7과 같이 나타내어진다.
여기서 S(w),U(w),V(w)와 H(w)는 각각 s(t),u(t),v(t),h(t) 의 푸리에 전달 함수(Fourier Transfer Function)이다. 상기 수학식 7로부터, 캡스트럴 계수를 얻기 위해 로그 연산과 IDFT를 적용하면 아래 수학식 8 및 수학식 9와 같이 표현할 수 있다.
상기 수학식 9로부터 구한 캡스트럼은 유성음 부분을 3개의 분리된 영역으로구체화될 수 있다. 큐프런시(quefrency) 영역에서, 피치주기에서의 캡스트럴 피크치 주변의 값들은 하모닉 성분에 의한 부분으로 주기적인 유성음 성분으로 볼 수 있다. 또한 피크치의 오른쪽 고 큐프런시 영역은 주로 노이즈 여기성분에 의한 것으로 볼 수 있다. 마지막으로, 피크치 왼편의 저 큐프런시 영역은 보컬 트랙에 의한 성분으로 분류된다.
여기서, 하모닉 성분에 의한 피치 주변의 캡스트럼 값을 실험적인 샘플수 만큼 추출(liftering)하여 로그 크기 스펙트럼영역으로 변환하면 양의 크기값들과 음의 크기값들을 관찰할 수 있는데, 음의 크기값들이 혼합신호의 골부분이 된다.
실제로, 혼합 신호의 스펙트럼에서 하모닉 성분은 피치 주파수의 배수에 집중되어있고, 노이즈 성분들은 하모닉 성분에 혼합된 형태로 첨가된다. 따라서, 피치주파수의 배수에 해당되는 주파수들 주변의 비 주기 성분들은 분리하기 어려운 반면에 피치주파수의 배수가 되는 주파수들 사이의 골 부분에서는 노이즈 성분을 분리하기 쉽다. 이러한 이유로, 여기신호의 크기 스펙트럼은 추출된 캡스트럼의 음의 로그 크기 스펙트럼에 초점을 둔다.
본 발명에 따른 부호화 방법에서는, 이러한 캡스트럼 분석방법을 이용하여 노이즈 스펙트럴 포곡선의 일부인 골부분 성분을 추출한다. 구체적으로, 피치주기 근방에서 추출된 로그 크기 스펙트럼의 음의 영역만큼 혼합신호 스펙트럴 골부분을 사각 윈도우(rectangular window)를 적용하여 추출해 낸다.
다음으로, 추출된 부분적인 노이즈 스펙트럴 성분들을 하모닉 부분에서의 노이즈 성분을 예측하기 위해 LPC 분석법을 적용한다. 이것은 음성신호의 스펙트럴포곡선을 추출하기 위한 방법과 같은 것으로, 하모닉 영역내의 노이즈 스펙트럴을 추정하기 위한 예측법으로 고려될 수 있다. 구체적으로는 추출된 노이즈 스펙트럽을 IDFT를 적용하여 시간축의 신호 정보로 바꾼 다음 그 스펙트럴 정보를 추출하기 위해 6차 LPC 분석과정을 거치게 된다. 추출된 6차 LPC 파라미터는 양자화 효율을 높이기 위해 LSP 파라미터로 변환하게 된다. 여기서, 6차는 저 전송률에 따른 할당 비트와 노이즈 스펙트럼 성분의 분산정도를 고려한 본 발명의 발명자의 연구결과에 따른 실험적인 값이며, IDFT시 위상은 입력신호의 위상을 쓴다. 도 3에 캡스트럴-LPC(Cepstral-LPC) 노이즈 스펙트럴 예측기를 통해 LPC 파라미터를 얻기위한 전 과정을 도시하였다.
도 3에 도시된 뱌와 같은 구조를 통해, 낮은 전송률에 따르는 기계적인 음성(buzz sound)을 감소시킬 수 있으며, LPC 분석법인 소위 "all-pole fitting" 과정으로부터 얻어진 계수를 LSP로 변환할 수 있다. 상기 LSP에 대해서는 이미 다양한 연구가 되어있는 실정이므로, 본 발명에 따른 부호화 방법에서는 이러한 LSP방법중 적절한 방법을 선택하여 효율적인 양자화 구조를 실현할 수 있다.
한편, 스펙트럴 포곡선을 나타내는 정보 외에 노이즈 성분의 이득(gain)값을 계산하는 과정이 필요한데, 그 이득 값은 역양자화된 6차 LPC 값과 가우시안 노이즈를 입력으로 사용한 LPC 합성신호와 입력 신호의 비율로 구해진다. 여기서, 가우시안 노이즈는 음성 합성단의 가우시안 노이즈 발생 패턴과 같으며, 양자화시에는 로그 스케일로 양자화 하는 것이 적절하다.
이렇게 구해진 노이즈 스펙트럴 파라미터들은 주기 성분을 표현하는 하모닉부호화기의 스펙트럴 크기 파라미터 및 이득 파라미터와 함께 음성 합성단에 전송되며, 중첩/합산(Overlap/Add) 방법으로 합성된다.
합성 노이즈를 얻기 위해 가우시안 노이즈를 발생시키며, 전달된 LPC 계수 및 이득 값을 이용하여 노이즈 스펙트럴 정보를 부가하게 되는데 추가적으로 프레임간의 노이즈의 연속성을 보장하기 위해 이득 및 LSP 선형 보간을 하게 된다. 이러한 LPC 합성구조는 프레임간의 추가적인 위상일치과정 없이도, 간단히 가우시안 백색 노이즈를 입력으로 하여 LPC 필터를 통과시킴으로써 시간영역 합성을 할 수 있다. 여기서, 이득 값은 양자화 및 스펙트럴 왜곡을 고려하여 스케일될 수 있으며, 잡음 제거기 구현시 LSP 값은 배경잡음 추정값에 따라 재조정 될 수 있다.
지금까지 설명은 본 발명의 이해를 위한 것으로, 본 발명이 이것으로 제한되는 것은 아니다. 따라서, 당업자에게는 첨부한 특허청구범위의 정신 및 범위를 벗어나지 않는 한 다양한 수정 및 변형이 가능함은 명백한 것이다.
본 발명에 따른 부호화 방법에 따르면, 유/무성음 혼합 신호를 기존의 하모닉 모델에 캡스트럼-LPC 분석법을 통해 예측된 노이즈 스펙트럴 모델을 사용하여 효과적으로 노이즈 분석을 하여 부호화 함으로써, 보다 개선된 음질을 구현할 수 있다. 또한 FFT와 더빈(Durbin) 방법을 통해 비교적 구성의 복잡도가 낮게 구현되는 저 전송률 음성부화기의 부품으로 활용될 수도 있다.

Claims (7)

  1. 하모닉 모델을 사용하는 유/무성음 혼합신호의 하모닉 노이즈 음성 부호화기에 있어서,
    입력되는 LPC 잔여신호를 캡스트럼을 이용하여 무성음 성분인 노이즈를 분리한 후 LPC 분석법으로 스펙트럴을 예측하여 상기 노이즈를 부호화 하는 노이즈-스펙트럴 추정 수단을 포함하는 것을 특징으로 하는 하모닉 노이즈 음성 부호화기.
  2. 제 1 항에 있어서,
    상기 노이즈 스펙트럴 추정 수단은, 상기 캡스트럼 분석에서 추출된 캡스트럼의 음의 로그값 스펙트럼을 추출하는 로그값 추출수단; 상기 추출된 음의 로그값 스펙트럼 영역에 대응하는 혼합신호 스펙트럴 골부분을 추출하는 진폭 추출수단; 상기 추출된 노이즈 스펙트럴을 IDFT 적용하여 그 스펙트럴 정보를 추출하는 LPC 분석수단; 상기 추출된 LPC 파라미터를 LSP 파라미터로 변환하는 LSP 변환수단; 및 노이즈 성분의 이득값을 계산하는 이득 계산수단을 포함하는 것을 특징으로 하는 하모닉 노이즈 음성 부호화기.
  3. 제 2 항에 있어서,
    상기 이득 계산수단은, 가우시안 백색잡음 발생기 및 LPC 필터로 구성되고,
    상기 LPC 필터는 상기 가우시안 백색잡음 발생기의 출력신호 및 상기 LPC 분석수단에서 추출된 LPC 파라미터를 필터링 하는 것을 특징으로 하는 하모닉 노이즈 음성 부호화기.
  4. 유/무성음 혼합신호의 하모닉 노이즈 음성 부호화 방법에 있어서,
    상기 혼합신호 중 유성음을 부호화 하는 하모닉 부호화 단계, 및
    상기 혼합신호 중 무성음을 추출하여 부호화 하는 노이즈 부호화 단계를 포함하고,
    상기 노이즈 부호화 단계는, 상기 혼합신호를 캡스트럼 분석하여 노이즈 스펙트럴 포곡선을 추출하는 캡스트럼 분석 단계 및 상기 추출된 스펙트럽으로부터 노이즈 스펙트럴 정보를 추출하는 LPC 분석 단계로 이루어지는 것을 특징으로 하는 하모닉 노이즈 음성 부호화 방법.
  5. 제 4 항에 있어서,
    상기 캡스트럼 분석 단계는,
    상기 혼합신호에 DTF를 적용하여 스펙트럴 영역으로 변환하고, 상기 스펙트럴 영역의 로그값 계산 후 IDFT 적용하여 캡스트럼을 구하는 제1 단계, 및
    추출된 하모닉 성분의 피치 주변의 캡스트럼 값을 소정 샘플수로 추출하여 로그값 스펙트럼 영역으로 변환한 후 그 로그값 스펙트럼의 음 영역만을 선별 추출하는 제2 단계를 포함하는 것을 특징으로 하는 하모닉 노이즈 음성 부호화 방법.
  6. 제 4 항에 있어서,
    상기 LPC 분석 단계는,
    추출된 노이즈 스펙트럽에 IDFT를 적용하여 시간축 신호 정보로 변환하는 제1 변환단계, 및
    스펙트럴 정보를 얻기 위해 6차 LPC 분석으로 추출된 LPC 파라미터를 LSP 파라미터로 변환하는 제2 변환단계를 포함하는 것을 특징으로 하는 하모닉 노이즈 음성 부호화 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 노이즈 부호화 단계는, 상기 상기 추출된 스펙트럴 포곡선에 백색 가우시안 노이즈를 입력으로 하여 합성하는 이득 발생 단계를 더 포함하는 것을 특징으로 하는 하모닉 노이즈 음성 부호화 방법.
KR1020000054960A 2000-09-19 2000-09-19 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 KR100348899B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020000054960A KR100348899B1 (ko) 2000-09-19 2000-09-19 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
US09/751,302 US6741960B2 (en) 2000-09-19 2000-12-28 Harmonic-noise speech coding algorithm and coder using cepstrum analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000054960A KR100348899B1 (ko) 2000-09-19 2000-09-19 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법

Publications (2)

Publication Number Publication Date
KR20020022257A true KR20020022257A (ko) 2002-03-27
KR100348899B1 KR100348899B1 (ko) 2002-08-14

Family

ID=19689337

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000054960A KR100348899B1 (ko) 2000-09-19 2000-09-19 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법

Country Status (2)

Country Link
US (1) US6741960B2 (ko)
KR (1) KR100348899B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100707184B1 (ko) * 2005-03-10 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
KR100739642B1 (ko) * 2005-11-24 2007-07-13 삼성에스디아이 주식회사 플라즈마 표시 장치 및 그 구동 방법
KR100744375B1 (ko) * 2005-07-11 2007-07-30 삼성전자주식회사 음성 처리 장치 및 방법
KR100757366B1 (ko) * 2006-08-11 2007-09-11 충북대학교 산학협력단 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
WO2008100108A1 (en) * 2007-02-15 2008-08-21 Hyunmin Inc. Apparatus and method for transmitting data
US8073148B2 (en) 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
CN111044814A (zh) * 2019-11-28 2020-04-21 中国电力科学研究院有限公司 一种对变压器直流偏磁异常进行辨识的方法及系统

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US8417055B2 (en) 2007-03-05 2013-04-09 DigitalOptics Corporation Europe Limited Image processing method and apparatus
US8264576B2 (en) * 2007-03-05 2012-09-11 DigitalOptics Corporation Europe Limited RGBW sensor array
US8698924B2 (en) * 2007-03-05 2014-04-15 DigitalOptics Corporation Europe Limited Tone mapping for low-light video frame enhancement
US8989516B2 (en) 2007-09-18 2015-03-24 Fotonation Limited Image processing method and apparatus
US9160897B2 (en) * 2007-06-14 2015-10-13 Fotonation Limited Fast motion estimation method
US7639889B2 (en) * 2004-11-10 2009-12-29 Fotonation Ireland Ltd. Method of notifying users regarding motion artifacts based on image analysis
US7376553B2 (en) * 2003-07-08 2008-05-20 Robert Patel Quinn Fractal harmonic overtone mapping of speech and musical sounds
CN1977505A (zh) * 2004-05-12 2007-06-06 汤姆森许可公司 用于均衡器差错信号的、基于星座定位的步长
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US7610196B2 (en) * 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7639888B2 (en) * 2004-11-10 2009-12-29 Fotonation Ireland Ltd. Method and apparatus for initiating subsequent exposures based on determination of motion blurring artifacts
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
JP4954069B2 (ja) * 2005-06-17 2012-06-13 パナソニック株式会社 ポストフィルタ、復号化装置及びポストフィルタ処理方法
EP1905009B1 (en) * 2005-07-14 2009-09-16 Koninklijke Philips Electronics N.V. Audio signal synthesis
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
IES20070229A2 (en) * 2006-06-05 2007-10-03 Fotonation Vision Ltd Image acquisition method and apparatus
US9307212B2 (en) 2007-03-05 2016-04-05 Fotonation Limited Tone mapping for low-light video frame enhancement
US20080231557A1 (en) * 2007-03-20 2008-09-25 Leadis Technology, Inc. Emission control in aged active matrix oled display using voltage ratio or current ratio
US7773118B2 (en) * 2007-03-25 2010-08-10 Fotonation Vision Limited Handheld article with movement discrimination
US20080309770A1 (en) * 2007-06-18 2008-12-18 Fotonation Vision Limited Method and apparatus for simulating a camera panning effect
US8904400B2 (en) * 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) * 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
GB2493470B (en) 2010-04-12 2017-06-07 Smule Inc Continuous score-coded pitch correction and harmony generation techniques for geographically distributed glee club
GB2508417B (en) 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
CN104978970B (zh) 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
CN110808061B (zh) * 2019-11-11 2022-03-15 广州国音智能科技有限公司 语音分离方法、装置、移动终端及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3649765A (en) * 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4219695A (en) * 1975-07-07 1980-08-26 International Communication Sciences Noise estimation system for use in speech analysis
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US5774837A (en) 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP4005154B2 (ja) * 1995-10-26 2007-11-07 ソニー株式会社 音声復号化方法及び装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
US7801733B2 (en) 2004-12-31 2010-09-21 Samsung Electronics Co., Ltd. High-band speech coding apparatus and high-band speech decoding apparatus in wide-band speech coding/decoding system and high-band speech coding and decoding method performed by the apparatuses
KR100707184B1 (ko) * 2005-03-10 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
KR100744375B1 (ko) * 2005-07-11 2007-07-30 삼성전자주식회사 음성 처리 장치 및 방법
US8073148B2 (en) 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
KR100739642B1 (ko) * 2005-11-24 2007-07-13 삼성에스디아이 주식회사 플라즈마 표시 장치 및 그 구동 방법
KR100757366B1 (ko) * 2006-08-11 2007-09-11 충북대학교 산학협력단 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
WO2008100108A1 (en) * 2007-02-15 2008-08-21 Hyunmin Inc. Apparatus and method for transmitting data
CN111044814A (zh) * 2019-11-28 2020-04-21 中国电力科学研究院有限公司 一种对变压器直流偏磁异常进行辨识的方法及系统
CN111044814B (zh) * 2019-11-28 2023-03-14 中国电力科学研究院有限公司 一种对变压器直流偏磁异常进行辨识的方法及系统

Also Published As

Publication number Publication date
KR100348899B1 (ko) 2002-08-14
US20020052736A1 (en) 2002-05-02
US6741960B2 (en) 2004-05-25

Similar Documents

Publication Publication Date Title
KR100348899B1 (ko) 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
KR102398818B1 (ko) 신호 디코딩 동안 프레임 손실의 향상된 정정 방법
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
KR100873836B1 (ko) Celp 트랜스코딩
CN105825861B (zh) 确定加权函数的设备和方法以及量化设备和方法
JPH0744193A (ja) 高能率符号化方法
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
EP0865029B1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
KR20010075491A (ko) 음성 코더 매개변수를 양자화하는 방법
KR0155315B1 (ko) Lsp를 이용한 celp보코더의 피치 검색방법
US6535847B1 (en) Audio signal processing
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
KR100383668B1 (ko) 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법
KR20240012407A (ko) 디코더
Jelinek et al. Frequency-domain spectral envelope estimation for low rate coding of speech
Motlíček et al. Speech coding based on spectral dynamics
JPH0651800A (ja) データ数変換方法
JP3398968B2 (ja) 音声分析合成方法
CN112233686B (zh) Nvocplus高速宽带声码器的语音数据处理方法
JP3321933B2 (ja) ピッチ検出方法
JP2003216189A (ja) 符号化装置及び復号装置
JP3297750B2 (ja) 符号化方法
Wang Speech synthesis using Mel-Cepstral coefficient feature
KR100346732B1 (ko) 잡음코드북작성과그를이용한선형예측부호화/복호화방법및그장치

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120727

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160801

Year of fee payment: 15

LAPS Lapse due to unpaid annual fee