KR100367700B1 - 음성부호화기의 유/무성음정보 추정방법 - Google Patents

음성부호화기의 유/무성음정보 추정방법 Download PDF

Info

Publication number
KR100367700B1
KR100367700B1 KR10-2000-0069454A KR20000069454A KR100367700B1 KR 100367700 B1 KR100367700 B1 KR 100367700B1 KR 20000069454 A KR20000069454 A KR 20000069454A KR 100367700 B1 KR100367700 B1 KR 100367700B1
Authority
KR
South Korea
Prior art keywords
voiced
voice
band
unvoiced
sound
Prior art date
Application number
KR10-2000-0069454A
Other languages
English (en)
Other versions
KR20020039555A (ko
Inventor
최용수
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR10-2000-0069454A priority Critical patent/KR100367700B1/ko
Priority to US09/898,624 priority patent/US7016832B2/en
Publication of KR20020039555A publication Critical patent/KR20020039555A/ko
Application granted granted Critical
Publication of KR100367700B1 publication Critical patent/KR100367700B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Abstract

본 발명은 음성부호화기의 유/무성음정보추정방법을 개시한다. 이에 의하면, 입력스펙트럼과 합성스펙트럼을 구한 후 하모닉대역별로 스펙트럼오차계산부에서 하나의 하모닉대역에 대하여 스펙트럼오차에너지를 정규화하고, 유성음정도계산부에서 유성음정도를 계산한다.
따라서, 본 발명에 의하면, 각 하모닉대역의 유성음정도가 1과 0 사이의 연속적인 값을 가지므로 낮은 비트율에서도 벡터 양자화에 효과적이다. 또한, 유/무성음정보를 결정하기 위한 문턱치계산이 필요없으므로 문턱치에 따라 발생하는 결정오차가 제거되고, 나아가 유성음정도의 정확성을 높일 수 있다. 그리고 하모닉대역에서 유성음성분과 무성음성분을 혼합하여 스펙트럼을 표현하므로 합성음의 자연스런 음질을 얻을 수 있다.
또한, 유/무성음정보 추정부의 알고리즘 변경없이도 양자화 비트의 수량만을 조절함으로써 가변 전송율 부호화기가 실현 가능하다.

Description

음성부호화기의 유/무성음정보 추정방법{estimation method of voiced/unvoiced information for vocoder}
본 발명은 음성부호화기의 유/무성음정보 추정방법에 관한 것으로, 더욱 상세하게는 합성음의 음질 향상을 이루면서도 낮은 비트율에서의 벡터 양자화에 적합하도록 한 음성부호화기의 유/무성음정보 추정방법에 관한 것이다.
일반적으로, 음성부호화기는 사람의 음성을 마이크로폰을 거쳐 입력하여 해당 음성데이터의 주파수분포, 세기, 음성데이터의 파형을 부호로 변환하여 전송하고, 수신측에서는 음성을 합성하는 기능을 하여 이동통신단말기, 교환기, 화상회의시스템 등 많은 분야에 사용되고 있다. NGN-IP나 VOIP(voice over internet protocol)와 같은 멀티미디어통신 및 음성저장시스템에 필수적인 저전송율 음성부호화기는 대부분 CELP(code-exited linear prediction) 부호화기이다. 4∼13Kbps의 전송율에서는 시간영역 부호화기인 CELP 부호화기가 있고, 4Kbps 이하의 전송율에서는 주파수영역 부호화기가 있다. 하모닉 부호화기는 기본 주파수의 하모닉성분을 여기 신호로 표현한다. 따라서, 백색 잡음의 형태로 여기 신호를 표현하는 CELP 부호화기에 비하여 하모닉 부호화기는 무성음구간에서는 합성 음질의 자연성이 떨어진다. 그러나, 음성신호의 대부분을 차지하는 유성음구간에서는 하모닉 부호화기가 CELP 부호화기에 비하여 훨씬 낮은 비트율에서 부호화가 가능하다.
음성부호화기중에서도 향후 주요 관심사가 될 4Kbps 이하의 아주 낮은 전송율을 갖는 음성부호화기에서는 하모닉 분석을 필요로 하는 하모닉 음성부호화기(harmonic speech coder)가 주류를 이루고 있다. 일반적으로, 하모닉 음성부호화기는 하모닉 분석기와 하모닉 합성기로 구성되며, 하모닉 음성부호화기의 연산량과 음질에 큰 영향을 미치는 부분중의 하나가 주파수대역별 유/무성음정보 또는 유성음정도(voicing)를 추정하는 유/무성음정보추정부이다. 하모닉 분석기에서는 하모닉을 분석하고 유성음정도를 계산한 후 양자화하고 전송한다. 하모닉 합성기에서는 하모닉 분석기로부터 전송되어온 양자화된 유성음정도에 따라 유성음성분과 무성음성분을 혼합한다.
종래의 유/무성음정보추정방법은 3개의 하모닉대역을 묶어서 하나의 유성음정도결정대역으로 설정하는 것으로, 이러한 방법을 적용한 유/무성음정보추정부는 도 1에 도시된 바와 같이, 크게 스펙트럼오차계산부(10), 문턱치계산부(20) 및 유/무성음 이진결정부(30)로 구성된다.
여기서, 스펙트럼오차계산부(10)에서는 입력스펙트럼과 합성스펙트럼의 차이값을 현재의 유성음정도결정대역에서 스펙트럼 에너지로 나누는 정규화(normalization) 과정을 진행한다. 문턱치계산부(20)에서는 스펙트럼에너지 분포, 기본주파수 및 이전 프레임에서의 유/무성음정보를 이용하여 유성음정도 결정을 위한 문턱치(threshold)를 계산한다. 유/무성음 이진결정부(30)에서는 정규화된 스펙트럼오차에너지와 문턱치를 비교하여 현재 유성음정도결정대역의 유성음정도에 대해 이진결정(binary decision)을 한다. 즉, 현재의 유성음정도결정대역에서의 스펙트럼오차에너지가 문턱치보다 높으면 현재의 유성음정도결정대역에서의 유성음정도의 값을 0으로 결정하고 현재의 유성음정도결정대역을 무성음(unvoiced) 대역으로 결정하며, 현재의 유성음정도결정대역에서의 스펙트럼오차에너지가 문턱치보다 낮으면 현재의 유성음정도결정대역에서의 유성음정도의 값을 1로 결정하고 현재의 유성음정도결정대역을 유성음(voiced) 대역으로 결정한다. 이때, 3개의 하모닉대역을 묶어서 하나의 유성음정도결정대역으로 하는 것은 부호화비트율을 낮추기 위한 것이고 유성음정도결정대역의 수는 최대 12개로 제한한다.
부호화단에서는 이렇게 구해진 이진값의 유/무성음결정정보를 전송하고, 복호화단에서는 부호화단으로부터 전송되어온 이진값의 유/무성음결정정보를 이용하여 각 하모닉대역에서 이 값이 0일 경우 무성음성분을 합성하고, 이 값이 1일 경우 유성음성분을 합성한 후 최종적으로 전체대역에 대해 무성음성분과 유성음성분을 더한다.
이와 같이 구성되는 유/무성음정보추출부에서의 유/무성음정보추출방법을 도 3을 참조하여 설명하면, 먼저, 단계(S11)에서는 음성 입력신호를 푸리어변환(Fourier transformation)에 의해 입력스펙트럼을 구하고, 또한 기본주파수(fundamental frequency), 하모닉 크기, 윈도우 스펙트럼을 이용하여 합성스펙트럼을 구한다.
단계(S13)에서는 입력스펙트럼과 합성스펙트럼이 구해지고 나면, 여러개의 하모닉대역들을 예를 들어 3개씩 묶어 하나의 유성음정도결정대역으로 각각 설정한다. 즉, 여러개의 하모닉대역들중에서 첫번째 3개의 하모닉대역을 하나로 묶어서 첫 번째(k=1) 유성음정도결정대역으로 설정하고, 두 번째 3개의 하모닉대역을 하나로 묶어서 두 번째(k=2) 유성음정도결정대역으로 설정한다. 이러한 방식으로 하모닉대역들을 첫 번째(k=1) 유성음정도결정대역에서부터 마지막번째(k=K) 유성음정도결정대역으로 설정한다. 여기서, 3개의 하모닉대역을 하나의 유성음정도결정대역으로 설정하는 것은 부호화비트율을 낮추기 위한 것이고, 유성음정도결정대역의 수량은 최대 12개로 제한하는 것이 통상적이다.
단계(S15)에서는 각각의 유성음정도결정대역이 설정되고 나면, 스펙트럼오차계산부(10)가 첫번째(k=1) 유성음정도결정대역에서 입력스펙트럼과 합성스펙트럼의 오차에너지를 구한 후 현재의 유성음정도결정대역에서의 입력스펙트럼의 에너지로나누는 정규화과정을 진행하여 첫 번째 정규화된 스펙트럼오차에너지(Ek)를 구한다.
단계(S17)에서는 첫 번째의 정규화된 스펙트럼오차에너지(Ek)가 구해지고 나면, 문턱치계산부(20)가 스펙트럼에너지분포, 기본주파수, 이전 프레임(frame)에서의 유/무성음 정보 등을 이용하여 첫번째 유성음정도결정대역의 유무성음정도결정을 위한 문턱치(ξk)를 계산한다.
단계(19)에서는 문턱치(ξk)의 계산이 완료되고 나면, 유/무성음 이진결정부(30)가 첫번째 유성음정도결정대역에서의 정규화된 스펙트럼오차에너지(Ek)와 문턱치(ξk)를 비교한다.
이때, 첫번째 유성음정도결정대역에서의 정규화된 스펙트럼오차에너지(Ek)가 첫번째 유성음정도결정대역에서의 문턱치(ξk)보다 낮으면, 단계(S21)에서는 유/무성음 이진결정부(30)가 첫 번째 유성음정도결정대역의 유성음정도(Vk)의 값을 1로 하고 첫 번째 유성음정도결정대역을 유성음대역으로 결정한다. 반면에, 첫번째 유성음정도결정대역에서의 정규화된 스펙트럼오차에너지(Ek)가 첫번째 유성음정도결정대역에서의 문턱치(ξk)보다 높으면, 단계(S23)에서는 유/무성음 이진결정부(30)가 첫 번째 유성음정도결정대역의 유성음정도(Vk)의 값을 0으로 하고 첫 번째 유성음정도결정대역을 무성음대역으로 결정한다.
단계(S25)에서는 현재의 유성음정도결정대역, 즉 첫 번째(k=1) 유성음정도결정대역이 미리 정해놓은 유성음정도결정대역의 전체갯수(K), 예를 들어 12개의 유성음정도결정대역중에서 최종번째(k=K) 유성음정도결정대역인 지를 판단한다.
이때, 첫 번째(k=1) 유성음정도결정대역이 최종번째(k=K) 유성음정도결정대역이 아니므로 단계(S27)에서는 두 번째(k=2) 유성음정도결정대역에 대하여 상기한 바와 같은 동일한 과정을 진행하여 두 번째 유성음정도결정대역에서의 유성음정도(Vk)의 값을 결정한다.
이러한 방식으로 각각의 유성음정도결정대역에 대해 유성음정도(Vk)의 값을 구하는 과정을 순차적으로 진행하여 최종번째(k=K), 즉 12번째 유성음정도결정대역을 유성음대역이나 무성음대역으로 결정하고 나면 유성음정보추정과정을 더 이상 진행하지 않고 종료한다.
그런데, 음성스펙트럼을 관찰해보면, 어떤 유성음정도결정대역에서는 유성음성분과 무성음성분이 혼합되어 있는 경우가 종종 있다. 그러나, 종래의 유성음정보추정방법에서는 3개의 하모닉대역에 대해서 하나의 유/무성음정보를 이진값으로 결정하여 하모닉대역에서 스펙트럼을 유성음이나 무성음으로 표현하기 때문에 하나의 동일한 유성음정도결정대역에서 유/무성음성분이 혼재하는 경우, 스펙트럼을 유성음이나 무성음으로 정확하게 표현하기 어렵고 음질이 자연스럽지 못하였다.
하모닉대역을 3개씩 묶어서 하나의 유성음정도결정대역으로 하는 것은 양자화 비트의 수량을 줄이기 위한 것이지만 이는 유/무성음정보에 대한 주파수해상도를 저하시킨다.
또한, 유/무성음정보가 이진값이기 때문에 문턱치에 대해서 심각한 음질 저하를 가져올 가능성이 높다. 즉, 중간정도를 나타내는 값이 없기 때문에 문턱치를 잘못 계산하면, 유/무성음정보가 원래의 값과는 전혀 다른 반대의 값으로 나타날 수 있다. 이진값을 갖는 유/무성음정보는 그 수가 바로 양자화 비트의 수량이 되므로 비트의 수량을 줄이기 위해서는 유/무성음정도결정대역을 확대하는 것이 필요한데 이는 유/무성음정보의 주파수에 대한 해상도를 더욱 저하시키고 유/무성음정보결정과정도 수정하여야 하는 문제점이 있다.
따라서, 본 발명의 목적은 유/무성음결정문턱치에 따른 유/무성음정도 결정오차를 줄여서 음질저하를 방지하도록 한 음성부호화기의 유/무성음정보 추정방법을 제공하는데 있다.
또한, 본 발명의 다른 목적은 주파수해상도를 저하시키지 않으면서도 낮은 비트율에서도 벡터양자화에 유리한 음성부호화기의 유/무성음정보 추정방법을 제공하는데 있다.
도 1은 종래 기술에 의한 음성부호화기의 유/무성음정보추정장치를 개략적으로 나타낸 블럭도.
도 2는 본 발명에 의한 음성부호화기의 유/무성음정보추정방법에 적용된 유/무성음정보추정장치를 개략적으로 나타낸 블록도.
도 3은 종래 기술에 의한 음성부호화기의 유/무성음정보 추정방법을 나타낸 플로우차트.
도 4는 본 발명에 의한 음성부호화기의 유/무성음정보 추정방법을 나타낸 플로우차트.
이와 같은 목적을 달성하기 위한 본 발명에 의한 음성부호화기의 유/무성음정보 추정방법은, 입력 음성신호를 푸리어 변환하여 입력스펙트럼을 구함과 아울러 상기 입력 음성신호에 대한 기본주파수, 하모닉 크기 및 윈도우 스펙트럼을 이용하여 합성스펙트럼을 구하는 단계와; 상기 입력스펙트럼과 합성스펙트럼에 대한 각각의 하모닉대역을 유성음정도결정대역으로 설정하는 단계와; 상기 각각의 하모닉대역에서 입력스펙트럼과 합성스펙트럼 사이의 스펙트럼오차에너지를 정규화한 후 유성음정도를 계산하는 단계를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 유성음정도는 1에서 상기 정규화된 스펙트럼오차에너지를 빼는 방식으로 계산하고, 상기 유성음정도는 0과 1 사이의 값으로 할 수 있다.
이하, 본 발명에 의한 음성부호화기의 유/무성음정보 추정방법을 첨부된 도면을 참조하여 상세히 설명하기로 한다. 종래의 부분과 동일 구성 및 동일 작용의 부분에는 동일 부호를 부여한다.
도 2를 참조하면, 본 발명에 의한 음성부호화기의 유/무성음정보 추정방법에 적용된 추정장치는 스펙트럼오차계산부(40)와 유성음정도계산부(50)로 구성된다. 여기서, 스펙트럼오차계산부(40)에서는 입력스펙트럼과 합성스펙트럼의 스펙트럼오차에너지를 구한 후 현재의 하모닉대역에서의 스펙트럼에너지로 나누어 정규화한다. 유성음정도계산부(50)에서는 정규화된 스펙트럼오차에너지를 이용하여 0과 1 사이의 값을 갖는 유성음정도를 구한다. 부호화단에서는 이렇게 구해진 유/무성음정보를 양자화하고, 복호화단에서는 각 하모닉대역에서 유성음성분과 무성음성분을 합성한 후 유성음정도를 비율로 하여 두 성분을 혼합한다.
이와 같이 구성된 구조에서는 0과 1 사이의 값을 갖는 유성음정도를 구하므로 유/무성음 결정을 위한 문턱치계산부가 필요없으며 문턱치에 따라 민감하게 발생하는 유/무성음 결정오차도 없어진다. 또한, 하모닉대역에서 항상 유성음과 무성음성분을 혼합하여 스펙트럼을 표현하므로 자연스러운 음질을 얻을 수가 있다.
이하, 음성부호화기의 유/무성음정보 추정방법을 도 4를 참조하여 설명하면, 먼저, 단계(S31)에서는 입력 음성신호를 푸리어변환(Fourier transformation)하여 입력스펙트럼을 구하고, 해당 입력 음성신호에 대한 기본주파수(fundamental frequency), 하모닉 크기 및 윈도우 스펙트럼을 이용하여 합성스펙트럼을 구하여 놓는다.
단계(S33)에서는 입력스펙트럼과 합성스펙트럼이 구해지고 나면, 입력스펙트럼과 합성스펙트럼에 대한 각각의 하모닉대역을 유성음정도결정대역으로 설정한다. 즉, 첫번째 하나의 하모닉대역을 첫 번째(ℓ=1) 유성음정도결정대역으로 설정하고, 두번째 하나의 하모닉대역을 두 번째(ℓ=2) 유성음정도결정대역으로 설정한다. 이러한 방식으로 첫 번째(ℓ=1) 하모닉대역에서부터 마지막번째(ℓ=L) 하모닉대역까지 각각의 하모닉대역을 유성음정도결정대역으로 설정한다. 여기서, 하모닉대역의 전체수량(L)은 10∼60이다.
단계(S35)에서는 각각의 유성음정도결정대역이 설정되고 나면, 스펙트럼오차계산부(40)가 첫 번째(ℓ=1) 하모닉대역에서 입력스펙트럼과 합성스펙트럼의 오차에너지를 구한 후 이를 첫 번째 하모닉대역에서의 입력스펙트럼의 에너지로 나누어 정규화함으로써 첫 번째의 정규화된 스펙트럼오차에너지(E)를 구한다.
단계(S37)에서는 첫 번째 정규화된 스펙트럼오차에너지(E)가 구해지고 나면, 스펙트럼에너지분포, 기본주파수, 이전 프레임에서의 유/무성음 정보 등을 이용하여 각 하모닉대역에서 유무성음정도결정을 위한 문턱치(ξk)를 계산하는 종래의 과정을 생략하고 스펙트럼오차계산부(40)가 첫 번째의 정규화된 스펙트럼오차에너지(E)를 이용하여 0과 1 사이의 값을 갖는 유성음정도(V)를 계산한다. 즉, 1에서첫 번째의 정규화된 스펙트럼오차에너지(E)의 값을 뺌으로써 첫 번째 하모닉대역의 유성음정도(V)를 구한다.
따라서, 본 발명은 0과 1사이의 값을 갖는 유성음정도를 구하므로 유/무성음 결정을 위한 문턱치계산부를 필요로 하지 않고 그만큼 음성부호화기의 단순화를 가져올 수 있으며 문턱치에 따라 민감하게 발생하는 결정오차도 제거할 수 있다. 또한, 하모닉대역에서 항상 유성음과 무성음성분을 혼합하여 스펙트럼을 표현하므로 합성음의 향상된 자연스러운 음질을 얻을 수가 있다. 더욱이, 본 발명의 유성음정도는 하나의 하모닉대역단위로 구해지므로 3개의 하모닉대역을 묶어서 처리하는 종래에 비하여 주파수 해상도가 높아서 하모닉단위로 부호화하고 합성하는 하모닉 부호화기에 적합한 장점이 있다.
단계(39)에서는 첫 번째의 하모닉대역의 유성음정도(V)가 계산되고 나면, 현재의 하모닉대역, 즉 첫 번째(ℓ=1) 하모닉대역이 전체갯수(L), 예를 들어 36개의 하모닉대역중에서 최종번째(ℓ=L) 하모닉대역인 지를 판단한다.
이때, 현재의 하모닉대역이 최종번째(ℓ=L) 하모닉대역이 아니므로 단계(S41)에서는 두 번째(ℓ=2) 하모닉대역에 대하여 동일한 과정을 진행하여 유성음정도(V)를 구한다. 이러한 방식으로 각각의 하모닉대역에 대해 유성음정도(V)를 구하는 과정을 순차적으로 진행하여 최종번째(ℓ=L) 하모닉대역의 유성음정보를 계산하고 나면 유성음정보추정과정을 더 이상 진행하지 않고 종료한다.
따라서, 벡터 양자화가 비트율감소에 효과적이라는 것을 잘 알려져 있지만,종래에는 유/무성음 정보가 0 또는 1의 이진값을 갖기 때문에 벡터 양자화를 할 수 없으나, 본 발명은 유성음정도(V)가 0과 1 사이의 연속적인 값을 가지므로 낮은 비트율의 벡터 양자화에 효과적이다. 만약, 할당된 부호화 비트의 수가 많으면 벡터 양자화 코드북의 수를 증가시키고, 이와 반대로 할당된 부호화 비트의 수가 적으면 양자화 코드북의 수를 감소시키면 된다.
최근에 이동통신시스템에 많이 사용되고 있는 음성부호화기인 EVRC(enhanced variable rate coding)이나 AMR은 채널의 효율적인 관리를 위해 가변전송율을 채택하고 있다. 본 발명은 종래 기술과는 달리 유/무성음정보추정부의 알고리즘 변경없이도 양자화 비트의 수량만 조절함으로써 가변전송율 부호화기를 실현 가능하다.
한편, 본 발명은 도시된 도면과 상술한 설명에 기술된 내용에 한정하지 않으며 본 발명의 사상을 벗어나지 않는 범위 내에서 다양한 형태의 변형도 가능함은 이 분야에 통상의 지식을 가진 자에게는 자명한 사실이다.
이상에서 살펴본 바와 같이, 본 발명에 의한 음성부호화기의 유/무성음정보추정방법에서는 입력스펙트럼과 합성스펙트럼을 구하고, 하모닉대역별로 스펙트럼오차계산부에서 하나의 하모닉대역에 대하여 스펙트럼오차에너지를 정규화하고, 유성음정도계산부에서 유성음정도를 계산한다.
따라서, 본 발명에 의하면, 각 하모닉대역의 유성음정도가 1과 0 사이의 연속적인 값을 가지므로 낮은 비트율에서도 벡터 양자화에 효과적이다. 또한, 유/무성음정보를 결정하기 위한 문턱치계산이 필요없으므로 문턱치에 따라 발생하는 결정오차가 제거되고, 나아가 유성음정도의 정확성을 높일 수 있다. 그리고 하모닉대역에서 유성음성분과 무성음성분을 혼합하여 스펙트럼을 표현하므로 합성음의 자연스런 음질의 향상을 얻을 수 있다.
또한, 유/무성음정보추정부의 알고리즘 변경없이도 양자화 비트의 수량만을 조절함으로써 가변 전송율 부호화기가 실현 가능하다.

Claims (3)

  1. 입력 음성신호를 푸리어 변환하여 입력스펙트럼을 구함과 아울러 상기 입력 음성신호에 대한 기본주파수, 하모닉 크기 및 윈도우 스펙트럼을 이용하여 합성스펙트럼을 구하는 단계와;
    상기 입력스펙트럼과 합성스펙트럼에 대한 각각의 하모닉대역을 유성음정도결정대역으로 설정하는 단계와;
    상기 각각의 하모닉대역에서 입력스펙트럼과 합성스펙트럼 사이의 스펙트럼오차에너지를 정규화한 후 유성음정도를 계산하는 단계를 포함하는 것을 특징으로 하는 음성부호화기의 유/무성음정보추정방법.
  2. 제 1 항에 있어서, 상기 유성음정도는 1에서 상기 정규화된 스펙트럼오차에너지를 빼는 방식으로 계산하는 것을 특징으로 하는 음성부호화기의 유/무성음정보추정방법.
  3. 제 2 항에 있어서, 상기 유성음정도는 0과 1 사이의 값으로 하는 것을 특징으로 하는 음성부호화기의 유/무성음정보추정방법.
KR10-2000-0069454A 2000-11-22 2000-11-22 음성부호화기의 유/무성음정보 추정방법 KR100367700B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2000-0069454A KR100367700B1 (ko) 2000-11-22 2000-11-22 음성부호화기의 유/무성음정보 추정방법
US09/898,624 US7016832B2 (en) 2000-11-22 2001-07-03 Voiced/unvoiced information estimation system and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0069454A KR100367700B1 (ko) 2000-11-22 2000-11-22 음성부호화기의 유/무성음정보 추정방법

Publications (2)

Publication Number Publication Date
KR20020039555A KR20020039555A (ko) 2002-05-27
KR100367700B1 true KR100367700B1 (ko) 2003-01-10

Family

ID=19700458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0069454A KR100367700B1 (ko) 2000-11-22 2000-11-22 음성부호화기의 유/무성음정보 추정방법

Country Status (2)

Country Link
US (1) US7016832B2 (ko)
KR (1) KR100367700B1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
KR100527002B1 (ko) * 2003-02-26 2005-11-08 한국전자통신연구원 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
KR100757366B1 (ko) * 2006-08-11 2007-09-11 충북대학교 산학협력단 Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법
US20080109217A1 (en) * 2006-11-08 2008-05-08 Nokia Corporation Method, Apparatus and Computer Program Product for Controlling Voicing in Processed Speech
US8407044B2 (en) * 2008-10-30 2013-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Telephony content signal discrimination
CN102804260B (zh) * 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法
US20120316881A1 (en) * 2010-03-25 2012-12-13 Nec Corporation Speech synthesizer, speech synthesis method, and speech synthesis program
JP5575977B2 (ja) 2010-04-22 2014-08-20 クゥアルコム・インコーポレイテッド ボイスアクティビティ検出
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US8781821B2 (en) * 2012-04-30 2014-07-15 Zanavox Voiced interval command interpretation
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
CN103903633B (zh) * 2012-12-27 2017-04-12 华为技术有限公司 检测语音信号的方法和装置
KR102052127B1 (ko) * 2015-06-26 2020-01-08 삼성전자주식회사 소리를 판별하는 방법 및 이를 위한 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech

Also Published As

Publication number Publication date
US7016832B2 (en) 2006-03-21
US20020062209A1 (en) 2002-05-23
KR20020039555A (ko) 2002-05-27

Similar Documents

Publication Publication Date Title
KR100367700B1 (ko) 음성부호화기의 유/무성음정보 추정방법
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
AU2007305960B2 (en) Pitch lag estimation
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
KR100962681B1 (ko) 오디오신호들의 분류
RU2331933C2 (ru) Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
Skoglund et al. Improving Opus low bit rate quality with neural speech synthesis
US6345255B1 (en) Apparatus and method for coding speech signals by making use of an adaptive codebook
KR20040028750A (ko) 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템
JP2001005474A (ja) 音声符号化装置及び方法、入力信号判定方法、音声復号装置及び方法、並びにプログラム提供媒体
CN105359211A (zh) 语音处理的清音/浊音判决
Chamberlain A 600 bps MELP vocoder for use on HF channels
KR100421648B1 (ko) 음성코딩을 위한 적응성 표준
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
Ramprashad A two stage hybrid embedded speech/audio coding structure
US6980948B2 (en) System of dynamic pulse position tracks for pulse-like excitation in speech coding
US20040181398A1 (en) Apparatus for coding wide-band low bit rate speech signal
Chaouch et al. Multiple description coding technique to improve the robustness of ACELP based coders AMR-WB
Lin et al. Mixed excitation linear prediction coding of wideband speech at 8 kbps
Gottesmann Dispersion phase vector quantization for enhancement of waveform interpolative coder
Spanias Speech coding standards
Gersho Speech coding
Drygajilo Speech Coding Techniques and Standards
Chen et al. Subframe Interpolation Optimized Coding of LSF Parameters
Yen et al. Introducing compact: An oscillator-based approach to toll-quality speech coding at low bit rates

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121115

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20131115

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20141117

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20151112

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee