KR20030085354A - 음성 부호화기에서 하모닉 추정 방법 및 장치 - Google Patents

음성 부호화기에서 하모닉 추정 방법 및 장치 Download PDF

Info

Publication number
KR20030085354A
KR20030085354A KR1020020023751A KR20020023751A KR20030085354A KR 20030085354 A KR20030085354 A KR 20030085354A KR 1020020023751 A KR1020020023751 A KR 1020020023751A KR 20020023751 A KR20020023751 A KR 20020023751A KR 20030085354 A KR20030085354 A KR 20030085354A
Authority
KR
South Korea
Prior art keywords
harmonic
spectrum
signal spectrum
band
input signal
Prior art date
Application number
KR1020020023751A
Other languages
English (en)
Other versions
KR100446242B1 (ko
Inventor
윤성완
최용수
윤대희
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR10-2002-0023751A priority Critical patent/KR100446242B1/ko
Priority to US10/425,743 priority patent/US20030204543A1/en
Priority to CNB031241867A priority patent/CN1266671C/zh
Publication of KR20030085354A publication Critical patent/KR20030085354A/ko
Application granted granted Critical
Publication of KR100446242B1 publication Critical patent/KR100446242B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm

Abstract

본 발명은 입력 신호에 대해 윈도우 스펙트럼을 적용하여 입력 신호 스펙트럼을 구하고, 정수 피치 후보에 대하여 윈도우 스펙트럼을 적용하여 합성 신호 스펙트럼을 구하고, 각 하모닉 대역에서의 하모닉 주파수 조정의 한계값을 구하고, 상기 각 하모닉 대역에서 최대점을 추출하고, 상기 구해진 하모닉 주파수 조정의 한계값과 최대점을 이용하여 상기 구해진 입력 신호 스펙트럼과 합성 신호 스펙트럼의 대역별 오차 에너지를 구하고, 상기 오차 에너지를 최소로하는 하모닉 주파수 조정값과 최대점을 구하고, 상기 구해진 하모닉 주파수 조정값과 최대점을 이용하여 하모닉의 크기를 구하는 것으로, 연산량이 감소된다.

Description

음성 부호화기에서 하모닉 추정 방법 및 장치{Apparatus and Method for Estimating Hamonic in Voice-Encoder}
본 발명은 하모닉 음성 부호화기의 부호화 과정 중 입력 음성 신호의 하모닉 추정시 먼저 하모닉 대역에서의 첨점을 추출하고 이를 기준으로 하모닉 주파수를 조정하여 원신호의 스펙트럼과 추정된 하모닉의 스펙트럼의 오차를 줄이는 음성 부호화기에서 하모닉 추정 방법 및 장치에 관한 것이다.
정보 통신 문화가 급속하게 발전함에 따라 의사 전달의 중요한 수단인 음성 처리에 관한 연구가 활발히 진행되고 있다. 음성 처리에 관한 연구는 크게 음성 부호화, 음성 인식, 음성 변환으로 나눌 수 있다. 이중, 음성 부호화는 최근의 멀티미디어 환경에서 크게 부각되는 기술 분야 중 하나이다.
이러한 멀티미디어와 이동 통신의 발달로 인해 특정 집단이나 개인에게 제공되었던 서비스들이 이제는 다수의 대중에게도 제공되었고 그 숫자 역시 기하 급수적으로 늘어나게 되었다. 그로 인해 지금까지 적용되어왔던 전송률로는 사용자 집단의 숫자를 충족시킬 수 없게 되었고, 전송률을 저하시켜 동일 채널 상에 사용자 수를 증가시키면, 음질 열화 문제가 발생하게 된다.이와 같은 배경하에서 음성 부호화기의 개발이 이루어지게 된 것이다.
현재 보편화되고 있는 이동 통신 망과 데이터망을 이용한 음성 통신 서비스에서는 목적과 용도에 따라서 서로 다른 종류의 음성 부호화기가 사용되고 있다.
음성 부호화기는 사람의 음성을 마이크로 받아서 해당 음성 데이터의 주파수 분포, 세기, 음성 데이터의 파형을 부호로 변환하여 전송하고, 수신측에서는 음성을 합성하는 기능을 하여 이동 통신 단말기, 교환기, 화상 회의 시스템 등 많은 분야에 사용되고 있다.
VoIP와 같은 멀티미디어 통신 및 음성 저장 시스템에 사용되고 있는 저전송률 음성 부호화기는 대부분 CELP 부호화기이다.
음성 부호화기는 4-13Kbps의 전송률에서는 시간 영역 부호화기인 CELP 부호화기, 4Kbps 이하의 전송률에서는 주파수 영역 부호화기가 있다.
하모닉 부호화기는 기본 주파수의 고주파 성분으로 여기 신호를 표현한다. 따라서 백색 잡음의 형태로 여기 신호를 표현하는 CELP에 비해 하모닉 부호화기는 무성음 구간에서는 합성 음질의 자연성이 떨어진다.
그러나 음성 신호의 대부분을 차지하는 유성음 구간에서는 CELP에 비해 훨씬 낮은 비트율에서 부호화가 가능하다. 4Kbps이하의 전송률을 가지는 음성 부호화기는 하모닉 부호화기가 많으며, 해당 하모닉 부호화기는 하모닉 추정기와 하모닉 합성기로 구성되며, 하모닉 추정기는 부호화기 전체의 성능에 가장 중요한 영향을 미치는 부분이어서 성능과 계산량을 적절히 고려하여 설계되어야 한다.
하모닉 추정기에 연산량과 음질에 큰 영향을 미치는 부분이 스펙트럼 고조파 추정이다. 하모닉 추정기는 피치, 진폭, 위상 등의 많은 계산량이 요구되어 DSP칩이 사용된다.
피치는 시간영역에서는 정수 단위로 검색되고, 주파수 영역에서는 실수 단위로 검색된다. 실수 피치 기반의 하모닉 추정 방법은 입력 스펙트럼과 합성 스펙트럼과의 오차 에너지를 최소화하는 합성에 의한 분석으로 이루어지므로 상당한 계산량이 요구된다.
한편 CELP 부호화기와는 달리 보간을 통해 합성을 재생하는 하모닉 부호화기에서는 피치의 해상도보다는 피치 윤곽선이 음질에 중요한 역할을 한다.
하모닉 추정 방식은 크게 이산 푸리에 변환에 기반한 방식DFT(Discrete Fourier Transform)과 고속 푸리에 변환에 기반한 방식FFT(Fast Fourier Transform)으로 나눌 수 있다. 이산 푸리에 변환에 기반한 하모닉 추정 방식은 피치 주기에 상관없이 스펙트럼 고조파의 크기와 위상을 동시에 추정할 수 있지만, 피치 주기가 큰 경우에는 이산 푸리에 변환 과정에서 많은 연산량이 요구된다.
고속 푸리에 변환에 기반한 하모닉 추정 방식은 스펙트럼에서 고조파가 관찰될 수 있도록 2-3개의 피치 주기 파형을 고속 푸리에 변환한 후, 스펙트럼의 최고점을 추출하는 첨점 추출 방법이나 기본 주파수의 고조파에 해당하는 주파수에서 스펙트럼을 샘플링하는 방식과 같은 비교적 간단한 방법이 사용될 수 있다.
또 다른 방법으로는 이보다 연산량은 많지만 성능이 우수한 MMSE(MinimumMean Squared Error)방법이 있다.
PWI 같이 피치 주기 단위 하모닉 부호화기에서는 DFT 기반 방법을 사용하고 그 외의 STC, IMBE, HVXC와 같은 대부분의 하모닉 부호화기에서는 연산량 면에서 이득이 있는 FFT기반 방법을 사용한다.
FFT 기반 하모닉 추정에는 2개 이상의 피치 주기 파형을 FFT하여 얻은 원 스펙트럼과 합성 신호 스펙트럼의의 오차 에너지을 최소화하도록 하모닉 크기을 구하는 MMSE방식이 있다.
4Kbps 이하의 전송률을 가지는 실수 피치를 기반으로 하는 고조파 추정 방법에는 음성 데이터를 주파수 영역에서 계산하는 방식으로 MMSE 방식이 있다.
상기 MMSE 방식은 입력 신호 X(n)에 대하여 윈도우 스펙트럼을 적용하여 N1 크기의 고속 푸리에 변환을 한 입력 신호 스펙트럼과 윈도우 스펙트럼을 적용하여 실수 피치 후보에 대해 N2 크기의 고속 푸리에 변환을 한 합성 신호 스펙트럼과의 오차 에너지가 최소가 되도록하는 음성 데이터의 l번째 고조파 크기를 구하는 방식이다.
이하에서는 실수 피치 기반의 하모닉 추정 동작 방법에 대하여 상세히 설명하기로 한다.
도 1은 종래의 실수 피치 기반의 하모닉 추정 동작 방법을 나타낸 블럭도이다.
도 1을 참조하면, 실수 피치 정제부(100)는 입력 신호 스펙트럼()과 합성 신호 스펙트럼()의 오차 에너지()를 구한다.
즉, 상기 실수 피치 정제부(100)는 M개의 실수 피치 후보에 대해서 하나의 입력 신호 스펙트럼()에 대한 합성신호 스펙트럼()을 계산하여 실수 피치 오차의 합인 오차 에너지()가 최소화 되도록 최적의 실수 피치 후보를 검색하여를 선택한다.
여기서, 상기 입력 신호 스펙트럼()은 입력 신호 X(n)에 대하여 윈도우 스펙트럼을 적용하여 N1 크기의 고속 푸리에 변환을 한 신호이고, 상기 합성 신호 스펙트럼()은 윈도우 스펙트럼을 적용하여 실수 피치 후보에 대해 N2 크기의 고속 푸리에 변환을 한 신호이다.
하모닉 크기 추정부(110)는 상기 실수 피치 정제부(100)에서 구해진 오차 에너지를 최소화하는 주파수를 적용하여 하모닉의 크기가 최대가 되는 값을 최적의 하모닉으로 선택한다.
도 2는 종래의 실수 피치 기반의 하모닉 추정 동작 방법을 나타낸 흐름도이다.
도 2를 참조하면, 입력 신호 x(n)에 대하여 윈도우 스펙트럼을 적용하여을 생성한다(S200).
단계 200의 수행후, 상기 생성된을 N1 크기의 고속 푸리에 변환을 하여을 생성한다(S201). 상기 생성된는 입력 신호 스펙트럼으로, 하모닉 추정기의 입력으로 사용된다. 상기 m의 크기는 0이상 N1이하일 수 있다.
단계 201의 수행후, N2 크기의 윈도우 스펙트럼을 이용하여 실수 피치 후보에 대한 합성 신호 스펙트럼을 생성한다(S202). 상기 합성 신호 스펙트럼을 구하는 식은 수학식 1과 같다.
여기서, 상기는 하모닉의 크기를 나타내고, 상기 수학식 1은로 스케일링된 윈도우 스펙트럼로 합성신호 스펙트럼을 표현한 것이다.
은 2개 이상의 피치 주기()를 포함할 수 있도록 길이가인 분석 윈도우() 크기의 FFF 스펙트럼이고, [x]는 실수 x의 정수 부분을 취하는 연산을 나타낸다. 상기 합성 신호 스펙트럼은 l번째 하모닉 대역의 시작()과 끝()을 이용하여 구한다.
대개 분석 윈도우는 Hamming 이나 Kaiser 윈도우를 사용하고, 상기은 수학식 2와 같이 표현된다.
단계 202의 수행후, 전체 주파수 대역에 대해서 상기 입력 신호 스펙트럼과 합성 신호 스펙트럼의 오차에너지를 수학식 3을 이용하여 구한다(S203).
,
여기서,는 기본 주파수,에서의 m의 범위는이다. 또한, l은 고조파의 수를 나타낸 것이다. 상기는 l번째 고조파 대역의 시작점인에서 고조파 대역의 끝점인까지 입력 신호 스펙트럼의 절대값과 합성 신호 스펙트럼절대값의 차를 제곱하여 누적합을 구하는 것이다.
단계 203의 수행후, M개의 실수 피치 후보에 대하여 상기 단계 202와 단계 203을 반복하여 오차 에너지가 최소화되는를 선택한다(S204).
이때, 상기 오차 에너지를 최소화 하기 위하여 수학식 3을에 관하여 미분하여 0이되게 한다. 그러면 수학식 4와 같은 식이 성립된다.
상기 수학식 4로 주어진 하모닉 크기의 신뢰도를 높이기 위해서는 먼저 수학식 5로 주어진 전체 주파수 대역에서의 입력 신호 스펙트럼과 합성 신호 스펙트럼과의 오차 에너지를 최소화하는 정교한 실수 피치 검색이 선행되어야 한다.
,
여기서, M은 검색될 실수 피치 후보의 수로서 통상 10으로 한다.
단계 204의 수행후, 상기 구해진에 대해서 상기 수학식 4를 이용하여 최대의 하모닉 크기를 구한다(S205).
하모닉 추정을 주파수 영역에 따라 전체 주파수 대역에 적용하지 않고 각각의 하모닉 대역에 적응적으로 조정함으로써 입력 피치에 대한 종속성을 없애고 피치 검색에 따른 많은 연산량을 감소시키는 계산 방법으로 일명 델타 조정법을 사용한다. 상기 델타 조정법은 정수 단위의 피치를 사용하여 각각의 하모닉에 대하여 해당 하모닉 주파수를 좌우로만큼 조정하여 입력 신호 스펙트럼과 합성 신호 스펙트럼 사이에 오차 에너지가 최소가 되는을 구하고, 상기를 적용하여 최대의 하모닉 크기를 구하는 것이다. 이하에서는 델타 조정법에 대하여 살펴보기로 한다.
도 3은 종래의 델타 조정법을 이용한 하모닉 추정 장치를 나타낸 블럭도이다.
도 3을 참조하면, 입력 신호 스펙트럼()은 입력 음성 신호 x(n)에 대하여 윈도우 스펙트럼을 적용하여 N1 크기의 고속 푸리에 변환하여 생성된 신호이다. 합성 신호 스펙트럼()은 정수 피치 후보에 대하여 윈도우 스펙트럼을 적용하고, N2 크기의 고속 푸리에 변환하여 생성된 신호이다.
델타 조정부(300)는 정수 단위의 피치를 이용하여 하모닉 주파수의 조정값의 범위을 구하고 상기의 범위에 속하는를 적용하여가 최대가 되는를 최적의 주파수 조정값으로 선택한다.
하모닉 크기 추정부(310)는 상기 델타 조정부(300)에서 구해진 오차 에너지를 최소화하는 주파수 조정값를 적용하여 하모닉의 크기가 최대가 되는 값을 최적의 하모닉으로 선택한다.
도 4는 종래의 델타 조정을 이용한 하모닉 추정 동작 방법을 나타낸 흐름도이다.
도 4를 참조하면, 입력 신호x(n)에 대하여 윈도우 스펙트럼을 적용하여을 생성한다(S400).
단계 400의 수행후, 상기 생성된을 N1 크기의 고속 푸리에 변환을 하여을 생성한다(S401). 상기 생성된는 입력 신호 스펙트럼으로, 하모닉 추정기의 입력으로 사용된다. 상기 m의 크기는 0이상 N1이하일 수 있다.
단계 401의 수행후, N2 크기의 윈도우 스펙트럼을 이용하여 정수 피치후보에 대한 합성 신호 스펙트럼을 생성한다(S402). 상기 합성 신호 스펙트럼을 구하는 식은 수학식 6과 같다.
여기서, 상기는 고조파의 크기를 나타내고, 상기 수학식 6은로 스케일링된 윈도우 스펙트럼로 합성신호 스펙트럼을 표현한 것이다.
은 2개 이상의 피치 주기()를 포함할 수 있도록 길이가인 분석 윈도우() 포인트 FFF 스펙트럼이고, [x]는 실수 x의 정수 부분을 취하는 연산을 나타낸다. 상기 합성 신호 스펙트럼은 l번째 하모닉 대역의 시작()과 끝()을 이용하여 구한다.
대개 분석 윈도우는 Hamming 이나 Kaiser 윈도우를사용하고, 상기은 수학식 7와 같이 표현된다.
단계 402의 수행후, 정수 단위 피치를 이용하여 하모닉 주파수의 조정값의 한계치을 구한다(S403). 상기은 수학식 8을 이용하여 구한다.
상기은 고조파 주파수의 조정값의 범위를 나타내며, 해당의 값은 주파수에 비례하여 저주파 대역에서는 작게, 고주파 대역으로 갈수록 크게 한다.
단계 403의 수행후, 상기 구해진의 범위내에서 수학식 9를 이용하여 오차 에너지를 최소로하는을 구한다(S404).
상기 수학식 9는의 절대값과 합성 신호 스펙트럼절대값의차를 제곱하여 하모닉의 시작점에서 하모닉 대역의 끝점인까지 더한 값이다. 상기의 범위는에서까지이다.
단계 404에서 구해진를 수학식 10에 적용하여 최대의 하모닉 크기를 구한다(S405).
그러나 상기와 같은 종래에는 할당된 비트나 연산량의 제한으로 인하여 음성 부호화기의 피치 검색의 정확도가 떨어져 입력 신호 스펙트럼과 합성 신호 스펙트럼의 하모닉 중심 주파수의 오차는 고주파수 영역으로 갈수록 커지며, 하모닉 분석의 성능이 급격히 저하되는 문제점이 있다.
또한, 실수 피치 기반 하모닉 추정 방법은 입력 신호 스펙트럼의 피치의 정확도에 종속적인 성능을 가지며, 정확한 피치 검색에 많은 계산량이 소요되는 문제점이 있다.
또한, 델타 조정법을 사용하여 고주파수 대역에서 생기는 하모닉 추정 오차는 줄일 수 있지만, 피치 변이 등의 이유로 저주파수 대역에서 생기는 오차는 줄일 수 없는 문제점이 있다.
따라서, 본 발명의 목적은 첨점 추출과 델타 조정 기법을 사용하여 연산량을 감소시키는 음성 부호화기에서 하모닉 추정 방법 및 장치를 제공하는데 있다.
본 발명의 다른 목적은 연산량이 중요한 관심사가 되는 DSP칩을 이용한 실시간 구현에 있어서 매우 효율적인 음성 부호화기에서 하모닉 추정 방법 및 장치를 제공하는데 있다.
본 발명의 또 다른 목적은 저 전송률 음성 부호화기에서 필수적인 기술을 확보함으로써 기존의 기술을 대체하는 음성 부호화기에서 하모닉 추정 방법 및 장치를 제공하는데 있다.
도 1은 종래의 실수 피치 기반의 하모닉 추정 동작 방법을 나타낸 블럭도.
도 2는 종래의 실수 피치 기반의 하모닉 추정 동작 방법을 나타낸 흐름도.
도 3은 종래의 델타 조정법을 이용한 하모닉 추정 장치를 나타낸 블럭도.
도 4는 종래의 델타 조정을 이용한 하모닉 추정 동작 방법을 나타낸 흐름도.
도 5는 본 발명의 바람직한 일 실시예에 따른 델타 조정법과 첨점 추출을 이용한 하모닉 추정 장치를 개략적으로 나타낸 도면.
도 7은 본 발명의 바람직한 일 실시예에 따른 델타 조정법과 첨점 추출을 이용한 하모닉 추정 방법을 나타낸 흐름도.
도 8a은 델타 조정법만을 사용한 경우의 합성 스펙트럼을 나타낸 도면.
도 8b는 본 발명의 바람직한 일 실시예에 따른 델타 조정법과 첨점 출 기법을 사용한 경우의 합성 스펙트럼을 나타낸 도면.
<도면의 주요 부분에 대한 부호의 설명>
100 : 실수 피치 정제부 110, 310, 520, 670 : 하모닉 크기 추정부
300, 520 : 델타 조정부 500 : 첨점 추출부
600 : 윈도우부 610 : 푸리에 변환부
630 : 하모닉 대역 스펙트럼 합성부 640 : 합성부
650 : 하모닉 대역 오차 에너지 추출부
660 : 오차 에너지 판단부
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 입력 신호에 대해 윈도우 스펙트럼을 적용하여 입력 신호 스펙트럼을 구하고, 정수 피치 후보에 대하여 윈도우 스펙트럼을 적용하여 합성 신호 스펙트럼을 구하고, 각 하모닉 대역에서의 하모닉 주파수 조정의 한계값을 구하고, 상기 각 하모닉 대역에서 최대점을 추출하고, 상기 구해진 하모닉 주파수 조정의 한계값과 최대점을 이용하여 상기 구해진 입력 신호 스펙트럼과 합성 신호 스펙트럼의 대역별 오차 에너지를 구하고, 상기 오차 에너지를 최소로하는 하모닉 주파수 조정값과 최대점을 구하고, 상기 구해진 하모닉 주파수 조정값과 최대점을 이용하여 하모닉의 크기를 구하는 것을 특징으로 하는 음성 부호화기에서 하모닉 추정 방법 및 장치가 제공된다.
상기 오차 에너지는 상기 입력 신호 스펙트럼의 절대값과 합성신호 스펙트럼의 절대값의 차를 제곱하여 각각의 하모닉 대역에서의 누적합을 하여 구하는 것이다.
상기 하모닉 주파수 조정의 한계값은에 의해서 구해진다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 5는 본 발명의 바람직한 일 실시예에 따른 델타 조정법과 첨점 추출을 이용한 하모닉 추정 장치를 개략적으로 나타낸 도면이다.
도 5를 참조하면, 델타 조정법과 첨점 추출을 이용한 하모닉 추정 장치는 첨점 추출부(500), 델타 조정부(510), 하모닉 크기 추정부(520)를 포함한다.
입력 신호 스펙트럼()은 입력 음성 신호 입력 신호x(n)에 대하여 윈도우 스펙트럼을 적용하여 N1 크기의 고속 푸리에 변환하여 생성된 신호이다. 합성 신호 스펙트럼()은 정수 피치 후보에 대하여 윈도우 스펙트럼을 적용하여 N2 크기의 고속 푸리에 변환을하여 생성된 신호이다.
첨점 추출부(500)는 대역내에서 최고값을 추출하는 역할을 한다.
즉, 상기 첨점 추출부(500)는 전 대역을 l개의 하모닉으로 나누어서 최고값을 구한다. 상기 추출된 첨점은 전 주파수 대역에 걸쳐 원 스펙트럼과 합성 스펙트럼의 각 하모닉에서 일치한다. 즉, 하모닉 피크를 일치시키는 첨점는 합성 신호 스펙트럼에서 각 하모닉 피크 위치에 해당하는범위 내에서 원 신호 스펙트럼의 최대값에 위치하도록 결정된다.
델타 조정부(510)는 정수 단위의 피치를 이용하여 하모닉 주파수의 조정값의 범위을 구하고 상기의 범위에 속하는를 적용하여가 최대가 되는를 최적의 주파수 조정값으로 선택한다.
하모닉 크기 추정부(520)는 상기 델타 조정부(510)에서 구해진 오차 에너지를 최소화하는 주파수 조정값를 적용하여 하모닉 크기가 최대가 되는 값을 최적의 하모닉으로 선택한다.
도 6은 본 발명의 바람직한 일 실시예에 따른 델타 조정법과 첨점 추출을 이용한 하모닉 추정 장치를 좀더 상세히 나타낸 블럭도이다.
도 6을 참조하면, 델타 조정법과 첨점 추출을 이용한 하모닉 추정 장치는 윈도우부(600), 푸리에 변환부(610), 첨점 추출 & 델타 조정부(620), 하모닉 대역 스펙트럼 합성부(630), 합성부(640), 하모닉 대역 오차 에너지 추출부(650), 오차 에너지 판단부(660), 하모닉 크기 추정부(670)를 포함한다.
윈도우부(600)는 입력 음성 신호 x(n)에 대하여 윈도우 스펙트럼을 적용하여을 생성한다.
푸리에 변환부(610)는 상기 윈도우부(600)에서 생성된를 N1 크기의 고속 푸리에 변환을 하여 입력 신호 스펙트럼()을 생성한다.
첨점 추출 & 델타 조정부(620)는 하모닉의 첨점을 추출하고, 정수 단위의 피치를 이용하여 하모닉 주파수의 조정값의 범위을 구한다.
하모닉 대역 스펙트럼 합성부(630)는 정수 피치 후보에 대하여 윈도우 스펙트럼을 적용하여 N2 크기의 합성 신호 스펙트럼()을 생성한다.
하모닉 대역 오차 에너지 추출부(650)는 상기 첨점 추출 & 델타 조정부(620)에서 구해진 하모닉 주파수의 조정값의 범위을 이용하여 오차 에너지를 구한다.
오차 에너지 판단부(660)는 상기 하모닉 대역 오차 에너지 추출부(650)에서 구해진 오차 에너지가 최소인지의 여부를 판단하다.
상기 판단결과 상기 구해진 오차 에너지가 최소이면, 오차 에너지 최소 정보를 하모닉 크기 추정부(670)에 전송한다. 상기 오차 에너지 최소 정보는 오차 에너지를 최소화하는일 수 있다.
만약, 상기 판단결과 상기 구해진 오차 에너지가 최소가 아니면, 상기 오차 에너지 판단부(660)는 상기 구해진 하모닉 주파수의 조정값의 범위의 수에서 적어도 하나를 추출한다. 그런다음 상기 오차 에너지 판단부(660)는 상기 추출된 수를 첨점 추출 & 델타 조정부(620)를 거쳐 하모닉 대역 오차 에너지 추출부(650)에 전송한다. 그러면, 상기 하모닉 대역 오차 에너지 추출부(650)는 상기 전송된이 오차 에너지를 최소화하는지의 여부를 판단한다.
상기 하모닉 크기 추정부(670)는 상기 구해진를 이용하여 최종적인 하모닉 크기를 구한다.
도 7은 본 발명의 바람직한 일 실시예에 따른 델타 조정법과 첨점 추출을 이용한 하모닉 추정 방법을 나타낸 흐름도이다.
도 7을 참조하면, 입력 신호x(n)에 대하여 윈도우 스펙트럼을 적용하여을 생성한다(S700). 단계 700의 수행후, 상기 생성된을 N1 크기의고속 푸리에 변환을 하여을 생성한다(S701). 상기 생성된는 입력 신호 스펙트럼으로, 하모닉 추정기의 입력으로 사용된다. 상기 m의 크기는 0이상 N1이하일 수 있다.
단계 701의 수행후, N2 크기의 윈도우 스펙트럼을 이용하여 정수 피치 후보에 대한 합성 신호 스펙트럼을 생성한다(S702). 상기 합성 신호 스펙트럼을 구하는 식은 수학식 11과 같다.
여기서, 상기는 고조파의 크기를 나타내고, 상기 수학식 11은로 스케일링된 윈도우 스펙트럼로 합성신호 스펙트럼을 표현한 것이다.
은 2개 이상의 피치 주기()를 포함할 수 있도록 길이가인 분석 윈도우() 포인트 FFF 스펙트럼이고, [x]는 실수 x의 정수 부분을 취하는 연산을 나타낸다. 상기 합성 신호 스펙트럼은 l번째 하모닉 대역의 시작()과 끝()을 이용하여 구한다.
대개 분석 윈도우는 Hamming 이나 Kaiser 윈도우를 사용하고, 상기은 수학식 12와 같이 표현된다.
단계 702의 수행후, 각 하모닉 대역에서 최대점을 추출한다(S703). 상기 추출된 최대점은일 수 있다. 상기는 합성 신호의 스펙트럼에서 각 하모닉 피크 위치에 해당하는범위내에서 원 신호 스펙트럼의 최대값의 위치이며, 이 값을 중심으로 오차 에너지가 최대가 되도록 하는을 구하게 된다.
단계 703의 수행후, 정수 단위 피치를 이용하여 각 하모닉 대역에서의 하모닉 주파수 조정값의 한계치을 구한다(S704). 상기은 수학식 13을 이용하여 구한다.
상기은 하모닉 주파수의 조정값의 범위를 나타내는 것으로, 그 범위는에서까지이다. 또한, 상기의 값은 주파수에 비례하여 저주파 대역에서는 작게, 고주파 대역으로 갈수록 크게 한다. 상기는 대역에 따른 조정 폭의 변화량을 나타내는 상수로서, 0.5 이하의 값으로 한다.
단계 704의 수행후, 상기 구한를 이용하여 하모닉 주파수를 조정하여 수학식 14로 주어진 오차 에너지를 최소로 하는을 구한다(S705).
상기 수학식 14는의 절대값과 합성 신호 스펙트럼절대값의차를 제곱하여 고조파의 시작점에서 고조파 대역의 끝점인까지 더한 값이다.
단계 705에서 구해진를 수학식 15에 적용하여 최종적인 하모닉 크기를 구한다(S405).
도 8a은 델타 조정법만을 사용한 경우의 합성 스펙트럼을 나타낸 도면이고, 도 8b는 본 발명의 바람직한 일 실시예에 따른 델타 조정법과 첨점 추출 기법을 사용한 경우의 합성 스펙트럼을 나타낸 도면이다.
도 8a 및 도 8b를 참조하면, 델타 조정법만을 사용한 경우보다 델타 조정법과 첨점 추출기법을 함께 사용하면 오차 범위가 적다.
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
상술한 바와 같이 본 발명에 따르면, 첨점 추출과 델타 조정 기법을 사용하여 연산량을 감소시키는 음성 부호화기에서 하모닉 추정 방법 및 장치를 제공할 수 있다.
또한, 본 발명에 따르면, 연산량이 중요한 관심사가 되는 DSP칩을 이용한 실시간 구현에 있어서 매우 효율적인 음성 부호화기에서 하모닉 추정 방법 및 장치를 제공할 수 있다.
또한, 본 발명에 따르면, 저 전송률 음성 부호화기에서 필수적인 기술을 확보함으로써 기존의 기술을 대체하는 음성 부호화기에서 하모닉 추정 방법 및 장치를 제공할 수 있다.

Claims (4)

  1. 입력 신호에 대해 윈도우 스펙트럼을 적용하여 입력 신호 스펙트럼을 구하고, 정수 피치 후보에 대하여 윈도우 스펙트럼을 적용하여 합성 신호 스펙트럼을 구하는 단계;
    상기 각 하모닉 대역에서 최대점을 추출하고, 상기 각 하모닉 대역에서의 하모닉 주파수 조정의 한계값을 구하는 단계;
    상기 구해진 하모닉 주파수 조정의 한계값과 최대점을 이용하여 상기 구해진 입력 신호 스펙트럼과 합성 신호 스펙트럼의 대역별 오차 에너지를 구하는 단계;
    상기 오차 에너지를 최소로하는 하모닉 주파수 조정값과 최대점을 구하는 단계;
    상기 구해진 하모닉 주파수 조정값과 최대점을 이용하여 하모닉의 크기를 구하는 단계
    를 포함하는 것을 특징으로 하는 음성 부호화기에서 하모닉 추정 방법.
  2. 제1항에 있어서,
    상기 오차 에너지는 상기 입력 신호 스펙트럼의 절대값과 합성신호 스펙트럼의 절대값의 차를 제곱하여 각각의 하모닉 대역에서의 누적합을 하여 구하는 것을 특징으로 하는 음성 부호화기에서 하모닉 추정 방법.
  3. 제1항에 있어서,
    상기 하모닉 주파수 조정의 한계값은
    에 의해서 구해지는 것을 특징으로 하는 음성 부호화기에서 하모닉 추정 방법.
  4. 입력 신호에 대하여 입력 신호 스펙트럼을 구하고, 정수 피치 후보에 대하여 윈도우 스펙트럼을 적용하여 합성 신호 스펙트럼을 구하는 수단;
    각 하모닉 대역에서 최대점을 추출하고, 각 하모닉 대역에서의 주파수 조정의 한계값을 구하는 수단;
    상기 구해진 하모닉 주파수 조정의 한계값과 최대점을 이용하여 상기 구해진 입력 신호 스펙트럼과 합성 신호 스펙트럼의 대역별 오차 에너지를 구하는 수단;
    상기 오차 에너지를 최소로하는 하모닉 주파수 조정값과 최대점을 구하는 수단;
    상기 구해진 하모닉 주파수 조정값과 최대점을 이용하여 하모닉의 크기를 구하는 수단
    를 포함하는 것을 특징으로 하는 음성 부호화기에서 하모닉 추정 장치.
KR10-2002-0023751A 2002-04-30 2002-04-30 음성 부호화기에서 하모닉 추정 방법 및 장치 KR100446242B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR10-2002-0023751A KR100446242B1 (ko) 2002-04-30 2002-04-30 음성 부호화기에서 하모닉 추정 방법 및 장치
US10/425,743 US20030204543A1 (en) 2002-04-30 2003-04-30 Device and method for estimating harmonics in voice encoder
CNB031241867A CN1266671C (zh) 2002-04-30 2003-04-30 估算声音编码器的谐波的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0023751A KR100446242B1 (ko) 2002-04-30 2002-04-30 음성 부호화기에서 하모닉 추정 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20030085354A true KR20030085354A (ko) 2003-11-05
KR100446242B1 KR100446242B1 (ko) 2004-08-30

Family

ID=29244811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0023751A KR100446242B1 (ko) 2002-04-30 2002-04-30 음성 부호화기에서 하모닉 추정 방법 및 장치

Country Status (3)

Country Link
US (1) US20030204543A1 (ko)
KR (1) KR100446242B1 (ko)
CN (1) CN1266671C (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
KR100762596B1 (ko) * 2006-04-05 2007-10-01 삼성전자주식회사 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
US7912709B2 (en) 2006-04-04 2011-03-22 Samsung Electronics Co., Ltd Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal
US8554552B2 (en) 2008-10-31 2013-10-08 Samsung Electronics Co., Ltd. Apparatus and method for restoring voice

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
KR100707184B1 (ko) * 2005-03-10 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
UA94041C2 (ru) * 2005-04-01 2011-04-11 Квелкомм Инкорпорейтед Способ и устройство для фильтрации, устраняющей разреженность
US20070011001A1 (en) * 2005-07-11 2007-01-11 Samsung Electronics Co., Ltd. Apparatus for predicting the spectral information of voice signals and a method therefor
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
CN101552005A (zh) * 2008-04-03 2009-10-07 华为技术有限公司 编码方法、解码方法、系统及装置
CN101814291B (zh) * 2009-02-20 2013-02-13 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
WO2011086923A1 (ja) 2010-01-14 2011-07-21 パナソニック株式会社 符号化装置、復号装置、スペクトル変動量算出方法及びスペクトル振幅調整方法
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN109324502B (zh) * 2018-08-22 2020-01-07 浙江大学 一种疲劳试验机周期波形的谐波控制方法
CN117116245B (zh) * 2023-10-18 2024-01-30 武汉海微科技有限公司 声音信号的谐波生成方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
JPH09237100A (ja) * 1996-02-29 1997-09-09 Matsushita Electric Ind Co Ltd 音声符号化・復号化装置
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
KR100416754B1 (ko) * 1997-06-20 2005-05-24 삼성전자주식회사 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법
US5999897A (en) * 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
US6253171B1 (en) * 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6418407B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for pitch determination of a low bit rate digital voice message
US6963833B1 (en) * 1999-10-26 2005-11-08 Sasken Communication Technologies Limited Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates
JP3325248B2 (ja) * 1999-12-17 2002-09-17 株式会社ワイ・アール・ピー高機能移動体通信研究所 音声符号化パラメータの取得方法および装置
KR100337293B1 (ko) * 2000-08-24 2002-05-17 서평원 음성부호화기에서 고조파 추정 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912709B2 (en) 2006-04-04 2011-03-22 Samsung Electronics Co., Ltd Method and apparatus for estimating harmonic information, spectral envelope information, and degree of voicing of speech signal
KR100762596B1 (ko) * 2006-04-05 2007-10-01 삼성전자주식회사 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US7860708B2 (en) 2006-04-11 2010-12-28 Samsung Electronics Co., Ltd Apparatus and method for extracting pitch information from speech signal
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
US7835905B2 (en) 2006-04-17 2010-11-16 Samsung Electronics Co., Ltd Apparatus and method for detecting degree of voicing of speech signal
US8554552B2 (en) 2008-10-31 2013-10-08 Samsung Electronics Co., Ltd. Apparatus and method for restoring voice

Also Published As

Publication number Publication date
US20030204543A1 (en) 2003-10-30
CN1266671C (zh) 2006-07-26
KR100446242B1 (ko) 2004-08-30
CN1455390A (zh) 2003-11-12

Similar Documents

Publication Publication Date Title
KR100446242B1 (ko) 음성 부호화기에서 하모닉 추정 방법 및 장치
KR101213840B1 (ko) 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
JP4585689B2 (ja) 合成による分析celp型音声符号化のための適応型ウィンドウ
JP5037772B2 (ja) 音声発話を予測的に量子化するための方法および装置
KR100788706B1 (ko) 광대역 음성 신호의 부호화/복호화 방법
KR100388387B1 (ko) 여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템
KR100711047B1 (ko) 폐루프 멀티모드 혼합영역 선형예측 (mdlp) 음성 코더
US8909539B2 (en) Method and device for extending bandwidth of speech signal
KR100497788B1 (ko) Celp 코더내의 여기 코드북을 검색하기 위한 방법 및 장치
KR20050092112A (ko) 분산 음성 인식 시스템내에서 음성 복원을 위한 방법 및장치
WO2005041169A2 (en) Method and system for speech coding
JP2002544551A (ja) 遷移音声フレームのマルチパルス補間的符号化
EP1497631B1 (en) Generating lsf vectors
Gomez et al. Recognition of coded speech transmitted over wireless channels
KR20010029497A (ko) 개선된 고조파 음향 엔코더를 갖는 송신기
EP1436805A1 (en) 2-phase pitch detection method and appartus
KR20050085744A (ko) 오디오 인코딩에서의 사인곡선 선택
KR20050085761A (ko) 오디오 인코딩에서의 사인곡선 선택
KR20020081352A (ko) 유사주기 신호의 위상을 추적하는 방법 및 장치
KR100337293B1 (ko) 음성부호화기에서 고조파 추정 방법
Lee Analysis by synthesis linear predictive coding
Park et al. A Fast Harmonic Estimation Method for Low Bit Rate Harmonic Speech Coders
Kim et al. On a Pitch Alteration for Speech Synthesis Systems
MXPA99001099A (en) Method and apparatus for searching an excitation codebook in a code excited linear prediction (clep) coder
EP1212750A1 (en) Multimode vselp speech coder

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130716

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140715

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150716

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160906

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee