KR20090016343A - Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법 - Google Patents

Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법 Download PDF

Info

Publication number
KR20090016343A
KR20090016343A KR1020070080901A KR20070080901A KR20090016343A KR 20090016343 A KR20090016343 A KR 20090016343A KR 1020070080901 A KR1020070080901 A KR 1020070080901A KR 20070080901 A KR20070080901 A KR 20070080901A KR 20090016343 A KR20090016343 A KR 20090016343A
Authority
KR
South Korea
Prior art keywords
phase
signals
encoding
signal
amplitude
Prior art date
Application number
KR1020070080901A
Other languages
English (en)
Other versions
KR100911994B1 (ko
Inventor
장인선
백승권
장대영
강경옥
유정주
강홍구
이창헌
이동금
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070080901A priority Critical patent/KR100911994B1/ko
Publication of KR20090016343A publication Critical patent/KR20090016343A/ko
Application granted granted Critical
Publication of KR100911994B1 publication Critical patent/KR100911994B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams

Abstract

본 발명은 음성 및 오디오 신호의 코딩 및 디코딩에 관한 것으로서, 더욱 구체적으로는 HHT(Hilbert-Huang Transform)을 이용하여 음성 및 오디오신호와 같이 비정규적(non-stationary) 특성이 강한 입력신호를 동시에 부호화 및 복호화 할 수 있는 장치 및 방법에 관한 것이다.
본 발명은 입력신호에 대하여 HHT를 적용하여 각기 다른 주파수 대역을 갖는 신호들로 분리하는 단계와, 상기 분리된 신호 각각을 독립적으로 부호화하는 단계 및 상기 독립적으로 부호화된 각각의 신호를 다중화하는 단계를 포함하는 부호화 방법을 제공한다.
힐버트 변환, EMD, HHT, intrinsic mode function,

Description

HHT를 이용한 음성 및 오디오 신호의 부호화/복호화 장치 및 방법{METHOD AND APPARATUS FOR ENCODING/DECODING SIGNAL HAVING STRONG NON-STATIONARY PROPERTIES USING HILBERT-HUANG TRANSFORM}
본 발명은 음성 및 오디오 신호의 코딩 및 디코딩에 관한 것으로서, 더욱 구체적으로는 HHT(Hilbert-Huang Transform)을 이용하여 음성 및 오디오신호와 같이 비정규적(non-stationary) 특성이 강한 입력신호를 효율적으로 동시에 부호화 및 복호화 할 수 있는 장치 및 방법에 관한 것이다.
일반적으로, 음성(voice, speech) 코덱과 오디오(audio, music) 코덱은 독립적으로 개발되어 왔다.
음성 또는 오디오와 같은 단일 콘텐츠를 처리하는 부호화기는 이동통신에서의 음성 통신, portable MP3 플레이어와 같은 music player에서 매우 효과적으로 사용되고 있으나, 향후 방송과 통신의 융합으로 보다 다양한 콘텐츠의 전송이 요구되고, 또한 air channel의 근본적인 용량 한계로 인하여 저 비트율 전송이 불가피 하다. 이를 해결하기 위하여 음성 및 오디오 신호를 효율적으로 통합 처리할 수 있는 저 비트율 부호화 기술이 필요하다.
기존의 부호화 기술은 음성 및 오디오에 대하여 각각 독립적으로 개발되어 왔으며, 음성 신호에 대하여 CELP (Code Excited Linear Prediction) 구조라는 최적의 기술이 개발되었고, 오디오 신호에 대하여 AAC+ 기술이 완성되었다. 그러나 각 부호화 기술은 서로 다른 영역의 특성을 갖는 입력신호에 대하여 큰 성능의 저하를 유발하는 문제점이 있다. 즉, CELP 부호화 방식은 오디오 신호(music signal)가 입력되면 잘못된 모델링에 의하여 정확한 주파수 정보를 표현하지 못하여 매우 큰 성능 저하가 발생하고, 저 비트율 AAC+에 음성 신호(speech signal)가 입력되면 한정된 비트로 인하여 하모닉 구조를 정확하게 표현하지 못하여 성능이 저하된다.
최근 3GPP에서는 보다 다양한 특성의 신호를 처리하기 위하여 다중 구조를 가지는 AMR-WB+가 표준화 되었다. 상기 AMR-WB+는 CELP 구조의 AMR-WB와 Transform 구조의 TCX (Transform Coded Excitation) 모듈을 가지는 이중 구조로써 입력 신호에 따라 CELP와 TCX 구조를 선택하여 사용한다. 결국 음성은 CELP로 처리하고 오디오는 Transform 부호화기로 처리하는 기본적인 구조를 제공하며, 하나의 부호화기로 32kbps 이하의 저 비트율에서 음성과 오디오에 대하여 모두 우수한 성능을 가진다. 그러나 AMR-WB+의 가장 큰 문제점은 TCX 모듈의 성능이 AAC+에 비하여 떨어지는 것이며, 그 결과 오디오 신호에 대한 성능이 AAC+보다 저하된다.
하기 [표 1]은, 음성 및 오디오 신호에 대하여 두 부호화 기술의 청취 성능을 공식적으로 측정한 결과이다.
Figure 112007058276201-PAT00001
상기 [표 1]을 참조하면, 모든 비트율에서 음성 콘텐츠에 대해서는 AMR-WB+의 성능이 우수하고 오디오 콘텐츠에 대해서는 AAC+의 성능이 우수함을 보여준다. 따라서 두 부호화 기술은 매우 상반된 특성과 성능을 가지며, 결국 다양한 특성의 입력을 다루는 응용 분야에서 두 부호화 기술 모두 최적의 부호화 기술이 될 수 없음을 나타낸다.
즉, 종래 기술에 따른 통합 부호화 기술은 AMR-WB+와 AAC+가 서로 상반되는 장단점을 가지고 있으며, 아직까지 두 부호화 기술 모두 최고의 성능을 제공하지 못하고 있다. 따라서 음성 및 오디오 신호에 대해 우수한 성능을 제공하는 통합 부호화 기술이 요구된다.
본 발명은 상술한 바와 같은 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 본 발명의 목적은, 음성 및 오디오 신호를 동시에 효율적으로 부호화 및 복호화할 수 있는 장치 및 방법을 제공하는 것이다.
또한, 본 발명의 다른 목적은 비 정규적 특성이 강한 입력 신호를 효율적으로 부호화 및 복호화할 수 있는 장치 및 방법을 제공하는 것이다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은, 입력신호를 각기 다른 주파수 대역을 갖는 신호들로 분해하는 신호 분해부; 상기 분해된 신호를 힐버트 변환하여 상기 분해된 신호 각각의 순간 위상 및 순간 진폭 정보를 추출하는 위상 및 진폭 정보 추출부; 및 상기 추출된 순간 위상 및 순간 진폭 정보를 이용하여 상기 분해된 신호 각각을 부호화하는 부호화부;를 포함하는 부호화 장치를 제공한다.
본 발명의 다른 일측에 따르는 부호화 장치는, 입력신호를 각기 다른 주파수 대역을 갖는 신호들로 분해하는 신호분해부; 상기 분해된 신호들 중 고주파 영역에 속하는 신호들에 대하여 CELP 기반 부호화 또는 오디오 신호 부호화 알고리즘을 적용하여 부호화하는 제 1부호화부; 및 상기 분해된 신호들 중 고주파 영역에 속하지 않는 나머지 신호들에 대하여 힐버트 변환을 적용하여 각각의 순간 위상 및 순간 진폭 정보를 추출하고 상기 추출된 순간 위상 및 순간 진폭 정보를 부호화하는 제 2부호화부를 포함한다.
또한, 본 발명은 입력신호에 대하여 HHT를 적용하여 각기 다른 주파수 대역을 갖는 신호들로 분해하는 단계; 상기 분해된 신호 각각을 독립적으로 부호화하는 단계; 및 상기 독립적으로 부호화된 각각의 신호를 다중화하는 단계를 포함하는 부호화 방법을 제공한다.
본 발명에 따른 부가적인 특징 및 장점은, 후술하는 본 발명의 실시를 위한 구체적인 내용의 상세한 설명에 의하여 보다 명료해 질 것이며, 본 발명은 비록 한정된 실시예와 도면에 의하여 설명되나, 본 발명의 권리범위는 이러한 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명 사상은 아래에 기재된 특허 청구 범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형은 모두 본 발명 사상의 범주에 속하는 것으로 해석되어야 할 것이다.
본 발명에 따르면, 하나의 통합 코덱으로 비정규적 특성이 강한 음성 및 오디오 신호를 동시에 부호화하는데 있어서, 효율적 방법을 제공할 수 있다. 추후 이동통신/방송 등에 사용할 멀티미디어 부호화기 중, 음성 및 오디오 신호를 위한 부호화기에 효과적으로 적용될 수 있다. 본 발명에 따른 부호화 기술은 기존 음성 및 오디오 부호화 기술과는 다른 새로운 방식이기 때문에, 기존 부호화 기술 사용에 의해 지불되는 막대한 양의 기술료를 절약할 수 있다.
이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 HHT를 이용한 음성 및 오디오 신호의 부호화/복호화 장치 및 방법을 상세히 설명한다.
본 발명의 기본적인 원리는, HHT(Hilbert-Huang Transform) 방법을 이용하여 입력 신호를 각기 다른 주파수 대역 범위를 갖는 intrinsic mode function (IMF) 신호들로 분해하고, 이러한 각 신호들의 순간 위상(phase)과 진폭(amplitude) 정보들을 추출하여 양자화함으로써 비정규적(non-stationary) 특성이 강한 신호들을 보다 효율적으로 부호화하는 것이다. 상기 HHT는 empirical mode decomposition (EMD) 방법과 힐버트 변환(Hilbert transform)을 합하여 부르는 명칭이다.
본 발명에 있어서, 순간 위상 정보의 부호화 방식은 임의의 짧은 시간구간에서의 다항식(polynomial) 위상 모델링 방법을 기반으로 수행된다. 효율적인 위상 부호화를 위해 임의의 짧은 시간구간에서 위상 정보들을 다항식으로 모델링한 후, 다항식 계수들을 양자화한다. 추출되는 IMF 신호의 인덱스가 증가함에 따라 단 구간 내에서의 시간에 따른 주파수 변화가 감소하는 특징을 감안하면, 이러한 위상 부호화 방식은 IMF 신호의 인덱스가 증가함에 따라 매우 효율적이다. 참고적으로, 위상은 시간에 따른 주파수 성분들의 누적 합으로 얻어진다.
상기 IMF 신호의 인덱스란, HHT 방법에 의하여 고주파 대역부터 저주파 대역까지 분해된 신호들의 순서를 의미한다.
본 발명에 있어서, 순간 진폭 정보들은 벡터 양자화(vector quantization) 방법에 기반하여 부호화된다. 순간 진폭 정보는 양(+)의 값을 갖는 신호의 전체적인 포락선(envelope)을 나타내며, 이들은 서로 시간 영역에서 비교적 높은 상관관계를 가지기 때문에 벡터 양자화 방법으로도 효율적으로 부호화될 수 있다.
도 1은 본 발명에 따른 부호화 장치의 개략적인 구성을 나타내는 블럭도이다.
도 1을 참조하면, 부호화 장치는 입력신호를 각기 다른 주파수 대역을 갖는 신호들로 분해하는 신호분해부(110)와, 상기 분해된 신호를 힐버트 변환하여 상기 분해된 신호 각각의 순간 위상 및 순간 진폭 정보를 추출하는 위상 및 진폭 정보 추출부(120) 및 상기 추출된 순간 위상 및 순간 진폭 정보를 이용하여 상기 분해된 신호 각각을 부호화하는 부호화부(130)를 포함하여 이루어진다.
상기 신호분해부(110)는, 입력 신호에 대하여 EMD(empirical mode decomposition)을 적용하여 입력 신호를 분해한다. 상기 입력신호는 주로 비정규적 특성이 강한 신호로써, 예를 들어 음성 및 오디오 신호가 혼합된 신호이거나, 음성 또는 오디오 신호중 어느 하나일 수 있다.
상기 위상 및 진폭 정보 추출부(120)는 힐버트 변환을 수행하는 힐버트 변환기에 해당한다.
상기 부호화부(130)은 상기 분해된 입력신호 각각에 대하여 독립적으로 부호화를 수행하기 위한 다수의 부호화기를 포함하여 구성된다.
도 2는 본 발명에 따른 부호화 장치의 상세 구성을 나타내는 블럭도이다.
도 2를 참조하면, 본 발명에 따른 부호화 장치는, 입력신호에 EMD를 적용하여 입력신호의 각 프레임 마다 각기 다른 주파수 대역을 갖는 IMF 신호들로 분해하는 신호분해부(210)와, 상기 IMF 신호들 각각의 위상과 진폭 정보를 추출하기 위한 다수의 힐버트 변환부(220)와, 각각의 IMF 신호의 위상 및 진폭 알고리즘을 이용하여 부호화하는 다수의 부호화부(230)(부호화부 1 ~ 부호화부 N) 및 상기 부호화된 각각의 IMF 신호를 다중화(비트 패킹, Bit packing)하는 다중화부(250)을 포함하여 구성된다.
도 3은 본 발명의 실시예에 따르는 IMF 신호별로 위상 및 진폭을 부호화하는 부호화부의 상세 구성을 나타내는 블럭도이다.
도 3을 참조하면, 도 2에 도시된 부호화부(230)는 각각 위상 부호화부(330) 및 진폭 부호화부(340)를 포함하여 구성된다.
상기 도 3에서,
Figure 112007058276201-PAT00002
는 i번째 IMF 신호에 대한 프레임내의 순간 위상 벡터를 의미하고,
Figure 112007058276201-PAT00003
는 순간 진폭 벡터를 나타낸다. 그리고
Figure 112007058276201-PAT00004
는 순간 위상 벡터를 다항식(polynomial)으로 모델링하였을 때의 계수벡터를 나타낸다.
상기 위상 부호화부(330)는 힐버트 변환부(320)에 의하여 추출된 순간 위상 정보에 대하여 위상 연속화 과정을 수행하는 위상 연속화부(331)와, 상기 연속화 과정을 거친 순간 위상 정보에 대하여 매트릭스 형태의 선형 모델링을 수행하고 상기 매트릭스 형태의 선형 모델로부터 최소 자승법을 이용하여 상기 다항식의 계수들을 계산하는 다항식 모델링부(332) 및 상기 계산된 다항식의 계수들을 양자화하는 양자화부(333)를 포함하여 구성된다.
상기 위상 연속화부(331)는 상기 추출된 위상 정보에 대하여 위상 연속화(Phase unwrapping)을 수행한다.
상기 다항식 모델링부(332)는 하기 [수학식 1]과 같이, 시간 n에서의 순간 위상 정보인
Figure 112007058276201-PAT00005
을 p차의 다항식으로 모델링한다.
Figure 112007058276201-PAT00006
다음에, 상기 다항식 모델링부(332)는 상기 [수학식 1]을 하기 [수학식 2]와 같이, N 길이의 위상 벡터와 p+1 길이의 다항식 계수 벡터를 이용한 매트릭스(matrix) 형태의 선형 모델로 변형한다.
Figure 112007058276201-PAT00007
상기 [수학식 2]의 선형 모델로부터 최소 자승법(least square method)에 의하여 하기 [수학식 3]과 같이 다항식 계수들을 구할 수 있다.
[수학식 3]
Figure 112007058276201-PAT00008
실질적으로, 상기 [수학식 3]에서,
Figure 112007058276201-PAT00009
의 연산은 매트릭스(matrix)의 역변환 과정 때문에 복잡하지만, 길이 N과 다항식의 차수 p가 정해지면 X 매트릭스의 성분들도 상수값으로 고정되기 때문에, 이를 미리 계산하여 테이블로 사용함으로써 연산 효율을 높일 수 있다. 또한, 각 IMF 신호의 다른 위상 변화 특성을 고려하여, IMF 신호별로 각기 다른 모델링 길이 N과 다항식 차수 p를 적용하고 양자화 비트수도 다르게 사용하는 것도 가능하다.
상기 양자화부(333)는 순간 위상 벡터를 모델링하여 추출된 다항식 계수들을 분할 스칼라 양자화(split scalar quantization)한다. 상기 분할 스칼라 양자화는, 하기 [수학식 4]로 정의되는 합성 신호 영역에서의 평균 자승 오차가 최소화 되도 록 수행된다.
Figure 112007058276201-PAT00010
그러나, 실제 신호를 합성하기 위해서는 다항식의 모든 계수들이 필요하기 때문에, a0 부터 ap -1까지는 합성 신호 영역이 아닌 계수 영역에서 양자화가 이루어지고, ap를 양자화하는 과정에서 [수학식 4]의 평균 자승 오차를 최소화하는 방식이 적용된다. 상기 [수학식 4]에서
Figure 112007058276201-PAT00011
은 양자화되지 않은 i 번째 IMF 신호까지 더한 목적(target) 신호이고,
Figure 112007058276201-PAT00012
은 i-1 번째까지 양자화 과정을 통해 구한 신호 에 i 번째 IMF 신호의 위상 정보를 양자화하여 더한 신호를 의미한다.
상기 진폭 부호화부(340)는 진폭 신호 영역에서의 벡터 양자화(vector quantization)를 수행하며, 양자화 효율을 높이기 위하여 프레임 에너지를 계산한 후 그 결과를 이용하여 신호를 정규화(normalization)한 후 양자화 한다.
상기 진폭 부호화부(340)는 상기 추출된 순간 진폭의 프레임 에너지를 계산하는 에너지 계산부(341)와, 상기 계산된 프레임 에너지값을 정규화하여 벡터 양자화하는 벡터 양자화부(344, 345) 및 상기 추출된 순간 진폭을 로그영역에서 스칼라 양자화하는 스칼라 양자화부(342, 343)를 포함하여 구성된다.
도 4는 본 발명에 따르는 복호화 장치의 개략적인 구성을 나타내는 블럭도이다.
도 4를 참조하면, 본 발명에 따르는 복호화 장치는 각기 다른 주파수 대역의 신호 별로 인코딩된 비트 스트림을 수신하여 역다중화하는 역다중화부(410)와, 상기 역다중화된 신호 각각에 대하여 독립적으로 복호화를 수행하는 다수의 복호부(420)(복호부 1 ~ 복호부 N) 및 상기 복호부 각각의 출력 신호를 합산하여 원신호를 복원하는 합산부(430)를 포함하여 구성된다.
도 5는 도 4에 도시된 복호부의 상세 구성을 나타내는 블럭도이다.
도 5를 참조하면, 도 4에 도시된 복호부(420)는 각각 위상 복호부(421, 422, 423)와, 진폭 복호부(424, 425, 426, 427) 및 곱셈부(428)을 포함하여 구성된다.
상기 위상 복호부(421, 422, 423)는 역양자화기(421)를 통해 순간 위상 벡터를 모델링한 다항식 계수 벡터
Figure 112007058276201-PAT00013
를 얻어내고, 이를 바탕으로 역다항식 모델링부(PPM-1)(422)에 의하여 하기 [수학식 5]와 같은 위상 벡터
Figure 112007058276201-PAT00014
를 추출한다.
Figure 112007058276201-PAT00015
그리고, 실제 합성되는 IMF 신호들은 실수이기 때문에, 위상 정보들은 코사 인(cosine) 함수 적용부(423)에 의하여 코사인 함수가 적용된다.
상기 진폭 복호부(424, 425, 426, 427)는 정규화된(normalized) 진폭 벡터 역양자화부(424)와 프레임 에너지 역양자화부(423)에 의하여 수행된다.
상기 진폭 벡터 역양자화부(424)는 표준화된 진폭 벡터
Figure 112007058276201-PAT00016
를 출력한다.
상기 프레임 에너지 역양자화부(423)의 출력값은 로그 영역에서 양자화된 프레임 에너지를 복원하기 위하여 역 지수(exponential) 함수적용부(426)를 거쳐, 곱셈기(427)에서 디코딩된 표준화 진폭 벡터
Figure 112007058276201-PAT00017
와 곱해진다.
결과적으로, 상기 위상 복호부(421, 422, 423) 및 진폭 복호부(424, 425, 426, 427)의 출력 값은 상기 곱셈부(428)에서 곱해져서, i번째 intrinsic mode function (IMF) 신호는 하기 [수학식 6]과 같은 형태로 복원된다.
Figure 112007058276201-PAT00018
도 6은 본 발명의 다른 실시예에 따른 부호화 장치의 구성을 나타내는 블럭도이다.
도 6을 참조하면, 본 발명의 다른 실시예에 따른 부호화 장치는
입력신호를 각기 다른 주파수 대역을 갖는 신호들로 분해하는 신호분해부(EMD)와, 상기 분해된 신호들 중 고주파 영역에 속하는 신호들에 대하여 CELP 기반 부호화 또는 오디오 신호 부호화 알고리즘을 적용하여 부호화하는 제 1부호화 부(620) 및 상기 분해된 신호들 중 고주파 영역에 속하지 않는 나머지 신호들에 대하여 힐버트 변환을 적용하여 각각의 순간 위상 및 순간 진폭 정보를 추출하고 상기 추출된 순간 위상 및 순간 진폭 정보를 부호화하는 제 2부호화부(630)를 포함하여 구성된다.
즉, 상기 본 발명의 다른 실시예는 힐버트(Hilbert) 영역에서의 IMF 신호 부호화 방법과 시간 영역에서의 CELP 기반 부호화 또는 기존 오디오 부호화 방식을 혼합하여 사용하는 하이브리드(hybrid) 부호화 알고리듬의 실시 예를 나타낸다. 실제로, 첫 번째 또는 두 번째 IMF 신호들은 대부분 고주파 영역에 존재하고 순간 위상의 변화가 크기 때문에, 다항식(polynomial)을 이용한 순간 위상 모델링 효율이 떨어지게 된다. 이에 이 신호들에 대해서는 기존의 음성 부호화에서 사용되는 CELP(Code-Excited Linear Prediction) 기반 방식 또는 오디오 부호화 알고리듬을 사용함으로써 부호화 효율을 향상시킬 수 있다.
상기 도 6에서, 심리 음향 모델링부(610)는 입력신호에서 청각적으로 중요하지 않은 불필요한 성분들을 제거하기 위하여 입력신호에 심리 음향 모델(Psycho-Acoustic model, PAM)을 적용한다.
또한, 상기 심리 음향 모델의 적용은 입력신호에 대하여 수행되거나, 도 6에 도시된 바와 같이, 각각의 IMF 신호의 힐버트 변환 후에 적용함으로써, 부호화 효율을 높일 수 있다.
본 발명에 따른 부호화 및 복호화 방법은 다양한 컴퓨터 수단을 통하여 수 행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되 며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명에 따른 부호화 장치의 개략적인 구성을 나타내는 블럭도이다.
도 2는 본 발명에 따른 부호화 장치의 상세 구성을 나타내는 블럭도이다.
도 3은 본 발명의 실시예에 따르는 IMF 신호별로 위상 및 진폭을 부호화하는 부호화부의 상세 구성을 나타내는 블럭도이다.
도 4는 본 발명에 따르는 복호화 장치의 개략적인 구성을 나타내는 블럭도이다.
도 5는 도 4에 도시된 복호부의 상세 구성을 나타내는 블럭도이다.
도 6은 본 발명의 다른 실시예에 따른 부호화 장치의 구성을 나타내는 블럭도이다.

Claims (14)

  1. 입력신호를 각기 다른 주파수 대역을 갖는 신호들로 분해하는 신호분해부;
    상기 분해된 신호를 힐버트 변환하여 상기 분해된 신호 각각의 순간 위상 및 순간 진폭 정보를 추출하는 위상 및 진폭정보 추출부; 및
    상기 추출된 순간 위상 및 순간 진폭 정보를 이용하여 상기 분해된 신호 각각을 부호화하는 부호화부;를 포함하는 부호화 장치.
  2. 제 1 항에 있어서, 상기 부호화부는,
    상기 추출된 순간 위상 정보를 다항식으로 모델링하여 상기 다항식의 계수들을 부호화하는 위상 부호화부; 및
    상기 추출된 순간 진폭 정보를 벡터 양자화하여 부호화하는 진폭 부호화부를 포함하여 구성되는 것을 특징으로 하는 부호화 장치.
  3. 제 2 항에 있어서, 상기 위상부호화부는,
    상기 추출된 순간 위상 정보에 대하여 위상 연속화 과정을 수행하는 위상 연속화부;
    상기 연속화 과정을 거친 순간 위상 정보에 대하여 매트릭스 형태의 선형 모 델링을 수행하고, 상기 매트릭스 형태의 선형 모델로부터 최소 자승법을 이용하여 상기 다항식의 계수들을 계산하는 위상 모델링부; 및
    상기 계산된 다항식의 계수들을 양자화하는 양자화부를 포함하여 구성되는 것을 특징으로 하는 부호화 장치.
  4. 제 3 항에 있어서, 상기 위상 모델링부는,
    모델링 길이와 다항식 차수에 따라서 미리 저장된 변환 매트릭스를 사용하여 상기 다항식의 계수들을 계산하는 것을 특징으로 하는 부호화 장치.
  5. 제 2 항에 있어서, 상기 진폭 부호화부는,
    상기 추출된 순간 진폭의 에너지를 계산하는 에너지 계산부;
    상기 계산된 에너지값을 정규화하여 벡터 양자화하는 벡터 양자화부; 및
    상기 추출된 순간 진폭을 로그영역에서 스칼라 양자화 하는 스칼라 양자화부를 포함하여 구성되는 것을 특징으로 하는 부호화 장치.
  6. 입력신호를 각기 다른 주파수 대역을 갖는 신호들로 분해하는 신호분해부;
    상기 분해된 신호들 중 고주파 영역에 속하는 신호들에 대하여 CELP 기반 부 호화 또는 오디오 신호 부호화 알고리즘을 적용하여 부호화하는 제 1부호화부; 및
    상기 분해된 신호들 중 고주파 영역에 속하지 않는 나머지 신호들에 대하여 힐버트 변환을 적용하여 각각의 순간 위상 및 순간 진폭 정보를 추출하고 상기 추출된 순간 위상 및 순간 진폭 정보를 부호화하는 제 2부호화부를 포함하는 부호화 장치.
  7. 제 6 항에 있어서, 상기 입력신호에 심리 음향 모델을 적용하여 상기 신호 분해부로 제공하는 심리 음향 모델링부를 더 포함하는 것을 특징으로 하는 부호화 장치.
  8. 제 6 항에 있어서, 상기 제 2 부호화부는 상기 힐버트 변환이 적용된 신호에 심리 음향 모델을 적용하여 불필요한 성분들을 제거하는 것을 특징으로 하는 부호화 장치.
  9. 각기 다른 주파수 대역의 신호 별로 인코딩된 비트 스트림을 수신하여 역다중화하는 역다중화부;
    상기 역다중화된 각각의 신호를 역양자화하여 위상 벡터를 모델링한 다항식 계수벡터로부터 위상정보를 추출하는 위상 역양자화부;
    상기 역다중화된 각각의 신호를 역양자화하여 진폭 벡터 및 진폭 벡터의 에너지로부터 진폭 정보를 추출하는 진폭 역양자화부;
    상기 추출된 각각의 위상정보 및 진폭정보를 곱하여 각기 다른 주파수 대역의 신호들로 복원하는 곱셈부; 및
    상기 복원된 각기 다른 주파수 대역의 신호들을 합산하여 원신호로 복원하는 합산부를 포함하는 복호화 장치.
  10. 제 9 항에 있어서, 상기 원신호는,
    음성 및 오디오 신호가 혼합된 신호이거나, 음성 또는 오디오 신호중 어느 하나임을 특징으로 하는 복호화 장치.
  11. 입력신호에 대하여 HHT를 적용하여 각기 다른 주파수 대역을 갖는 신호들로 분해하는 단계;
    상기 분해된 신호 각각을 독립적으로 부호화하는 단계; 및
    상기 독립적으로 부호화된 각각의 신호를 다중화하는 단계를 포함하는 부호화 방법.
  12. 제 11 항에 있어서, 상기 분해된 신호 각각을 독립적으로 부호화하는 단계는,
    상기 분해된 신호 각각에 대하여 순간 위상 정보 및 순간 진폭 정보를 추출하는 단계;
    상기 추출된 순간 위상 및 진폭 정보의 특성에 따라서 각기 다른 부호화 방법을 적용하여 상기 순간 위상 및 진폭 정보를 부호화하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
  13. 제 12 항에 있어서, 상기 각기 다른 부호화 방법 중 적어도 하나는,
    상기 추출된 순간 위상 정보를 다항식으로 모델링하여 상기 다항식의 계수들을 부호화하고 상기 추출된 순간 진폭 정보를 벡터 양자화하여 부호화하는 것임을 특징으로 하는 부호화 방법.
  14. 각기 다른 주파수 대역의 신호 별로 인코딩된 비트 스트림을 수신하여 역다중화하는 단계;
    상기 역다중화된 신호 각각의 위상 벡터를 모델링한 다항식 계수 벡터로부터 위상정보를 추출하고, 상기 역다중화된 신호 각각의 진폭 벡터 및 진폭 벡터의 에 너지로부터 진폭 정보를 추출하는 단계;
    상기 역다중화된 신호 각각의 상기 추출된 위상 정보와 진폭 정보를 곱하는 단계; 및
    상기 추출된 위상 정보와 진폭정보를 곱한 각각의 신호를 합산하는 단계를 포함하는 복호화 방법.
KR1020070080901A 2007-08-10 2007-08-10 Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법 KR100911994B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070080901A KR100911994B1 (ko) 2007-08-10 2007-08-10 Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070080901A KR100911994B1 (ko) 2007-08-10 2007-08-10 Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법

Publications (2)

Publication Number Publication Date
KR20090016343A true KR20090016343A (ko) 2009-02-13
KR100911994B1 KR100911994B1 (ko) 2009-08-13

Family

ID=40685586

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070080901A KR100911994B1 (ko) 2007-08-10 2007-08-10 Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법

Country Status (1)

Country Link
KR (1) KR100911994B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10008198B2 (en) 2013-03-28 2018-06-26 Korea Advanced Institute Of Science And Technology Nested segmentation method for speech recognition based on sound processing of brain
CN109767760A (zh) * 2019-02-23 2019-05-17 天津大学 基于振幅和相位信息的多目标学习的远场语音识别方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101055326B1 (ko) * 2011-03-17 2011-08-08 김순석 레일 은폐형 창호장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4495643A (en) 1983-03-31 1985-01-22 Orban Associates, Inc. Audio peak limiter using Hilbert transforms
US6272226B1 (en) 1997-04-02 2001-08-07 Scientific-Atlanta, Inc. Apparatus and method for masking audio signals in a signal distribution system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10008198B2 (en) 2013-03-28 2018-06-26 Korea Advanced Institute Of Science And Technology Nested segmentation method for speech recognition based on sound processing of brain
CN109767760A (zh) * 2019-02-23 2019-05-17 天津大学 基于振幅和相位信息的多目标学习的远场语音识别方法

Also Published As

Publication number Publication date
KR100911994B1 (ko) 2009-08-13

Similar Documents

Publication Publication Date Title
TWI444990B (zh) 用以利用複數預測來處理多聲道音訊信號之音訊編碼器、音訊解碼器及相關方法
CN101583994B (zh) 对音频和/或语音信号进行编码和/或解码的方法和设备
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
Ravelli et al. Union of MDCT bases for audio coding
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
KR20100085994A (ko) Mdct 스펙트럼의 결합 인코딩을 이용하는 스케일링 가능한 스피치 및 오디오 인코딩
KR20080059279A (ko) 오디오 압축
US9454972B2 (en) Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
JP2020204784A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
KR20080109299A (ko) 오디오 신호의 부호화/복호화 방법 및 장치
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
WO2012108798A1 (en) Efficient encoding/decoding of audio signals
EP2772912A1 (en) Audio encoding apparatus, audio decoding apparatus, audio encoding method, and audio decoding method
EP2763137A2 (en) Voice signal encoding method, voice signal decoding method, and apparatus using same
KR100911994B1 (ko) Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법
WO2009022193A2 (en) Devices, methods and computer program products for audio signal coding and decoding
US20100280830A1 (en) Decoder
KR100768090B1 (ko) 디코딩의 계산량 감소를 위한 파형 인터폴레이션 인코딩장치 및 그 방법
JPH0990989A (ja) 変換符号化方法および変換復号化方法
KR20080034819A (ko) 부호화/복호화 장치 및 방법
KR20080092823A (ko) 부호화/복호화 장치 및 방법
EP2720223A2 (en) Audio signal processing method, audio encoding apparatus, audio decoding apparatus, and terminal adopting the same
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee