KR100930995B1 - 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체 - Google Patents
오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체 Download PDFInfo
- Publication number
- KR100930995B1 KR100930995B1 KR1020080000673A KR20080000673A KR100930995B1 KR 100930995 B1 KR100930995 B1 KR 100930995B1 KR 1020080000673 A KR1020080000673 A KR 1020080000673A KR 20080000673 A KR20080000673 A KR 20080000673A KR 100930995 B1 KR100930995 B1 KR 100930995B1
- Authority
- KR
- South Korea
- Prior art keywords
- tone
- frequency
- component
- audio signal
- components
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000873 masking effect Effects 0.000 claims abstract description 43
- 230000008859 change Effects 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 5
- 230000007480 spreading Effects 0.000 claims description 5
- 230000010076 replication Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 HE-AAC 부호화 알고리즘과 관련된 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한 오디오 신호 부호화 방법 및 장치를 제공한다. 본 발명의 오디오 신호 부호화 방법은 입력 오디오 신호로부터 톤 성분들을 추출하는 단계; 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 마스킹 임계치를 고려하여 톤 성분의 주파수를 조절하는 단계; 및 SBR 부호화를 수행하는 단계를 포함한다. 본 발명에 따르면 노이즈 성분의 복원을 억제시키고 원래의 톤 성분만을 복원시킴으로써 복원되는 오디오 신호의 음질을 향상시킬 수 있다.
HE-AAC, SBR, 오디오 부호화, 톤 주파수 조절
Description
본 발명은 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한 오디오 신호 부호화 방법 및 장치에 관한 것으로서, 특히 HE-AAC 부호화기에서 고주파 대역의 부호화를 위한 SBR 부호화에 앞서 오디오 신호의 톤 성분을 조절하는 방법 및 장치에 관한 것이다.
표준 AAC 코덱은 낮은 전송률에서 만족스러운 음질을 보여주지 못하는 관계로, SBR(Spectral Efficiency Replication) 알고리즘을 적용하여 낮은 전송률에서도 음질을 대폭 향상시킨 것이 HE-AAC(High Efficienty-AAC)이다.
HE-AAC 오디오 부호화기는 각기 다른 알고리즘의 부호화기 2개로 구성되어 있다. 도 1은 기존의 HE-AAC 부호화기(1)를 나타내는 블록도이다. 도 1에 도시된 HE-AAC 부호화기는 저주파를 담당하는 기존의 AAC 부호화기와 고주파 대역을 담당 하는 SBR 부호화기로 이루어져 있다. HE-AAC 부호화기(1)는 입력부(10), 2:1다운샘플링부(30), 고주파 대역의 오디오 신호를 부호화하는 SBR 부호화부(20), 저주파 대역의 오디오 신호를 부호화한 AAC 부호화부(40), 비트스트림 페이로드 포매터(50)를 구비한다.
HE-AAC 오디오 부호화기는 SBR (Spectral Band Replication) 알고리즘을 사용하여, 고주파 대역을 저주파 대역의 정보를 이용하여 복원시킨다. 여기에서 SBR 알고리즘이란 일종의 주파수 대역폭 확장을 이용한 기법으로서, 고주파 대역의 신호와 저주파 대역의 신호 간의 상관 관계를 이용하여 고주파 신호를 복원하는 방식이다. 특히, SBR 알고리즘은 저주파 대역의 QMF 서브밴드 값에 에너지 이득을 취하여 고주파 대역으로 복사하고, 원래 신호와 고주파 대역의 토널리티(Tonality)를 유사하게 조정하기 위하여 특정 주파수 대역에 톤 성분이나 노이즈 성분을 추가 삽입하여 오디오 신호를 부호화하는 방식이다.
SBR 알고리즘에 따라 부호화된 신호의 복원은 미리 결정된 주파수 대역(Frequency band) 단위로 수행된다. 여기에서 주파수 대역은 특정한 QMF 서브밴드 그룹핑한 것으로서, 에너지 복원은 주파수 대역 단위로 수행된다. HE-AAC 부호화 과정에서 QMF 분석을 거치게 되면 서브밴드 간의 알리어징(Aliasing) 에너지가 생기게 되는데, 이 에너지가 주파수 밴드 간에 걸쳐서 나누어 지게 되면, HE-AAC 복호화 과정에서 각기 다른 성분으로 복원되는 왜곡이 발생하는 문제가 있다.
도 2는 HE-AAC에서 SBR 알고리즘으로 톤 성분이 복원되는 예를 나타낸다. 도 2의 (a)는 SBR 부호화 과정에서 QMF 분석 결과이고, 도 2의 (b)는 (a)의 에너지 특 성을 갖는 신호를 복호화한 결과를 나타낸다. 도 2의 (b)에서 유실되는 하모닉의 복원 성분은 추가해주는 톤 성분이고, 잡음층(Noisefloor)은 해당 주파수 밴드의 토널리티가 낮을 경우에 추가해주는 노이즈 성분을 의미한다. 이 때, 추가되는 톤 성분은 해당 주파수 밴드마다 정해진 주파수의 정현파로 복원시키고, 추가되는 잡음층은 해당 주파수 밴드 전역에 걸쳐서 생성되게 된다. 결과적으로, 입력 신호에서 하나의 성분이 복호화 과정을 거치고 나면, 두개의 성분으로 복원되는 문제가 있다.
상술한 종래 기술의 문제점을 해결하기 위하여, 본 발명은 오디오 신호의 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 마스킹 임계치를 고려하여 톤 성분의 주파수를 조절함으로써, 톤 성분에 대한 복원시에 원래의 신호가 아닌 노이즈 신호의 복원을 방지할 수 있는 톤 주파수 조절 방법 및 장치를 제공하는 것을 목적으로 한다. 또한 본 발명은 이를 이용한 오디오 신호 부호화 방법 및 장치를 제공하는 것을 목적으로 한다.
상술한 본 발명의 목적을 달성하기 위해, 본 발명에 따른 오디오 신호의 톤 주파수 조절 방법은 입력 오디오 신호로부터 톤 성분들을 추출하는 단계; 및 상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절하는 단계를 포함한다.
상술한 본 발명의 또 다른 목적을 달성하기 위해 본 발명에 따른 오디오 신호의 톤 주파수 조절 장치는 입력 오디오 신호로부터 톤 성분들을 추출하는 톤 성분 추출부; 및 상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절하는 주파수 조절부를 포함한다.
상술한 본 발명의 또 다른 목적을 달성하기 위해 본 발명에 따른 오디오 신호 부호화 방법은 입력 오디오 신호로부터 톤 성분들을 추출하는 단계; 상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절하는 단계; 및 상기 톤 성분의 주파수가 조절된 오디오 신호에 대하여 SBR 부호화를 수행하는 단계를 포함한다.
상술한 본 발명의 또 다른 목적을 달성하기 위해 본 발명에 따른 오디오 신호 부호화 장치는 입력 오디오 신호로부터 톤 성분들을 추출하는 톤 성분 추출부; 상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절하는 주파수 조절부; 및 상기 톤 성분의 주파수가 조절된 오디오 신호에 대하여 SBR 부호화를 수행하는 SBR 부호화부를 포함한다.
또한, 본 발명은 상술한 본 발명에 따른 오디오 신호 부호화 방법을 컴퓨터 상에서 수행하기 위한 컴퓨터에서 판독 가능한 기록 매체를 제공하는 것을 목적으로 한다.
본 발명에 따르면 오디오 신호의 주파수 밴드 간의 알리어징(aliasing)에 따 라 발생하는 누출 에너지와 마스킹 임계치를 고려하여 톤 성분의 주파수를 조절함으로써, 노이즈 성분의 복원을 억제시키고 원래의 톤 성분만을 복원시키는 효과가 있다. 또한, SBR 부호화의 경우 낮은 전송률에서는 복원이 시작되는 주파수가 낮아지게 되고, 노이즈의 유입으로 인한 왜곡 현상이 심해지는 문제가 있으나, 본 발명에 따르면 비트 사용량에 변함이 없으며, 복호화과정에서 연산량을 증가시키지 않고도 원 신호의 왜곡을 효과적으로 방지함으로써 SBR 부호화를 채택하고 있는 기존의 오디오 부호화기에 비하여 깨끗한 음질을 갖는 오디오 신호를 복원할 수 있다는 이점이 있다.
이하 도면을 참고하여 본 발명의 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 상기 방법 들을 수행하는 프로그램이 기록된 기록 매체에 대하여 구체적으로 설명한다.
도 3은 본 발명의 일 실시예에 따른 HE-AAC 부호화 장치를 나타내는 블록도이다. 도 3에 도시된 HE-AAC 부호화 장치(100)는 SBR 부호화부에서 오디오 신호를 QMF 분석하기에 앞서, 입력 신호의 톤 성분을 알리어징 에너지가 적어지는 주파수로 조절하기 위한 수단을 구비한다. HE-AAC 부호화 장치(100)는 입력부(110), 톤 주파수 조절부(120), SBR 부호화부(130), 2:1 다운 샘플링부(140), AAC 부호화부(150), 비트스트림 페이로드 포매터(160)를 구비한다.
HE-AAC 부호화 장치(100)는 저주파 대역의 신호는 AAC 알고리즘에 따라 부호화하고, 고주파 대역의 신호는 SBR 알고리즘에 따라 부호화하는 장치이다. 특히, 고주파 대역의 경우 고주파 대역의 주파수 계수를 직접 부호화하지 않고, 저주파 대역과의 연관성을 이용하여 부가정보 만을 부호화 하는 것에 특징이 있다. 또한, HE-AAC는 32kbps 이하의 낮은 비트율에서도 뛰어난 음질을 보장하는 고효율의 오디오 부호화 장치이다. 본 발명의 HE-AAC 부호화 장치는 기존의 구성에 톤 주파수 조절부(120)를 더 포함하는 것을 특징으로 한다. HE-AAC 부호화 장치의 각 구성요소에 대하여는 이하 상세히 설명한다.
우선, 입력부(110)는 부호화하고자 하는 오디오 신호를 프레임 단위로 입력 받는다. 입력된 오디오 신호는 SBR 부호화, AAC 부호화의 순으로 부호화가 진행된다.
톤 주파수 조절부(120)는 SBR 부호화에 앞서 미리 톤 성분의 주파수를 이동시키는 전처리 장치이다. 톤 주파수 조절부(120)는 상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절한다. 톤 주파수 조절부(120)의 세부 구성 및 각 구성에 대한 상세한 설명은 후술한다. SBR 부호화 알고리즘의 특성상, 톤을 복원하기 위해 추가되는 톤 성분(유실되는 하모닉이라고도 한다)은 1프레임 단위로 생성되는데, 생성되는 톤 성분은 주파수 밴드별로 미리 정해진 고정 주파수를 갖는다. 따라서, 해당 주파수 밴드 내에서 입력 오디오 신호의 톤 주파수가 달라진다고 하더라도 출력 신호의 추가된 톤 주파수는 미리 정해진 주파수로 복원되며, 본 발명에서와 같이 사전에 톤을 이동시켜 줄 경우 복원 결과에 미치는 문제점은 없다. 오히려, 톤 성분의 주파수를 이동시킴으로 인해 알리어징 에너지를 줄일 수 있기 때문에, 원래의 톤 에너지와 유사한 에너지를 갖도록 신호를 복원시키는 장점이 있다.
SBR 부호화부(130)는 주파수가 조절된 오디오 신호의 고주파 대역에 대한 부호화를 수행한다. SBR 부호화부(130)는 세부 구성요소로서 QMF 분석기, 프레임 분할기(frame splitter), T/F 그리드 생성기(time/frequency grid generator), 톤 검출부(tonality detector), 포락선 에너지 포매터(envelope energy formatter), 양자화기-T/F 호프만 부호화기 및 비트스트림 멀티플랙서를 포함할 수 있다. QMF 분석기는 입력 신호를 64채널 복소수 QMF로 분해한다. 오디오 신호 단위 프레임당 2048개의 샘플이 있을 경우, QMF분석기는 1프레임의 오디오 신호를 32(시간축)×64(주파수축) 구조의 T/F(시간/주파수)단위로 분해한다. 이는 640개의 샘플로 이루어진 윈도우가 64샘플씩 32번에 걸쳐 이동(shift)된 결과이다. 그리고, 부호화율을 높이기 위하여 T/F 격자를 정의하고 영역을 나눌 수 있다. 32×64 개의 T/F 정보들은 프레임 내의 과도 위치에 따라 주파수와 시간 간격을 가변하며 특정한 영역을 형성하게된다. 먼저 시간 영역은 신호의 특징을 반영하기 위하여 시간 축에서 신호의 특성을 분석하여 과도 구간을 검색할 수 있다. 과도 구간이 검색되지 않을 경우, 프레임 분할기는 현재의 프레임을 몇 개의 구간으로 나눌 것인지를 결정한다. 이렇게 분할된 시간 영역 정보와는 별도로 주파수 영역은 입력 신호와 무관하게 비트율과 샘플링율의 조건에 의존하게된다. 톤 검출부는 블록을 통해 추가될 톤/노이즈(additional tone/noise)의 양을 판단한다. 포락선 에너지 포매터는 원 신호와 복원되는 신호 사이의 보정값을 산출하기 위하여 에너지 보정을 위한 스케일 팩터와 같은 포락선 에너지를 산출한다. 여기에서 포락선 에너지는 QMF 서브 밴드에 따른 평균 에너지를 의미한다. 양자화기-T/F 호프만 부호화기를 통해 양자화 및 호프만 코딩된 정보들은 비트스트림 멀티플랙서를 통해 비트스트림 형식으로 변형된다.
2:1 다운 샘플링부(140)는 입력 샘플에 대한 2:1 다운 샘플링을 수행한다. HE-AAC 부호화 장치는 SBR 부호화를 먼저 수행하고, 설정된 비트율에서 SBR 부호화의 비트 사용량을 제외한 나머지 비트 사용량으로 AAC 부호화를 수행한다. 즉, AAC 부호화기는 1프레임에 1024 샘플씩 입력 받아 처리한다.
AAC 부호화부(150)는 기본적으로 MPEC4-AAC LC 비전의 기본 구조를 따르며, 저주파 대역의 오디오 신호에 대한 부호화를 수행한다. AAC 부호화부(150)는 LTP(long term prediction), PNS(perceptual noise substitution), TWIN VQ(transform-domain weighted interleave vector quantization) 등과 같은 각종 부가 도구들의 유무에 따라 다양하게 구현될 수 있다. 또한, 3GPP(3rd generation partnership project) HE-AAC 부호화기로도 구현될 수 있으며, AAC 부호화기의 형태에 특별한 제한은 없다.
비트스트림 페이로드 포매터(160)는 SBR 부호화기와 AAC 부호화기를 통해 주파수 대역별로 부호화된 신호를 비트스트림 형식으로 변형한다.
본 실시예의 HE-AAC 부호화 장치는 SBR 부호화 처리에 앞서, 톤 성분의 주파수를 이동시키기 위한 톤 주파수 조절부를 더 포함하는 것을 특징으로 한다. 주파수 조절 이후의 장치는 기존의 장치와 유사하다. 본 실시예의 HE-AAC 부호화 장치 에 따라 복원되는 오디오 신호는 SBR 대역인 고주파 대역의 톤 성분이 좀 더 살아나고, 노이즈가 줄어 든 특성을 갖는다.
도 4는 도 3에서 톤 주파수 조절부(120)에 대한 상세 블록도이다. 도 4에 도시된 톤 주파수 조절부(120)는 대역 통과 필터(121), 정현파 모델 분석부(122), 톤 성분 추출부(123), 주파수 조절부(124), 정현 모델 합성부(125), 합산부(126)를 포함한다.
대역 통과 필터(121)는 입력 오디오 신호에서 고주파 대역의 오디오 신호를 분리시킨다. 잔여 성분인 저주파 대역의 신호는 이후 합산부(126)에서 다른 신호들과 함께 오디오 신호의 복원을 위해 사용된다. 대역 통과되는 통과 대역은 SBR 알고리즘에서 결정되는 주파수 대역 테이블에 따라 결정된다. 통과 대역 주파수와 저지 대역 주파수는 각각 k0 와 k0+M 번째 QMF 서브 밴드의 주파수이다. 여기에서, k0 는 SBR 주파수 테이블에서 첫번째 QMF 서브 밴드를 의미하고, M은 SBR로 복원되는 주파수 영역의 QMF 서브 밴드 개수이다.
본 실시예에서 정현파 모델 분석부(122)와 톤 성분 추출부(123)는 주파수 조절의 대상이 되는 톤 성분을 추출하기 위한 톤 성분 선별을 수행한다. 정현파 모델 분석부(122)는 1차적으로 정현 모델 분석의 결과와 하모닉 특성을 이용하여 톤 후보 성분을 추출하며, 톤 성분 추출부(123)는 1차로 선별된 톤 후보 성분들 중에서, 알리어징 에너지가 인지적으로 영향을 미칠 수 있는 톤 후보 성분을 톤 성분으로 추출한다.
우선, 정현파 모델 분석부(122)는 대역 통과된 고주파 대역의 신호에 대한 정현 모델 분석(Sinusoidal model analysis)을 수행하여 톤 후보 성분들을 추출한다. 정현파 모델 분석부(122)는 정현파 모델 분석을 통해 정현파의 주파수 및 위상 변화에 대한 정보를 획득할 수 있다. 특히, 정현파 모델 분석부(122)는 단구간 푸리에 변환부(미도시)와 톤 후보 성분 추출부(미도시)를 더 포함할 수 있다. 단구간 푸리에 변환부는 상기 필터링된 오디오 신호에 단구간 푸리에 변환(Short Time Fourier Transform)을 적용시킨다. 톤 후보 성분 추출부는 정현 모델 분석을 이용하여 상기 단구간 푸리에 변환된 오디오 신호의 피크 성분을 탐색하고, 상기 탐색된 피크 성분의 시간/주파수 기반의 하모닉 특성을 고려하여 톤 후보 성분을 추출한다. 오디오 신호에 STFT (Short Time Fourier Transform)을 적용하여 주파수 영역에서의 피크 주파수를 감시할 경우, 해당 주파수 성분이 시간축에서의 생성하고, 소멸하는 지점의 정보를 참고하여 신호 내의 하모닉 정보를 효과적으로 얻을 수 있다. 정현파 모델 분석부(122)는 다음 조건들을 고려하여 톤 후보 성분을 추출한다.
조건 1)피크 에너지의 기준(threshold)값, 조건 2)하모닉 성분의 에너지 변화율, 조건 3)하모닉 성분의 단위 시간 당 주파수의 변화율, 조건 4) 위 조건 2)번과 조건 3)번을 만족시키지 못하게 되더라도 추출 대상에 넣는 허용 시간 범위, 조건 5) 위 2), 3), 4)번을 만족시켜 추출된 톤 성분의 최소 길이
상술한 사항 들 중에서 특히 중요한 것은 3) 및 5)의 조건이다. 나머지 조건들은 일반 오디오 신호 분석시에 사용되는 값을 그대로 적용하여도 큰 무리가 없지만, 3)과 5)는 SBR의 특성상 이를 고려해 주어야 더 좋은 복원 결과를 얻을 수 있 다. 3)번 조건에서 단위 시간 당 주파수의 변화율 기준을 높일수록 유지해야 하는 주파수 범위가 넓어지게 된다. SBR 복호화 과정의 경우 유실되는 하모닉 성분을 1 프레임 동안 고정된 주파수를 갖는 톤으로 대체하여 복원하기 때문에, 정현파 모델을 통해 톤을 분석할 때 1프레임 동안 일정한 주파수 범위를 유지하는 톤을 추출하는 것이 필요하다. 이는 정현파 모델의 시간당 주파수 변화율의 임계치를 낮추어 줌으로써 가능하다. 예를 들어, HE-AAC 복호화 과정에서 하모닉 신호들이 일정한 주파수를 유지하는 톤으로 복원되므로 복원 결과 신호가 지각적으로 날카로워짐을 고려할 때, 단위 시간 당 주파수의 변화율은 각 QMF 서브 밴드 대역폭의 0.35~0.45, 특히 0.4가 바람직하다.
SBR 알고리즘에 따라 톤을 복원시에는 1프레임 단위로 톤을 대체할 정현파를 삽입하므로 5)번 조건은 1프레임의 시간을 최소 길이로 설정하는 것이 바람직하다. 예를 들어, 톤 성분 추출부(123)는 1프레임 이상의 시간 동안(5번 조건), 기준값 이상의 에너지를 가지며(1번 조건), QMF 서브밴드 대역폭의 35~45% 특히 40% 정도의 주파수의 변화율(3번 조건)을 갖는 피크를 톤으로 추출할 수 있다.
톤 성분 추출부(123)는 정현 모델 분석을 통해 추출된 톤 후보 성분들 중에서 주파수 이동(조절)의 대상이 되는 톤 성분들을 추출한다. 특히, 톤 성분 추출부는 상기 추출된 톤 후보 성분들에 대하여 SBR 부호화를 수행할 경우, 상기 톤 후보 성분이 속한 주파수 대역이 아닌 다른 주파수 대역으로 누출되는 누출 에너지가 SBR 부호화에 의해 유실되는 톤 성분에 따라 결정되는 마스킹 임계치 보다 큰 톤 후보 성분을 톤 성분으로서 추출한다. 본 실시예에서 톤 성분의 추출은 톤 후보 성 분들이 SBR 복호화 과정에서 왜곡이 얼마나 발생할지를 고려하여 추출한다. 여기에서 왜곡이 얼마나 일어날 것인지에 대한 기준은 QMF 서브밴드의 알리어징 에너지를 계산하는 것으로 가능하다. 이웃한 QMF서브 밴드로 누출되는 에너지는 QMF 분석 시 사용되는 윈도우의 주파수 응답을 이용하여 산출할 수 있다.
도 5는 SBR부호화시 QMF 서브 밴드의 중심 주파수로부터의 거리에 따른 누출 에너지 비율을 나타낸 그래프이다. 도 5에서 가로축은 분석될 성분의 주파수가 해당 QMF 서브밴드의 중앙으로부터 얼마나 떨어져있는지를 나타낸다. 0일 경우는 QMF 서브밴드의 중앙에 위치하는 것이고, 0.5의 경우는 해당 QMF 서브 밴드와 이웃한 QMF 서브밴드의 경계 주파수에 위치하는 것이다. 즉, 해당 QMF 서브 밴드의 중앙 주파수를 가지고 있는 톤 성분은 이웃한 QMF 서브밴드로 에너지가 거의 나뉘지 않지만, 경계 부근에 위치할수록 절반에 가까운 에너지가 이웃한 QMF 서브밴드로 누출되게 된다. 정현파 모델에 의해 추출된 톤 후보 성분들은 이후의 과정을 통해, 주파수 조절을 할 것인지 여부를 결정할 수 있다. 본 발명에서는 마스킹 효과를 응용하면 알리어징 에너지가 노이즈로 복원될 때, 지각적으로 인지되지 않는다는 원리를 이용하여 톤 성분의 주파수를 조절하였다.
도 6은 마스킹 효과를 고려하여 톤 성분의 주파수를 이동시키는 개념을 나타내는 참고도이다. 도 6의 (a)는 QMF 분석 결과로서 알리어징 에너지가 복원될 톤 성분의 마스킹 임계치 곡선을 초과하는 것을 보여준다. 마스킹 곡선(240)은 유실되는 톤 성분(230)에 의존하여 결정되며, 잔여 성분(210)은 유실되는 톤 성분이 속해있는 주파수 밴드(n+1)에 남아있는 성분이고, 누출 성분(220)은 인접 주파수 밴 드(n)로 누출된 성분이다. 도 6a는 누출 성분(220)의 누출 에너지가 마스킹 곡선(240) 위에 존재하는 경우이므로 주파수 조절이 필요한 예이다.
도 6의 (b)는 톤 성분의 주파수를 복원될 톤 성분의 누출 에너지가 마스킹 곡선 보다 아래에 있도록 조절하는 예를 나타낸다. 마스킹 곡선과 누출 성분의 주파수가 정해지면 마스킹 임계치가 결정되는데, 도 6의 (b)에서는 누출 에너지가 마스킹 임계치 보다 작아지도록 톤 성분의 주파수를 이동시킨 예이다. 도 6의 (b)에서 250은 주파수가 조절된 톤 성분의 에너지를 나타내고, 260은 그때의 누출 에너지이며, 270은 마스킹 곡선을 나타낸다.
톤 성분 추출부(123)는 누출 에너지와 마스킹 임계치와의 비교를 통해 주파수를 조절할 필요가 있는 톤 성분으로 추출할지 여부를 결정할 수 있다. 본 실시예에서 톤 성분 추출부(123)는 톤 성분의 누출 에너지가 QMF 중심으로 부터의 거리에 의존한다는 것을 이용하여 하기 수학식1에 따라 누출 에너지를 계산한다.
[수학식1]
EL = ET ·r(d)
여기에서 EL 는 누출 에너지이고, ET는 톤 후보 성분의 평균 에너지이며, r(d)는 누출 에너지 비율이고, d 는 톤 후보 성분의 평균 주파수와 상기 톤 성분이 속해있는 QMF 서브밴드의 중심 주파수까지의 거리이다. 만약, 주파수 밴드가 1개 이상의 QMF 서브밴드로 구성되어 있다면, 양 끝의 QMF 서브 밴드에 속한 톤 후보 성분에 따른 누출 에너지만 확인할 필요가 있다. 왜냐하면, 유실되는 톤 후보 성 분(230)에 따라 알리어징 에너지가 발생하는 문제는 유실되는 톤 후보 성분이 주파수 밴드의 경계에 존재할 경우에 발생하므로, 주파수 밴드의 중간에 위치한 QMF 서브 밴드에 속한 톤 후보 성분에 대하여는 주파수 조절의 필요가 없기 때문이다.
특히, 톤 성분 추출부(123)는 유실되는 톤 후보 성분이 생성되는 주파수 밴드를 결정하는 것이 바람직하다. 분석된 톤 후보 성분의 주파수를 기준으로 해당 주파수밴드와 이웃하는 주파수 밴드로 유실되는 성분의 주파수를 비교함으로써, 원래의 주파수에 보다 근접한 주파수 밴드를 결정할 수 있다. 이는 입력 신호에서 분석된 원래의 톤과 좀 더 유사하게 복원하기 위해서이다.
예를 들어, 48kHz로 샘플링된 신호의 경우, 12kbps로 부호화될 때, SBR 대역의 7번째 주파수 밴드는 5.63kHz 부터 6kHz까지이다. 7번째 주파수 밴드는 1개의 QMF 서브밴드로 구성되어 있으며, 8번째 주파수 밴드는 6kHz 부터 6.75kHz까지로 2개의 QMF 서브밴드로 구성되게 된다. 만약, 8번째 주파수 밴드에 존재하는 6.05kHz의 유실되는 하모닉을 표준 HE-AAC로 처리한다면 6.56kHz로 복원되지만, 7번째 주파수 밴드의 유실되는 하모닉으로 복원된다면 5.81kHz로 복원되게 되어 원래의 6.05kHz에 근접한 주파수로 복원될 수 있다.
[수학식2]
ER = ET - EL
여기에서 ER(210)은 유실되는 톤 후보 성분(230)이 속한 QMF 서브밴드에 남은 잔여 에너지(residual energy)이고, ET은 톤 후보 성분의 평균 에너지이며, EL은 누출 에너지이다. 유실되는 하모닉의 톤 후보 성분(230)의 에너지와 잔여에너지가 만들어 내는 주파수 마스킹 곡선(masking curve)(240)은 심리 음향 모델의 확산 비율(spreading ratio)을 이용하여 결정할 수 있다.
특히, 본 실시예에서 톤 성분 추출부(123)는 주파수 밴드별 마스킹 임계치 계산의 간략화를 위하여, 스펙트럴 에너지를 컨벌루션(convolution)하는 대신 확산 비율을 적용함으로써 스펙트럴 에너지를 간단하게 산출하는 것을 이용한다. 상기 확산 비율을 구하기 위해서는 주파수 밴드에 따른 크리티컬 밴드(critical band)를 먼저 계산해야한다.
[수학식3]
여기서 zk 는 k 번째 주파수밴드에 해당하는 크리티컬 밴드이고, fk 는 복호화 과정에서 k 번째 주파수 밴드에 생성되는 유실되는 톤 성분의 주파수이다. 수학식3에 따라 계산된 크리티컬 밴드를 이용하면, 이웃하는 주파수 밴드로 확산되는 확산 에너지를 수학식4와 5에 따라 계산할 수 있다.
[수학식4]
[수학식5]
여기서, SL(k) 과 SH(k) 는 바크(Bark)단위에서 이웃한 주파수 밴드에 의해 계산된 확산 에너지이고, 각각의 감소 비율은 25dB/Bark 와 15dB/Bark이며, 14.5dB는 유사 톤 신호(tone-like signal)가 유사 잡음 신호(noise-like signal)을 마스킹하는 경우의 옵셋(offset)값이다.
[수학식6]
[수학식7]
여기서, EThr(k)는 k 번째 주파수 밴드의 마스킹 임계치이다. k 번째 주파수 밴드에 속하는 톤 후보 성분의 누출 에너지(ER[k])와 수학식4와 5에 의해 결정되는 확산 에너지 SL[k-1]와 SL[k+1]를 알면, 수학식6 및 수학식7에 따라 이웃하는 주파수 밴드 k-1, k+1의 마스킹 임계치를 계산할 수 있다.
[수학식8]
EThr[k-1] < ER[k-1] or EThr[k+1] < ER[k +1]
톤 성분 추출부(123)는 k 번째 주파수 밴드에 속한 톤 후보 성분으로부터 누출되는 누출 에너지(ER[k-1] 또는 ER[k+1])와 마스킹 임계치(EThr[k-1] 또는 EThr[k+1])를 비교하고, 누출 에너지가 마스킹 임계치보다 큰 톤 후보 성분들을 주파수 조절의 대상이되는 톤 성분으로 추출한다.
주파수 조절부(124)는 SBR 부호화시 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절한다. 특히, 주파수 조절부(124)는 톤 후보 성분의 (조절하기 이전) 누출 에너지가 이웃하는 QMF 서브밴드의 마스킹 임계치보다 높은 경우, 수학식 1과 2를 이용하여 누출 에너지가 마스킹 임계치보다 낮게 될 때의 톤의 주파수(250)를 산출할 수 있다. 주파수 조절부(124)는 톤을 이동시킬 주파수를 결정하면, 정현파 모델에서 분석된 톤의 주파수를 수정하고, SBR 복호화기로 전달 될 해당 주파수 밴드의 유실되는 하모닉 플래그(missing harmonics flag)를 설정한다.
정현 모델 합성부(125)는 주파수 조절부(124)를 통해 주파수가 조절된 톤 성분에 대한 정현 모델 합성을 수행한다.
제2 합산부(127)는 정현 모델 합성부(125)를 통해 합성된 성분을 이용하여 오디오 신호를 복원한다. 제1 합산부(126)는 대역 통과 필터(121)를 통과하지 못한 제1 잔여 성분과, 톤 성분으로 추출되지 못한 피크 성분(제2 잔여 성분)들을 합산하며, 제2 합산부(127)는 제1 합산부(126)로 부터의 신호와 정현파 모델에 의하여 합산된 신호를 합산함으로써 오디오 신호를 복원한다.
합산부(127)를 통해 복원된 오디오 신호는 SBR 부호화기로 입력되며, 이 후 과정은 표준 HE-AAC의 부호화/복호화 방식에 따라 수행된다. 그러므로, 복호화과정에서는 기존에 비해 비트 사용량이나 연산량이 증가하지 않는다.
도 7은 본 발명의 일 실시예에 따른 오디오 신호의 부호화 방법을 나타내는 흐름도이다. 도 7에 도시된 오디오 신호의 부호화 방법은 오디오 신호 부호화 장치(100)에서 시계열적으로 수행되는 하기의 단계들을 포함한다. 도 7의 각 단계 들 에 대한 설명은 도 4의 톤 주파수 조절부에 대한 설명과 상당 부분 중복되므로, 공통된 설명은 생략한다.
우선, 302단계에서 입력부(110)는 부호화하고자 하는 오디오 신호를 입력 받는다.
304단계에서 대역 통과 필터(121)는 입력되는 오디오 신호에 대역 통과 필터를 가하여 고주파 대역의 오디오 신호를 필터링한다.
306단계에서 정현파 모델 분석부(122)는 필터링된 고주파 대역의 오디오 신호를 주파수 영역의 오디오 신호로 변환시키고, 정현파 모델 분석(sinusoidal model analysis)을 통해 톤 후보 성분들을 추출한다. 여기에서, 시간 영역에서 주파수 영역으로의 변환은 단구간 푸리에 변환(STFT)을 이용하는 것이 바람직하다. 특히, 본 단계에서 정현파 모델 분석부는 정현 모델 분석을 이용하여 상기 단구간 푸리에 변환된 오디오 신호의 피크 성분을 탐색하고, 상기 탐색된 피크 성분의 시간/주파수 기반의 하모닉 특성을 고려하여 톤 후보 성분을 추출한다. 톤 후보 성분들을 추출하는 조건에 대하여는 상술한 바 있다.
308단계에서 톤 성분 추출부(123)는 톤 후보 성분들 중에서 주파수 조절의 대상이 되는 톤 성분을 추출한다. 톤 성분 추출부(123)는 톤 후보 성분들에 대하여 SBR 부호화를 수행할 경우, 상기 톤 후보 성분이 속한 주파수 대역이 아닌 다른 주파수 대역으로 누출되는 누출 에너지가 SBR 부호화에 의해 유실되는 톤 성분에 따라 결정되는 마스킹 임계치 보다 큰 톤 후보 성분을 톤 성분으로서 추출한다.
310단계에서 톤 주파수 조절부(123)는 주파수 밴드 간 알리어징을 최소화할 수 있도록 톤 성분의 주파수를 조절한다. 특히, 주파수 조절부(124)는 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절한다. 여기에서 주파수 밴드는 SBR 부호화시에 미리 결정되며, 한개 또는 그 이상의 QMF 서브 밴드로 구성된다.
312단계에서 정현파 모델 합성부(125)는 주파수가 조절된 톤 성분에 대한 정현파 모델 합성을 수행한다.
314단계에서 합산부(127)는 정현파 모델 합성에 따라 합성된 톤 성분, 대역 통과 되지 못한 잔여 성분 및 톤 성분으로 추출되지 않은 잔여 톤 후보 성분을 합산하여 오디오 신호를 복원한다. 본 단계를 통해서 복원된 오디오 신호는 톤 성분의 주파수가 조절된 것을 제외하고는 원래의 오디오 신호 특성을 그대로 유지한다.
316단계에서 SBR 부호화부(130)는 톤 성분의 주파수가 조절된 오디오 신호에 대한 SBR 부호화를 수행한다.
도 7에 도시되지는 않았으나 HE-AAC 부호화 알고리즘에 따라 SBR 부호화부를 통해 부호화된 신호는 AAC 부호화부를 통해 부호화된 신호와 합쳐지며, 비트스트림 형태로 출력된다.
도 8은 6.7kHZ 정현파 신호를 기존의 방식과 본 발명의 방식에 따라 부호화한 후, 복호화시킨 결과를 나타낸다. 상세히 설명하면, 도 8의 (a)는 6700Hz를 갖는 정현파를 기존의 HE-AAC 알고리즘에 따라 복원시킨 스펙트로그램을 나타낸 것이 고, 도 8의 (b)는 본 발명의 톤 주파수를 조절하는 HE-AAC 알고리즘에 따라 복원시킨 스펙트로그램을 나타낸다. 본 발명에 따라 부호화된 신호를 복원할 경우, 스펙트로그램 상에서 볼 때 복원된 신호는 노이즈로 인한 왜곡이 발생하지 않음을 확인할 수 있다. 기존의 SBR 알고리즘의 경우에도 톤 성분이 복원될 때 원래의 주파수가 아닌 다른 주파수 대역에서 복원되는 경우가 있음을 고려할 때, 인접 주파수 밴드까지 고려하여 신호를 복원하는 본 발명의 오디오 신호 부호화 방법은 원래의 신호에 더 가까운 음색의 구현이 가능한 방식이다.
한편 본 발명의 톤 주파수 조절 방법과 오디오 신호 부호화 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트 들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
이제까지 본 발명에 대하여 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로, 상기 개시된 실시예 들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.
본 발명의 오디오 신호의 톤 주파수 성분 조절 방법 및 오디오 신호 부호화 방법은 HE-AAC 부호화 방식에 도입할 경우, 오디오 신호의 주파수 밴드 간의 알리어징(aliasing)에 따른 노이즈 성분의 복원을 억제시키고 원래의 톤 성분만을 복원시킴으로써 기존의 부호화 방식에 비하여 깨끗한 음질을 제공할 수 있다.
도 1은 기존의 HE-AAC 부호화기를 나타내는 블록도이다.
도 2는 HE-AAC에서 SBR 알고리즘으로 톤 성분이 복원되는 예를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 HE-AAC 부호화 장치를 나타내는 블록도이다.
도 4는 도 3에서 톤 주파수 조절부(120)에 대한 상세 블록도이다.
도 5는 SBR부호화시 QMF 서브 밴드의 중심 주파수로부터의 거리에 따른 누출 에너지 비율을 나타내는 그래프이다.
도 6은 마스킹 효과를 고려하여 톤 성분의 주파수를 이동시키는 개념을 나타내는 참고도이다.
도 7은 본 발명의 일 실시예에 따른 오디오 신호의 부호화 방법을 나타내는 흐름도이다.
도 8은 6.7kHZ 정현파 신호를 기존의 방식과 본 발명의 방식에 따라 부호화한 후, 복호화시킨 결과를 나타낸다.
Claims (19)
- a) 입력 오디오 신호로부터 톤 성분들을 추출하는 단계; 및b) 상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 톤 주파수 조절 방법.
- 제 1 항에 있어서,상기 b)단계에서 추출된 톤 성분들을 주파수 밴드 단위의 부호화는 SBR(Spectral Band Replication) 부호화이고, 상기 주파수 밴드는 상기 추출된 톤 성분을 갖는 오디오 신호에 따른 적어도 하나 이상의 QMF 서브 밴드를 포함하며,상기 누출 에너지는 톤 성분이 속한 주파수 대역이 아닌 다른 주파수 대역으로 누출되는 성분에 따른 에너지인 것을 특징으로 하는 오디오 신호의 톤 주파수 조절 방법.
- 제 1 항에 있어서, 상기 a)단계는a1) 입력 오디오 신호에 대역 통과 필터를 적용시키는 단계;a2) 상기 필터링된 오디오 신호를 주파수 영역의 신호로 변환시키고, 정현파 모델 분석(sinusoidal model analysis)을 수행하여 톤 후보 성분들을 추출하는 단계; 및a3) 상기 추출된 톤 후보 성분들에 대하여 SBR 부호화를 수행할 경우, 상기 톤 후보 성분이 속한 주파수 대역이 아닌 다른 주파수 대역으로 누출되는 누출 에너지가 SBR 부호화에 의해 유실되는 톤 성분에 따라 결정되는 마스킹 임계치 보다 큰 톤 후보 성분을 톤 성분으로서 추출하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 톤 주파수 조절 방법.
- 제 3 항에 있어서, 상기 a2)단계는a21) 상기 필터링된 오디오 신호에 단구간 푸리에 변환(Short Time Fourier Transform)을 적용시키는 단계; 및a22) 정현 모델 분석을 이용하여 상기 단구간 푸리에 변환된 오디오 신호의 피크 성분을 탐색하고, 상기 탐색된 피크 성분의 시간/주파수 기반의 하모닉 특성을 고려하여 톤 후보 성분을 추출하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 톤 주파수 조절 방법.
- 입력 오디오 신호로부터 톤 성분들을 추출하는 톤 성분 추출부; 및상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수 를 조절하는 주파수 조절부를 포함하는 오디오 신호의 톤 주파수 조절 장치.
- 제 5 항에 있어서,입력 오디오 신호를 필터링시키는 대역 통과 필터와,상기 필터링된 오디오 신호를 주파수 영역의 신호로 변환시키고, 정현파 모델 분석(sinusoidal model analysis)을 수행하여 톤 후보 성분들을 추출하는 정현파 모델 분석부를 더 포함하고,상기 톤 성분 추출부는 상기 추출된 톤 후보 성분들 중에서 상기 추출된 톤 후보 성분들에 대하여 SBR 부호화를 수행할 경우, 상기 톤 후보 성분이 속한 주파수 대역이 아닌 다른 주파수 대역으로 누출되는 누출 에너지가 SBR 부호화에 의해 유실되는 톤 성분에 따라 결정되는 마스킹 임계치 보다 큰 톤 후보 성분을 톤 성분으로서 추출는 것을 특징으로 하는 오디오 신호의 톤 주파수 조절 장치.
- 제 5 항에 있어서,상기 주파수가 조절된 톤 성분에 대한 정현파 모델 합성을 수행하는 정현파 모델 합성부;와상기 정현파 모델 합성에 따라 합성된 톤 성분을 이용하여 오디오 신호를 복원하는 복원부를 더 포함하는 것을 특징으로 하는 오디오 신호의 톤 주파수 조절 장치.
- a) 입력 오디오 신호로부터 톤 성분들을 추출하는 단계;b) 상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절하는 단계; 및c) 상기 톤 성분의 주파수가 조절된 오디오 신호에 대하여 SBR 부호화를 수행하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 8 항에 있어서,상기 b)단계에서 상기 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여 상기 추출된 톤 성분의 주파수를 조절하는 것은,상기 누출 에너지를 상기 마스킹 임계치 보다 작거나 같도록 상기 톤 성분의 주파수를 조절하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 9 항에 있어서,상기 b)단계에서 상기 마스킹 임계치는 SBR 부호화에 의해 유실되는 톤 성분에 따른 마스킹 곡선에 의해 특정되거나, 또는 상기 유실되는 톤 성분에 대한 확산 에너지와 확산 비율을 이용하여 주파수 밴드별로 결정된 기준값인 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 8 항에 있어서, 상기 a)단계는a1) 입력 오디오 신호에 대역 통과 필터를 적용시키는 단계;a2) 상기 필터링된 오디오 신호를 주파수 영역의 신호로 변환시키고, 정현파 모델 분석(sinusoidal model analysis)을 수행하여 톤 후보 성분들을 추출하는 단계; 및a3) 상기 추출된 톤 후보 성분들에 대하여 SBR 부호화를 수행할 경우, 상기 톤 후보 성분이 속한 주파수 대역이 아닌 다른 주파수 대역으로 누출되는 누출 에너지가 SBR 부호화에 의해 유실되는 톤 성분에 따라 결정되는 마스킹 임계치 보다 큰 톤 후보 성분을 톤 성분으로서 추출하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 11 항에 있어서, 상기 a2)단계는a21) 상기 필터링된 오디오 신호에 단구간 푸리에 변환(Short Time Fourier Transform)을 적용시키는 단계; 및a22) 정현 모델 분석을 이용하여 상기 단구간 푸리에 변환된 오디오 신호의 피크 성분을 탐색하고, 상기 탐색된 피크 성분의 시간/주파수 기반의 하모닉 특성을 고려하여 톤 후보 성분을 추출하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 12 항에 있어서,상기 a22)단계에서 상기 톤 후보 성분을 추출하는 것은상기 탐색된 피크 성분의 에너지 크기, 시간/주파수(T/F) 영역에서 피크 성분의 주파수 변화에 따른 에너지 변화율 및 피크 성분의 시간 변화에 따른 주파수 변화율, 피크 성분의 주파수 대역 길이 중 적어도 하나 이상의 특성을 고려하여 톤 후보 성분을 추출하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 11 항에 있어서,상기 누출 에너지는 톤 후보 성분의 주파수와 QMF 서브 밴드의 중심 주파수와의 거리에 의존하는 것으로서, 상기 누출 에너지는 하기 수학식에 따라 계산하는 것을 특징으로 하는 오디오 신호 부호화 방법.[수학식]EL = ET ·r(d)여기에서, EL은 톤 후보 성분에 따른 누출 에너지이고, ET는 톤 후보 성분의 평균 에너지이며, d는 톤 후보 성분의 주파수와 QMF 서브 밴드의 중심 주파수 간의 거리이고, r(d)는 상기 d에 따른 누출에너지 비율을 나타낸다.
- 제 11 항에 있어서, 상기 b)단계와 c)단계 사이에b1) 상기 주파수가 조절된 톤 성분에 대한 정현파 모델 합성을 수행하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 15 항에 있어서,상기 b1)단계와 c)단계 사이에b2) 상기 정현파 모델 합성에 따라 합성된 톤 성분을 이용하여 오디오 신호를 복원하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 16 항에 있어서, 상기 b2)단계에서 오디오 신호를 복원하는 것은,상기 b1)단계에서 상기 정현 모델 합성에 따라 합성된 톤 성분,상기 a1)단계에서 대역 통과 되지 못한 잔여 성분 및상기 a3)단계에서 톤 성분으로 추출되지 않은 잔여 톤 후보 성분을 합산하는 것을 특징으로 하는 오디오 신호 부호화 방법.
- 제 8 항 내지 제 17 항 중 어느 한 항의 오디오 신호 부호화 방법을 컴퓨터에서 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독가능한 기록 매체.
- 입력 오디오 신호로부터 톤 성분들을 추출하는 톤 성분 추출부;상기 추출된 톤 성분들을 미리 결정된 주파수 밴드 단위로 구분하여 부호화할 경우 주파수 밴드 간의 알리어징(aliasing)에 따라 발생하는 누출 에너지와 주파수 밴드별로 결정되는 마스킹 임계치를 고려하여, 상기 추출된 톤 성분의 주파수를 조절하는 주파수 조절부; 및상기 톤 성분의 주파수가 조절된 오디오 신호에 대하여 SBR 부호화를 수행하는 SBR 부호화부를 포함하는 것을 특징으로 하는 오디오 신호 부호화 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080000673A KR100930995B1 (ko) | 2008-01-03 | 2008-01-03 | 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080000673A KR100930995B1 (ko) | 2008-01-03 | 2008-01-03 | 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090074948A KR20090074948A (ko) | 2009-07-08 |
KR100930995B1 true KR100930995B1 (ko) | 2009-12-10 |
Family
ID=41332199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080000673A KR100930995B1 (ko) | 2008-01-03 | 2008-01-03 | 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100930995B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808597A (zh) * | 2020-05-30 | 2021-12-17 | 华为技术有限公司 | 一种音频编码方法和音频编码装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6298322B1 (en) | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
WO2004049311A1 (en) | 2002-11-27 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Sinusoidal audio coding |
US20060217984A1 (en) | 2006-01-18 | 2006-09-28 | Eric Lindemann | Critical band additive synthesis of tonal audio signals |
-
2008
- 2008-01-03 KR KR1020080000673A patent/KR100930995B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6298322B1 (en) | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
WO2004049311A1 (en) | 2002-11-27 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Sinusoidal audio coding |
US20060217984A1 (en) | 2006-01-18 | 2006-09-28 | Eric Lindemann | Critical band additive synthesis of tonal audio signals |
Also Published As
Publication number | Publication date |
---|---|
KR20090074948A (ko) | 2009-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222643B2 (en) | Apparatus for decoding an encoded audio signal with frequency tile adaption | |
KR101376762B1 (ko) | 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법 | |
US11373666B2 (en) | Apparatus for post-processing an audio signal using a transient location detection | |
KR100707174B1 (ko) | 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법 | |
US20170178646A1 (en) | High Frequency Regeneration of an Audio Signal with Synthetic Sinusoid Addition | |
KR100517229B1 (ko) | 적응형 필터링에 의해 고주파 복원 코딩 방법의 인식성능을 향상시키기 위한 방법 및 장치 | |
KR101413968B1 (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
US8332210B2 (en) | Regeneration of wideband speech | |
JP6076247B2 (ja) | ディジタルオーディオ信号エンコーダでのノイズシェーピングフィードバックループの制御 | |
RU2719543C1 (ru) | Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала | |
KR20080049085A (ko) | 음성 부호화 장치 및 음성 부호화 방법 | |
KR20080050900A (ko) | 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치 | |
KR20090043983A (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
AU2004298709A1 (en) | Improved frequency-domain error concealment | |
US8676365B2 (en) | Pre-echo attenuation in a digital audio signal | |
WO2018177613A1 (en) | Apparatus and method for post-processing an audio signal using prediction based shaping | |
CN106716529B (zh) | 对数字音频信号中的前回声进行辨别和衰减 | |
KR100930995B1 (ko) | 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체 | |
KR20130007521A (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
Deriche et al. | A new approach to low bit rate audio coding using a combined harmonic-multiband-wavelet representation | |
Trinkaus et al. | An algorithm for compression of wideband diverse speech and audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120903 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20130930 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140901 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20151201 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |