KR20110040820A - 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법 - Google Patents

대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20110040820A
KR20110040820A KR1020117000543A KR20117000543A KR20110040820A KR 20110040820 A KR20110040820 A KR 20110040820A KR 1020117000543 A KR1020117000543 A KR 1020117000543A KR 20117000543 A KR20117000543 A KR 20117000543A KR 20110040820 A KR20110040820 A KR 20110040820A
Authority
KR
South Korea
Prior art keywords
data
noise floor
audio signal
frequency band
bandwidth extension
Prior art date
Application number
KR1020117000543A
Other languages
English (en)
Other versions
KR101278546B1 (ko
Inventor
맥스 네우엔돌프
번하드 그릴
울리흐 크라에머
마르쿠스 물트루스
하랄드 포프
리콜라우스 레텔바흐
프레드리크 나겔
마르쿠스 로하설
마크 가이어
마뉴엘 잰더
비르질리오 바찌갈루포
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20110040820A publication Critical patent/KR20110040820A/ko
Application granted granted Critical
Publication of KR101278546B1 publication Critical patent/KR101278546B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Dental Tools And Instruments Or Auxiliary Dental Instruments (AREA)

Abstract

오디오 신호(105)에 대한 대역폭 확장 출력 데이터(102)를 생성하기 위한 장치(100)는 노이즈 플로어 측정기(110), 신호 에너지 특성기(120) 및 프로세서(130)를 포함한다. 오디오 신호(105)는 제 1 주파수 대역(105a)에서의 구성요소 및 제 2 주파수 대역(105b)에서의 구성요소를 포함하며, 대역폭 확장 출력 데이터(102)는 제 2 주파수 대역(105b)에서의 구성요소의 합성을 제어하도록 적용된다. 노이즈 플로어 측정기(110)는 오디오 신호(105)의 시간 부분(T)에 대한 제 2 주파수 대역(105b)의 노이즈 플로어 데이터(115)를 측정한다. 신호 에너지 특성기(120)는 에너지 분포 데이터(125)를 파생하는데, 상기 에너지 분포 데이터(125)는 오디오 신호(105)의 시간 부분(T)의 스펙트럼에서의 에너지 분포를 특징으로 한다. 프로세서(130)는 대역폭 확장 출력 데이터(102)를 획득하기 위하여 노이즈 플로어 데이터(115) 및 에너지 분포 데이터(125)를 결합한다.

Description

대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법{AN APPARATUS AND A METHOD FOR GENERATING BANDWIDTH EXTENSION OUTPUT DATA}
본 발명은 대역폭 확장 출력 데이터, 오디오 인코더 및 오디오 디코더를 생성하기 위한 장치 및 방법에 관한 것이다.
자연스런 오디오 코딩 및 음성 코딩(speech coding)은 오디오 신호에 대한 코덱의 두 가지 중요한 부류이다. 자연스런 오디오 코딩은 주로 음악 혹은 중간 비트 레이트(medium bit rate)에서의 임의의 신호를 위하여 사용되며 일반적으로 넓은 오디오 대역폭을 제공한다. 음성 코더(speech coder)는 기본적으로 음성 재생에 한정되며 매우 낮은 비트 레이트에 사용될 수 있다. 광 대역 음성은 협 대역 음성에 걸쳐서 중요한 주관적 품질의 향상을 제공한다. 더욱이, 멀티미디어 분야의 거대한 성장에 기인하여, 저장 및 예를 들면, 전화 시스템에 걸친 라디오/텔레비젼을 위한 전송뿐만 아니라 음악 및 비-음성 신호의 전송은 바람직한 특성이 된다.
비트 레이트를 급격히 감소시키기 위하여, 소스 코딩(source coding)은 분할-대역 지각 오디오 코덱(split-band perceptual audio codec)을 사용하여 실행될 수 있다. 이러한 자연스런 오디오 코덱은 신호에서의 지각의 결여 및 통계적 중복을 이용한다. 예비로 들을 수 있는 양자화 왜곡(quantization distortion)을 허용하는, 구성요소 레벨의 수를 감소시키며, 두 개 혹은 그 이상의 채널의 결합 스테레오 코딩(joint stereo coding) 혹은 파라미터 코딩을 통한 스테레오 분야의 감소를 이용하는 것 또한 일반적이다. 그러한 방법의 지나친 사용은 성가신 지각적 저하를 초래한다. 코딩 성능을 향상시키기 위하여, 스펙트럼 대역 복제(spectral band replication, SBR)와 같은 대역폭 확장 방법이 고 주파수 재생 기반 코덱에서의 고 주파수를 생성하기 위한 효과적인 방법으로 사용된다.
음향 신호(acoustic signal)의 레코딩 및 전송에 있어서 배경 노이즈와 같은 노이즈 플로어(noise floor)는 항상 존재한다. 디코더 면 상에서 진정한 음향 신호를 생성하기 위하여, 노이즈 플로어는 전송되거나 혹은 생성되어야만 한다. 후자의 경우에 있어서, 오리지널(original) 오디오 신호에서의 노이즈 플로어가 결정되어야만 한다. 스펙트럼 대역 복제에 있어서, 이것은 스펙트럼 대역 복제 도구 혹은 스펙트럼 대역 복제 관련 모듈(module)에 의해 실행되는데, 이는 노이즈 플로어를 특징지우며 노이즈 플로어를 재생하기 위하여 디코더에 전송되는 파라미터를 생성한다.
WO 00/45379에서, 적응형 노이즈 플로어 장치가 설명되는데, 이는 합성된 고 대역 주파수 구성요소에서 충분한 노이즈 콘텐츠를 제공한다. 그러나, 만약, 기저 대역(base band)에서 단-시간 에너지 변동 혹은 이른바 트랜지언트(transient)가 발생하면, 고 대역 주파수 구성요소에서 방해 유물(disturbing artifact)이 생성된다. 이러한 유물은 지각적으로 수용될 수 없으며 종래의 발명은 수용할만한 해결책을(특히 만약 대역폭이 한정되면) 제공하지 못한다.
따라서, 본 발명의 목적은, 특히 음성 신호에 대하여, 지각할 수 있는 유물 없이 효과적인 코딩을 허용하는 장치를 제공하는 것이다.
이러한 목적은 제 1항에 따른 스펙트럼 대역 복제 출력 데이터를 생성하기 위한 장치, 제 7항에 다른 인코더, 제 10항에 따른 스펙트럼 대역 복제 출력 데이터를 생성하기 위한 방법, 제 13항에 따른 디코더, 제 14항에 따른 디코딩을 위한 방법 혹은 제 16항에 따른 인코드된 오디오 신호에 의해 달성된다.
본 발명은 시간 부분 내의 오디오 신호의 에너지 분포에 따라 측정된 노이즈 플로어의 적용은 디코더 면 상에서 합성된 오디오 신호의 지각적 품질을 향상시킬 수 있다는 사실을 기초로 한다. 비록 이론적 관점으로부터 측정된 노이즈의 적용 혹은 조작은 필요하지 않지만, 노이즈 플로어를 생성하기 위한 종래의 기술은 많은 결점을 나타낸다. 한편으로는, 음색 측정(tonality measure)을 기초로 한 노이즈 플로어의 평가는, 그것이 종래의 방법에 의해 실행되기 때문에 어려우며 항상 정확하지가 않다. 다른 한편으로는, 노이즈 플로어의 목적은 디코더 면 상에서 정확한 음색 인상(tonality impression)을 재생하는 것이다. 비록 오리지널 오디오 신호 및 디코드된 신호에 대한 주관적 음색 인상이 동일하다고 하더라도, 예를 들면 음성 신호와 같은 생성된 유물의 가능성이 여전히 존재한다.
주관적인 테스트는 서로 다른 종류의 음성 신호는 다르게 처리되어야만 한다는 것을 나타낸다. 소리로 된 음성 신호(voiced speech signal)에 있어서 계산된 노이즈 플로어의 저하는 원래 계산된 노이즈 플로어와 비교할 때 지각적으로 높은 품질을 생산한다. 그 결과 이 경우에 있어서 음성은 덜 반향적으로 들린다. 오디오 신호가 치찰음(sibilant)을 포함하는 경우에 있어서 노이즈 플로어의 인공적인 증가는 치찰음과 관련된 패칭 방법에서의 결점을 은폐한다. 예를 들면, 단-시간 에너지 변동(트랜지언트)은 고 주파수 대역 내로 이동되거나 변환될 때 방해 유물을 생산하며 노이즈 플로어의 증가는 또한 이러한 에너지 변동을 은폐한다.
상기 트랜지언트는 종래 신호 내의 부분으로서 정의될 수 있는데, 상기 에너지에서의 강력한 증가는 시간의 짧은 기간 내에 나타나는데, 이는 특정 주파수 구역을 제한하거나 혹은 제한하지 않을 수 있다. 트랜지언트에 대한 실시 예들은 캐스트넷(nastnet)의 히트이며 타악기이거나, 또한 예를 들면 문자: P, T, K, ...와 같은 인간 음성의 특정 소리이다. 이러한 종류의 트랜지언트의 감지는 항상 동일한 방법 혹은 동일한 알고리즘(트랜지언트 한계(transient threshold)을 사용하여)에 의해 지금까지 구현되는데, 이는 음성으로 분류되거나 혹은 음악으로 분류되든지 간에 신호로부터 독립적이다. 게다가, 유성음 및 무성음 음성 사이의 가능한 구별은 종래 혹은 고전적 트랜지언트 감지 메커니즘에 영향을 미치지 않는다.
따라서, 실시 예들은 유성음 음성과 같은 신호에 대한 감소 및 예를 들면 치찰음을 포함하는 신호에 대한 노이즈 플로어의 증가를 제공한다.
서로 다른 신호를 구별하기 위하여, 실시 예들은 에너지가 대부분 더 높은 주파수 혹은 더 낮은 주파수에 위치하는가를 측정하는, 혹은 바꾸어 말하면 오디오 신호의 스펙트럼 표현이 더 높은 주파수를 향하여 감소하거나 혹은 증가하는 기울기(tilt)를 나타내는가를 측정하는 에너지 분포 데이터(예를 들면 치찰음 파라미터)를 사용한다. 뒤따르는 실시 예들은 또한 치찰음 파라미터를 생성하기 위하여 제 1 선형 예측 코딩 계수(first linear predictive coding coefficient)를 사용한다.
노이즈 플로어의 변경에 대한 두 가지 가능성이 존재한다. 첫 번째 가능성은 디코더가 노이즈 플로어를 조절하기 위하여(예를 들면 계산된 노이즈 플로어에 더하여 노이즈 플로어를 증가하거나 혹은 감소하도록) 치찰음 파라미터를 사용할 수 있도록 상기 치찰음 파라미터를 전송하는 것이다. 이러한 치찰음 파라미터는 종래의 방법에 의해 계산되거나 혹은 디코더 면 상에서 계산된 노이즈 플로어 파라미터에 더하여 전송될 수 있다. 두 번째 가능성은 인코더가 변경된 노이즈 플로어 데이터를 디코더에 전송하며 디코더 상에서 어떠한 변경도 필요하지 않도록(동일한 디코더가 사용될 수 있다) 하기 위하여 치찰음 파라미터(혹은 에너지 분포 데이터)를 사용함으로써 전송된 노이즈 플로어를 변경하는 것이다. 그러므로, 노이즈 플로어의 조작은 원칙적으로 디코더 면 상에서뿐만 아니라 인코더 면 상에서 행해질 수 있다.
대역폭 확장에 대한 실시 예로서 스펙트럼 대역 복제는 오디오 신호가 제 1 주파수 대역 및 제 2 주파수 대역에서의 구성요소 내로 분리되는 시산 부분을 한정하는 스펙트럼 대역 복제 프레임(frame)에 의존한다. 노이즈 플로어는 전체 스펙트럼 대역 복제 프레임을 위하여 측정되거나 및/도는 변경될 수 있다. 대안으로, 스펙트럼 대역 복제 프레임은 또한 노이즈 포락(noise envelope)으로 분할되는 것이 가능한데, 따라서 노이즈 포락 각각에 대하여 노이즈 플로어에 대한 조절이 실행될 수 있다. 바꾸어 말하면, 노이즈 플로어 장치의 시간적 해상도는 스펙트럼 대역 복제 프레임 내의 이른바 노이즈 포락에 의해 결정된다. 표준(ISO/IEC 14496-3)에 따라, 각각의 스펙트럼 대역 복제 프레임은 두 개의 노이즈 포락의 최대를 포함하는데, 따라서 노이즈 플로어의 조절은 부분적 스펙트럼 대역 복제 프레임을 기초로 만들어질 수 있다. 그러나, 시간적 음색 변화에 대한 모델을 향상시키기 위하여 노이즈 포락의 수를 증가시키는 것 또한 가능하다.
따라서, 실시 예들은 오디오 신호에 대역폭 확장 출력 데이터를 생성하기 위한 장치를 포함하며, 상기 오디오 신호는 제 1 주파수 대역 및 제 2 주파수 대역에서의 구성요소를 포함하며 대역폭 확장 출력 데이터는 제 2 주파수 대역에서의 구성요소의 합성을 제어하도록 적용된다. 장치는 오디오 신호의 시간 부분에 대한 제 2 주파수 대역의 노이즈 플로어 데이터를 측정하기 위한 노이즈 플로어 측정기(noise floor measurer)를 포함한다. 측정된 노이즈 플로어는 오디오 신호의 음색에 영향을 미치기 때문에, 노이즈 플로어 측정기는 음색 측정기(tonality measurer)를 포함할 수 있다. 대안으로, 노이즈 플로어 측정기는 노이즈 플로어를 획득하기 위하여 신호의 소음(noisiness)을 측정하도록 구현될 수 있다. 장치는 에너지 분포 데이터를 파생하기 위하여 신호-에너지 특성기(signal-energy characterizer)를 더 포함하는데, 상기 에너지 분포 데이터는 오디오 신호의 시간 부분의 스펙트럼에서의 에너지 분포를 특징지우며, 마지막으로 장치는 대역폭 확장 출력 데이터를 획득하기 위하여 노이즈 플로어 데이터 및 에너지 분포 데이터를 결합하기 위한 프로세서(processor)를 포함한다.
다른 실시 예에서, 신호 에너지 특성기는 에너지 분포 데이터 및 치찰음 파라미터가 예를 들면 선형 예측 코딩 계수일 수 있는 것과 같이 치찰음 파라미터를 사용하도록 적용된다. 또 다른 실시 예에서, 프로세서는 에너지 분포 데이터를 인코드된 오디오 데이터의 비트스트림(bitstream)에 더하도록 적용되거나 혹은, 대안으로 프로세서는 노이즈 플로어가 에너지 분포 데이터(신호 의존적인)에 따라 증가되거나 혹은 감소되는 것과 같이 노이즈 플로어 파라미터를 조절하도록 적용된다. 이러한 실시 예에서, 노이즈 플로어 측정기는 노이즈 플로어 데이터를 생성하기 위하여 먼저 노이즈 플로어를 측정하는데, 이는 나중에 프로세서에 의해 조절되거나 혹은 변경될 것이다.
또 다른 실시 예에서, 시간 부분은 스펙트럼 대역 복제 프레임이며 신호 에너지 특성기는 스펙트럼 대역 복제 프레임 당 다수의 노이즈 플로어를 생성하도록 적용된다. 그 결과, 신호 에너지 특성기뿐만 아니라 노이즈 플로어 측정기는 각각의 노이즈 플로어 포락에 대하여 파생된 에너지 분포 데이터뿐만 아니라 노이즈 플로어를 측정하도록 적용될 수 있다. 노이즈 플로어 포락의 수는 예를 들면, 스펙트럼 대역 복제 프레임 당 1, 2, 4, ... 일 수 있다.
다른 실시 예들은 또한 오디오 신호의 제 2 주파수 대역에서의 구성요소를 생성하기 위하여 디코더에서 사용되는 스펙트럼 대역 복제 도구를 포함할 수 있다. 이러한 생성에서 스펙트럼 대역 복제 출력 데이터 및 제 2 주파수 대역에서의 구성요소에 대한 미가공(raw) 신호 스펙트럼 표현이 사용된다. 스펙트럼 대역 복제 도구는, 에너지 분포 데이터에 따라 노이즈 플로어를 계산하도록 설정된 노이즈 플로어 계산 유닛(noise floor calculation unit), 및 계산된 노이즈 플로어와 함께 제 2 주파수 대역에서의 구성요소를 생성하기 위하여 미가공 신호 스펙트럼 표현을 계산된 노이즈 플로어와 결합하기 위한 컴바이너(combiner)를 포함한다.
실시 예들의 장점은 디코더에 신호를 받는 부가적인 노이즈의 이벤트(event)를 제어하거나 혹은 계산된 노이즈 플로어를 조절하는 내부 유성음의 음성 검출기(detector) 혹은 내부 치찰음 검출기(신호 에너지 특성기)를 갖는 외부 결정(음성/오디오)의 결합이다. 비-음성 신호를 위하여, 일반적인 노이즈 플로어 계산이 실행된다. 음성 신호(외부의 스위칭 결정으로부터 파생되는)를 위하여 실제 신호의 유성음을 결정하기 위한 부가적인 음성 분석이 실행된다. 디코더 혹은 인코더에서 더해지는 노이즈의 양은 신호의 치찰음(유성음과는 반대로)의 정도에 따라 스케일된다. 치찰음의 정도는 예를 들면, 단-신호 부분의 스펙트럼 기울기를 측정함으로써 결정될 수 있다.
본 발명은 이제 도시된 실시 예를 위하여 설명될 것이다. 본 발명의 특징은 다음의 상세한 설명을 참조하여 더 쉽게 잘 이해될 것이다.
도 1은 본 발명의 실시 예에 따른 대역폭 확장 출력 데이터를 생성하기 위한 장치의 블록 다이어그램을 도시한다;
도 2a는 치찰음 같은 신호에 대한 음성의 스펙트럼 기울기를 도시한다;
도 2b는 치찰음 같은 신호에 대한 양성의 스펙트럼 기울기 도시한다;
도 2c는 하부 순서 선형 예측 코딩 파라미터를 기초로 한 스펙트럼 기울기 m의 계산을 설명한다;
도 3은 인코더의 블록 다이어그램을 도시한다;
도 4는 디코더 면 상에서 코드된 오디오 스트림을 출력 펄스 부호 변조 샘플에 프로세싱하기 위한 블록 다이어그램을 도시한다;
도 5a 및 b는 종래의 노이즈 플로어 계산 장치와 실시 예에 따른 노이즈 플로어 계산 장치의 비교를 도시한다;
도 6은 시간 부분의 미리 결정된 수에서 스펙트럼 대역 복제 프레임의 분할을 설명한다.
도 1은 오디오 신호(105)에 대한 대역폭 확장 출력 데이터(102)를 생성하기 위한 장치를 도시한다. 오디오 신호(105)는 제 1 주파수 대역(105a)에서의 구성요소 및 제 2 주파수 대역(105b)의 구성요소를 포함한다. 대역폭 확장 출력 데이터(102)는 제 2 주파수 대역(105b)에서의 구성요소의 합성을 제어하도록 적용된다. 장치(100)는 노이즈 플로어 측정기(110), 신호 에너지 특성기(120) 및 프로세서(130)를 포함한다. 노이즈 플로어 측정기(110)는 오디오 신호(105)의 시간 부분에 대한 제 2 주파수 대역(105b)의 노이즈 플로어 데이터(115)를 측정하거나 혹은 결정하도록 적용된다. 상세히 설명하면, 노이즈 플로어는 기저 대역(base band)의 측정된 노이즈를 상부 대역의 측정된 노이즈와 비교함으로써 결정될 수 있는데, 따라서 자연스런 음색 인상을 재생하기 위한 패칭 후에 필요한 노이즈의 양이 결정될 수 있다. 신호 에너지 특성기(120)는 오디오 신호(105)의 시간 부분의 스펙트럼에서 에너지 분포를 특징짓는 에너지 분포 데이터(125)를 파생한다. 그러므로, 노이즈 플로어 측정기(110)는 예를 들면, 제 1 및/또는 제 2 주파수 대역(105a, 105b)을 수신하며, 신호 에너지 특성기(120)는 예를 들면, 제 1 및/또는 제 2 주파수 대역(105a, 105b)을 수신한다. 프로세서(130)는 노이즈 플로어 데이터(115) 및 에너지 분포 데이터(125)를 수신하며 대역폭 확장 출력 데이터(102)를 획득하기 위하여 그것들을 결합한다. 스펙트럼 대역 복제는 대역폭 확장을 위한 일 실시 예를 포함하는데, 상기 대역폭 확장 출력 데이터(102)는 스펙트럼 대역 복제 출력 데이터가 된다. 다음의 실시 예는 주로 스펙트럼 대역 복제의 실시 예를 설명할 것이나, 본 발명의 장치/방법은 본 실시 예에 한정되지 않는다.
에너지 분포 데이터(125)는 제 1 주파수 대역에 포함된 에너지와 비교하여 제 2 주파수 대역 내에 포함된 에너지 사이의 관계를 나타낸다. 가장 간단한 경우에 있어서 에너지 분포 데이터는 스펙트럼 대역 복제 대역(상부 대역)과 비교하여 기저 대역 내에 더 많은 에너지가 저장되는지 혹은 그 반대인지를 나타내는 비트에 의해 주어진다. 예를 들면, 스펙트럼 대역 복제 대역(상부 대역)은 예를 들면 4 KHz에 의해 주어지는, 한계 위의 주파수 구성요소로서 한정되며 기저 대역(하부 대역)은 이러한 한계 주파수 아래의(예를 들면, 4 KHZ 아래 혹은 다른 주파수), 신호의 구성요소일 수 있다. 이러한 한계 주파수(threshold frequency)의 실시 예는 5 KHz 혹은 6 KHz일 수 있다.
도 2a 및 2b는 오디오 신호(105)의 시간 부분 내의 스펙트럼에서의 두 개의 에너지 분포를 도시한다. 에너지 분포는 아날로그 신호로서의 주파수 F의 함수로서의 레벨 P로 표현되었는데, 이는 또한 복수의 샘플 혹은 라인(주파수 도메인 내로 변환된)에 의해 주어진 신호의 포락일 수 있다. 도시된 그래프는 또한 스펙트럼 기울기 개념을 시각화하기 위하여 매우 단순화된다. 하부 및 상부 주파수 대역은 한계 주파수(크로스오버 주파수, 예를 들면 500 Hz, 1 KHz, 2 KHz) F0 아래 혹은 위로서 한정될 수 있다.
도 2a는 하강하는 스펙트럼 기울기(더 높은 주파수에 따라 감소하는)를 나타내는 에너지 분포를 도시한다. 바꾸어 말하면, 이 경우에 있어서, 고 주파수 구성요소에서보다 저 주파수 구성요소에 저장된 더 많은 에너지가 존재한다. 따라서, 레벨 P는 음성의 스펙트럼 기울기를 수반하는 더 높은 주파수를 위하여 감소한다. 따라서, 만약 신호 레벨 P가 하부 대역(F〈 F0)보다 상부 대역(F 〉F0)에서 에너지가 덜 존재한다는 것을 나타내면 레벨 P는 음성의 스펙트럼 기울기를 포함한다. 이러한 종류의 신호는 예를 들면, 낮은 치찰음을 포함하거나 혹은 치찰음을 전혀 포함하지 않는 오디오 신호를 위하여 발생한다.
도 2b는 상기 레벨 P가 양성의 스펙트럼 기울기(주파수에 따른 레벨 P의 증가 함수)를 수반하는 주파수 F에 따라 증가하는 경우를 도시한다. 따라서, 만약 신호 레벨 P가 하부 대역(F〈 F0)과 비교하여 상부 대역(F 〉F0)에서 더 많은 에너지가 존재한다는 것을 나타내면 레벨 P는 양성의 스펙트럼 기울기를 포함한다. 만약 오디오 신호(105)가 예를 들면 상기 치찰음을 포함하면 그러한 에너지 분포가 생성된다.
도 2a는 음성의 스펙트럼 기울기 갖는 신호의 파워 스펙트럼(power spectrum)을 설명한다. 음성의 스펙트럼 기울기는 스펙트럼의 슬로프의 하강을 의미한다. 그것과는 반대로, 도 2b는 양성의 스펙트럼 기울기 갖는 신호의 파워 스펙트럼을 설명한다. 바꾸어 말하면, 이러한 스펙트럼 기울기는 상승하는 슬로프를 갖는다. 일반적으로, 도 2a에서 설명된 스펙트럼 혹은 도 2b에서 설명된 스펙트럼과 같은 각각의 스펙트럼은 스펙트럼 기울기와는 다른 슬로프를 갖는 국지적 스케일에서 변경을 가질 것이다.
스펙트럼 기울기는 예를 들면, 일직선 라인이 이러한 일직선 라인 및 실제 스펙트럼 사이의 제곱의 차이를 최소화하는 것과 같이 파워 스펙트럼에 적합할 때 획득될 수 있다. 일직선 라인을 스펙트럼에 적합하게 하는 것은 단-시간 스펙트럼의 스펙트럼 기울기를 계산하기 위한 방법 중의 하나일 수 있다. 그러나, 선형 예측 코딩 계수를 사용하여 스펙트럼 기울기를 계산하는 것이 바람직하다.
1996년 5월 23일, 캘리포니아 92152-5001, 샌 디에고의 해군사령부의 제어 및 해양 감시 센터의 V. Goncharoff, E. Von collin 및 R. Morris에 의해 발표된 "다양한 선형예측 코딩 파라미터로부터 스펙트럼 기울기의 효과적인 계산(Efficient calculation of spectral tilt from various LPC parameters)"에서 스펙트럼 기울기를 계산하기 위한 몇 가지 방법을 공개하였다.
일 구현에 있어서, 스펙트럼 기울기는 로그 파워 스펙트럼(log power spectrum)에 대한 최소 제곱 선형 맞춤(least-squares linear fit)의 슬로프로 정의된다. 그러나, 비-로그 파워 스펙트럼 혹은 진폭 스펙트럼 혹은 다른 종류의 스펙트럼에 대한 선형 맞춤도 또한 적용될 수 있다. 바람직한 실시 예에서, 예를 들면, 스펙트럼 기울기의 부호에서(sign) 주로 선형 맞춤 결과의 슬로프가 양성인지 혹은 음성인지가 관심 있다는 것은 본 발명의 맥락에 있어서 구체적으로 사실이다. 그러나, 스펙트럼 기울기의 실제 값은 본 발명의 고 효율 실시 예에서는 전혀 중요하지 않으나, 매우 정교한 살사 예에서는 실제 값이 중요할 수 있다.
음성의 선형 예측 코딩이 그것의 단시간 스펙트럼 모델을 만들기 위하여 사용될 때, 로그 파워 스펙트럼으로부터 대신에 선형 예측 코딩 모델 파라미터로부터 직접 스펙트럼 기울기를 계산하는 것이 계산적으로 더 효과적이다. 도 2c는 n번째(nth) 순차 모든 극 로그 파워 스펙트럼과 상응하는 켑스트럼 계수(cepstral coefficient, ck)에 대한 방정식을 설명한다. 이 방정식에서, k는 정수 지수(integer index)이며, Pn은 선형 예측 코딩 필터의 z-도메인 전달 함수(H(z))의 모든 극 표현에서의 n번째 극이다. 도 2c에서의 다음 방정식은 켑스트럼 계수와 관련된 스펙트럼 기울기이다. 구체적으로, m은 스펙트럼 기울기이며, k 및 n은 정수이며 N은 H(z)에 대한 모든 극 모델의 최고 순차 극이다. 도 2c에서의 그 다음 방정식은 n번째 순차 선형 예측 코딩 필터의 로그 파워 스펙트럼(S(ω))을 정의한다. G는 이득 상수이며, ω는 2×π×f와 동일한데, 상기 f는 주파수이다. 도 2c에서의 가장 아래의 방정식은 직접 선형 예측 코딩 계수(αk)의 함수로서 켑스트럼 계수를 도출한다. 켑스트럼 계수(ck)는 그리고 나서 스펙트럼 기울기를 계산하기 위하여 사용된다. 일반적으로 이러한 방정식은 극 값을 획득하기 위하여 선형 예측 계수 다항식을 인수분해 하며, 극 방정식을 사용하여 스펙트럼 기울기를 해결하는 것보다 계산적으로 더 효과적이다. 따라서, 선형 예측 코딩 계수(αk)를 계산한 후에, 도 2c에서의 가장 아래의 방정식을 사용하여 켑스트럼 계수(ck)를 계산할 수 있으며, 그리고 나서 도 2c에서의 첫 번째 방정식을 사용하여 켑스트럼 계수로부터 극(pk)을 계산할 수 있다. 그리고 나서, 도 2c에서의 두 번째 방정식에서 정의된 것과 같이 스펙트럼 기울기(m)를 계산할 수 있다.
제 1 순차 선형 예측 코딩 계수(α1)는 스펙트럼 기울기에 대한 우량 추정치를 갖기에 충분하다는 것이 알려져 있다. 그러므로, α1은 c1에 대한 우량 추정치이다. 따라서, c1은 p1에 대한 우량 추정치이다. p1이 스펙트럼 기울기 m에 대한 방정식 내로 삽입될 때, 도 2c에서의 이차 방정식에서의 음의 부호 때문에, 스펙트럼 기울기 m의 부호는 도 2c에서의 선형 예측 코딩 계수에서의 제 1 선형 예측 코딩 계수(α1)의 부호에 역이 된다.
바람직하게는, 신호 에너지 특성기(120)는 에너지 분포 데이터로서, 오디오 신호의 현재 시간 부분에서의 오디오 신호의 스펙트럼 기울기의 부호의 표시를 생성하도록 설정된다.
바람직하게는, 신호 에너지 특성기(120)는 에너지 분포 데이터로서, 하나 혹은 그 이상의 낮은 순차 선형 예측 코딩 계수를 평가하기 위하여 오디오 신호의 시간 부분의 선형 예측 코딩 계수로부터 파생된 데이터를 생성하도록 설정되며 하나 혹은 그 이상의 낮은 순차 선형 예측 코딩 계수로부터 에너지 분포 데이터를 파생하도록 설정된다.
바람직하게는, 신호 에너지 특성기(120)는 단지 제 1 선형 예측 코딩 계수만을 계산하며 부가적인 선형 예측 코딩 계수는 계산하지 않도록 설정되며 제 1 선형 예측 코딩 계수의 부호로부터 에너지 분포 데이터를 파생하도록 설정된다.
바람직하게는, 신호 에너지 특성기(120)는 제 1 선형 예측 코딩 계수가 양의 부호일 때, 스펙트럼 에너지가 하부 주파수로부터 상부 주파수로 감소하는, 음성의 스펙트럼 기울로서 스펙트럼 기울기를 결정하도록 설정되며, 제 1 선형 예측 코딩 계수가 음의 부호일 때, 스펙트럼 에너지가 하부 주파수로부터 상부 주파수로 증가하는, 양성의 스펙트럼 기울기로서 스펙트럼 기울기를 결정하도록 설정된다.
다른 실시 예에 있어서, 스펙트럼 기울기 감지기 혹은 신호 에너지 특성기(120)는 제 1 선형 예측 코딩 계수를 계산하도록 설정될 뿐만 아니라 3 혹은 4 혹은 더 높은 순차까지의 선형 예측 코딩 계수와 같은 몇몇의 낮은 순차 선형 예측 코딩 계수도 계산하도록 설정된다. 그러한 실시 예에서, 스텍트럼 기울기는 치찰음 파라미터로서의 부호뿐만 아니라, 부호 실시 예에서와 같이 두 개 이상의 값을 갖는, 기울기에 따른 값을 나타내는 그러한 높은 정확도로 계산된다.
위에서 설명한 것과 같이, 치찰음은 상부 주파수 구역에서 많은 양의 에너지를 포함하며, 반면에 치찰음이 없거나 혹은 조금 존재하는 부분에 대하여 에너지는 대부분 기저 대역(하부 주파수 대역) 내에 분포된다. 이러한 관찰은 음성 신호 부분이 치찰음을 포함하는지 혹은 어느 정도 포함하는지를 결정하기 위하여 사용될 수 있다.
따라서, 노이즈 플로어 측정기(110, 감지기)는 치찰음의 양에 관한 결정을 위하거나 혹은 신호 내의 치찰음의 정도를 주기 위하여 스펙트럼 기울기를 사용할 수 있다. 스페트럼 기울기는 기본적으로 에너지 분포의 간단한 선형 예측 코딩 계수로부터 획득될 수 있다. 예를 들면, 스펙트럼 기울기 파라미터(치찰음 파라미터)를 계산하기 위하여 제 1 선형 예측 코딩 계수를 계산하는 것이 충분할 수 있는데, 그 이유는 제 1 선형 예측 코딩 계수로부터 스펙트럼의 행동(증가 혹은 감소하는 기능인지를)이 추측될 수 있기 때문이다. 오디오 인코더가 오디오 신호를 디코딩하기 위하여 선형 예측 코딩을 사용하는 경우에, 치찰음 파라미터를 전송할 필요가 없을 수 있는데, 그 이유는 제 1 선형 예측 코딩 계수가 디코더 면 상에 에너지 분포 데이터로서 사용될 수 있기 때문이다.
이러한 분석은 신호 에너지 특성기(120) 내에서 실행될 수 있다. 실시 예들에서 프로세서(130)는 변형된 노이즈 플로어 데이터를 획득하기 위하여 에너지 분포 데이터(125, 스펙트럼 기울기)에 따라 노이즈 플로어 데이터(115)를 변경하도록 설정될 수 있으며, 프로세서(130)는 변경된 노이즈 플로어 데이터를 대역폭 확장 출력 데이터를 포함하는 비트스트림에 더하도록 설정될 수 있다. 노이즈 플로어 데이터(115)의 변경은 변형된 노이즈 플로어가 적은 치찰음을 포함하는(도 2a) 오디오 신호(105)와 비교하여 더 많은 치찰음을 포함하는(도 2b) 오디오 신호(105)에 대하여 증가되는 것과 같을 수 있다.
대역폭 확장 출력 데이터(102)를 생성하기 위한 장치(100)는 인코더(300)의 일부분일 수 있다. 도 3은 인코더(300)의 실시 예를 도시하는데, 이는 대역폭 확장 관련 모듈(310, 예를 들면 스펙트럼 대역 복제 관련 모듈을 포함할 수 있는), 분석 직교 미러 필터 뱅크(Quadrature Mirror Filter(QMF) bank, 320), 로우 패스 필터(low pass filter, 330), 고급 오디오 코딩(Advanced Audio Coding) 코어 인코더(340) 및 비트 스트림 페이로드 변형기(bit stream payload formatter, 350)를 포함한다. 게다가, 인코더(300)는 펄스 코드 변조(pulse code modulation) 샘플에 대한 입력을 포함하는데, 이는 분석 직교 미러 필터 뱅크(320)와 연결되며, 대역폭 확장 관련 모듈(310) 및 로우 패스 필터(330)와 연결된다. 분석 직교 미러 필터 뱅크(320)는 제 2 주파수 대역(105b)을 분리하기 위하여 하이 패스 필터(high pass filter)를 포함할 수 있으며 포락 데이터 계산기(210)에 연결되는데, 이는 차례로 비트 스트림 페이로드 변형기(350)에 연결된다. 로우 패스 필터(330)는 제 1 주파수 대역(105a)을 분리하기 위하여 로우 패스 필터를 포함할 수 있으며 고급 오디오 코딩 코어 인코더(340)에 연결되는데, 이는 차례로 비트 스트림 페이로드 변형기(350)에 연결된다. 마지막으로, 대역폭 확장 관련 모듈(310)은 포락 데이터 계산기(210)에 연결되며 고급 오디오 코딩 코어 인코더(340)에 연결된다.
그러므로, 인코더(300)는 코어 주파수 대역(105a, 로우 패스 필터(330)에서의)에서의 구성요소를 생성하기 위하여 오디오 신호(105)를 다운샘플(down-sample) 하는데, 이는 고급 오디오 코딩 코어 인코더(340) 내로 입력되며, 코어 주파수 대역에서의 오디오 신호를 인코드하며 인코드된 신호(355)를 코어 주파수 대역의 인코드된 오디오 신호(355)가 코드된 오디오 스트림(345, 비트 스트림)에 더해지는 비트 스트림 페이로드 변형기(350)로 전송한다. 다른 한편으로는, 오디오 신호(105)는 분석 직교 미러 필터 뱅크(320)에 의해 분석되며 분석 직교 미러 필터 뱅크의 하이 패스 필터는 고 주파수 대역(105b)의 주파수 구성요소를 추출하며 대역폭 확장 데이터(375)를 생성하기 위하여 이러한 신호를 포락 데이터 계산기(210) 내로 입력시킨다. 예를 들면, 64 부대역 직교 미러 필터 뱅크(320)는 입력 신호의 부대역 필터링을 실행한다. 필터뱅크(예를 들면 부대역 샘플)로부터의 출력은 복소수 값(complex-valued)이며, 따라서 규칙적인 직교 미러 필터 뱅크와 비교하여 두 인자에 의해 초과표본이 된다(over-sampled).
대역폭 확장 관련 모듈(310)은 예를 들면, 대역폭 확장 출력 데이터(102)를 생성하기 위한 장치(100)를 포함하며 예를 들면, 대역폭 확장 출력 데이터(102, 치찰음 파라미터)를 포락 데이터 계산기(210)에 제공함으로써, 포락 데이터 계산기(210)를 제어한다. 분석 직교 미러 필터 뱅크(320)에 의해 생성되는 오디오 구성요소(105b)를 사용하여, 포락 데이터 계산기(210)는 대역폭 확장 데이터(375)를 계산하며 대역폭 확장 데이터(375)를 비트 스트림 페이로드 변형기(350)로 전송하는데, 이는 대역폭 확장 데이터(375)를 코드된 오디오 스트림(345)에서의 코어 인코더(340)에 의해 인코드된 구성요소(355)와 결합시킨다. 게다가, 포락 데이터 계산기(210)는 예를 들면 노이즈 포락 내의 노이즈 플로어를 조절하기 위하여 치찰음 파라미터(125)를 사용할 수 있다.
대안으로, 대역폭 확장 출력 데이터(102)를 생성하기 위한 장치(100)는 포락 데이터 계산기(210)의 부분일 수 있으며 프로세서는 또한 비트스트림 페이로드 변형기(350)의 일부일 수 있다. 그러므로, 장치(100)의 서로 다른 구성요소는 도 3의 서로 다른 인코더 구성요소의 일부일 수 있다.
도 4는 디코더(400)에 대한 실시 예를 도시하는데, 상기 코드된 오디오 스트림(345)은 대역폭 확장 데이터(375)로부터 코드된 오디오 신호(355)를 분리하는, 비트 스트림 페이로드 디포매터(bit stream payload deformatter, 357) 내로 입력된다. 코드된 오디오 신호(355)는 예를 들면, 제 1 주파수 대역에서 디코드된 오디오 신호(105a)를 생성하는, 고급 오디오 코딩 코어 디코더(360) 내로 입력된다. 오디오 신호(105a, 제 1 주파수 대역에서의 구성요소)는 예를 들면 제 1 주파수 대역에서의 오디오 신호(105a)로부터 주파수 부대역(10532)을 생성하는, 분석 대역 직교 미러 필터-뱅크(370) 내로 입력된다. 주파수 부대역 오디오 신호(10532)는 대역폭 확장 도구(430a) 내로 입력되는, 미가공 신호 스펙트럼 표현을 생성하기 위하여 패치 생성기(410) 내로 입력된다. 대역폭 확장 도구(430a)는 예를 들면, 노이즈 플로어를 생성하기 위한 노이즈 플로어 계산 유닛을 포함할 수 있다. 부가하여, 대역폭 확장 도구(430a)는 누락된 고조파를 재생하거나 혹은 역 필터링 단계를 실행할 수 있다. 대역폭 확장 도구(430a)는 패치 생성기(410)의 직교 미러 필터 스펙트럼 데이터 출력 상에서 사용되는 알려진 스펙트럼 대역 복제 방법을 구현할 수 있다. 주파수 도메인에서 사용되는 패칭 알고리즘은 예를 들면, 주파수 도메인 내의 스펙트럼 데이터의 단순한 미러링(mirroring) 혹은 복사를 이용할 수 있다.
다른 한편으로, 대역폭 확장 데이터(375, 예를 들면 대역폭 확장 출력 데이터(102)를 포함하는)는 서로 다른 부-정보를 획득하며 그것들을, 예를 들면 제어 정보(412) 및 스펙트럼 대역 복제 파라미터(102)를 추출하는, 허프만(Huffmann) 디코딩 및 양자화 유닛(390) 내로 입력시키기 위하여 대역폭 확장 데이터(375)를 분석하는, 비트 스트림 파서(bit stream parser, 380) 내로 입력된다. 제어 장보(412)는 패치 생성기(430)를 제어하며(예를 들면 특정 패칭 알고리즘을 사용하기 위하여) 대역폭 확장 파라미터(102)는 예를 들면, 또한 에너지 분포 데이터(125, 예를 들면 치찰음 파라미터)를 포함한다. 제어 정보(412)는 대역폭 확장 도구(430a) 내로 입력되며 스펙트럼 대역 복제 파라미터(102)는 포락 조절기(envelope adjuster, 430b) 뿐만 아니라 대역폭 확장 도구(430a) 내로 입력된다. 포락 조절기(430b)는 생성된 패치를 위한 포락을 조절하도록 작동된다. 그 결과, 포락 조절기(430b)는 제 2 주파수 대역을 위한 조절된 미가공의 신호(105b)를 생성하며 그것을, 제 2 주파수 대역의 구성요소를 주파수 도메인(10532)에서의 오디오 신호와 결합시키는, 합성 직교 미러 필터-뱅크(440) 내로 입력한다. 합성 직교 미러 필터-뱅크(440)는 예를 들면, 주파수 대역을 포함할 수 있으며 두 신호(제 2 주파수 대역(105b)에서의 구성요소 및 주파수 도메인 오디오 신호(10532))를 결합함으로써 합성 오디오 신호(105, 예를 들면 펄스 코드 변조 샘플의 출력)를 생성할 수 있다.
합성 직교 미러 필터 뱅크(440)는 시간 도메인 내로 변환되기 전 및 오디오 신호(105)로서 출력되기 전에 주파수 도메인 신호(10532)를 제 2 주파수 대역과 결합시키는, 컴바이너를 포함할 수 있다. 선택적으로, 컴바이너는 주파수 도메인에서 오디오 신호(105)를 출력할 수 있다.
대역폭 확장 도구(430a)는 패치된 스펙트럼(미가공 신호 스펙트럼 표현(425))에 부가적인 노이즈를 더하는 종래의 노이즈 플로어 도구를 포함할 수 있는데, 따라서 코어 코더(340)에 의해 전송되며 제 2 주파수 대역(105b)의 구성요소를 합성하도록 사용되는 스펙트럼 구성요소(105a)는 오리지널 신호의 제 2 주파수 대역의 음색을 나타낸다. 그러나, 특히 유성음 음성 경로에서 종래의 노이즈 플로어 도구에 의해 더해진 부가적인 노이즈는 재생 신호의 지각된 품질에 해를 끼칠 수 있다.
실시 예에 따라 노이즈 플로어 도구는 치찰음의 분리된 정도에 따라(도 2 참조) 노이즈 플로어를 변경하기 위하여 에너지 분포 데이터(125, 대역폭 확장 데이터(102)의 부분)를 고려하도록 변형될 수 있다. 대안으로, 위에서 설명한 것과 같이, 디코더는 변형되지 않으며 대신에 인코더가 치찰음의 감지된 정도에 따라 노이즈 플로어 데이터를 변경할 수 있다.
도 5는 종래의 노이즈 플로어 계산 도구와 본 발명의 실시 예에 따른 변형된 노이즈 플로어 계산 도구의 비교를 도시한다. 이러한 변형된 노이즈 플로어 계산 도구는 대역폭 확장 도구(430)의 부분일 수 있다.
도 5a는 미가공 스펙트럼 라인 및 노이즈 스펙트럼 라인을 계산하기 위하여 스펙트럼 대역 복제 파라미터(102) 및 미가공 신호 스펙트럼 표현(425)을 사용하는 계산기(433)를 포함하는, 종래의 노이즈 플로어 계산 도구를 도시한다. 대역폭 확장 데이터(102)는 코드된 오디오 스트림(345)의 부분으로서 인코더로부터 전송되는, 포락 데이터 및 노이즈 플로어 데이터를 포함할 수 있다. 미가공 신호 스펙트럼 표현(425)은 예를 들면, 상부 주파수 대역에서 오디오 신호의 구성요소(제 2 주파수 대역(105b)에서 합성된 구성요소)를 생성하는, 패치 생성기로부터 획득된다. 미가공 스펙트럼 라인 및 노이즈 스펙트럼 라인은 나중에 프로세스되는데, 이는 역 필터링, 포락 조절, 누락된 고조파 추가 등이 관여할 수 있다. 최종적으로, 컴바이너(434)는 미가공 스펙트럼 라인을 제 2 주파수 대역(105b)에서의 구성요소에 대한 계산된 노이즈 스펙트럼 라인과 결합시킨다.
도 5b는 본 발명의 실시 예에 따른 노이즈 플로어 계산 도구를 도시한다. 도 5a에 도시된 종래의 노이즈 플로어 계산 도구에 부가하여, 실시 예는 예를 들면, 노이즈 플로어 계산 도구(433)에서 프로세스되기 전에 에너지 분포 데이터(125)를 기초로 한 전송된 노이즈 플로어 데이터를 변형하도록 설정된 노이즈 플로어 변형 유닛(noise floor modifying unit, 431)을 포함한다. 에너지 분포 데이터(125)는 또한 대역폭 확장 데이터(102)의 부분 혹은 대역폭 확장 데이터(102)의 부가로서 인코더로부터 전송될 수 있다. 전송된 노이즈 플로어 데이터의 변형은 예를 들면, 3 dB의 증가 혹은 3dB 혹은 또 다른 불연속 값(예를 들면 +/- 1 dB 혹은 +/- 2 dB)의 감소와 같은, 예를 들면, 양성의 스펙트럼 기울기(도 2a 참조)를 위한 증가 혹은 음성의 스펙트럼 기울기(도 2b 참조)를 위한 감소를 포함한다. 불연속 값은 정수 dB 값이거나 혹은 비-정수 dB 값일 수 있다. 감소/증가 및 스펙트럼 사이에 또한 함수적 종속(functional dependence, 예를 들면 선형 관계)이 존재할 수 있다.
이러한 변형된 노이즈 플로어 데이터를 기초로 하여 노이즈 플로어 계산 도구(433)는 다시 미가공 신호 스펙트럼 표현을 기초로 한 미가공 스펙트럼 라인을 계산하는데, 이는 다시 패치 생성기로부터 획득될 수 있다. 도 5b의 스펙트럼 대역 복제 도구(430)는 또한 제 2 주파수 대역(105b)에서의 구성요소를 생성하기 위하여 미가공 스펙트럼 라인을 계산된 노이즈 플로어(변형 유닛(431)으로부터의 변형)와 결합하기 위한 컴바이너(434)를 포함한다.
에너지 분포 데이터(125)는 가장 간단한 경우에 있어서 노이즈 플로어 데이터의 전송된 레벨에서의 변형을 나타낼 수 있다. 위에서 설명한 것과 같이 또한 제 1 선형 예측 코딩 계수가 에너지 분포 데이터(125)로서 사용될 수 있다. 그러므로, 만약 오디오 신호가 선형 예측 코딩을 사용하여 인코드되면, 뒤따르는 실시 예는 에너지 분포 데이터(125)로서, 이미 코드된 오디오 스트림(345)에 의해 전송된 제 1 선형 예측 코딩 계수를 사용한다.
대안으로 노이즈 플로어의 변형은 또한 노이즈 플로어 변형 유닛(431)이 프로세서(433) 뒤에 배열될 수 있도록 하기 위하여 계산기(433) 내에서의 계산 후에 수행될 수 있다. 다른 실시 예에서 에너지 분포 데이터(125)는 계산 파라미터로서 노이즈 플로어의 계산을 직접적으로 변형하는 계산기(433) 내로 입력될 수 있다. 따라서, 노이즈 플로어 변형 유닛(431) 및 계산기/프로세서(433)는 노이즈 플로어 변형기 도구(433, 431)에 결합될 수 있다.
또 다른 실시 예에서 노이즈 플로어 계산 도구를 포함하는 대역폭 확장 도구(430)는 스위치(switch)를 포함하는데, 상기 스위치는 노이즈 플로어의 상부 레벨(양성의 스펙트럼 기울기) 및 노이즈 플로어의 하부 레벨(음성의 스펙트럼 기울기) 사이를 스위치하도록 설정된다. 상부 레벨은 예를 들면, 노이즈를 위한 전송된 레벨이 두 배(혹은 인자에 의한 곱)인 경우와 상응하며, 반면에 하부 레벨은 전송된 레벨이 인자에 의해 감소되는 경우와 상응한다. 스위치는 오디오 신호 양성 혹은 음성의 스펙트럼 기울기를 나타내는 코드된 오디오 신호(345)의 비트 스트림에서의 비트에 의해 제어될 수 있다. 대안으로 스위치는 또한 예를 들면 스펙트럼 기울기와 관련하여(스펙트럼 기울기가 양성인지 혹은 음성인지), 디코드된 오디오 신호(제 1 주파수 대역에서의 구성요소) 혹은 주파수 부대역 오디오 신호의 분석에 의해 활성화될 수 있다. 대안으로, 스위치는 또한 제 1 선형 예측 코딩 계수에 의해 제어될 수 있는데, 그 이유는 이러한 계수가 스펙트럼 기울기를 나타내기 때문이다.
비록 도 1 및 3 내지 5의 일부는 장치의 블록 다이어그램으로 설명되나, 이러한 도면은 동시에 블록의 기능성이 방법 단계와 상응하는, 방법을 설명한다.
위에서 설명한 것과 같이, 스펙트럼 대역 복제 시간 유닛(스펙트럼 대역 복제 프레임) 혹은 시간 부분은 이른바 포락의, 다양한 데이터 블록으로 분할될 수 있다. 이러한 분할은 스펙트럼 대역 복제 프레임에 걸쳐 일정할 수 있으며 스펙트럼 대역 복제 프레임 내의 오디오 신호의 합성을 유연하게 조절하도록 허용한다.
도 6은 포락의 수(n)에서 스펙트럼 대역 복제 프레임에 대한 그러한 분할을 설명한다. 스펙트럼 대역 복제 프레임은 처음 시간(t0) 및 마지막 시간(tn) 사이의 시간 기간 혹은 시간 부분을 포함한다(cover). 시간 부분(T)은 예를 들면, 제 1 시간 부분(T1), 제 2 시간 부분(T2), ..., 제 8 시간 부분(T8)의 8개의 시간 부분으로 분할된다. 이 실시 예에서, 포락의 최대 수는 시간 부분의 수와 일치하며 n = 8로 주어진다. 8개의 시간 부분 T1, ..., T8은 7개의 경계에 의해 분리되는데, 이는 경계 1은 제 1(T1) 및 제 2 시간 부분(T2)을 분리하며, 경계 2는 제 2(T2) 및 제 3 시간 부분(T3)을 분리하며, 계속해서 경계 7은 제 7 부분(T7) 및 제 8 부분(T8)을 분리하는 것을 의미한다.
다른 실시 예에서, 스펙트럼 대역 복제 프레임은 네 개의 노이즈 포락으로 분할되거나(n=4) 혹은 두 개의 노이즈 포락(n=2)으로 분할된다. 도 6에 도시된 실시 예에서, 모든 포락은 동일한 시간의 길이를 포함하는데, 이는 또 다른 실시 예에서는 노이즈 플로어가 다른 시간 길이를 포함하기 때문에 다를 수 있다. 상세히 설명하면, 두 개의 노이즈 포락(n=2)을 갖는 경우는 처음의 네 개의 시간 부분(T1, T2, T3, T4)에 걸쳐 시간 t0으로부터 확장되는 제 1 포락 및 5번째부터 8번째 시간 부분(T5, T6, T7, T8)을 포함하는 제 2 노이즈 포락을 포함한다. 표준 ISO/IEC 14496-3 때문에, 포락의 최대 수는 2로 한정된다. 그러나 실시 예는 어떤 수의 포락도 사용할 수 있다(예를 들면 2, 4, 8개의 포락).
또 다른 실시 예에서, 포락 데이터 계산기(210)는 측정된 노이즈 플로어 데이터(115)의 변경에 따라 포락의 수를 변경하도록 설정된다. 예를 들면, 만약 측정된 노이즈 플로어 데이터(115)가 다양한 노이즈 플로어(예를 들면 위에서의 한계)를 나타내면 포락의 수는 증가될 수 있으며 반면에 노이즈 플로어 데이터(115)가 일정한 노이즈 플로어를 나타내는 경우에 포락의 수는 감소될 수 있다.
또 다른 실시 예에서, 신호 에너지 특성기(120)는 음성에서의 치찰음을 감지하기 위하여 언어 정보를 기초로 할 수 있다. 예를 들면, 음성 신호가 국제 발음 철자와 같은 메타(meta) 정보와 관련될 때, 이러한 메타 정보의 분석은 마찬가지로 음성 부분의 치찰음 감지를 제공할 것이다. 이러한 관계에서, 오디오 신호의 메타 데이터 부분이 분석된다.
본 발명의 인코드된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있거나 혹은 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체에 의해 전송될 수 있다.
특정한 구현 요구사항에 따라, 본 발명의 실시 예는 하드웨어 혹은 소프트웨어에서 구현될 수 있다. 구현은 예를 들면 그 위에 저장되는 전자적으로 판독가능한 제어 신호를 갖는, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 혹은 플래시 메모리와 같은 디지털 저장 매체를 사용하여 실행될 수 있는데, 이는 각각의 방법이 실행되는 것과 같이 프로그램 작동이 가능한 컴퓨터 시스템과 협력(혹은 협력할 수 있는)한다.
본 발명에 따른 몇몇 실시 예는 프로그램 작동이 가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호를 갖는 데이터 캐리어(data carrier)를 포함하는데, 여기서 방법 중의 하나가 실행된다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있는데, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법 중의 하나를 실행하도록 작동된다. 프로그램 코드는 예를 들면 기계가 판독가능한 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계가 판독가능한 캐리어 상에 저장되는, 여기서 설명하는 방법 중의 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 실시 예는, 따라서 컴퓨터 프로그램이 컴퓨터 상에서 구동할 때, 여기서 설명되는 방법 중의 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 다른 실시 예는, 따라서 그 위에 저장되는, 여기서 설명되는 방법 중의 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(혹은 디지털 저장 매체, 혹은 컴퓨터가 판독가능한 매체)이다.
본 발명의 방법의 또 다른 실시 예는, 따라서 여기서 설명되는 방법 중의 하나를 실행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 혹은 신호의 순서이다. 데이터 스트림 혹은 신호의 순서는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전달되도록 설정된다.
또 다른 실시 예는 여기서 설명되는 방법 중의 하나를 실행하도록 설정되거나 혹은 적용되는, 프로세싱 수단, 예를 들면 컴퓨터, 혹은 프로그램 논리 장치를 포함한다.
또 다른 실시 예는 여기서 설명되는 방법 중의 하나를 실행하기 위하여 그 위에 설치되는 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.
몇몇 실시 예에서, 여기에 설명한 방법의 몇몇 혹은 모든 기능을 실행하기 위하여 프로그램 작동이 가능한 논리 장치(예를 들면 전계 프로그램 게이트 어레이(field programmable gate array))가 사용될 수 있다. 몇몇 실시 예에서, 전계 프로그램 게이트 어레이는 여기서 설명한 방법 중의 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에서 설명한 실시 예들은 단지 본 발명의 원리를 설명하기 위한 것이다. 여기서 설명한 배열 및 세부사항의 변형 및 변경은 통상의 지식을 가진 자들에게 자명할 것으로 이해된다. 그러므로, 여기서 실시 예의 설명에 의해 나타난 구체적 세부사항에 의한 것이 아니라 다음의 특허 청구항의 범위에 의해 한정될 것이다.
100 : 장치
102 : 대역폭 확장 출력 데이터
105 : 오디오 신호
105a : 제 1 주파수 대역
105b : 제 2 주파수 대역
10532 : 주파수 부대역
110 : 노이즈 플로어 측정기
115 : 노이즈 플로어 데이터
120 : 신호 에너지 특성기
125 : 에너지 분포 데이터
130 : 프로세서
210 : 포락 데이터 계산기
300 : 인코더
310 : 대역폭 확장 관련 모듈
320 : 분석 직교 미러 필터 뱅크
330 : 로우 패스 필터
340 : 코어 코더
345 : 코드된 오디오 스트림
350 : 비트 스트림 페이로드 변형기
355 : 인코드된 구성요소
357 : 비트 스트림 페이로드 디포매터
360 : 고급 오디오 코딩 코어 디코더
370 : 분석 대역 직교 미러 필터-뱅크
375 : 대역폭 확장 데이터
380 : 비트 스트림 파서
390 : 양자화 유닛
400 : 디코더
410 : 패치 생성기
412 : 제어 정보
425 : 미가공 신호 스펙트럼 표현
430a : 대역폭 확장 도구
430b : 포락 조절기
431 : 노이즈 플로어 변형 유닛
433 : 노이즈 플로어 계산 도구
434 : 컴바이너
440 : 합성 직교 미러 필터-뱅크

Claims (16)

  1. 오디오 신호는 제 1 주파수 대역(105a)에서의 구성요소 및 제 2 주파수 대역(105b)에서의 구성요소를 포함하며, 대역폭 확장 출력 데이터(102)는 제 2 주파수 대역(105b)에서의 구성요소의 합성을 제어하도록 설정된, 오디오 신호(105)에 대한 대역폭 확장 출력 데이터(102)를 생성하기 위한 장치(100)에 있어서:
    오디오 신호(105)의 시간 부분(T)에 대한 제 2 주파수 대역(105b)의 노이즈 플로어 데이터(115)를 측정하기 위한 노이즈 플로어 측정기(110);
    오디오 신호(105)의 시간 부분(T)의 스펙트럼에서의 에너지 분포를 특징으로 하는 에너지 분포 데이터(125)를 파생하기 위한 신호 에너지 특성기(120); 및
    대역폭 확장 출력 데이터(102)를 획득하기 위하여 노이즈 플로어 데이터(115) 및 에너지 분포 데이터(125)를 결합하기 위한 프로세서(130)를 포함하는 것을 특징으로 하는 장치(100).
  2. 제 1항에 있어서, 상기 신호 에너지 특성기(120)는 에너지 분포 데이터(125)로서, 치찰음 파라미터 혹은 스펙트럼 기울기 파라미터를 사용하도록 설정되며, 상기 치찰음 파라미터 혹은 스펙트럼 기울기 파라미터는 주파수(F)를 갖는 오디오 신호(105)의 레벨의 증가 혹은 감소를 인식하는 것을 특징으로 하는 장치(100).
  3. 제 2항에 있어서, 상기 신호 에너지 특성기(120)는 치찰음 파라미터로서 제 1 선형 예측 코딩 계수를 사용하도록 설정된 것을 특징으로 하는 장치(100).
  4. 전 항 중 어느 한 항에 있어서, 상기 프로세서(130)는 노이즈 플로어 데이터(115) 및 스펙트럼 에너지 분포 데이터(125)를 대역폭 확장 출력 데이터(102)로서 비트스트림에 더하도록 설정된 것을 특징으로 하는 장치(100).
  5. 제 1 내지 3항 중 어느 한 항에 있어서, 상기 프로세서(130)는 변형된 노이즈 플로어 데이터를 획득하기 위하여 에너지 분포 데이터(125)에 따라 노이즈 플로어 데이터(115)를 변경하도록 설정되며, 상기 프로세서(130)는 변형된 노이즈 플로어 데이터를 대역폭 확장 출력 데이터(102)로서 비트스트림에 더하도록 설정된 것을 특징으로 하는 장치(100).
  6. 제 5항에 있어서, 상기 노이즈 플로어 데이터(115)의 변경은 변형된 노이즈 플로어가 적은 치찰음을 포함하는 오디오 신호(105)와 비교하여 더 많은 치찰음을 포함하는 오디오 신호(105)에 대하여 증가되는 것과 같은 것을 특징으로 하는 장치(100).
  7. 오디오 신호는 제 1 주파수 대역(105a)에서의 구성요소 및 제 2 주파수 대역(105b)에서의 구성요소를 포함하는, 오디오 신호(105)를 인코딩하기 위한 인코더(300)에 있어서:
    제 1 주파수 대역(105a)에서의 구성요소를 인코딩하기 위한 코어 코더(340);
    제 1 내지 6항 중 어느 한 항에 다른 대역폭 확장 출력 데이터(102)를 생성하기 위한 장치(100); 및
    제 2 주파수 대역(105b)에서의 구성요소를 기초로 한, 대역폭 확장 출력 데이터(102)를 포함하는 대역폭 확장 데이터(375)를 계산하기 위한 포락 데이터 계산기(210)를 포함하는 것을 특징으로 하는 인코더(300).
  8. 제 7항에 있어서, 상기 시간 부분(T)은 스펙트럼 대역 복제 프레임을 포함하며, 상기 스펙트럼 대역 복제 프레임은 복수의 노이즈 포락을 포함하며, 상기 노이즈 포락 데이터 계산기(210)는 복수의 노이즈 포락의 서로 다른 노이즈 포락에 대하여 서로 다른 대역폭 확장 데이터(375)를 계산하도록 설정된 것을 특징으로 하는 인코더(300).
  9. 제 7항 혹은 8항에 있어서, 상기 포락 데이터 계산기(210)는 측정된 노이즈 플로어 데이터(115)의 변경에 따라 포락의 수를 변경하도록 설정되는 것을 특징으로 하는 인코더(300).
  10. 오디오 신호(105)는 제 1 주파수 대역(105a)에서의 구성요소 및 제 2 주파수 대역(105b)에서의 구성요소를 포함하며, 대역폭 확장 출력 데이터(102)는 제 2 주파수 대역(105b)에서의 구성요소의 합성을 제하도록 설정되는 것을 특징으로 하는, 오디오 신호(105)에 대한 대역폭 확장 출력 데이터(102)를 생성하기 위한 방법에 있어서:
    오디오 신호(105)의 시간 부분(T)에 대한 제 2 주파수 대역(105b)의 노이즈 플로어 데이터(115)를 측정하는 단계;
    오디오 신호(105)의 시간 부분(T)의 스펙트럼에서의 에너지 분포를 특징으로 하는 에너지 분포 데이터(125)를 파생하는 단계; 및
    대역폭 확장 출력 데이터(102)를 획득하기 위하여 노이즈 플로어 데이터(115) 및 에너지 분포 데이터(125)를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
  11. 대역폭 확장 출력 데이터(102)는 에너지 분포 데이터(125)를 포함하며, 상기 에너지 분포 데이터(125)는 오디오 신호(105)의 시간 부분(T)의 스펙트럼에서의 에너지 분포를 특징으로 하는, 대역폭 확장 출력 데이터(102)를 기초로 하며 제 2 주파수 대역(105b)에서의 구성요소에 대한 미가공 신호 스펙트럼 표현을 기초로 하는 오디오 신호(105)의 제 2 주파수 대역(105b)에서의 구성요소를 생성하기 위한 대역폭 확장 도구(430)에 있어서:
    에너지 분포 데이터(125)에 따라 전송된 노이즈 플로어를 변형하도록 설정된, 노이즈 플로어 변형기 도구(433, 431); 및
    변형된 노이즈 플로어를 갖는 제 2 주파수 대역(105b)에서의 구성요소를 생성하기 위하여 미가공 신호 스펙트럼 표현을 변형된 노이즈 플로어와 결합하기 위한 컴바이너(434)를 포함하는 것을 특징으로 하는 대역폭 확장 도구(430).
  12. 제 11항에 있어서, 상기 오디오 신호(105)는 제 1 주파수 대역(105a)에서의 구성요소를 포함하며 상기 대역폭 확장 파라미터(102)는 노이즈 플로어에 대한 노이즈 레벨을 나타내는 전송된 노이즈 플로어 데이터를 포함하며, 상기 노이즈 플로어 변형기 도구(433, 431)는
    제 1 주파수 대역(105a)에서 보다 제 2 주파수 대역(105b)의 구성요소에서 더 많은 에너지를 포함하는 오디오 신호(105)를 나타내는 에너지 분포 데이터(125)의 경우에 노이즈 레벨을 증가시키도록 적용되거나, 혹은
    제 2 주파수 대역(105b)에서 보다 제 1 주파수 대역(105a)의 구성요소에서 더 많은 에너지를 포함하는 오디오 신호(105)를 나타내는 에너지 분포 데이터(125)의 경우에 노이즈 레벨을 감소시키도록 적용되는 것을 특징으로 하는 대역폭 확장 도구(430).
  13. 오디오 신호(105)를 획득하기 위하여 코드된 오디오 스트림(345)을 디코딩하기 위한 디코더(400)에 있어서:
    인코드된 신호(355) 및 대역폭 확장 출력 데이터(102)를 분리하는 비트스트림 디포매터(357);
    제 11항 혹은 12항의 대역폭 확장 도구(430);
    인코드된 오디오 신호(355)로부터 제 1 주파수 대역(105a)에서의 구성요소를 디코딩하기 위한 코어 디코더(360); 및
    제 1(105a) 및 제 2 주파수 대역(105b)의 구성요소의 결합에 의해 오디오 신호(105)를 합성하기 위한 합성 유닛(440)을 포함하는 것을 특징으로 하는 디코더.
  14. 오디오 신호(105)는 제 1 주파수 대역(105a)에서의 구성요소 및 대역폭 확장 출력 데이터(102)를 포함하며, 상기 대역폭 확장 출력 데이터(102)는 에너지 분포 데이터(125) 및 노이즈 플로어 데이터를 포함하며, 상기 에너지 분포 데이터(125)는 오디오 신호(105)의 시간 부분(T)의 스펙트럼에서의 에너지 분포를 특징으로 하는, 오디오 신호(105)를 획득하기 위하여 코드된 오디오 스트림(345)을 디코딩하기 위한 방법에 있어서:
    코드된 오디오 스트림(345)으로부터 인코드된 오디오 신호(355) 및 대역폭 확장 출력 데이터(102)를 분리하는 단계;
    인코드된 오디오 신호(355)로부터 제 1 주파수 대역(105a)에서의 구성요소를 디코딩하는 단계;
    제 1 주파수 대역(105a)에서의 구성요소로부터 제 2 주파수 대역(105b)에서의 구성요소에 대한 미가공 신호 스펙트럼 표현(425)을 생성하는 단계;
    에너지 분포 데이터(125) 및 전송된 노이즈 플로어 데이터에 따라 노이즈 플로어를 변형하는 단계;
    계산된 노이즈 플로어를 갖는 제 2 주파수 대역(105b)에서의 구성요소를 생성하기 위하여 미가공 신호 스펙트럼 표현(425)을 변형된 노이즈 플로어와 결합하는 단계; 및
    제 1(105a) 및 제 2 주파수 대역(105b)의 구성요소의 결합에 의해 오디오 신호(105)를 합성하는 단계를 포함하는 것을 특징으로 하는 방법.
  15. 컴퓨터 상에서 구동할 때, 제 10항 혹은 14항의 방법을 실행하기 위한 컴퓨터 프로그램.
  16. 오디오 신호(105)의 제 1 주파수 대역(105b)에서의 구성요소에 대한 인코드된 오디오 신호(355);
    오디오 신호(105)의 제 1 주파수 대역(105b)에서의 구성요소에 대한 노이즈 플로어의 합성을 제어하도록 적용된 노이즈 플로어 데이터; 및
    노이즈 플로어의 변형을 제어하도록 적용된 에너지 분포 데이터(125)를 포함하는 것을 특징으로 하는 인코드된 오디오 스트림(345).
KR1020117000543A 2008-07-11 2009-06-23 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법 KR101278546B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7984108P 2008-07-11 2008-07-11
US61/079,841 2008-07-11
PCT/EP2009/004521 WO2010003544A1 (en) 2008-07-11 2009-06-23 An apparatus and a method for generating bandwidth extension output data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020137007019A Division KR101345695B1 (ko) 2008-07-11 2009-06-23 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110040820A true KR20110040820A (ko) 2011-04-20
KR101278546B1 KR101278546B1 (ko) 2013-06-24

Family

ID=40902067

Family Applications (5)

Application Number Title Priority Date Filing Date
KR1020137018759A KR101395252B1 (ko) 2008-07-11 2009-06-23 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법
KR1020117000542A KR101395250B1 (ko) 2008-07-11 2009-06-23 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법
KR1020117000543A KR101278546B1 (ko) 2008-07-11 2009-06-23 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
KR1020137018760A KR101395257B1 (ko) 2008-07-11 2009-06-23 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법
KR1020137007019A KR101345695B1 (ko) 2008-07-11 2009-06-23 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020137018759A KR101395252B1 (ko) 2008-07-11 2009-06-23 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법
KR1020117000542A KR101395250B1 (ko) 2008-07-11 2009-06-23 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020137018760A KR101395257B1 (ko) 2008-07-11 2009-06-23 스펙트럼 포락선의 수를 산출하기 위한 장치 및 그 방법
KR1020137007019A KR101345695B1 (ko) 2008-07-11 2009-06-23 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법

Country Status (20)

Country Link
US (2) US8296159B2 (ko)
EP (2) EP2301027B1 (ko)
JP (2) JP5628163B2 (ko)
KR (5) KR101395252B1 (ko)
CN (2) CN102089817B (ko)
AR (3) AR072552A1 (ko)
AU (2) AU2009267530A1 (ko)
BR (2) BRPI0910517B1 (ko)
CA (2) CA2729971C (ko)
CO (2) CO6341676A2 (ko)
ES (2) ES2539304T3 (ko)
HK (2) HK1156140A1 (ko)
IL (2) IL210196A (ko)
MX (2) MX2011000361A (ko)
MY (2) MY153594A (ko)
PL (2) PL2301028T3 (ko)
RU (2) RU2487428C2 (ko)
TW (2) TWI415115B (ko)
WO (2) WO2010003546A2 (ko)
ZA (2) ZA201009207B (ko)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177569B2 (en) 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
CA2792449C (en) 2010-03-09 2017-12-05 Dolby International Ab Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals
EP2532002B1 (en) 2010-03-09 2014-01-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for processing an audio signal
MX2012010415A (es) 2010-03-09 2012-10-03 Fraunhofer Ges Forschung Aparato y metodo para procesar una señal de audio de entrada utilizando bancos de filtro en cascada.
CN102971788B (zh) * 2010-04-13 2017-05-31 弗劳恩霍夫应用研究促进协会 音频信号的样本精确表示的方法及编码器和解码器
EP2559032B1 (en) * 2010-04-16 2019-01-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for generating a wideband signal using guided bandwidth extension and blind bandwidth extension
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
US9117440B2 (en) 2011-05-19 2015-08-25 Dolby International Ab Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal
WO2013085499A1 (en) * 2011-12-06 2013-06-13 Intel Corporation Low power voice detection
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
KR101629661B1 (ko) * 2012-08-29 2016-06-13 니폰 덴신 덴와 가부시끼가이샤 복호 방법, 복호 장치, 프로그램 및 그 기록매체
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
EP2717263B1 (en) * 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
PT3121813T (pt) * 2013-01-29 2020-06-17 Fraunhofer Ges Forschung Preenchimento de ruído sem informação lateral para codificadores do tipo celp
WO2014118179A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
BR112015017632B1 (pt) 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
EP2981956B1 (en) 2013-04-05 2022-11-30 Dolby International AB Audio processing system
BR122020020698B1 (pt) * 2013-04-05 2022-05-31 Dolby International Ab Método para decodificação, meio legível por computador não transitório para decodificação, decodificador, e método de codificação de áudio para codificação em forma de onda intercalada
CN105431902B (zh) 2013-06-10 2020-03-31 弗朗霍夫应用科学研究促进协会 用于音频信号包络编码、处理和解码的装置和方法
EP3008725B1 (en) 2013-06-10 2017-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
ES2697474T3 (es) * 2013-06-21 2019-01-24 Fraunhofer Ges Forschung Decodificador de audio que tiene un módulo de extensión de ancho de banda con un módulo de ajuste de energía
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
CN110619882B (zh) * 2013-07-29 2023-04-04 杜比实验室特许公司 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法
US9666202B2 (en) * 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
KR102023138B1 (ko) 2013-12-02 2019-09-19 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10120067B2 (en) 2014-08-29 2018-11-06 Leica Geosystems Ag Range data compression
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
PL3503097T3 (pl) * 2016-01-22 2024-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie oraz sposób do enkodowania lub dekodowania sygnału wielokanałowego z wykorzystaniem ponownego próbkowania w dziedzinie widmowej
CN105513601A (zh) * 2016-01-27 2016-04-20 武汉大学 一种音频编码带宽扩展中频带复制的方法及装置
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10084493B1 (en) * 2017-07-06 2018-09-25 Gogo Llc Systems and methods for facilitating predictive noise mitigation
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
US11811686B2 (en) * 2020-12-08 2023-11-07 Mediatek Inc. Packet reordering method of sound bar

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
RU2128396C1 (ru) * 1997-07-25 1999-03-27 Гриценко Владимир Васильевич Способ передачи и приема информации и устройство для его осуществления
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
CN1279512C (zh) * 2001-11-29 2006-10-11 编码技术股份公司 用于改善高频重建的方法和装置
KR100711280B1 (ko) 2002-10-11 2007-04-25 노키아 코포레이션 소스 제어되는 가변 비트율 광대역 음성 부호화 방법 및장치
JP2004350077A (ja) * 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
SE0301901L (sv) 2003-06-26 2004-12-27 Abb Research Ltd Metod för att diagnostisera utrustningsstatus
DE602004030594D1 (de) * 2003-10-07 2011-01-27 Panasonic Corp Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
JP2007524124A (ja) * 2004-02-16 2007-08-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ トランスコーダ及びそのための符号変換方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1769475B1 (en) 2004-06-28 2010-05-05 Abb Research Ltd. System and method for suppressing redundant alarms
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
US7676043B1 (en) 2005-02-28 2010-03-09 Texas Instruments Incorporated Audio bandwidth expansion
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
KR100647336B1 (ko) 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
KR101366124B1 (ko) * 2006-02-14 2014-02-21 오렌지 오디오 인코딩/디코딩에서의 인지 가중 장치
EP1852849A1 (en) 2006-05-05 2007-11-07 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
US20070282803A1 (en) * 2006-06-02 2007-12-06 International Business Machines Corporation Methods and systems for inventory policy generation using structured query language
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
ATE463028T1 (de) 2006-09-13 2010-04-15 Ericsson Telefon Ab L M Verfahren und anordnungen für einen sprach- /audiosender und empfänger
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP5618826B2 (ja) 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
WO2009081315A1 (en) 2007-12-18 2009-07-02 Koninklijke Philips Electronics N.V. Encoding and decoding audio or speech
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2259253B1 (en) * 2008-03-03 2017-11-15 LG Electronics Inc. Method and apparatus for processing audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing

Also Published As

Publication number Publication date
KR101395257B1 (ko) 2014-05-15
TWI415114B (zh) 2013-11-11
AR072552A1 (es) 2010-09-08
BRPI0910523A2 (pt) 2020-10-20
KR20110038029A (ko) 2011-04-13
US20110202358A1 (en) 2011-08-18
RU2011101617A (ru) 2012-07-27
KR101278546B1 (ko) 2013-06-24
KR20130095841A (ko) 2013-08-28
IL210196A0 (en) 2011-03-31
ES2398627T3 (es) 2013-03-20
KR20130033468A (ko) 2013-04-03
EP2301028B1 (en) 2012-12-05
IL210196A (en) 2015-10-29
MY153594A (en) 2015-02-27
HK1156141A1 (en) 2012-06-01
EP2301027A1 (en) 2011-03-30
CN102089817B (zh) 2013-01-09
PL2301028T3 (pl) 2013-05-31
AU2009267532A8 (en) 2011-03-17
CN102144259B (zh) 2015-01-07
JP5551694B2 (ja) 2014-07-16
HK1156140A1 (en) 2012-06-01
TW201007700A (en) 2010-02-16
CA2730200C (en) 2016-09-27
JP5628163B2 (ja) 2014-11-19
PL2301027T3 (pl) 2015-09-30
US20110202352A1 (en) 2011-08-18
IL210330A0 (en) 2011-03-31
RU2011103999A (ru) 2012-08-20
TWI415115B (zh) 2013-11-11
KR20130095840A (ko) 2013-08-28
TW201007701A (en) 2010-02-16
KR101395252B1 (ko) 2014-05-15
CO6341676A2 (es) 2011-11-21
AR072480A1 (es) 2010-09-01
ZA201009207B (en) 2011-09-28
MX2011000367A (es) 2011-03-02
WO2010003546A2 (en) 2010-01-14
JP2011527450A (ja) 2011-10-27
AU2009267530A1 (en) 2010-01-14
CA2729971C (en) 2014-11-04
ES2539304T3 (es) 2015-06-29
CA2729971A1 (en) 2010-01-14
WO2010003546A3 (en) 2010-03-04
CN102089817A (zh) 2011-06-08
CN102144259A (zh) 2011-08-03
US8612214B2 (en) 2013-12-17
RU2494477C2 (ru) 2013-09-27
AR097473A2 (es) 2016-03-16
US8296159B2 (en) 2012-10-23
ZA201100086B (en) 2011-08-31
EP2301028A2 (en) 2011-03-30
KR101395250B1 (ko) 2014-05-15
AU2009267532B2 (en) 2013-04-04
JP2011527448A (ja) 2011-10-27
WO2010003544A1 (en) 2010-01-14
BRPI0910517A2 (pt) 2016-07-26
CA2730200A1 (en) 2010-01-14
KR101345695B1 (ko) 2013-12-30
AU2009267532A1 (en) 2010-01-14
BRPI0910517B1 (pt) 2022-08-23
EP2301027B1 (en) 2015-04-08
MX2011000361A (es) 2011-02-25
RU2487428C2 (ru) 2013-07-10
CO6341677A2 (es) 2011-11-21
MY155538A (en) 2015-10-30
BRPI0910523B1 (pt) 2021-11-09

Similar Documents

Publication Publication Date Title
KR101345695B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR101120911B1 (ko) 음성신호 복호화 장치 및 음성신호 부호화 장치
CA2699316C (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
KR101518532B1 (ko) 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램
US9646616B2 (en) System and method for audio coding and decoding
US9424847B2 (en) Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
US9454974B2 (en) Systems, methods, and apparatus for gain factor limiting
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
US8391212B2 (en) System and method for frequency domain audio post-processing based on perceptual masking
US6654716B2 (en) Perceptually improved enhancement of encoded acoustic signals
US20230206930A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
KR101991421B1 (ko) 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더
JP4313993B2 (ja) オーディオ復号化装置およびオーディオ復号化方法
AU2013257391B2 (en) An apparatus and a method for generating bandwidth extension output data

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
AMND Amendment
E601 Decision to refuse application
A107 Divisional application of patent
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160520

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170607

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180611

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190531

Year of fee payment: 7