KR101182258B1 - 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법 - Google Patents

스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법 Download PDF

Info

Publication number
KR101182258B1
KR101182258B1 KR1020107007278A KR20107007278A KR101182258B1 KR 101182258 B1 KR101182258 B1 KR 101182258B1 KR 1020107007278 A KR1020107007278 A KR 1020107007278A KR 20107007278 A KR20107007278 A KR 20107007278A KR 101182258 B1 KR101182258 B1 KR 101182258B1
Authority
KR
South Korea
Prior art keywords
spectral
audio signal
bandwidth extension
spectral slope
detector
Prior art date
Application number
KR1020107007278A
Other languages
English (en)
Other versions
KR20100083135A (ko
Inventor
막스 노이엔도르프
울리히 크래머
프레데를크 나겔
사샤 디쉬
슈테판 와브닉
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20100083135A publication Critical patent/KR20100083135A/ko
Application granted granted Critical
Publication of KR101182258B1 publication Critical patent/KR101182258B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

제 1 스펙트럼 대역은 제 1 비트 수로 부호화되고 제 1 스펙트럼 대역과 다른 제 2 스펙트럼 대역은 제 2 비트 수로 부호화되며, 제 2 비트 수는 제 1 비트 수보다 더 작은 대역폭 확장 시스템에서, 오디오 신호의 대역폭 확장 데이터를 계산하는 장치는 오디오 신호 프레임의 시퀀스에 대한 프레임 와이즈 방법으로 제 2 주파수 대역에 대한 대역폭 확장 파라미터를 계산하는 제어 가능 대역폭 확장 파라미터 계산기(10)를 갖는다. 각 프레임은 제어 가능 시간 인스턴트를 갖는다. 상기 장치는 부가적으로 오디오 신호의 시간 부분에서 스펙트럼 기울기를 검출하고 스펙트럼 기울기에 따라 오디오 신호의 각 프레임에 대한 시작 시간 인스턴트 신호를 보내는 스펙트럼 기울기 검출기(12)를 포함하고 있다.

Description

스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법 {Apparatus and Method for Calculating Bandwidth Extension Data Using a Spectral Tilt Controlling Framing}
본 발명은 오디오 코딩(coding)/디코딩(decoding), 특히 대역폭 확장(BWE) 분야에서의 오디오 코딩/디코딩에 관한 것이다. BWE의 잘 알려진 구현은 스펙트럴 밴드위스 리플리케이션(Spectral Bandwidth Replication:SBR)인데, 이것은 MPEG(동영상 전문가 그룹) 내에서 표준이 되어 왔다.
WO 00/45378은 가변 시간/주파수 분해능(resolution) 그리고 시간/주파수 전환을 사용하여 능률적인 스펙트럼 포락 코딩(spectral envelope coding)을 나타낸다. 아날로그 입력 신호는 A/D 컨버터(converter)로 보내져서, 디지털 신호를 형성한다. 디지털 오디오 신호는 지각 오디오 인코더(perceptual audio encoder)로 보내져서, 소스 코딩(source coding)이 실행된다. 더욱이, 디지털 신호는 트랜전트 검출기(transient detector)와 분석 필터 뱅크(analysis filter bank)로 보내지는데, 이것은 신호를 그것의 스펙트럼 표현(부대역 신호)으로 잘게 나눈다. 트랜전트 검출기는 분석 뱅크로부터의 부대역 신호 위에 작동되거나 디지털 시간 영역 샘플 위에 직접적으로 작동된다. 트랜전트 검출기는 신호를 미세한 그래뉼(granule)로 나누고 미세하게 나누어진 그래뉼 내에 있는 하위의 그래뉼이 트랜전트로서 표시될 것인지 결정한다. 이 정보는 포락 그룹화 블록(envelope grouping block)으로 보내지는데, 이것은 시간/주파수 그리드(grid)가 현 그래뉼에 사용될 수 있게 명시한다. 그리드에 따라, 블록은 균일하지 않게 표본 추출된 포락(envelope) 값을 얻기 위해서 균일하게 표본 추출된 부대역 신호를 결합시킨다. 이러한 값은 결합해왔었던 부대역 샘플에 대한 평균이 되거나 대안으로 최대 에너지가 될 수도 있다. 포락 값은 그룹화 정보와 함께, 포락 인코더 블록으로 보내진다. 이 블록은 어느 쪽(시간 또는 주파수)으로 포락 값을 부호화할 것인지 결정한다. 결과로서 생긴, 오디오 인코더로부터 출력된 광대역 포락 정보로서의 신호 및 제어 신호는 멀티플렉서(multiplexer)로 보내져서, 전송되거나 저장되는 직렬 비트 스트림(bit stream)을 형성한다.
디코더(decoder)의 측에서는, 디-멀티플렉서(de-multiplexer)는 신호를 복원하고 지각 오디오 인코더의 출력을 오디오 디코더로 넣어서, 저 대역 디지털 오디오 신호를 생성한다. 포락 정보는 디-멀티플렉서에서 포락 디코딩 블록으로 보내지는데, 이것은 제어 데이터를 사용하여, 현재의 포락을 어느 방향으로 부호화할 것인지 결정하고 데이터를 해독한다. 오디오 디코더부터의 저 대역 신호는 전위 모듈로 보내져서, 저 대역 신호로부터의 하나 또는 몇 개의 배음(harmonics) 으로 이루어진 원래의 고 대역 신호의 추정치를 생성한다. 고 대역 신호는 분석 필터 뱅크로 보내지는데, 이것은 인코더 측에서와 동일한 유형이다. 부대역 신호는 스케일(scale) 요소 그룹화 유닛(unit)에서 결합한다. 디-멀티플렉서로부터 제어 데이터를 사용하여, 인코더 측에서처럼 부대역 샘플의 결합의 유형 그리고 시간/주파수 분할이 채택된다. 디-멀티플렉서로부터의 포락 정보 그리고 스케일 요소 그룹화 유닛으로부터의 정보는 이득 제어 모듈에서 처리된다. 모듈은 복원 이전에 합성 필터 뱅크 블록을 사용하여 이득요소가 부대역 샘플에 적용될 수 있도록 계산한다. 그래서, 합성필터 뱅크의 출력은 포락 조정된 고 대역 오디오 신호이다. 신호는 딜레이(delay) 유닛의 출력에 더해지는데, 이것은 저 대역 오디오 신호를 공급한다. 딜레이는 고 대역 신호의 프로세싱 시간을 보충한다. 최종적으로, 얻어진 디지털 광대역 신호는 디지털 투 아날로그 컨버터(digital to analogue converter)에서 아날로그 오디오 신호로 전환된다.
지속된 코오드(chord)가 주로 고 주파수 성분을 갖는 급격한 트랜전트와 결합했을 때, 코오드는 저 대역에서 높은 에너지를 가지며 트랜전트 에너지는 낮지만 반면에, 고 대역에서는 반대가 된다. 트랜전트가 존재하는 시간 간격 동안에 생성된 포락 데이터는 고 간헐적 트랜전트 에너지에 의해서 지배된다. 종래의 코더(corder)는 블록을 근거하여 작동하는데, 그곳에서 모든 블록은 고정된 시간 간격을 나타낸다. 트랜전트 검출기 룩어헤드(transient detector look-ahead)는 블록의 보더(border)를 연결하는 포락 데이터가 처리될 수 있도록 인코더 부분에서 채택된다. 이것은 시간/주파수 분해능을 더욱 유연하게 선택할 수 있게 한다.
국제 표준 ISO/IEC 14496-3 섹션(section) 4,6,18,3,3 에서 시간/주파수 그리드를 나타내며, 각 SBR 포락 그리고 노이즈 플로어(noise floor)가 관련된 시간 세그먼트(segment)뿐만 아니라 SBR 포락 그리고 노이즈 플로어의 수를 설명한다. 각 시간 세그먼트는 시작 시간 보더 그리고 멈춤 시간 보더에 의해서 정의된다. 시작 시간 보더에 의해 표시되는 시간 슬롯(slot)은 시간 세그먼트에 포함되고, 멈춤 시간 보더에 의해 표시되는 시간 슬롯은 시간 세그먼트에서 배제된다. 세그먼트의 멈춤 시간 보더는 세그먼트 시퀀스(sequence)의 다음 세그먼트의 시작 시간 보더와 같다. 그래서, SBR 프레임 내에 있는 SBR 포락의 시간 보더는 디코더 부분에서 복호 가능하다. 그리드/주파수 그리드 상응하는 시간은 인코더에 의해 결정된다.
미국 특허 6,453,282 B1은 이산 시간 오디오 신호에서 트랜전트를 검출하는 방법 그리고 장치를 나타내고 있다. 인코더는 시간/주파수 변환 장치, 양자화/부호화 장치 그리고 비트스트림 포맷팅(formatting) 장치를 포함한다. 양자화/부호화 단계는 심리-음향 모델 단계에 의해 제어된다. 시간/주파수 변환 단계는 트랜전트 검출기에 의해 제어되는데, 그곳에서 시간/주파수 변환은 검출된 트랜전트인 경우에는 긴 시간대부터 짧은 시간대까지 바꾸기 위해서 제어된다. 트랜전트 검출기에서, 현재의 세그먼트에서의 여과된 이산 시간 오디오 신호의 에너지는 선행하는 세그먼트에서의 여과된 이산 시간 오디오 신호의 에너지와 비교되거나 또는 현재의 세그먼트에서의 여과된 이산 시간 오디오 신호의 에너지 그리고 현재 세그먼트에서의 여과되지 않은 이산 시간 오디오 신호의 에너지 사이에서 현재의 관계가 형성되고 이러한 현재의 관계는 선행하는 관계와 비교된다. 이산 시간 오디오 신호에서 트랜전트가 존재하는가는 하나 또는/및 이러한 다른 비교를 사용하여 검출된다.
음성 신호의 부호화는, 음성이 두드러지게 배음 요소를 가지고 있으며 전체 에너지의 대다수가 스펙트럼의 보다 낮은 부분에 몰려있는 모음을 포함하고 있을 뿐만 아니라 치찰음(sibilant)의 상당한 양을 담고 있다는 사실 때문에 특히 요구하고 있다. 치찰음은 성도의 협소한 경로를 통해서 치아의 날카로운 가장자리로 공기의 분출되도록 하는 것에 의해 만들어지는 마찰 또는 파찰음의 한 유형이다. 치찰음이라는 용어는 종종 스트라이든트(strident)라는 용어와 동의어로 취급된다. 치찰음이라는 용어는 장애물에서의 주기적인 소음의 생산과 관련한 조음 상 또는 공기 역학상의 정의를 갖는 경향이 있다. 스트라이든트는 결과로서 나오는 소리의 진폭 그리고 주파수 특징(즉, 청각적 또는 어쩌면 음향적 정의)에 의해 결정되는 것으로서의 인식 가능한 강도의 특성으로 언급된다.
치찰음은 그것의 비-치찰 대응부 보다 더 크며, 대부분의 그것의 음향 에너지는 비-치찰 마찰음보다도 더 높은 주파수에서 발생한다. [s]는 8,000Hz 주위에서 가장 강한 음향 세기를 갖지만, 10,000Hz 만큼에도 있을 수 있다. [∫] 는 4,000Hz 주위에서 그것의 음향 에너지가 몰려있지만, 8,000Hz 주위까지 있을 수 있다. 치찰음에 있어서, IPA 심볼이 존재하는데, 치경음(alveolar) 그리고 후치경 치찰음이 알려져 있다. 또한, 휘슬(whistled) 치찰음 그리고 상응하는 언어에 기인하는 다른 관련 어음(sound)이 존재한다.
음성에서 이들 치찰음인 자음들은 만약 모음에 의해 즉시로 선행한다면, 낮은 주파수 부분에서 높은 주파수 부분으로 강력한 에너지의 변화가 발생한다는 공통점을 갖는다. 시간에 걸쳐서 에너지 증가의 검출을 감독하는 트랜전트 검출기(transient detector)는, 이러한 에너지 변화를 검출하는 위치에 있지 아닐 수도 있다. 그러나 이러한 것은 치찰음이 매우 짧은 시간의 상황에서 발생하는 트랜전트 이벤트(events)보다 일반적으로 더 긴 지속시간을 갖기 때문에, 대역폭 확장이 적용되지 않는 기저대 오디오 코딩에서 큰 문제가 되지는 않을 수도 있다. AAC 코딩과 같은 기저대 코딩에서, 모든 스펙트럼은 고 주파수 분해능으로 부호화된다. 그러므로 단어 “sister”의 [s]와 같은 치찰음의 길이가 긴 창 기능의 프레임 길이와 비교되었을 때, 저 주파수 부분부터 고 주파수 부분까지의 에너지 변화는 음성 신호에서의 치찰음의 비교적 안정적 특성 때문에 반드시 검출되는 것이 필요로 하는 것은 아니다. 더욱이, 고 주파수 부분은 어쨌든 높은 비트 전송률로 부호화된다.
그러나 치찰음이 대역폭의 확장 상황 하에서 발생했을 때에는 문제가 될 수 있다. 대역폭 확장에 있어서, 저 주파수 부분은 AAC 인코더와 같은 기저대 코더를 사용하여 고 분해능/고 비트 전송률로 부호화되고, 고 대역은 기저대 스펙트럼의 주파수 분해능보다 훨씬 낮은 주파수 분해능을 갖는 스펙트럼 포락 수치를 사용하는 스펙트럼 포락과 같은 특정한 파라미터(parameter)를 사용하여 일반적으로 작은 분해능/작은 비트 전송률로 부호화된다. 이를 다르게 진술하면, 2개의 스펙트럼 포락 파라미터 사이의 스펙트럼 거리는 저 대역 스펙트럼에서의 스펙트럼 수치 사이의 스펙트럼 거리보다도(적어도 10배 이상) 훨씬 길어질 것이다.
디코더(decorder)의 측에서는, 대역폭 확장이 실행되는데, 거기서 저 대역 스펙트럼이 고 대역 스펙트럼을 갱생하는데 이용된다. 그러한 상황에서, 즉, 저 대역 부분에서 고 대역 부분으로 에너지 변환이 발생하면, 즉, 치찰음이 발생하면, 이러한 에너지 변환은 복원된 오디오 신호의 정확성/품질에 중대한 영향을 미칠 것이라는 것이 분명하다. 그러나 에너지의 증가(또는 감소)를 찾는 트랜전트 검출기는 에너지 변환을 검출하지 못할 것이다. 따라서, 치찰음 이전 또는 이후에 시간 부분에 적용되는 스펙트럼 포락 프레임에 대한 스펙트럼 포락 데이터는 스펙트럼 이내의 에너지 변환에 의해 영향을 받을 것이다. 디코더의 측에서는, 결과는 시간 분해능의 부족 때문에 모든 프레임은 평균 에너지를 지니며 복원될 것인데, 고 주파수에서, 즉, 치찰음 이전에는 저 에너지를 지니지 않고 복원되며 치찰음 이후에는 고 에너지를 지니며 복원될 것이다. 이것은 결국 추정된 신호의 품질의 감소를 가져올 것이다.
본 발명의 목적은 개량된 대역폭 확장 오디오 신호로 되게 하는 대역폭 확장 이념을 제공하는 것이다.
이러한 목적은 청구항 1 에 따른 대역폭 확장 데이터를 계산하는 장치와, 청구항 18에 따른 대역폭 확장 데이터를 계산하는 방법 또는 청구항 19에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명은 주파수 확장의 상황 하에서, 저 주파수 부분부터 고 주파수 부분까지의 에너지 변화가 검출되기 위해 필요하다는 연구 결과에 기반을 두고 있다. 본 발명에 따라서, 스펙트럼 기울기 검출기는 이러한 목적을 위해 적용된다. 그러한 에너지 변환이 검출되면, 비록, 예를 들면, 신호의 총 에너지는 변하지 않거나 감소한다 하더라도, 시작 시간 인스턴트(instant) 신호는 대역폭 확장 파라미터 계산기가 대역폭 확장 파라미터 데이터의 프레임에 대한 시작 시간 인스턴트를 지정하기 위해서 스펙트럼 기울기 검출기에서 제어 가능 대역폭 확장 파라미터 계산기로 이동된다. 프레임의 멈춤 시간 인스턴트는 스펙트럼 기울기 검출기가 주파수 변화의 멈춤 또는 다르게 진술하면, 고 주파수부터 저 주파수까지의 주파수 변화를 검출했을 때, 시작 시간 인스턴트 다음의 특정한 시간의 합계와 동일하게 또는 특정 프레임 그리드(grid)에 따라서 또는 스펙트럼 기울기 검출기에 의해 나온 멈춤 시간 인스턴트 신호에 따라서 자동으로 지정될 수 있다. 프리-마스킹(pre-masking)효과보다 훨씬 중대한 심리 음향 포스트-마스킹(post-masking) 효과 때문에, 프레임의 시작 시간 인스턴트의 정확한 제어는 프레임의 멈춤 시간 인스턴트보다 더 중요하다.
바람직하게는, 그리고 모바일 장치(예를 들어 휴대폰) 적용에 특히 필요한 프로세싱(processing) 리소스(resource) 그리고 프로세싱 지연이 없게 하기 위해서, 스펙트럼 기울기 검출기는 저-수준 LPC 분석 단계로서 구현된다. 바람직하게는, 오디오 신호의 시간 부분의 스펙트럼 기울기는 하나 또는 몇 개의 저-수준 LPC 계수를 기반으로 하여 추정된다. 스펙트럼 기울기의 미리 결정된 스레솔드를 갖는 스레솔드 결정을 기반으로 하여, 그리고 바람직하게는 스레솔드가 0인 스레솔드 결정인 스펙트럼 기울기의 부호에서의 변화를 기반으로 하여, 시작 시간 인스턴트 신호의 발생이 제어된다. 단지 제 1 LPC 계수만이 스펙트럼 기울기 추정에 사용될 때, 이러한 부호는 스펙트럼 기울기의 부호를 결정하며, 따라서, 시작 시간 인스턴트 신호가 대역폭 확장 파라미터 계산기로 보내져야 될 것인지 아닌지 결정하기 때문에 단지 이러한 제 1 LPC 계수의 부호를 결정하는데 충분하다.
바람직하게는, 스펙트럼 기울기 검출기는 트랜전트 검출기와 함께 작동하는데, 이것은 에너지 변화, 즉, 모든 오디오 신호의 에너지 증가 또는 감소를 검출하는데 적합하다. 실시 예에 따르면, 신호의 트랜전트가 검출되면 대역폭 확장 파라미터 프레임 길이가 더 길며, 반면에 스펙트럼 기울기 검출기가 시작 시간 인스턴트 신호를 보냈을 때, 제어 가능 대역폭 확장 파라미터 계산기는 더 짧은 프레임 길이를 지정한다.
도 1은 오디오 신호의 대역폭 확장 데이터를 계산하는 장치/방법의 바람직한 실시 예이다;
도 2는 트랜전트와 스펙트럼 기울기 검출기의 대응 시간 부분을 갖는 오디오 신호에 대한 결과로 나오는 프레임을 도시하고 있다;
도 3은 스펙트럼 기울기 검출기 그리고 부수적인 트랜전트 검출기로부터의 신호에 응답하는 파라미터 계산기의 시간/프레임 분해능을 제어하는 테이블을 도시하고 있다;
도 4 는 비-치찰음 신호의 음의 스펙트럼을 도시하고 있다;
도 5 는 치찰음과 같은 신호의 양의 스펙트럼을 도시하고 있다;
도 6 은 저-단계 LPC 파라미터에 기반을 두고 있는 스펙트럼 기울기 m 의 계산을 설명하고 있다;
도 7은 본 발명의 바람직한 실시 예에 따른 인코더의 블록 다이어그램을 도시하고 있다;
도 8은 대역폭 확장 디코더를 도시하고 있다;
본 발명의 바람직한 실시 예는 다음의 첨부된 도면에 관해 설명될 것이다.
도 1로부터 도 5까지 상세하게 설명하기 전에, 대역폭 확장 시나리오를 도 7 그리고 도 8과 함께 설명한다.
도 7은 디코더(300)에 관한 실시 예를 나타내는데, 이것은 모듈(module,310)과 관련된 SBR, 분석 QMF 뱅크(320), 로우 패스 필터(low pass filter:LP-filter, 330), AAC 코어(core) 인코더(340) 및 비트 스트림 페이로드 포맷터(bit stream payload formatter, 350)를 포함하고 있다. 더욱이, 인코더(300)는 포락 데이터 계산기(210)를 포함하고 있다. 인코더(300)는 PCM 샘플(오디오 신호 (105); PCM = 펄스 부호 변조)에 대한 입력으로 구성되어 있는데, 이것은 분석 QMF 뱅크(320), 그리고 SBR-관련 모듈(310) 및 로우 패스 필터(330)와 연결되어 있다. 분석 QMF 뱅크(320)는 제 2 주파수 대역(105b)을 분리하기 위해서 하이 패스 필터(high pass filter)를 포함할 수도 있으며 포락 데이터 계산기(210)와 연결되어 있는데, 이것은 차례대로 비트 스트림 페이로드 포맷터(350)와 연결되어 있다. 마지막으로, SBR-관련 모듈(310)은 포락 데이터 계산기(210) 및 AAC 코어 인코더(340)와 연결되어 있다.
그러므로 인코더(300)는 로우 패스 필터(330)에서 코어 주파수 대역(105a) 컴포넌트(component)를 산출하기 위해서 오디오 신호 105를 다운 샘플(down-sample)하는데, 이것은AAC 코어 인코더(340)로 입력되며, 코어 인코더(340)는 코어 주파수 대역에서 오디오 신호를 부호화하고 부호화된 신호(355)를 코어 주파수 대역의 부호화된 오디오 신호(355)가 코드 오디오 스트림(비트 스트림, 345)에 더해지는 비트 스트림 페이로드 포맷터(350)에 보낸다. 다른 한편으로는, 오디오 신호 (105)는 분석 QMF 뱅크(320)에 의해 분석되고 분석 QMF 뱅크의 하이 패스 필터는 고 주파수 대역(105b)의 주파수 컴포넌트를 추출하고 이 신호를 SBR 데이터(375)를 생성하기 위해서 포락 데이터 계산기(210)로 입력한다. 예를 들어, 64 부-대역 QMF 뱅크(320)는 입력 신호의 부-대역 필터링을 실행한다. 필터 뱅크(즉, 부-대역 샘플)로부터의 출력은 복소수 값이고, 그래서, 통상 QMF 뱅크와 비교하였을 때, 2개의 요소에 의해 과표본 된다.
SBR-관련 모듈(310)은 예를 들어, BWE 출력 데이터를 생성하는 장치를 포함할 수도 있고 포락 데이터 계산기(210)를 제어할 수도 있다. 분석 QMF 뱅크(320)에 의해 생성된 오디오 컴포넌트(105b)를 사용하여, 포락 데이터 계산기(210)는 SBR 데이터(375)를 계산하며 SBR 데이터(375)를 비트 스트림 페이로드 포맷터(350)로 전송하는데, 이것은 SBR 데이터(375)를 코어 인코더(340)에 의해 부호화된 컴포넌트(355)와 결합시킨다.
대안으로, BWE 출력 데이터를 생성하는 장치는 또한 포락 데이터 계산기 (210)의 부분일 수 있으며, 프로세서는 또한 비트 스트림 페이로드 포맷터(350)의 부분일 수 있다. 그러므로 장치의 여러 가지 컴포넌트는 도 7의 여러 가지 인코더 컴포넌트의 부분일 수 있다.
도 8은 디코더(400)의 실시 예를 나타내고 있는데 상기 부호화된 오디오 스트림(345)은 비트 스트림 페이로드 디포맷터(357)로 입력되는데, 이것은 SBR 데이터(375)로부터 부호화된 오디오 신호(355)를 분리한다. 부호화된 오디오 신호 (355)는 예를 들면 AAC 코어 디코더(360)로 입력되는데, 이것은 제 1 주파수 대역에서 해독된 오디오 신호(105a)를 생성한다. 오디오 신호(제 1 주파수 대역에서의 컴포넌트, 105a)는, 예를 들면, 제 1 주파수 대역에 있는 오디오 신호(105a)로부터 32 주파수 부대역 (10532)을 생성하는, 32대역 분석 QMF 뱅크로 입력된다. 주파수 부대역 오디오 신호 (10532)는 원 신호 스펙트럼 표현(패치, 425)을 생성하기 위해서, 패치 생성기(410)로 입력되고, 이것은 SBR 툴(SBR tool, 430a) 로 입력된다. SBR 툴(430a)은 예를 들면 노이즈 플로어를 생성하기 위한 노이즈 플로어 계산 유닛(unit)을 포함하고 있다. 더욱이, SBR 툴(430a)은 없어진 배음을 복원할 수 있거나 역 필터링 단계를 실행할 수 있다. SBR 툴(430a)은 알려진 SBR 방법이 패치 생성기(410)의 QMF 스펙트럼 데이터 출력에서 사용될 수 있도록 구현할 수 있다. 주파수 영역에서 사용되는 패치 알고리즘은 예를 들면 주파수 부대역 영역 내의 스펙트럼 데이터의 간단한 미러링(mirroring) 또는 카핑(copying)을 채택할 수 있다.
다른 한편으로는, SBR 데이터(375) (예를 들어 BWE 출력 데이터(102)를 포함하는)는 비트 스트림 파서(parser, 380)로 입력되는데, 이것은 상이한 부차-정보 (385)를 얻기 위해서 SBR 데이터(375)를 분석하며, 그것들을 예를 들면, 호프만 디코딩 & 디퀀티제이션 유닛(Hoffman decoding & dequantization unit, 390)으로 입력되게 하는데, 예를 들면, 이것은 제어 정보(412) 그리고 SBR 데이터의 특정 프레이밍 시간 분해능을 암시하는 SBR 파라미터(102)를 추출한다. 제어 정보(412)는 패치 생성기(410)를 제어한다. SBR 파라미터(102)는 포락 조정기(430b)뿐만 아니라 SBR 툴(430a)로 입력된다. 포락 조정기(430b)는 생성된 패치에 대한 포락을 조정하는데 작동한다. 그 결과로, 포락 조정기(430b)는 제 2 주파수 대역에 대한 조정된 원 신호(105b)를 생성하고 이것을 합성 QMF 뱅크(440)로 입력시키는데, 이것은 제 2 주파수 대역(105b)의 컴포넌트와 주파수 영역(10532)에 있는 오디오 신호를 결합시킨다. 합성 QMF 뱅크(440)는, 예를 들면, 64 주파수 대역을 포함할 수 있고, 양쪽 신호 제 2 주파수 대역(105b)에서의 컴포넌트 및 부대역 영역 오디오 신호 (10532)를 결합시킴으로써 합성 오디오 신호(105) (예를 들면, PCM 샘플의 출력, PCM = 펄스 부호 변조)를 생성할 수 있다.
합성 QMF 뱅크(440)는 결합기를 포함할 수 있는데, 이것은 시간 영역으로 변환되어 오디오 신호(105)로서 출력되기 이전에 주파수 영역 신호(10532)와 제 2 주파수 대역(105b)을 결합시킨다. 선택적으로, 결합기는 주파수 영역에서 오디오 신호(105)를 출력할 수 있다.
SBR 툴(430a)은 종래의 노이즈 플로어 툴을 포함할 수 있는데, 코어 인코더 (340)에 의해 전송되고 제 2 주파수 대역(105b)의 컴포넌트를 합성하는데 사용되는 스펙트럼 컴포넌트(105a)가 도 7에 도시된 것처럼, 오리지널 신호의 제 2 주파수 대역(105b)과 같은 유사한 음질 속성을 나타내도록 부가적인 노이즈를 패치 되어진 스펙트럼(원 신호 스펙트럼 표현, 425)에 더한다.
도 1은 대역폭 확장 시스템에서 오디오 신호의 대역폭 확장 데이터를 계산하기 위한 장치를 도시하고 있는데, 제 1 스펙트럼 대역은 제 1 비트 수로 부호화되고 제 1 스펙트럼 대역과 다른 제 2 스펙트럼 대역은 제 2 비트 수로 부호화된다. 제 2 비트 수는 제 1 비트 수보다 더 작다. 바람직하게는, 비록 제 1 주파수 대역 그리고 제 2 주파수 대역은 서로 다르지만 저 대역 그리고 고 대역은 그렇지 않은 다른 대역폭 확장 시나리오가 알려져 있지만, 제 1 주파수 대역은 저 주파수 대역이고 제 2 주파수 대역은 고 주파수 대역이다. 더욱이, 대역폭 확장 기술의 기본적인 원리에 따라서, 고 대역은 저 대역보다 훨씬 성기게 부호화된다. 바람직하게는, 고 대역에 필요한 비트 전송률은 저 대역의 비트 전송률과 관련해서 적어도 50% 또는 심지어 더 바람직하게는 90%가 감소한다. 따라서, 제 2 주파수 대역의 비트 전송률은 저 대역의 비트 전송률보다 50% 또는 그 미만이다.
도 1에서 도시된 장치는 오디오 신호 프레임의 시퀀스에 대한 프레임-와이즈(frame wise) 방법으로 제 2 스펙트럼 대역에 대한 대역폭 확장 파라미터를 계산하는 제어 대역폭 확장 파라미터 계산기(10)를 포함하고 있다. 제어 대역폭 확장 파라미터 계산기(10)는 프레임 시퀀스의 프레임에 대한 제어 가능 시작 시간 인스턴트가 적용되도록 구성되어 있다.
본 발명의 장치는 더욱이 오디오 신호의 시간 부분에서 스펙트럼 기울기를 검출하는 스펙트럼 기울기 검출기(12)를 포함하는데, 이것은 도 1에서의 라인(13)을 경유하여 여러 모듈에 제공한다. 스펙트럼 기울기 검출기는 대역폭 확장 파라미터 계산기(10) 가 스펙트럼 기울기 검출기(12)로부터 보내진 시작 시간 인스턴트가 수신되자마자 시작 시간 보더를 적용하기 위한 위치에 있도록 오디오 신호의 스펙트럼 기울기에 따라 오디오 신호 프레임에 대한 시작 시간 인스턴트를 제어 가능 대역폭 확장 파라미터 계산기(10)에 보내도록 구성되어 있다.
바람직하게는, 오디오 신호에 있어 시간 부분의 스펙트럼 기울기의 부호는 선행하는 오디오 신호의 시간 부분에서 오디오 신호의 스펙트럼 기울기의 부호와 다를 때, 스펙트럼 기울기 신호/시작 시간 인스턴트 신호가 출력된다. 더욱 바람직하게는, 스펙트럼 기울기는 음에서 양으로 변화하였을 때, 시작 시간 인스턴트 신호가 발생된다. 유사하게는, 멈춤 시간 인스턴트는 양의 스펙트럼 기울기에서 음의 스펙트럼 기울기로 변한 스펙트럼 기울기가 발생했을 때 스펙트럼 기울기 검출기(12)에서 대역폭 확장 파라미터 계산기(10)로 보내질 수 있다. 그러나 멈춤 시간 인스턴트는 오디오 신호에서 스펙트럼 기울기 변화를 갖는 것 없이도 도출해 낼 수 있다. 전형적으로, 프레임의 멈춤 시간 인스턴트는 대응 프레임의 시작 시간 인스턴트 이후로 특정한 시간 주기가 만료되었을 때, 대역폭 확장 파라미터 계산기에 의해 자율적으로 지정될 수 있다.
도 1에 도시된 바람직한 실시 예에서, 부수적인 트랜전트 검출기(14)가 제공되는데, 이것은 모든 신호에서의 어느 시간 부분부터 다음 시간 부분까지 에너지 변화를 검출하기 위해서 오디오 신호(13)를 분석한다. 어떤 시간 부분부터 다음 시간 부분까지의 특정한 최소 에너지 증가가 검출되었을 때, 트랜전트 검출기(14)는 대역폭 확장 파라미터 계산기가 대역폭 확장 파라미터 데이터 프레임 시퀀스의 새로운 대역폭 확장 파라미터 프레임 시작 시간 인스턴트를 지정하도록 시작 시간 인스턴트 신호를 제어 가능 대역폭 확장 파라미터 계산기(10)로 출력하도록 구성되어 있다.
바람직하게는, 대역폭 화장 데이터를 계산하는 장치는 더욱이 오디오 신호의 현 시간 부분이 음악 신호인지 음성 신호인지 검출하는 음악/음성 검출기(15)를 더 포함하고 있다. 음악 신호의 경우에 있어서, 음악/음성 검출기(15)는 바람직하게는 비-음성 신호에서 불필요한 작은 프레임에 기인하는 전력/계산 리소스를 절약하기 위해서 그리고 비트 전송률의 증가를 피하기 위해서 스펙트럼 기울기 검출기(12)를 사용 못하게 할 것이다. 이러한 특징은 특히 제한된 프로세싱 리소스 그리고 더욱 중요하게는 제한된 전력/배터리 리소스를 갖는 모바일 장치에 유용하다. 그러나 다음에 음악/음성 검출기(15)는 오디오 신호(13)의 음성 부분을 검출하고, 음악/음성 검출기는 스펙트럼 기울기 검출기를 작동하게 할 수 있다. 음악/음성 검출기(15)의 스펙트럼 기울기 검출기(12) 와의 결합은 스펙트럼 기울기 정황이 주로 음성 부분 동안에 발생하지만, 음악 부분 동안에는 발생할 가능성이 작다는 점에서 유리하다. 이러한 정황이 음악 악절 동안에 발생했을 때 이러한 발생이 없는 것은 음악은 음성보다 훨씬 우수한 마스킹(masking) 특징이 있다는 사실 때문에 그렇게 극적인 것은 아니다. 치찰음은 발견된 것처럼, 해독된 음성의 이해할 수 있음에 중요하고 청취자가 갖는 주관적인 품질 느낌에 있어 중요하다. 다르게 진술하면, 음성의 신뢰성은 음성의 치찰음 부분의 분명한 재현에 상당히 관련되어 있다. 그러나 이것은 음악 신호에 대해서는 그렇게 중대한 것은 아니다.
도 2는 오디오 신호의 시간에서 특정한 부분에 대한 대역폭 확장 파라미터 계산기(10)에 지정되는 프레이밍을 나타내는 상위 시간 라인(upper time line)을 도시하고 있다. 프레이밍은 몇 개의 정기적인 보더를 포함하는데, 이것은 치찰음의 검출 없이 프레이밍에서 발생하고, 부호(16a-16d)로 표시된다. 부가적으로, 프레이밍은 본 발명의 치찰음 또는 스펙트럼 기울기 변화 검출로부터 비롯되는 몇 개의 프레임 보더를 포함하고 있다. 이러한 보더는 부호(17a-17c)로 표시된다. 부가적으로, 도 2는 프레임 i 와 같은 특정한 프레임의 프레임 시작 시간은 프레임 i-1, 즉 선행하는 프레임의 프레임 멈춤 시간과 일치한다는 것을 분명히 하고 있다.
도 2의 실시 예에서, 프레임의 정기적인 보더(16a-16d)와 같은 멈춤 시간 인스턴트는 프레임 시작 시간 인스턴트 이후 특정한 시간의 종결 이후에 자동적으로 지정된다. 이러한 주기 길이는 치찰음의 검출 없이 대역폭 확장 파라미터 프레이밍에 대한 시간 분해능을 결정한다.
도 3에 도시된 바와 같이, 이러한 시간 분해능은 도 1에 있는 트랜전트 검출기(14)에서 비롯되는 시작 시간 인스턴트 신호 또는 도 1에서의 스펙트럼 기울기 검출기(12)에서 비롯되는 시작 시간 인스턴트 신호를 기반으로 하여 지정된다. 도 3에 도시된 실시 예의 일반적인 규칙은 시작 시간 인스턴트 신호가 스펙트럼 기울기 검출기로부터 수신되자마자, 더 높은 시간 분해능(도 2에 도시된 프레이밍의 시작 시간 인스턴트 그리고 멈춤 시간 인스턴트 사이에서의 더 작은 시간 주기)이 지정된다는 것이다. 그러나 스펙트럼 기울기 검출기가 검출할 수 없었을 때에는, 트랜전트 검출기(14)는 실제로 트랜전트를 검출하는데, 이러한 것은 단지 에너지 증가가 발생하였지만, 에너지의 변환은 발생하지 않았다는 것을 의미한다. 그러한 정황에서, 자동으로 지정된 프레임(10b)의 멈춤 시간 인스턴트는 치찰음이 명백하게 오디오 신호에 존재하지 않으며 문제없는 음악 신호 또는 다른 오디오 신호가 존재한다는 사실 때문에 시작 시간 인스턴트로부터 시간상으로 훨씬 떨어져 있다.
이러한 상황에서, 트랜전트 검출기에 독립적인 지정 보더 또는 스펙트럼 기울기 검출기는 부호화된 신호의 비트 전송률을 증가시킨다. 만약 도 2에 있는 프레임이 긴 길이를 갖는다면, 가능한 가장 낮은 비트 전송률이 얻어질 것이다. 다른 한편으로는, 긴 프레이밍은 대역폭 확장 파라미터 데이터의 시간 분해능을 감소시킨다. 그러므로 본 발명은 그것이 단지 실제로 필요할 경우에만 새로운 시작 시간 인스턴트(이것은 선행하는 프레임의 멈춤 시간 인스턴트를 의미한다)를 지정하는 것을 가능하게 한다. 부가적으로, 즉, 트랜전트가 검출되거나 기울기 변화(예를 들면 치찰음에 의해 기인한)가 검출되는 실제 정황에 따라 변화 시간 분해능은 양쪽 모순되는 타깃(target) 사이의 절충에 도달할 수 있도록 심지어 그 이상의 프레이밍을 최적의 방법으로 품질/비트 전송률 필요 요건에 적합하게 하는 것을 허용한다.
도 2에 있는 하위의 시간 라인은 스펙트럼 기울기 검출기(12)에 의해 실행되는 전형적인 시간 프로세싱을 도시하고 있다. 도 2 실시 예에서, 스펙트럼 기울기 검출기는 블록 기반으로 한 방법, 특히 오버랩핑(overlapping) 시간 부분이 스펙트럼 기울기 정황에 검색되도록 오버랩핑 방법으로 작동한다. 그러나 스펙트럼 기울기 검출기는 또한 연속적인 샘플에 흐름에 작동할 수 있고 반드시 도 2에 도시된 블록 기반 프로세싱을 적용해야 하는 것은 아니다.
바람직하게는, 프레임의 시작 시간 인스턴트는 스펙트럼 기울기 변화의 검출 시간 직전에 지정된다. 그러나 제어 가능 대역폭 확장 파라미터 계산기는 정기적인 프레임에 관하여는, 트랜전트 검출기에 의해 검출된 트랜전트의 시작 또는 스펙트럼 기울기 검출기에 의해 검출된 치찰음의 시작이 시간에 관하여 프레임의 처음 25% 이내에 위치하거나 더욱 바람직하게는 스펙트럼 기울기 출력 신호를 얻을 수 없을 때 지정되는 통상 프레임에서 프레임 길이의 시간 내에 처음 10% 이내에 위치하는 것이 보증되는 한 새로운 프레임 보더를 지정하는데 어느 정도 자유를 갖는다.
바람직하게는, 검출된 스펙트럼 기울기 변화의 적어도 한 부분이 새로운 프레임에 있고, 그전의 프레임에서는 존재하지 않았지만 정황에 따라 발생할 수 있어서, 스펙트럼 기울기 변화의 특정한 “시작 부분”은 선행 프레임에 위치하게 된다는 것을 부가적으로 확신할 수 있게 된다. 그러나 이러한 시작 부분은 바람직하게는 스펙트럼 기울기 변화의 전체 시간의 10%보다 적어야 한다.
도 2의 실시 예에 따르면, 스펙트럼 기울기가 시간구역(18a), (18b), (18c)에서 검출되었고, 스펙트럼 기울기 변화의 “시간 인스턴트”는 시간대(18a)에서 발생하도록 지정되었다. 그래서, 제어 가능 대역폭 확장 파라미터 계산기(10)는 프레임이 시간대(18a), (18b), (18c) 이내에서 언제라도 지정될 수 있다는 것을 확신하게 한다. 이러한 특성은 대역폭 확장 파라미터 계산기가 그러한 기본적인 프레이밍이 필요한 경우에, 만일 스펙트럼 기울기 변화의 상당한 부분이 다음의 시작 시간 인스턴트, 즉, 이전의 프레임이 아닌 새로운 프레임에 위치하게 된다면 특정한 기본적인 프레이밍을 유지하게 하도록 허용한다.
도 4는 음의 스펙트럼 기울기를 갖는 신호의 전력 스펙트럼을 도시하고 있다. 음의 스펙트럼 기울기는 스펙트럼 슬로프가 하강한다는 것을 의미한다. 그것과 반대로, 도 5는 양의 스펙트럼 기울기를 갖는 신호의 전력 스펙트럼을 도시하고 있다. 다시 말하면, 스펙트럼 기울기가 상승하는 슬로프를 갖는다. 당연히, 도 4에 도시된 스펙트럼 또는 도 5에 도시된 스펙트럼과 같은 각 스펙트럼은 로컬 단계에서 스펙트럼 기울기와는 다른 기울기를 갖는 변화를 가질 것이다.
스펙트럼 기울기는 예를 들면, 직선이 이러한 직선 그리고 실제 스펙트럼의 간 차이의 제곱을 최소하는 것과 같은 전력 스펙트럼에 일치할 때 구해질 수 있다. 직선을 스펙트럼에 맞추는 것은 단시간 스펙트럼의 스펙트럼 기울기를 계산하기 위한 방법 중에 하나가 될 수 있다. 그러나 LPC 계수를 사용하여 스펙트럼 기울기를 계산하는 것이 선호된다.
1996년 5월 23일, 샌 디에고 CA 92152-52001에 있는 미 해군 지휘, 통제 및 해상 감시 센터의 RDT & E 전대의 V. Goncharoff, E. Von Colln 및 R. Morris에 의해 출간된 “다양한 LPC 파라미터로부터의 스펙트럼 기울기의 효율적인 계산”은 스펙트럼 기울기를 계산하기 위한 몇 가지 방법을 나타내고 있다.
하나의 실시 예에 따르면, 스펙트럼 기울기는 로그(log) 전력 스펙트럼과의 최소 제곱 선형 일치의 기울기로서 정의된다. 그러나 비-로그 전력 스펙트럼 또는 진폭 스펙트럼 또는 다른 종류의 스펙트럼과의 선형 일치가 또한 적용될 수 있다. 이것은 본 발명의 바람직한 실시 예에 따르면, 주로 스펙트럼 기울기의 부호, 즉, 선형 일치 결과의 기울기가 양 인지 또는 음 인지에 관심을 두고 있다는 본 발명의 분야에서 구체적으로 사실이다. 그러나 스펙트럼 기울기의 실제의 수치는 본 발명의 바람직한 실시 예에서 크게 중요하지 않고, 부호가 고려되면, 즉, 0의 스레솔드를 갖는 스레솔드 결정이 적용된다. 그러나 다른 실시 예에서는 0과 다른 스레솔드는 또한 유용할 것이다.
음성의 선형 예측 부호화(LPC)가 그것의 단-시간 스펙트럼을 모양으로 나타내는데 사용될 때, 로그 전력 스펙트럼 대신에 LPC 모델 파라미터로부터 바로 스펙트럼 기울기를 계산하는데 효과적이다. 도 6은 n 번째 순의 모든-극 로그 전력 스펙트럼에 해당하는 캡스터럴 계수 ck 에 대한 수학식을 도시하고 있다. 이 수학식에서, k 는 정수 인덱스(index)이고, pn 은 LPC 필터의 z-영역 전송 함수 H(z)의 모든 극 표현에서 n 번째 극이다. 도 6에서 그 다음 수학식은 캡스트럴 계수에 관한 스펙트럼 기울기이다. 구체적으로는, m 은 스펙트럼 기울기이고, K 그리고 n 은 정수 그리고 N은 H(z)에 관한 모든 극 모델의 가장 높은 순의 극이다. 도 6에서 그 다음의 수학식은 N 번째 순의 LPC 필터의 로그 전력 스펙트럼 S(ω)을 정의하고 있다. G 는 이득 상수이고 αk 는 선형 예측 스펙트럼 계수, 그리고 ω 는 2×π×f 와 같은데, 여기서 f는 주파수이다. 도 6에서 가장 하위에 있는 수학식은 LPC 계수 αk 의 함수로서의 바로 캡스트럴 계수가 된다. 캡스트럴 계수 ck 는 다음에 스펙트럼 기울기를 계산하는데 사용된다. 일반적으로, 이 방법은 극의 값을 얻기 위해서 LPC 다항식을 인수분해 하는 것 그리고 극 수학식을 사용하여 스펙트럼 기울기를 구하는 것보다 계산적으로 효과적이다. 그래서, 계산된 LPC 계수 αk 를 갖은 후에, 도 6의 최하단의 수학식을 사용하여 캡스트럴 계수 ck 를 계산할 수 있으며, 도 6에 있는 첫 번째 수학식을 사용하여 캡스트럴 계수로부터 극의 값 pn 을 계산할 수 있다. 그 다음 극값을 기반으로 하여, 도 6의 두 번째 수학식에서 정의되었던 것처럼 스펙트럼 기울기 m 를 계산할 수 있다.
제 1 순 LPC 계수 α1 가 스펙트럼 기울기의 부호에 관한 좋은 평가치를 갖는데 충분하다는 것을 알 수 있다. 그러므로 α1 은 c1 에 관한 좋은 추정치이다. 따라서, c1 은 p1 에 관한 좋은 추정치이다. p1 이 스펙트럼 기울기 m 에 관한 수학식에 대입되면, 도 6에서 두 번째 수학 식의 음의 부호 대문에, 스펙트럼 기울기 m 는 도 6에서 LPC 계수 정의에 있어서의 제 1 LPC 계수 α1 의 부호에 역이 된다는 것은 자명하다.
도 7은 SBR 인코더 시스템의 에서 스펙트럼 기울기 검출기(12)를 도시하고 있다. 구체적으로는 스펙트럼 기울기 검출기(12)는 SBR 연관 파라미터 데이터 프레임의 시작 시간 인스턴트를 적용하기 위해서 포락 데이터 계산기 그리고 다른 SBR-연관 모듈을 제어한다. 도 7은 SBR 파라미터 데이터의 부대역 와이즈 계산(sub-band-wise calculation)을 실행하기 위해서 바람직하게는 고대역인 제 2 주파수 대역을 32부대역과 같은 부대역의 특정한 수로 분해하기 위한 분석 QMF 뱅크(320)를 도시하고 있다. 바람직하게는, 스펙트럼 기울기 검출기는 도 6에서 논의된 바와 같이 단지 제 1 순의 LPC 계수를 갱생하기 위한 간단한 LPC 분석을 실행한다. 대안으로, 스펙트럼 기울기 검출기(12)는 입력 신호의 스펙트럼 분석을 실행하고 예를 들면, 선형 일치 또는 스펙트럼 기울기를 계산하기 위한 어떤 다른 방법을 사용하여 스펙트럼 기울기를 계산한다. 일반적으로, 주파수 분해에 대한 스펙트럼 기울기 검출기의 분해능은 QMF 뱅크(320)의 주파수 분해능보다 낮은 것이 바람직할 것이다. 다른 실시 예에 따르면, 스펙트럼 기울기 검출기(12)는 도 6에서 논의되었던 바와 같이 단지 제 1 순의 LPC 계수 α1 을 계산하는 상황과 같은 어떤 종류의 주파수 분해를 실행하지 않을 것이다.
다른 실시 예에 따르면, 스펙트럼 기울기 검출기는 제 1 순의 LPC 계수를 계산할 뿐만 아니라, LPC 계수의 순이 3 또는 4 일 때와 같이 몇 개의 낮은 순의 LPC 계수를 계산하도록 구성되어 있다. 그러한 실시 예에 따르면, 스펙트럼 기울기는 높은 정확도로 계산되어서, 그것은 슬로프가 음에서 양으로 변화했을 때 새로운 프레임의 신호를 보낼 뿐만 아니라, 음 신호에 있어 스펙트럼 기울기가 음의 부호를 갖는 높은 크기로부터 동일한 부호를 갖는 낮은 크기(절대값)까지 변할 때, 새로운 프레임 신호를 보내는 것이 바람직하다. 더욱이, 멈춤 시간 인스턴트에 관하여는 신호의 특성이 치찰음부터 비-치찰음으로 변화하였다는 것을 나타내줄 수 있기 때문에 스펙트럼 기울기가 높은 양의 값에서 낮은 양의 값으로 변화하였을 때, 프레임의 끝을 계산하는 것이 바람직하다. 스펙트럼 기울기를 계산하는 방법과는 상관없이, 프레임 시작 시간 인스턴트의 검출은 부호의 변화에 의해 나타내질 뿐만 아니라, 대안으로 또는 부가적으로, 결정 스레솔드 보다 높은 어떤 미리 결정된 시간 주기에서의 기울기의 값의 변화에 의해 나타내어진다.
부호 실시 예에 따르면, 결정 스레솔드는 0의 기울기 값에서 절대 스레솔드이고, 변화 실시 예에 따르면, 스레솔드는 기울기의 변화를 나타내는 스레솔드이며, 이러한 계산은 시간에 걸쳐있는 기울기 함수의 첫 번째 도함수를 계산하는 것에 의해 얻어지는 함수에서의 절대 스레솔드를 적용하는 것에 의해 실행될 수 있다. 여기서, 선행하는 오디오 신호의 시간 부분에서의 오디오 신호의 시간 부분 스펙트럼 기울기 값 그리고 오디오 신호의 스펙트럼 기울기 값 사이의 차이 값이 미리 결정된 스레솔드 값보다 더 높을 때 스펙트럼 기울기 검출기는 프레임의 시작 시간 인스턴트의 신호를 보내기 위해 구성되어 있다. 차이 값은 절대값(예를 들어 음의 차이 값에 대한)이 될 수 있거나 부호(예를 들면 양의 차이 값에 대한)를 갖는 값이 될 수 있고 미리 결정된 스레솔드 값은, 이 실시 예에 따르면, 0과는 다르다.
도 7 그리고 도 8에서 논의된 바와 같이, 대역폭 확장 파라미터 계산기(10)는 스펙트럼 포락 파라미터를 계산하도록 구성되어 있다. 그러나 다른 실시 예에 따르면, 대역폭 확장 파라미터 계산기는 부가적으로 노이즈 플로어 파라미터, 역 필터링 파라미터 또는/및 MPEG4의 대역폭 확장 부분으로부터 알려진 없어진 배음 파라미터를 계산하는 것이 바람직하다.
기본적으로, 스펙트럼 기울기 검출기 출력 신호 또는 스펙트럼 기울기 검출기 출력 신호에 독립적인 이벤트에 반응하여 프레임의 멈춤 시간 인스턴트를 지정하는 것이 바람직하다. 프레임 멈춤 시간 인스턴트의 신호를 보내는 대역폭 확장 파라미터에 의해 사용된 이벤트는 예를 들면, 시작 시간 인스턴트에 대한 미래에 고정된 시간 주기가 되는 시간 인스턴트의 발생이다.
도 3에서 논의된 바와 같이, 이러한 고정된 시간 주기는 낮거나 또는 높을 수도 있다. 이러한 고정된 시간 주기가 높으면, 그때는 이것은 낮은 시간 분해능이라는 것을 의미하고, 이러한 고정된 시간 주기가 낮으면, 그때는 이것은 높은 시간 분해능이라는 것을 의미한다.
바람직하게는, 트랜전트 검출기(14) 가 트랜전트 신호를 보내면, 제 1 시간 주기가 지정되지만, 낮은 시간 분해능이 적용된다. 이러한 실시 예에 따르면, 시작 시간 인스턴트에 대한 미래의 고정 시간 주기는, 그러므로, 시작 시간 인스턴트 신호가 스펙트럼 기울기 검출기에 의해 출력되는 다른 경우에서보다 높다. 시작 시간 인스턴트가 스펙트럼 기울기 검출기로부터 출력되면, 그때는 이것은 음성 신호에서 치찰음 부분이 있다는 것을 의미하고, 그러므로, 높은 시간 분해능이 필요하다. 그러므로 고정된 시간 주기는 도 1에 있는 트랜전트 검출기(14)에 의해 프레임에 대한 시작 시간 인스턴트 신호가 보내지는 경우보다도 더 작게 지정된다.
다른 실시 예에 따르면, 스펙트럼 기울기 검출기는 음성에서의 치찰음을 검출하기 위해서 언어 정보에 기반을 두고 있을 수 있다. 예를 들면, 음성 신호가 국제 음성 철자와 같은 메타 정보와 관계하고 있을 때, 그때는 이 메타 정보의 분석은 또한 음성 부분의 치찰음 검출을 제공할 것이다. 이러한 맥락에서, 오디오 신호의 메타 데이터 부분이 분석된다.
비록 몇 개의 양상이 장치의 맥락에서 설명되었지만, 이러한 양상은 또한 방법 단계 또는 방법 단계의 특징에 해당하는 블록 또는 장치에서 상응하는 방법의 설명을 나타낸다는 것이 분명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상은 또한, 해당하는 블록, 아이템 또는 해당 장치의 특징의 설명을 나타낸다.
특정 구현 필요 요건에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이 구현은 그 위에 제어 신호를 전자적으로 읽어 들일 수 있고, 각 방법이 실행될 수 있도록 프로그래밍 컴퓨터 시스템과 함께 작동하는 디지털 저장 매체, 예를 들면 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 실행될 수 있을 것이다.
본 발명에 따른 몇몇 실시 예는 전자적으로 읽어 들일 수 있는 제어 신호를 가지며, 여기에 실행된 방법 중에 어느 하나가 실행될 수 있도록 프래그래밍 컴퓨터 시스템과 함께 작동할 수 있는 데이터 캐리어(carrier)를 포함한다.
일반적으로, 본 발명의 실시 예는 컴퓨터 프로그램 저작물이 컴퓨터에서 실행되었을 때 방법 중에 하나가 실행되기 위해서 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 저작물로서 구현될 수 있다. 프로그램 코드는 예를 들면 기계가 읽을 수 있는 캐리어에 저장될 수 있다.
다른 실시 예는 기계가 읽을 수 있는 캐리어에 저장되어 있으며, 여기에 설명된 방법 중에 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말하면, 본 발명의 실시 예는 그러므로 컴퓨터 프로그램이 컴퓨터에서 실행될 때 여기에 설명된 방법 중에 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그러므로 본 발명의 또 다른 실시 예는 여기에 설명된 방법 중에 하나를 실행하기 위한 그 위에 기록된 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터가 읽을 수 있는 매체)이다.
그러므로 본 발명의 또 다른 실시 예는, 여기에 설명된 방법 중에 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 신호의 데이터 스트림 또는 시퀀스이다. 신호의 데이터 스트림 또는 시퀀스는 예를 들면 데이터 통신 연결(예를 들면 인터넷)을 경유하여 전송되도록 구성될 수 있다.
또 다른 실시 예는 예를 들면 컴퓨터 또는 프로그래밍 로직(logic) 장치와 같은 여기에 설명된 방법 중에 하나를 실행하도록 구성되거나 실행되기 적합한 프로세싱 수단을 포함한다.
또 다른 실시 예는 여기에 설명된 방법 중에 하나를 실행하기 위한 그 위에 설치된 컴퓨터 프로그램을 갖는 컴퓨터를 포함하고 있다.
몇몇 실시 예에 따르면, 프로그램 가능한 로직 장치(예를 들면, 필드 프로그래머블 게이트 어레이:field programmable gate array)는 여기에 설명된 방법들의 몇몇 또는 모든 기능을 실행하는데 이용될 수 있다. 몇몇 실시 예에 따르면, 필드 프로그래머블 게이트 어레이는 여기에 설명된 방법 중에 하나를 실행하기 위해서 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해서 바람직하게 실행된다.
위에서 설명된 실시 예는 단지 본 발명의 원리에 도움이 되는 실례가 된다. 여기에 설명된 상세한 내용의 수정 그리고 변형이 당 업자에게 명백할 것이라는 것을 알 수 있다. 그러므로 단지 청구된 특허 청구 항의 범위에 의해 제한되며 여기의 실시 예의 묘사 그리고 설명으로 표현된 구체적인 상세한 내용에 의해서 제한되는 것은 아니다.
10: 대역폭 확장 파라미터 계산기 12: 스펙트럼 기울기 검출기
14: 트랜지언트 검출기 16a-16d: 프레임의 정기 보더
17a-17c: 치찰음 보더 18a-18c: 시간대
210: 포락 데이터 계산기 300: 인코더
340: AAC 코어 인코더 360: AAC 코어 디코더
400: 디코더 430a: SBR 툴
440: 분석 QMF 뱅크

Claims (19)

  1. 제 1 스펙트럼 대역이 제 1 비트 수로 부호화되고(340) 제 1 스펙트럼 대역과 다른 제 2 스펙트럼 대역은 제 2 비트 수로 부호화되며(210), 제 2 비트 수는 제 1 비트 수보다 더 작은 대역폭 확장 시스템에서의 오디오 신호의 대역폭 확장 데이터를 계산하는 장치에 있어서,
    제어 가능 시작 시간 인스턴트를 갖는 오디오 신호 프레임들의 시퀀스에 대한 프레임 와이즈 방법으로 제 2 주파수 대역에 대한 대역폭 확장 파라미터를 계산하는 제어 가능 대역폭 확장 파라미터 계산기(10); 및
    오디오 신호의 시간 부분에서 스펙트럼 기울기를 검출하고 오디오 신호의 스펙트럼 기울기에 따라 프레임에 대한 시작 시간 인스턴트의 신호를 보내는 스펙트럼 기울기 검출기(12); 를 포함하는 장치.
  2. 제 1 항에 따른 장치에 있어서,
    상기 스펙트럼 기울기 검출기(12)는 오디오 신호의 시간 부분 스펙트럼 기울기 부호가 선행하는 오디오 신호의 시간 부분에서의 오디오 신호의 스펙트럼 기울기 부호와 다를 때, 프레임의 시작 시간 인스턴트의 신호를 보내도록 구성되어 있는 것을 특징으로 하는 장치.
  3. 제 1 항에 따른 장치에 있어서,
    상기 스펙트럼 기울기 검출기(12)는 하나 또는 그 이상의 LPC 계수를 추정하기 위해 시간 부분의 LPC 분석을 실행하고, 오디오 신호의 부분이 양 또는 음의 스펙트럼 기울기를 갖는지 결정하기 위해 하나 또는 그 이상의 LPC 계수를 분석하는데 작동하는 것을 특징으로 하는 장치.
  4. 제 3항에 따른 장치에 있어서,
    상기 스펙트럼 기울기 검출기(12)는,
    단지 상기 하나 이상의 LPC 계수 중 제1 LPC 계수만을 계산하고 부가적인 LPC 계수를 계산하지 않으며, 상기 제1 LPC 계수의 부호를 분석하고 상기 제1 LPC 계수의 부호에 따라 프레임의 시작 시간 인스턴트 신호를 보내도록 작동하는 것을 특징으로 하는 장치.
  5. 제 4 항에 따른 장치에 있어서,
    상기 스펙트럼 기울기 검출기(12)는 제 1 LPC 계수가 양의 부호를 가졌을 때, 스펙트럼 에너지가 보다 낮은 주파수부터 보다 높은 주파수까지 감소하는 음의 스펙트럼 기울기로서의 스펙트럼 기울기를 결정하도록 구성되며, 제 1 LPC 계수가 음의 부호를 가졌을 때 스펙트럼 에너지가 보다 낮은 주파수부터 보다 높은 주파수까지 증가하는 양의 스펙트럼 기울기로서의 스펙트럼 기울기를 검출되도록 구성되어 있는 것을 특징으로 하는 장치.
  6. 제 1 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)는, 프레임에 대한 하나 이상의 파라미터;
    를 계산하도록 구성되고,
    상기 하나 이상의 파라미터는,
    스펙트럼 포락 파라미터, 노이즈 파라미터, 역 필터링 파라미터 또는 없어진 배음 파라미터를 포함하는 것을 특징으로 하는 장치.
  7. 제 1 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)는 스펙트럼 기울기 검출기를 기반으로 하는 오디오 신호의 시간 부분에서의 시작 시간 인스턴트에 따라 프레임의 시작 시간 인스턴트를 지정하도록 구성되어 있는 것을 특징으로 하는 장치.
  8. 제 7 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)는 스펙트럼 기울기 변화가 검출되는 시간 부분의 시작 시간 인스턴트와 동일한 프레임의 시작 시간 인스턴트를 지정하도록 구성되어 있는 것을 특징으로 하는 장치.
  9. 제 1 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 연산자(10) 또는 스펙트럼 기울기 검출기 (12)는 오버랩핑 프레임 또는 시간 부분을 처리하도록 구성되어 있는 것을 특징으로 하는 장치.
  10. 제 1 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)는 스펙트럼 기울기 검출기 (12) 또는 오디오 신호의 스펙트럼 기울기에 독립적인 이벤트에 응답하여 프레임의 멈춤 시간 인스턴트를 지정하도록 작동하는 것을 특징으로 하는 장치.
  11. 제 10 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)에 의해 사용된 상기 이벤트는 시작 시간 인스턴트보다 미래에 고정된 시간 주기가 되는 시간 인스턴트의 발생인 것을 특징으로 하는 장치.
  12. 제 1 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)는 주파수 분해능을 갖는 제 2 스펙트럼 대역에 있는 오디오 신호(320)의 주파수 선택 프로세싱을 실행하도록 구성되어 있고, 상기 스펙트럼 기울기 검출기(12)는 시간 영역에서 또는 제어 가능 대역폭 확장 파라미터 계산기(10)에 의해 사용되는 주파수 분해능보다 더 작은 주파수 분해능을 갖는 주파수 선택 방법에서 시간 부분을 처리하도록 작동하는 것을 특징으로 하는 장치.
  13. 제 1 항에 따른 장치에 있어서,
    트랜전트가 검출되었을 때, 시작 시간 인스턴트를 지정하는 제어 가능 대역폭 확장 파라미터 계산기(10)를 제어하는 트랜전트 검출기(14); 를 더 포함하고,
    또 여기에서, 상기 제어 가능 대역폭 확장 파라미터 계산기는 스펙트럼 기울기 검출기(12) 또는 트랜전트 검출기(14)가 시작 시간 인스턴트 신호를 출력했을 때 시작 시간 인스턴트를 지정하도록 구성되어 있는 것을 특징으로 하는 장치.
  14. 제 1 항에 따른 장치에 있어서,
    오디오 신호의 음성 부분에서는 스펙트럼 기울기 검출기(12)를 활성화시키고 오디오 신호의 음악 부분에서는 비활성화시키는데 작동하는 음성/음악 검출기를 더 포함하고 있는 것을 특징으로 하는 장치.
  15. 제 1 항에 따른 장치에 있어서,
    스펙트럼 기울기 검출기는 시간 부분이 음성 부분의 치찰음 또는 비 치찰음을 포함하고 있는지 결정하도록 구성되어 있고, 상기 스펙트럼 검출기(12)는 비 치찰음이 치찰음으로 변화가 검출되었을 때, 프레임의 시작 시간 인스턴트 신호를 보내도록 구성되어 있는 것을 특징으로 하는 장치.
  16. 제 13 항에 따른 장치에 있어서,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)는,
    상기 스펙트럼 기울기 검출기(12)기로부터의 신호에 대응하여, 제1 시간 분해능을 상기 프레임 시퀀스에 적용하도록 구성되고,
    상기 제어 가능 대역폭 확장 파라미터 계산기(10)는,
    상기 오디오 신호의 시간 부분 내에서 상기 트랜전트 검출기(14)로부터의 신호를 수신하는 제어 가능 대역폭 확장 파라미터 계산기(10)에 대응하고,
    상기 시간 부분 내의 시작 시간 인스턴트 신호를 보내지 않는 스펙트럼 기울기 검출기(12)에 대응하여,
    제2 시간 분해능을 상기 프레임의 시퀀스에 적용하도록 구성되며,
    상기 제2 시간 분해능은 상기 제1 시간 분해능보다 큰 것을 특징으로 하는 장치.
  17. 제 1 항에 따른 장치에 있어서,
    스펙트럼 기울기 검출기(12)는 오디오 신호의 시간 부분 스펙트럼 기울기 값 그리고 선행하는 오디오 신호의 시간 부분에서의 오디오 신호의 스펙트럼 기울기 값 사이의 차이가 미리 결정된 스레솔드 값보다 클 경우에 프레임의 시작 시간 인스턴트 신호를 보내도록 구성된 것을 특징으로 하는 장치.
  18. 제 1 스펙트럼 대역은 제 1 비트 수로 부호화되고(340) 제 1 스펙트럼 대역과 다른 제 2 스펙트럼 대역은 제 2 비트 수로 부호화되며(210), 제 2 비트 수는 제 1 비트 수보다 작은 대역폭 확장 시스템에서 오디오 신호의 대역폭 확장 데이터를 계산하는 방법에 있어서,
    제어 가능 시작 시간 인스턴트를 갖는 오디오 신호 프레임의 시퀀스에 대한 프레임 와이즈 방법으로 제 2 주파수 대역에 대한 대역폭 확장 파라미터를 계산하고;
    오디오 신호의 시간 부분에서 스펙트럼 기울기를 검출하고(12) 오디오 신호의 스펙트럼 기울기에 따라 프레임에 대한 시작 시간 인스턴트 신호를 보내는; 것 을 포함하는 것을 특징으로 하는 방법.
  19. 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 제 18 항에 따른 대역폭 확장 데이터를 계산하는 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록 매체.
KR1020107007278A 2008-07-11 2009-06-23 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법 KR101182258B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US7987108P 2008-07-11 2008-07-11
US61/079,871 2008-07-11
PCT/EP2009/004520 WO2010003543A1 (en) 2008-07-11 2009-06-23 Apparatus and method for calculating bandwidth extension data using a spectral tilt controlling framing

Publications (2)

Publication Number Publication Date
KR20100083135A KR20100083135A (ko) 2010-07-21
KR101182258B1 true KR101182258B1 (ko) 2012-09-14

Family

ID=40929509

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107007278A KR101182258B1 (ko) 2008-07-11 2009-06-23 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법

Country Status (19)

Country Link
US (1) US8788276B2 (ko)
EP (1) EP2176862B1 (ko)
JP (1) JP5010743B2 (ko)
KR (1) KR101182258B1 (ko)
CN (1) CN101836253B (ko)
AR (1) AR072703A1 (ko)
AT (1) ATE522901T1 (ko)
AU (1) AU2009267529B2 (ko)
BR (1) BRPI0904958B1 (ko)
CA (1) CA2699316C (ko)
ES (1) ES2372014T3 (ko)
HK (1) HK1142432A1 (ko)
IL (1) IL203928A (ko)
MY (1) MY150373A (ko)
PL (1) PL2176862T3 (ko)
RU (1) RU2443028C2 (ko)
TW (1) TWI457914B (ko)
WO (1) WO2010003543A1 (ko)
ZA (1) ZA201000941B (ko)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US9247547B2 (en) * 2009-10-15 2016-01-26 Qualcomm Incorporated Downlink and uplink resource element mapping for carrier extension
US9026236B2 (en) 2009-10-21 2015-05-05 Panasonic Intellectual Property Corporation Of America Audio signal processing apparatus, audio coding apparatus, and audio decoding apparatus
PL3564954T3 (pl) 2010-01-19 2021-04-06 Dolby International Ab Ulepszona transpozycja harmonicznych oparta na bloku podpasma
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
PL2545551T3 (pl) 2010-03-09 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio
CA2792452C (en) 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
ES2588745T3 (es) * 2010-07-05 2016-11-04 Nippon Telegraph And Telephone Corporation Método de codificación, método de decodificación, dispositivo codificador, dispositivo decodificador, programa y medio de grabación
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CN102436820B (zh) 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
CN102419977B (zh) * 2011-01-14 2013-10-02 展讯通信(上海)有限公司 瞬态音频信号的判别方法
CN102629470B (zh) * 2011-02-02 2015-05-20 Jvc建伍株式会社 辅音区间检测装置及辅音区间检测方法
CN103548077B (zh) 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
CN103035248B (zh) 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
EP2709106A1 (en) * 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CN109036443B (zh) 2013-01-21 2023-08-18 杜比实验室特许公司 用于在不同回放设备之间优化响度和动态范围的系统和方法
BR112015017632B1 (pt) 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
CA2961336C (en) * 2013-01-29 2021-09-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoders, audio decoders, systems, methods and computer programs using an increased temporal resolution in temporal proximity of onsets or offsets of fricatives or affricates
MX347080B (es) 2013-01-29 2017-04-11 Fraunhofer Ges Forschung Llenado con ruido sin informacion secundaria para celp (para codificadores tipo celp).
KR101737254B1 (ko) 2013-01-29 2017-05-17 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호, 디코더, 인코더, 시스템 및 컴퓨터 프로그램을 합성하기 위한 장치 및 방법
CN105378835B (zh) 2013-02-20 2019-10-01 弗劳恩霍夫应用研究促进协会 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
ES2688134T3 (es) * 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
SG11201510164RA (en) 2013-06-10 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
PT3008726T (pt) 2013-06-10 2017-11-24 Fraunhofer Ges Forschung Aparelho e método de codificação, processamento e descodificação de envelope de sinal de áudio por modelação da representação de soma cumulativa empregando codificação e quantização de distribuição
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
CN104517610B (zh) 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
DK3058567T3 (en) * 2013-10-18 2017-08-21 ERICSSON TELEFON AB L M (publ) CODING POSITIONS OF SPECTRAL PEAKS
US9640185B2 (en) * 2013-12-12 2017-05-02 Motorola Solutions, Inc. Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder
US9542955B2 (en) 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
JP6705142B2 (ja) * 2015-09-17 2020-06-03 ヤマハ株式会社 音質判定装置及びプログラム
KR102250472B1 (ko) * 2016-03-07 2021-05-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합
EP3382704A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
TWI652597B (zh) * 2017-12-05 2019-03-01 緯創資通股份有限公司 電子裝置及其解鎖方法
EP4095855B1 (en) * 2018-01-17 2023-10-04 Nippon Telegraph And Telephone Corporation Decoding apparatus, encoding apparatus, and methods and programs therefor
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
BR112021012753A2 (pt) * 2019-01-13 2021-09-08 Huawei Technologies Co., Ltd. Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
CN112151046B (zh) * 2020-09-25 2024-06-18 北京百瑞互联技术股份有限公司 Lc3编码器自适应调节多声道传输码率的方法、装置及介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
SE9903552D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
EP1527442B1 (en) 2002-08-01 2006-04-05 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band replication
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
US7949057B2 (en) 2003-10-23 2011-05-24 Panasonic Corporation Spectrum coding apparatus, spectrum decoding apparatus, acoustic signal transmission apparatus, acoustic signal reception apparatus and methods thereof
JP2006023658A (ja) * 2004-07-09 2006-01-26 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号符号化方法
KR100956877B1 (ko) 2005-04-01 2010-05-11 콸콤 인코포레이티드 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
TWI271703B (en) 2005-07-22 2007-01-21 Pixart Imaging Inc Audio encoder and method thereof
JP2007333785A (ja) * 2006-06-12 2007-12-27 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置およびオーディオ信号符号化方法
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
TWI308740B (en) 2007-01-23 2009-04-11 Ind Tech Res Inst Method of a voice signal processing

Also Published As

Publication number Publication date
HK1142432A1 (en) 2010-12-03
AU2009267529B2 (en) 2011-03-03
EP2176862B1 (en) 2011-08-31
BRPI0904958A2 (pt) 2015-06-30
TW201007709A (en) 2010-02-16
IL203928A (en) 2013-06-27
US20110099018A1 (en) 2011-04-28
JP2011501225A (ja) 2011-01-06
AU2009267529A1 (en) 2010-01-14
CN101836253A (zh) 2010-09-15
CN101836253B (zh) 2012-06-13
MY150373A (en) 2013-12-31
TWI457914B (zh) 2014-10-21
WO2010003543A1 (en) 2010-01-14
ATE522901T1 (de) 2011-09-15
CA2699316C (en) 2014-03-18
CA2699316A1 (en) 2010-01-14
PL2176862T3 (pl) 2012-03-30
AR072703A1 (es) 2010-09-15
BRPI0904958B1 (pt) 2020-03-03
ZA201000941B (en) 2011-04-28
ES2372014T3 (es) 2012-01-13
RU2443028C2 (ru) 2012-02-20
JP5010743B2 (ja) 2012-08-29
US8788276B2 (en) 2014-07-22
EP2176862A1 (en) 2010-04-21
KR20100083135A (ko) 2010-07-21
RU2010109206A (ru) 2011-09-20

Similar Documents

Publication Publication Date Title
KR101182258B1 (ko) 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법
KR101278546B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
JP6185029B2 (ja) オーディオコーデックにおけるノイズ生成
US9858940B2 (en) Pitch filter for audio signals
US9153236B2 (en) Audio codec using noise synthesis during inactive phases
KR100647336B1 (ko) 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
RU2665279C2 (ru) Устройство и способ, реализующие улучшенные концепции для tcx ltp
JP5325293B2 (ja) 符号化されたオーディオ信号を復号化するための装置および方法
JP5266341B2 (ja) オーディオ信号処理方法及び装置
KR101238583B1 (ko) 비트 스트림 처리 방법
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
JP5894070B2 (ja) オーディオ信号符号化器、オーディオ信号復号化器及びオーディオ信号符号化方法
KR101991421B1 (ko) 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더
KR20080092823A (ko) 부호화/복호화 장치 및 방법
AU2012217161B9 (en) Audio codec using noise synthesis during inactive phases
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150902

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160905

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180828

Year of fee payment: 7