KR20110040817A - 오디오 신호 합성기 및 오디오 신호 인코더 - Google Patents

오디오 신호 합성기 및 오디오 신호 인코더 Download PDF

Info

Publication number
KR20110040817A
KR20110040817A KR1020117000298A KR20117000298A KR20110040817A KR 20110040817 A KR20110040817 A KR 20110040817A KR 1020117000298 A KR1020117000298 A KR 1020117000298A KR 20117000298 A KR20117000298 A KR 20117000298A KR 20110040817 A KR20110040817 A KR 20110040817A
Authority
KR
South Korea
Prior art keywords
signal
audio signal
spectral
frequency band
patching
Prior art date
Application number
KR1020117000298A
Other languages
English (en)
Other versions
KR101223835B1 (ko
Inventor
프레데릭 나겔
샤샤 디쉬
니콜라스 레텔바흐
막스 누엔도르프
베른하르트 그릴
울리히 크라머
스테판 와브닉
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41120013&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20110040817(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20110040817A publication Critical patent/KR20110040817A/ko
Application granted granted Critical
Publication of KR101223835B1 publication Critical patent/KR101223835B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Abstract

본 발명의 일 측면에 따라, 오디오 신호 합성기가 제1 주파수 대역과 상기 제1 주파수 대역에서 도출된 제2 합성 주파수 대역을 갖는 합성 오디오 신호를 생성한다. 오디오 신호 합성기는 패치 생성기, 분광 컨버터, 원시신호 처리기와 결합기를 포함한다. 패치 생성기는 적어도 두 개의 다른 패칭 알고리즘을 수행하며, 각 패칭 알고리즘은 제1 주파수 대역에 신호 컴포넌트를 갖는 오디오 신호를 사용하여 제2 합성된 주파수 대역에 신호 컴포넌트를 갖는 원시신호를 생성한다. 패치 생성기는 제1 시간 부분에 대한 제어정보에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 하나와 상기 제1 시간 부분과 다른 제2 시간 부분에 대한 제어정보에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 다른 하나를 선택하여 제1 및 제2 시간 부분에 대한 원시신호를 획득하도록 조정된다. 분광 컨버터는 원시신호를 원시신호 분광 표현으로 변환한다. 원시신호 처리기는 분광 도메인 분광대역 복제 파라미터들에 응답하여 원시신호 분광 표현을 처리하여 조정된 원시신호 분광 표현을 획득한다. 결합기는 제1 대역에 신호 컴포넌트들을 갖는 오디오 신호 또는 상기 오디오 신호에서 도출된 신호를 상기 조정된 원시신호 분광 표현 또는 상기 조정된 원시신호 분광 표현에서 도출된 또 다른 신호와 결합하여 합성 오디오 신호를 획득한다.

Description

오디오 신호 합성기 및 오디오 신호 인코더{AUDIO SIGNAL SYNTHESIZER AND AUDIO SIGNAL ENCODER}
본 발명은 합성 오디오 신호를 생성하는 오디오 신호 합성기, 오디오 신호 인코더 및 인코딩된 오디오 신호를 포함하는 데이터 스트림에 관한 것이다.
내츄럴 오디오 코딩과 스피치 코딩은 오디오 신호 코덱의 두 가지 주요한 부류이다. 내츄럴 오디오 코더들은 공통적으로 음악 또는 중간 비트율을 갖는 임의의 신호들에 사용되고 일반적으로 광역 오디오 대역폭을 제공한다. 스피치 코더들은 기본적으로 스피치 재생에 한정되고 매우 낮은 비트율로 사용될 것이다. 광대역 스피치는 협대역 스피치에 비하여 주요한 주관적 품질 향상을 제공한다. 대역폭을 증가시키면 스피치의 자연스러움이 향상될 뿐만 아니라 스피커의 인식과 명료함이 향상된다. 따라서 광대역 스피치 코딩은 차세대 전화 시스템에서 중요한 이슈이다. 더욱이, 멀티미디어 분야의 급속도의 성장으로 인해, 저장소는 물론 전화시스템으로의 음악 및 다른 비-스피치 신호의 고품질 전송 및, 예를 들면, 라디오/TV 또는 다른 방송 시스템에 대한 전송은 바람직한 특징이다.
비트율을 극적으로 감소시키기 위하여, 소스코딩이 분할-대역(split-band) 지각적 오디오 코덱들을 사용하여 수행될 수 있다. 이러한 내츄럴 오디오 코덱들은 신호내의 지각적 부적합성과 통계적 반복성을 활용한다. 상기의 활용만으로는 주어진 비트율 제약조건과 관련하여 충분하지 않은 경우에, 샘플율이 감소한다. 작곡(compostion) 레벨들의 숫자를 감소시켜서, 빈번한 가청 양자화 왜곡을 허용하는 것, 그리고 합동 스테레오 코딩 또는 두 개 이상의 채널의 파라미터 코딩을 통한 스테레오 필드의 저하를 채용하는 것 역시 일반적이다. 그러한 방법의 과도한 사용은 고통스런 지각적 저하를 초래한다. 코딩 성능을 향상시키기 위하여, 분광대역 복제(SBR)와 같은 대역폭 확장 방법이 HFR(hgh frequency reconstruction:고 주파수 재건)기반의 코덱에서 고주파수 신호를 생성하기 위한 효율적인 방법으로서 사용된다.
고주파수 신호를 복제하는 과정에서, 특정 변형이, 예를 들면, 저주파수 신호에 적용되어, 이후 상기 변형된 신호는 고주파수 신호로서 삽입된다. 이러한 과정 역시 패칭으로 알려져 있으며 다른 변형들이 사용될 수 있다. MPEG-4 오디오 표준은 모든 오디오 신호에 대해서 오직 하나의 패칭 알고리즘만을 사용한다. 따라서, 이는 패칭을 다른 신호들이나 코딩 스킴에 적용할 수 있는 융통성이 결여된다.
한편, MPEG-4 표준은 재생성된 고-대역의 정교한 처리를 제공하는데, 여기에서 많은 중요한 SBR 파라미터들이 적용된다. 이러한 중요한 SBR 파라미터들은 분광 인벨로프상의 데이터, 재생성된 분광 부분에 추가될 잡음 플로어(noise floor)상의 데이터, 재생성된 고-대역의 음조(tonality)를 본래의 고-대역의 음조에 맞추어 조정하기 위한 역 필터링툴에 대한 정보, 및 분실 고조파 상의 데이터와 같은 추가적인 분광대역 복제 처리 데이터이다. 필터뱅크 도메인내의 연속적인 대역통과 신호들의 패칭에 의해 제공된 복제된 분광에 대한 잘 설정된 처리는 효율적이어서 고품질을 제공하고 처리 전력, 메모리 요구사항 및 전력 요구사항과 관련하여 적절한 자원들로 구현 가능하다는 것이 증명되었다.
한편, 패칭은 패칭된 신호에 대한 추가적인 처리가 발생하는 필터뱅크와 동일한 필터뱅크에서 발생하며, 패칭동작과 상기 패칭동작의 결과에 대한 추가적인 처리와의 강력한 링크가 있다. 그러므로, 다른 패칭 알고리즘의 구현은 이러한 결합된 접근방법에서 문제가 된다.
WO 98/57436은 분광대역 복제에서 사용되는 교차방법을 개시하며, 이는 분광 인벨로프 조정과 결합된다.
WO 02/052545는 신호들은 펄스-트레인-라이크(like) 또는 비-펄스-트레인-라이크로 분류될 수 있고 이러한 분류에 기초하여 조정형 스위치드 트랜스포저가 제안된다. 이러한 스위치드 트랜스포저는 두개의 패칭 알고리즘을 병렬로 수행하고 믹싱 유닛은 상기 분류(펄스 트레인 또는 비 펄스 트레인)에 따라 두 패칭된 신호들을 결합한다. 이러한 실제적인 스위칭이나 트랜스포저의 믹싱은 인벨로프와 제어 데이터에 응답하여 인벨로프-조정 필터뱅크에서 수행된다. 또한, 펄스-트레인-라이크 신호들에 대하여, 베이스밴드 신호는 필터뱅크 도메인으로 변환되고, 주파수 번역 연산이 수행되고 또한 상기 주파수 번역의 결과에 대한 인벨로프 조정이 수행된다. 이는 결합된 패칭/추가적인 처리 절차이다. 비-펄스-트레인-라이크 신호에 대하여, 주파수 도메인 트랜스포저(FD 트랜스포저)가 제공되고 상기 주파수 도메인 트랜스포저의 결과는 필터뱅크 도메인으로 변환되어, 인벨로프 조정이 수행된다. 따라서, 한 대안으로는, 결합된 패칭/추가적인 처리 접근방법을 갖고, 다른 대안으로는, 인벨로프 조정이 발생하는 필터뱅크의 바깥쪽에 위치한 주파수 도메인 트랜스포저를 갖는 이러한 절차의 구현과 유연성은, 유연성과 구현가능성과 관련하여 문제의 소지가 있다.
본 발명의 목적은 개선된 품질을 제공하고 효율적인 구현을 허용하는 합성기를 제공하는 것이다.
이러한 목적은 청구항 1에 따른 합성기, 청구항 9에 따른 인코더, 청구항 13에 따른 합성 오디오 신호를 생성하는 방법 또는 청구항 14에 따른 데이터 스트림을 생성하는 방법에 의해 성취된다.
본 발명은 한편으로는 패칭 동작 그리고 다른 한편으로 패칭 동작의 출력에 대한 추가적인 처리가 독립적인 도메인에서 완벽하게 수행되어야 한다는 발견에 기초한다. 이는 한편으로, 패칭 생성기내의 다른 알고리즘들을 최적화하고, 다른 한 편으로는, 기본 패칭 알고리즘에 관계없이 동일한 인벨로프 조정을 항상 사용할 수 있는 유연성을 제공한다. 따라서, 인벨로프 조정이 발생하는 분광 도메인 외부에 패칭된 신호를 생성하면, 연속하는 SBR의 추가적인 처리와는 완전히 독립적으로 다른 패칭 알고리즘을 다른 신호 부분들로 유연하게 적용할 수 있게 되며, 디자이너들은 인벨로프 조정으로부터의 패칭 알고리즘들에 대한 구체적인 사항에 대하여 주의할 필요가 없고, 또한 특정 인벨로프 조정을 위한 패칭 알고리즘의 세부사항에 대하여 주의할 필요가 없다. 대신, 분광대역 복제의 다른 컴포넌트들, 즉, 한편으로 패칭 동작과 다른 한편으로 상기 패칭 결과에 대한 추가적인 처리가 각각 독립적으로 수행될 수 있다. 이것은 상기 전체 분광대역 복제에서, 패칭 알고리즘은 분리되어 수행되고, 그 결과로서, 상기 패칭과 남은 SBR 연산들은 각각 독립적으로 최적화될 수 있고, 따라서, 미래의 패칭 알고리즘 등과 관련하여 유연하고, 어떤 패칭도 발생하지 않는 분광 도메인에서 수행되는 패칭 결과에 대한 추가적인 처리의 파라미터들 중 어느 것도 변경할 필요없이 단순히 적용될 수 있다.
본 발명은 개선된 품질을 제공하는데, 이는 다른 패칭 알고리즘들을 신호 부분들에 쉽게 적용하여, 베이스밴드 신호의 각 신호부분이 이 신호부분들에 최적인 패칭 알고리즘으로 패칭될 수 있도록 하기 때문이다. 더 나아가, 간단하고 효율적이며 고품질의 인벨로프 조정툴, 즉 필터뱅크에서 동작하고, MPEC-4 HE-AAC 와 같이 잘 정립되어 많은 어플리케이션에 이미 존재하는 그러한 툴들이 아직 사용된다. 패칭 알고리즘들을 추가적인 처리와 분리하여, 어떤 패칭 알고리즘들도 상기 패칭결과에 대한 추가적인 처리가 수행되는 필터뱅크 도메인에서 적용되지 않도록 함으로써, 패칭 결과의 잘 정립된 추가적인 처리가 모든 가용한 패칭 알고리즘에 적용될 수 있다. 그러나 선택적으로, 패칭은 다른 도메인들에서뿐만 아니라 필터뱅크 내에서도 수행될 수 있다.
또한, 이러한 특징은 이식성(Scalability)을 제공하는데, 이는, 낮은 수준의 어플리케이션들에 대하여, 더 적은 자원을 요구하는 패칭 알고리즘들이 사용될 수 있고, 높은 수준의 어플리케이션들에 대하여, 많은 자원을 요구하는 패칭 알고리즘들이 사용되어 더 나은 오디오 품질을 제공할 수 있기 때문이다. 다른 방법으로, 패칭 알고리즘들이 동일하게 유지될 수 있으나, 패칭 결과에 대한 추가적인 처리의 복잡성은 다른 요구에 따라 조정될 수 있다. 낮은 수준의 어플리케이션들에 대하여 분광 인벨로프 조정에 대한 감소된 주파수 해상도가 적용될 수 있고, 반면 더 높은 수준의 어플리케이션들에 대하여 좀더 고품질의 주파수 해상도가 적용되어 더 나은 품질을 제공할 수 있으나, 이는 또한 메모리, 처리기, 및 특히 모바일 장치에서의 전력 소비와 같은 증가된 자원을 요구한다. 이러한 모든 것이 대응하는 다른툴과 상관없이 행해질 수 있다. 이는 패칭툴이 분광 인벨로프 조정툴에 종속되지 않고 분광 인벨로프 조정툴역시 패칭툴에 종속되지 않기 때문이다. 대신, 필터뱅크와 같은 분광 표현으로 변환함으로써, 패치 생성과 패칭된 원시데이터에 대한 처리의 분리는 최적의 특징인 것으로 증명되어 왔다.
본 발명의 일 측면에 따라, 오디오 신호 합성기가 제1 주파수 대역과 상기 제1 주파수 대역에서 도출된 제2 합성 주파수 대역을 갖는 합성 오디오 신호를 생성한다. 오디오 신호 합성기는 패치 생성기, 분광 컨버터, 원시신호 처리기와 결합기를 포함한다. 패치 생성기는 적어도 두 개의 다른 패칭 알고리즘을 수행하며, 각 패칭 알고리즘은 제1 주파수 대역에 신호 컴포넌트를 갖는 오디오 신호를 사용하여 제2 합성된 주파수 대역에 신호 컴포넌트를 갖는 원시신호를 생성한다. 패치 생성기는 제1 시간 부분에 대한 제어정보에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 하나와 상기 제1 시간 부분과 다른 제2 시간 부분에 대한 제어정보에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 다른 하나를 선택하여 제1 및 제2 시간 부분에 대한 원시신호를 획득하도록 조정된다. 분광 컨버터는 원시신호를 원시신호 분광 표현으로 변환한다. 원시신호 처리기는 분광 도메인 분광대역 복제 파라미터들에 응답하여 원시신호 분광 표현을 처리하여 조정된 원시신호 분광 표현을 획득한다. 결합기는 제1 대역에 신호 컴포넌트들을 갖는 오디오 신호 또는 상기 오디오 신호에서 도출된 신호를 상기 조정된 원시신호 분광 표현 또는 상기 조정된 원시신호 분광 표현에서 도출된 또 다른 신호와 결합하여 합성 오디오 신호를 획득한다.
다른 실시예에서, 오디오 신호 합성기는 상기 적어도 두개의 패칭 알고리즘들이 서로 다르도록 구성되어, 제1 주파수 대역내 주파수의 오디오 신호의 신호 컴포넌트들이 제2 주파수 대역의 대상 주파수에 패칭되고, 상기 대상 주파수는 두 패칭 알고리즘과 다르다. 패치 생성기는 두 패칭 알고리즘 모두에 대하여 시간도메인에서 동작하도록 더 조정될 것이다.
본 발명의 다른 측면에 따라, 오디오 신호 인코더는 오디오 신호로부터 제1 주파수 대역의 오디오 신호의 컴포넌트, 제어정보 및 분광대역 복제 파라미터를 포함하는 데이터 스트림을 생성한다. 오디오 신호 인코더는 주파수 선택형 필터, 생성기 및 제어정보 생성기를 포함한다. 주파수 선택형 필터는 제1 주파수 대역에 오디오 신호의 컴포넌트를 생성한다. 생성기는 제2주파수 대역의 오디오 신호의 컴포넌트로부터 분광대역 복제 파라미터를 생성한다. 제어정보 생성기는 제어정보를 생성하며, 상기 제어정보는 제1 또는 제2 다른 패칭 알고리즘으로부터 바람직한 패칭 알고리즘을 판별한다. 각각의 패칭 알고리즘은 제1 주파수 대역의 오디오 신호의 컴포넌트들을 사용하여 제2 복제된 주파수 대역에 신호 컴포넌트를 갖는 원시신호를 생성한다.
본 발명에 따른 다른 측면에 따라, 컴퓨터에 연결된 전송라인으로 전송되는 오디오 신호 비트 스트림은 제1 주파수 대역에 인코딩된 오디오 신호, 제어정보 및 분광대역 복제 파라미터를 포함한다.
따라서, 본 발명은 분광대역 복제의 다른 패칭 알고리즘들 간의 스위칭 방법과 관련되며, 상기 사용된 패칭 알고리즘은, 인코더 측면에서는, 인코더에서 만들어진 결정에 종속되고, 디코더 측면에서는, 비트 스트림내에 전송된 정보에 종속된다. 분광대역 복제(SBR)를 채용함으로써, 고주파수 컴포넌트들의 생성은, 예를들면, QMF-필터 뱅크(QMF=Quadrature Mirror Filter)의 저주파수 신호 컴포넌트들을 고주파수 대역들로 복사함으로써 수행될 수 있다. 이러한 복사 또한 패칭으로 알려져 있으며, 본 발명의 실시예에 따라 이러한 패칭은 대안으로 대치되거나 보충되어, 시간 도메인내에서 수행될 수도 있을 것이다. 상기 대안 패칭 알고리즘들에 대한 예들은 아래와 같다.
(1) 업 샘플링(예를들면, 분광의 미러링에 의한);
(2) 위상 보코더;
(3) 비선형 왜곡;
(4) QMF-대역 순서의 교환에 의한 QMF-도메인내의 분광의 미러링
(5) 모델 중심(model driven)(특히 스피치에 대한); 및
(6) 변조
상기 대안 패칭 알고리즘들은 또한 인코더에서 수행되어, 분광대역 복제 파라미터를 획득할 수 있는데, 상기 파라미터들은 잡음 필링, 역 필터링, 분실 고조파, 등과 같은 SBR 툴들에서 사용된다. 실시예들에 따르면, 패치 생성기의 패칭 알고리즘은 여전히 나머지 분광대역 복제 툴들을 사용하는 동안 변경된다.
상기 패칭 알고리즘의 실질적인 선택은 적용된 오디오 신호에 달려있다. 예를 들면, 위상 보코더는 스피치 신호의 특성을 훼손하므로 ,예를 들면 스피치 또는 스피치 같은 신호들을 위한, 적절한 패칭 알고리즘을 제공하지 않는다. 따라서, 오디오 신호 유형에 따라, 패치 생성기는 고주파수 대역을 위한 패치를 생성하기 위한 다른 가능성들 중에서 패칭 알고리즘을 선택한다. 예를 들면, 패치 생성기는 종래의 SBR툴(QMF 대역의 복사)과 위상보코더 또는 다른 패칭 알고리즘들간에 스위칭할 수 있다.
종래의 SBR-구현(예를 들면 MPEG-4로 구현된)과 대비하여, 본 발명의 실시예들은 고주파수 신호를 생성하는 패칭 생성기를 사용한다. 패칭 생성기는 상기 주파수에서 동작하는 것만이 아니라, 시간 도메인에서도 동작하며 또한, 예를 들면, 미러링 및/또는 업 샘플링 및/또는 위상 보코더 및/또는 비선형 왜곡과 같은 패칭 알고리즘들을 구현한다. 분광대역 복제가 상기 주파수에서 수행될지 시간 도메인에서 수행될지는 확정된 신호에 달려 있으며(즉, 신호 조정형), 이에 대해서는 다음에서 좀 더 상세하게 설명될 것이다.
분광대역 복제는 여러 가지 목적으로 코어 주파수 대역에서만 오디오 신호를 전송하고 디코더의 상위 주파수 대역에 신호 컴포넌트를 생성하는 것으로 충분하다는 사실에 의존한다. 결과하는 오디오 신호는 여전히 고도의 지각적 품질을 유지하는데, 이는 스피치와 음악에 대하여, 고주파수 컴포넌트들이 종종 코어 주파수 대역의 저주파수 컴포넌트들과 관련하여 상관을 갖기 때문이다. 분실 고주파수 컴포넌트들을 생성하는 조정된 패칭 알고리즘을 사용함으로써, 고도의 지각적 품질의 오디오 신호를 획득하는 것이 가능하다. 동시에, 파라미터 중심(parameter driven)의 상위 대역 생성은 오디오 신호를 인코딩하는 비트율의 심각한 감소를 초래하는데, 이는 코어 주파수 대역내의 오디오 신호만이 인코딩되고 압축되어 디코더로 전송되기 때문이다. 나머지 주파수 컴포넌트들에 대하여, 오직 제어정보와 분광대역 복제 파라미터들만이 전송되는데, 이는 본래의 고대역 신호의 예측을 생성하는 과정에서 디코더를 제어한다. 따라서, 엄밀히 말하면, 이러한 처리는 3가지 측면을 반영한다: (i) 파라메트릭 HF 대역 예측(SBR 파라미터의 계산), (ii) 원시 패치 생성(실제 패칭) 그리고 (iii) 추가적인 처리에 대한 프로비젼(예를 들면 잡음 플로어 조정).
코어 주파수 대역은 소위 크로스오버 주파수로 정의될 수 있는데, 크로스오버 주파수는 오디오 신호의 인코딩이 수행되는 주파수 대역내의 문턱값을 정의한다. 코어 코더는 크로스오버 주파수로 제한되는 코어 주파수 대역내의 오디오 신호를 인코딩한다. 크로스오버 주파수로 시작하면서, 신호 컴포넌트들이 분광대역 복제에 의해서 생성될 것이다. 분광대역 복제를 위한 종래의 방법들을 사용하면, 때때로, 코어 코더의 크로스오버 주파수에서 원치않는 산물을 포함하는 신호가 발생한다.
본 발명의 실시예를 사용함으로써, 상기의 산물을 피하거나 또는 적어도 상기의 산물이 인식적 효과를 갖지 않도록 상기 산물을 수정하는 패칭 알고리즘을 결정하는 것이 가능하다. 예를 들면, 시간 도메인의 패칭 알고리즘으로 미러링을 사용함으로써, 분광대역 복제는 AMR-WB+(확장된 조정형 멀티율 광대역 코덱)내의 대역폭 확장(BWE)에 유사하게 수행된다. 그리고 패칭 알고리즘을 신호에 따라 변경시키는 것이 가능하다면, 스피치와 음악에 대하여, 예를 들면, 다른 대역폭 확장이 사용되는 것이 가능하다. 그러나 또한, 명백하게 음악이나 스피치로 분류하기 어려운 신호(예를 들면 믹스된 신호)에 대하여, 패칭 알고리즘이 짧은 시간 내에 변경될 수 있다. 예를 들면, 어떤 주어진 시간 동안, 바람직한 패칭 알고리즘이 패칭에 사용될 것이다. 이러한 바람직한 패칭 알고리즘은 인코더에 의해서 결정될 것이며, 이때, 상기 인코더는, 예를 들면, 입력데이터의 각 처리된 블록에 대하여 상기 패칭 결과를 본래의 오디오 신호와 비교할 것이다. 이것은 오디오 신호 합성기에 의해 생성된 결과인 오디오 신호의 지각적인 품질을 상당히 개선한다.
본 발명의 또 다른 이점은 패칭 생성기를 표준 SBR 툴들을 포함하는 원시신호 처리기로부터 분리한다는 것이다. 이러한 분리 덕택에, 일상적인 SBR 툴들이 채용될 수 있고, 상기 툴들은 역 필터링을 구성하여, 잡음 플로어나 분실 고조파 또는 다른 것들을 추가할 수 있다. 따라서, 표준 SBR툴들이 패칭이 유연하게 조정될 수 있는 동안 여전히 사용될 수 있다. 게다가, 표준 SBR-툴들이 주파수 도메인에 사용되므로, 패치 생성기를 SBR-툴들로부터 분리하면, 주파수 도메인 또는 시간 도메인 중 어디서도 패칭의 계산이 가능하다.
본 발명은 도시된 예들을 참조하여 설명될 것이다. 본 발명의 특징은 다음의 상세한 설명과 수반되는 도면을 참조하여 좀 더 쉽게 평가되고 잘 이해될 것이다.
도 1은 본 발명의 실시예에 따른 오디오 신호 처리의 블록 다이어그램을 보여준다.
도 2는 본 발명의 실시예에 따른 패치 생성기의 블록 다이어그램을 보여준다.
도 3은 시간 도메인에서 동작하는 결합기의 블록 다이어그램을 보여준다.
도 4a-4d는 다른 패칭 알고리즘의 개략적인 예를 보여준다.
도 5a와 5b는 위상 보코더와 복사에 의한 패칭을 보여준다.
도 6a-6d는 코드화된 오디오 스트림을 처리하여 PCM 샘플을 출력하는 블록 다이어그램을 보여준다.
도 7a-7c는 또 다른 실시예에 따른 오디오 인코더의 블록 다이어그램을 보여준다.
아래 설명되는 실시예들은 단지, 예를 들어 오디오 디코더에서 사용되는,분광대역 복제를 개선하기 위한 본 발명의 사상에 대한 예시에 불과하다. 여기서 설명되는 방식과 세부내용의 수정과 다양한 변경은 해당 분야의 숙련된 당업자에게 명백함이 이해될 것이다. 따라서, 본 발명은 서술식으로 표현되는 세부사항들 및 실시예들의 설명에 의하여 한정되지 않는다.
도 1은 제1 주파수 대역과 상기 제1 주파수대역에서 도출된 제2 복제된 주파수 대역을 갖는 합성 오디오 신호(105)를 생성하는 오디오 신호 합성기를 보여준다. 오디오 신호 합성기는, 적어도 두 개의 다른 패칭 알고리즘을 수행하는 패치 생성기(110)를 포함하며, 각 패칭 알고리즘이 상기 제1 주파수 대역(201)에 신호 컴포넌트들을 갖는 오디오 신호(105)를 사용하여 상기 제2 합성된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성한다. 상기 패치 생성기(110)는 제1 시간 부분에 대한 제어정보(112)에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘 중의 하나를 선택하고 상기 제1 시간 부분과는 다른 제2 시간 부분에 대한 제어정보(112)에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘 중의 다른 하나를 선택하여 상기 제1 및 제2 시간 부분에 대한 원시신호(115)를 획득하도록 조정된다. 오디오 신호 합성기는, 상기 원시신호(115)를 원시신호 분광 표현(125)으로 변환하는 분광 컨버터(120)를 더 포함하며, 상기 분광 컨버터는 제1 서브 밴드의 컴포넌트들, 제2 서브밴드 및 기타 등을 포함한다. 상기 오디오 신호 합성기는 조정된 원시신호 분광 표현(135)을 획득하기 위하여 분광 도메인 분광대역 복제 파라미터들(132)에 응답하여 상기 원시신호 분광 표현(125)을 처리하기 위한 원시신호 처리기(130)를 더 포함한다. 상기 오디오 신호 합성기는 상기 합성 오디오 신호(145)를 획득하기 위하여 상기 제1 대역(201)에 신호 컴포넌트들을 갖는 상기 오디오 신호(105) 또는 상기 오디오 신호(105)로부터 도출된 하나의 신호를 상기 조정된 원시신호 분광 표현(135) 또는 상기 조정된 원시신호 분광 표현(135)으로부터 도출된 또 다른 신호와 결합하기 위한 결합기(140)를 더 포함한다.
또 다른 실시예들에서, 결합기(140)는 상기 또 다른 원시신호 분광 표현(125)을 오디오 신호(105)로부터 도출된 신호로서 사용하도록 조정된다. 결합기에서 사용되는 상기 오디오 신호로부터 도출된 신호는 분석 필터뱅크 같은 시간/분광 컨버터에서 처리된 오디오 신호, 또는 시간 도메인이나 분광 도메인에서 동작하는 패치 생성기에서 생성된 저대역 신호, 또는 지연된 오디오 신호, 또는 상기 결합될 신호들이 동일한 기본 샘플링율을 갖도록 업 샘플링 동작에서 처리된 오디오 신호일 수 있다.
위의 다른 실시예에서, 오디오 신호 합성기는 제1 주파수 대역(201)에 신호 컴포넌트를 갖는 오디오 신호(105)의 특성을 분석하고 상기 제1 패칭 알고리즘 또는 제2 패칭 알고리즘을 판별하는 제어정보(112)를 제공하는 분석기를 더 포함한다.
다른 실시예에서, 분석기는 오디오 신호(105)에 보이스 등급(degree of voice)을 갖는 시간 부분에 대한 비고조파 패칭 알고리즘과 현저한 시간부분에 대한 고조파 패칭 알고리즘을 판별하도록 조정된다.
또 다른 실시예에서, 오디오 신호(105)는 메타 데이터와 함께 데이터 스트림으로 인코딩되고, 이때 패치 생성기(110)는 상기 데이터 스트림내의 메타 데이터로부터 제어정보(112)를 획득하도록 조정된다.
또 다른 실시예에서, 분광 컨버터(120)는 분석 필터뱅크 또는 적어도 두 개의 다른 알고리즘을 포함하며, 상기 다른 알고리즘은 위상 보코더 알고리즘, 업 샘플링 패칭 알고리즘, 비선형 왜곡 패칭 알고리즘 또는 복사 알고리즘을 포함한다.
다른 실시예에서, 원시신호 처리기(130)는 분광대역의 에너지 조정 또는 분광대역에서의 역 필터링 수행 또는 잡음 플로어를 분광대역에 추가 또는 분실 고조파를 분광대역에 추가하도록 조정된다.
도 2는 패치 생성기(110)에 대한 좀 더 상세한 구성의 블록 다이어그램을 보여주는데, 패치 생성기(110)는, 제어정보(112)와 오디오 신호(105)를 수신하는 제어기와 패칭수단들(113)을 포함한다. 제어기(111)는 제어정보(112)에 기초하여 패치 일고리즘을 선택하도록 조정된다. 패치 생성기(110)는 제1 알고리즘 1을 수행하는 제1 패칭 수단들(113a), 제2 패칭 알고리즘 2를 수행하는 제2 패칭 수단들(113b) 등을 포함한다. 일반적으로, 패치 생성기(110)는 가용한 패칭 알고리즘들만큼 많은 패칭 수단들(113)을 포함한다. 예를 들면 패치 생성기(110)는 둘, 셋, 넷, 또는 네 개를 초과하는 패칭 수단들(113)을 포함할 수 있다. 제어기(111)가 제어정보(112)를 기초로 상기 패칭 수단들(113) 중 하나를 선택한 후에, 상기 제어기(111)는 오디오 신호(105)를 상기 패칭 수단들(113) 중 하나로 보내면, 이는 상기 패칭 알고리즘을 수행하여 원시신호(115)를 출력하며, 상기 원시신호는 복제된 주파수 대역들(202, 203) 내의 신호 컴포넌트들을 구성한다.
도 3은 결합기(140)에 대한 좀 더 상세한 구성의 블록도를 보여주는데, 상기 결합기(140)는 합성 필터 뱅크(141), 지연기(143)와 가산기(147)를 포함한다. 조정된 원시신호(135)는 합성 필터뱅크(141)로 입력되어, 상기 합성 필터뱅크는 상기 조정된 원시신호(135)(예를 들면, 분광 표현내의)로부터 시간 도메인(135t)내의 조정된 원시신호(시간 도메인 원시신호)를 생성한다. 베이스밴드 오디오 신호(105)는 상기 지연기(143)로 입력되고, 상기 지연기는 상기 베이스밴드 신호(105)를 시간의 특정 기간까지 지연하여 지연된 베이스밴드 신호(105d)를 출력하도록 조정된다. 상기 지연된 베이스밴드 신호(105d)와 시간 도메인 조정된 원시신호(135t)는 상기 가산기(147)에 의해 가산되어, 상기 결합기(140)의 결과인 합성 오디오 신호(145)를 산출한다. 상기 지연기(143)내의 지연은 오디오 신호 합성기의 처리 알고리즘에 의존하는데, 이는 상기시간 도메인 조정된 원시신호(135t)가 상기 지연된 베이스밴드 신호(105d)(동기화)와 같은 시간으로 대응되도록 하기 위함이다.
도 4a-4d는 패칭 수단들(113)에 의해 패치 생성기(110)내에서 사용되는 다른 패칭 알고리즘을 보여준다. 위에 설명된 것처럼, 패칭 알고리즘은 복제된 주파수 대역에 패칭된 신호를 생성한다. 도 4에 도시된 실시예에서, 제1 주파수 대역(201)은 크로스오버 주파수 fmax로 확장되고, 여기서 제2 주파수 대역(202)(또는 제2 복제된 주파수 대역)이 시작되어 상기 크로스오버 주파수의 두배 2*fmax로 확장된다. 이 주파수를 넘어서, 제3 주파수 대역(203)(또는 제3 복제된 주파수 대역)이 시작된다. 상기 제1 주파수 대역(201)은 앞서 언급된 코어 주파수 대역을 포함한다.
도 4는 네개의 패칭 알고리즘을 예로서 보여준다. 도 4a의 제1 패칭 알고리즘은 미러링 또는 업 샘플링을 포함하며, 제2 패칭 알고리즘은 복사 또는 변조를 포함하며 도 4b에 도시되고, 제3 패칭 알고리즘은 위상 보코도를 포함하고 도 4c에 도시되고, 제4 패칭 알고리즘은 왜곡을 포함하고 도 4d에 도시된다.
도 4a에 도시된 미러링은 제 2 주파수 대역(202)의 패칭된 신호가 제1 주파수 대역(201)을 크로스 오버 주파수 fmax로 미러링함으로서 획득될 수 있다. 다음으로, 제3 주파수 대역(203)의 패칭된 신호는 제2 주파수 대역(202)의 신호를 미러링하여 획득된다. 상기 제2 주파수 대역(202)의 신호는 이미 미러링된 신호이므로, 제3 주파수 대역(203)의 신호 또한 단순히 상기 제1 주파수 대역(201)의 오디오 신호(105)를 제3 주파수대역(203)으로 시프트함으로써 획득될 것이다.
도 4에 도시된 제2 패칭 알고리즘은 신호의 복사(또는 변조)를 구현한다. 이러한 실시예에서, 제2 주파수 대역(202)의 신호는 제1 주파수대역(201)의 신호를 제2 주파수대역(202)으로 시프트(복사)하여 획득된다. 유사하게, 제3 주파수 대역(203)의 신호는 제1 주파수 대역(201)의 신호를 제3 주파수 대역(203)으로 시프트하여 획득된다.
도 4c는 위상 보코더를 패칭 알고리즘으로 사용하는 실시예를 보여준다. 패칭된 신호는 순차적인 단계들에 의해 생성되고, 제1 단계는 최고 주파수의 두배 2*fmax 로 올린 신호 컴포넌트를 생성하고, 제2 단계는 최고 주파수의 세배 3*fmax 로 올린 신호 컴포넌트를 생성한다. 위상 보코더는 인자 n(n = 2,3,4,...)을 갖는 샘플들의 주파수를 곱하여, 상기 코어 주파수 대역(제1 주파수 대역(201))의 n 배의 주파수 범위에 걸치는 샘플값들의 스프레딩을 산출한다.
왜곡을 사용하는 패칭 알고리즘(예를 들면, 신호를 제곱하여)이 도 4d에 도시된다. 왜곡은 많은 방법으로 획득될 수 있다. 단순한 방법은 더 높은 주파수 컴포넌트를 생성하는 신호레벨을 제곱하는 것이다. 왜곡의 또 다른 가능성은 가위질(예를들면, 특정 문턱값을 상위하는 신호를 절단하여)을 통하여 획득된다. 또한 이경우, 고주파수 컴포넌트가 생성될 것이다. 기본적으로 종래의 방법에서 알려진 어떠한 왜곡도 여기서 사용될 수 있다.
도 5a는, 위상 보코더의 패칭 알고리즘을 좀 더 상세하게 보여준다. 제1 주파수 대역(201)은 다시 최고 주파수 fmax(크로스오버 주파수)까지 확장되고, 여기서 제2 주파수 대역(202)이 시작되어, 예를 들면 상기 최고 주파수의 두 배 2*fmax에서 종료한다. 상기 제 2 주파수 대역(202)이 시작된 후에, 제 3 주파수 대역(203)이 시작되어, 예를 들면, 상기 최고 주파수의 세배 3*fmax까지 확장될 수 있다.
단순하게, 도 5a는 오디오 신호(105)에 대한 8개의 주파수 라인들(105a, 105b,..., 105h)을 갖는 분광(주파수 f의 함수로서 레벨 P)을 보여준다. 이러한 8개의 라인들(105a, .., 105h)로부터, 위상 보코더는 화살표와 같이 라인을 시프트하여 새로운 신호를 생성한다. 상기 시프팅은 앞서 언급한 곱하기(muliplication)에 일치한다. 구체적으로, 제1라인(105a)은 제2라인(105b)로 시프트되고, 상기 제2 라인(105b)은 제4 라인으로 시프트되는 방식으로, 제8라인(105h)까지 계속되어, 결과적으로 제 16라인(제2 주파수 도메인(202)의 마지막 라인)으로 시프트된다. 이는 2의 배수에 해당한다. 최고 주파수의 세배 3*fmax 까지 상승한 라인을 생성하기 위하여, 모든 라인들의 주파수들에 3이 곱해지는데, 즉, 제1라인(105a)은 제3라인(105c)으로 시프트되고, 제2라인(105b)은 제6라인으로 시프트되는 방식으로 제8라인(105h)까지 계속되어, 결과적으로 제24 라인(제3주파수 대역(203)의 마지막 라인)으로 시프트된다. 이러한 위상 보코더로 인하여, 상기 라인들은 더 이상 등거리는 아니지만, 더 높은 주파수들로 펼쳐지는 것은 명백하다.
도 5b는 복사의 패칭을 좀 더 상세하게 보여준다. 레벨 P는 다시 주파수 f의 함수로서 표시되는데, 여기서 8개의 라인들은 제1주파수 대역(201)에 있으며, 제2 주파수 대역(202) 및 제3 주파수 대역(203)으로 복사된다. 이러한 복사는 제1주파수 대역(201)의 제1라인(105a)은 또한 제2주파수 대역(202) 및 제3주파수 대역(203)의 제2라인이 됨을 함축한다. 따라서, 각 복제된 주파수 대역들(202,203)의 제1라인은 제1 주파수 대역(201)의 동일한 라인으로부터 복사된다. 유추하면, 이는 다른 라인에도 적용된다. 결과적으로, 전 주파수 대역이 복사된다.
도 4와 5에 도시된 다른 패칭 알고리즘들은 시간 도메인 또는 주파수 도메인 어느 것에서도 다르게 적용되어 다른 이점과 단점을 포함하는데, 이는 다른 어플리케이션들에도 활용될 수 있다.
예를 들면, 주파수 도메인에서의 미러링이 도 4a에 도시된다. 시간 도메인에서, 미러링은 샘플율을 자연수 인자만큼 증가하여 수행될 수 있고, 이는 각 한쌍의 기존 샘플들사이에 추가적인 샘플들을 끼워넣음으로써 수행될 수 있다. 이러한 추가적인 샘플들은 오디오 신호로부터 획득되는 것이 아니고, 시스템에 의해 도입되며, 예를 들면, 0 또는 0에 근접한 값을 포함한다. 가장 단순한 경우로, 만일 오직 하나의 추가적인 샘플이 기존의 두개의 샘플사이에 도입되는 경우, 샘플수의 두배증가는 샘플링율의 두배증가를 의미한다. 만일 하나를 초과하는 샘플들이 더 도입된다면(예를 들면, 등거리 방식으로) 샘플율은 이에 따라 증가할 것이고 이로써 주파수 분광 역시 증가할 것이다. 일반적으로, 각 두 개의 기존의 샘플들 사이에 추가된 샘플들의 수는 샘플율을 인자 n+1씩 증가시키는 어떤 수 n(n = 2, 3, 4 ...)일 수 있다. 추가적인 샘플들의 삽입은 나이퀴스트(Nyquist) 주파수에서의 주파수 분광의 미러링을 산출하는데, 이는 주어진 샘플링율에서 가장 높게 표현할 수 있는 주파수를 명세한다. 베이스밴드 분광(제1 주파수 대역의 분광)의 주파수 도메인은 이러한 절차에 의해 다음 주파수대역으로 직접 미러링된다. 선택적으로, 이러한 미러링은 가능한 저역통과 필터링 및/또는 분광 쉐이핑과 결합될 수 있다.
이러한 패칭 알고리즘의 이점은 다음과 같이 요약될 수 있다. 이러한 방법을 사용하면, 신호시간 구조는 주파수 도메인에서 유사한 방법들을 사용하는 것보다 좀 더 잘 보존된다. 무엇보다도, 분광 미러링에 의해, 나이퀴스트 주파수에 근접한 주파수 라인들이 라인들에 매핑되는데, 상기 라인들 역시 나이퀴스트 주파수에 근접하다. 이는 이점인데, 왜냐하면 미러링된 후에, 미러링 주파수(즉 본래의 오디오 신호(105)의 나이퀴스트 주파수)주변의 분광 영역들은 여러 측면에서, 예를 들면, 분광 평탄도 속성, 음조 속성, 누적 또는 주파수 점의 구별성 등과 관련하여, 유사하기 때문이다. 이러한 방법으로, 분광이 좀 더 온화한 방식으로, 예를 들면, 복사의 기술을 사용하여, 다음 주파수 대역으로 계속되는데, 이때 본래의 분광의 완전히 다른 영역들로부터 유래하여 매우 다른 특성을 보이는 주파수 영역들이 서로 근접해진다. 복사시, 제1 샘플은 복제된 대역에서 다시 제1 샘플이 되는 반면, 미러링시, 마지막 샘플이 복제된 대역에서 제1샘플이 된다. 즉, 이러한 더 부드러운 분광의 연속은 다른 패칭 알고리즘에 의하여 재건된 분광의 비-연속적 특성으로 인해 발생하는 인식적 산물(artifacts)을 감소시킬 수 있다.
마지막으로, 예컨데, 더 낮은 주파수 지역(제1주파수 대역(201))에 무수히 많은 고조파를 포함하는 신호들이 있다. 이러한 고조파들은 분광내에 집중된 피크로 나타난다. 상기 분광의 상위부분에는, 그러나, 고조파가 거의 나타나지 않거나, 또는, 즉, 고조파들의 수는 분광의 상위부분에 더 적게 존재한다. 단순히 분광의 복사를 사용함으로써, 복제된 신호가 발생하는데, 즉 이 복제된 신호의 무수히 많은 고조파를 갖는 분광의 하위 부분이 본래의 신호의 고조파가 거의 존재하지 않던 상위 주파수 영역으로 직접 복사된다. 결과적으로, 본래 신호와 복제된 신호의 상위 주파수 대역의 고조파의 수는 매우 다른데, 이는 바람직하지 않으며 회피되어야 한다.
미러링의 패칭 알고리즘은 주파수 도메인(예를 들면, QMF-영역의)에 또한 적용될 수 있고, 이 경우 주파수 대역내의 순서가 역으로 되어 뒤에서 앞으로의 재정렬이 발생한다. 또한, 서브밴드 샘플들에 대하여, 켤레 복소수 값이 각 샘플의 허수부의 부호가 바뀌도록 형성되어야 한다. 이 결과 서브밴드내의 분광의 반전이 발생한다.
이러한 패칭 알고리즘은 패치의 경계와 관련하여 고도의 유연성을 구성하는데, 이는 분광의 미러링이 반드시 나이퀴스트 주파수에서 수행될 필요는 없고, 그러나 어떤 서브밴드 경계에서라도 수행될 수 있기 때문이다.
패치의 가장자리에서 이웃하는 QMF-대역간의 에일리어징 제거(aliasing cancellation)는, 그러나, 발생하지 않는데, 이는 견딜만할 수도 있고 또는 견딜만하지 않을 수도 있다.
스프레딩하거나 위상 보코더를 사용함으로써(도4c 또는 5a 참조), 주파수 구조가 고조파적으로 정확하게 고주파수 도메인으로 확장되는데, 이는 베이스밴드(201)가 하나 이상의 위상 보코더에서 수행되는 짝의 배수만큼씩 분광으로 펼쳐지기 때문이며, 또한 베이스밴드(201)의 분광 컴포넌트가 추가적으로 생성된 분광 컴포넌트와 결합하기 때문이다.
만일 베이스밴드(201)가, 예를 들어 오직 매우 적은 비트율만을 사용하여, 대역폭에서 강하게 제한을 받는다면, 이러한 패칭 알고리즘이 선호된다. 따라서, 상위 주파수 컴포넌트의 재건이 상대적으로 낮은 주파수에서 이미 시작된다. 전형적인 크로스오버 주파수는, 이경우, 약 5 kHz(또는 4kHz보다도 적은)보다 적다. 이러한 영역에서, 인간의 귀는 부정확하게 포지션된 고조파로 인한 불협화음에 매우 민감하다. 이는 "자연스럽지 못한" 톤의 느낌을 초래할 수 있다. 게다가, 분광에서 밀접한 간격을 갖는 톤들(약 30Hz에서 300Hz의 분광거리를 갖는)은 거친 톤으로 인식된다. 베이스밴드(201)의 주파수 구조의 고조파의 연속은 이러한 부정확하고 불쾌한 청취감을 피한다.
복사의 제3 패칭 알고리즘에서(도 4c 또는 5b 참조), 분광영역들은 더 높은 주파수 영역 또는 복제될 주파수 영역으로 복사되는 서브밴드와 같다. 복사 또한 모든 패칭 방법들에 해당되는, 더 높은 주파수 신호의 분광 속성은 많은 측면에서 베이스밴드 신호의 속성에 유사하다는, 관측사실에 의존한다. 서로 간의 편차는 거의 없다. 또한, 인간의 귀는 전형적으로 고주파수(전형적으로 약 5kHz 부터)에 민감하지 않고, 특히 비-정밀 분광 매핑과 관련된 고주파수에서 더욱 그러하다. 사실 이것이 일반적인 분광대역 복제의 주요 아이디어이다. 특히 복사는 쉽고 빠르게 구현할 수 있다는 이점이 있다.
이러한 패칭 알고리즘은 또한 패치의 경계와 관련하여 고도의 유연성을 갖는데, 이는 분광의 복사가 어떤 서브밴드 경계에서라도 수행될 수 있기 때문이다.
마지막으로, 왜곡과 관련된 패칭 알고리즘(도 4d 참조)은 가위질, 제한, 제곱, 등을 통한 고조파들의 생성을 포함한다. 만일, 예를 들어, 스프레드 신호가 분광적으로 매우 희박하게 점유된다면(예를 들어, 상기 언급된 위상 보코더 패칭 알고리즘을 적용한 후에), 상기 스프레드 분광은 선택적으로 원치않는 주파수 홀을 피하기 위하여 왜곡된 신호에 의해 부가적으로 보충될 수 있다.
도 6a-6d는 오디오 디코더에 구현된 오디오 신호 합성기에 대한 다른 실시예를 보여준다.
도 6a에 도시된 실시예에서, 코드화된 오디오 스트림(345)이 비트 스트림 페이로드 디포맷터(350)로 입력되어, 이를 한편으로는 코드화된 오디오 신호(355)로 다른 한편으로는 추가적인 정보(375)로 분리된다. 상기 코드화된 오디오 신호(355)는, 예를 들면, AAC 코어 디코더(360)로 입력되어, 제1주파수 대역(201)내에 디코딩된 오디오 신호(105)를 생성한다. 상기 오디오 신호(105)는, 예를 들면 32 주파수 대역을 포함하는, 분석 32대역 QMF-뱅크(370)로 입력되고, 상기 QMF-뱅크는 주파수 도메인에 오디오 신호(10532)를 생성한다. 패치 생성기는 원시신호로서 고대역 신호만을 출력하고 저대역 신호를 출력하지 않는 것이 바람직하다. 만일, 대안으로, 블록 110의 패칭 알고리즘이 저대역 신호도 생성한다면, 블록 130a로의 입력신호는 고역 통과 필터가 바람직하다.
본 실시예에서, 주파수 도메인 오디오 신호(10532)는 패치 생성기(110)로 입력되고, 상기 패치 생성기는 주파수 도메인(QMF-도메인)에 패치를 생성한다. 상기 결과인 원시신호 분광 표현(125)은 SBR 툴(130a)로 입력되고, 이는, 예를 들면, 잡음 플로어를 생성하고, 분실 고조파를 재건하거나, 또는 역 필터링을 수행한다.
한편, 추가적인 정보(375)가 비트 스트림 파서(380)로 입력되고, 비트스트림 파서는 상기 추가적인 정보를 분석하여 다른 서브-정보(385)를 획득한 후, 이들을 , 예를 들면, 제어정보(112)와 분광대역 복제 파라미터(132)를 추출하는 허프만 디코딩 및 역양자화 유닛(390)으로 입력한다. 상기 제어정보(112)는 SBR 툴로 입력되고 상기 분광대역 복제 파라미터들(132)은 인벨로프 조정기(130b)뿐만 아니라 SBR툴(130a)로 입력된다. 상기 인벨로프 조정기(130b)는 생성된 패치에 대한 인벨로프를 조정하도록 동작한다. 결과로서, 상기 인벨로프 조정기(130b)는 조정된 원시신호(135)를 생성하여 이를 합성 QMF-뱅크(140)로 입력하고, 합성 QMF-뱅크(140)는 상기 조정된 원시신호(135)를 주파수 도메인(10532)의 상기 오디오 신호와 결합한다. 합성 QMF-뱅크는, 예를 들면, 64 주파수 대역을 구성하고 두 신호들(조정된 원시신호(135)와 주파수 도메인 오디오 신호(10532))을 결합하여 합성 오디오 신호(145)(예를 들면,PCM 샘플들의 출력, PCM= 펄스 코드 변조)를 생성한다.
또한, 도 6a는 SBR 툴들(130a)을 보여주는데, 이는 알려진 분광대역 복제 방법이 패치 생성기(110)의 QMF 분광 데이터 출력상에 사용되도록 구현할 수 있다. 도 6a에 도시된 것처럼, 주파수 도메인에서 사용되는 패칭 알고리즘은, 예를 들면, 주파수 도메인내의 분광데이터의 단순한 미러링 또는 복사를 채용한다(도 4a 및 4b 참조).
이러한 일반적 구조는 선행기술에서 알려진 종래의 디코더와 동일하지만, 실시예는 종래의 패치 생성기를 패치 생성기 110으로 대치하며, 상기 패치 생성기 110 은 다른 조정된 패칭 알고리즘을 수행하도록 구성되어 오디오 신호의 인식적 품질을 향상한다. 또한, 실시예들은 시간 도메인에 패칭 알고리즘을 사용할 수 있고, 도 6a에 도시된 것처럼 주파수 도메인에 패칭할 필요는 없다.
도 6b는 패치 생성기(110)가 시간 도메인은 물론 상기 주파수 내에 패칭 알고리즘을 사용하는 본 발명의 실시예를 보여준다. 도 6b에 도시된 디코더는 다시 비트스트림 페이로드 디포맷터(350), AAC 코어 디코더(360), 비트스트림 파서(380), 및 허프만 디코딩 및 역양자와 유닛(390)을 포함한다. 그러므로, 도 6b에 도시된 실시예에서, 코드화된 오디오 스트림(345)은 다시 비트스트림 페이로드 디포맷터(350)로 입력되어, 한편으로 상기 코드화된 오디오 신호(355)를 생성하여 이로부터 추가적인 정보(375)를 분리며, 상기 추가적인 정보는 추후 비트스트림 파서(380)에 의해 파싱되어 다른 정보(385)가 분리되고, 상기 다른 정보는 허프만 디코딩 및 역양자화 유닛(390)으로 입력된다. 다른 한편으로, 코드화된 오디오 신호(355)는 AAC 코어 디코더(360)로 입력된다.
실시예는 현재 두 가지 경우로 구분된다. 즉 주파수 도메인(다음의 점선으로된 신호라인)내 또는 시간 도메인(다음의 쇄선으로된 신호라인)내 모두에서 동작하는 패치 생성기(110)로 구분된다.
만일 상기 패치 생성기가 시간 도메인에서 동작하면, AAC 코어 디코더(360)의 출력은 패치 생성기(110)(오디오 신호의 쇄선라인(105))로 입력되어, 그 출력은 분석 필터뱅크(370)로 전송된다. 상기 분석 필터 뱅크(370)의 출력은 원시신호 분광 표현(125)이고, 이는 합성 QMF 뱅크(140)로 뿐만 아니라 SBR 툴(130a)(원시신호 조정기(130)의 부분인)로 입력된다.
만일, 한편 패칭 알고리즘이 주파수 도메인(도. 6a에 도시된 것처럼)을 사용한다면, AAC 코어 디코더(360)의 출력은 오디오 신호(105)에 대한 점선라인을 경유하여 분석 QMF-뱅크(360)로 입력되고, 다음으로 주파수 도메인 오디오 신호(10532)가 생성되어, 상기 오디오 신호(10532)는 패치 생성기(110)와 합성 QMF 뱅크(140)(점선라인들)로 전송된다. 패치 생성기(110)는 다시 원시신호 표현(125)을 생성하고 이 신호를 SBR툴들(130a)로 전송한다.
따라서, 실시예는 점선 라인들(주파수 도메인 패칭)을 사용하는 제1 처리 모드 또는 쇄선 라인들(시간 도메인 패칭)을 사용하는 제2 처리 모드를 수행하며, 이때 다른 함수 요소들간의 모든 실선 라인들은 두 처리 모드에서 사용된다.
패치 생성기(쇄선 라인들)의 시간처리 모드는, 패치 생성기의 출력이 저대역 신호와 고대역신호를 포함하도록, 즉 패치 생성기의 출력 신호가 저대역 신호와 고대역 신호를 구성하는 광대역 신호가 되도록 하는 것이 바람직하다. 저대역 신호는 블록 140으로 입력되고 고대역 신호는 블록 130a로 입력된다. 대역 분리는 분석 뱅크(370)에서 수행되지만, 다르게도 수행될 수 있다. 또한, AAC 디코더 출력 신호는 직접 블록 370에 제공되어, 패치 생성기 출력 신호의 저대역 부분이 전혀 사용되지 않고 본래의 저대역 부분이 결합기(140)에서 사용되도록 할 수 있다.
주파수 도메인 처리 모드(점선 라인들)에서, 패치 생성기는 바람직하게는 오직 고대역 신호만을 출력하고, 본래의 저대역 신호는 블록 370으로 직접 공급되어 합성뱅크(140)에 제공된다. 대안으로, 패치 생성기는 또한 풀(full) 대역폭 출력 신호를 생성하여 저대역 신호를 블록 140으로 제공할 수 있다.
다시, 허프만 디코딩 및 역양자화 유닛(390)은 분광대역 복제 파라미터(132)와 제어정보(112)를 생성하고, 상기 제어정보는 패치 생성기(110)로 입력된다. 또한, 상기 분광대역 복제 파라미터들(132)은 SBR 툴들(130a)은 물론 인벨로프 조정기(130b)로도 전송된다. 인벨로프 조정기(130b)의 출력은 조정된 원시신호(135)인데, 이는 분광대역 오디오 신호(10535)(주파수 도메인 패칭을 위한) 또는 원시신호 분광 표현(125)(시간 도메인 패칭을 위한)과 결합기(140)(합성 QMF 뱅크)내에서 결합되어 합성 오디오 신호(145)를 생성하며, 이는 다시 출력 PCM 샘플들을 구성한다.
이 실시예에서, 상기 패치 생성기(110)는 또한 제1 주파수 대역(201)의 베이스밴드 신호를 사용하여 제2주파수 대역(202) 또는 제3 주파수 대역(203)에 오디오 신호를 생성하기 위하여, 상기 패칭 알고리즘들(예를 들면, 도 4a-4d에 도시된)중의 하나를 사용한다. 오직 제1 주파수 대역(201)의 오디오 신호 샘플들만이 코드화된 아웃 스트림(345)에서 인코딩되고 분실 샘플들은 분광 대역 복제 방법을 사용하여 생성된다.
도 6c는 시간 도메인에서의 패칭 알고리즘에 대한 실시예를 보여준다. 도6a와 비교하여, 도 6c의 실시예는 패치 생성기(110) 및 분석 QMF 뱅크(120)의 위치에서 차이가 있다. 디코딩 시스템의 모든 나머지 컴포넌트들은 도 6a의 것들과 동일하므로 반복되는 설명은 생략한다.
패치 생성기(110)는 AAC 코어 디코더(360)로부터 오디오 신호(105)를 수신하여 시간 도메인내에 패칭을 수행하여 원시신호(115)를 생성하고, 이는 분광 컨버터(120)(예를들면, 분석, 64대역을 포함하는 분석 QMF 뱅크)로 입력된다. 많은 가능성들 중에서, 만일 패치 생성기(110)가 기존의 샘플들(예를 들면, 0 값에 근접한)간에 추가적인 샘플들을 도입하여 패칭을 수행한다면, 패치 생성기(110)에서 수행되는 시간 도메인의 패칭 알고리즘은 두배의 샘플율을 구성하는 원시신호(115)가 출력될 것이다. 분광 컨버터(120)의 출력은 원시신호 분광 표현(125)이며, 이는 원시신호 조정기(130)로 입력되는데, 이때 원시신호 조정기(130)는 한편에는 SBR툴(130a)과 다른 한편에는 인벨로프 조정기(130b)로 구성된다. 앞서 실시예에서 설명된 것처럼, 인벨로프 조정기의 출력은 조정된 원시신호(135)를 구성하고, 이는 결합기(140)에서 주파수 도메인(105f)의 오디오 신호와 결합되고, 이는 다시, 예를 들면, 64 주파수 대역의 합성 QMF 뱅크를 구성한다.
따라서, 주요 차이점은, 예를 들면, 미러링은 시간 도메인에서 수행되고 상위 주파수 데이터는 신호(115)가 분석 64대역 필터 뱅크(120)로 입력되기 전에 이미 재건되는 것인데, 이는 신호가 이미 2배의 샘플율(듀얼율 SBR에서)을 구성한다는 것을 의미한다. 이러한 패칭 동작 이후에, 통상의 SBR 툴이 채용되어, 다시 역필터링을 구성하여, 잡음 플로어나 분실 고조파를 추가할 수 있다. 비록 고주파수 영역의 재건은 시간 도메인에서 발생하지만, 분석/합성은 QMF 도메인에서 수행되어 나머지 SBR 메커니즘이 여전히 사용될 수 있도록 한다.
도 6c의 실시예에서, 패치 생성기는 바람직하게는 저대역 신호와 고대역 신호(원시신호)를 포함하는 풀밴드 신호를 출력한다. 대안으로는, 패치 생성기는 오직 고역통과 필터링에서 획득된 고대역 부분만을 출력하고, QMF 뱅크(120)에는 직접 AAC 코어 디코더 출력(105)이 공급된다.
또 다른 실시예에서, 패치 생성기(110)는 시간 도메인 입력 인터페이스 및/또는 시간 도메인 출력 인터페이스(시간-도메인 인터페이스)를 포함하고, 또한 이 블록내의 처리는 QMF 도메인, 또는 DFT, FFT, DCT, DST와 같은 주파수 도메인, 또는 그 밖의 어떤 주파수 도메인 같은 어떤 도메인에서도 발생할 수 있다. 이때, 시간 도메인 입력 인터페이스는 시간/주파수 컨버터 또는 일반적으로 시간 도메인에서 분광 표현으로 변환하는 컨버터로 연결된다. 분광 표현은, 이때, 주파수 도메인 데이터에서 동작하는 적어도 두개의 다른 패칭 알고리즘을 사용하여 처리된다. 대안으로, 제1 패칭 알고리즘은 주파수 도메인에서 동작하고 제2 패칭 알고리즘은 시간 도메인에서 동작한다. 패칭된 주파수 도메인 데이터는 시간 도메인 표현으로 재변환되며, 이는 시간 도메인 출력 인터페이스를 경유하여 블록 120으로 입력된다. 본 실시예에서, 라인 115상의 신호는 풀밴드를 구성하지 않고, 오직 저 대역만을 구성하는데, 이때 필터링은 분광신호가 시간 도메인으로 재변환되기 전에 분광 도메인에서 수행되는 것이 바람직하다.
바람직하게는, 블록 110의 분광 해상도는 블록 120에서 획득한 분광 해상도보다 높다. 일 실시예에서, 블록 110의 분광 해상도는 블록 120에서보다 적어도 두배 높다.
패칭 알고리즘을 본 실시예에서 구현되는 별도의 함수 블록내에 고립시킴으로써, SBR 툴의 사용과는 완전히 독립된 임의의 분광 복제 방법을 적용할 수 있다. 다른 구현에서, AAC 디코더 신호를 32-대역 분석 필터 뱅크로 입력함과 동시에 시간 도메인에서 패칭함으로써 고주파수 컴포넌트를 생성하는 것이 가능하다. 베이스밴드와 패칭된 신호들은 QMF 분석 이후에만 결합될 것이다.
도 6d는, 패칭이 시간 도메인내에서 수행되는 실시예를 보여준다. 도 6c의 실시예와 유사하게, 본 실시예와 도 6a의 실시예와의 차이점은 분석 필터 뱅크뿐만아니라 패치 생성기(110)의 위치를 포함한다. 특히, AAC 코어 디코더(360), 비트스트림 파서(380)는 물론 비트 스트림 페이로드 디포맷터(350), 그리고 허프만 디코딩 및 역양자화 유닛(390)은 도 6a에 도시된 실시예에서와 동일하므로 반복되는 설명은 생략한다.
도 6d의 실시예는 디코더(360)에서 출력된 오디오 신호(105)를 분기하여 상기 오디오 신호(105)를 분석 32대역 QMF 뱅크(370)는 물론 패치 생성기(110)로 입력하는 것을 보여준다. 분석 32대역 QMF 뱅크(370)(또 다른 컨버터 (370))는 또 다른 원시 분광신호(123)를 생성한다. 상기 패치 생성기(110)는 다시 시간 도메인내에 패칭을 수행하여 분광 컨버터(120)로 입력되는 원시신호(115)를 생성하며, 상기 분광 컨버터(120)는 다시 64 대역의 분석 QMF 필터 뱅크를 구성한다. 분광 컨버터(120)는 원시신호 분광 표현(125)을 생성하는데, 본 실시예에서, 이는 제1 주파수 대역(201)과 제2 또는 제3 주파수 대역(202, 203)내의 복제된 주파수의 주파수 컴포넌트들을 포함한다. 본 실시예는 가산기(124)를 더 포함하며, 이는 분석 32 대역 필터 뱅크(370)의 출력과 원시신호 분광 표현(125)을 가산하여 결합된 원시신호 분광 표현(126)을 획득하도록 조정된다. 상기 가산기(124)는 일반적으로 베이스밴드 컴포넌트들(제1주파수 대역(201)내의 컴포넌트)을 원시신호 분광 표현(125)에서 차감하도록 구성된 결합기(124)일 수 있다. 따라서 가산기(124)는 뒤집힌 신호를 가산하도록 구성될 수 있고 또는 대안으로 분석 32대역 필터 뱅크(370)의 출력신호를 뒤집는 선택적 인버터를 포함할 수 있다.
베이스 주파수 대역(201)의 주파수 컴포넌트의 예시적 차감후에, 상기 출력은 다시 분광대역 복제 툴(130a)로 입력되어, 상기 결과신호는 인벨로프 조정기(130b)로 전달된다. 상기 인벨로프 조정기(130b)는 다시 조정된 원시 신호(135)를 생성하고, 이는 결합기(140)에서 분석 32대역 필터 뱅크(370)의 출력과 결합함으로써, 상기 결합기(140)는 패칭된 주파수 컴포넌트들(제2 및 제3 주파수 대역(202,203), 예를들면)을 상기 분석 32대역 필터 뱅크(370)에서 출력된 베이스밴드 컴포넌트들과 결합한다. 다시, 상기 결합기(140)는, 예를 들면, 출력 PCM 샘플들을 포함하는 합성 오디오 신호를 생성하는 64대역 합성 QMF 필터뱅크를 구성한다.
도 6d의 실시예는 바람직하게는 패치 생성기가 저대역 신호와 고대역 신호(원시신호)를 포함하는 풀대역 신호를 출력한다. 대안으로는, 패치 생성기는 고대역 부분만(예를 들면 블록 120으로 공급되는 고역 통과 필터링에서 획득한)을 출력하고, QMF 뱅크(370)는 도 6d에 도시된 것처럼 AAC 출력으로부터 직접 공급받는다. 또한, 감산기(124)는 필수적이지 않고 블록 120의 출력은 블록 130a로 직접 제공되는데, 이는, 이러한 신호가 오직 고대역만을 포함하기 때문이다. 또한, 블록 370은 감산기(124)로 보낼 출력을 필요로 하지 않는다.
또 다른 실시예에서, 패치 생성기(110)는 시간 도메인 입력 인터페이스 및/또는 시간 도메인 출력 인터페이스(시간-도메인 인터페이스)를 포함하고, 그리고 이 블록내의 처리는 QMF 도메인, 또는 DFT, FFT, DCT, MDCT, DST와 같은 주파수 도메인 또는 그 밖의 다른 주파수 도메인같은 어떤 도메인에서도 발생할 수 있다. 이때, 시간 도메인 입력 인터페이스는 시간/주파수 컨버터 또는 일반적으로 시간 도메인에서 분광 표현으로 변환하는 컨버터로 연결된다. 분광 표현은, 이때, 주파수 도메인 데이터에서 동작하는 적어도 두개의 다른 패칭 알고리즘을 사용하여 처리된다. 대안으로는, 제1 패칭 알고리즘은 주파수 도메인에서 동작하고 제2 패칭 알고리즘은 시간 도메인에서 동작한다. 패칭된 주파수 도메인 데이터는 시간 도메인 표현으로 재변환되며, 이는 시간 도메인 출력 인터페이스를 경유하여 블록 120으로 입력된다.
바람직하게, 블록 110에서 분광 해상도는 블록 120에서 획득한 분광 해상도보다 높다. 일 실시예에서, 블록 110의 분광 해상도는 블록 120에서보다 적어도 두배 높다.
도 6a-6d는 디코더 구조와 특히 패치 생성기(110)의 상기 디코더 구조의 통합을 보여준다. 디코더와 특히 패치 생성기(110)가 더 높은 주파수 컴포넌트를 생성하거나 복제하도록 하기 위하여, 인코더는 추가적인 정보를 상기 디코더로 전송할 수 있고, 이때 상기 추가적인 정보(112)에는, 한편에는 제어정보를 포함하는데, 이는 예를 들면 패칭 알고리즘을 결정하도록 사용될 수 있으며, 또한 추가적으로 분광대역 복제 툴들(130a)에서 사용되는 분광대역 복제 파라미터(132)가 포함될 수 있다.
또 다른 실시예는 또한 제1주파수 대역과 상기 제1 주파수 대역에서 도출된 제2 복제된 주파수 대역(202)을 갖는 합성 오디오 신호(145)를 생성하는 방법을 포함한다. 상기 방법은 적어도 두개의 다른 패칭 알고리즘을 수행하는 단계, 원시신호(115)를 원시신호 분광 표현(125)으로 변환하는 단계 및 원시신호 분광 표현(125)을 처리하는 단계를 포함한다. 각 패칭 알고리즘은 상기 제1 주파수 대역(201)의 신호 컴포넌트들을 갖는 오디오 신호(105)를 사용하여 상기 제2 복제된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성한다. 상기 패칭은 적어도 두개의 다른 패칭 알고리즘들 중의 하나가 제1 시간 부분에 대한 제어정보(112)에 응답하여 선택되고 또한 상기 적어도 두개의 다른 패칭 알고리즘들 중의 나머지 하나가 상기 제1 시간 부분과 다른 제2 시간 부분에 대한 제어정보(112)에 응답하여 선택됨으로써 상기 제1 및 제2 시간부분에 대한 원시신호를 획득하도록 수행된다. 상기 원시신호 분광 표현(125)의 처리는 조정된 원시신호 분광 표현(135)을 획득하기 위하여 분광 도메인 분광 대역 복제 파라미터들(132)에 응답하여 수행된다. 마지막으로, 상기 방법은 상기 합성 오디오 신호(145)를 획득하기 위하여 상기 제1 대역(201)에 신호 컴포넌트들을 갖는 상기 오디오 신호(105) 또는 상기 오디오 신호(105)로부터 도출된 하나의 신호를 상기 조정된 원시신호 분광 표현(135) 또는 상기 조정된 원시신호 분광 표현(135)으로부터 도출된 또 다른 신호와 결합하는 단계를 단계를 포함한다.
도 7a, 7b 및 7c는 인코더의 실시예들을 포함한다.
도 7a는 도 6a-6d에 도시된 디코더로 입력되는 코드화된 오디오 신호(345)를 생성하기 위하여 오디오 신호(305)를 인코딩하는 인코더를 보여준다. 도 7a에 도시된 인코더는 저역통과 필터(310)(또는 일반적인 주파수 선택형 필터)와 고역통과 필터(320)를 포함하며, 여기로 오디오 신호(305)가 입력된다. 저역통과 필터(310)는 제1주파수 대역(201)의 상기 오디오 신호 컴포넌트를 분리하는 한편, 고역통과 필터(320)는 나머지 주파수 컴포넌트들, 예를 들면, 제2주파수 대역(202)과 추가적인 주파수 대역들의 주파수 컴포넌트들을 분리한다. 따라서, 저역통과 필터(310)는 저역통과 필터링된 신호(315)를 생성하고 고역통과 필터(320)는 고역통과 필터링된 오디오 신호(325)를 출력한다. 상기 저역통과 필터링된 오디오 신호(315)는 오디오 인코더(330)로 입력되어, 이는, 예를 들면, AAC 인코더를 구성한다.
또한, 저역통과 필터링된 오디오 신호(315)는 제어정보 생성기(340)로 입력되며, 상기 제어정보 생성기(340)는 바람직한 패칭 알고리즘이 판별되도록 제어정보(112)를 생성하도록 조정되고, 이에 따라 바람직한 패치 생성기가 선택된다. 고역통과 필터링된 오디오 신호(325)는 분광대역 데이터 생성기(328)로 입력되어 분광대역 파라미터(132)를 생성하고, 이는 한편으로 패치 선택기로 입력된다. 도 7a의 인코더는 무엇보다 포맷터(343)를 포함하는데, 상기 포맷터는 오디오 인코더(330)로부터 인코딩된 오디오 신호, 분광대역 복제 데이터 생성기(328)로부터 분광대역 복제 파라미터(132), 그리고 제어정보 생성기(340)으로부터 제어정보(112)를 수신한다.
분광대역 파라미터들(132)은 패칭 방법에 종속될 것이며, 즉, 다른 패칭 알고리즘들에 대하여 분광대역 파라미터들이 다를 수도 있고 다르지 않을 수도 있으며, 모든 패칭 알고리즘들에 대한 SBR 파라미터(132)를 결정할 필요는 없을 것이다(도 7c의 하단의 실시예를 참조하면, 오직 한 세트의 SBR 파라미터(132)만이 계산되어야 한다). 따라서, 분광대역 생성기(328)는 다른 패칭 알고리즘들에 대해서 다른 분광대역 파라미터들(132)을 생성할 수 있고, 이로써, 분광대역 파라미터(132)는 제1 패칭 알고리즘에 따라 조정된 제1 SBR 파라미터들(132a), 제2 패칭 알고리즘에 따라 조정된 제2 SBR 파라미터들(132b), 제3 패칭 알고리즘에 따라 조정된 제3 SBR 파라미터들(132c) 등을 포함할 수 있다.
도 7b는 제어정보 생성기(340)의 실시예를 좀 더 상세하게 보여준다. 제어정보 생성기(340)는 저역통과 필터링된 신호(315)와 SBR 파라미터(132)를 수신한다. 상기 저역통과 필터링된 신호(315)는 제1 패칭 유닛(342a), 제2 패칭 유닛(342b), 그 밖의 다른 유닛(미 도시)으로 입력될 수 있다. 패칭 유닛(342)의 수는, 예를 들면, 패칭 알고리즘의 수와 동일하고, 상기 알고리즘은 디코더내의 패치 생성기(110)에서 수행될 것이다. 패칭 유닛(342)의 출력은 제1 패칭 유닛(342a)에 대한 제1 패칭된 오디오 신호(344a), 제2 패칭 유닛(342b)에 대한 제2 패칭된 오디오 신호(344b) 등을 포함한다. 제2 주파수 대역(202)의 원시 컴포넌트를 포함하는 패칭된 오디오 신호들(344)은 분광대역 복제툴 블록(346)으로 입력된다. 다시, 분광대역 복제툴 불록(346)의 수는, 예를 들면, 패칭 알고리즘의 수 또는 패칭유닛(342)의 수와 동일할 수 있다. 상기 분광대역 복제 파라미터들(132)은 또한 분광대역 복제툴 블록(346)(SBR 툴 블록)으로 입력되어 상기 제1 SBR툴 블록(346a)은 제1 SBR 파라미터들(132a)과 제1 패칭된 신호(344a)를 수신하게 된다. 상기 제2 SBR툴 블록(346b)은 제2 SBR 파라미터들(132b)과 제2 패칭된 신호(344b)를 수신한다. 상기 분광대역 복제툴 블록(346)은 복제된 파라미터들(132)에 기초하여 제2 및/또는 제3 주파수 대역(202,203)에 더높은 주파수 컴포넌트를 포함하는 복제된 오디오 신호(347)를 생성한다.
마침내, 제어정보 생성기(340)는 본래의 오디오 신호(305)와 특히 상기 오디오 신호(305)의 더 높은 주파수 컴포넌트를 복제된 오디오 신호(347)와 비교하도록 조정된 비교 유닛을 포함한다. 다시, 상기 비교 유닛은 각 패칭 알고리즘에 대해 수행되어 제1 비교 유닛(348a)은 오디오 신호(305)를 제1 SBR 툴 블록(346a)에서 출력된 제1 복제된 오디오 신호(347a)와 비교한다.
유사하게, 제2 비교유닛(348b)은 제2 SBR 툴 블록(346b)에서 출력된 제2 복제된 오디오 신호(347b)와 상기 오디오 신호(305)를 비교한다. 상기 비교유닛(348)은 본래의 오디오 신호(305)에서 온 고주파수 대역들의 복제된 오디오 신호(347)의 편차를 결정함으로써, 평가 유닛(349)이 다른 패칭 알고리즘을 사용하여 상기 본래의 오디오 신호(305)간의 편차를 상기 복제된 오디오 신호들(347)과 비교하고, 이를 통해 바람직한 패칭 알고리즘 또는 다수의 적합하거나 적합하지 않은 패칭 알고리즘을 결정할 수 있게 한다. 제어정보(112)는 바람직한 패칭 알고리즘의 하나를 판별하도록 허용하는 정보를 포함한다. 제어정보(112)는, 예를 들면, 선호된 패칭 알고리즘에 대한 식별번호를 포함하는데, 이는 본래의 오디오 신호(305)와 복제된 오디오 신호(347)간의 최소의 편차에 기초하여 결정될 것이다. 대안으로, 제어정보(112)는 많은 패칭 알고리즘들 또는 패칭 알고리즘의 순위를 제공하고, 이는 오디오 신호(305)와 패칭된 오디오 신호(347)간의 충분한 조화를 만들어 낸다. 평가는, 예를 들면, 복제된 오디오 신호(347)가 인간이 분별하기 어려운 이상적인 상태 또는 본래의 오디오 신호(305)로부터 분간하기 어려울 정도로 밀접하게 될 수 있도록 지각적 품질과 관련하여 수행된다.
도 7c는 인코더에 대한 또 다른 실시예를 보여주는데, 여기서, 다시, 오디오 신호(305)가 입력되지만, 선택적으로 메타 데이터(306)도 인코더로 입력된다. 본래의 오디오 신호(305)는 다시 고역통과 필터(320)는 물론 저역 통과필터(310)로 입력된다. 저역 통과 필터(310)의 출력은, 다시, 오디오 인코더(330)로 입력되고 고역 통과 필터(320)의 출력은 SBR 데이터 생성기(328)로 입력된다. 인코더는 메타 데이터 처리 유닛(309) 및/또는 분석 유닛(307)(또는 분석 수단)을 포함하고, 이들의 출력이 제어정보 생성기(340)로 보내진다. 메타 데이터 처리 유닛(309)은 메타 데이터(306)를 적절한 패칭 알고리즘에 대하여 분석하도록 구성된다. 분석 유닛(307)은, 예를 들면, 오디오 신호(305)의 과도현상 또는 펄스 트레인 또는 비-펄스 트레인 세그먼트의 수와 강도를 결정할 수 있다. 메타 데이터 처리 유닛(309)의 출력 및/또는 분석툴(307)의 출력에 기초하여, 제어정보 생성기(340)는, 다시, 바람직한 패칭 알고리즘을 결정하거나 패칭 알고리즘의 순위를 생성하고 이러한 정보를 제어정보(112)에 인코딩할 수 있다. 포맷터(343)는 다시 제어정보(112), 분광대역 복제 파라미터(132)와 인코딩된 오디오 신호(355)를 코드화된 오디오 스트림(345)에 결합할 것이다.
분석 수단(307)은, 오디오 신호의 특성을 제공하고, 보이스 등급(degree of voice)을 갖는 시간 부분에 대한 비고조파 신호 컴포넌트들 또는 현저한 시간 부분에 대한 고조파 신호 컴포넌트를 판별하도록 조정된다. 만일 오디오 신호(305)가 순수하게 스피치 또는 보이스라면, 보이스 등급이 높고, 반면, 보이스와, 예를 들어, 음악의 혼합이라면 보이스 등급은 낮다. SBR 파라미터(132)의 계산은 이러한 특성과 바람직한 패칭 알고리즘에 따라 수행된다.
또 다른 실시예는 데이터 스트림(345)에 대한 방법을 포함하는데, 데이터 스트림(345)은 오디오 신호(305)로부터 제1 주파수 대역(201)에 상기 오디오 신호(305)의 컴포넌트, 제어정보(112) 및 분광대역 복제 파라미터들(132)을 포함한다. 상기 방법은, 상기 제1 주파수 대역(201)에 상기 오디오 신호(305)의 컴포넌트를 생성하도록 오디오 신호(305)를 필터링하는 주파수 선택형 필터링 단계를 포함한다. 상기 방법은 제2 주파수 대역(202)에 상기 오디오 신호(305)의 컴포넌트들로부터 상기 분광대역 복제 파라미터(132)를 생성하는 단계를 포함한다. 마지막으로, 상기 방법은 제1 또는 제2 다른 패칭 알고리즘으로부터 바람직한 패칭 알고리즘을 판별하는 제어정보(112)를 생성하는 단계를 포함하는데, 여기서 상기 각각의 패칭 알고리즘은 상기 제1 주파수 대역(201)의 오디오 신호(305)의 컴포넌트들을 이용하여 상기 제2 복제된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성한다.
비록 도 6a-6d에 도시된 몇몇 실시예들이 저대역과 조정된 고대역의 결합이 주파수 도메인에서 수행됨을 보여주지만, 이러한 결합은 또한 시간 도메인에서도 수행될 수 있다는 사실에 주목해야 한다. 끝으로, 코어 디코더 출력 신호가 시간 도메인에서 사용(패칭과 조정으로 발생한 처리 지연을 보상하기 위하여 잠재적으로 필요한 지연 스테이지의 출력에서)될 수 있고 필터뱅크 도메인에서 조정된 고대역이 저대역 부분을 갖지 않고 고대역 부분을 갖는 신호로서 시간 도메인으로 변환될 수 있다. 도 6의 실시예에서, 이러한 신호는 오직 가장 높은 32 서브밴드를 포함하고, 이러한 신호의 시간도메인으로의 변환은 시간 도메인에 고대역 신호를 발생시킨다. 이때, 두 신호들은 한 샘플씩 추가하면서 시간 도메인에서 결합되어, 출력 신호로 PCM 샘플들을 획득하고, 이는 디지털에서 아날로그로 변환되고 스피커에 제공된다.
비록 어떤 측면은 장치의 맥락에서 표현되었지만, 이러한 측면은 또한 대응하는 방법의 서술을 나타낸다는 것이 명백하며, 여기서 블록이나 장치는 방법에 따른 단계나 방법에 따른 단계의 특징에 대응한다. 유사하게, 방법에 따른 단계의 맥락에서 묘사된 측면은 대응하는 블록이나 아이템 또는 대응하는 장치의 특징의 서술을 나타낸다.
본 발명의 인코딩된 오디오 신호 또는 비트스트림은 디지털 저장 매체에 저장될 수 있고 또한 무선 전송 매체 또는 인터넷 같은 유선 전송 매체 같은 전송 매체상에 전송될 수 있다.
특정 구현 요구사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면 프로피 디스크, DVD, CD, 롬, P롬, EP-롬, EEP-롬, 또는 플래시 메모리를 사용하여 수행될 수 있고, 이들은 전자적으로 판독 가능한 제어 신호를 가지며, 이러한 신호는 관련된 방법이 수행되도록 프로그래머블 컴퓨터 시스템과 협업(또는 협업할 수 있는)한다.
본 발명에 대응하는 어떤 실시예는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함하고, 이러한 신호는 여기 기술된 방법 중의 하나가 수행되도록 프로그래머블 컴퓨터 시스템과 협업한다. 일반적으로 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 상기 프로그램 코드는 컴퓨터 제품이 컴퓨터에서 수행될 때 상기의 방법 중의 하나를 수행하도록 동작한다. 상기 프로그램 코드는 예를 들면 기계 판독가능한 매체에 저장된다. 어떤 실시예들은 여기 기술된 방법중의 하나를 수행하는 컴퓨터 프로그램을 포함하며, 이는 기계 판독가능한 매체에 저장된다. 즉, 발명에 따른 방법의 일실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터에서 수행될 때, 여기 기술된 방법 중의 하나를 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램이다. 본 발명의 또 다른 실시예는, 따라서, 여기 기술된 방법 중의 하나를 수행하는, 기록된, 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장매체, 또는 컴퓨터 판독가능한 매체)이다. 본 발명의 방법의 또 다른 실시예는, 그러므로, 여기 기술된 방법 중의 하나를 수행하는 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호의 순서이다. 상기 데이터 스트림 또는 신호의 순서는 데이터 통신 연결수단,예를 들면 인터넷,을 통하여 전송되도록 구성될 수 있다. 또 다른 실시예는 처리수단, 예를 들면 컴퓨터, 또는 프로그래머블 논리 장치를 포함하며, 이들은 여기 기술된 방법 중의 하나를 수행하도록 구성되거나 조정된다. 또 다른 실시예는 여기 기술된 방법 중의 하나를 수행하는 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다. 어떤 실시예들에서, 프로그래머블 논리장치(예를 들면 필드 프로그래머블 게이트 어레이)가 여기 기술된 방법의 몇개 또는 모든 기능을 수행하도록 사용될 것이다. 일반적으로, 위 방법들은 어떤 하드웨어 장치에서도 바람직하게 수행된다.
상기 설명된 실시예들은 단지 본 발명의 사상에 대한 예시에 불과하다. 여기서 설명되는 방식과 세부내용의 수정과 다양한 변경은 해당 분야의 숙련된 당업자에게 명백하다. 따라서, 본 발명은 아래의 특허 청구항들의 범위에 의해서만 제한될뿐, 상기 실시예들의 기술이나 설명하는 방식에서 표현되는 세부사항에 의해서 제한받지 않는다.

Claims (15)

  1. 제1 주파수 대역과 상기 제1 주파수 대역(201)으로부터 도출된 제2 합성된 주파수 대역(202)을 갖는 합성 오디오 신호(145)를 생성하는 오디오 신호 합성기로,
    적어도 두 개의 다른 패칭 알고리즘을 수행하는 패치 생성기(110)로, 각 패칭 알고리즘은 상기 제1 주파수 대역(201)에 신호 컴포넌트들을 갖는 오디오 신호(105)를 사용하여 상기 제2 합성된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성하고, 상기 패치 생성기(110)는 제1 시간 부분에 대한 제어정보(112)에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 하나를 선택하고 상기 제1 시간 부분과는 다른 제2 시간 부분에 대한 제어정보(112)에 응답하여 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 다른 하나를 선택하여 상기 제1 및 제2 시간 부분에 대한 원시신호(115)를 획득하도록 조정된, 패치 생성기;
    상기 원시신호(115)를 원시신호 분광 표현(125)으로 변환하기 위한 분광 컨버터(120);
    조정된 원시신호 분광 표현(135)을 획득하기 위하여 분광 도메인 분광대역 복제 파라미터들(132)에 응답하여 상기 원시신호 분광 표현(125)을 처리하기 위한 원시신호 처리기(130); 및
    상기 합성 오디오 신호(145)를 획득하기 위하여 상기 제1 대역(201)에 신호 컴포넌트들을 갖는 상기 오디오 신호(105) 또는 상기 오디오 신호(105)로부터 도출된 신호를 상기 조정된 원시신호 분광 표현(135) 또는 상기 조정된 원시신호 분광 표현(135)으로부터 도출된 또 다른 신호와 결합하기 위한 결합기(140)를 포함하는 오디오 신호 합성기.
  2. 제 1항에 있어서,
    상기 적어도 두 개의 패칭 알고리즘들은 서로 다르고, 상기 제1 주파수 대역(201)의 주파수에서 상기 오디오 신호(105)의 신호 컴포넌트는 상기 제2 주파수 대역(202)의 대상(target) 주파수로 패칭되고, 상기 대상 주파수는 두 패칭 알고리즘 모두에 대해 다른, 오디오 신호 합성기.
  3. 제 1항 또는 2항에 있어서,
    상기 패치 생성기(110)가 두 패칭 알고리즘 모두에 대해 상기 시간 도메인내에서 동작하도록 조정되거나, 또는 상기 패치 생성기가 시간-도메인 신호를 분광 표현으로 변환하기 위한 컨버터를 포함하고, 상기 컨버터는 상기 분광 표현내의 신호를 상기 시간 도메인과 시간-도메인 출력 인터페이스로 변환하기 위한 것으로, 여기서 패치 생성기(110)는 적어도 하나의 패칭 알고리즘에 대해 분광 도메인에서 동작하도록 조정된, 오디오 신호 합성기.
  4. 앞의 청구항들 중 어느 한 항에 있어서,
    상기 패치 생성기(110)는 상기 원시신호(115)를 생성하도록 조정되고, 상기 원시신호(115)는 샘플링율을 갖는 상기 제1 주파수 대역(201)내에 신호 컴포넌트들을 더 포함하고, 상기 샘플링율은 상기 패치 생성기(110)로 입력되는 상기 오디오 신호(105)의 샘플링율 보다 더 크고, 상기 분광 컨버터는 상기 제2 주파수 대역(202)내의 신호 컴포넌트들과 상기 제1 주파수 대역(201) 내의 또 다른 신호 컴포넌트들을 상기 원시신호 분광 표현(125)으로 변환하도록 조정되는, 오디오 신호 합성기.
  5. 제 4항에 있어서, 또 하나의 분광 컨버터(370)와 또 하나의 결합기(124)를 더 포함하고, 상기 또 하나의 분광 컨버터(370)는 상기 제1 주파수 대역(201)에 신호 컴포넌트를 갖는 오디오 신호(105)를 또 하나의 원시신호 분광 표현(123)으로 변환하도록 조정되고, 상기 또 하나의 결합기(124)는 상기 원시신호 분광 표현(125)과 상기 또 하나의 원시신호 분광 표현(123)을 결합하여 결합된 원시신호 분광 표현(126)을 획득하도록 조정되고, 상기 원시신호 처리기(130)는 상기 결합된 원시신호 분광 표현(126)을 처리하도록 조정되는, 오디오 신호 합성기.
  6. 앞의 청구항들 중 어느 한 항에 있어서,
    상기 결합기(140)는 상기 오디오 신호(105)로부터 도출된 신호로서 상기 또하나의 원시신호 분광 표현(123)을 사용하도록 조정되는, 오디오 신호 합성기.
  7. 앞의 청구항들 중 어느 한 항에 있어서,
    상기 오디오 신호(105)와 상기 제어정보(112)는 데이터 스트림내에 인코딩되고, 상기 오디오 신호 합성기는 디포맷터를 더 포함하고, 상기 디포맷터는 상기 제어정보(112)를 상기 데이터 스트림으로부터 획득하도록 구성되는, 오디오 신호 합성기.
  8. 앞의 청구항들 중 어느 한 항에 있어서,
    상기 오디오 신호와 상기 분광대역 복제 파라미터(132)는 데이터 스트림내에 인코딩되고, 상기 원시신호 처리기(130)는 상기 분광대역 복제 파라미터(132)를 상기 데이터 스트림으로부터 획득하도록 조정되는, 오디오 신호 합성기.
  9. 오디오 신호(305)로부터 제1 주파수 대역(201)의 상기 오디오 신호(305)의 컴포넌트들, 제어정보(112) 및 분광대역 복제 파라미터들(132)을 포함하는 데이터 스트림(345)을 생성하는 오디오 신호 인코더로,
    상기 제1 주파수 대역(201)내에 상기 오디오 신호(305)의 컴포넌트를 생성하는 주파수 선택형 필터(310);
    제2 주파수 대역(202)내에 상기 오디오 신호(305)의 컴포넌트들로부터 상기 분광대역 복제 파라미터(132)를 생성하는 생성기; 및
    상기 제어정보(112)를 생성하는 제어정보 생성기(340)로, 상기 제어정보(112)는 제1 또는 제2 다른 패칭 알고리즘에서 바람직한 패칭 알고리즘을 판별하고, 상기 각각의 패칭 알고리즘으로부터 상기 제1 주파수 대역(201)의 상기 오디오 신호(305)의 컴포넌트들을 이용하여 상기 제2 복제된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성하는 것인, 제어정보 생성기를 포함하는 오디오 신호 인코더.
  10. 제 9항에 있어서,
    상기 오디오 신호의 특성을 제공하기 위한 오디오 신호(305) 분석 수단(307)을 더 포함하고, 상기 분석 수단(307)은 보이스 등급을 갖는 시간 부분에 대한 비고조파 신호 컴포넌트들 또는 현저한 시간 부분에 대한 고조파 신호 컴포넌트를 판별하도록 조정되는, 오디오 신호 인코더.
  11. 제 9항 또는 제 10항에 있어서,
    상기 제어정보 생성기(340)는 상기 오디오 신호(305)를 상기 제1 및 제2 패칭 알고리즘에 대하여 패칭된 오디오 신호들(347)과 비교함으로써, 상기 바람직한 패칭 알고리즘을 판별하도록 조정되고, 다르게 패칭된 오디오 신호들(347)은 분광대역 복제 파라미터들(132)에 응답하여 분광대역 복제툴(346)로 원시신호를 조정하도록 적용함으로써 상기 제1 및 제2 패칭 알고리즘들과 관련된 다른 원시신호들(344)로부터 도출되는, 오디오 신호 인코더.
  12. 전송라인 상의 전송 또는 저장을 위한 데이터 스트림으로,
    상기 제1 주파수 대역(201)내의 인코딩된 오디오 신호(105);
    제어정보(112)로서, 상기 제어정보는 제1 또는 제2 다른 패칭 알고리즘으로부터 패칭 알고리즘을 판별하고, 각 패칭 알고리즘은 상기 제1 주파수 대역(201)의 상기 인코딩된 오디오 신호(305)의 컴포넌트를 사용하여 제2 복제된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성하는, 제어정보(112); 및
    분광대역 복제 파라미터들(132)을 포함하는 데이터 스트림.
  13. 제1 주파수 대역 및 상기 제1 주파수 대역(201)으로부터 도출된 제2 복제된 주파수 대역(202)을 갖는 합성 오디오 신호(145)를 생성하는 방법으로,
    적어도 두 개의 다른 패칭 알고리즘들을 수행하는 단계로, 각 패칭 알고리즘은 상기 제1 주파수 대역(201)에 신호 컴포넌트들을 갖는 오디오 신호(105)를 사용하여 상기 제2 복제된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성하고, 상기 패칭은 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 하나가 제1 시간 부분에 대한 제어정보(112)에 응답하여 선택되고 또한 상기 적어도 두 개의 다른 패칭 알고리즘들 중의 나머지 하나가 상기 제1 시간 부분과는 다른 제2 시간 부분에 대한 제어정보(112)에 응답하여 선택되도록 수행됨으로써 상기 제1 및 제2 시간부분에 대한 원시신호를 획득하도록 하는 것인, 적어도 두 개의 다른 패칭 알고리즘을 수행하는 단계;
    상기 원시신호(115)를 원시신호 분광 표현(125)로 변환하는 단계;
    조정된 원시신호 분광 표현(135)을 획득하기 위하여 분광 도메인 분광 대역 복제 파라미터들(132)에 응답하여 상기 원시신호 분광 표현(125)을 처리하는 단계; 및
    상기 합성 오디오 신호(145)를 획득하기 위하여 상기 제1 대역(201)에 신호 컴포넌트들을 갖는 상기 오디오 신호(105) 또는 상기 오디오 신호(105)로부터 도출된 하나의 신호를 상기 조정된 원시신호 분광 표현(135) 또는 상기 조정된 원시신호 분광 표현(135)으로부터 도출된 또 다른 신호와 결합하는 단계를 포함하는 합성 오디오 신호(145)를 생성하는 방법.
  14. 제1 주파수 대역(201)의 오디오 신호(305)의 컴포넌트들, 제어정보(112) 및 분광대역 복제 파라미터들(132)를 포함하는 데이터 스트림(345)을 생성하는 방법으로,
    상기 제1 주파수 대역(201)에 오디오 신호(305)의 컴포넌트를 생성하기 위하여 상기 오디오 신호(305)를 주파수 선택적으로 필터링하는 단계;
    제2 주파수 대역(202)에 상기 오디오 신호(305)의 컴포넌트들로부터 상기 분광대역 복제 파라미터(132)를 생성하는 단계;
    제1 또는 제2 다른 패칭 알고리즘으로부터 바람직한 패칭 알고리즘을 판별하는 제어정보(112)를 생성하는 단계로, 각 패칭 알고리즘은 상기 제1 주파수 대역(201)의 오디오 신호(305)의 컴포넌트들을 사용하여 상기 제2 복제된 주파수 대역(202)에 신호 컴포넌트들을 갖는 원시신호(115)를 생성하는, 상기 제어정보(112)를 생성하는 단계를 포함하는 데이터 스트림(345)을 생성하는 방법.
  15. 프로세서상에서 수행될 때, 청구항 13 또는 14에 따른 방법을 수행하는 컴퓨터 프로그램.
KR1020117000298A 2008-07-11 2009-06-19 오디오 신호 합성기 및 오디오 신호 인코더 KR101223835B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7983908P 2008-07-11 2008-07-11
US61/079,839 2008-07-11
US10382008P 2008-10-08 2008-10-08
US61/103,820 2008-10-08
PCT/EP2009/004451 WO2010003539A1 (en) 2008-07-11 2009-06-19 Audio signal synthesizer and audio signal encoder

Publications (2)

Publication Number Publication Date
KR20110040817A true KR20110040817A (ko) 2011-04-20
KR101223835B1 KR101223835B1 (ko) 2013-01-17

Family

ID=41120013

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117000298A KR101223835B1 (ko) 2008-07-11 2009-06-19 오디오 신호 합성기 및 오디오 신호 인코더

Country Status (16)

Country Link
US (3) US8731948B2 (ko)
EP (1) EP2301026B1 (ko)
JP (1) JP5244971B2 (ko)
KR (1) KR101223835B1 (ko)
CN (1) CN102089816B (ko)
AR (1) AR072864A1 (ko)
AU (1) AU2009267525B2 (ko)
BR (1) BRPI0910792B1 (ko)
CA (1) CA2730198C (ko)
CO (1) CO6341675A2 (ko)
ES (1) ES2796552T3 (ko)
MX (1) MX2011000372A (ko)
RU (1) RU2491658C2 (ko)
TW (1) TWI441162B (ko)
WO (1) WO2010003539A1 (ko)
ZA (1) ZA201009208B (ko)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2730198C (en) 2008-07-11 2014-09-16 Frederik Nagel Audio signal synthesizer and audio signal encoder
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
EP4224474B1 (en) * 2008-12-15 2023-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
CN101566940B (zh) * 2009-05-25 2012-02-29 中兴通讯股份有限公司 实现无线数据终端通用串行总线音频传输的方法及装置
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5671823B2 (ja) * 2010-03-24 2015-02-18 株式会社Jvcケンウッド 高調波生成方法、高調波生成装置、及び、プログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
CN102971788B (zh) * 2010-04-13 2017-05-31 弗劳恩霍夫应用研究促进协会 音频信号的样本精确表示的方法及编码器和解码器
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
CN103403799B (zh) 2010-10-06 2015-09-16 弗兰霍菲尔运输应用研究公司 用于针对合成统一语音和音频编解码器(usac)处理音频信号和提供较高时间粒度的设备和方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9117440B2 (en) 2011-05-19 2015-08-25 Dolby International Ab Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal
WO2013024464A2 (en) * 2011-08-17 2013-02-21 Telefonaktiebolaget L M Ericsson (Publ) Mechanism for dynamic signaling of encoder capabilities
JP6155274B2 (ja) * 2011-11-11 2017-06-28 ドルビー・インターナショナル・アーベー 過剰サンプリングされたsbrを使ったアップサンプリング
US9380320B2 (en) * 2012-02-10 2016-06-28 Broadcom Corporation Frequency domain sample adaptive offset (SAO)
US9212946B2 (en) * 2012-06-08 2015-12-15 General Electric Company Campbell diagram displays and methods and systems for implementing same
KR101920029B1 (ko) 2012-08-03 2018-11-19 삼성전자주식회사 모바일 장치 및 제어방법
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
RU2676870C1 (ru) * 2013-01-29 2019-01-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
US9060223B2 (en) * 2013-03-07 2015-06-16 Aphex, Llc Method and circuitry for processing audio signals
KR20230020553A (ko) 2013-04-05 2023-02-10 돌비 인터네셔널 에이비 스테레오 오디오 인코더 및 디코더
CA2997882C (en) 2013-04-05 2020-06-30 Dolby International Ab Audio encoder and decoder
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830065A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
US20150350784A1 (en) * 2014-04-03 2015-12-03 Uma Satish Doshi Music adaptive speaker system and method
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
US9978388B2 (en) 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
DE112016000545B4 (de) 2015-01-30 2019-08-22 Knowles Electronics, Llc Kontextabhängiges schalten von mikrofonen
JP6576458B2 (ja) 2015-03-03 2019-09-18 ドルビー ラボラトリーズ ライセンシング コーポレイション 変調された脱相関による空間的オーディオ信号の向上
TWI693595B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
KR102474146B1 (ko) * 2018-04-25 2022-12-06 돌비 인터네셔널 에이비 후처리 지연을 저감시킨 고주파 재구성 기술의 통합
BR112020021832A2 (pt) 2018-04-25 2021-02-23 Dolby International Ab integração de técnicas de reconstrução de alta frequência
GB202203733D0 (en) * 2022-03-17 2022-05-04 Samsung Electronics Co Ltd Patched multi-condition training for robust speech recognition

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5898605A (en) 1997-07-17 1999-04-27 Smarandoiu; George Apparatus and method for simplified analog signal record and playback
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
CN1279512C (zh) * 2001-11-29 2006-10-11 编码技术股份公司 用于改善高频重建的方法和装置
JP3864098B2 (ja) 2002-02-08 2006-12-27 日本電信電話株式会社 動画像符号化方法、動画像復号方法、及びこれらの方法の実行プログラムとこれらの実行プログラムを記録した記録媒体
KR20050021484A (ko) * 2002-07-16 2005-03-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
DE60330198D1 (de) 2002-09-04 2009-12-31 Microsoft Corp Entropische Kodierung mittels Anpassung des Kodierungsmodus zwischen Niveau- und Lauflängenniveau-Modus
DE10252327A1 (de) 2002-11-11 2004-05-27 Siemens Ag Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals
US20040138876A1 (en) * 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP4241417B2 (ja) 2004-02-04 2009-03-18 日本ビクター株式会社 算術復号化装置、および算術復号化プログラム
DE602004010188T2 (de) 2004-03-12 2008-09-11 Nokia Corp. Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
ATE429011T1 (de) * 2005-01-31 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung eines schmalbandigen akustischen signals
JP4438663B2 (ja) 2005-03-28 2010-03-24 日本ビクター株式会社 算術符号化装置及び算術符号化方法
KR100713366B1 (ko) 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
JP4211780B2 (ja) 2005-12-27 2009-01-21 三菱電機株式会社 デジタル信号符号化装置、デジタル信号復号装置、デジタル信号算術符号化方法、およびデジタル信号算術復号方法
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
JP2007300455A (ja) 2006-05-01 2007-11-15 Victor Co Of Japan Ltd 算術符号化装置、および算術符号化装置におけるコンテキストテーブル初期化方法
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
JP2008098751A (ja) 2006-10-06 2008-04-24 Matsushita Electric Ind Co Ltd 算術符号化装置及び算術復号化装置
US7912729B2 (en) * 2007-02-23 2011-03-22 Qnx Software Systems Co. High-frequency bandwidth extension in the time domain
US8015368B2 (en) * 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
CA2730198C (en) 2008-07-11 2014-09-16 Frederik Nagel Audio signal synthesizer and audio signal encoder
BR122021007875B1 (pt) 2008-07-11 2022-02-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador de áudio e decodificador de áudio

Also Published As

Publication number Publication date
US20180350387A1 (en) 2018-12-06
AU2009267525B2 (en) 2012-12-20
EP2301026A1 (en) 2011-03-30
CN102089816B (zh) 2013-01-30
CA2730198C (en) 2014-09-16
CA2730198A1 (en) 2010-01-14
TW201009807A (en) 2010-03-01
MX2011000372A (es) 2011-05-19
CO6341675A2 (es) 2011-11-21
KR101223835B1 (ko) 2013-01-17
AR072864A1 (es) 2010-09-29
RU2491658C2 (ru) 2013-08-27
US10522168B2 (en) 2019-12-31
RU2011101616A (ru) 2012-07-27
WO2010003539A1 (en) 2010-01-14
US20140222434A1 (en) 2014-08-07
AU2009267525A1 (en) 2010-01-14
ZA201009208B (en) 2011-10-26
CN102089816A (zh) 2011-06-08
BRPI0910792B1 (pt) 2020-03-24
BRPI0910792A2 (pt) 2015-10-06
JP5244971B2 (ja) 2013-07-24
US20110173006A1 (en) 2011-07-14
ES2796552T3 (es) 2020-11-27
JP2011527447A (ja) 2011-10-27
US8731948B2 (en) 2014-05-20
US10014000B2 (en) 2018-07-03
TWI441162B (zh) 2014-06-11
EP2301026B1 (en) 2020-03-04

Similar Documents

Publication Publication Date Title
KR101223835B1 (ko) 오디오 신호 합성기 및 오디오 신호 인코더
JP7135132B2 (ja) 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
RU2501097C2 (ru) Устройство и способ формирования синтезированного аудиосигнала и кодирования аудиосигнала
JP5970014B2 (ja) オーディオエンコーダおよび帯域幅拡張デコーダ
JP5192053B2 (ja) オーディオ信号の帯域拡張のための装置及び方法
US8386268B2 (en) Apparatus and method for generating a synthesis audio signal using a patching control signal
TW201419269A (zh) 用以再現音訊信號之裝置及方法、用以產生編碼音訊信號之裝置及方法、電腦程式、與編碼音訊信號
AU2013207549B2 (en) Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP2019502948A (ja) 符号化されたオーディオ信号を処理するための装置および方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170106

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180104

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190103

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200107

Year of fee payment: 8