KR20110055515A - 스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법 - Google Patents

스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법 Download PDF

Info

Publication number
KR20110055515A
KR20110055515A KR1020117001103A KR20117001103A KR20110055515A KR 20110055515 A KR20110055515 A KR 20110055515A KR 1020117001103 A KR1020117001103 A KR 1020117001103A KR 20117001103 A KR20117001103 A KR 20117001103A KR 20110055515 A KR20110055515 A KR 20110055515A
Authority
KR
South Korea
Prior art keywords
domain
signal
audio signal
converter
input
Prior art date
Application number
KR1020117001103A
Other languages
English (en)
Other versions
KR101224884B1 (ko
Inventor
베른하르드 그릴
슈테판 바이어
구일라우머 푹스
슈테판 게이에스버거
랄프 가이거
요하네스 힐페르트
울리히 크라에머
제리미어 레콤터
마쿠스 물트루스
막스 노이엔돌프
하랄드 포프
니콜라우스 레텔바흐
로쉬 르페브르
부르노 베세테
지미 라피에
레드완 쌀라미
필립 구르나이
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40718647&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20110055515(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베., 보이세지 코포레이션 filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20110055515A publication Critical patent/KR20110055515A/ko
Application granted granted Critical
Publication of KR101224884B1 publication Critical patent/KR101224884B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

인코딩하는 장치는, 제 1 도메인 변환기(510), 스위치 가능한 바이패스(50), 제 2 도메인 변환기(410), 제 1 프로세서(420) 및 제 2 프로세서(520)를 포함하여, 서로 다른 코딩 알고리즘으로 코딩된 서로 다른 도메인 내의 코딩된 데이터로 표현되는 서로 다른 신호 부분을 가진 인코딩된 오디오 신호를 획득한다. 도메인 변환기를 바이패스하는 바이패스와 함께 디코더 내의 대응하는 디코딩 단계는 디코딩된 오디오 신호를 고 품질 및 저 비트 레이트로 생성시킨다.

Description

스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법{AUDIO ENCODING/DECODING SCHEME HAVING A SWITCHABLE BYPASS}
본 발명은 오디오 코딩에 관한 것으로써, 특히 저 비트 레이트(bit rate) 오디오 코딩 기법에 관한 것이다.
본 기술 분야에서, MP3 또는 AAC와 같은 주파수 도메인 코딩 기법은 공지되어 있다. 이들 주파수 도메인 인코더는, 시간 도메인/주파수 도메인 변환, 양자화 에러가 심리 음향(psychoacoustic) 모듈로부터의 정보를 이용하여 제어되는 연속 양자화 단계, 및 양자화된 스펙트럼 계수(spectral coefficient) 및 대응하는 보조(side) 정보가 코드 테이블을 이용하여 엔트로피 인코딩(entropy-encoding)되는 인코딩 단계에 기반으로 한다.
다른 한편으로는, 3GPP TS 26.290에 기술되어 있는 바와 같이 AMR-WB+와 같은 음성 처리에 매우 적합한 인코더가 존재한다. 이와 같은 음성 코딩 기법은 시간 도메인 신호의 선형 예측 필터링(Linear Predictive filtering)을 실행한다. 이와 같은 LP 필터링은 입력 시간 도메인 신호의 선형 예측 분석으로부터 유도된다. 생성된 LP 필터 계수는 이때 코딩되어, 보조 정보로서 송신된다. 이런 프로세스는 선형 예측 코딩((Linear Predictive Coding) (LPC)으로서 공지되어 있다. 필터의 출력에서, 또한 여기 신호(excitation signal)로서 공지되어 있는 예측 잔여 신호 또는 예측 에러 신호는 ACELP 인코더의 분석-합성 단계(analysis-by-synthesis stages)를 이용하여 인코딩되거나, 선택적으로, 오버랩(overlap)에 따른 푸리에 변환(Fourier transform)을 이용하는 변환 인코더를 이용하여 인코딩된다. ACELP 코딩과, 또한 TCX 코딩이라 하는 Transform Coded eXcitation 코딩 간의 결정은 폐루프 또는 개방 루프 알고리즘을 이용하여 행해진다.
AAC 코딩 기법과 스펙트럼 대역 복제 기술을 조합하는 고효율-AAC 인코딩 기법과 같은 주파수 도메인 오디오 코딩 기법은 또한 용어 "MPEG 서라운드"로서도 알려져 있는 조인트 스테레오 또는 멀티채널 코딩 툴(tool)과도 조합될 수 있다.
다른 한편으로는, AMR-WB+와 같은 음성 인코더는 또한 고주파 인핸스먼트(enhancement) 단계 및 스테레오 기능을 갖는다.
주파수 도메인 코딩 기법은, 음악 신호에 대해 저 비트 레이트에서 고 품질을 나타낸다는 점에서 유익하다. 그러나, 문제는 저 비트 레이트에서의 음성 신호의 품질이다.
음성 코딩 기법은 저 비트 레이트에서도 음성 신호에 대해 고품질을 나타내지만, 저 비트 레이트에서의 음악 신호에 대해서는 불량한 품질을 나타낸다.
본 발명의 목적은 개선된 인코딩/디코딩 개념을 제공하기 위한 것이다.
이 목적은 청구항 1에 따라 오디오 신호를 인코딩하는 장치, 청구항 12에 따라 오디오 신호를 인코딩하는 방법, 청구항 13에 따라 인코딩된 오디오 신호를 디코딩하는 장치, 청구항 21에 따라 인코딩된 오디오 신호를 디코딩하는 방법, 또는 청구항 22에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명에 따른 인코더에서는, 2개의 도메인 변환기가 이용되는데, 여기서, 제 1 도메인 변환기는 오디오 신호를, 시간 도메인과 같은 제 1 도메인에서 LPC 도메인과 같은 제 2 도메인으로 변환한다. 제 2 도메인 변환기는 입력 도메인에서 출력 도메인으로 변환하도록 동작하고, 제 2 도메인 변환기는, 입력으로서, 제 1 도메인 변환기의 출력 신호, 또는 제 1 도메인 변환기를 바이패스하도록 접속되는 스위치 가능한 바이패스의 출력 신호를 수신한다. 환언하면, 이것은, 제 2 도메인 변환기가, 입력으로서, 시간 도메인과 같은 제 1 도메인에서의 오디오 신호 또는, 선택적으로, 제 1 도메인 변환기의 출력 신호, 즉, 한 도메인에서 다른 도메인으로 이미 변환된 오디오 신호를 수신한다는 것을 의미한다. 제 2 도메인 변환기의 출력은 제 1 처리 신호를 생성하기 위해 제 1 프로세서에 의해 처리되고, 제 1 도메인 변환기의 출력은 제 2 처리 신호를 생성하기 위해 제 2 프로세서에 의해 처리된다. 바람직하게는, 스위치 가능한 바이패스는 부가적으로 또한 제 2 프로세서에 접속될 수 있음으로써, 제 2 프로세서로의 입력이 제 1 도메인 변환기의 출력이기보다는 오히려 시간 도메인 오디오 신호이다.
이런 상당히 유연한 코딩 개념은 특히, 적어도 3개의 서로 다른 도메인에서 오디오 신호를 인코딩하도록 하므로, 그리고 4개의 도메인에서도 스위치 가능한 바이패스가 또한 제 2 프로세서에 부가적으로 접속될 시에, 고 품질 및 고 비트 효율적인(bit-efficient) 오디오 코딩에 유용하다. 이것은, 시간 도메인 오디오 신호의 어떤 부분에 대한 제 1 도메인 변환기를 바이패스하거나 브리지(bridge)하기 위해 스위치 가능한 바이패스를 제어 가능하게 스위칭함으로써 달성될 수 있다. 제 1 도메인 변환기가 바이패스될지라도, 시간 도메인 오디오 신호를 인코딩하기 위한 2개의 서로 다른 가능성은, 즉 제 2 도메인 변환기 또는 제 2 프로세서에 접속되는 제 1 프로세서를 통해 여전히 남아 있다.
바람직하게는, 제 1 프로세서 및 제 2 도메인 변환기는 함께 MPEG 1 Layer 3 또는 MPEG 4 (AAC)로부터 공지되어 있는 바와 같이 심리 음향 구동 오디오 인코더와 같은 정보 싱크(information-sink) 모델 코더를 형성한다.
바람직하게는, 다른 인코더, 즉, 제 2 프로세서는, 예컨대, ACELP 인코더로부터 공지되어 있는 바와 같은 잔여 인코더인 시간 도메인 인코더이며, 여기서, LPC 잔여 신호는 LPC 잔여 신호 또는 시간 도메인 신호에 대한 벡터 양자화 코더와 같은 잔여 코더를 이용하여 인코딩된다. 한 실시예에서, 이런 시간 도메인 인코더는, 입력으로서, 바이패스가 개방될 시에 LPC 도메인 신호를 수신한다. 이와 같은 코더는 정보원 모델 인코더인데, 그 이유는, 정보 싱크 모델 코더와는 대조적으로, 정보원 모델 코더가 특히 음성 생성 모델의 특성을 활용하도록 설계되기 때문이다. 그러나, 바이패스가 폐쇄되면, 제 2 프로세서로의 입력 신호가 LPC 도메인 신호이기보다는 오히려 시간 도메인 신호일 것이다.
그러나, 스위치 가능한 바이패스가 비활성화되면, 이것이 제 1 도메인으로부터의 오디오 신호가 더 처리되기 전에 제 2 도메인으로 변환된다는 것을 의미하면, 2개의 서로 다른 가능성, 즉, 예컨대, LPC 도메인일 수 있는 제 2 도메인에서 제 1 도메인 변환기의 출력을 코딩하거나, 선택적으로, 예컨대, 스펙트럼 도메인일 수 있는 제 3 도메인으로 제 2 도메인 신호를 변환하는 것이 여전히 남아 있다.
이점으로, 스펙트럼 도메인 변환기, 즉, 제 2 도메인 변환기는, 제 2 도메인 변환기로의 입력 신호가 시간 도메인과 같은 제 1 도메인에 있는지 LPC 도메인과 같은 제 2 도메인에 있는지와 무관하게 동일한 알고리즘을 구현하도록 구성된다.
디코더측 상에서, 2개의 서로 다른 디코딩 브랜치가 존재하며, 여기서, 한 디코딩 브랜치는 도메인 변환기, 즉 제 2 도메인 변환기를 포함하지만, 다른 디코딩 브랜치는 역 프로세서만을 포함하고, 도메인 변환기를 포함하지 않는다. 인코더측 상에 설정한 실제 바이패스에 따라, 즉, 바이패스가 활동적이든 아니든 간에, 디코더에서의 제 1 변환기는 바이패스되거나 바이패스되지 않는다. 특히, 디코더에서의 제 1 변환기는 제 2 변환기의 출력이 이미 제 1 또는 시간 도메인과 같은 타겟 도메인 내에 있을 시에 바이패스된다. 그러나, 디코더에서의 제 2 변환기의 출력이 제 1 도메인과 다른 도메인 내에 있으면, 디코더 바이패스는 비활성화되고, 신호는 다른 도메인에서 타겟 도메인, 즉 바람직한 실시예에서는 제 1 도메인으로 변환된다. 제 2 처리된 신호는, 한 실시예에서, 동일한 도메인, 즉 제 2 도메인 내에 있지만, 다른 실시예에서는, 인코더측 상의 스위치 가능한 바이패스가 또한 제 2 프로세서에 접속 가능하고, 디코더측 상의 제 2 역 프로세서의 출력은 이미 또한 제 1 도메인 내에 있을 수 있다. 이 경우에, 제 1 변환기는 디코더측 상의 스위치 가능한 바이패스를 이용하여 바이패스됨으로써, 디코더 출력 조합기는 오디오 신호의 서로 다른 부분을 나타내고, 동일한 도메인 내에 있는 입력 신호를 수신한다. 이들 신호는 조합기에 의해 시간 다중화(time-multiplex)될 수 있거나 디코더 출력 조합기에 의해 크로스 페이드(cross-fade)될 수 있다.
바람직한 실시예에서, 인코딩하는 장치는 입력 신호를 압축하는 공통 예비 처리 단계를 포함한다. 이런 공통 예비 처리 단계는, 모든 서로 다른 코딩 모드에 대한 공통 예비 처리 단계의 출력이 공통 예비 처리 단계로의 입력에 대해 압축된 버전이도록 멀티채널 프로세서 및/또는 스펙트럼 대역폭 복제(replication) 프로세서를 포함할 수 있다. 이에 상응하여, 디코더측 조합기의 출력 신호는 공통 후처리(post-processing) 단계에 의해 후처리될 수 있으며, 이 공통 후처리 단계는, 예컨대, 스펙트럼 대역폭 복제 합성 및/또는 멀티채널 업믹스 동작과 같은 멀티채널 확장 동작을 실행하도록 동작하며, 멀티채널 확장 동작은 바람직하게는 인코더측에서 디코더측으로 송신되는 파라미트릭(parametric) 멀티채널 정보를 이용하여 가이드된다.
바람직한 실시예에서, 인코더로 입력되는 오디오 신호 및, 디코더에 의해 출력되는 오디오 신호가 위치되는 제 1 도메인은 시간 도메인이다. 바람직한 실시예에서, 제 1 도메인 변환기의 출력이 위치되는 제 2 도메인은 제 1 도메인 변환기가 LPC 분석 단계이도록 LPC 도메인이다. 다른 실시예에서, 제 2 도메인 변환기의 출력이 위치되는 제 3 도메인은 스펙트럼 도메인이거나, 제 1 도메인 변환기에 의해 생성되는 LPC 도메인 신호의 스펙트럼 도메인이다. 제 2 도메인 변환기에 접속되는 제 1 프로세서는, 바람직하게는, 입력 신호가 스펙트럼 도메인 내에 있는지 LPC 스펙트럼 도메인 내에 있는지와 무관하게 동일한 기능을 실행하는 허프만(Huffman) 인코더 또는 산술 인코더에 접속되는 심리 음향 구동 양자화기와 같은 엔트로피 감소 코드와 함께 양자화기/스케일러(scaler)와 같은 정보 싱크 코더로서 구현된다.
다른 바람직한 실시예에서, 제 1 도메인 변환기의 출력을 처리하거나, 모든 기능(full functionality) 장치에서 스위치 가능한 바이패스의 출력을 처리하는 제 2 프로세서는 ACELP 인코더 또는 어떤 다른 CELP 인코더에 이용되는 잔여 신호 인코더와 같은 시간 도메인 인코더이다.
이하, 본 발명의 바람직한 실시예는 첨부한 도면에 대해 기술된다.
도 1a는 본 발명의 제 1 양태에 따른 인코딩 기법의 블록도이다.
도 1b는 본 발명의 제 1 양태에 따른 디코딩 기법의 블록도이다.
도 1c는 본 발명의 다른 양태에 따른 인코딩 기법의 블록도이다.
도 1d는 본 발명의 다른 양태에 따른 디코딩 기법의 블록도이다.
도 2a는 본 발명의 제 2 양태에 따른 인코딩 기법의 블록도이다.
도 2b는 본 발명의 제 2 양태에 따른 디코딩 기법의 개략도이다.
도 2c는 도 2a의 바람직한 공통 예비 처리의 블록도이다.
도 2d는 도 2b의 바람직한 공통 후처리의 블록도이다.
도 3a는 본 발명의 다른 양태에 따른 인코딩 기법의 블록도를 도시한 것이다.
도 3b는 본 발명의 다른 양태에 따른 디코딩 기법의 블록도를 도시한 것이다.
도 3c는 캐스케이드된(cascaded) 스위치를 가진 인코딩 장치/방법의 개략도
를 도시한 것이다.
도 3d는 캐스케이드된 조합기가 이용되는 디코딩 장치 또는 방법의 개략도를 도시한 것이다.
도 3e는 시간 도메인 신호의 예시 및, 양방의 인코딩된 신호에 포함되는 짧은 크로스 페이드 영역을 예시하는 인코딩된 신호의 대응하는 표현(representation)을 도시한 것이다.
도 4a는 인코딩 브랜치 전에 위치되는 스위치를 가진 블록도를 도시한 것이다.
도 4b는 브랜치를 인코딩한 다음에 위치되는 스위치를 가진 인코딩 기법의 블록도를 도시한 것이다.
도 4c는 바람직한 조합기 실시예에 대한 블록도를 도시한 것이다.
도 5a는 준주기적(quasi-periodic) 또는 임펄스형 신호 세그먼트로서의 시간 도메인 음성 세그먼트의 파형을 도시한 것이다.
도 5b는 도 5a의 세그먼트의 스펙트럼을 도시한 것이다.
도 5c는 잡음형 또는 고정 세그먼트(stationary segment)에 대한 일례로서 무성 음성(unvoiced speech)의 시간 도메인 음성 세그먼트를 도시한 것이다.
도 5d는 도 5c의 시간 도메인 파형의 스펙트럼을 도시한 것이다.
도 6은 분석-합성(analysis by synthesis) CELP 인코더의 블록도를 도시한 것이다.
도 7a 내지 7d는 펄스형 및 고정 신호에 대한 일례로서 유성/무성 여기 신호를 도시한 것이다.
도 7e는 단기간 예측 정보 및 예측 에러 신호를 제공하는 인코더측 LPC 단계를 도시한 것이다.
도 7f는 가중 신호를 생성하는 LPC 장치의 다른 실시예를 도시한 것이다.
도 7g는 도 2b의 변환기(537)에 필요로 되는 바와 같이 역 가중 동작 및 후속 여기 분석을 적용함으로써 가중 신호를 여기 신호로 변환하는 구현을 예시한 것이다.
도 8은 본 발명의 실시예에 따른 조인트 멀티채널 알고리즘의 블록도를 도시한 것이다.
도 9는 대역폭 확장 알고리즘의 바람직한 실시예를 도시한 것이다.
도 10a는 개방 루프 결정을 실행할 시에 스위치의 상세한 설명을 예시한 것이다.
도 10b는 폐루프 결정 모드로 동작할 시에 스위치의 예시를 나타낸 것이다.
도 1a는 2개의 도메인 변환기(510, 410) 및 스위치 가능한 바이패스(50)가 존재하는 본 발명의 실시예를 도시한다. 스위치 가능한 바이패스(50)는, 스위치 가능한 바이패스(50)의 스위칭 제어 입력으로 입력되는 제어 신호(51)에 응답하여 활성적이거나 비활성적이도록 구성된다. 스위치 가능한 바이패스가 활성적이면, 오디오 신호 입력(99, 195)에서의 오디오 신호는 제 1 도메인 변환기(510)로 공급되지 않고, 제 2 도메인 변환기(410)가 직접 입력(99, 195)에서의 오디오 신호를 수신하도록 스위치 가능한 바이패스(50)로 공급된다. 도 1c 및 1d와 관련하여 논의되는 한 실시예에서, 스위치 가능한 바이패스(50)는 선택적으로, 스위치 가능한 바이패스(50)의 출력 신호가 제 2 프로세서(520)만을 통해 처리되도록 제 2 도메인 변환기(410)에 접속되지 않고 제 2 프로세서(520)에 접속할 수 있다.
그러나, 스위치 가능한 바이패스(50)가 제어 신호(51)에 의해 불활성 상태로 설정되면, 오디오 신호 입력(99 또는 195)에서의 오디오 신호는 제 1 도메인 변환기(510)로 입력되고, 제 1 도메인 변환기(510)의 출력에서, 제 2 도메인 변환기(410) 또는 제 2 프로세서(520)로 입력된다. 제 1 도메인 변환기의 출력 신호가 제 2 도메인 변환기(410) 또는 제 2 프로세서(520)로 입력되는지에 관한 결정은 바람직하게는, 또한 스위치 제어 신호에 기반으로 하여 취해지지만, 선택적으로, 메타데이터(metadata)와 같은 다른 수단을 통하거나 신호 분석에 기반으로 하여 행해질 수 있다. 선택적으로, 제 1 도메인 변환기 신호(510)는 심지어 양방의 장치(410, 520)로 입력될 수 있고, 어떤 시간 부분에 오디오 신호를 나타내도록 처리 신호가 출력 인터페이스로 입력되는 선택은 도 4b와 관련하여 논의되는 바와 같이 프로세서와 출력 인터페이스 간에 접속되는 스위치를 통해 행해진다. 다른 한편으로는, 신호가 출력 데이터 스트림으로 입력되는 것에 관한 결정은 또한 그 자체를 출력 인터페이스(800) 내에서 취해질 수 있다.
도 1a에 도시된 바와 같이, 입력(99, 195)에서의 오디오 신호가 제 1 도메인 내에 있을 경우에 인코딩된 오디오 신호를 획득하도록 오디오 신호를 인코딩하는 본 발명의 장치는, 오디오 신호를 제 1 도메인에서 제 2 도메인으로 변환하는 제 1 도메인 변환기를 포함한다. 더욱이, 제 1 도메인 변환기(510)를 바이패스하거나, 바이패스 스위치 제어 신호(51)에 응답하여 제 1 도메인 변환기에 의해 오디오 신호를 변환시키는 스위치 가능한 바이패스(54)가 제공된다. 따라서, 활성 상태에서, 스위치 가능한 바이패스는 제 1 도메인 변환기를 바이패스하고, 불활성 상태에서는, 오디오 신호가 제 1 도메인 변환기로 입력된다.
더욱이, 스위치 가능한 바이패스(50) 또는 제 1 도메인 변환기로부터 수신되는 오디오 신호를 제 3 도메인으로 변환하는 제 2 도메인 변환기(410)가 제공된다. 제 3 도메인은 제 2 도메인과 상이하다. 게다가, 제 1 처리된 신호를 획득하도록 제 1 코딩 알고리즘에 따라 제 3 도메인 오디오 신호를 인코딩하는 제 1 프로세서(420)가 제공된다. 더욱이, 제 2 코딩 알고리즘에 따라 제 1 도메인 변환기로부터 수신되는 오디오 신호를 인코딩하는 제 2 프로세서(520)가 제공되는데, 여기서, 제 2 코딩 알고리즘은 제 1 코딩 알고리즘과 상이하다. 제 2 프로세서는 제 2 처리된 신호를 제공한다. 특히, 장치는 오디오 신호의 부분에 대해 상기 장치의 출력에서 인코딩된 오디오 신호를 갖도록 구성되는데, 여기서, 이런 인코딩된 신호는 제 1 처리된 신호 또는 제 2 처리된 신호를 포함한다. 당연히, 크로스오버(cross-over) 영역이 있을 수 있지만, 향상된(enhanced) 코딩 효율을 고려하여, 타겟은 크로스오버 영역을 가능한 작게 유지하여, 이들을 어디에서든 가능하면 제거함으로써, 최대 비트 레이트 압축이 획득되도록 하는 것이다.
도 1b는 바람직한 실시예에서 도 1a의 인코더에 대응하는 디코더를 도시한다. 도 1b에서 인코딩된 오디오 신호를 디코딩하는 장치는, 입력으로서, 제 3 도메인인 제 1 처리된 신호 및, 제 2 도메인인 제 2 처리된 신호를 포함하는 인코딩된 오디오 신호를 수신하며, 여기서, 제 2 도메인 및 제 3 도메인은 서로 다르다. 특히, 입력 인터페이스(900)로 입력되는 신호는 도 1a의 인터페이스(800)로부터의 출력과 유사하다. 디코딩하는 장치는 제 1 처리된 신호를 역처리하는 제 1 역 프로세서(430) 및, 제 2 처리된 신호를 역처리하는 제 2 역 프로세서(530)를 포함한다. 부가적으로, 제 1 역처리된 신호를 제 3 도메인에서 다른 도메인으로 도메인 변환하는 제 2 변환기(440)가 제공된다. 게다가, 제 2 역처리된 신호를 제 1 도메인으로 변환하거나, 상기 다른 도메인이 제 1 도메인이 아닐 시에 제 1 역처리된 신호를 제 1 도메인으로 변환하는 제 1 변환기(540)가 제공된다. 이것은, 제 1 처리된 신호가 이미 제 1 도메인, 즉 예비 처리/후처리 회로의 경우에 디코딩된 오디오 신호 또는 중간 오디오 신호가 있는 타겟 도메인 내에 있지 않을 시에, 제 1 역처리된 신호가 제 1 변환기에 의해서만 변환된다는 것을 의미한다. 더욱이, 디코더는, 상기 다른 도메인이 제 1 도메인일 시에 제 1 변환기(540)를 바이패스하는 바이패스(52)를 포함한다. 도 1b에서의 회로는, 제 1 변환기(540)의 출력과 바이패스 출력, 즉, 바이패스(52)에 의해 출력되는 신호를 조합하여, 나중에 논의되는 바와 같이, 현 상태로 이용될 수 있거나, 심지어 공통 후처리 단계를 이용하여 압축 해제될 수 있는 조합된 디코딩된 오디오 신호(699)를 획득하는 조합기(600)를 더 포함한다.
도 1c는, 심리 음향 모델(300) 내의 신호 분류기가 MPEG Surround 인코더(101) 및 향상된 스펙트럼 대역 복제 프로세서(102)에 의해 형성되는 공통 예비 처리 단계로 입력되는 오디오 신호를 분류하기 위해 제공되는 본 발명의 오디오 인코더의 바람직한 실시예를 도시한다. 더욱이, 제 1 도메인 변환기(510)는 LPC 분석 단계이고, 스위치 가능한 바이패스는 제 1 도메인 변환기인 LPC 분석 단계(510)의 입력과 출력 간에 접속된다.
LPC 장치는 일반적으로, 도 7e에서의 여기 신호 또는 도 7f에서의 가중 신호, 또는 LPC 필터 계수를 오디오 신호에 적용함으로써 생성된 어떤 다른 신호와 같은 LPC 도메인에서의 어떤 신호일 수 있는 LPC 도메인 신호를 출력한다. 더욱이, LPC 장치는 또한 이들 계수를 결정할 수 있고, 또한 이들 계수를 양자화/인코딩할 수 있다.
부가적으로, 스위치(200)는, 바이패스(50) 및 LPC 단계(510)의 공통 출력에서의 신호가 제 1 코딩 브랜치(400) 또는 제 2 코딩 브랜치(500) 중 어느 하나로 전송되도록 제 1 도메인 변환기의 출력에 제공된다. 제 1 코딩 브랜치(400)는 도 1a로부터의 제 2 도메인 변환기(410) 및 제 1 프로세서(420)를 포함하고, 제 2 코딩 브랜치(500)는 도 1a로부터의 제 2 프로세서(520)를 포함한다. 도 1c의 인코더 실시예에서, 제 1 도메인 변환기(510)의 입력은 스위치 가능한 바이패스(50)의 입력에 접속되고, 스위치 가능한 바이패스(50)의 출력은 공통 출력을 형성하도록 제 1 도메인 변환기(510)의 출력에 접속되며, 이런 공통 출력은 스위치(200)로의 입력인데, 여기서, 스위치는 2개의 출력을 포함하지만, 심지어 부가적 인코딩 프로세서에 대한 부가적 출력을 포함할 수 있다.
바람직하게는, 제 1 코딩 브랜치(400) 내의 제 2 도메인 변환기(410)는, 부가적으로, 스위치 가능한 시간 워프(time-warp)(TW) 기능과 조합되는 MDCT 변환을 포함한다. MDCT 스펙트럼은 스케일러/양자화기를 이용하여 인코딩되며, 이 스케일러/양자화기는 신호 분류기 블록(300) 내에 위치되는 심리 음향 모델로부터 제공되는 정보를 기반으로 하여 입력 값의 양자화를 실행한다. 다른 한편으로는, 제 2 프로세서는 입력 신호를 시간 도메인 인코딩하는 시간 도메인 인코더를 포함한다. 한 실시예에서, 활성/폐쇄 바이패스(50)의 경우에, 스위치(200)가 자동으로 상위 코딩 브랜치(400)로 설정되도록 스위치(200)는 제어된다. 그러나, 다른 실시예에서, 스위치(200)는 또한, 시간 도메인 코더(520)가 시간 도메인 오디오 입력 신호를 직접 수신할 수 있도록 바이패스가 활성/폐쇄될 시에도 스위치 가능한 바이패스(50)와 무관하게 제어될 수 있다.
도 1d는 LPC 합성 블록(540)이 도 1b의 제 1 변환기에 대응하고, 바이패스(52)에 의해 바이패스될 수 있는 대응하는 디코더를 도시하며, 바이패스(52)는 바람직하게는 비트 스트림 디멀티플렉서(900)에 의해 생성되는 바이패스 신호를 통해 제어되는 스위치 가능한 바이패스이다. 비트 스트림 디멀티플렉서(900)는 이런 신호 및, 입력 비트 스트림(899)으로부터 코딩 브랜치(430, 530) 또는 SBR 합성 블록(701) 또는 MPEG Surround 디코더 블록(702)에 대한 모든 다른 제어 신호를 생성할 수 있거나, 신호 분석 또는 어떤 다른 개별 정보원으로부터 이들 제어 라인에 대한 데이터를 수신할 수 있다.
그 다음에, 인코더에 대한 도 1c 및 디코더에 대한 도 1d에서의 실시예의 더욱 상세한 설명이 주어질 것이다.
바람직한 실시예는, 성공적 음성 코더 기술을 가진 AAC, SBR 및 MPEG Surround와 같은 성공적 MPEG 기술의 강도를 조합하는 하이브리드 오디오 코더로 이루어진다. 생성된 코덱은 모든 신호 카테고리에 대한 공통 예비 처리를 포함하고, MPEG Surround 및 향상된 SBR (eSBR)로 이루어진다. 심리 음향 모델에 의해 제어되고, 신호 카테고리를 기반으로 하여, 정보 싱크 또는 소스 유도 코더 구조는 프레임간 기초(frame-per-frame basis)로 선택된다.
제시된 코덱은 이점으로 MPEG Surround, SBR 및 AAC 베이스 코더와 같은 코딩 툴(tool)을 이용한다. 이들은 상당한 저 비트레이트에서 음성에 대한 성능을 개선하도록 변경 및 인핸스먼트(alteration and enhancement)를 수용한다. 보다 고 비트레이트에서, 새로운 코덱이 AAC에 매우 근접한 모드로 떨어질 수 있다. 대체로 약간 양호한 잡음없는 코딩 성능을 제공하는 향상된 잡음없는 코딩 모드가 구현된다. 대략 32 kbps 이하의 비트레이트에 대해, 음성 및 다른 신호에 대한 베이스 코더의 성능을 개선하기 위해 부가적인 툴이 활성화된다. 이들 툴의 주요 구성 요소는 LPC 기반 주파수 형상, MDCT 기반 코더 및 시간 도메인 코더에 대한 더욱 많은 선택적 윈도우 길이 옵션이다. 새로운 대역폭 확장 기술은 음성에 대해 저 크로스오버(crossover) 주파수에 더욱 적합한 SBR 툴에 대한 확장으로서 이용된다. MPEG Surround 툴은, 다운믹스 및 파라미터화된(parameterized) 스테레오 이미지를 제공함으로써 스테레오 또는 멀티채널 신호의 파라미트릭 표현을 제공한다. 주어진 테스트 경우에, 그것은 스테레오 신호만을 인코딩하기 위해 이용되지만, MPEG-D로부터의 기존의 MPEG Surround 기능을 이용함으로써 멀티채널 입력 신호에 적합하다.
MDCT-Coder을 제외하고 코덱 체인의 모든 툴은 바람직하게는 저 비트 레이트에서만 이용된다.
MPEG Surround 기술은 M 오디오 송신 채널을 통해 N 오디오 입력 채널을 송신하는데 이용된다. 따라서, 시스템은 본래 멀티채널이 가능하다. MPEG Surround 기술은 음성형 신호에 대해 저 비트레이트에서 성능을 증대하기 위해 인핸스먼트를 수용한다.
기본 동작 모드는 스테레오 입력 신호로부터 고 품질의 모노 다운믹스를 생성한다. 부가적으로, 한 세트의 공간 파라미터가 추출된다. 디코더측 상에서, 스테레오 출력 신호는 추출되고 송신되는 공간 파라미터와 협력하여 디코딩된 모노 다운믹스를 이용하여 생성된다. 저 비트 레이트의 2-1-2 모드는, MPEG Surround 업믹스에서의 단일 OTT (1-2) 박스로 이루어지는 간단한 트리(tree) 구조를 이용하여, MPEG Surround에서의 기존의 5-x-5 또는 7-x-7 동작점에 가산되었다. 이런 구성 요소의 일부는 음성 재생에 더욱 적합하도록 수정을 수용한다. 64 kbps 이상과 같이 보다 고 데이터 레이트의 경우, 코어 코드는 이산 스테레오 코딩 (Mid/Side 또는 L/R)을 이용하고, MPEG Surround는 이런 동작점에 이용되지 않는다.
이런 기술 제안에서 제시된 대역폭 확장은 MPEG SBR 기술에 기반으로 한다. 이용된 필터 뱅크는 MPEG Surround 및 SBR에서의 QMF 필터 뱅크와 동일하고, 부가적인 합성/분석 없이 MPEG Surround 및 SBR 간에 QMF 도메인 샘플을 공유할 가능성을 제공한다. 표준화된 SBR 툴에 비해, eSBR은 양방의 음성 및 오디오 콘텐츠에 최적인 향상된 처리 알고리즘을 도입한다. 상당한 저 비트레이트 및 저 크로스오버 주파수에 더욱 적합한 SBR에 대한 확장이 포함된다.
SBR 및 AAC의 조합으로부터 알려진 바와 같이, 이런 특징은 광범위하게(globally) 비활성화되어, 전체 주파수 범위의 코딩을 코어 코더에 맡긴다.
제시된 시스템의 코어 코더 부분은 선택적 LPC 필터 및 스위치 가능한 주파수 도메인/시간 도메인 코어 코더의 조합으로서 보여질 수 있다.
음성 코더 구조로부터 알려져 있는 바와 같이, LPC 필터는 인간 음성에 소스 모델의 기초를 제공한다. LPC 처리는 광범위하게 또는 프레임간 기초로 인에이블(enable) 또는 디스에이블 (바이패스)될 수 있다.
LPC 필터에 뒤따라, LPC 도메인 신호는 시간 도메인 또는 변환 기반 주파수 도메인 코더 구조를 이용하여 인코딩된다. 이들 2개의 브랜치 간의 스위칭은 확장된 심리 음향 모델에 의해 제어된다.
시간 도메인 코더 구조는 ACELP 기술에 기반으로 하고, 특히 저 비트레이트에서 음성 신호에 대한 최적의 코딩 성능을 제공한다.
주파수 도메인 기반 코더 브랜치는 스케일러 양자화기 및 엔트로피 코딩을 가진 MDCT 구조에 기반으로 한다.
선택적으로, 시간 워프 툴은 많이 콤팩트한 신호 표현을 통해 (64 kbps 이상과 같은) 보다 고 비트레이트에서 음성 신호에 대한 코딩 효율을 향상시키도록 이용 가능하다.
MDCT 기반 구조는 보다 저 비트레이트에서 양호한 품질을 제공하며, 기존의 MPEG 기술로부터 알려져 있는 바와 같이 투명성(transparency)을 위해 스케일(scale)한다. 그것은 보다 고 비트레이트에서 AAC 모드로 집중할 수 있다.
버퍼 요건은 AAC와 동일하며, 즉, 입력 버퍼 내의 비트의 최대수는 코어-코더 채널당 6144: 모노 채널 요소당 6144 비트, 스테레오 채널-쌍 요소당 12288 비트이다.
비트 저장기(bit reservoir)는 인코더에서 제어되어, 현재 비트 요구에 인코딩 프로세스를 적응시킨다. 비트 저장기의 특성은 AAC와 동일하다.
인코더 및 디코더는 12 kbps 모노와 64 kbps 스테레오 간에 서로 다른 비트레이트로 동작하도록 제어 가능하다.
디코더 복잡성은 PCU에 관해 명기된다. 베이스 디코더의 경우, 대략 11.7 PCU의 복잡성이 필요로 된다. 시간 워프 툴이 64 kbps 테스트 모드에 관해 이용되는 경우, 디코더 복잡성은 22.2 PCU까지 증가된다.
바람직한 스테레오 디코더의 RAM 및 ROM에 대한 요건은 다음과 같다:
RAM: ~24 kWords
ROM: ~150 kWords
엔트로피 코더에 통지함으로써, ~98 kWords만의 전체 ROM 사이즈가 획득될 수 있다.
시간 워프 툴이 이용되는 경우에, RAM 요구는 ~3 kWords만큼 증가되고, ROM 요구는 ~40 kWords만큼 증가된다.
이론적 알고리즘 지연(algorithmic delay)은 코덱 체인에 이용된 툴 (예컨대, MPEG Surround 등)에 의존한다: 제시된 기술의 알고리즘 지연은 코덱 샘플링 레이트에서 동작점마다 표시된다. 아래에 주어진 값은 프레임 지연(framing delay), 즉 제 1 프레임을 처리하는 필요로 되는 샘플의 수로 인코더 입력 버퍼를 채우는데 필요로 되는 지연을 포함하지 않는다. 이런 프레임 지연은 모든 명기된 동작 모드에 대한 2048 샘플이다. 다음의 테이블은 최소 알고리즘 지연 및, 이용된 구현을 위한 지연의 양방을 포함한다. 코덱 샘플링 레이트로 48 kHz 입력 PCM 파일을 리샘플링할 부가적 지연이 '(.)'에 명기된다.
테스트 ID 이론적 최소 알고리즘
지연 (샘플)
구현될 시의 알고리즘
지연 (샘플)
테스트 1, 64 kbps
스테레오
8278 8278 (+44)
테스트 2, 32 kbps
스테레오
9153 11201 (+44)
테스트 3, 24 kbps
스테레오
9153 11200 (+45)
테스트 4, 20 kbps
스테레오
9153 9153 (+44)
테스트 5, 16 kbps
스테레오
11201 11201 (+44)
테스트 6, 24 kbps
모노
4794 5021 (+45)
테스트 7, 20 kbps
모노
4794 4854 (+44)
테스트 8, 16 kbps
모노
6842 6842 (+44)
테스트 9, 12 kbps
모노
6842 6842 (+44)
이 코덱의 주요 속성은 다음과 같이 요약될 수 있다:
제시된 기술은 이점으로, 음성 또는 음악 콘텐츠를 코딩하기 위한 성능을 희생시키지 않고 현재의 기술적 수준의 음성 및 오디오 코딩 기술을 이용한다. 이것은 결과적으로, 상당한 저 레이트 (12 kbps)로 개시하여, 코덱이 투명한 품질에 도달하는 128 kbps 이상과 같은 고 데이터 레이트까지 진행하는 비트레이트 범위에 대한 음성 콘텐츠, 음악 콘텐츠 및 혼합된 콘텐츠의 현재의 기술적 수준의 품질을 제공할 수 있는 코덱을 생성시킨다.
모노 신호, 스테레오 신호 또는 멀티채널 신호는 도 2a에서 공통 예비 처리 단계(100)로 입력된다. 공통 예비 처리 기법은 조인트 스테레오 기능, 서라운드 기능, 및/또는 대역폭 확장 기능을 가질 수 있다. 블록(100)의 출력에서, 한 세트의 바이패스(50) 및 변환기(510) 또는 이런 타입의 다수의 세트로 입력되는 모노 채널, 스테레오 채널 또는 다수의 채널이 존재한다.
상기 세트의 바이패스(50) 및 변환기(510)는 단계(100)의 각 출력에 존재할 수 있으며, 이때 단계(100)는 2 이상의 출력을 가지며, 즉, 단계(100)는 스테레오 신호 또는 멀티채널 신호를 출력한다. 예시적으로, 스테레오 신호의 제 1 채널은 음성 채널일 수 있고, 스테레오 신호의 제 2 채널은 음악 채널일 수 있다. 이런 상황에서, 결정 단계에서의 결정은 동시 순간에 2개의 채널 간에 차가 있을 수 있다.
바이패스(50)는 결정 단계(300)에 의해 제어된다. 결정 단계는, 입력으로서, 블록(100)으로 입력되는 신호 또는 블록(100)에 의해 출력되는 신호를 수신한다. 선택적으로, 결정 단계(300)는 또한 보조(side) 정보를 수신할 수 있으며, 이 보조 정보는, 모노 신호, 스테레오 신호 또는 멀티채널 신호에 포함되거나, 적어도 이와 같은 신호에 관련될 수 있는데, 여기서, 예컨대, 원래 모노 신호, 스테레오 신호 또는 멀티채널 신호를 생성할 시에 생성된 정보가 존재한다.
한 실시예에서, 결정 단계는 예비 처리 단계(100)를 제어하지 않으며, 블록(300) 및 (100) 간의 화살표는 존재하지 않는다. 다른 실시예에서, 블록(100)에서의 처리는, 이런 결정에 기초로 하여 블록(100)에 하나 이상의 파라미터를 설정하기 위해 결정 단계(300)에 의해 어느 정도까지 제어된다. 그러나, 이것은, 블록(100)에서의 주요 기능이 단계(300)에서의 결정과 무관하게 활성적이도록 블록(100)에서의 일반적 알고리즘에 영향을 주지 않을 것이다.
결정 단계(300)는, 공통 예비 처리 단계의 출력을, 도 1a의 상위 브랜치에 도시된 주파수 인코딩 부분(400), 또는 도 2a의 하위 브랜치에 도시되고, 요소(510, 520)를 가진 제 2 인코딩 부분(500)의 부분일 수 있는 LPC 도메인 변환기(510)로 공급하기 위해 바이패스(50)를 활성화시킨다.
한 실시예에서, 바이패스는 단일 도메인 변환기를 바이패스한다. 다른 실시예에서는, 제 3 인코딩 브랜치 또는 심지어 제 4 인코딩 브랜치 또는 심지어 더 많은 인코딩 브랜치와 같은 서로 다른 인코딩 브랜치에 대한 부가적 도메인 변환기가 존재할 수 있다. 3개의 인코딩 브랜치에 따른 실시예에서, 제 3 인코딩 브랜치는 제 2 인코딩 브랜치와 유사할 수 있지만, 제 2 브랜치(500)의 여기 인코더(520)와 상이한 여기 인코더를 포함할 수 있다. 이 실시예에서, 제 2 브랜치는 LPC 단계(510) 및, ACELP에서와 같은 코드북 기반 여기 인코더를 포함하고, 제 3 브랜치는 LPC 단계 및, LPC 단계의 출력 신호의 스펙트럼 표현에서 동작하는 여기 인코더를 포함한다.
주파수 도메인 인코딩 브랜치의 중요한 요소는, 공통 예비 처리 단계의 출력 신호를 스펙트럼 도메인으로 변환하도록 동작하는 스펙트럼 변환 블록(410)이다. 스펙트럼 변환 블록은, MDCT 알고리즘, QMF, FFT 알고리즘, 일정수의 필터 뱅크 채널을 가진 임계 샘플링된 필터 뱅크와 같은 웨이브릿(Wavelet) 분석 또는 필터 뱅크를 포함할 수 있으며, 여기서, 이 필터 뱅크에서의 부대역 신호는 실수값 신호 또는 복소값 신호일 수 있다. 스펙트럼 변환 블록(410)의 출력은, AAC 코딩 기법으로부터 알려져 있는 바와 같이 처리 블록을 포함할 수 있는 스펙트럼 오디오 인코더(420)를 이용하여 인코딩된다.
하위 인코딩 브랜치(500)에서, 중요한 요소는, 이 실시예에서, 도메인 변환기(510)이고, 2 종류의 신호를 출력하는 LPC(510)와 같은 소스 모델 분석기이다. 한 신호는 LPC 분석 필터의 필터 특성을 제어하기 위해 이용되는 LPC 정보 신호이다. 이런 LPC 정보는 디코더로 송신된다. 다른 LPC 단계(510)의 출력 신호는 여기 인코더(520)로 입력되는 여기 신호 또는 LPC 도메인 신호이다. 여기 인코더(520)는 CELP 인코더, ACELP 인코더, 또는 LPC 도메인 신호를 처리하는 어떤 다른 인코더와 같은 어떤 소스-필터 모델 인코더로부터 나올 수 있다.
다른 바람직한 여기 인코더의 구현은, 여기 신호 또는 LPC 도메인 신호의 변환 코딩이다. 이런 실시예에서, 여기 신호는 ACELP 코드북 메카니즘을 이용하여 인코딩되지 않지만, 여기 신호는 스펙트럼 표현으로 변환되고, 필터 뱅크의 경우에는 부대역 신호, 또는 FFT와 같은 변환의 경우에는 주파수 계수와 같은 스펙트럼 표현값이 인코딩되어 데이터 압축을 획득한다. 이런 종류의 여기 인코더의 구현은 AMR-WB+로부터 공지된 TCX 코딩 모드이다. 이런 모드는 LPC 단계(510)의 출력을 스펙트럼 변환기(410)에 접속함으로써 획득된다. 3GPP TS 26.290로부터 공지된 바와 같은 TCX 모드는 변환 도메인에서 지각적 가중 신호를 처리한다. 푸리에 변환된 가중 신호는 잡음 지수 양자화와 함께 스플릿 멀티레이트 격자(split multi-rate lattice) 양자화 (대수적(algebraic) VQ)를 이용하여 양자화된다. 변환은 1024, 512, 또는 256 샘플 윈도우에서 계산된다. 여기 신호는 역 가중 필터를 통해 양자화된 가중 신호를 역 필터링함으로써 복구된다.
도 1a 또는 도 1c에서, LPC 블록(510) 다음에, ACELP 블록 또는 변환 도메인 인코더일 수 있고, TCX 블록(527)일 수 있는 시간 도메인 인코더가 존재한다. ACELP은 3GPP TS 26.190에 기술되어 있고, TCX는 3GPP TS 26.290에 기술되어 있다. 일반적으로, ACELP 블록은 도 7e에 기술된 바와 같은 절차에 의해 계산되는 바와 같은 LPC 여기 신호를 수신한다. TCX 블록(527)은 도 7f에 의해 생성되는 바와 같은 가중 신호를 수신한다.
TCX에서, LPC 기반 가중 필터를 통해 입력 신호를 필터링함으로써 계산된 가중 신호에 변환이 적용된다. 본 발명의 바람직한 실시예에 이용되는 가중 필터는 (1-A(z/γ))/(1-μz-1)로 주어진다. 따라서, 가중 신호는 LPC 도메인 신호이고, 그의 변환은 LPC 스펙트럼 도메인이다. ACELP 블록(526)에 의해 처리되는 신호는 여기 신호이고, 블록(527)에 의해 처리되는 신호와 상이하지만, 양방의 신호는 LPC 도메인 내에 있다.
디코더측에서, 역 스펙트럼 변환 후에, (1-μz-1)/A(z/γ)인 가중 필터의 역이 적용된다. 그리고 나서, 신호는 LPC 여기 도메인으로 진행하도록 (1-A(z))를 통해 필터링된다. 따라서, LPC 도메인 및 TCX-1 동작으로의 변환은 역변환 및
Figure pct00001
을 통한 필터링을 포함하여 가중 신호 도메인에서 여기 도메인으로 변환한다.
항목(510)이 단일 블록을 도시하지만, 블록(510)은 서로 다른 신호가 LPC 도메인 내에 있는한 이들 신호를 출력할 수 있다. 여기 신호 모드 또는 가중 신호 모드와 같은 블록(510)의 실제 모드는 실제 스위치 상태에 의존할 수 있다. 선택적으로, 블록(510)은 2개의 병렬 처리 장치를 가질 수 있으며, 여기서, 한 장치는 도 7e와 유사하게 구현되고, 다른 장치는 도 7f로서 구현된다. 그래서, (510)의 출력에서의 LPC 도메인은 LPC 여기 신호 또는 LPC 가중 신호 또는 어떤 다른 LPC 도메인 신호 중 하나를 나타낼 수 있다.
LPC 모드에서, 바이패스가 비활성적일 시에, 즉, ACELP/TCX 코딩이 존재할 시에, 신호는 바람직하게는 인코딩 전에 필터 1-0.68z-1를 통해 프리엠퍼시스된다(pre-emphasized). ACELP/TCX 디코더에서, 합성된 신호는 필터 1/(1-0.68z-1)로 디엠퍼시스된다(deemphasized). 프리엠퍼시스는, 신호가 LPC 분석 및 양자화 전에 프리엠퍼시스되는 LPC 블록(510)의 부분일 수 있다. 마찬가지로, 디엠퍼시스는 LPC 합성 블록 LPC-1(540)의 부분일 수 있다.
수개의 LPC 도메인이 존재한다. 제 1 LPC 도메인은 LPC 여기를 나타내고, 제 2 LPC 도메인은 LPC 가중 신호를 나타낸다. 즉, 제 1 LPC 도메인 신호는 LPC 잔여/여기 도메인으로 변환하도록 (1-A(z))를 통해 필터링함으로써 획득되지만, 제 2 LPC 도메인 신호는 LPC 가중 도메인으로 변환하도록 필터 (1-A(z/γ))/(1-μz-1)를 통해 필터링함으로써 획득된다.
결정 단계에서의 결정은, 결정 단계가 음악/음성 판별(discrimination)을 실행하여, 음악 신호가 상위 브랜치(400)로 입력되고, 음성 신호가 하위 브랜치(500)로 입력되는 식으로 바이패스(50) 및, 있다면, 도 1c의 스위치(200)를 제어하도록 신호 적응(signal-adaptive)할 수 있다. 한 실시예에서, 결정 단계는 그의 결정 정보를 출력 비트 스트림으로 공급함으로써, 디코더가 이 결정 정보를 이용하여 정확한 디코딩 동작을 실행할 수 있다.
이와 같은 디코더는 도 2b에 도시되어 있다. 스펙트럼 오디오 인코더(420)에 의해 출력되는 신호는, 송신 후에, 스펙트럼 오디오 디코더(430)로 입력된다. 스펙트럼 오디오 디코더(430)의 출력은 시간 도메인 변환기(440)로 입력된다. 유사하게도, 도 2a의 여기 인코더(520)의 출력은 LPC 도메인 신호를 출력하는 여기 디코더(530)로 입력된다. LPC 도메인 신호는 LPC 합성 단계(540)로 입력되고, LPC 합성 단계(540)는, 다른 입력으로서, 대응하는 LPC 분석 단계(510)에 의해 생성되는 LPC 정보를 수신한다. 시간 도메인 변환기(440)의 출력 및/또는 LPC 합성 단계(540)의 출력은 스위치 가능한 바이패스(52)로 입력된다. 바이패스(52)는, 예컨대, 결정 단계(300)에 의해 생성되었거나, 예컨대, 원래의 모노 신호, 스테레오 신호 또는 멀티채널 신호의 생성기에 의해 외부에 제공된 바이패스 제어 신호를 통해 제어된다.
조합기(600)로 입력되는 바이패스 또는 단계(540)의 출력은, 연속하여, 조인트 스테레오 처리 또는 대역폭 확장 처리 등을 실행할 수 있는 공통 후처리 단계(700)로 입력되는 완전한 모노 신호이다. 공통 후처리 단계의 특정 기능에 따라, 모노 신호, 스테레오 신호 또는 멀티채널 신호는 출력되며, 이 신호는, 공통 후처리 단계(700)가 대역폭 확장 동작을 실행할 시에, 블록(700)으로 입력된 신호보다 더 큰 대역폭을 갖는다.
한 실시예에서, 바이패스(52)는 단일 변환기(540)를 바이패스하도록 구성된다. 다른 실시예에서는, 제 3 디코딩 브랜치 또는 심지어 제 4 디코딩 브랜치 또는 심지어 더 많은 디코딩 브랜치와 같은 부가적인 디코딩 브랜치를 정의하는 부가적인 변환기가 존재할 수 있다. 3개의 디코딩 브랜치에 따른 실시예에서, 제 3 디코딩 브랜치는 제 2 디코딩 브랜치와 유사할 수 있지만, 제 2 브랜치(530, 540)에서의 여기 디코더(530)와 상이한 여기 디코더를 포함할 수 있다. 이 실시예에서, 제 2 브랜치는 LPC 단계(540) 및, ACELP에서와 같은 코드북 기반 여기 디코더를 포함하고, 제 3 브랜치는 LPC 단계 및, LPC 단계(540)의 출력 신호의 스펙트럼 표현에서 동작하는 여기 디코더를 포함한다.
상술한 바와 같이, 도 2c는 본 발명의 제 2 양태에 따른 바람직한 인코딩 기법을 도시한다. 도 1a에서의 공통 예비 처리 기법(100)은 이제 서라운드/조인트 스테레오 블록(101)을 포함하며, 이 블록(101)은, 출력으로서, 조인트 스테레오 파라미터 및 모노 출력 신호를 생성시키며, 모노 출력 신호는 2 이상의 채널을 가진 신호인 입력 신호를 다운믹스함으로써 생성된다. 일반적으로, 블록(101)의 출력에서의 신호는 또한 더욱 많은 채널을 가진 신호일 수 있지만, 블록(101)의 다운믹스 기능으로 인해, 블록(101)의 출력에서의 채널의 수는 블록(101)으로 입력되는 채널의 수보다 적을 것이다.
블록(101)의 출력은 대역폭 확장 블록(102)으로 입력되고, 이 블록(102)은, 도 2c의 인코더에서, 그의 출력에서 저 대역 신호 또는 저역 통과 신호와 같은 대역 제한 신호를 출력한다. 더욱이, 블록(102)으로 입력되는 신호의 고 대역에 대해, MPEG-4의 HE-AAC 프로파일로부터 공지되어 있는 바와 같이, 스펙트럼 엔벨로프(envelope) 파라미터, 역 필터링 파라미터, 잡음 플로어(noise floor) 파라미터 등과 같은 대역폭 확장 파라미터가 생성되어, 비트스트림 멀티플렉서(800)로 전송된다.
바람직하게는, 결정 단계(300)는, 예컨대, 음악 모드 또는 음성 모드 간에 결정하기 위해 블록(101)으로 입력되거나 블록(102)으로 입력되는 신호를 수신한다. 음악 모드에서는, 상위 인코딩 브랜치(400)가 선택되지만, 음성 모드에서는, 하위 인코딩 브랜치(500)가 선택된다. 바람직하게는, 결정 단계는 부가적으로 조인트 스테레오 블록(101) 및/또는 대역폭 확장 블록(102)을 제어하여, 이들 블록의 기능을 특정 신호에 적응시킨다. 따라서, 결정 단계가 입력 신호의 어떤 시간 부분이 음악 모드와 같은 제 1 모드의 어떤 시간 부분임을 결정하면, 블록(101) 및/또는 블록(102)의 특정한 특징은 결정 단계(300)에 의해 제어될 수 있다. 선택적으로, 결정 단계(300)가 신호가 음성 모드 또는, 일반적으로, LPC 도메인 코딩 모드에 있음을 결정하면, 블록(101 및 102)의 특정한 특징은 결정 단계의 출력에 따라 제어될 수 있다.
스위치(200)의 입력 신호, 또는 단계(200)로 입력되는 신호의 기본이 되는 원래 오디오 신호의 생성기와 같은 어떤 외부 소스로부터 유도될 수 있는 스위치의 결정에 따라, 스위치는 주파수 인코딩 브랜치(400)와 LPC 인코딩 브랜치(500) 간에 스위칭한다. 주파수 인코딩 브랜치(400)는 스펙트럼 변환 단계 및 후속 접속된 양자화/코딩 단계를 포함한다. 양자화/코딩 단계는 AAC 인코더와 같은 현대식의 주파수 도메인 인코더로부터 공지되어 있는 바와 같은 어떤 기능을 포함할 수 있다. 더욱이, 양자화/코딩 단계에서의 양자화 동작은, 주파수에 걸친 심리 음향 마스킹 임계치와 같은 심리 음향 정보를 생성하는 심리 음향 모듈을 통해 제어될 수 있으며, 여기서, 상기 정보는 상기 단계로 입력된다.
바람직하게는, 스펙트럼 변환은, 더욱 바람직하게는, 시간 워프된(time-warped) MDCT 동작인 MDCT 동작을 이용하여 행해지며, 여기서, 강도 또는, 일반적으로, 워프 강도는 0과 고 워프 강도 간에 제어될 수 있다. 0 워프 강도에서, 도 1c에서 블록(400)에서의 MDCT 동작은 본 기술 분야에 공지된 직통(straight-forward) MDCT 동작이다. 시간 워프 보조 정보와 함께 시간 워프 강도는 보조 정보로서 비트스트림 멀티플렉서(800)로 송신/입력될 수 있다. 그래서, TW-MDCT가 이용되면, 시간 워프 보조 정보는 도 1c에서 (424)로 도시된 바와 같은 비트스트림으로 송신되어야 하고, 디코더측 상에서는, 시간 워프 보조 정보가 도 1d에서 항목(434)으로 도시된 바와 같은 비트스트림으로부터 수신되어야 한다.
LPC 인코딩 브랜치에서, LPC 도메인 인코더는, 피치 이득(pitch gain), 피치 래그(lag) 및/또는, 코드북 인덱스(codebook index) 및 코드 이득과 같은 코드북 정보를 계산하는 ACELP 코어를 포함할 수 있다.
제 1 코딩 브랜치(400)에서, 스펙트럼 변환기는 바람직하게는, 어떤 윈도우 기능을 가진 특히 적합한 MDCT 동작을 포함하고 나서, 벡터 양자화 단계일 수 있는 양자화/엔트로피 인코딩 단계를 포함하지만, 바람직하게는, 주파수 도메인 코딩 브랜치에서 양자화기/코더와 유사한 양자화기/코더이다.
도 2d는 도 2c의 인코딩 기법에 대응하는 디코딩 기법을 도시한다. 비트스트림 멀티플렉서에 의해 생성되는 비트스트림은 비트스트림 디멀티플렉서로 입력된다. 예컨대 모드 검출 블록을 통해 비트스트림으로부터 유도되는 정보에 따라, 디코더측 스위치는 상위 브랜치로부터의 신호 또는 하위 브랜치로부터의 신호를 대역폭 확장 블록(701)으로 전송하도록 제어된다. 대역폭 확장 블록(701)은, 비트스트림 디멀티플렉서로부터, 보조 정보를 수신하고, 이 보조 정보 및 모드 결정의 출력에 기초로 하여, 예컨대 도 1d로부터 조합기(600)에 의해 출력되는 저 대역에 기초로 하여 고 대역을 재구성한다.
블록(701)에 의해 생성되는 전대역 신호는 2개의 스테레오 채널 또는 수개의 멀티채널을 재구성하는 조인트 스테레오/서라운드 처리 단계(702)로 입력된다. 일반적으로, 블록(702)은 이 블록으로 입력된 많은 채널을 출력할 것이다. 이런 응용에 따라, 블록(702)으로의 입력은 심지어 스테레오 모드에서와 같은 2개의 채널을 포함할 수 있고, 심지어 이 블록에 의한 출력이 이 블록으로의 입력보다 많은 채널을 갖는한 많은 채널을 포함할 수 있다.
일반적으로 도 4a에 도시된 바와 같이, 하나의 브랜치만이 처리할 신호를 수신하고, 다른 브랜치는 처리할 신호를 수신하지 않도록 도 1c에서의 스위치(200)는 양방의 브랜치 간에 스위칭하도록 도시되었다. 그러나, 도 4b에 도시된 선택적 실시예에서, 스위치는 또한 예컨대 오디오 인코더(420) 및 여기 인코더(520) 다음에 배치될 수 있으며, 이는 양방의 브랜치(400, 500)가 동일한 신호를 병렬로 처리한다는 것을 의미한다. 그러나, 비트레이트를 2배가 되지 않도록 하기 위해, 이들 인코딩 브랜치(400 또는 500) 중 하나에 의해 출력되는 신호만이 출력 비트스트림으로 기록되도록 선택된다. 그 후, 결정 단계는, 비트스트림으로 기록된 신호가 어떤 비용 함수(cost function)를 최소화하도록 동작할 것이며, 여기서, 비용 함수는 생성된 비트레이트 또는 생성된 지각적 왜곡 또는 조합된 레이트/왜곡 비용 함수일 수 있다. 그래서, 이런 모드 또는 도면에 도시된 모드에서, 최종으로, 인코딩 브랜치의 출력만이 주어진 지각적 왜곡에 대해서는 최저 비트레이트를 갖거나, 주어진 비트레이트에 대해서는 최저 지각적 왜곡을 갖는 비트스트림으로 기록되는 것을 확인하기 위해 결정 단계는 또한 폐루프 모드로 동작할 수 있다.
일반적으로, 브랜치(400)의 처리는 지각 기반 모델 또는 정보 싱크 모델의 처리이다. 따라서, 이런 브랜치는 소리를 수신하는 인간 청각 기관을 모델링한다. 이와는 대조적으로, 브랜치(500)의 처리는 여기, 잔여 또는 LPC 도메인에서 신호를 생성시킬 수 있다. 일반적으로, 브랜치(500)의 처리는 음성 모델 또는 정보 생성 모델의 처리이다. 음성 신호에 대해, 이 모델은 소리를 생성시키는 인간 음성/소리 생성 기관의 모델이다. 그러나, 다른 소리 생성 모델을 필요로 하는 다른 소스로부터의 소리가 인코딩될 경우, 브랜치(500)의 처리는 다를 수 있다.
도 1a 내지 4c가 장치의 블록도로서 도시되지만, 이들 도면은 블록 기능이 방법 단계에 대응하는 방법을 동시에 예시한다.
도 3c는 오디오 입력 신호(195)를 인코딩하는 오디오 인코더를 도시한다. 오디오 입력 신호(195)는, 예컨대, 시간 도메인일 수 있지만, 또한, 주파수 도메인, LPC 도메인, LPC 스펙트럼 도메인 또는 어떤 다른 도메인과 같은 어떤 다른 도메인일 수 있는 제 1 도메인에 제공된다. 일반적으로, 한 도메인에서 다른 도메인으로의 변환은 어떤 잘 알려진 시간/주파수 변환 알고리즘 또는 주파수/시간 변환 알고리즘과 같은 종류의 변환 알고리즘에 의해 실행된다.
시간 도메인, 예컨대, LPC 도메인으로부터의 선택적 변환은, LPC 잔여 신호 또는 여기 신호를 생성시키는 시간 도메인 신호, 또는 다른 LPC 도메인 신호를 LPC 기반 필터링의 결과이다. 변환 전에 실질적인 수의 신호 샘플에 영향을 주는 필터링된 신호를 생성시키는 어떤 다른 필터링 동작은 경우에 따라 변환 알고리즘으로서 이용될 수 있다. 그래서, LPC 도메인에서 신호를 생성시키는 추가적 변환은 LPC 기반 가중 필터를 이용하여 오디오 신호를 가중시킨다. 시간/주파수 변환에서, 단일 스펙트럼 값의 수정은 변환 전에 모든 시간 도메인 값에 영향을 줄 것이다. 유사하게도, 어떤 시간 도메인 샘플의 수정은 각 주파수 도메인 샘플에 영향을 줄 것이다. 마찬가지로, LPC 도메인 상황에서의 여기 신호의 샘플의 수정은, LPC 필터의 길이로 인해, LPC 필터링 전에 실질적 수의 샘플에 영향을 줄 것이다. 마찬가지로, LPC 변환 전의 샘플의 수정은 LPC 필터의 고유 메모리 효과로 인해 이런 LPC 변환에 의해 획득되는 많은 샘플에 영향을 줄 것이다.
도 3c의 오디오 인코더는 제 1 인코딩된 신호를 생성시키는 제 1 코딩 브랜치(522)를 포함한다. 이런 제 1 인코딩된 신호는, 바람직한 실시예에서는, 시간 스펙트럼 도메인, 즉 시간 도메인 신호가 시간/주파수 변환을 통해 처리될 시에 획득되는 도메인인 제 4 도메인 내에 있을 수 있다.
그래서, 오디오 신호를 인코딩하는 제 1 코딩 브랜치(522)는 제 1 코딩 알고리즘을 이용하여 제 1 인코딩된 신호를 획득하며, 여기서, 이런 제 1 코딩 알고리즘은 시간/주파수 변환 알고리즘을 포함할 수 있거나 포함할 수 없다.
오디오 인코더는 오디오 신호를 인코딩하는 제 2 코딩 브랜치(523)를 더 포함한다. 제 2 코딩 브랜치(523)는 제 2 코딩 알고리즘을 이용하여 제 2 인코딩된 신호를 획득하며, 제 2 코딩 알고리즘은 제 1 코딩 알고리즘과 상이하다.
오디오 인코더는 제 1 코딩 브랜치(522)와 제 2 코딩 브랜치(523, 524) 간에 스위칭하는 제 1 스위치(521)를 더 포함함으로써, 오디오 입력 신호의 부분에 대해, 블록(522)의 출력에서의 제 1 인코딩된 신호 또는 제 2 인코딩 브랜치의 출력에서의 제 2 인코딩된 신호 중 어느 하나는 인코더의 출력 신호에 포함된다. 따라서, 오디오 입력 신호(195)의 어떤 부분에 대해, 제 4 도메인 내의 제 1 인코딩된 신호가 인코더의 출력 신호 내에 포함될 시에, 제 2 도메인 내의 제 1 처리된 신호 또는 제 3 도메인 내의 제 2 처리된 신호 중 어느 하나인 제 2 인코딩된 신호는 인코더의 출력 신호 내에 포함되지 않는다. 이것은 이런 인코더가 비트 레이트 효율적임을 확신한다. 실시예들에서, 2개의 서로 다른 인코딩된 신호 내에 포함되는 오디오 신호의 어떤 시간 부분은 도 3e와 관련하여 논의되는 바와 같이 프레임의 프레임 길이에 비해 작다. 이들 작은 부분은, 어떤 크로스 페이드 없이 생성할 수 있는 아티팩트(artifact)들을 감소시키기 위해 스위치 이벤트(event)의 경우에 한 인코딩된 신호에서 다른 인코딩된 신호로의 크로스 페이드에 유용하다. 그래서, 크로스 페이드 영역을 제외하고, 각 시간 도메인 블록은 단일 도메인만의 인코딩된 신호로 나타낸다.
도 3c에 도시된 바와 같이, 제 2 코딩 브랜치(523)는, 제 1 도메인 내의 오디오 신호, 신호(195)를 제 2 도메인으로 변환하는 변환기(521), 및 바이패스(50)를 뒤따른다. 더욱이, 제 1 처리 브랜치(522)는, 바람직하게는, 또한 제 1 처리 브랜치(522)가 도메인 변경을 실행하지 않도록 제 2 도메인 내에 있거나, 제 1 도메인 내에 있는 제 1 처리된 신호를 획득한다.
제 2 인코딩 브랜치(523, 524)는, 오디오 신호를, 제 1 도메인과 상이하고, 또한 제 2 도메인과도 상이한 제 3 도메인 또는 제 4 도메인으로 변환하여, 제 2 처리 브랜치(523, 524)의 출력에서 제 2 처리된 신호를 획득하도록 한다.
더욱이, 코더는 제 1 처리 브랜치(522)와 제 2 처리 브랜치(523, 524) 간에 스위칭하는 스위치(521)를 포함하며, 여기서, 이 스위치는 도 1c의 스위치(200)에 대응한다.
도 3d는 도 3c의 인코더에 의해 생성되는 인코딩된 오디오 신호를 디코딩하기 위한 대응하는 디코더를 도시한다. 일반적으로, 제 1 도메인 오디오 신호의 각 블록은, 바람직하게는, 임계 샘플링 한계(critical sampling limit)에서 가능한 많은 시스템을 획득하기 위해 한 프레임의 길이에 비해 짧은 선택적 크로스 페이드 영역을 제외하고, 제 2 또는 1 도메인 신호, 또는 제 3 또는 4 도메인 인코딩된 신호로 나타낸다. 인코딩된 오디오 신호는 제 1 코딩된 신호, 제 2 코딩된 신호를 포함하며, 여기서, 제 1 코딩된 신호 및 제 2 코딩된 신호는 디코딩된 오디오 신호의 서로 다른 시간 부분에 관계하고, 디코딩 오디오 신호에 대한 제 2 도메인, 제 3 도메인 및 제 1 도메인은 서로 상이하다.
디코더는 제 1 코딩 알고리즘에 기반으로 하여 디코딩하는 제 1 디코딩 브랜치를 포함한다. 제 1 디코딩 브랜치는 도 3d에서 (531)로 도시된다.
도 3d의 디코더는 수개의 요소를 포함하는 제 2 디코딩 브랜치(533, 534)를 더 포함한다.
디코더는, 제 1 또는 2 도메인 내의 신호를 획득하도록 제 1 역 처리된 신호와 제 2 역 처리된 신호를 조합하는 제 1 조합기(532)를 더 포함하며, 이 조합된 신호는, 제 1 시간 인스턴트(time instant)에서, 제 1 역 처리된 신호에 의해서만 영향을 받고, 나중 시간 인스턴트에서는, 제 2 역 처리된 신호에 의해서만 영향을 받는다.
디코더는 조합된 신호를 제 1 도메인으로 변환하는 변환기(540) 및 스위치 가능한 바이패스(52)를 더 포함한다.
최종으로, 도 3d에 도시된 디코더는, 제 1 도메인 내에서 디코딩된 출력 신호를 획득하도록 바이패스(52)로부터의 디코딩된 제 1 신호와 변환기(540)의 출력 신호를 조합하는 제 2 조합기(600)를 포함한다. 다시말하면, 제 1 도메인에서의 디코딩된 출력 신호는, 제 1 시간 인스턴트에서, 변환기(540)에 의해 출력되는 신호에 의해서만 영향을 받고, 나중 시간 인스턴트에서는, 바이패스된 신호에 의해서만 영향을 받는다.
이런 상황은, 인코더 원근도(perspective)로부터, 도 3e에 도시되어 있다. 도 3e의 상위 부분은, 시간 지수가 좌측에서 우측으로 증가하는 시간 도메인 오디오 신호와 같은 제 1 도메인 오디오 신호를 개략적으로 도시하며, 항목 3은 도 3c에서 신호(195)를 나타내는 오디오 샘플의 스트림으로서 고려될 수 있다. 도 3e는 도 3e의 항목 4에 도시된 바와 같이 제 1 인코딩된 신호와 제 2 인코딩된 신호 간에 스위칭함으로써 생성될 수 있는 프레임(3a, 3b, 3c, 3d)을 도시한다. 제 1 인코딩된 신호 및 제 2 인코딩된 신호는 모두 서로 다른 도메인 내에 있다. 서로 다른 도메인 간의 스위칭이 디코더측 상에서 확실히 아티팩트를 생성시키지 않게 하기 위해, 시간 도메인 신호의 프레임(3a, 3b, 3c, ...)은 크로스 페이드 영역으로서 표시되는 오버랩 범위를 갖는다. 그러나, 프레임(3d)이 또한 이전의 신호(3c)와 동일한 도메인 내의 신호로 나타낼 수 있음을 의미하는 프레임(3d, 3c) 간에는 그와 같은 크로스 페이드 영역이 존재하지 않으며, 프레임(3c 및 3d) 간에는 도메인 변경이 없다.
그래서, 일반적으로, 도메인 변경이 없는 경우에는 크로스 페이드 영역을 제공하지 않고, 도메인 변경이 있을 시에는, 즉 2개의 스위치 중 어느 하나의 스위칭 동작이 있을 시에는 크로스 페이드 영역, 즉 2개의 연속 코딩/처리된 신호에 의해 인코딩되는 오디오 신호의 부분을 제공하는 것이 바람직하다.
제 1 인코딩된 신호 또는 제 2 처리된 신호가 예컨대 50 퍼센트 오버랩을 가진 MDCT 처리에 의해 생성된 실시예에서, 각 시간 도메인 샘플은 2개의 연속 프레임 내에 포함된다. 그러나, MDCT의 특성으로 인해, 이것은 MDCT가 임계 샘플링된 시스템이므로 오버헤드를 생성하지 않는다. 이와 관련해서, 임계 샘플링된다는 것은 스펙트럼 값의 수가 시간 도메인 값의 수와 동일하다는 것을 의미한다. 임계 샘플링 요건을 위반하는 어떤 오버헤드 없이 MDCT 블록에서 다음 MDCT 블록으로의 크로스오버가 제공되도록 MDCT는 특정 크로스오버 영역 없이 크로스오버 효과가 제공된다는 점에서 유익하다.
바람직하게는, 제 1 코딩 브랜치의 제 1 코딩 알고리즘은 정보 싱크 모델에 기반으로 하고, 제 2 코딩 브랜치의 제 2 코딩 알고리즘은 정보원 또는 SNR 모델에 기반으로 한다. SNR 모델은, 특히 특정 소리 생성 메카니즘에 관계되지 않고, 예컨대, 폐루프 결정에 기반으로 하여 다수의 코딩 모드 중에서 선택될 수 있는 한 코딩 모드인 모델이다. 따라서, SNR 모델은 어떤 이용 가능한 코딩 모델이지만, 반드시 소리 생성기의 물리적 구성에 관계될 필요가 없고, 폐루프 결정에 의해, 특히 서로 다른 모델로부터의 서로 다른 SNR 결과를 비교함으로써 선택될 수 있는 정보 싱크 모델과 상이한 어떤 파라미터화된 코딩 모델이다.
도 3c에 도시된 바와 같이, 제어기(300, 525)가 제공된다. 이런 제어기는 도 1c의 결정 단계(300)의 기능을 포함할 수 있다. 일반적으로, 제어기는 도 1c의 바이패스 및 스위치(200)를 신호 적응 방식으로 제어한다. 이 제어기는, 바이패스로 입력되거나, 제 1 또는 2 코딩 브랜치에 의해 출력되는 신호, 또는 타겟 함수에 대해 제 1 및 2 인코딩 브랜치로부터 인코딩 및 디코딩함으로써 획득되는 신호를 분석하도록 동작한다. 선택적으로, 또는 부가적으로, 제어기는, 스위치로 입력되거나, 제 1 처리 브랜치 또는 제 2 처리 브랜치에 의해 출력되며, 또는 다시 타겟 함수에 대해 제 1 처리 브랜치 및 제 2 처리 브랜치로부터 처리 및 역 처리함으로써 획득되는 신호를 분석하도록 동작한다.
한 실시예에서, 제 1 코딩 브랜치 또는 제 2 코딩 브랜치는 MDCT 또는 MDST 알고리즘과 같은 에일리어싱(aliasing) 도입 시간/주파수 변환 알고리즘을 포함하며, 이 변환 알고리즘은 에일리어싱 효과를 도입하지 않는 직통 FFT 변환과는 상이하다. 더욱이, 하나 또는 양방의 브랜치는 양자화기/엔트로피 코더 블록을 포함한다. 특히, 제 2 코딩 브랜치의 제 2 처리 브랜치만이 에일리어싱 동작을 도입하는 시간/주파수 변환기를 포함하며, 제 2 코딩 브랜치의 제 1 처리 브랜치는 양자화기 및/또는 엔트로피 코더를 포함하고, 어떠한 에일리어싱 효과를 도입하지 않는다. 에일리어싱 도입 시간/주파수 변환기는 바람직하게는 분석 윈도우 및 MDCT 변환 알고리즘을 적용하는 윈도워(windower)를 포함한다. 특히, 윈도워는, 윈도우화된(windowed) 신호의 샘플이 적어도 2개의 연속 윈도우화된 프레임에서 생성하도록 윈도우 함수를 다음 프레임에 오버랩 방식으로 적용하도록 동작한다.
한 실시예에서, 제 1 처리 브랜치는 ACELP 코더를 포함하고, 제 2 처리 브랜치는 MDCT 스펙트럼 변환기 및 스펙트럼 성분을 양자화하는 양자화기를 포함하여, 양자화된 스펙트럼 성분을 획득하며, 여기서, 각 양자화된 스펙트럼 성분은 0이거나, 다수의 서로 다른 가능 양자화기의 인덱스 중 하나의 양자화기의 인덱스에 의해 정의된다.
상술한 바와 같이, 양방의 코딩 브랜치는 오디오 신호를 블록 방식(block wise manner)으로 인코딩하도록 동작하며, 여기서, 신호의 미리 정의된 수의 샘플의 블록 후에 스위칭 또는 바이패스 동작이 최저 한도로 일어나도록 바이패스 또는 스위치는 블록 방식으로 동작하며, 미리 정의된 수는 대응하는 스위치에 대한 프레임 길이를 형성한다. 따라서, 바이패스에 의해 바이패스하기 위한 그래뉼(granule)은, 예컨대, 2048 또는1028 샘플의 블록일 수 있으며, 바이패스가 스위칭하는 프레임 길이는 가변적일 수 있지만, 바람직하게는, 이와 같이 아주 긴 주기로 고정된다.
이와는 대조적으로, 스위치(200)에 대한 블록 길이는, 즉, 스위치(200)가 한 모드에서 다른 모드로 스위칭할 시에, 실질적으로 제 1 스위치에 대한 블록 길이보다 작다. 바람직하게는, 스위치에 대한 양방의 블록 길이는 보다 긴 블록 길이가 보다 짧은 블록 길이의 정수배이다. 바람직한 실시예에서, 제 1 스위치의 블록 길이는 2048이고, 제 2 스위치의 블록 길이는 1024, 또는 더욱 바람직하게는, 512, 더더욱 바람직하게는, 256, 더더욱 바람직하게는 256 또는 심지어 128 샘플임으로써, 최대 한도로, 바이패스가 단 한번만 변경할 시에 스위치가 16번 스위칭할 수 있도록 한다.
다른 바람직한 실시예에서, 제어기(300)는, 음악에 대한 결정에 대하여 음성에 대한 결정이 선호되는 식으로 제 1 스위치에 대한 음성 음악 판별을 실행하도록 동작한다. 이 실시예에서, 제 1 스위치에 대한 프레임의 50% 미만의 부분이 음성이고, 프레임의 50% 이상의 부분이 음악일 시에도 음성에 대한 결정이 취해진다.
더욱이, 제 1 프레임의 아주 작은 부분이 음성이고, 특히, 보다 작은 제 2 프레임의 길이의 50%인 제 1 프레임의 부분이 음성일 시에, 제어기는 이미 음성 모드로 스위칭하도록 동작한다. 따라서, 음성/선호 스위칭 결정은, 예컨대, 제 1 스위치의 프레임 길이에 대응하는 블록의 6% 또는 12%만이 음성일 시에도 이미 음성으로 전환한다.
이런 절차는, 한 실시예에서 핵심적인 유성 음성(voiced speech)을 가진 제 1 처리 브랜치의 비트 레이트 절약 능력을 충분히 이용하고, 제 2 처리 브랜치가 변환기를 포함하여, 또한 비음성 신호를 가진 오디오 신호에 유용하다는 사실로 인해 비음성인 큰 제 1 프레임의 나머지에 대해서도 어떤 품질을 저하시키지 않도록 하기 위해 바람직하다. 바람직하게는, 이런 제 2 처리 브랜치는, 임계적으로 샘플링되고, 작은 윈도우 사이즈에서도, 디코더측 상에서 오버랩 및 가산과 같은 시간 도메인 에일리어싱 제거 처리로 인해 매우 효율적인 에일리어싱없는 동작을 제공하는 오버랩 MDCT를 포함한다. 더욱이, 바람직하게는, AAC형 MDCT 인코딩 브랜치인 제 1 인코딩 브랜치에 대한 큰 블록 길이가 유용한데, 그 이유는, 비음성 신호가 보통은 아주 변화가 없고, 긴 변환 윈도우가 고주파 분해능을 제공하여, 고품질을 제공하며, 부가적으로, 또한 제 2 코딩 브랜치의 제 2 처리 브랜치에서의 변환 기반 코딩 모드에 적용될 수 있는 심리 음향 제어된 양자화 모듈로 인해 비트 레이트 효율을 제공하기 때문이다.
도 3d의 디코더 예시에 관해, 송신된 신호는 도 3e에 도시된 바와 같이 보조 정보(4a)로서 명시적인 인디케이터를 포함하는 것이 바람직하다. 이 보조 정보(4a)는, 도 3d에서, 대응하는 제 1 처리된 신호 및 제 2 처리된 신호를 제 1 역 처리 브랜치 또는 제 2 역 처리 브랜치와 같은 적당한 프로세서로 전송하기 위해 도 3d에 도시되지 않은 비트 스트림 파서(parser)에 의해 추출된다. 그래서, 인코딩된 신호는 인코딩/처리된 신호를 가질 뿐만 아니라, 이들 신호에 관계하는 보조 정보도 포함한다. 그러나, 다른 실시예에서는, 디코더측 비트 스트림 파서가 어떤 신호를 구별하도록 하는 암시적인 신호가 존재할 수 있다. 도 3e에 관해, 제 1 처리된 신호 또는 제 2 처리된 신호는 제 2 코딩 브랜치의 출력이어서, 제 2 코딩된 신호이다.
바람직하게는, 제 1 디코딩 브랜치 및/또는 제 2 역 처리 브랜치는 스펙트럼 도메인에서 시간 도메인으로 변환하는 MDCT 변환을 포함한다. 이 때문에, 블록화 아티팩트(blocking artifacts)를 회피하기 위해 동시에 크로스 페이드 효과를 제공하는 시간 도메인 에일리어싱 제거 기능을 실행하도록 오버랩-가산기가 제공된다. 일반적으로, 제 1 디코딩 브랜치는 제 4 도메인에서 인코딩된 신호를 제 1 도메인으로 변환하지만, 제 2 역 처리 브랜치는 제 3 도메인에서 제 2 도메인으로의 변환을 실행하며, 그 다음에 제 1 조합기에 접속되는 변환기는 제 2 도메인에서 제 1 도메인으로의 변환을 제공함으로써, 도 3d의 실시예에서 디코딩된 출력 신호를 나타내는 제 1 도메인 신호만이 조합기(600)의 입력에 있도록 한다.
도 4c는 바람직한 디코더 구현의 다른 양태를 도시한다. 특히, 제 1 디코더가 시간 에일리어싱 생성 디코더 또는 일반적으로는 주파수 도메인 디코더이고, 제 2 디코더가 시간 도메인 장치인 상황에서 가청 아티팩트를 회피하기 위해, 제 1 디코더(450) 및 제 2 디코더(550)에 의해 출력되는 블록 또는 프레임 간의 경계는 특히 스위칭 상황에서 완전히 연속적이지 않게 한다. 따라서, 제 1 디코더(450)의 제 1 블록이 출력되고, 그 다음 시간 부분에 대해, 제 2 디코더의 블록이 출력되면, 크로스 페이드 블록(607)으로 도시된 바와 같이 크로스 페이드 동작을 실행하는 것이 바람직하다. 이 때문에, 크로스 페이드 블록(607)은 도 4c에 도시된 바와 같이 (607a), (607b) 및 (607c)에서 구현될 수 있다. 각 브랜치는 정규화 스케일(normalized scale)에서 0과 1 사이의 가중 계수 m1를 가진 웨이터(weighter)를 가질 수 있으며, 여기서, 가중 계수는 플롯(609)에 나타낸 바와 같이 변화할 수 있으며, 이와 같은 크로스 페이드 규칙은, 부가적으로, 사용자가 어떤 라우드니스 변화(loudness variation)를 확실히 지각하지 못하는 연속적이고 유연한 크로스 페이딩이 일어남을 확인한다. sin2 크로스 페이드 규칙과 같은 비선형 크로스페이드 규칙은 선형 크로스페이드 규칙 대신에 적용될 수 있다.
어떤 경우에, 제 1 디코더의 최종 블록은 윈도우가 실제로 이런 블록의 페이드 아웃(fade out)을 실행한 윈도우를 이용하여 생성되었다. 이 경우에, 블록(607a)의 가중 계수 m1는 1과 동일하고, 실제로, 이 브랜치에는 가중이 전혀 필요치 않는다.
제 2 디코더에서 제 1 디코더로의 스위치가 발생하고, 제 2 디코더가 실제로 블록의 단부로의 출력을 페이드 아웃하는 윈도우를 포함할 시에, "m2"로 표시된 웨이터가 필요치 않거나, 가중 파라미터가 전체 크로스 페이드 영역 내내 1로 설정될 수 있다.
스위치 후에 제 1 블록이 윈도우화 동작을 이용하여 생성되고, 이 윈도우가 실제로 페이드 인(fade in) 동작을 실행하였을 시에, 대응하는 가중 계수는 또한 1로 설정되어, 웨이터가 실제로 필요치 않을 수 있다. 그래서, 디코더에 의해 페이드 아웃하기 위해 최종 블록이 윈도우화되고, 페이드 인을 제공하기 위해 디코더를 이용하여 스위치 후에 제 1 블록이 윈도우화될 시에, 웨이터(607a, 607b)는 전혀 필요치 않으며, 가산기(607c)에 의한 부가적 동작이 충분하다.
이 경우에, 최종 프레임의 페이드 아웃 부분 및, 다음 프레임의 페이드 인 부분은 블록(609)에 표시된 크로스 페이드 영역을 정의한다. 더욱이, 이와 같은 상황에서, 한 디코더의 최종 블록이 다른 디코더의 제 1 블록과의 어떤 시간 오버랩을 갖는 것이 바람직하다.
크로스 페이드 동작이 필요치 않거나 가능하지 않으며, 또는 원하지 않으며, 한 디코더에서 다른 디코더로의 하드 스위치(hard switch)만이 존재하면, 이와 같은 스위치를, 오디오 신호의 조용한 통로(silent passages)에서, 또는 에너지가 적고, 즉, 조용하거나 거의 조용한 것으로 지각되는 적어도 오디오 신호의 통로에서 실행하는 것이 바람직하다. 바람직하게는, 결정 단계(300)는, 이와 같은 실시예에서, 스위치 이벤트에 뒤따르는 대응하는 시간 부분이, 예컨대, 오디오 신호의 평균 에너지보다 낮으며, 바람직하게는, 예컨대, 오디오 신호의 2 이상의 시간 부분/프레임에 관계되는 오디오 신호의 평균 에너지의 50% 미만인 에너지를 가질 시에만 스위치(200)가 확실히 활성화되게 한다.
바람직하게는, 제 2 인코딩 규칙/디코딩 규칙은 LPC 기반 코딩 알고리즘이다. LPC 기반 음성 코딩에서, 준주기적 임펄스형 여기 신호 세그먼트 또는 신호 부분, 및 잡음형 여기 신호 세그먼트 또는 신호 부분 간의 구별이 행해진다. 이것은 도 7b에서와 같이 상당한 저 비트 레이트 LPC 보코더(2.4 kbps)에 대해 실행된다. 그러나, 중간 레이트 CELP 코더에서는, 적응 코드북 및 고정된 코드북으로부터의 스케일링된 벡터(scaled vectors)의 가산을 위해 여기가 획득된다.
준주기적 임펄스형 여기 신호 세그먼트, 즉, 특정 피치를 가진 신호 세그먼트는 잡음형 여기 신호와 다른 메카니즘으로 코딩된다. 준주기적 임펄스형 여기 신호가 유음 음성에 접속될 동안, 잡음형 신호는 무음 음성에 관계된다.
예시적으로, 도 5a 내지 5d에 대한 참조가 행해진다. 여기서, 준주기적 임펄스형 신호 세그먼트 또는 신호 부분, 및 잡음형 신호 세그먼트 또는 신호 부분은 예시적으로 논의된다. 특히, 시간 도메인에서의 도 5a 및 주파수 도메인에서의 도 5b에 도시된 바와 같은 유음 음성은 준주기적 임펄스형 신호 부분에 대한 일례로서 논의되고, 잡음형 신호 부분에 대한 일례로서의 무음 음성 세그먼트는 도 5c 및 5d와 관련하여 논의된다. 음성은 일반적으로 유음, 무음, 또는 혼합으로서 분류될 수 있다. 샘플링된 유음 및 무음 세그먼트에 대한 시간 및 주파수 도메인 플롯은 도 5a 내지 5d에 도시되어 있다. 유음 음성은 시간 도메인에서 준주기적이고, 주파수 도메인에서 하모닉 구조화(harmonically structured)되지만, 무음 음성은 랜덤형이고, 광대역이다. 유음 음성의 단시간 스펙트럼은 이의 파인(fine) 및 포먼트(formant) 구조를 특징으로 한다. 파인 하모닉 구조는 음성의 준주기성의 결과이고, 진동 성대(vibrating vocal chord)라 생각될 수 있다. 포먼트 구조 (스펙트럼 엔벨로프)는 소스 및 성도(vocal tracts)의 상호 작용에 기인한다. 이런 성도는 인두 및 입구멍(pharynx and mouth cavity)으로 이루어진다. 유음 음성의 단시간 스펙트럼에 "맞는(fits)" 스펙트럼 엔벨로프는 성문 펄스(glottal pulse)로 인해 성도 및 스펙트럼 기울기 (6 dB/Octave)의 전달 특성과 관련된다. 스펙트럼 엔벨로프는 포먼트라 불리우는 피크의 세트를 특징으로 한다. 포먼트는 성도의 공진 모드이다. 평균 성도에 대해, 5 kHz 미만의 3 내지 5 포먼트가 있다. 보통 3 kHz 미만에서 발생하는 제 1의 3개의 포먼트의 진폭 및 위치는 양자 모두 음성 합성 및 지각에서 매우 중요하다. 보다 고 포먼트는 또한 광대역 및 무음 음성 표현에 중요한다. 음성의 특성은 다음과 같이 물리적 음성 생성 시스템에 관계된다. 유음 음성은 진동 성대에 의해 생성되는 준주기적 성문 공기 펄스로 성도를 여기시킴으로써 생성된다. 주기적 펄스의 주파수는 기본적인 주파수 또는 피치로서 지칭된다. 무음 음성은 성도의 수축을 통해 공기가 강제로 들어감으로써 생성된다. 콧소리(nasal sounds)는 성도에 대한 비강(nasal tract)의 음향 결합에 기인하며, 파열음(plosive sounds)은 성도의 폐쇄로 형성된 공기 압력을 갑자기 해제함으로써 생성된다.
따라서, 오디오 신호의 잡음형 부분은, 예컨대 도 5a 및 도 5b에 도시된 바와 같은 준주기적 임펄스형 부분과 상이한 도 5c 및 도 5d에 도시된 바와 같은 어떤 임펄스형 시간 도메인 구조도 나타내지 못하고 하모닉 주파수 도메인 구조도 나타내지 못한다. 그러나, 나중에 약술되는 바와 같이, 잡음형 부분과 준주기적 임펄스형 부분 간의 구별은 또한 여기 신호에 대해 LPC 후에 알게 될 수 있다. LPC는 성도를 모델링하여, 상기 신호로부터 성도의 여기를 추출하는 방법이다.
더욱이, 준주기적 임펄스형 부분 및 잡음형 부분은 적절한 시기에 생성할 수 있으며, 즉, 이는 오디오 신호의 부분이 시간적으로 잡음이 있고, 오디오 신호의 다른 부분은 시간적으로 준주기적, 즉 토널(tonal)이다는 것을 의미한다. 선택적으로, 또는 부가적으로, 신호의 특성은 서로 다른 주파수 대역에서는 상이할 수 있다. 따라서, 오디오 신호가 잡음이 있는지 토널인지의 결정은 또한 주파수 선택적으로 실행되어, 어떤 주파수 대역 또는 수개의 어떤 주파수 대역이 잡음이 있는 것으로 고려되고, 다른 주파수 대역이 토널인 것으로 고려될 수 있다. 이 경우에, 오디오 신호의 어떤 시간 부분은 토널 성분 및 잡음 성분을 포함할 수 있다.
도 7a는 음성 생성 시스템의 선형 모델을 도시한다. 이 시스템은 2 단계 여기, 즉, 도 7c에 나타낸 바와 같은 유성 음성에 대한 임펄스 트레인(impulse-train) 및, 도 7d에 나타낸 바와 같은 무성 음성에 대한 랜덤 잡음을 나타낸다. 성도는, 성문 모델(72)에 의해 생성되는 도 7c 또는 7d의 펄스를 처리하는 전폴 필터(all-pole filter)(70)로서 모델링된다. 그래서, 도 7a의 시스템은, 이득 단계(77), 포워드 경로(78), 피드백 경로(79), 및 가산 단계(80)를 가진 도 7b의 전폴 필터 모델로 축소될 수 있다. 피드백 경로(79)에서는, 예측 필터(81)가 있고, 도 7b에 도시된 전체 소스-모델 합성은 다음과 같이 z-도메인 함수를 이용하여 표현될 수 있다.
S(z)=g/(1-A(z))ㆍX(z),
여기서,g는 이득을 나타내고, A(z)는 LP 분석으로 결정되는 바와 같은 예측 필터이며, X(z)는 여기 신호이고, S(z)는 합성 음성 출력이다.
도 7c 및 7d는 선형 소스 시스템 모델을 이용하여 유음 및 무음 음성 합성에 대한 그래프 시간 도메인 설명을 제공한다. 이 시스템 및 상기 식에서의 여기 파라미터는 알려져 있지 않아, 유한 세트의 음성 샘플로부터 결정되어야 한다. A(z)의 계수는 입력 신호의 선형 예측 및 필터 계수의 양자화를 이용하여 획득된다. p차 포워드 선형 예측기에서, 음성 시퀀스의 제공된 샘플은 p 통과된 샘플의 선형 조합으로부터 예측된다. 예측기 계수는 Levinson-Durbin 알고리즘과 같이 잘 알려진 알고리즘, 또는 일반적으로 자기 상관법(autocorrelation method) 또는 반사법으로 결정될 수 있다.
도 7e는 LPC 분석 블록(510)의 더욱 상세한 구현을 도시한 것이다. 오디오 신호는 필터 정보(A(z))를 결정하는 필터 결정 블록으로 입력된다. 이 정보는 디코더에 필요로 되는 단기간 예측 정보로서 출력된다. 이 정보는, 예컨대, AMR-WB+ 사양으로부터 알려져 있는 바와 같이 양자화기(81)에 의해 양자화된다. 단기간 예측 정보는 실제 예측 필터(85)에 의해 필요로 된다. 감산기(86)에서, 오디오 신호의 현재 샘플은 입력되고, 현재 샘플에 대한 예측 값은 감산되어, 이 샘플에 대해, 예측 에러 신호가 라인(84)에서 생성되도록 한다. 이와 같은 예측 에러 신호 샘플의 시퀀스는 도 7c 또는 7d에 상당히 개략적으로 도시된다. 그래서, 도 7c, 7d는 정류된 임펄스형 신호의 종류로서 간주될 수 있다.
도 7e가 여기 신호를 계산하는 바람직한 방법을 도시하지만, 도 7f는 가중 신호를 계산하는 바람직한 방법을 도시한다. 도 7e와는 대조적으로, 필터(85)는 γ가 1과 다를 시에 다르다. γ에 대해 1보다 작은 값이 바람직하다. 더욱이, 블록(87)이 제공되고, μ는 1보다 작은 수가 바람직하다. 일반적으로, 도 7e 및 7f의 요소는 3GPP TS 26.190 또는 3GPP TS 26.290에서와 같이 구현될 수 있다.
도 7g는 도 2b의 요소(537)에서와 같이 디코더측 상에서 적용될 수 있는 역 처리를 도시한다. 특히, 블록(88)은 가중 신호로부터 비가중 신호를 생성하고, 블록(89)은 비가중 신호로부터 여기를 계산한다. 일반적으로, 도 7g에서 비가중 신호를 제외한 모든 신호는 LPC 도메인에 있지만, 여기 신호 및 가중 신호는 동일한 도메인에서는 상이한 신호이다. 블록(89)은 블록(536)의 출력과 함께 이용될 수 있는 여기 신호를 출력한다. 그 후, 공통 역 LPC 변환은 도 2b의 블록(540)에서 실행될 수 있다.
그 다음에, 이런 알고리즘에 적용되는 수정을 예시하기 위해 도 6과 관련하여 분석-합성 CELP 인코더가 논의될 것이다. 이런 CELP 인코더는, "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No. 10, October 1994, pages 1541-1582에 상세히 논의되어 있다. 도 6에 도시된 바와 같은 CELP 인코더는 장기간 예측 성분(60) 및 단기간 예측 성분(62)을 포함한다. 더욱이, (64)에 나타낸 코드북이 이용된다. 지각적 가중 필터 W(z)는 (66)에서 구현되고, 에러 최소화 제어기는 (68)에서 제공된다. s(n)은 시간 도메인 입력 신호이다. 지각적으로 가중된 후에, 가중 신호는, 블록(66)의 출력에서의 가중 합성 신호와 원래의 가중 신호 sw(n) 간의 에러를 계산하는 감산가(69)로 입력된다. 일반적으로, 단기간 예측 필터 계수
Figure pct00002
는 LP 분석 단계에 의해 계산되고, 그의 계수는 도 7e에 나타낸 바와 같이 A(z)에서 양자화된다. 장기간 예측 이득 g을 포함하는 장기간 예측 정보 AL(z) 및 벡터 양자화 인덱스, 즉, 코드북 레퍼런스(codebook references)는 도 7e에서 (10a)로서 지칭된 LPC 분석 단계의 출력에서의 예측 에러 신호로 계산된다. LTP 파라미터는 피치 지연 및 이득이다. CELP에서, 이것은 보통 (잔여가 아닌) 지난 여기 신호를 포함하는 적응 코드북으로서 구현된다. 적응 CB 지연 및 이득은 평균 제곱 가중 에러 (폐루프 피치 검색)를 최소화함으로써 검색된다.
그 후, CELP 알고리즘은, 예컨대, 가우시안(Gaussian) 시퀀스의 코드북을 이용하여 단기간 및 장기간 예측 후에 획득되는 잔여 신호를 인코딩한다. "A"가 "Algebraic"를 나타내는 ACELP 알고리즘은 대수적으로 설계된 특정 코드북을 갖는다.
코드북은 각 벡터가 일부 샘플 길이인 다소의 벡터를 포함할 수 있다. 이득 계수 g는 코드 벡터를 스케일링하고, 이득 코드는 장기간 예측 합성 필터 및 단기간 예측 합성 필터에 의해 필터링된다. "최적" 코드 벡터는, 감산기(69)의 출력에서의 지각적 가중 평균 제곱 에러가 최소화되도록 선택된다. CELP에서의 검색 프로세스는 도 6에 도시된 바와 같이 분석-합성 최적화에 의해 행해진다.
특정 경우에, 프레임이 무음 및 유음 음성의 혼합이거나 음악에 걸친 음성이 생성할 시에, TCX 코딩은 LPC 도메인에서의 여기를 코딩하는데 더욱 적절할 수 있다. TCX 코딩은, 여기 생성에 대한 어떤 추정을 행하지 않고 주파수 도메인에서의 가중 신호를 처리한다. TCX는 이때 CELP 코딩보다 더 일반적이고, 여기의 유음 및 무음 소스 모델로 제한받지 않는다. TCX는 여전히 음성형 신호의 포먼트를 모델링하는 선형 예측 필터를 이용하는 소스-파일러(source-filer) 모델 코딩이다.
AMR-WB+형 코딩에서, 서로 다른 TCX 모드와 ACELP 간의 선택이 AMR-WB+ 설명으로부터 알려진 바와 같이 생성한다. TCX 모드는, 블록 방식 이산 푸리에 변환의 길이가 서로 다른 모드에 대해서는 상이하고, 분석-합성 접근법 또는 직접 "피드포워드(feedforward)" 모에 의해 최상의 모드가 선택될 수 있다는 점에서 다르다.
도 2c 및 2d와 관련하여 논의된 바와 같이, 공통 예비 처리 단계(100)는 바람직하게는 조인트 멀티채널 (서라운드/조인트 스테레오 장치)(101) 및, 부가적으로, 대역폭 확장 단계(102)를 포함한다. 이에 상응하여, 디코더는 대역폭 확장 단계(701) 및 그 다음에 접속된 조인트 멀티채널 단계(702)를 포함한다. 바람직하게는, 조인트 멀티채널 단계(101)는, 인코더에 대해, 대역폭 확장 단계(102) 전에 접속되고, 디코더측 상에서, 대역폭 확장 단계(701)는 신호 처리 방향에 대해 조인트 멀티채널 단계(702) 전에 접속된다. 그러나, 선택적으로, 공통 예비 처리 단계는, 다음에 접속된 대역폭 확장 단계 없이는 조인트 멀티채널 단계를 포함하거나, 접속된 조인트 멀티채널 단계 없이는 대역폭 확장 단계를 포함할 수 있다.
인코더측(101a, 101b) 및 디코더측(702a 및 702b) 상에서 조인트 멀티채널 단계에 대한 바람직한 예는 도 8과 관련하여 예시된다. 많은 E 원래의 입력 채널은 다운믹서(101a)로 입력되어, 다운믹서가 많은 K 송신된 채널을 생성시키는데, 여기서, 수 K는 1보다 크거나 동일하며, E보다 작거나 동일하다.
바람직하게는, E 입력 채널은 파라미트릭 정보를 생성하는 조인트 멀티채널 파라미터 분석기(101b)로 입력된다. 이 파라미트릭 정보는 바람직하게는 예컨대, 다른 인코딩 및 다음 허프만 인코딩 또는, 선택적으로 다음 산술 인코딩에 의해 엔트로피 인코딩된다. 블록(101d)에 의해 출력되는 인코딩된 파라미트릭 정보는 도 2b에서 항목(702)의 부분일 수 있는 파라미터 디코더(702b)로 송신된다. 파라미터 디코더(702b)는 송신된 파라미트릭 정보를 디코딩하여, 디코딩된 파라미트릭 정보를 업믹서(702a)로 전송한다. 업믹서(702a)는 K 송신된 채널을 수신하여, 많은 L 출력 채널을 생성시키는데, 여기서, L의 수는 K보다 크거나 동일하며, E보다 작거나 동일하다.
BCC 기술로부터 공지되어 있거나 MPEG 서라운드 표준에서 상세히 알려져 있고 기술되어 있는 바와 같이, 파라미트릭 정보는 채널간 레벨차, 채널간 시간차, 채널간 위상차 및/또는 채널간 코히어런스 측정을 포함할 수 있다. 송신된 채널의 수는 초저 비트 레이트 응용에 대한 단일 모노 채널일 수 있거나, 호환성 스테레오 응용을 포함하며, 또는 호환성 스테레오 신호, 즉, 2개의 채널을 포함할 수 있다. 전형적으로, E 입력 채널의 수는 5개일 수 있거나, 심지어 그 이상일 수 있다. 선택적으로, E 입력 채널의 수는 또한 공간 오디오 객체 코딩 (SAOC)과 관련하여 알려져 있는 바와 같은 E 오디오 객체일 수 있다.
한 구현에서, 다운믹서는, 원래의 E 입력 채널의 가중 또는 비가중 합(addition) 또는 E 입력 오디오 객체의 합을 실행한다. 입력 채널로서의 오디오 객체의 경우에, 조인트 멀티채널 파라미터 분석기(101b)는, 바람직하게는 각 시간 부분에 대한 오디오 객체, 더욱 바람직하게는 각 주파수 대역에 대한 오디오 객체 간의 상관 매트릭스와 같은 오디오 객체 파라미터를 계산할 것이다. 이 때문에, 전체 주파수 범위는 적어도 10 및 바람직하게는 32 또는 64 주파수 대역으로 분할될 수 있다.
도 9는 도 2a의 대역폭 확장 단계(102) 및 도 2b의 대응하는 대역폭 확장 단계(701)의 구현에 대한 바람직한 실시예를 도시한다. 인코더측 상에서, 대역폭 확장 블록(102)은 바람직하게는, 저역 통과 필터링 블록(102b), 저역 통과를 따르거나, QMF 대역의 절반에만 작용하는 역 QMF의 부분인 다운샘플러 블록, 및 고 대역 분석기(102a)를 포함한다. 대역폭 확장 블록(102)으로 입력되는 원래의 오디오 신호는 인코딩 브랜치 및/또는 스위치로 입력되는 저 대역 신호를 생성하도록 저역 통과 필터링된다. 저역 통과 필터는 3kHz 내지 10kHz의 범위 내에 있을 수 있는 차단 주파수를 갖는다. 더욱이, 대역폭 확장 블록(102)은, 스펙트럼 엔벨로프 파라미터 정보, 잡음 플로어 파라미터 정보, 역 필터링 파라미터 정보, 고 대역에서 어떤 하모닉 라인에 관계하는 다른 파라미트릭 정보 및, 스펙트럼 대역 복제에 관계되는 장에서의 MPEG-4 표준에서 상세히 논의되는 바와 같은 부가적 파라미터와 같은 대역폭 확장 파라미터를 계산하기 위한 고 대역 분석기를 더 포함한다.
디코더측 상에서, 대역폭 확장 블록(701)은 패처(patcher)(701a), 조정기(701b) 및 조합기(701c)를 포함한다. 조합기(701c)는 디코딩된 저 대역 신호 및, 조정기(701b)에 의해 출력되는 재구성되고 조정된 고 대역 신호를 조합한다. 조정기(701b)로의 입력은, 예컨대, 스펙트럼 대역 복제 또는, 일반적으로, 대역폭 확장에 의해 저 대역 신호로부터 고 대역 신호를 유도하도록 동작되는 패처에 의해 제공된다. 패처(701a)에 의해 실행되는 패칭(patching)은 하모닉 방식으로(in a harmonic way) 또는 비하모닉 방식으로 실행되는 패칭일 수 있다. 그 다음에, 패처(701a)에 의해 생성되는 신호는 송신된 파라미트릭 대역폭 확장 정보를 이용하여 조정기(701b)에 의해 조정된다.
도 8 및 도 9에 나타낸 바와 같이, 기술된 블록은 바람직한 실시예에서 모드 제어 입력을 가질 수 있다. 이 모드 제어 입력은 결정 단계(300)의 출력 신호로부터 유도된다. 이와 같은 바람직한 실시예에서, 대응하는 블록의 특성은 결정 단계 출력, 즉, 바람직한 실시예에서, 오디오 신호의 어떤 시간 부분에 대해 음성으로의 결정이 행해지는지 음악으로의 결정이 행해지는지의 결정 단계 출력에 적응될 수 있다. 바람직하게는, 모드 제어만이 이들 블록의 기능 중 하나 이상에 관계하지만, 이들 블록의 기능의 모두에는 관계하지 않는다. 예컨대, 결정은 패처(701a)에만 영향을 줄 수 있지만, 도 9의 다른 블록에는 영향을 줄 수 없으며, 또는, 예컨대, 도 8의 조인트 멀티채널 파라미터 분석기(101b)에만 영향을 줄 수 있지만, 도 8의 다른 블록에는 영향을 줄 수 없다. 이런 구현은 바람직하게는, 보다 고 유연성 및 보다 고 품질 및 보다 저 비트 레이트 출력 신호가 공통 예비 처리 단계에서 유연성을 제공함으로써 획득된다. 그러나, 다른 한편으로는, 양방의 종류의 신호에 대한 공통 예비 처리 단계에서의 알고리즘의 사용은 효율적인 인코딩/디코딩 기법을 구현하도록 한다.
도 10a 및 도 10b는 결정 단계(300)의 2개의 서로 다른 구현을 도시한다. 도 10a에서는, 개방 루프 결정이 표시된다. 여기서, 결정 단계에서의 신호 분석기(300a)는, 입력 신호의 어떤 시간 부분 또는 어떤 주파수 부분이 제 1 인코딩 브랜치(400) 또는 제 2 인코딩 브랜치(500)에 의해 이런 신호 부분이 인코딩됨을 필요로 하는 특성을 갖는지를 결정하기 위해 어떤 규칙을 갖는다. 이 때문에, 신호 분석기(300a)는, 공통 예비 처리 단계로의 오디오 입력 신호를 분석할 수 있거나, 공통 예비 처리 단계에 의해 출력되는 오디오 신호, 즉, 오디오 중간 신호를 분석할 수 있으며, 또는 다운믹스 신호의 출력과 같이 공통 예비 처리 단계 내의 중간 신호를 분석할 수 있는데, 상기 다운믹스 신호는 모노 신호일 수 있거나, 도 8에 표시된 k 채널을 가진 신호일 수 있다. 출력측 상에서, 신호 분석기(300a)는, 인코더측 상의 스위치(200), 또는 디코더측 상의 대응하는 스위치(600) 또는 조합기(600)를 제어하기 위한 스위칭 결정을 생성한다.
선택적으로, 결정 단계(300)는 폐루프 결정을 실행할 수 있는데, 이것은, 양방의 인코딩 브랜치가 이들의 태스크(tasks)를 오디오 신호의 동일한 부분에서 실행하고, 양방의 인코딩된 신호가 대응하는 디코딩 브랜치(300c, 300d)에 의해 디코딩된다는 것을 의미한다. 장치(300c 및 300d)의 출력은 비교기(300b)로 입력되며, 비교기(300b)는 디코딩 장치의 출력을 비교하여, 예컨대, 오디오 중간 신호의 대응하는 부분을 위치시킨다. 그리고 나서, 브랜치마다 신호 대 잡음비와 같은 비용 함수에 따라, 스위칭 결정이 행해진다. 이런 폐루프 결정은 개방 루프 결정에 비해 복잡성을 증대시키지만, 이런 복잡성은 인코더측에서만 존재하고, 디코더는 이런 프로세스로부터 어떤 결점도 갖지 않는데, 그 이유는 디코더가 이점으로 이런 인코딩 결정의 출력을 이용할 수 있기 때문이다. 그래서, 응용 시에 복잡성 및 품질 고려로 인해 폐루프 모드가 바람직하며, 여기서, 디코더의 복잡성은, 부가적으로 스마트하고 값이 싸야 하는 많은 수의 디코더를 제외하고 적은 수의 인코더만이 존재하는, 예컨대, 방송 애플리케이션(broadcasting applications)에서는 문제가 되지 않는다.
비교기(300d)에 의해 적용되는 비용 함수는 품질 관점으로 인한 비용 함수일 수 있거나, 잡음 관점으로 인한 비용 함수일 수 있으며, 또는 비트 레이트 관점으로 인한 비용 함수일 수 있거나, (코딩 아티팩트, 특히, 양자화로 도입되는) 비트 레이트, 품질, 잡음 등의 어떤 조합으로 인한 조합된 비용 함수일 수 있다.
바람직하게는, 제 1 인코딩 브랜치 또는 제 2 인코딩 브랜치는 인코더측 및 이에 상응하여 디코더측에서의 시간 워프 기능을 포함한다. 한 실시예에서, 제 1 인코딩 브랜치는, 오디오 신호의 부분에 의존하는 가변 워프 특성을 계산하는 시간 워퍼 모듈, 결정된 워프 특성에 따라 리샘플링하는 리샘플러(resampler), 시간 도메인/주파수 도메인 변환기, 및 시간 도메인/주파수 도메인 변환의 결과를 인코딩된 표현으로 변환하는 엔트로피 코더를 포함한다. 가변 워프 특성은 인코딩된 오디오 신호에 포함된다. 이런 정보는, 시간 워프 향상된 디코딩 브랜치에 의해 판독되어, 최종으로 비워프된(non-warped) 시간 스케일에서 출력 신호를 갖도록 처리된다. 예컨대, 디코딩 브랜치는, 엔트로피 디코딩, 역 양자화 및, 주파수 도메인에서 다시 시간 도메인으로의 변환을 실행한다. 시간 도메인에서, 디워핑(dewarping)이 적용될 수 있고, 최종으로 비워프된 시간 스케일로 이산 오디오 신호를 획득하도록 대응하는 리샘플링 동작이 따를 수 있다.
본 발명의 방법의 어떤 구현 요건에 따라, 본 발명의 방법은 하드웨어 또는 소프트웨어로 구현될 수 있다. 디지털 저장 매체, 특히, 디스크, 이에 저장되는 전자식으로 판독 가능한 제어 신호를 가진 DVD 또는 CD를 이용하여 구현이 실행될 수 있으며, 이런 디지털 저장 매체는 본 발명의 방법이 실행되도록 프로그램 가능한 컴퓨터 시스템과 협력한다. 그래서, 일반적으로, 본 발명은 기계 판독 가능한 캐리어 상에 저장된 프로그램 코드를 가진 컴퓨터 프로그램 제품이며, 이 프로그램 코드는, 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 시에 본 발명의 방법을 실행하기 위해 동작된다. 그래서, 환언하면, 본 발명의 방법은 컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에 본 발명의 방법 중 하나 이상을 실행하기 위해 프로그램 코드를 가진 컴퓨터 프로그램이다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있거나, 인터넷과 같이 무선 송신 매체 또는 유선 송신 매체와 같은 송신 매체 상에서 송신될 수 있다.
상술한 실시예들은 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 기술된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기의 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위의 범주에 의해서만 제한되는 것으로 의도된다.
50; 스위치 가능한 바이패스, 410; 제 2 도메인 변환기, 420; 제 1 프로세서, 510; 제 1 도메인 변환기, 520; 제 2 프로세서, 800; 출력 인터페이스.

Claims (19)

  1. 인코딩된 오디오 신호를 획득하도록 제 1 도메인 내에 있는 오디오 신호를 인코딩하는 장치에 있어서,
    상기 오디오 신호를 상기 제 1 도메인에서 제 2 도메인으로 변환하는 제 1 도메인 변환기(510);
    상기 제 1 도메인 변환기(510)를 바이패스하거나, 바이패스 스위치 제어 신호(51)에 응답하여 상기 제 1 도메인 변환기(510)에 의해 상기 오디오 신호의 변환을 유발시키는 스위치 가능한 바이패스(50);
    상기 스위치 가능한 바이패스(50) 또는 상기 제 1 도메인 변환기(510)로부터 수신되는 오디오 신호를 상기 제 2 도메인과 상이한 제 3 도메인으로 변환하는 제 2 도메인 변환기(410);
    제 1 코딩 알고리즘에 따라 상기 제 3 도메인의 오디오 신호를 인코딩하는 제 1 프로세서(420); 및
    제 2 처리된 신호를 획득하도록 상기 제 1 코딩 알고리즘과 상이한 제 2 코딩 알고리즘에 따라 상기 제 1 도메인 변환기(510)로부터 수신되는 상기 오디오 신호를 인코딩하는 제 2 프로세서(520)를 포함하는데,
    상기 오디오 신호의 부분에 대한 인코딩된 신호는 제 1 처리된 신호 또는 제 2 처리된 신호를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  2. 청구항 1에 있어서,
    상기 제 1 도메인 변환기(510)는 LPC 잔여 신호 및 LPC 파라미터 데이터를 획득하도록 상기 오디오 신호를 LPC 필터링하는 LPC 분석 필터를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  3. 청구항 1 또는 2에 있어서,
    상기 제 2 도메인 변환기(410)는 입력 신호를 그의 스펙트럼 표현으로 변환하는 시간-주파수 변환기를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  4. 전술한 청구항 중 어느 한 청구항에 있어서,
    상기 제 2 프로세서(520)는 인코딩된 출력 신호를 생성하도록 동작함으로써, 상기 인코딩된 출력 신호가 상기 제 2 프로세서(520)로의 입력 신호와 동일한 도메인 내에 있는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  5. 전술한 청구항 중 어느 한 청구항에 있어서,
    상기 제 1 프로세서(420)는 양자화기 및 엔트로피 인코더를 포함하고, 상기 제 2 프로세서(520)는 코드북 기반 소스 인코더를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  6. 전술한 청구항 중 어느 한 청구항에 있어서,
    상기 제 1 프로세서(420)는 정보 싱크 모델에 기반으로 하고, 상기 제 2 프로세서(520)는 정보원 모델에 기반으로 하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  7. 전술한 청구항 중 어느 한 청구항에 있어서,
    상기 제 1 도메인 변환기(510)의 출력과 상기 제 2 도메인 변환기(410)의 입력 및 상기 제 2 프로세서(520)의 입력 간에 접속되는 스위칭 단계(200)를 더 포함하는데,
    상기 스위칭 단계(200)는 스위칭 단계 제어 신호에 응답하여 상기 제 2 도메인 변환기(410)의 입력 및 상기 제 2 프로세서(520)의 입력 간에 스위칭하도록 구성되는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  8. 전술한 청구항 중 어느 한 청구항에 있어서,
    상기 스위치 가능한 바이패스(50)의 출력은 상기 제 1 도메인 변환기(510)의 출력에 접속되고, 상기 스위치 가능한 바이패스(50)의 입력은 상기 제 1 도메인 변환기(510)로의 입력에 접속되는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  9. 전술한 청구항 중 어느 한 청구항에 있어서,
    상기 오디오 신호의 부분에 대한 분석 결과에 따라 상기 오디오 신호의 부분에 대한 스위치 가능한 바이패스(50)를 제어하는 신호 분류기를 더 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  10. 전술한 청구항 중 어느 한 청구항에 있어서,
    상기 제 2 도메인 변환기(410)는 입력 신호를 블록 기반 방식으로 변환하도록 동작하고, 상기 제 2 도메인 변환기는 오디오 신호 분석에 응답하여 블록 기반 스위칭을 실행하도록 동작함으로써, 서로 다른 길이의 블록이 상기 오디오 신호의 콘텐츠에 따라 변환된다는 점에서 상기 제 2 도메인 변환기(410)가 제어되는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
  11. 인코딩된 오디오 신호를 획득하도록 제 1 도메인 내에 있는 오디오 신호를 인코딩하는 방법에 있어서,
    상기 오디오 신호를 상기 제 1 도메인에서 제 2 도메인으로 변환하는 단계(510);
    상기 오디오 신호를 상기 제 1 도메인에서 제 2 도메인으로 변환하는 단계(510)를 바이패스하거나, 바이패스 스위치 제어 신호(51)에 응답하여 상기 제 1 도메인에서 제 2 도메인으로의 상기 오디오 신호의 변환을 유발시키는 단계(50);
    바이패스된 오디오 신호(50) 또는 상기 제 2 도메인 내의 오디오 신호를 상기 제 2 도메인과 상이한 제 3 도메인으로 변환하는 단계(410);
    제 1 코딩 알고리즘에 따라 상기 바이패스된 오디오 신호(50) 또는 상기 제 2 도메인 내의 오디오 신호를 변환하는 단계(410)에 의해 생성되는 상기 제 3 도메인의 오디오 신호를 인코딩하는 단계(420); 및
    제 2 처리된 신호를 획득하도록 상기 제 1 코딩 알고리즘과 상이한 제 2 코딩 알고리즘에 따라 상기 제 2 도메인 내의 상기 오디오 신호를 인코딩하는 단계(520)를 포함하는데,
    상기 오디오 신호의 부분에 대한 인코딩된 신호는 제 1 처리된 신호 또는 제 2 처리된 신호를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 방법.
  12. 인코딩된 오디오 신호를 디코딩하는 장치로서, 상기 인코딩된 오디오 신호는 제 3 도메인 내에 있는 제 1 처리된 신호 및 제 2 도메인 내에 있는 제 2 처리된 신호를 포함하며, 상기 제 2 도메인 및 상기 제 3 도메인은 서로 다른, 인코딩된 오디오 신호를 디코딩하는 장치에 있어서,
    상기 제 1 처리된 신호를 역 처리하는 제 1 역 프로세서(430);
    상기 제 2 처리된 신호를 역 처리하는 제 2 역 프로세서(530);
    상기 제 1 역 처리된 신호를 상기 제 3 도메인에서 다른 도메인으로 도메인 변환하는 제 2 변환기(440);
    상기 제 2 역 처리된 신호를 제 1 도메인으로 변환하거나, 다른 도메인으로 변환된 상기 제 1 역 처리된 신호를, 상기 다른 도메인이 상기 제 1 도메인이 아닐 시에 상기 제 1 도메인으로 변환하는 제 1 변환기(540); 및
    상기 다른 도메인이 상기 제 1 도메인일 시에 상기 제 1 변환기(540)를 바이패스하는 바이패스(52)를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
  13. 청구항 12에 있어서,
    조합된 디코딩된 오디오 신호(699)를 획득하도록 상기 제 1 변환기(540)의 출력과 상기 바이패스(52)의 출력을 조합하는 조합기(600)를 더 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
  14. 청구항 12 또는 13에 있어서,
    인코딩된 오디오 신호로부터, 상기 제 1 처리된 신호, 상기 제 2 처리된 신호 및 제어 신호를 추출하는 입력 인터페이스(900)를 더 포함하는데, 상기 제어 신호는, 어떤 제 1 역 처리된 신호에 대해, 상기 제 1 변환기(540)가 상기 바이패스에 의해 바이패스될 수 있는지 없는지를 나타내는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
  15. 청구항 12 내지 14 중 어느 한 청구항에 있어서,
    상기 제 1 변환기(540)는 선형 예측 코딩 (LPC) 합성 단계를 포함하고,
    상기 제 2 변환기(440)는 오디오 신호의 스펙트럼 표현을 상기 오디오 신호의 시간 표현으로 변환하는 스펙트럼-시간 변환기를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
  16. 청구항 12 내지 15 중 어느 한 청구항에 있어서,
    상기 제 1 역 프로세서(430)는 엔트로피 디코더 및 역 양자화기를 포함하고, 제 2 역 프로세서(530)는 코드북 기반 소스 디코더를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
  17. 청구항 12 내지 16 중 어느 한 청구항에 있어서,
    상기 제 2 변환기(440)는 상기 인코딩된 오디오 신호에 포함되는 부가적인 정보(434)에 의해 제어 가능한 역 시간 워프된 수정된 이산 코사인 변환 필터링 동작과 같은 합성 필터링 동작을 실행하도록 동작하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
  18. 인코딩된 오디오 신호를 디코딩하는 방법으로서, 상기 인코딩된 오디오 신호는 제 3 도메인 내에 있는 제 1 처리된 신호 및 제 2 도메인 내에 있는 제 2 처리된 신호를 포함하며, 상기 제 2 도메인 및 상기 제 3 도메인은 서로 다른, 인코딩된 오디오 신호를 디코딩하는 방법에 있어서,
    상기 제 1 처리된 신호를 역 처리하는 단계(430);
    상기 제 2 처리된 신호를 역 처리하는 단계(530);
    상기 제 1 역 처리된 신호를 상기 제 3 도메인에서 다른 도메인으로 제 2 도메인 변환하는 단계(440);
    상기 제 2 역 처리된 신호를 제 1 도메인으로 제 1 도메인 변환하거나, 상기 제 1 역 처리된 신호를, 상기 다른 도메인이 상기 제 1 도메인이 아닐 시에 상기 제 1 도메인으로 제 1 도메인 변환하는 단계(540); 및
    상기 다른 도메인이 상기 제 1 도메인일 시에 상기 제 1 도메인 변환하는 단계(540)를 바이패스하는 단계(52)를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 방법.
  19. 컴퓨터 상에서 실행할 시에, 청구항 11에 따라 오디오 신호를 인코딩하는 방법 또는 청구항 18에 따라 인코딩된 오디오 신호를 디코딩하는 방법을 실행하는 컴퓨터 프로그램.
KR1020117001103A 2008-07-17 2009-07-06 스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법 KR101224884B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US8158608P 2008-07-17 2008-07-17
US61/081,586 2008-07-17
EP09002270.8A EP2146344B1 (en) 2008-07-17 2009-02-18 Audio encoding/decoding scheme having a switchable bypass
EP09002270.8 2009-02-18
PCT/EP2009/004875 WO2010006717A1 (en) 2008-07-17 2009-07-06 Audio encoding/decoding scheme having a switchable bypass

Publications (2)

Publication Number Publication Date
KR20110055515A true KR20110055515A (ko) 2011-05-25
KR101224884B1 KR101224884B1 (ko) 2013-02-06

Family

ID=40718647

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117001103A KR101224884B1 (ko) 2008-07-17 2009-07-06 스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법

Country Status (17)

Country Link
US (2) US8321210B2 (ko)
EP (2) EP2146344B1 (ko)
JP (1) JP5613157B2 (ko)
KR (1) KR101224884B1 (ko)
CN (1) CN102099856B (ko)
AR (1) AR072551A1 (ko)
AU (1) AU2009270524B2 (ko)
BR (1) BRPI0910999B1 (ko)
CA (1) CA2727883C (ko)
ES (2) ES2592416T3 (ko)
HK (2) HK1138673A1 (ko)
MX (1) MX2011000534A (ko)
PL (2) PL2146344T3 (ko)
PT (1) PT2146344T (ko)
RU (1) RU2483364C2 (ko)
TW (1) TWI441167B (ko)
WO (1) WO2010006717A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190134641A (ko) * 2017-04-05 2019-12-04 퀄컴 인코포레이티드 채널간 대역폭 확장
WO2022186470A1 (ko) * 2021-03-04 2022-09-09 삼성전자 주식회사 오디오 처리 방법 및 이를 포함하는 전자 장치

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8356127B2 (en) * 2004-12-09 2013-01-15 Rambus Inc. Memory interface with workload adaptive encode/decode
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
AU2009267518B2 (en) * 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
RU2515704C2 (ru) * 2008-07-11 2014-05-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
MX2011000369A (es) * 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
KR101797033B1 (ko) 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
CA2778325C (en) 2009-10-20 2015-10-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule
BR122021008581B1 (pt) 2010-01-12 2022-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de áudio, decodificador de áudio, método de codificação e informação de áudio, e método de decodificação de uma informação de áudio que utiliza uma tabela hash que descreve tanto valores de estado significativos como limites de intervalo
ES2656815T3 (es) 2010-03-29 2018-02-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung Procesador de audio espacial y procedimiento para proporcionar parámetros espaciales en base a una señal de entrada acústica
KR101437896B1 (ko) * 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
PL3451333T3 (pl) * 2010-07-08 2023-01-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder wykorzystujący kasowanie aliasingu w przód
DK3239979T3 (da) * 2010-10-25 2024-05-27 Voiceage Evs Llc Kodning af generiske audiosignaler ved lave bitrater og lav forsinkelse
TWI479160B (zh) * 2010-12-20 2015-04-01 Hon Hai Prec Ind Co Ltd 測試裝置及方法
US9711158B2 (en) * 2011-01-25 2017-07-18 Nippon Telegraph And Telephone Corporation Encoding method, encoder, periodic feature amount determination method, periodic feature amount determination apparatus, program and recording medium
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
MX339764B (es) * 2011-02-18 2016-06-08 Ntt Docomo Inc Descodificador de habla, codificador de habla, metodo para descodificacion de habla, metodo para codificacion de habla, programa para descodificacion de habla, y programa para codificacion de habla.
EP2774145B1 (en) 2011-11-03 2020-06-17 VoiceAge EVS LLC Improving non-speech content for low rate celp decoder
CN102543079A (zh) * 2011-12-21 2012-07-04 南京大学 一种实时的音频信号分类方法及设备
EP2817802B1 (en) 2012-02-24 2016-12-07 Dolby International AB Audio processing
WO2013147668A1 (en) * 2012-03-29 2013-10-03 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal
CN104380376B (zh) * 2012-06-14 2017-03-15 杜比国际公司 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统
CA2880028C (en) 2012-08-03 2019-04-30 Thorsten Kastner Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
CA2880412C (en) * 2012-08-10 2019-12-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
MY176406A (en) * 2012-08-10 2020-08-06 Fraunhofer Ges Forschung Encoder, decoder, system and method employing a residual concept for parametric audio object coding
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
PT2942958T (pt) * 2013-01-07 2018-06-15 Nec Corp Sinalização de subdivisão de unidade de codificação para blocos codificados por pcm
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
SG11201505898XA (en) * 2013-01-29 2015-09-29 Fraunhofer Ges Forschung Concept for coding mode switching compensation
WO2014118136A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for selecting one of a first audio encoding algorithm and a second audio encoding algorithm
JP6096934B2 (ja) * 2013-01-29 2017-03-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数拡張されたオーディオ信号を生成するためのデコーダ、復号化方法、符号化された信号を生成するためのエンコーダ、およびコンパクトな選択サイド情報を使用する符号化方法
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US9148721B2 (en) * 2013-03-14 2015-09-29 Dunlop Manufacturing, Inc. System, method and apparatus for silent true bypass switching
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
BR112015025022B1 (pt) 2013-04-05 2022-03-29 Dolby International Ab Método de decodificação, decodificador em um sistema de processamento de áudio, método de codificação, e codificador em um sistema de processamento de áudio
RU2625444C2 (ru) * 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
KR101788484B1 (ko) 2013-06-21 2017-10-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Tcx ltp를 이용하여 붕괴되거나 붕괴되지 않은 수신된 프레임들의 재구성을 갖는 오디오 디코딩
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN117037811A (zh) * 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
CN103841244A (zh) * 2013-12-03 2014-06-04 华为技术有限公司 一种终端及终端的录音方法
CN106104684A (zh) 2014-01-13 2016-11-09 诺基亚技术有限公司 多通道音频信号分类器
CN105336339B (zh) 2014-06-03 2019-05-03 华为技术有限公司 一种语音频信号的处理方法和装置
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP3000110B1 (en) 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US20160057463A1 (en) * 2014-08-19 2016-02-25 Gatesair, Inc. Hybrid time-divisional multiplexed modulation
KR20160081844A (ko) 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
WO2016108655A1 (ko) 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TW202242853A (zh) * 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2017036609A1 (en) * 2015-08-31 2017-03-09 Dolby International Ab Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal
CN105242111B (zh) * 2015-09-17 2018-02-27 清华大学 一种采用类脉冲激励的频响函数测量方法
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
CN117238300A (zh) 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11017761B2 (en) * 2017-10-19 2021-05-25 Baidu Usa Llc Parallel neural text-to-speech
US10796686B2 (en) 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
FR3075443A1 (fr) * 2017-12-19 2019-06-21 Orange Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural
GB2582916A (en) * 2019-04-05 2020-10-14 Nokia Technologies Oy Spatial audio representation and associated rendering
US10755721B1 (en) 2019-04-30 2020-08-25 Synaptics Incorporated Multichannel, multirate, lattice wave filter systems and methods
EP3970141B1 (en) * 2019-05-14 2024-02-28 Dolby Laboratories Licensing Corporation Method and apparatus for speech source separation based on a convolutional neural network
CN110730408A (zh) * 2019-11-11 2020-01-24 北京达佳互联信息技术有限公司 一种音频参数切换方法、装置、电子设备及存储介质
US10978083B1 (en) 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication
JPWO2021261235A1 (ko) * 2020-06-22 2021-12-30

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3211762B2 (ja) * 1997-12-12 2001-09-25 日本電気株式会社 音声及び音楽符号化方式
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
JP2002304196A (ja) * 2001-04-03 2002-10-18 Sony Corp オーディオ信号記録制御方法、プログラムおよび記録媒体、オーディオ信号再生制御方法、プログラムおよび記録媒体、オーディオ信号入力制御方法、プログラムおよび記録媒体
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
BR0206783A (pt) * 2001-11-30 2004-02-25 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal, corrente de bits que representa um sinal codificado, meio de armazenagem, método e decodificador para decodificar uma corrente de bits que representa um sinal codificado, transmissor, receptor, e, sistema
US7424434B2 (en) 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
TW584835B (en) 2002-12-13 2004-04-21 Univ Nat Chiao Tung Method and architecture of digital coding for transmitting and packing audio signals
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
US7418394B2 (en) 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
TWI371925B (en) 2006-09-08 2012-09-01 Via Tech Inc Apparatus for processing multiple signals with a single analog-to-digital converter and method thereof
CN101197576A (zh) * 2006-12-07 2008-06-11 上海杰得微电子有限公司 一种音频信号编码、解码方法
BRPI0718738B1 (pt) * 2006-12-12 2023-05-16 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190134641A (ko) * 2017-04-05 2019-12-04 퀄컴 인코포레이티드 채널간 대역폭 확장
WO2022186470A1 (ko) * 2021-03-04 2022-09-09 삼성전자 주식회사 오디오 처리 방법 및 이를 포함하는 전자 장치

Also Published As

Publication number Publication date
AU2009270524B2 (en) 2012-03-15
AU2009270524A1 (en) 2010-01-21
EP2146344B1 (en) 2016-07-06
PL2301024T3 (pl) 2012-12-31
US8959017B2 (en) 2015-02-17
HK1138673A1 (zh) 2010-08-27
JP2011528129A (ja) 2011-11-10
CA2727883C (en) 2014-09-02
CA2727883A1 (en) 2010-04-21
US8321210B2 (en) 2012-11-27
EP2301024A1 (en) 2011-03-30
MX2011000534A (es) 2011-04-27
CN102099856B (zh) 2012-11-07
RU2483364C2 (ru) 2013-05-27
ES2592416T3 (es) 2016-11-30
TWI441167B (zh) 2014-06-11
US20130066640A1 (en) 2013-03-14
RU2010154749A (ru) 2012-07-10
AR072551A1 (es) 2010-09-08
EP2146344A1 (en) 2010-01-20
WO2010006717A1 (en) 2010-01-21
EP2301024B1 (en) 2012-07-25
PT2146344T (pt) 2016-10-13
BRPI0910999B1 (pt) 2020-03-10
US20110202355A1 (en) 2011-08-18
BRPI0910999A2 (pt) 2019-05-14
HK1156143A1 (en) 2012-06-01
JP5613157B2 (ja) 2014-10-22
TW201009814A (en) 2010-03-01
CN102099856A (zh) 2011-06-15
KR101224884B1 (ko) 2013-02-06
ES2391715T3 (es) 2012-11-29
PL2146344T3 (pl) 2017-01-31

Similar Documents

Publication Publication Date Title
US11823690B2 (en) Low bitrate audio encoding/decoding scheme having cascaded switches
KR101224884B1 (ko) 스위치 가능한 바이패스를 가진 오디오 인코딩/디코딩 기법
KR101346894B1 (ko) 오디오 인코더/디코더, 인코딩/디코딩 방법 및 기록매체
WO2010040522A2 (en) Multi-resolution switched audio encoding/decoding scheme

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161230

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171228

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181228

Year of fee payment: 7