KR100992081B1 - 엔코딩과 저-복잡성의 변환 부호화를 위한 합성된 스펙트럼성분들의 변환 - Google Patents

엔코딩과 저-복잡성의 변환 부호화를 위한 합성된 스펙트럼성분들의 변환 Download PDF

Info

Publication number
KR100992081B1
KR100992081B1 KR1020057014508A KR20057014508A KR100992081B1 KR 100992081 B1 KR100992081 B1 KR 100992081B1 KR 1020057014508 A KR1020057014508 A KR 1020057014508A KR 20057014508 A KR20057014508 A KR 20057014508A KR 100992081 B1 KR100992081 B1 KR 100992081B1
Authority
KR
South Korea
Prior art keywords
delete delete
scale
quantized
value
quantization
Prior art date
Application number
KR1020057014508A
Other languages
English (en)
Other versions
KR20050097990A (ko
Inventor
브라이언 티모시 레논
마이클 미드 트루만
로버트 로링 안데르센
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20050097990A publication Critical patent/KR20050097990A/ko
Application granted granted Critical
Publication of KR100992081B1 publication Critical patent/KR100992081B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

오디오 코딩 시스템에서, 엔코딩 전송기는 정규화된 소수점 숫자들로서 엔코딩된 스펙트럼 성분들을 표현한다. 상기 전송기는 상기 엔코딩된 스펙트럼 매개변수들을 변환 부호화하는데 사용될 수 있는 제1 및 제2 제어 매개변수들을 제공한다. 부호 간 변환기는 상기 제1 제어 매개변수들을 사용하여 상기 엔코딩된 성분들을 부분적으로 디코딩하고, 상기 제2 제어 매개변수들을 사용하여 상기 성분들을 재 엔코딩한다. 상기 전송기는, 상기 소수점 표현들이 정규화를 분실한 상황들을 식별하기 위해 부분-디코딩 과정에서 산술 연산들의 영향들을 분석함으로써 상기 제2 제어 매개변수들을 결정한다. 정규화를 분실한 숫자들과 관련된 지수들은 수정되고, 상기 수정된 지수들은 상기 제2 제어 매개변수들을 계산하는데 사용된다.
분석 필터뱅크, 엔코더, 양자화기, 포맷터, 합성 모델

Description

엔코딩과 저-복잡성의 변환 부호화를 위한 합성된 스펙트럼 성분들의 변환{CONVERSION OF SYNTHESIZED SPECTRAL COMPONENTS FOR ENCODING AND LOW-COMPLEXITY TRANSCODING}
본 발명은 일반적으로 오디오 코딩 방법들과 장치들에 관한 것으로, 특히, 오디오 정보를 엔코딩하고 변환 부호화하는 개선된 방법들과 장치들에 관한 것이다.
A. 코딩
많은 통신 시스템들은, 정보 전송과 기록 용량을 위한 요구가 가용 용량을 종종 초과하는 문제점에 직면하고 있다. 그 결과, 방송 및 기록 분야의 것들 중에서 인식된 품질의 저하 없이 인간의 인식에 의도된 오디오 신호를 전송하거나 기록하는데 필요한 정보량을 감소시키는데 상당한 관심이 있다. 또한, 주어진 대역폭 또는 저장 용량에 대한 출력 신호의 인식된 품질을 개선 시키는데 관심이 있다.
정보 용량 전제조건들을 감소시키기 위한 전형적인 방법들은 입력 신호의 선택된 부분들 만을 전송하거나 기록하는 것을 포함한다. 나머지 부분들은 폐기된다. 일반적으로, 인식 엔코딩으로 공지된 기술들은, 리던던트 또는 관련없는 신호의 이들 부분들이 보다 쉽게 식별되고 폐기되도록 원래의 오디오 신호를 스펙트럼 성분들 또는 주파수 서브대역 신호들로 변환시킨다. 신호 부분은, 상기 신호의 다른 부분들로부터 재생될 수 있다면 리던던트로 간주된다. 신호 부분은, 인식적으로 중요하지 않거나 들리지 않으면 관련없는 것으로 간주된다. 인식 디코더는 엔코딩된 신호로부터 놓친 리던던트 부분들을 재생할 수 있지만, 또한 리던던트가 아니었던 임의의 분실한 관련없는 정보를 생성할 수 없다. 그러나, 관련없는 정보의 손실은, 그 부재가 디코딩된 신호에 대한 인식가능한 영향을 갖지 않으므로 다양한 응용들에서 허용가능하다.
신호 엔코딩 기술은, 리던던트 또는 인식가능하게 관련없는 신호의 이들 부분들 만을 폐기하면 인식가능하게 투명하다. 신호의 관련없는 부분들이 폐기될 수 있는 하나의 방법은, 종종 양자화라 하는 정확도의 보다 낮은 레벨들을 갖는 스펙트럼 성분들을 표현하는 것이다. 원래의 스펙트럼 성분과 그 양자화된 표현 간의 차이는 양자화 잡음으로서 공지되어 있다. 보다 낮은 정확도를 갖는 표현들은 보다 높은 레벨의 양자화 잡음을 갖는다. 인식 엔코딩 기술들은 들리지 않도록 상기 양자화 잡음의 레벨을 제어하려고 한다.
인식가능하게 투명한 기술이 정보 용량 전제조건들에서 충분한 감소를 달성할 수 없다면, 인식가능하게 투명하지 않은 기술은 리던던트하지 않고 인식가능하게 관련있는 추가의 신호 부분들을 폐기하는데 필요하다. 필수적인 결과는, 상기 전송되거나 기록된 신호의 인식된 충실도가 저하된다는 것이다. 바람직하게, 인식가능하게 투명하지 않은 기술은 적어도 인식 중요성을 갖는 것으로 간주된 신호의 이들 부분들 만을 폐기시킨다.
종종 인식가능하게 투명하지 않은 기술로서 간주된 '커플링'이라 하는 엔코딩 기술은 정보 용량 전제조건들을 감소시키는데 사용될 수 있다. 이 기술에 따르면, 둘 이상의 입력 오디오 신호들에서 스펙트럼 성분들은 이들 스펙트럼 성분들의 복잡 표현을 갖는 커플된 채널 신호를 형성하기 위해 조합된다. 상기 복잡 표현을 형성하기 위해 조합된 입력 오디오 신호들 각각에서 스펙트럼 성분들의 스펙트럼 엔벨로프를 표현하는 사이드 정보가 또한 발생된다. 상기 커플된 채널 신호와 삭이 사이드 정보를 포함하는 엔코딩된 신호는 수신기에 의해 다음의 디코딩을 위해 전송되거나 기록된다. 상기 수신기는, 원래의 입력 신호들의 스펙트럼 엔벨로프들이 실질적으로 복원되도록 커플된-채널 신호의 복사들을 발생시키고 복사된 신호들에서 스펙트럼 성분들을 스케일하기 위해 상기 사이드 정보를 사용함으로써 상기 원래의 입력 신호들의 부정확한 복사인 분리된 신호들을 발생시킨다. 2-채널 스테레오 시스템에 대한 전형적인 커플링 기술은 복합 고주파수 성분들의 단일 신호를 형성하기 위해 좌측 및 우측 채널의 고주파수 성분들을 조합하고 원래의 좌측 및 우측 채널 신호들에서 고주파수 성분들의 스펙트럼 엔벨로프들을 표현하는 사이드 정보를 발생시킨다. 커플링 기술의 하나의 예제는 여기서 A/52 문서라 하는 진보된 텔레비젼 시스템들 위원회(ATSC) 표준 문서 A/52(1994), "디지털 오디오 압축(AC-3)"에 기재되어 있다.
스펙트럼 재생으로 공지된 엔코딩 기술은 정보 용량 전제조건들을 감소시키는데 사용될 수 있는 인식가능하게 투명한 기술이다. 다양한 구현들에서, 이 기술은, 고주파수 스펙트럼 성분들 만이 재생되므로 "고주파수 재생(HFR)"이라 한다. 이 기술에 따르면, 입력 오디오 신호의 저-주파수 성분들 만을 포함하는 기저대역 신호는 전송되거나 저장된다. 원래의 고-주파수 성분들의 스펙트럼 엔벨로프를 표현하는 사이드 정보가 또한 제공된다. 상기 기저대역 신호와 상기 사이드 정보를 포함하는 엔코딩된 신호는 수신기에 의해 다음의 디코딩을 위해 전송되거나 기록된다. 상기 수신기는 사이드 정보에 기초하여 스펙트럼 레벨들을 갖는 생략된 고주파수 성분들을 재생하고 출력 신호를 생성하기 위해 상기 기저대역 신호를 상기 재생된 고주파수 성분들과 조합시킨다. HFR에 대한 공지된 방법의 설명은 1979년4월, 마크홀과 베로우티(Makhoul and Berouti)에 의해 Speech and Signal Proc., Proc. of the International Conf. on August의 "스피치 코딩 시스템들에서의 고주파수 재생"에서 알 수 있다. 고-품질 음악을 엔코딩하는데 적당한 개선된 스펙트럼 재생 기술들은 2002년3월28일 출원된 미국출원번호 제10/113,858호에 기재된 제목 "고주파수 재생을 위한 광대역 주파수 번역", 2002년6월17일 출원된 미국출원번호 제10/174,493호에 기재된 제목 "스펙트럼 홀 필링을 사용하는 오디오 코딩 시스템", 및 2003년5월8일 출원된 미국출원번호 제10/434,449호에 기재된 제목 "스펙트럼 성분 커플링 및 스펙트럼 성분 재생을 사용하는 개선된 오디오 코딩 시스템들과 방법들"에 기재되어 있다.
B. 변환부호
공지된 코딩 기술들은 주어진 레벨의 인식된 품질을 위한 오디오 신호들의 정보 용량 전제조건들을 감소시키거나, 반대로, 규정된 정보 용량을 갖는 오디오 신호들의 인식된 품질을 개선시켜 왔다. 이러한 성공에도 불구하고, 다른 진보성 을 위한 요구가 존재하고 코딩 연구가 새로운 코딩 기술들을 개발하고 공지된 기술들을 사용하는 새로운 방법들을 계속 개발하고 있다.
다른 진보성의 하나의 결과는 보다 새로운 코딩 기술들과 보다 오래된 코딩 기술들을 구현하는 기존의 설비에 의해 엔코딩된 신호들 간의 잠재적인 비호환성이다. 조기 노후를 방지하기 위해 표준 조직체들과 설비 제조업자들에 의한 많은 노력에도 불구하고, 보다 오래된 수신기들은 보다 새로운 코딩 기술들에 의해 엔코딩되는 신호들을 항상 정확하게 디코딩할 수 없다. 반대로, 보다 새로운 수신기들은 보다 오래된 코딩 기술들에 의해 엔코딩되는 신호들을 항상 정확하게 디코딩할 수 없다. 그 결과, 전문가들과 소비자들 모두는, 보다 오래되고 보다 새로운 코딩 기술들에 의해 엔코딩되는 신호들과의 호환성을 보장하고 싶은 경우 많은 설비들을 취득하고 유지한다.
이러한 부담이 완화되고 피해질 수 있는 하나의 방법은 하나의 포맷에서 다른 포맷으로의 엔코딩된 신호들을 변환시킬 수 있는 부호 간 변환기를 획득하는 것이다. 상기 부호 간 변환기는 다른 코딩 기술들 간의 브릿지로서 기능할 수 있다. 예를 들면, 부호 간 변환기는 새로운 코딩 기술에 의해 보다 오래된 기술에 의해 엔코딩된 이들 신호들 만을 디코딩할 수 있는 수신기들과 호환가능한 다른 신호로 엔코딩되는 신호를 변환시킬 수 있다.
종래의 부호 간 변환기는 완전한 디코딩과 엔코딩 처리들을 구현한다. 상술된 변환 부호화의 예제를 참조하여, 입력 엔코딩된 신호는 합성 필터링에 의해 디지털 오디오 신호로 변환되는 스펙트럼 성분들을 얻기 위해 보다 새로운 디코딩 기 술을 사용하여 디코딩된다. 그 다음, 상기 디지털 오디오 신호는 분석 필터링에 의해 스펙트럼 성분들로 다시 변환된 다음, 이들 스펙트럼 성분들은 보다 오래된 엔코딩 기술을 사용하여 엔코딩된다. 그 결과는 보다 오래된 수신 설비와 호환가능한 엔코딩된 신호이다. 변환 부호화는 또한 다른 최근 포맷들 사이를 변환하고 동일한 포맷의 다른 비트율들 사이를 변환시키기 위해 보다 오래된 포맷들에서 보다 새로운 포맷들로 변환시키는데 사용될 수 있다.
종래의 변환 부호화 기술들은, 인식 코딩 시스템들에 의해 엔코딩되는 신호들을 변환시키는데 사용될 수 있을 때 심각한 단점들을 갖는다. 하나의 단점은, 종래의 변환 부호화 설비가, 완전한 디코딩과 엔코딩 처리들을 구현해야 하므로 비교적 비싸다는 것이다. 제2 단점은, 디코딩 이후에 변환 부호화된 신호의 인식된 품질이 디코딩 이후에 상기 입력 엔코딩된 신호의 인식된 품질에 비해 항상 거의 저하된다는 것이다.
본 발명의 목적은 변환 부호화된 신호들을 개선하고 변환 부호화 설비가 보다 저렴하게 구현되게 하는데 사용될 수 있는 코딩 기술들을 제공하는 것이다.
본 목적은 청구항들에 기재된 본 발명에 의해 달성된다. 변환 부호화 기술은 스펙트럼 성분들을 얻기 위해 입력 엔코딩된 신호를 디코딩한 다음, 상기 스펙트럼 성분들을 출력 엔코딩된 신호로 엔코딩한다. 구현 비용과 합성과 분석 필터링에 의해 초래되는 신호 저하는 회피된다. 상기 부호 간 변환기의 구현 비용은 상기 부호 간 변환기가 그 자체를 위한 제어 매개변수들을 결정하게 하는 것 보다 상기 엔코딩된 신호에서 상기 제어 매개변수들을 제공함으로써 더욱 감소될 수 있다.
본 발명의 다양한 특징들과 그의 바람직한 실시예들은 다음의 설명과 유사한 참조번호가 몇몇 도면들에서 유사한 소자들을 참조하는 첨부한 도면들을 참조하여 보다 양호하게 이해될 수 있다. 다음의 설명과 도면들의 내용들은 예들로서 기재되고 본 발명의 범위에 대한 제한들을 표현하는 것으로 이해되지 않아야 한다.
도 1은 오디오 엔코딩 전송기의 개략도이다.
도 2는 오디오 디코딩 수신기의 개략도이다.
도 3은 부호 간 변환기의 개략도이다.
도 4 및 도 5는 본 발명의 다양한 특징들을 포함하는 오디오 엔코딩 전송기들의 개략도이다.
도 6은 본 발명의 다양한 특징들을 구현할 수 있는 장치의 개략적인 블록도이다.
A. 개요
기본 오디오 코딩 시스템은 엔코딩 전송기, 디코딩 수신기, 및 통신 경로 또는 기록 매체를 포함한다. 상기 전송기는 하나 이상의 오디오 채널을 표현하는 입력 신호를 수신하고 상기 오디오를 표현하는 엔코딩된 신호를 발생시킨다. 그 다음, 상기 전송기는 상기 엔코딩된 신호를 운반을 위한 통신 경로에 또는 저장을 위 한 기록 매체로 전송한다. 상기 수신기는 상기 통신 경로 또는 기록 매체로부터 엔코딩된 신호를 수신하고 원래 오디오의 정확하거나 대략적인 복사일 수 있는 출력 신호를 발생시킬 수 있다. 상기 출력 신호가 정확한 복사가 아닌 경우, 많은 코딩 시스템들은 상기 원래의 입력 오디오로부터 인식가능하게 구별할 수 없는 복사를 제공할려고 한다.
임의의 코딩 시스템의 적당한 동작에 대한 고유하고 명확한 전제조건은, 상기 수신기가 상기 엔코딩된 신호를 정확하게 엔코딩할 수 있어야 한다는 것이다. 그러나, 코딩 기술들의 진보성로 인해, 여러 상황들이 상기 수신기가 정확하게 디코딩할 수 없는 코딩 기술들에 의해 엔코딩된 신호를 디코딩하기 위해 수신기를 사용하는 것이 바람직한 경우 발생한다. 예를 들면, 엔코딩된 신호는, 상기 디코더가 스펙트럼 재생을 수행하는 것을 기대하지만, 수신기가 스펙트럼 재생을 수행할 수 없는 엔코딩 기술에 의해 발생될 수 있다. 반대로, 엔코딩된 신호는 상기 디코더가 스펙트럼 재생을 수행하는 것을 기대하지 않지만, 수신기가 스펙트럼 재생에 필요한 엔코딩된 신호를 기대하고 요구하는 엔코딩 기술에 의해 재생될 수 있다. 본 발명은 호환가능하지 않은 코딩 기술들과 코딩 설비 간의 브릿지를 제공할 수 있는 변환 부호화에 관한 것이다.
일부 코딩 기술들은 본 발명이 구현될 수 있는 일부 방법들의 상세한 설명의 도입부로서 이하에 기재된다.
1, 기본 시스템
a) 엔코딩 전송기
도 1은 경로(11)로부터 입력 오디오 신호를 수신하는 분할-대역 오디오 엔코딩 전송기(10)의 하나의 구현의 개략도이다. 분석 필터뱅크(12)는 상기 입력 오디오 신호를 상기 오디오 신호의 스펙트럼 내용을 표현하는 스펙트럼 성분들로 분할한다. 엔코더(13)는 상기 스펙트럼 성분들의 적어도 일부를 코드화 스펙트럼 정보로 엔코딩하는 과정을 수행한다. 상기 엔코더(13)에 의해 엔코딩되지 않는 스펙트럼 성분들은 양자화 제어기(14)로부터 수신되는 제어 매개변수들에 응답하여 적응되는 양자화 레졸루션을 사용하여 양자화기(15)에 의해 양자화된다. 선택적으로, 상기 코드화 스펙트럼 정보의 일부 또는 모두는 또한 양자화될 수 있다. 상기 양자화 제어기(14)는 상기 입력 오디오 신호의 검출된 특징들로부터 상기 제어 매개변수들을 도출한다. 도시된 구현에서, 상기 검출된 특징들은 상기 엔코더(13)에 의해 제공되는 정보로부터 얻어진다. 상기 양자화 제어기(14)는 또한 임시 특징들을 포함하는 오디오 신호의 다른 특징들에 응답하여 상기 제어 매개변수들을 도출할 수 있다. 이들 특징들은 상기 분석 필터뱅크(12)에 의해 수행되는 처리 이전, 내에 그리고 이후에 상기 오디오 신호의 분석으로부터 얻어질 수 있다. 상기 양자화된 스펙트럼 정보를 표현하는 데이터, 상기 코드화 스펙트럼 정보, 및 상기 제어 매개변수들을 표현하는 데이터는 전송 또는 저장을 위해 상기 경로(17)를 따라 통과되는 엔코딩된 신호로 상기 포맷터(16)에 의해 조립된다. 상기 포맷터(16)는 또한 본 발명의 이해와는 관련 없고 기재되어 있지 않은 다른 데이터를 동기 워드들, 패리티 또는 에러 검출 코드들, 데이터베이스 검색 키들, 및 보조 신호들과 같은 엔코딩된 신호로 조립할 수 있다.
상기 엔코딩된 신호는 초음파에서 자외선 주파수까지를 포함하는 스펙트럼을 통해 기저대역 또는 변조된 통신 경로들, 자기 테이프, 카드들 또는 디스크, 광학 카드들 또는 디스크를 포함하는 임의의 기록 기술을 필수적으로 사용하여 매체 상에 기록될 수 있는 저장 매체, 및 종이와 같은 매체에 대한 검출가능한 표시들에 의해 전송일 수 있다.
(1) 분석 필터뱅크
이하에 기재되는 상기 분석 필터뱅크(12) 및 상기 합성 필터뱅크(25)는 광범위한 디지털 필터 기술들, 블록 변환들과 파형 변환들을 포함하여 바람직한 임의의 필수적인 방법에서 구현될 수 있다. 하나의 오디오 코딩 시스템에서, 상기 분석 필터뱅크(12)는 수정된 이산 코사인 변환(MDCT)에 의해 구현되고 상기 합성 필터뱅크(25)는 1987년5월, 프린센 등(Princen et al.)에 의한 Proc.of the International Conf. on Acoust., Speech and Signal Proc.의 제목 "시분할 에일리어싱 삭제에 기초하여 필터 뱅크 설계들을 사용하는 서브대역/변환 코딩"에 기재된 역 수정된 이산 코사인 변환(IMDCT)에 의해 구현된다. 특정 필터뱅크 구현은 이론적으로 중요하지 않다.
블록 변환들에 의해 구현되는 분석 필터뱅크들은 입력 신호의 블록 또는 간격을 신호의 간격의 스펙트럼 내용을 표현하는 변환 계수들의 세트로 분할한다. 하나 이상의 인접한 변환 계수들의 그룹은 상기 그룹에서의 계수들의 개수와 같은 정도의 대역폭을 갖는 특정 주파수 서브대역 내에서 스펙트럼 내용을 표현한다.
블록 변환 보다는 다상 필터와 같은 디지털 필터의 일부 형태에 의해 구현되 는 분석 필터뱅크들은 입력 신호를 서브대역 신호들의 세트로 분할한다. 각각의 서브대역 신호는 특정 주파수 서브대역 내에서 상기 입력 신호의 스펙트럼 내용의 시간-기반 표현이다. 바람직하게, 상기 서브대역 신호는, 각각의 서브대역 신호가 시간의 단위 간격 동안 상기 서브대역 신호에서 샘플들의 개수와 같은 정도의 대역폭을 갖도록 감소된다.
다음의 설명은 특히 상술된 시분할 에일리어싱 삭제(TDAC) 변환과 같은 블록 변환들을 사용하는 구현들을 참조한다. 이 설명에서, 용어 "스펙트럼 성분들"은 변환 계수들을 참조하고 용어 "주파수 서브대역" 및 "서브대역 신호"는 하나 이상의 인접한 변환 계수들의 그룹들에 관한 것이다. 그러나, 본 발명의 이론들은 다른 형태의 구현들에 적용될 수 있어서, 용어 "주파수 서브대역" 및 "서브대역 신호"는 또한 신호의 전체 대역폭의 일부의 스펙트럼 내용을 표현하는 신호에 관한 것이고, 용어 "스펙트럼 성분들"은 일반적으로 서브대역 신호의 샘플들 또는 소자들을 참조하도록 이해될 수 있다. 인식 코딩 시스템들은 일반적으로 인간의 청각 시스템의 이른바 임계 대역폭들과 같은 정도의 대역폭들을 갖는 주파수를 제공하기 위해 분석 필터뱅크를 구현한다.
(2) 코딩
상기 엔코더(13)는 바람직한 임의의 형태의 엔코딩 처리를 필수적으로 수행할 수 있다. 하나의 구현에서, 상기 엔코딩 과정은 스펙트럼 성분들을 스케일된 값들과 관련된 스케일 인자들을 포함하는 스케일된 표현으로 변환시킨다. 다른 구현들에서, 매트릭싱 또는 스펙트럼 재생 또는 커플링을 위한 사이드 정보의 발생과 같은 엔코딩 과정들이 또한 사용될 수 있다. 이하에, 이들 기술들의 일부는 보다 상세히 설명된다.
상기 전송기(10)는 도 1에 의해 제안되지 않는 다른 코딩 과정들을 포함할 수 있다. 예를 들면, 상기 양자화된 스펙트럼 성분들은 산술 코딩 또는 허프만 코딩과 같은 엔트로피 코딩 과정으로 처리될 수 있다. 이들과 같은 코딩 과정들의 상세한 설명은 본 발명을 이해하는 것이 요구되지 않는다.
(3) 양자화
상기 양자화기(15)에 의해 제공되는 양자화의 레졸루션은 상기 양자화 제어기(14)로부터 제어 매개변수들에 응답하여 적응된다. 이들 제어 매개변수들은 바람직한 임의의 방법으로 도출될 수 있지만, 인식 엔코더에서, 일부 형태의 인식 모델은, 많은 양자화 잡음이 엔코딩될 오디오 신호에 의해 마스크될 수 있는 방법을 추정하는데 사용된다. 다양한 응용들에서, 상기 양자화 제어기는 또한 상기 엔코딩된 신호의 정보 용량에 대한 부과된 제한들에 응답한다. 이 제한은 엔코딩 신호 또는 상기 엔코딩된 신호의 규정된 부분에 대한 최대 허용 비트율에 비추어 때때로 표현된다.
인식 코딩 시스템들의 바람직한 구현들에서, 상기 제어 매개변수들은 비트 할당 과정에 의해 사용되어 각각의 스펙트럼 성분에 할당하는데 비트 개수를 결정하고, 양자화 잡음의 가청도가 정보 용량 또는 비트율 제한들로 되어 최소화되도록 상기 양자화기(15)는 각각의 스펙트럼 성분을 양자화하는데 사용한다. 상기 양자화 제어기(14)의 특정 구현은 본 발명에 중요하지 않다.
양자화 제어기의 하나의 예제는 종종 돌비 AC-3라 하는 코딩 시스템을 설명하는 A/52 문서에 기재되어 있다. 이 구현에서, 오디오 신호의 스펙트럼 성분들은, 스케일 인자들이 상기 오디오 신호의 특정 형태의 추정치를 제공하는 스케일된 표현에 의해 표현된다. 인식 모델은 스케일 인자들을 사용하여 상기 오디오 신호의 마스킹 효과들을 추정하는 마스킹 곡선을 계산한다. 그 다음, 상기 양자화 제어기는, 양자화 잡음이 부과된 정보 용량 한계 또는 비트율을 만족하기 위해 일부의 최적의 방식으로 분포되도록 양자화되는 방법을 제어하는 허용 잡음 임계치를 결정한다. 상기 허용 잡음 임계치는 마스킹 곡선의 복사이고 상기 양자화 제어기에 의해 결정되는 양 만큼 상기 마스킹 곡선으로부터 오프셋된다. 이 구현에서, 상기 제어 매개변수들은 상기 허용 잡음 임계치를 정의하는 값들이다. 이들 매개변수들은 임계치의 직접적인 표현 또는 허용된 잡음 임계치가 도출될 수 있는 스케일 인자들 및 오프셋과 같은 값들과 같은 다양한 방법으로 표현될 수 있다.
b) 디코딩 수신기
도 2는 경로(21)로부터 오디오 신호를 표현하는 엔코딩된 신호를 수신하는 분할-대역 오디오 디코딩 수신기(20)의 하나의 구현의 개략도이다. 상기 디포맷터(deformatter)(22)는 양자화된 스펙트럼 정보, 코드화 스펙트럼 정보, 및 상기 엔코딩된 신호로부터의 제어 매개변수들을 얻는다. 상기 양자화된 스펙트럼 정보는 상기 제어 매개변수들에 응답하여 적응되는 레졸루션을 사용하여 상기 디포맷터(23)에 의해 비 양자화(dequantize)된다. 선택적으로, 상기 코드화 스펙트럼 정보의 일부 또는 모두는 또한 비 양자화될 수 있다. 상기 코드화 스펙트럼 정보는 상 기 디코더(24)에 의해 디코딩되고 상기 합성 필터뱅크(25)에 의해 오디오 신호로 변환되고 경로(26)를 따라 통과되는 비 양자화된 스펙트럼 성분들과 조합된다.
상기 수신기에서 수행되는 과정들은 상기 전송기에서 수행되는 대응하는 과정들에 상보적이다. 상기 디포맷터(22)는 상기 포맷터(16)에 의해 조립된 것을 해체한다. 상기 디코더(24)는 상기 엔코더(13)에 의해 수행되는 엔코딩 과정의 정확한 역 또는 준-역인 디코딩 과정을 수행하고, 상기 비 양자화기(23)는 상기 양자화기(15)에 의해 수행되는 과정의 준-역인 과정을 수행한다. 상기 합성 필터뱅크(25)는 상기 분석 필터뱅크(12)에 의해 수행되는 것에 역인 필터링 과정을 수행한다. 상기 디코딩과 상기 비 양자화 과정들은, 상기 전송기에서 상보적인 과정들의 완벽한 역을 제공할 수 없기 때문에 준-역 과정이라 할 수 있다.
일부 구현들에서, 합성 또는 의사-랜덤 잡음은 비 양자화된 스펙트럼 성분들의 최하위 비트들 중 일부에 삽입될 수 있거나 하나 이상의 스펙트럼 성분들에 대체될 수 있는 것으로 사용될 수 있다. 상기 수신기는 또한 상기 전송기에서 수행될 수 있는 임의의 다른 코딩을 설명하기 위해 추가의 디코딩 과정들을 수행할 수 있다.
c) 부호 간 변환기(transcoder)
도 3은 오디오 신호를 표현하는 엔코딩된 신호를 경로(31)로부터 수신하는 부호 간 변환기(30)의 하나의 구현의 개략도이다. 상기 디포맷터(32)는 양자화된 스펙트럼 정보, 코드화 스펙트럼 정보, 및 하나 이상의 제1 제어 매개변수들과 사기 엔코딩된 신호로부터 하나 이상의 제2 제어 매개변수들을 얻는다. 상기 양자화 된 스펙트럼 정보는 상기 엔코딩된 신호로부터 수신된 상기 하나 이상의 제1 제어 매개변수들에 응답하여 적응되는 레졸루션을 사용하여 상기 비 양자화기(33)에 의해 비 양자화된다. 선택적으로, 상기 코드화 스펙트럼 정보의 일부 또는 모두는 또한 비 양자화될 수 있다. 필요한 경우, 상기 코드화 스펙트럼 정보의 일부 또는 모두는 변환 부호화를 위해 상기 디코더(34)에 의해 디코딩될 수 있다.
상기 엔코더(35)는 특정 변환 부호화 응용에 요구될 수 없는 선택적인 구성요소이다. 필요한 경우, 엔코더(35)는 상기 비 양자화된 스펙트럼 정보, 또는 코드E된 및/또는 디코딩된 스펙트럼 정보 중 적어도 일부를 재-엔코딩된 스펙트럼 정보로 엔코딩하는 과정을 수행한다. 상기 엔코더(35)에 의해 엔코딩되지 않는 스펙트럼 성분들은 상기 엔코딩된 신호로부터 수신되는 상기 하나 이상의 제2 제어 매개변수들에 응답하여 적응되는 양자화 레졸루션을 사용하여 상기 양자화기(36)에 의해 재-양자화된다. 선택적으로, 상기 재-엔코딩된 스펙트럼 정보의 일부 또는 모두는 또한 양자화될 수 있다. 상기 재-양자화된 스펙트럼 정보를 표현하는 데이터, 상기 재-엔코딩된 스펙트럼 정보 및 상기 하나 이상의 제2 제어 매개변수들을 표현하는 데이터는 상기 포맷터(37)에 의해 전송 또는 저장을 위해 상기 경로(38)를 따라 통과되는 엔코딩된 신호로 조립된다. 상기 포맷터(37)는 또한 상기 포맷터(16)를 위한 상술된 상기 엔코딩된 신호로 다른 데이터를 조립할 수 있다.
상기 부호 간 변환기(30)는, 계산 리소스들이 상기 제1 및 제2 제어 매개변수들을 결정하기 위해 양자화 제어기를 구현하는데 요구되므로 그 동작들을 보다 효율적으로 수행할 수 있다. 상기 부호 간 변환기(30)는 상기 엔코딩된 신호로부 터 상기 하나 이상의 제2 제어 매개변수들 및/또는 상기 하나 이상의 제1 제어 매개변수들을 얻기 위해서 보다는 이들을 도출하기 위해 상기 양자화 제어기와 같은 하나 이상의 양자화 제어기들을 포함할 수 있다. 상기 제1 및 제2 제어 매개변수들을 결정하는데 요구되는 상기 엔코딩 전송기(10)는 이하에 설명된다.
2. 값들의 표현
(1) 스케일링
오디오 코딩 시스템들은 전형적으로 100㏈를 초과하는 동적 범위를 갖는 오디오 신호를 표현해야 한다. 이 동적 범위를 초과하는 오디오 신호 또는 스펙트럼 성분들의 이진수 표현에 필요한 비트 개수는 상기 표현의 정확도에 비례한다. 종래의 컴팩 디스크와 같은 응용들에서, 펄스-부호 변조(PCM) 오디오는 16비트들로 표현된다. 다양한 전문 응용들은 보다 큰 동적 및 보다 높은 정밀도를 갖는 PCM 오디오를 표현하기 위해 짝수의 비트들, 예를 들면, 20 또는 24비트를 사용한다.
오디오 신호 또는 그 스펙트럼 성분들의 정수 표현은 매우 비효율적이고 많은 코딩 시스템들은 수학식 1의 스케일된 값과 관련된 스케일 인자를 포함하는 다른 형태의 표현을 사용한다.
[수학식 1]
s = γ·f
여기서, s는 오디오 성분의 값이고, γ은 스케일된 값이고, f는 관련된 스케일 인자이다. 상기 스케일된 값 γ은 분수 표현과 정수 표현을 포함하는 필수적인 임의의 방식으로 표현될 수 있다. 양 및 음의 값들은 부호-크기 및 이진수들을 위한 1의 보수 및 2의 보수와 같은 다양한 보수 표현을 포함하는 다양한 방식들로 표현될 수 있다. 상기 스케일 인자 f는 간단한 숫자일 수 있거나 필수적으로, 지수 함수 gf 또는 대수 함수 loggf과 같은 임의의 함수일 수 있으며, g는 지수 및 대수 함수들의 기준이다.
많은 디지털 컴퓨터들에서 사용하기 위한 바람직한 구현에서, 특정 소수점 표현은, "가수" m이 2의 보수 표현을 사용하는 이진수 소수로서 표현되는 스케일된 값이고, 지수 함수 2-x인 "지수"x는 스케일 인자를 표현하는 것으로 사용된다. 이 개시의 나머지는 소수점 가수 및 지수들을 참조하지만, 이 특정 표현은, 본 발명이 단지 스케일된 값들과 스케일 인자들에 의해 표현되는 오디오 정보에 적용될 수 있는 하나의 방법이라는 것을 알아야 한다.
오디오 신호 성분의 값은 다음의 수학식 2로서 이 특정 소수점 표현에 표현된다.
[수학식 2]
s = m·2-x
예를 들면, 스펙트럼 성분은 이진수 소수 0.001011012와 동일한 0.1757812510와 동일한 값을 갖는 것으로 가정한다. 이 값은 표 1에 도시된 바와 같이 가수 및 지수의 많은 쌍들에 의해 표현될 수 있다.
[표 1]
가수(m) 지수(x) 표현
0.001011012 0 0.001011012 x 20 = 0.17578125 x 1 = 0.17578125
0.01011012 1 0.01011012 x 2-1 = 0.3515625 x 0.5 = 0.17578125
0.1011012 2 0.1011012 x 2-2 = 0.703125 x 0.25 = 0.17578125
1.011012 3 1.011012 x 2-3 = 1.40625 x 0.125 = 0.17578125
이 특정 소수점 표현에서, 음수는 음수의 크기의 2의 보수인 값을 갖는 가수에 의해 표현된다. 표 1에 도시된 마지막 행을 참조하여, 예를 들면, 2의 보수 표현에서 이진수 소수 1.011012는 십진수 값 -0.59375를 표현한다. 그 결과, 표의 마지막 행에 도시된 소수점 숫자에 의해 실제로 표현되는 값은 표에 도시된 의도된 값과 다른 -0.59375 x 2-3 = -0.07421875이다. 이러한 특징의 중요성은 이하에 설명된다.
(2) 정규화
소수점 숫자의 값은, 상기 소수점 표현이 "정규화"되면 보다 적은 비트들로 표현될 수 있다. 0이 아닌 소수점 표현은, 가수의 이진수 표현에서의 비트들이 상기 값에 대한 임의의 정보를 손실하지 않고 가능한 멀리 최상위 비트 위치들로 이동된다면 정규화되는 것으로 간주된다. 2의 보수 표현에서, 정규화된 양의 가수들은 항상 +0.5 보다 크거나 동일하고 +1 미만이고, 정규화된 음의 가수들은 항상 -0.5 미만이고 -1 보다 크거나 동일하다. 이는 부호 비트에 동일하지 않은 최상위 비트를 갖는 것과 등가한다. 표 1에서, 상기 제3 행에서의 소수점 표현은 정규화된다. 상기 정규화된 가수에 대한 지수 x는 최상위 비트 위치로 하나의 비트를 이동시키는데 필요한 비트 쉬프트들의 개수인 2와 동일하다.
스펙트럼 성분은 이진수 1.110100112와 동일한 십진수 소수 -0.17578125에 동일한 값을 갖는다. 2의 보수 표현에서의 초기 1비트는, 숫자의 값이 음수임을 가리킨다. 이 값은 정규화된 가수 m=1.0100112를 갖는 소수점 수로 표현될 수 있다. 이 정규화된 가수의 지수 x는 0비트를 최상위 비트 위치로 이동시키는데 요구되는 비트 쉬프트들의 개수인 2와 동일하다.
표 1의 상기 제1, 제2 및 마지막 행들에 도시된 소수점 표현은 비정규화된 표현들이다. 상기 표의 제1의 두 행들에 도시된 표현들은 "언더-정규화"되고 상기 표의 마지막 행에 도시된 표현은 "오버-정규화"된다.
코딩 목적을 위해, 정규화된 소수점 수의 가수의 정확한 값은 보다 적은 비트들로 표현될 수 있다. 예를 들면, 상기 비정규화된 가수의 값, m = 0.001011012은 9비트로 표현될 수 있다. 8비트는 소수값을 표현하는데 요구되고 1비트는 부호를 표현하는데 요구된다. 상기 정규화된 가수의 값, m=0.1011012은 단지 7비트로 표현될 수 있다. 표 1의 마지막 행에 도시된 상기 오버-정규화된 가수의 값, m=1.011012은 훨씬 적은 비트로 표현될 수 있지만, 상술된 바와 같이, 오버-정규화된 가수를 갖는 소수점 수는 더 이상 정확한 값을 표현하지 않는다.
이들 예제들은 언더-정규화된 가수들을 회피하는 것을 바람직한 이유 및 일반적으로 오버-정규화된 가수를 회피하는 것이 중요한 이유를 설명하는데 도움이 된다. 언더-정규화된 가수의 존재는 비트들이 엔코딩된 신호에 비효율적으로 사용 되거나 값이 보다 덜 정확하게 표현되는 것을 의미할 수 있지만, 오버-정규화된 가수의 존재는 일반적으로 값들이 심하게 왜곡된다는 것을 의미한다.
(3) 정규화를 위한 다른 고려사항들
많은 구현들에서, 지수는 고정된 수의 비트들로 표현되거나, 대안적으로, 소정의 범위 내의 값을 갖도록 제한된다. 가수의 비트 길이가 최대 허용 지수 값 보다 길면, 상기 가수는 정규화될 수 없는 값을 표현할 수 있다. 예를 들면, 지수가 3비트로 표현되면, 0에서 7까지의 임의의 값을 표현할 수 있다. 상기 가수가 16비트에 의해 표현되면, 표현할 수 있는 가장 작은 0이 아닌 값은 정규화를 위한 14비트 쉬프트를 요구한다. 상기 3비트 지수는 이 가수 값을 정규화하는데 요구되는 값을 정확하게 표현할 수 없다. 이 상황은, 본 발명이 기초로 하는 기본 이론들에 영향을 미치지 않지만, 실제 구현들은, 관련된 지수가 표현할 수 있는 범위를 초과하여 산술 연산들이 가수를 쉬프트시키지 않는다는 것을 보장해야 한다.
일반적으로, 그 자체의 가수 및 지수를 갖는 엔코딩된 신호에서 각각의 스펙트럼 성분을 표현하는데 매우 비효율적이다. 보다 적은 지수들은, 다수의 가수들이 공통의 지수를 공유하면 요구된다. 이 구성은 종종 블록-소수점(BFP) 표현이라 한다. 상기 블록의 지수 값은, 상기 블록에서 가장 큰 크기를 갖는 값이 정규화된 가수로 표현되도록 수립된다.
보다 적은 지수들, 및 그 결과 지수들을 표현하는 보다 적은 비트들은, 보다 큰 블록들이 사용되면 요구된다. 그러나, 상기 보다 큰 블록들의 사용은 일반적으로 상기 블록의 값들이 보다 언더-정규화되도록 한다. 따라서, 상기 블록의 크기 는 일반적으로 지수를 운반하는데 필요한 비트 수 및 언더-정규화된 가수를 표현하는 최종 부정확성과 비효율성 간의 상충관계를 유지하는데 선택된다.
상기 블록 크기의 선택은 또한 상기 양자화 제어기(14)에 사용되는 인식 모델에 의해 계산된 마스킹 곡선의 정확도와 같은 코딩의 다른 특징들에 영향을 미칠 수 있다. 일부 구현들에서, 상기 인식 모델은 마스킹 곡선을 계산하기 위해 스펙트럼 형태의 추정으로서 BFP 지수들을 사용한다. 매우 큰 블록들이 BFP에 사용되면, 상기 BFP 지수의 스펙트럼 레졸루션은 감소되고 상기 인식 모델에 의해 계산되는 마스킹 곡선의 정확도는 저하된다. 추가의 세부사항은 A/52 문서로부터 얻어질 수 있다.
BFP 표현들을 사용하는 결과들은 다음의 설명에서 기재되지 않는다. BFP 표현들이 사용될 때 일부 스펙트럼 성분들이 항상 언더-정규화될 것이라는 것을 이해하는데 충분하다.
(4) 양자화
소수점 형태로 표현된 스펙트럼 성분의 양자화는 일반적으로 가수의 양자화를 참조한다. 일반적으로, 지수는 양자화되지 않지만, 고정된 수의 비트들로 표현되지만, 대안적으로, 소정의 범위 내의 값을 갖는 것으로 한정된다.
상기 표 1에 도시된 상기 정규화된 가수, m=0.101101이 0.0625=0.00012의 레졸루션에 양자화되면, 상기 양자화된 가수 q(m)는 5비트로 표현될 수 있고 십진수 소수 0.6825와 동일한 이진수 소수 0.10112와 동일하다. 보다 거친 레졸루션으로 양자화된 후에 소수점 표현에 의해 표현되는 값은 q(s)=0.5x0.25 = 0.125이다.
이들 특정 예제들은 설명의 편의를 위해서만 제공된다. 양자와의 특정 형태 및 상기 양자화 레졸루션과 양자화된 가수를 표현하는데 필요한 비트 수 간의 특정 관계는 본 발명에 이론상 중요하지 않다.
(5) 산술 연산들
많은 프로세서들과 다른 하드웨어 로직은 숫자들의 소수점 표현에 직접 적용될 수 있는 산술 연산들의 특정 세트를 구현한다. 일부 프로세서들 및 처리 로직은 이러한 연산들을 구현하지 않고, 일반적으로 훨씬 저렴하므로 이들 형태들의 프로세서들을 사용하는 것에 종종 치중한다. 이러한 프로세서들을 사용할 때, 소수점 연산들을 모의실험하는 하나의 방법은 소수점 표현들을 연장된-정밀 고정 소수점 표현으로 변환시키고, 상기 변환된 값들에 대한 정수 산술 연산들을 수행하고 소수점 표현들로 재변환시킨다. 보다 효율적인 방법은 가수들 및 지수들에 대한 정수 산술 연산들 수행하는 것이다.
이들 산술 연산들이 가수에 대해 가질 수 있다는 이러한 영향들을 고려하여, 엔코딩 전송기는, 다음의 디코딩 과정에서 오버-정규화 및 언더-정규화가 원하는 대로 제어되거나 방지될 수 있도록 엔코딩 과정들을 수정할 수 있다. 스펙트럼 성분 가수의 오버-정규화 또는 언더-정규화가 디코딩 과정에서 발생하면, 상기 디코더는 관련된 지수의 값을 변경하지 않고 이 상황을 교정할 수 없다.
이는, 특히, 지수의 변경은 양자화 제어기의 복합 처리가 변환 부호화를 위한 제어 매개변수들을 결정하는데 요구된다는 것을 의미하므로 상기 부호 간 변환 기(30)에 대한 문제점이 있다. 스펙트럼 성분의 지수가 변경되면, 엔코딩된 신호에 운반되는 하나 이상의 제어 매개변수들은 더 이상 유효할 수 없고, 이들 제어 매개변수들을 결정한 엔코딩 과정이 변경을 예상할 수 없었던 경우에, 다시 결정될 필요가 있을 수 있다.
가산, 감산, 및 승산의 영향들은, 이들 산술 연산들이 이하에 상술된 것과 같은 코딩 기술들에 사용되므로 특별한 관심사이다.
(a) 가산
2개의 소수점 수들의 가산은 2개의 단계들에서 수행될 수 있다. 제1 단계에서, 2개의 숫자들의 스케일은 필요한 경우 조화된다. 상기 2개의 숫자들의 지수들이 동일하지 않다면, 보다 큰 지수와 관련된 가수의 비트들은 상기 2개의 지수들 간의 차이에 동일한 숫자 만큼 우측으로 쉬프트된다. 제2 단계에서, "합 가수"는 2의 보수 산술을 사용하여 상기 2개의 숫자들의 가수를 가산함으로써 계산된다. 그 다음, 상기 원래의 2개의 숫자들의 합은 상기 합 가수 및 상기 2개의 원래의 지수들의 보다 작은 지수에 의해 표현된다.
가산 연산의 결과에서, 합 가수는 오버-정규화될 수 있거나 언더-정규화될 수 있다. 상기 2개의 원래 가수의 합이 +1에 동일 또는 이를 초과하거나 -1 미만이면, 상기 합 가수는 오버-정규화될 수 있다. 상기 2개의 원래 가수의 합이 +0.5 미만이고 -0.5 보다 크거나 이에 동일하면, 상기 합 가수는 언더-정규화될 것이다. 이 후자의 상황은, 상기 2개의 원래 가수는 반대의 부호를 갖는다.
(b) 감산
상기 2개의 소수점 숫자들의 감산은 가산을 위한 상술된 것과 유사한 방식으로 2개의 단계들에서 수행될 수 있다. 제2 단계에서, "차이 가수"는 2의 보수 산술을 사용하여 다른 원래의 가수로부터 하나의 원래의 가수를 감산함으로써 계산된다. 그 다음, 상기 2개의 원래 숫자들의 차이는 상기 2개의 원래의 지수들의 차이 가수 및 보다 작은 지수에 의해 표현된다.
감산 연산의 결과에서, 차이 가수는 오버-정규화될 수 있거나 언더-정규화될 수 있다. 상기 2개의 원래의 가수의 차이가 +0.5 미만이고 -0.5 보다 크거나 이에 동일하면, 상기 차이 가수는 언더-정규화될 것이다. 상기 2개의 원래 가수의 차이가 +1 동일하거나 이를 초과하거나, 또는 -1 미만이면, 상기 차이 가수는 오버-정규화될 것이다. 이 후자 상황은, 상기 2개의 원래 가수가 반대의 부호를 가지면 발생할 수 있다.
(c) 승산
2개의 소수점 숫자들의 승산은 2개의 단계들에서 수행될 수 있다. 제1 단계에서, "합 지수"는 상기 2개의 원래의 숫자들의 지수들을 가산함으로써 계산된다. 제2 단계에서, "곱 가수"는 2의 보수 산술을 사용하여 상기 2개의 숫자들의 가수를 승산함으로써 계산된다. 그 다음, 상기 2개의 원래의 숫자들의 곱은 상기 곱 가수 및 상기 합 지수에 의해 표현된다.
상기 승산 연산의 결과에서, 상기 곱 가수는 언더-정규화될 수 있지만, 하나의 예외로, 상기 곱 가수의 크기가 +1 보다 크거나 이에 동일하거나, -1 미만일 수 없으므로 오버-정규화될 수 없다. 상기 2개의 원래 가수의 곱이 +0.5 미만이고 -0.5 보다 크거나 이에 동일하면, 상기 합 가수는 언더-정규화될 것이다.
오버-정규화를 위한 규칙에 대한 상기 하나의 예외는, 승산될 소수점 숫자들 모두가 -1에 동일한 가수를 가질 때 발생한다. 이 경우에, 상기 승산은 오버-정규화된 +1에 동일한 곱 가수를 생성한다. 그러나, 이 상황은 승산될 값들 중 적어도 하나가 음이 아님을 보장함으로써 방지될 수 있다. 이하에 설명된 합성 기술인 경우, 승산은 커플된-채널 신호들로부터의 신호를 합성하고 스펙트럼 재생에만 사용된다. 예외적인 조건은 상기 커플링 계수가 음이 아닌 값으로 요구함으로써 커플링에서 회피되고, 엔벨로프 스케일링 정보, 번역된 성분 섞음 매개변수 및 잡음형 지수 섞음 매개변수를 음이 아닌 값으로 요구함으로써 스펙트럼 재생에 회피된다.
이 설명의 나머지는, 코딩 기술들이 이러한 하나의 예외적인 조건을 피하기 위해 구현된다는 것을 가정한다. 이 조건이 회피될 수 없다면, 단계들은, 승산이 사용될 때 오버-정규화를 또한 피하도록 취해져야 한다.
(d) 요약
가수에 대한 이들 연산들의 영향은 다음과 같이 요약될 수 있다.
(1) 2개의 정규화된 숫자들의 가산은 정규화, 언더-정규화, 및 오버-정규화될 수 있는 합을 산출할 수 있다.
(2) 2개의 정규화된 숫자들의 감산은 정규화, 언더-정규화 및 오버-정규화될 수 있는 차이를 산출할 수 있다.
(3) 2개의 정규화된 숫자들의 승산은 정규화될 수 있거나 언더-정규화될 수 있지만, 상술된 한계들에 비추어 오버-정규화될 수 없는 곱을 산출할 수 있다.
이들 산출 연산들로부터 얻어진 값은, 정규화되면 보다 적은 비트들로 표현될 수 있다. 언더-정규화된 가수들은 정규화된 가수에 대한 이상 값 미만인 지수와 관련되며, 상기 언더-정규화된 가수의 정수 표현은 중요한 비트들이 최하위 비트 위치들로부터 손실됨에 따라 정확도를 잃게 될 것이다. 오버-정규화된 가수들은 정규화된 가수에 대한 이상 값 보다 큰 지수와 관련되며, 상기 오버-정규화된 가수의 정수 표현은 중요 비트들이 최상위 비트 위치들로부터 부호 비트 위치로 쉬프트됨에 따라 왜곡을 초래할 것이다. 일부 코딩 기술들이 정규화에 영향을 미치는 방법이 이하에 기재된다.
3. 코딩 기술들
일부 응용들은 양자화 잡음의 허용가능하지 않은 레벨들을 디코딩된 신호에 삽입하지 않고 기본 인식 엔코딩 기술들에 의해 부합될 수 없는 엔코딩된 신호의 정보 용량에 대한 몇몇 한계를 부과한다. 상기 디코딩된 신호의 품질을 저하하지만, 양자화 잡음을 허용가능한 레벨로 감소시키는 방식으로 행하는 추가의 코딩 기술들이 또한 사용될 수 있다. 이들 코딩 기술들의 일부가 이하에 기재된다.
a) 매트릭싱
매트릭싱은, 상기 2개의 채널들에서의 신호들이 매우 상관된다면 2채널 코딩 시스템들에서의 정보 용량 전제조건들을 감소시키는데 사용될 수 있다. 2개의 상관된 신호들을 합 및 차이 신호들로 매트릭싱함으로써, 상기 2개의 매트릭스된 신호들 중 하나는 상기 2개의 원래 신호들 중 하나와 거의 동일한 정보 용량 전제조건을 가질 것이지만, 다른 매트릭스된 신호는 훨씬 낮은 정보 용량 전제조건을 가 질 것이다. 상기 2개의 원래 신호들이 완전하게 상관되면, 예를 들면, 상기 매트릭스된 신호들 중 하나를 위한 정보 용량 전제조건은 0에 가깝다.
이론상, 상기 2개의 원래 신호들은 상기 2개의 매트릭스된 합과 차이 신호들로부터 완전하게 복원될 수 있지만, 다른 코딩 기술들에 의해 삽입된 양자화 잡음은 완전한 복원을 피할 것이다. 양자화 잡음에 의해 유발될 수 있는 매트릭싱을 갖는 문제들은 본 발명의 이해에 관련하지 않고 더욱 기재되지 않는다. 추가의 세부사항들은 미국특허공보 제5,291,557호와 같은 다른 인용참증, 및 1999년8월, 버넌(Vernon)에 의해 Audio Eng. Soc. 제17회 International Conference, 페이지 40-57에 기재된 "돌비 디지털:디지털 텔레비젼과 저장 응용을 위한 오디오 코딩"으로부터 얻어질 수 있다. 필수적으로 페이지 50-51을 참조한다.
2채널 스테레오음향 프로그램을 엔코딩하기 위한 전형적인 매트릭스가 이하에 기재된다. 바람직하게, 매트릭싱은, 상기 2개의 원래 서브대역 신호들이 매우 상관된 것으로 간주되는 경우에만 서브대역 신호들에서의 스펙트럼 성분들에 적응가능하게 적용된다. 상기 매트릭스는 좌측 및 우측 입력 신호들의 스펙트럼 성분들을 다음과 같이 합 및 차이-채널 신호들의 스펙트럼 성분들로 조합한다.
[수학식 3a]
Mi = 1/2 (Li + Ri)
[수학식 3b]
Di = 1/2 (Li - Ri)
여기서, Mi는 상기 매트릭스의 상기 합-채널 출력에서 스펙트럼 성분 i이고, Di는 상기 매트릭스의 상기 차이-채널 출력에서 스펙트럼 성분 i이고, Li는 상기 매트릭스에 입력된 좌측 채널에서 스펙트럼 성분 i이고, Ri는 상기 매트릭스에 입력된 우측 채널에서 스펙트럼 성분 i이다.
상기 합 및 차이-채널 신호들에서 스펙트럼 성분들은 매트릭스되지 않은 신호들에서의 스펙트럼 성분들에 사용된 것에 유사한 방식으로 엔코딩된다. 상기 좌측 및 우측 채널들에 대한 서브대역 신호들이 매우 상관되고 위상 내에 있는 상황들에서, 상기 합-채널 신호에서의 스펙트럼 성분들은 상기 좌측 및 우측 채널들에서의 스펙트럼 성분들의 크기들과 거의 동일한 크기들을 갖고, 상기 차이-채널 신호들에서의 스펙트럼 성분은 실질적으로 0과 동일할 것이다. 상기 좌측 및 우측-채널들에 대한 서브대역 신호들이 매우 상관되고 서로에 대해 위상 내에 반전되면, 스펙트럼 성분 크기들과 상기 합과 차이-채널 신호들 간의 관계는 반전된다.
매트릭싱이 서브대역 신호들에 적응가능하게 적용되면, 각각의 주파수 서브대역을 위한 매트릭싱의 표시는, 상기 수신기가, 상보적인 역 매트릭스가 사용되어야할 때 결정할 수 있도록 상기 엔코딩된 신호에 포함된다. 상기 수신기는, 상기 서브대역 신호들이 매트릭스되었다는 것을 가리키는 표시가 수신되지 않으면 상기 엔코딩된 신호에서 각각의 채널에 대한 서브대역 신호들을 독립적으로 처리하고 디코딩한다. 상기 수신기는 매트릭싱의 영향을 반전시키고 다음과 같이 역 매트릭스를 적용함으로써 상기 좌측 및 우측-채널 서브대역 신호들의 스펙트럼 성분들을 복 원한다.
[수학식 4a]
L'i = Mi + Di
[수학식 4b]
D'i = Mi - Di
여기서, L'i는 상기 매트릭스의 상기 복원된 좌측 채널 출력에서 스펙트럼 성분 i이며, R'i는 상기 매트릭스의 상기 복원된 우측 채널 출력에서 스펙트럼 성분 i이다. 일반적으로, 상기 복원된 스펙트럼 성분들은 양자화 영향들로 인해 원래의 스펙트럼 성분들에 정확하게 동일하지 않다.
역 매트릭스가 정규화된 가수를 갖는 스펙트럼 성분들을 수신하면, 상기 역 매트릭스에서 상기 가산 및 감산 연산들은 상술된 바와 같이 언더-정규화되거나 오버-정규화된 가수를 갖는 복원된 스펙트럼 성분들을 초래할 수 있다.
이 상황은, 상기 수신기가 매트릭스된 서브대역 신호들에서의 하나 이상의 스펙트럼 성분들에 대체들을 합성하면 보다 복잡해진다. 상기 합성 과정은 일반적으로 불명확한 스펙트럼 성분 값들을 생성한다. 이 불명확성은, 상기 역 매트릭스로부터의 스펙트럼 성분들이 상기 합성 과정의 총 영향들이 이미 공지되지 않으면 오버-정규화되거나 언더-정규화될 것인지를 미리 결정할 수 없게 한다.
b) 커플링
커플링은 다수의 채널들에 대한 스펙트럼 성분들을 엔코딩하는데 사용될 수 있다. 바람직한 구현들에서, 커플링은 매우 높은 주파수 서브대역들에서의 스펙트럼 성분들에 제한적이지만, 원리상, 커플링은 스펙트럼의 임의의 부분에 사용될 수 있다.
커플링은 상기 다수의 채널들에서 신호들의 스펙트럼 성분들을 단일 커플된 채널 신호의 스펙트럼 성분으로 조합하고, 상기 원래의 다수의 채널들을 표현하는 정보를 엔코딩하기 보다는 상기 커플된-채널 신호를 표현하는 정보를 엔코딩한다. 또한, 상기 엔코딩된 신호는 상기 원래 신호들의 스펙트럼 형태를 표현하는 사이드 정보를 포함한다. 상기 사이드 정보는 상기 수신기가 상기 원래의 다수의 채널 신호들과 실질적으로 동일한 스펙트럼 형태를 갖는 커플된-채널 신호로부터 다수의 신호들을 합성하게 한다. 커플링이 수행될 수 있는 하나의 방법은 A/52 문서에 기재되어 있다.
다음의 설명은 커플링이 수행될 수 있는 간단한 구현을 설명한다. 이 구현에 따르면, 상기 커플된-채널의 스펙트럼 성분들은 다수의 채널들에서의 대응한 스펙트럼 성분들의 평균값을 계산함으로써 형성된다. 상기 원래의 신호들의 스펙트럼 형태를 표현하는 상기 사이드 정보는 커플링 좌표라 한다. 특정 채널을 위한 커플링 좌표는 상기 커플된-채널 신호에서의 스펙트럼 성분 에너지에 대한 상기 특정 채널에서의 스펙트럼 성분 에너지의 비율로부터 계산된다.
바람직한 구현에서, 스펙트럼 성분들과 상기 커플링 좌표들 모두는 소수점 숫자들로 상기 엔코딩된 신호에서 운반된다. 상기 수신기는 상기 커플된-채널 신호에서의 각각의 스펙트럼 성분을 적절한 커플링 좌표로 승산함으로써 상기 커플된 -채널 신호로부터 다수의 채널 신호들을 합성한다. 상기 결과는 상기 원래의 신호들과 동일한 스펙트럼 형태와 동일하거나 실질적으로 동일한 스펙트럼 형태를 갖는 합성된 신호들의 세트이다. 이 과정은 다음과 같이 표현될 수 있다.
[수학식 5]
si ,j = Ci cci ,j
si ,j는 채널 j에서의 합성된 스펙트럼 성분 i이고, Ci는 상기 커플된-채널 신호에서 스펙트럼 성분 i이고, cci ,j는 채널 j에서 스펙트럼 성분 i에 대한 커플링 좌표이다.
상기 커플된-채널 스펙트럼 성분과 상기 커플링 좌표가 정규화된 소수점 숫자들에 의해 표현되면, 이들 2개의 숫자들의 곱은 언더-정규화될 수 있는 가수에 의해 표현된 값을 초래할 것이지만, 상술된 이유들에 대해 오버-정규화될 수 있다.
이러한 상황은, 상기 수신기가 상기 커플된-채널 신호에서 하나 이상의 스펙트럼 성분들에 대한 대체들을 합성하면 더욱 복잡해진다. 상술된 바와 같이, 상기 합성 과정은 일반적으로 불명확한 스펙트럼 성분 값들을 생성하고 상기 불명확성은, 상기 승산으로부터의 스펙트럼 성분들이 상기 합성 과정의 총 영향들이 미리 공지되지 않으면 언더-정규화될 것인지를 미리 결정할 수 없게 한다.
c) 스펙트럼 재생
스펙트럼 재생을 사용하는 코딩 시스템에서, 엔코딩 전송기는 입력 오디오 신호의 기저대역 부분 만을 엔코딩하고 나머지를 폐기한다. 상기 디코딩 수신기는 상기 폐기된 부분을 대체하기 위해 합성된 신호를 발생시킨다. 상기 엔코딩된 신호는, 상기 합성된 신호가 폐기된 입력 오디오 신호의 일부의 스펙트럼 레벨들을 어느 정도를 보존하도록 신호 합성을 제어하기 위해 디코딩 과정에 의해 사용되는 스케일링 정보를 포함한다.
스펙트럼 성분들은 다양한 방법으로 재생될 수 있다. 일부 방법들은 스펙트럼 성분들을 발생시키거나 합성하기 위해 의사-랜덤 수 생성기를 사용한다. 다른 방법들은 기저대역 신호에서의 스펙트럼 성분들을 재생에 필요한 스펙트럼의 부분들로 번역하거나 복사한다. 특정 방법이 본 발명에는 중요하지 않지만, 일부 바람직한 구현들의 설명들은 상기 참조된 인용예로부터 얻어질 수 있다.
다음의 설명은 스펙트럼 성분 재생의 하나의 간단한 구현을 기재한다. 이 구현에 따르면, 스펙트럼 성분은 상기 기저대역 신호로부터 스펙트럼 성분을 복사하고, 의사-랜덤 수 생성기에 의해 발생된 잡음형 성분과 상기 복사된 성분을 조합하고, 상기 엔코딩된 신호에 운반된 스케일링 정보에 따라 상기 조합을 스케일링함으로써 합성된다. 상기 복사된 성분과 상기 잡음형 성분의 상대적 가중치는 또한 상기 엔코딩된 신호에 운반된 섞임 매개변수에 따라 조정된다. 상기 과정은 다음의 수학식 6에 의해 표현될 수 있다.
[수학식 6]
si = ei ·[ai·Ti + bi·Ni]
si는 상기 합성된 스펙트럼 성분 i이고, ei는 스펙트럼 성분 i에 대한 엔벨 로프 스케일링 정보이고, Ti는 스펙트럼 성분 i에 대한 상기 복사된 스펙트럼 성분이고, Ni는 스펙트럼 성분 i에 대해 생성된 잡음형 성분이고, ai는 번역된 성분 Ti에 대한 섞임 매개변수이고, bi는 잡음형 성분 Ni에 대한 섞임 매개변수이다.
상기 복사된 스펙트럼 성분, 엔벨로프 스케일링 정보, 잡음형 성분과 섞임 매개변수가 정규화되는 소수점 숫자들로 표현되면, 상기 합성된 스펙트럼 성분을 생성하는데 필요한 상기 가산 및 승산 연산들은 상술된 이유들로 인해 언더-정규화될 수 있거나 오버-정규화될 수 있는 가수에 의해 표현된 값을 생성할 것이다. 상기 합성된 성분들이 상기 합성 과정의 총 영향들이 미리 공지되지 않으면 언더-정규화되거나 오버-정규화될 것인지를 미리 결정할 수 없다.
B. 개선된 기술들
본 발명은 인식가능하게 엔코딩된 신호들의 변환 부호화가 보다 효율적으로 수행되도록 하고 보다 높은 품질의 변환 부호화된 신호들을 제공하게 하는 기술들에 관한 것이다. 이는 종래의 엔코딩 전송기들 및 디코딩 수신기들에 요구되는 분석과 합성 필터링과 같은 변환 부호화 과정으로부터 일부 기능들을 제거함으로써 달성된다. 가장 간단한 형태에서, 본 발명에 따른 변환 부호화는 스펙트럼 정보를 비 양자화하는데 필요한 정도에만 부분적 디코딩 과정을 수행하고 상기 역 양자화된 스펙트럼 정보를 재 양자화하는데 필요한 정도에만 부분적 엔코딩 과정을 수행한다. 추가의 디코딩과 엔코딩은 필요한 경우 수행될 수 있다. 상기 변환 부호화 과정이 상기 엔코딩된 신호로부터 비 양자화 및 재 양자화를 제어하는데 필요한 제 어 매개변수들을 얻음으로써 더욱 간략화해진다. 다음의 설명은 상기 엔코딩 전송기가 변환 부호화에 필요한 제어 매개변수들을 생성시키는데 사용될 수 있는 2개의 방법들을 설명한다.
1. 최악의 가정들
a) 개요
제어 매개변수들을 생성하기 위한 제1 방법은 최악의 조건들을 가정하고 오버-정규화가 결코 발생할 수 없다는 것을 보장하는데 필요한 정도만 소수점 지수를 수정한다. 일부 불필요한 언더-정규화는 예상된다. 상기 수정된 지수들은 상기 양자화 제어기(14)에 의해 사용되어 상기 하나 이상의 제2 제어 매개변수들을 결정한다. 상기 수정된 지수들은, 상기 변환 부호화 과정이 또한 동일한 조건들 하에서 지수들을 수정하고, 상기 소수점 표현이 정확한 값을 표현하도록 상기 수정된 지수들과 관련된 가수를 수정하므로 상기 엔코딩된 신호에 포함될 필요가 없다.
도 2 및 4를 참조하여, 상기 양자화 제어기(14)는 상술된 바와 같이 하나 이상의 제1 제어 매개변수들을 결정하고, 상기 추정기(43)는 지수들이 오버-정규화가 합성 과정에서 발생하지 않는다는 것을 보장하도록 수정되어야 하는지를 식별하기 위해 상기 디코더(24)의 합성 과정에 대해 스펙트럼 성분들을 분석한다. 이들 지수들은 다른 수정되지 않은 지수들로 수정되고 상기 부호 간 변환기(30)에서 수행될 재 엔코딩 과정을 위해 상기 하나 이상의 제2 제어 매개변수들을 결정하는 상기 양자화 제어기(14)로 통과된다. 상기 추정기(43)는 오버-정규화를 유발할 수 있는 합성 과정에서 산술 연산들 만을 고려할 필요가 있다. 이러한 이유로, 상술된 것 과 같은 커플된-채널 신호들을 위한 합성 과정은, 상술된 바와 같이, 이 특정 과정이 오버-정규화를 유발시키지 않으므로 고려될 필요가 없다. 커플링의 다른 구현들에서의 산술 연산들은 고려될 필요가 있을 수 있다.
b) 처리의 세부사항
(1) 매트릭싱
매트릭싱에서, 역 매트릭스에 제공될 각각의 가수의 정확한 값은, 양자화가 상기 양자화기(15)에 의해 수행된 후 그리고 상기 디코딩 과정에 의해 생성된 임의의 잡음형 성분이 합성될 때까지 공지될 수 없다. 이러한 구현에서, 최악의 경우는, 상기 가수 값들이 공지되지 않으므로 각각의 매트릭스 연산에 대해 가정되어야 한다. 수학식 4a 및 4b를 참조하여, 역 매트릭스에서 최악의 경우의 연산은 동일한 부호 및 1 보다 큰 크기에 가산하는데 충분히 큰 크기들을 갖는 2개의 가수들의 가산, 또는 다른 부호들과 1 보다 큰 크기에 가산하는데 충분히 큰 크기들을 갖는 2개의 가수들의 감산이다. 오버-정규화는 각각의 가수 1비트를 우측으로 쉬프트시키고 그들의 지수들을 하나씩 감소시킴으로써 최악의 상황에 대해 부호 간 변환기에서 방지되며, 이에 따라, 상기 추정기(43)는 역 매트릭스 계산에서 각각의 스펙트럼 성분에 대한 지수들을 결정하고 상기 양자화 제어기(44)는 이들 수정된 지수들을 사용하여 상기 부호 간 변환기를 위해 상기 하나 이상의 제2 제어 매개변수들을 결정한다. 여기서 이 설명의 나머지를 통해 수정 이전의 상기 지수들의 값들은 0 보다 크다고 가정한다.
상기 역 매트릭스에 실제로 제공되는 상기 2개의 가수들이 최악의 상황에 순 응하면, 그 결과는 적당하게 정규화된 가수이다. 실제 가수가 최악의 상황에 순응하지 않으면, 그 결과는 언더-정규화된 가수일 것이다.
(2) 스펙트럼 재생성(HFR)
스펙트럼 재생성에서, 재생성 과정에 제공될 각각의 가수의 정확한 값은, 양자화가 상기 양자화기(15)에 의해 수행된 후 그리고 상기 디코딩 과정에 의해 생성된 임의의 잡음형 성분이 합성될 때까지 공지될 수 없다. 이 구현에서, 최악의 경우는, 상기 가수 값들이 공지되지 않으므로 각각의 산술 연산에 대해 가정되어야 한다. 수학식 6을 참조하여, 최악의 경우의 연산은 번역된 스펙트럼 성분과 동일한 부호 및 1 보다 큰 크기에 가산하는데 충분히 큰 크기들을 갖는 잡음형 성분에 대한 가수들의 가산이다. 승산 연산들은 오버-정규화를 유발시킬 수 없지만, 또한, 오버-정규화가 발생하지 않는다는 것을 확신할 수 없으며, 이에 따라, 상기 합성된 스펙트럼 성분이 오버-정규화된다고 가정되어야 한다. 오버-정규화는 상기 스펙트럼 성분 가수 및 상기 잡음형 성분 가수를 1비트 우측으로 쉬프트시키고 하나씩 지수들을 감소시킴으로써 상기 부호 간 변환기에서 방지될 수 있으며, 이에 따라, 상기 추정기(43)는 상기 번역된 성분에 대한 지수를 감소시키고 상기 양자화 제어기(44)는 이 수정된 지수를 사용하여 상기 부호 간 변환기에 대한 상기 하나 이상의 제2 제어 매개변수들을 결정한다.
상기 재생 과정에 실제로 제공되는 상기 2개의 가수들이 최악의 경우의 상황에 순응하면, 그 결과는 적당히 정규화된 가수이다. 상기 실제 가수들이 최악의 경우의 상황에 순응하지 않으면, 그 결과는 언더-정규화된 가수일 것이다.
c) 장점들 및 단점들
최악의 경우의 가정들을 만드는 제1 방법은 저렴하게 구현될 수 있다. 그러나, 이는 상기 부호 간 변환기가 일부 스펙트럼 성분들이 언더-정규화되고 보다 많은 비트들이 그들을 표현하는데 할당되지 않으면 엔코딩된 신호에서 보다 부정확하게 운반되도록 하는 것을 필요로 한다. 게다가, 일부 지수들의 값이 감소되므로, 이들 수정된 지수들에 기초한 마스킹 곡선들은 덜 정확하다.
2. 결정적 과정들
a) 개요
제어 매개변수들을 생성하기 위한 제2 방법은 오버-정규화 및 언더-정규화의 특정 예제들이 결정되도록 허용하는 과정을 수행한다. 소수점 지수들은 오버-정규화를 방지하고 언더-정규화의 발생들을 최소화시키도록 수정된다. 상기 수정된 지수들은 상기 양자화 제어기(14)에 의해 사용되어 상기 하나 이상의 제2 제어 매개변수들을 결정한다. 상기 수정된 지수들은, 상기 변환 부호화 과정이 또한 동일한 조건들 하에서 상기 지수들을 수정하고 상기 소수점 표현이 정확한 값을 표현하도록 상기 수정된 지수들과 관련된 가수를 수정하므로 상기 엔코딩된 신호에 포함될 필요는 없다.
도 2 및 5를 참조하여, 상기 양자화 제어기(14)는 상술된 하나 이상의 제1 제어 매개변수들을 결정하고, 상기 합성 모델(53)은 오버-정규화가 합성 과정에서 발생하지 않는다는 것을 보장하고 합성 과정에서 발생하는 언더-정규화의 발생들을 최소화시키도록 수정되어야 하는지를 식별하기 위해 상기 디코더(24)의 합성 과정 에 대해 스펙트럼 성분들을 분석한다. 이들 지수들은 다른 수정되지 않은 지수들로 수정되고 상기 부호 간 변환기(30)에서 수행될 재-엔코딩 과정을 위한 하나 이상의 제2 제어 매개변수들을 결정하는 상기 양자화 제어기(54)로 통과된다. 상기 합성 모델(53)은 상기 합성 과정의 모두 또는 일부를 수행하거나 상기 합성 과정에서 모든 산술 연산들의 정규화에 대한 영향들이 미리 결정되도록 허용하기 위해 그 영향들을 모의실험한다.
각각의 양자화된 가수의 값과 임의의 합성된 성분은 상기 합성 모델(53)에 수행되는 분석 과정에 유용해야 한다. 합성 과정들이 의사-랜덤 수 생성기 또는 다른 의사-랜덤 과정을 사용하면, 초기화 및 시드 값들은 상기 전송기의 분석 과정과 상기 수신기의 합성 과정 사이에 동기되어야 한다. 이는 상기 전송 엔코더(10)가 모든 초기화 값들을 결정하고 상기 엔코딩된 신호에서 이들 값들의 일부 표시를 포함하게 함으로써 달성될 수 있다. 상기 엔코딩된 신호가 독립적인 간격들 또는 프레임들에 구성되면, 디코딩에서 시작 지연들을 최소화하기 위해 각각의 프레임에서 이 정보를 포함하고 편집과 같은 다양한 프로그램 생성 활동들을 용이하게 하는 것이 바람직할 수 있다.
b) 처리의 세부사항
(1) 매트릭싱
매트릭싱에서, 상기 디코더(24)에 의해 사용되는 상기 디코딩 과정은 역 매트릭스에 입력되는 스펙트럼 성분들 중 하나 또는 모두를 합성할 수 있을 것이다. 이 성분이 합성되면, 상기 역 매트릭스에 의해 계산되는 상기 스펙트럼 성분들은 오버-정규화되거나 언더-정규화될 수 있다. 상기 역 매트릭스에 의해 계산되는 스펙트럼 성분들은 또한 가수에서 양자화 에러들로 인해 오버-정규화되거나 언더-정규화될 수 있다. 상기 합성 모델(53)은, 상기 역 매트릭스에 대한 입력인 가수 및 지수들의 정확한 값을 결정할 수 있으므로 이들의 정규화되지 않은 조건들에 대해 시험할 수 있다.
상기 합성 모델(53)이 정규화가 손실될 것이라고 결정하면, 상기 역 매트릭스에 대한 입력인 하나 또는 모든 성분들에 대한 지수는 오버-정규화를 방지하도록 감소되고 언더-정규화를 방지하도록 증가될 수 있다. 상기 수정된 지수들은 상기 엔코딩된 신호에 포함되는 것이 아니라, 상기 양자화 제어기(54)에 의해 사용되어 상기 하나 이상의 제2 제어 매개변수들을 결정한다. 상기 부호 간 변환기(30)가 상기 지수들에 대한 동일한 수정들을 생성할 때, 상기 관련된 가수들은 또한, 최종의 소수점 숫자들이 정확한 지수 값들을 표현하도록 조정될 것이다.
(2) 스펙트럼 재생성(HFR)
스펙트럼 재생에서, 상기 디코더(24)에 의해 사용되는 상기 디코딩 과정은 상기 번역된 스펙트럼 성분을 합성할 수 있을 것이고 또한 상기 번역된 성분에 가산될 잡음형 성분을 합성할 수 있다. 그 결과, 상기 스펙트럼 재생성 과정에 의해 계산된 상기 스펙트럼 성분이 오버-정규화되거나 언더-정규화될 수 있다. 상기 재생된 성분은 또한 상기 번역된 성분의 가수의 양자화 에러로 인해 오버-정규화되거나 언더-정규화될 수 있다. 상기 합성 모델(53)은, 상기 재생 과정에의 입력인 가수들과 지수들의 정확한 값을 결정할 수 있으므로 이들 정규화되지 않은 조건들에 대해 시험할 수 있다.
상기 합성 모델(53)이 정규화가 손실될 것이라는 것을 결정하면, 상기 재생 과정에의 입력인 하나 또는 모든 성분들에 대한 지수는 오버-정규화를 방지하도록 감소되고 언더-정규화를 방지하도록 증가될 수 있다. 상기 수정된 지수들은 상기 엔코딩된 신호에 포함되는 것이 아니라, 상기 양자화 제어기(54)에 의해 사용되어 상기 하나 이상의 제2 제어 매개변수들을 결정한다. 상기 부호 간 변환기(30)가 상기 지수들에 대해 동일한 수정들을 생성할 때, 상기 관련된 가수들은 또한 최종의 소수점 숫자들이 정확한 지수 값들을 표현하도록 조정될 것이다.
(3) 커플링
커플된-채널 신호에 대한 합성 과정들에서, 상기 디코더(24)에 의해 사용되는 상기 디코딩 과정은 상기 커플된-채널 신호에서 상기 하나 이상의 스펙트럼 성분들에 대해 잡음형 성분들을 합성할 것이다. 그 결과, 상기 합성 과정에 의해 계산된 스펙트럼 성분들이 언더-정규화될 수 있다. 상기 합성된 성분들은 또한 상기 커플된-채널 신호에서 스펙트럼 성분들의 가수에서의 양자화 에러로 인해 언더-정규화될 수 있다. 상기 합성 모델(53)은, 상기 합성 과정에의 입력인 가수들과 지수들의 정확한 값을 결정할 수 있으므로 이들 정규화되지 않은 조건들에 대해 시험할 수 있다.
상기 합성 모델(53)은 정규화가 손실될 것이라고 결정하면, 상기 합성 과정에의 입력인 하나 또는 모든 성분들에 대한 지수는 언더-정규화를 방지하도록 증가될 수 있다. 상기 수정된 지수들은 상기 엔코딩된 신호에 포함되는 것이 아니라, 상기 양자화 제어기(54)에 의해 사용되어 상기 하나 이상의 제2 제어 매개변수들을 결정한다. 상기 부호 간 변환기(30)가 상기 지수들에 대해 동일한 수정들을 생성할 때, 상기 관련된 가수들은 또한 최종의 소수점 숫자들이 정확한 성분 값들을 표현하도록 조정될 것이다.
c) 장점들과 단점들
결정적 방법들을 수행하는 과정들은 최악의 경우의 추정 방법을 수행하는 과정들 보다 구현하는데 더 비싸지만, 이들 부수적인 구현 비용들은 엔코딩 전송기들에 관한 것이고 부호 간 변환기들이 훨씬 저렴하게 구현되도록 허용한다. 게다가, 정규화되지 않은 가수들에 의해 유발되는 부정확도는 회피될 수 있거나 최소화될 수 있고 상기 결정적 방법에 따라 수정되는 지수들에 기초한 마스킹 곡선들은 최악의 경우의 방법에서 계산되는 마스킹 곡선들 보다 정확하다.
C. 구현
본 발명의 다양한 특징들은 컴퓨터 또는 범용의 컴퓨터에서 찾을 수 있는 것들과 유사한 구성요소들에 결합된 디지털 신호 프로세서(DSP) 회로와 같은 보다 특수화된 구성요소들을 포함하는 일부 다른 장치에 의한 실행을 위한 소프트웨어를 포함하는 다양한 방법들에서 구현될 수 있다. 도 6은 본 발명의 특징들을 구현하는데 사용될 수 있는 장치(70)의 블록도이다. DSP(72)는 계산 리소스들을 제공한다. RAM(73)은 신호 처리를 위해 상기 DSP(72)에 의해 사용되는 시스템 랜덤 접속 메모리(RAM)이다. ROM(74)은 상기 장치(70)를 동작시키고 본 발명의 다양한 특징들을 실행하는데 필요한 프로그램들을 저장하기 위한 판독 전용 메모리(ROM)와 같 은 관련 저장의 일부 형태를 나타낸다. I/O 제어부(75)는 통신 채널들(76, 77)에 의해 신호들을 수신하고 전송하기 하는 인터페이스 회로를 나타낸다. 아날로그-디지털 변환기들과 디지털-아날로그 변환기들은 아날로그 오디오 신호들을 수신 및/또는 전송하도록 상기 I/O 제어부(75)에 포함될 수 있다. 도시된 실시예에서, 모든 주요 시스템 구성요소들은 하나 이상의 물리적 버스를 나타낼 수 있는 버스(71)에 연결하지만, 버스 아키텍쳐는 본 발명을 구현하는데 요구되지 않는다.
범용의 컴퓨터 시스템에서 구현되는 실시예들에서, 부수적인 구성요소들은 키보드 또는 마우스 및 디스플레이와 같은 장치들에의 인터페이스를 위해 그리고 자기 테이프 또는 디스크, 또는 광학 매체와 같은 저장 매체를 갖는 저장 장치를 제어하기 위해 포함될 수 있다. 상기 저장 매체는 운영 체계들, 유틸리티들과 응용들에 대한 명령들의 프로그램들을 저장하는데 사용될 수 있고, 본 발명의 다양한 특징들을 구현하는 프로그램들의 실시예들을 포함할 수 있다.
본 발명의 다양한 특징들을 실시하는데 요구되는 기능들은 이산 로직 구성요소들, 집적 회로들, 하나 이상의 ASIC들 및/또는 프로그램-제어된 프로세서들을 포함하는 광범위한 방법들에서 구현되는 구성요소들에 의해 수행될 수 있다. 이들 구성요소들이 구현되는 방식은 본 발명에는 중요하지 않다.
본 발명의 소프트웨어 구현들은 초음파에서 자외선 주파수들까지를 포함하는 스펙트럼을 통해 기저대역 또는 변조된 통신 경로들과 같은 다양한 기계어 판독가능한 매체, 또는 자기 테이프, 카드들 또는 디스크, 광학 카드들 또는 디스크를 포함하는 필수적인 임의의 기록 기술을 사용하여 정보를 운반하는 저장 매체, 및 종 이와 같은 매체 상의 검출가능한 표시들에 의해 운반될 수 있다.

Claims (54)

  1. 엔코딩된 오디오 정보를 변환 부호화하는 방법으로서,
    오디오 신호의 스펙트럼 성분을 제1 주파수 대역으로 표현하는 제1 양자화된 스케일 값과 제1 스케일 인자를 운반하고, 하나 이상의 제1 제어 매개변수와 하나 이상의 제2 매개변수를 운반하는 제1 엔코딩된 신호를 수신하는 단계와,
    상기 제1 양자화된 스케일 값과 상기 제1 스케일 인자를 상기 제1 엔코딩된 신호로부터 얻는 단계로서, 상기 제1 스케일 인자 각각은 하나 이상의 제1 양자화된 스케일된 값과 관련되고, 제1 양자화된 스케일된 값 각각은 그 관련된 제1 스케일 인자에 따라 스케일되며, 제1 양자화된 스케일된 값 각각과 관련 제1 스케일 인자는 개별 스펙트럼 성분을 표현하는, 단계와,
    상기 제1 엔코딩된 신호로부터 하나 이상의 상기 제1 제어 매개변수와 하나 이상의 상기 제2 제어 매개변수를 구하는 단계로서, 하나 이상의 상기 제1 제어 매개변수는 상기 제1 엔코딩된 신호에 대한 제1 비트율 전제조건에 응답하여 도출되었고, 하나 이상의 상기 제2 제어 매개변수는 상기 제1 비트율과 다른 제2 엔코딩된 신호에 대한 제2 비트율 전제조건에 응답하여 도출되는, 단계와,
    하나 이상의 상기 제1 제어 매개변수에 응답하여 제1 비트 할당 과정에 따라 비트를 할당하고, 상기 제1 비트 할당 과정에 의해 할당된 비트수에 기초한 양자화 레졸루션에 따라 상기 제1 양자화된 스케일 값을 비양자화(dequantizing)하여 비양자화된 스케일 값을 구하는 단계와,
    상기 비양자화된 스케일 값으로부터 합성 스펙트럼 성분을 생성하는 단계로서, 상기 합성된 스펙트럼 성분은 상기 제1 주파수 대역 밖의 제2 주파수 대역에서 스펙트럼 내용(spectral content)을 나타내는, 단계와,
    상기 합성된 스펙트럼 성분을 위해 하나 이상의 제2 스케일 인자를 생성하고, 하나 이상의 제2 스케일 값을 생성하는 단계로서, 각각의 제2 스케일 인자는 하나 이상의 제2 스케일 값과 관련되고, 각각의 제2 스케일 값은 그 관련된 제2 스케일 인자에 따라 스케일된, 단계와,
    하나 이상의 상기 제2 제어 매개변수에 응답하여 제2 비트 할당 과정에 따라 비트를 할당하고, 상기 제2 비트 할당 과정에 의해 할당된 비트수에 기초한 양자화 레졸루션을 사용하여 상기 비양자화된 스케일 값과 상기 제2 스케일 값을 양자화하여 제2 양자화 스케일 값을 구하는 단계와,
    상기 제2 양자화된 스케일 값, 상기 제2 스케일 인자, 및 하나 이상의 상기 제2 제어 매개변수를 상기 제2 엔코딩 신호로 조립하는 단계를
    포함하는, 엔코딩된 오디오 정보를 변환 부호화하는 방법.
  2. 제1항에 있어서,
    제1 허용 양자화 잡음 임계치(allowable quantizing noise threshold)를 얻기 위해 하나 이상의 상기 제1 제어 매개변수를 사용하는 단계와,
    상기 제1 허용 양자화 잡음 임계치에 따라 정해진 양자화 레졸루션으로 상기 제1 양자화 값을 양자화시키는 단계와,
    상기 제1 허용 양자화 잡음 임계치와 다른 제2 허용 양자화 잡음 임계치를 얻기 위해 하나 이상의 상기 제2 제어 매개변수를 사용하는 단계와,
    상기 제2 허용 양자화 잡음 임계치에 따라 정해진 양자화 레졸루션으로 상기 제2 양자화 값을 양자화시키는 단계를
    포함하는, 엔코딩된 오디오 정보를 변환 부호화하는 방법.
  3. 엔코딩된 오디오 정보를 변환 부호화하기 위한 부호 간 변환기(transcoder)로서,
    오디오 신호의 스펙트럼 성분을 제1 주파수 대역으로 표현하는 제1 양자화된 스케일 값과 제1 스케일 인자를 운반하고, 하나 이상의 제1 제어 매개변수와 하나 이상의 제2 매개변수를 운반하는 제1 엔코딩된 신호를 수신하는 수단과,
    상기 제1 양자화된 스케일 값과 상기 제1 스케일 인자를 상기 제1 엔코딩된 신호로부터 얻는 수단으로서, 상기 제1 스케일 인자 각각은 하나 이상의 제1 양자화된 스케일된 값과 관련되고, 제1 양자화된 스케일된 값 각각은 그 관련된 제1 스케일 인자에 따라 스케일되고, 제1 양자화된 스케일된 값 각각과 관련 제1 스케일 인자는 개별 스펙트럼 성분을 표현하는, 수단과,
    상기 제1 엔코딩된 신호로부터 하나 이상의 상기 제1 제어 매개변수와 하나 이상의 상기 제2 제어 매개변수를 구하는 수단으로서, 하나 이상의 상기 제1 제어 매개변수는 상기 제1 엔코딩된 신호에 대한 제1 비트율 전제조건에 응답하여 도출되었고, 하나 이상의 상기 제2 제어 매개변수는 상기 제1 비트율과 다른 제2 엔코딩된 신호에 대한 제2 비트율 전제조건에 응답하여 도출되는, 수단과,
    하나 이상의 상기 제1 제어 매개변수에 응답하여 제1 비트 할당 과정에 따라 비트를 할당하고, 상기 제1 비트 할당 과정에 의해 할당된 비트수에 기초한 양자화 레졸루션에 따라 상기 제1 양자화된 스케일 값을 비양자화(dequantizing)하여 비양자화된 스케일 값을 구하는 수단과,
    상기 비양자화된 스케일 값으로부터 합성 스펙트럼 성분을 생성하는 수단으로서, 상기 합성된 스펙트럼 성분은 상기 제1 주파수 대역 밖의 제2 주파수 대역에서 스펙트럼 내용(spectral content)을 나타내는, 수단과,
    상기 합성된 스펙트럼 성분을 위해 하나 이상의 제2 스케일 인자를 생성하고, 하나 이상의 제2 스케일 값을 생성하는 수단으로서, 각각의 제2 스케일 인자는 하나 이상의 제2 스케일 값과 관련되고, 각각의 제2 스케일 값은 그 관련된 제2 스케일 인자에 따라 스케일된, 수단과,
    하나 이상의 상기 제2 제어 매개변수에 응답하여 제2 비트 할당 과정에 따라 비트를 할당하고, 상기 제2 비트 할당 과정에 의해 할당된 비트수에 기초한 양자화 레졸루션을 사용하여 상기 비양자화된 스케일 값과 상기 제2 스케일 값을 양자화하여 제2 양자화 스케일 값을 구하는 수단과,
    상기 제2 양자화된 스케일 값, 상기 제2 스케일 인자, 및 하나 이상의 상기 제2 제어 매개변수를 상기 제2 엔코딩 신호로 조립하는 수단을
    포함하는, 부호 간 변환기.
  4. 제3항에 있어서,
    제1 허용 양자화 잡음 임계치를 얻기 위해 하나 이상의 상기 제1 제어 매개변수를 사용하는 수단과,
    상기 제1 허용 양자화 잡음 임계치에 따라 정해진 양자화 레졸루션으로 상기 제1 양자화 값을 양자화시키는 수단과,
    상기 제1 허용 양자화 잡음 임계치와 다른 제2 허용 양자화 잡음 임계치를 얻기 위해 하나 이상의 상기 제2 제어 매개변수를 사용하는 수단과,
    상기 제2 허용 양자화 잡음 임계치에 따라 정해진 양자화 레졸루션으로 상기 제2 양자화 값을 양자화시키는 수단을
    포함하는, 부호 간 변환기.
  5. 장치에 의해 실행 가능한 명령의 프로그램을 운반하는 매체로서, 상기 명령의 프로그램의 실행은 상기 장치가 엔코딩된 오디오 정보를 변환 부호화하는 방법을 수행하도록 하는 매체에 있어서, 상기 방법은,
    오디오 신호의 스펙트럼 성분을 제1 주파수 대역으로 표현하는 제1 양자화된 스케일 값과 제1 스케일 인자를 운반하고, 하나 이상의 제1 제어 매개변수와 하나 이상의 제2 매개변수를 운반하는 제1 엔코딩된 신호를 수신하는 단계와,
    상기 제1 양자화된 스케일 값과 상기 제1 스케일 인자를 상기 제1 엔코딩된 신호로부터 얻는 단계로서, 상기 제1 스케일 인자 각각은 하나 이상의 제1 양자화된 스케일된 값과 관련되고, 제1 양자화된 스케일된 값 각각은 그 관련된 제1 스케일 인자에 따라 스케일되며, 제1 양자화된 스케일된 값 각각과 관련 제1 스케일 인자는 개별 스펙트럼 성분을 표현하는, 단계와,
    상기 제1 엔코딩된 신호로부터 하나 이상의 상기 제1 제어 매개변수와 하나 이상의 상기 제2 제어 매개변수를 구하는 단계로서, 하나 이상의 상기 제1 제어 매개변수는 상기 제1 엔코딩된 신호에 대한 제1 비트율 전제조건에 응답하여 도출되었고, 하나 이상의 상기 제2 제어 매개변수는 상기 제1 비트율과 다른 제2 엔코딩된 신호에 대한 제2 비트율 전제조건에 응답하여 도출되는, 단계와,
    하나 이상의 상기 제1 제어 매개변수에 응답하여 제1 비트 할당 과정에 따라 비트를 할당하고, 상기 제1 비트 할당 과정에 의해 할당된 비트수에 기초한 양자화 레졸루션에 따라 상기 제1 양자화된 스케일 값을 비양자화(dequantizing)하여 비양자화된 스케일 값을 구하는 단계와,
    상기 비양자화된 스케일 값으로부터 합성 스펙트럼 성분을 생성하는 단계로서, 상기 합성된 스펙트럼 성분은 상기 제1 주파수 대역 밖의 제2 주파수 대역에서 스펙트럼 내용(spectral content)을 나타내는, 단계와,
    상기 합성된 스펙트럼 성분을 위해 하나 이상의 제2 스케일 인자를 생성하고, 하나 이상의 제2 스케일 값을 생성하는 단계로서, 각각의 제2 스케일 인자는 하나 이상의 제2 스케일 값과 관련되고, 각각의 제2 스케일 값은 그 관련된 제2 스케일 인자에 따라 스케일된, 단계와,
    하나 이상의 상기 제2 제어 매개변수에 응답하여 제2 비트 할당 과정에 따라 비트를 할당하고, 상기 제2 비트 할당 과정에 의해 할당된 비트수에 기초한 양자화 레졸루션을 사용하여 상기 비양자화된 스케일 값과 상기 제2 스케일 값을 양자화하여 제2 양자화 스케일 값을 구하는 단계와,
    상기 제2 양자화된 스케일 값, 상기 제2 스케일 인자, 및 하나 이상의 상기 제2 제어 매개변수를 상기 제2 엔코딩 신호로 조립하는 단계를
    포함하는, 장치에 의해 실행 가능한 명령의 프로그램을 운반하는 매체.
  6. 제5항에 있어서, 상기 방법은,
    제1 허용 양자화 잡음 임계치를 얻기 위해 하나 이상의 상기 제1 제어 매개변수를 사용하는 단계와,
    상기 제1 허용 양자화 잡음 임계치에 따라 정해진 양자화 레졸루션으로 상기 제1 양자화 값을 양자화시키는 단계와,
    상기 제1 허용 양자화 잡음 임계치와 다른 제2 허용 양자화 잡음 임계치를 얻기 위해 하나 이상의 상기 제2 제어 매개변수를 사용하는 단계와,
    상기 제2 허용 양자화 잡음 임계치에 따라 정해진 양자화 레졸루션으로 상기 제2 양자화 값을 양자화시키는 단계를
    포함하는, 장치에 의해 실행 가능한 명령의 프로그램을 운반하는 매체.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
KR1020057014508A 2003-02-06 2004-01-30 엔코딩과 저-복잡성의 변환 부호화를 위한 합성된 스펙트럼성분들의 변환 KR100992081B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US44593103P 2003-02-06 2003-02-06
US60/445,931 2003-02-06
US10/458,798 2003-06-09
US10/458,798 US7318027B2 (en) 2003-02-06 2003-06-09 Conversion of synthesized spectral components for encoding and low-complexity transcoding

Publications (2)

Publication Number Publication Date
KR20050097990A KR20050097990A (ko) 2005-10-10
KR100992081B1 true KR100992081B1 (ko) 2010-11-04

Family

ID=32871965

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057014508A KR100992081B1 (ko) 2003-02-06 2004-01-30 엔코딩과 저-복잡성의 변환 부호화를 위한 합성된 스펙트럼성분들의 변환

Country Status (20)

Country Link
US (1) US7318027B2 (ko)
EP (3) EP2136361B1 (ko)
JP (2) JP4673834B2 (ko)
KR (1) KR100992081B1 (ko)
CN (2) CN101661750B (ko)
AT (2) ATE382180T1 (ko)
AU (1) AU2004211163B2 (ko)
CA (2) CA2776988C (ko)
CY (1) CY1114289T1 (ko)
DE (2) DE602004010885T2 (ko)
DK (1) DK1590801T3 (ko)
ES (2) ES2297376T3 (ko)
HK (2) HK1080596B (ko)
IL (1) IL169442A (ko)
MX (1) MXPA05008318A (ko)
MY (1) MY142955A (ko)
PL (2) PL378175A1 (ko)
SG (1) SG144743A1 (ko)
TW (2) TWI352973B (ko)
WO (1) WO2004072957A2 (ko)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620545B2 (en) * 2003-07-08 2009-11-17 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
US7983909B2 (en) 2003-09-15 2011-07-19 Intel Corporation Method and apparatus for encoding audio data
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
US20050232497A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation High-fidelity transcoding
US7406412B2 (en) * 2004-04-20 2008-07-29 Dolby Laboratories Licensing Corporation Reduced computational complexity of bit allocation for perceptual coding
KR100634506B1 (ko) * 2004-06-25 2006-10-16 삼성전자주식회사 저비트율 부호화/복호화 방법 및 장치
GB2420952B (en) * 2004-12-06 2007-03-14 Autoliv Dev A data compression method
WO2006065078A1 (en) * 2004-12-14 2006-06-22 Samsung Electronics Co., Ltd. Apparatus for encoding and decoding image and method thereof
EP1855271A1 (en) * 2006-05-12 2007-11-14 Deutsche Thomson-Brandt Gmbh Method and apparatus for re-encoding signals
CN101136200B (zh) * 2006-08-30 2011-04-20 财团法人工业技术研究院 音频信号转换编码方法与系统
US7725311B2 (en) * 2006-09-28 2010-05-25 Ericsson Ab Method and apparatus for rate reduction of coded voice traffic
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US20080097757A1 (en) * 2006-10-24 2008-04-24 Nokia Corporation Audio coding
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
US8086465B2 (en) * 2007-03-20 2011-12-27 Microsoft Corporation Transform domain transcoding and decoding of audio data using integer-reversible modulated lapped transforms
US7991622B2 (en) * 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
KR101403340B1 (ko) 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
US8457958B2 (en) * 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
US8155241B2 (en) * 2007-12-21 2012-04-10 Mediatek Inc. System for processing common gain values
US8364471B2 (en) * 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
US8396114B2 (en) * 2009-01-29 2013-03-12 Microsoft Corporation Multiple bit rate video encoding using variable bit rate and dynamic resolution for adaptive video streaming
US8311115B2 (en) * 2009-01-29 2012-11-13 Microsoft Corporation Video encoding using previously calculated motion information
US8270473B2 (en) * 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
US8396119B1 (en) * 2009-09-30 2013-03-12 Ambarella, Inc. Data sample compression and decompression using randomized quantization bins
TWI443646B (zh) 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
US8705616B2 (en) 2010-06-11 2014-04-22 Microsoft Corporation Parallel multiple bitrate video encoding to reduce latency and dependences between groups of pictures
US8923386B2 (en) * 2011-02-11 2014-12-30 Alcatel Lucent Method and apparatus for signal compression and decompression
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
CN103703783B (zh) * 2011-07-20 2017-11-24 飞思卡尔半导体公司 编码图像的方法及装置
US9591318B2 (en) 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
US11089343B2 (en) 2012-01-11 2021-08-10 Microsoft Technology Licensing, Llc Capability advertisement, configuration and control for video coding and decoding
US9378748B2 (en) * 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
RU2621003C2 (ru) 2013-01-29 2017-05-30 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Адаптивное к тональности квантование низкой сложности аудиосигналов
KR20140117931A (ko) 2013-03-27 2014-10-08 삼성전자주식회사 오디오 디코딩 장치 및 방법
EP3671738B1 (en) * 2013-04-05 2024-06-05 Dolby International AB Audio encoder and decoder
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
DE102014101307A1 (de) 2014-02-03 2015-08-06 Osram Opto Semiconductors Gmbh Kodierverfahren zur Datenkompression von Leistungsspektren eines optoelektronischen Bauteils und Dekodierverfahren
US10854209B2 (en) * 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
CN113538485B (zh) * 2021-08-25 2022-04-22 广西科技大学 学习生物视觉通路的轮廓检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5852805A (en) 1995-06-01 1998-12-22 Mitsubishi Denki Kabushiki Kaisha MPEG audio decoder for detecting and correcting irregular patterns
US20030014241A1 (en) 2000-02-18 2003-01-16 Ferris Gavin Robert Method of and apparatus for converting an audio signal between data compression formats

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3995115A (en) 1967-08-25 1976-11-30 Bell Telephone Laboratories, Incorporated Speech privacy system
US3684838A (en) 1968-06-26 1972-08-15 Kahn Res Lab Single channel audio signal transmission system
US3880490A (en) 1973-10-01 1975-04-29 Lockheed Aircraft Corp Means and method for protecting and spacing clamped insulated wires
JPS6011360B2 (ja) 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4667340A (en) 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US4790016A (en) 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
WO1986003873A1 (en) 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
US4885790A (en) 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4935963A (en) 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
JPS62234435A (ja) 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式
DE3683767D1 (de) 1986-04-30 1992-03-12 Ibm Sprachkodierungsverfahren und einrichtung zur ausfuehrung dieses verfahrens.
US4776014A (en) 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US5054072A (en) 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5127054A (en) 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
US5109417A (en) 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5054075A (en) 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
DE4121137C3 (de) 1990-04-14 1995-07-13 Alps Electric Co Ltd Verbindungseinrichtung mit einem nach Art einer Uhrfeder angeordnetem elektrischen Kabel
AU653582B2 (en) 1991-01-08 1994-10-06 Dolby Laboratories Licensing Corporation Encoder/decoder for multidimensional sound fields
US5246382A (en) 1992-03-02 1993-09-21 G & H Technology, Inc. Crimpless, solderless, contactless, flexible cable connector
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US5291557A (en) 1992-10-13 1994-03-01 Dolby Laboratories Licensing Corporation Adaptive rematrixing of matrixed audio signals
JPH07199996A (ja) * 1993-11-29 1995-08-04 Casio Comput Co Ltd 波形データ符号化装置、波形データ符号化方法、波形データ復号装置、及び波形データ符号化/復号装置
JP3223281B2 (ja) * 1993-12-10 2001-10-29 カシオ計算機株式会社 波形データ符号化装置、波形データ符号化方法、波形データ復号装置、及び波形データ符号化/復号装置
DE19509149A1 (de) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Codierverfahren
US5718601A (en) 1995-12-21 1998-02-17 Masters; Greg N. Electrical connector assembly
DE19628293C1 (de) 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
EP0833405A1 (de) 1996-09-28 1998-04-01 Harting KGaA Steckverbindung für Koaxialkabel
FR2756978B1 (fr) 1996-12-06 1999-01-08 Radiall Sa Connecteur circulaire modulaire
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US5970461A (en) * 1996-12-23 1999-10-19 Apple Computer, Inc. System, method and computer readable medium of efficiently decoding an AC-3 bitstream by precalculating computationally expensive values to be used in the decoding algorithm
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
EP1228569A1 (en) * 1999-10-30 2002-08-07 STMicroelectronics Asia Pacific Pte Ltd. A method of encoding frequency coefficients in an ac-3 encoder
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
JP2002196792A (ja) * 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
JP4259110B2 (ja) * 2002-12-27 2009-04-30 カシオ計算機株式会社 波形データ符号化装置及び波形データ符号化方法
US9996281B2 (en) 2016-03-04 2018-06-12 Western Digital Technologies, Inc. Temperature variation compensation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5852805A (en) 1995-06-01 1998-12-22 Mitsubishi Denki Kabushiki Kaisha MPEG audio decoder for detecting and correcting irregular patterns
US20030014241A1 (en) 2000-02-18 2003-01-16 Ferris Gavin Robert Method of and apparatus for converting an audio signal between data compression formats

Also Published As

Publication number Publication date
JP2006518873A (ja) 2006-08-17
JP2010250328A (ja) 2010-11-04
IL169442A0 (en) 2007-07-04
CA2512866A1 (en) 2004-08-26
HK1080596B (zh) 2008-05-09
TWI350107B (en) 2011-10-01
DE602004024139D1 (de) 2009-12-24
US20040165667A1 (en) 2004-08-26
AU2004211163B2 (en) 2009-04-23
AU2004211163A1 (en) 2004-08-26
US7318027B2 (en) 2008-01-08
HK1107607A1 (en) 2008-04-11
EP1590801B1 (en) 2007-12-26
CA2512866C (en) 2012-07-31
KR20050097990A (ko) 2005-10-10
TWI352973B (en) 2011-11-21
TW200415922A (en) 2004-08-16
IL169442A (en) 2009-09-22
EP2136361A1 (en) 2009-12-23
ATE382180T1 (de) 2008-01-15
CN101661750A (zh) 2010-03-03
EP1852852A1 (en) 2007-11-07
JP4673834B2 (ja) 2011-04-20
DK1590801T3 (da) 2008-05-05
CN100589181C (zh) 2010-02-10
SG144743A1 (en) 2008-08-28
EP2136361B1 (en) 2013-05-22
DE602004010885D1 (de) 2008-02-07
ES2421713T3 (es) 2013-09-05
CY1114289T1 (el) 2016-08-31
CN101661750B (zh) 2014-07-16
EP1852852B1 (en) 2009-11-11
PL378175A1 (pl) 2006-03-06
PL397127A1 (pl) 2012-02-13
ATE448540T1 (de) 2009-11-15
WO2004072957A3 (en) 2005-05-12
TW201126514A (en) 2011-08-01
CN1748248A (zh) 2006-03-15
HK1080596A1 (en) 2006-04-28
JP4880053B2 (ja) 2012-02-22
EP1590801A2 (en) 2005-11-02
WO2004072957A2 (en) 2004-08-26
MXPA05008318A (es) 2005-11-04
MY142955A (en) 2011-01-31
CA2776988C (en) 2015-09-29
ES2297376T3 (es) 2008-05-01
CA2776988A1 (en) 2004-08-26
DE602004010885T2 (de) 2008-12-11

Similar Documents

Publication Publication Date Title
KR100992081B1 (ko) 엔코딩과 저-복잡성의 변환 부호화를 위한 합성된 스펙트럼성분들의 변환
KR101085477B1 (ko) 스펙트럼 성분 커플링 및 스펙트럼 성분 재생성을 사용하는개선된 오디오 코딩 시스템 및 방법
EP1210712B1 (en) Scalable coding method for high quality audio
KR100214253B1 (ko) 고품질오디오용낮은저속비트변환인코더,디코더및인코딩/디코딩방법
KR101165640B1 (ko) 오디오 신호의 디코딩 및 인코딩 방법 및 그 장치
CA2779453C (en) Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
US6950794B1 (en) Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
JP4925671B2 (ja) デジタル信号の符号化/復号化方法及びその装置並びに記録媒体
AU2005270105A1 (en) Methods and apparatus for mixing compressed digital bit streams
Moehrs et al. Analysing decompressed audio with the" Inverse Decoder"-towards an operative algorithm
AU2011203047B2 (en) Methods and Apparatus for Mixing Compressed Digital Bit Streams
Bosi et al. Building a Perceptual Audio Coder

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131011

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141010

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151008

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 10