KR20080059279A - 오디오 압축 - Google Patents

오디오 압축 Download PDF

Info

Publication number
KR20080059279A
KR20080059279A KR1020087010631A KR20087010631A KR20080059279A KR 20080059279 A KR20080059279 A KR 20080059279A KR 1020087010631 A KR1020087010631 A KR 1020087010631A KR 20087010631 A KR20087010631 A KR 20087010631A KR 20080059279 A KR20080059279 A KR 20080059279A
Authority
KR
South Korea
Prior art keywords
high frequency
signal
low frequency
sections
subband signals
Prior art date
Application number
KR1020087010631A
Other languages
English (en)
Other versions
KR100958144B1 (ko
Inventor
미코 탐미
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20080059279A publication Critical patent/KR20080059279A/ko
Application granted granted Critical
Publication of KR100958144B1 publication Critical patent/KR100958144B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 인코딩 및 디코딩에 관련된다. 코딩된 오디오 신호들을 향상시키기 위해서 오디오 신호를 적어도 저주파수 대역 및 고주파수 대역으로 나누고, 고주파수 대역을 적어도 2개의 고주파수 부대역 신호들로 나누고, 고주파수 부대역 신호들과 가장 일치하는 저주파수 대역 세션들에 적어도 관련된 파라미터들을 발생시키는 것을 제공한다.

Description

오디오 압축 {Audio Compression}
본 출원은 일반적으로 오디오 압축에 관련된다.
오디오 압축은 디지털 오디오 신호들을 저장하거나 전송하기 위해 현대 소비자 장치(consumer device)들에서 일반적으로 사용된다. 소비자 장치들은 텔레커뮤니케이션 장치들, 비디오 장치들, 오디오 플레이어들, 라디오 장치들 및 다른 소비자 장치들일 수 있다. 고 압축비들은 더 좋은 저장 용량을 가능하게 하거나, 통신 채널, 즉 무선 통신 채널, 또는 유선 통신 채널을 통한 더 효율적인 전송을 가능하게 한다. 그러나 압축비와 동시에, 압축된 신호의 품질이 높은 수준에서 유지되어야 한다. 오디오 코딩의 목적은 주어진 압축비, 즉 비트레이트와 관련된 오디오 품질을 최대화시키는 것이다.
수많은 오디오 코딩 기술들이 지난 수년간 동안 개발되어 왔다. 향상된 오디오 코딩 시스템들은 사람의 청력 속성(property)들을 효과적으로 이용한다. 주된 아이디어는 코딩 잡음이 가장 적게 지각적(perceptual) 품질에 영향을 미치는 신호 영역들 내에 그 코딩 잡음이 놓일 수 있어서, 데이터레이트가 가청 왜곡을 일으킴이 없이 감소될 수 있도록 한다는 것이다. 따라서 심리 음향학(psychoacoustics)의 이론들이 현대 오디오 코딩의 중요 부분이다.
알려진 오디오 인코더들에서, 입력 신호가 제한된 수의 부대역들로 나뉜다. 부대역 신호들 각각이 양자화될 수 있다. 심리 음향학의 이론으로부터 스펙트럼에서 가장 높은 주파수들이 낮은 주파수들에서보다 지각적으로 덜 중요하다는 것이 알려져 있다. 이것은 고주파수 부대역들의 양자화에 저주파수 부대역들에서 보다 더 적은 비트들을 할당하는 것에 의해 코더에서 어느 정도까지 고려될 수 있다.
더 복잡한 오디오 코딩은 대부분의 경우들에서 오디오 신호의 저주파수 영역들과 고주파수 영역들 간에 큰 종속 관계가 존재한다는 것, 즉 스펙트럼의 상위 반이 스펙트럼의 하위 반과 일반적으로 매우 유사하다는 사실을 이용한다. 저주파수 영역은 오디오 스펙트럼의 하위 반으로 고려될 수 있고, 고주파수는 오디오 스펙트럼의 상위 반으로 고려될 수 있다. 저주파수와 고주파수 간의 경계는 고정되어 있지 않고, 2kHz와 15kHz 간에서나, 이런 경계들을 넘어서까지 놓일 수 있다는 것을 알아야한다.
고주파수 영역을 코딩하기 위한 현 접근 방식은 SBR(spectral-band-replication)로 알려져 있다. 이 기술은 M. Dietz, L. Liljeryd, K
Figure 112008031622477-PCT00001
"Spectral Band Replication, a novel approach in audio coding, " in 112th AES Convention, Munich, Germany, May, 2002 and P. Ekstrand, "Bandwidth extension of audio signals by spectral band replication, " in 1st IEEE Benelux Workshop on Model Based Processing and Coding of Audio, Leuven, Belgium, November 2002 에 상세히 설명되어 있다. 서술된 방식은 예를 들어 AAC 또는 MPEG-1 Layer III (MP3)와 같은 일반 오디오 코더들, 및 많은 다른 최 신식 코더들에 적용될 수 있다.
그 기술에 따른 방법의 단점은 저주파 대역들로부터 고주파수 대역들로의 단순한 전치(transposition)가 원본 고주파수들과 전치된 저주파수들을 이용한 그 원본 고주파수들의 복원 간의 차이들을 유발할 수 있다는 것이다. 다른 하나의 단점은 잡음 및 사인 곡선들이 알려진 방식에 따라 주파수 스펙트럼에 추가될 필요가 있다는 것이다.
따라서 본 발명의 목적은 향상된 오디오 코딩 기술을 제공하는 것이다. 알맞게 낮은 비트레이트들을 갖고 더 정확하게 입력 신호를 표현하는 코딩 기술을 제공하는 것이 본 발명의 또 다른 목적이다.
위에서 언급된 단점들을 극복하기 위해 본 발명은 하나의 양상에 따라, 오디오 신호들을 인코딩하기 위한 방법을 제공하고, 상기 방법은, 입력 오디오 신호를 수신하는 단계, 오디오 신호를 적어도 저주파수 대역 및 고주파수 대역으로 나누는 단계, 고주파수 대역을 적어도 2개의 고주파수 부대역 신호들로 나누는 단계, 저주파수 대역 신호 섹션들 내에서 어떤 것이 고주파수 부대역 신호들과 가장 일치하는가를 결정하는 단계, 및 고주파수 부대역 신호들과 가장 일치하는 저주파수 대역 신호 섹션들에 적어도 관련된 파라미터들을 발생시키는 단계를 포함한다.
본 발명의 응용은 입력 신호의 고주파수 영역을 코딩하기 위한 새로운 접근 방식을 제공한다. 입력 신호는 일시적으로 연속 프레임들로 나뉠 수 있다. 프레임들 각각은 입력 신호의 시간적인 인스턴스(temporal instance)를 나타낸다. 각 프레임 내에서, 입력 신호가 그것의 스펙트럼 컴포넌트들에 의해 표현될 수 있다. 스펙트럼 컴포넌트들, 또는 샘플들은 입력 신호 내에서 주파수들을 나타낸다.
저주파수 영역을 고주파수들로 무턱대고 전치시키는 대신에, 본 발명은 원본 및 코딩된 고주파수 스펙트럼 컴포넌트들 간의 유사성을 최대화시킨다. 본 발명에 따라서, 고주파수 영역은 신호의 사전 코딩된 저주파수 영역을 이용하여 형성된다.
저주파수 신호 샘플들을 수신된 신호의 고주파수 부대역들과 비교하는 것에 의해, 저주파수 내에서 실제 고주파수 부대역과 가장 일치하는, 신호 섹션이 찾아질 수 있다. 본 발명의 응용은 샘플에 의해 전체 저주파수 스펙트럼 샘플 내에서 고주파수 부대역과 가장 닮은, 신호 섹션을 탐색하는 단계를 제공한다. 신호 섹션이 샘플 시퀀스에 상응하므로, 본 발명의 응용은 환원하면 고주파수 부대역과 가장 일치하는, 샘플 시퀀스를 찾는다. 샘플 시퀀스는 저주파수 대역 내 어디에서든지 시작할 수 있지만, 저주파수 대역 내의 최종 고려되는 시작 포인트는 저주파수 대역 내의 최종 샘플에서, 일치될 고주파수 부대역의 길이를 뺀 것이어야 한다.
실제 고주파수 부대역과 가장 일치하는 저주파수 신호 섹션으로의 인덱스 또는 링크가 고주파수 부대역의 모델링하기 위해 사용될 수 있다. 인덱스 또는 링크만이 수신 말단에서 상응하는 고주파수 부대역의 표현을 복원할 수 있도록 인코딩되고, 저장되거나 전송될 필요가 있다.
실시예들에 따라, 가장 유사한 일치, 즉 신호 섹션 및 고주파수 부대역의 가장 유사한 스펙트럼 형태가 저주파수 대역 내에서 탐색된다. 고주파수 부대역과 가장 유사한 것으로 찾아진 신호 섹션에 적어도 관련된 파라미터들이 인코더 내에서 생성된다. 파라미터들을 찾아진 섹션들을 고주파수 대역으로 스케일링하기 위한 스케일링 인자들을 포함할 수 있다. 디코더 측에서, 이런 파라미터들은 상응하는 저주파수 신호 섹션들을 고주파수 영역으로 전치해서(transpose) 고주파수 부대역들을 복원하도록 하기 위해 사용된다.
스케일링은 스케일링 인자들을 사용해서 복사된 저주파수 신호 섹션들에 적용될 수 있다. 실시 예들에 따라서, 스케일링 인자들 및 저주파수 신호 섹션들로의 링크들이 인코딩될 필요가 있다.
고주파수 영역의 형태는 고주파수 부대역들의 복원을 위해 가장 일치하는 저주파수 신호 섹션들을 사용할 때 알려진 방법들에서보다 원본 고주파수 스펙트럼에 더 가깝게 따라간다. 지각적으로 중요한 스펙트럼 피크들은 더 정확하게 모델링될 수 있는데, 이는 진폭, 형태, 및 주파수 위치가 원본 신호와 더 유사하기 때문이다. 모델링된 고주파수 부대역들은 원본 고주파수 부대역들과 비교될 수 있고, 없어진 스펙트럼 컴포넌트들 즉 사인곡선(sinusoid)들 또는 잡음을 쉽게 검출해서, 이것들을 추가하는 것이 가능하다.
포락선 형태 만들기를 할 수 있도록, 실시 예들은 저주파수 신호 샘플들을 파라미터들을 사용해서 고주파수 부대역 신호들로 전치하는 것에 의해 저주파수 신호 섹션들을 이용하는 단계를 제공하고, 여기서 파라미터들은 전치된 저주파수 신호 섹션들의 포락선이 수신된 신호의 고주파수 부대역 신호들의 포락선을 따르도록 하는 스케일링 인자를 포함한다. 스케일링 인자들은 실제 고주파수 부대역들과 더 잘 일치하도록 복사된 저주파수 신호 섹션들의 에너지 및 형태를 조정하는 것을 가능하게 한다.
파라미터들은 실시 예들에 따라 상응하는 고주파수 부대역 신호들을 나타내는 저주파수 신호 섹션들로의 링크들을 포함할 수 있다. 링크들은 저주파수 신호 섹션들로의 포인터들이나 인덱스들일 수 있다. 이런 정보를 가지고, 고주파수 부대역을 구성할 때 저주파수 신호 섹션들을 참조하는 것이 가능하다.
양자화 비트들의 수를 감소시키기 위해서, 고주파수 부대역 신호들의 포락선을 정규화 하는(normalize) 것이 가능하다. 정규화는 저주파수 대역들 및 고주파수 대역들 모두가 정규화된 진폭 범위 내에 있게 할 수 있다. 이것은 스케일링 인자들 중에서 양자화에 필요한 비트들의 수를 감소시킨다. 정규화에 사용되는 정보는 디코더 내에서 고주파수 부대역의 표현을 구성하기 위해 인코더에 의해 제공되어야 한다. 실시 예들은 포락선 정규화에 선형 예측 코딩(linear prediction coding)을 이용한다. cepstral 모델링을 이용하여 포락선을 정규화하는 것 또한 가능하다. cepstral 모델링은 신호 전력 스펙트럼의 로그의 역 푸리에 트랜스폼을 사용한다.
스케일링 인자들을 발생시키는 단계는 적어도 스펙트럼의 진폭 피크들과 일치하도록 선형 영역에서 스케일링 인자들을 발생시키는 것을 포함할 수 있다. 스케일링 인자들을 발생시키는 단계는 실시 예들에 따라, 로그 영역에서 적어도 스펙트럼의 에너지 및/또는 형태와 일치시키는 것을 또한 포함할 수 있다.
실시 예들은 변형 이산 코사인 변환(modified discrete cosine transformation :MDCT)을 사용하여 저주파수 대역 및/또는 고주파수 대역 내에서 신호 샘플들을 발생시키는 단계를 제공한다. MDCT 변환은 바람직하게는 실수인 스펙트럼 계수들을 제공한다. 실시 예들에 따른 MDCT 변환은 특히 정규 프레임들을 위한 2048 샘플들과 과도적 프레임들을 위한 256 샘플들의 프레임 크기들이지만, 그 사이에 임의의 다른 값도 가능한, 임의의 적합한 프레임 크기들에 사용될 수 있다.
상응하는 고주파수 부대역 신호들과 가장 일치하는 저주파수 신호 섹션들을 얻기 위해, 실시 예들은 정규 상관(normalized correlation), 또는 유클리드(Euclidian) 거리를 사용하여 유사성 측도(measure)를 계산하는 단계를 제공한다. 입력 신호를 인코딩하기 위해, 실시 예들은 저주파수 신호 샘플들을 양자화하고 적어도 스케일링 인자들을 양자화하는 단계를 제공한다. 저주파수 신호 섹션으로의 링크는 정수일 수 있다.
고주파수 신호들의 품질을 향상시키기 위해서 추가 사인 곡선들을 부가하는 것이 가능하다. 이런 사인 곡선들에 따르기 위해서, 실시 예들은 입력 신호를 일시적으로 연속 프레임들로 나누고, 입력 신호의 2개의 연속 프레임들 내에서 음조(tonal) 섹션들을 검출하는 단계를 포함한다. 음조 섹션들은 추가 사인곡선들을 부가함으로서 향상될 수 있다. 높은 음조인 섹션들은 상응하는 고주파수 영역들에서 고주파수 부대역의 수를 증가시킴으로써 추가적으로 향상될 수 있다. 입력 프레임들은 예를 들어, 무음조(not tonal), 음조 있음(tonal), 및 강하게 음조 있음(strongly tonal)인, 서로 다른 음조 그룹들로 나뉠 수 있다.
음조 섹션들을 검출하는 단계는 시프트 이산 푸리에 변환(Shifted Discrete Fourier Transformation : SDFT)을 포함할 수 있다. SDFT의 결과는 MDCT 변환을 제공하기 위해 인코더 내에서 이용될 수 있다.
본 발명의 다른 하나의 양상은 오디오 신호들을 디코딩하기 위한 방법이고, 상기 방법은 인코딩된 비트스트림을 수신하는 단계, 비트스트림으로부터 적어도 저주파수 신호 및 적어도 저주파수 신호 섹션들에 관련된 파라미터들을 디코딩하는 단계, 적어도 2개의 고주파수 부대역 신호들을 복원하기 위해 저주파수 신호 샘플들 및 저주파수 신호 섹션들에 관련된 파라미터들을 이용하는 단계, 및 적어도 저주파수 신호 및 적어도 2개의 고주파수 부대역 신호들을 포함하는 출력 신호를 출력하는 단계를 포함한다.
본 발명의 다른 하나의 양상은 오디오 신호들을 인코딩하기 위한 인코더이고, 상기 인코더는, 입력 오디오 신호를 수신하도록 구성된 수신 수단, 오디오 신호를 적어도 저주파수 대역 및 고주파수 대역으로 나누도록 구성되고, 고주파수 대역을 적어도 2개의 고주파수 부대역 신호들로 나누도록 구성된 필터링 수단, 및 고주파수 부대역 신호들과 가장 일치하는 저주파수 대역 신호 섹션들에 적어도 관련된 파라미터들을 발생시키도록 구성된 코딩 수단을 포함한다.
본 발명의 다른 하나의 양상은 오디오 신호를 디코딩하기 위한 디코더이고, 상기 디코더는 인코딩된 비트스트림을 수신하도록 구성된 수신 수단, 비트스트림으로부터 적어도 저주파수 신호 및 적어도 저주파수 신호 섹션들에 관련된 파라미터들을 디코딩하도록 구성된 디코딩 수단, 적어도 2개의 고주파수 부대역 신호들을 복원하기 위해 저주파수 신호의 샘플들 및 저주파수 신호 섹션들에 관련된 파라미터들을 이용하도록 구성된 발생 수단을 포함한다.
본 발명의 다른 하나의 양상은 묘사된 디코더 및 묘사된 인코더를 포함하는 디지털 오디오 압축을 위한 시스템이다.
본 발명의 다른 하나의 양상은 오디오 신호들을 인코딩하기 위한 컴퓨터 프로그램 생성물과 관련되고, 상기 프로그램은 프로세서로 하여금, 입력 오디오 신호를 수신하고, 오디오 신호를 적어도 저주파수 대역 및 고주파수 대역으로 나누고, 고주파수 대역을 적어도 2개의 고주파수 부대역 신호들로 나누고, 고주파수 부대역 신호들과 가장 일치하는 저주파수 대역 신호 섹션들에 적어도 관련된 파라미터들을 발생시키도록 하는 동작 가능한 명령어들을 포함한다.
또한 비트 스트림들을 디코딩하기 위한 컴퓨터 프로그램 생성물이 제공되고, 상기 프로그램은 프로세서로 하여금, 인코딩된 비트스트림을 수신하고, 비트스트림으로부터 적어도 저주파수 신호 및 적어도 저주파수 신호 섹션들에 관련된 파라미터들을 디코딩하고, 적어도 2개의 고주파수 부대역 신호들을 복원하기 위해 저주파수 신호 샘플들 및 저주파수 신호 섹션들에 관련된 파라미터들을 이용하고, 적어도 저주파수 신호 및 적어도 2개의 고주파수 부대역 신호들을 포함하는 출력 신호를 출력하도록 하는 동작 가능한 명령어들을 포함한다.
도 1은 본 발명에 따른 오디오 신호들을 코딩하기 위한 시스템이다.
도 2는 본 발명에 따른 인코더이다.
도 3은 본 발명에 따른 디코더이다.
도 4는 SBR 인코더이다.
도 5는 SBR 디코더이다.
도 6은 서로 다른 단계들에서의 오디오 신호의 스펙트럼 표현이다.
도 7은 첫 번째 실시 예에 따른 시스템이다.
도 8은 두 번째 실시 예에 따른 시스템이다.
도 9는 포락선 정규화를 한 주파수 스펙트럼이다.
도 10은 음조 검출을 사용한 코딩 향상이다.
일반적인 오디오 코딩 시스템들은 도 1에 개략적으로 도시된 것과 같은, 인코더 및 디코더로 구성된다. 도시된 것은 인코더(4), 기억장치 또는 매체 채널(6) 및 디코더(8)를 갖는 코딩 시스템(2)이다.
인코더(4)는 입력 오디오 신호(10)를 압축해서 비트스트림(12)을 발생시키고, 비트스트림(12)은 저장되거나 매체 채널(6)을 통해 전송된다. 비트스트림(12)은 디코더(8) 내에서 수신될 수 있다. 디코더(8)는 비트스트림(12)을 압축 해제해서 출력 오디오 신호(14)를 발생시킨다. 입력 오디오 신호(10)와 관련된 비트 스트림(12)의 비트레이트 및 출력 오디오 신호(14)의 품질은 코딩 시스템(2)의 성능을 정의하는, 주된 특징들이다.
최신 오디오 인코더(4)의 전형적인 구조가 도 2에 개략적으로 제시된다. 입력 신호(10)가 분석 필터 뱅크 구조(16)를 사용하여 부대역들로 나뉜다. 각각의 부대역이 음향 심리학 모델(20)에 의해 제공된 정보를 이용하여 코딩 수단(18) 내에서 양자화되고 코딩될 수 있다. 코딩은 허프만(Huffman) 코딩일 수 있다. 코딩 스 킴 뿐만 아니라 양자화 설정은 음향 심리학 모델(18)에 의해 지시될 수 있다. 양자화되고 코딩된 정보는 비트스트림 형성기(22) 내에서 비트 스트림(12)을 생성하기 위해 사용된다.
비트 스트림(12)은 도 3에 개략적으로 도시된 것과 같이 디코더(8) 내에서 디코딩될 수 있다. 디코더(8)는 비트 스트림 압축 풀기(unpacking) 수단(24), 부대역 복원 수단(26), 합성 필터 뱅크(28)를 포함할 수 있다. 디코더(8)는 인코더(4)의 역을 계산해서 비트스트림(12)을 출력 오디오 신호(14)로 다시 변환한다. 디코딩 과정 동안에, 비트스트림(12)은 부대역 복원 수단(26)에서 부대역 신호들로 탈양자화된다(de-quantize). 부대역 신호들이 합성 필터 뱅크(28)로 공급되고, 합성 필터 뱅크(28)는 부대역 신호들로부터 오디오 신호를 합성하고 출력 신호(14)를 생성한다.
저주파수 영역 및 제한된 양의 부가 제어 정보만을 사용하여 고주파수를 효과적이고 지각적으로 정확하게 합성시키는 것이 많은 경우들에 있어 가능하다. 최적으로는 고주파수 부분의 코딩은 적은 수의 제어 파라미터들만을 요구한다. 스펙트럼의 전체 상위 부분이 적은 양의 정보로 합성될 수 있어서, 전체 비트레이트에서의 상당한 절약이 이뤄질 수 있다.
MP3pro와 같은, 현재 코딩은 음향 심리학 코딩에 부가하여 SBR 코딩 스킴을 도입함으로써 오디오 신호들의 이런 속성들을 이용한다. SBR에서 고주파수 영역이 도 4 및 도 5에 도시된 것과 같이 코딩된 저주파수 영역을 이용하여 별개로 발생될 수 있다.
도 4는 개략적으로 인코더(4)를 도시한다. 인코더(4)는 저역 통과 필터링 수단(30), 코딩 수단(31), SBR 수단(32), 포락선(envelope) 추출(extraction) 수단(34), 및 비트스트림 형성기(22)를 포함한다.
저역 통과 필터(30)는 우선적으로 입력 신호(10)가 여과될 때까지 컷오프 주파수를 정의한다. 효과는 도 6a에 도시된다. 컷오프 주파수(36) 아래 주파수들만이 필터를 통과한다.
코딩 수단(31)은 32개의 저주파수 부대역들을 구비하여 양자화 및 허프만 코딩을 실행한다. 저주파수 콘텐츠가 코딩 수단(31) 내에서 QMF 영역으로 변환된다. 저주파수 콘텐츠가 코더(31)의 출력을 기초로 전치된다. 전치(transposition)는 SBR 수단(32)에서 행해진다. 저주파수들의 고주파수들로의 전치의 효과는 도 6b에 도시된다. 전치는 무작정 실행되어서 저주파수 부대역 샘플들이 고주파수 부대역 샘플들로 단지 복사되도록 된다. 이것은 입력 신호의 매 프레임에서 유사하게 입력 신호의 특성들에 관계없이 행해진다.
SBR 수단(32)에서, 고주파수 부대역들이 부가 정보를 기초로 조정될 수 있다. 이것은 합성된 고주파수 영역의 특별한 특징들을 원본 고주파수의 것과 더 유사하게 만들기 위해 행해진다. 사인곡선들(sinusoid) 또는 잡음과 같은 부가 컴포넌트들이 원본 고주파수 영역과의 유사성을 증가시키기 위해 고 주파수 영역에 부가될 수 있다. 최종적으로 포락선은 원본 고주파수 스펙트럼의 포락선을 따르기 위해 포락선 추출 수단(34) 내에서 조정된다. 효과는 도 6c에 보여질 수 있고, 도 6c에서 고주파수 컴포넌트들이 입력 신호의 실제 고주파수 컴포넌트들과 더 근접하게 스케일링된다.
비트스트림(12) 내에서 스케일링 및 포락선 조정 파라미터들에 의해 코딩된 저주파수 신호가 포함된다. 비트 스트림(12)은 도 5에 도시된 것과 같이 디코더 내에서 디코딩될 수 있다.
도 5는 압축 풀기 수단(24), 저주파수 디코더(38), 고주파수 복원 수단(40), 컴포넌트 조정 수단(42), 및 포락선 조정 수단(44)을 갖는 디코더(8)를 포함한다. 저주파수 부대역들은 디코더(38) 내에서 복원된다. 저주파수 부대역들로부터, 고주파수 부대역들이 고주파수 복원 수단(40) 내에서 정적으로(statically) 복원된다. 컴포넌트 조정 수단(42), 및 포락선 조정 수단(44) 내에서 사인 곡선이 부가될 수 있고 포락선이 조정될 수 있다.
본 발명에 따라, 저주파수 신호 샘플들의 고주파수 부대역들로의 전치가 동적으로 행해진다. 예를 들어 어떤 저주수 신호 섹션들이 고주파수 부대역과 가장 일치하는가가 체크된다. 상응하는 저주파수 신호 섹션들로의 인덱스가 생성된다. 이 인덱스는 인코딩되어서 저주파수 신호로부터 고주파수 부대역들을 구성하기 위해 디코더 내에서 사용된다.
도 7은 인코더(4) 및 디코더(8)를 갖는 코딩 시스템을 도시한다. 인코더(4)는 고주파수 코딩 수단, 저주파수 코더(52), 비트스트림 형성기(52)로 구성된다. 인코더(4)는 더 복잡한 오디오 코딩 스킴의 일부일 수 있다. 본 발명은 낮은 비트레이트들에서 좋은 품질을 목표로 삼는 대부분의 임의의 오디오 코더에서 사용될 수 있다. 예를 들어 본 발명이 실제 낮은 비트레이트 오디오 코더로부터 완전히 분 리되어 사용될 수 있다. 예를 들어, 실제 낮은 비트레이트 오디오 코더가 음향 심리학 코더, 예를 들어 AAC, MPEC 등의 앞에 배치될 수 있다.
고주파수 영역이 전형적으로 저주파수 영역과 유사한 스펙트럼 형태들을 포함하고 있기 때문에, 좋은 코딩 성능이 일반적으로 이뤄진다. 이것은 복사된 스펙트럼과 스케일링 인자들의 인덱스들만이 디코더로 전송될 필요가 있기 때문에, 상대적으로 낮은 전체 비트레이트로 달성될 수 있다.
저주파수 코더(22) 내에서, 저주파수 샘플
Figure 112008031622477-PCT00002
들이 코딩된다. 고주파수 코더(50) 내에서, 전치, 스케일링 및, 포락선 형성에 관련된 파라미터들
Figure 112008031622477-PCT00003
이 코딩을 위해 생성될 수 있고, 이는 아래에서 더 자세히 묘사될 것이다.
고주파수 스펙트럼은
Figure 112008031622477-PCT00004
부대역들로 우선적으로 나뉜다. 각각의 부대역에 대해, 가장 유사한 일치(즉 가장 유사한 스펙트럼 형상)가 저주파수 영역으로부터 탐색된다.
본 발명의 방법이 변형 이산 코사인(MDCT) 영역에서 작용할 수 있다. 그것의 좋은 속성들(주요(critical) 샘플링과의 50% 오버랩, 탄력적인 윈도우 스위칭(window switching) 등) 때문에, MDCT 영역이 가장 최신의 오디오 코더들에서 사용된다. MDCT 변환은 수학식 1과 같이 실행된다.
Figure 112008031622477-PCT00005
여기서 x(n)는 입력 신호이고, h(n)는 길이 2N의 시간 분석 윈도우이고,
Figure 112008031622477-PCT00006
이다. 오디오 코딩에서 전형적으로 N은 1024개의 샘플들(정규 프레임들)이거나 128개의 샘플들(과도적인 것들(transients))이다. 스펙트럼 계수들
Figure 112008031622477-PCT00007
은 실수일 수 있다. 언급된 것과 같은 프레임 크기들은 물론, 임의의 다른 프레임 크기 또한 가능하다.
고주파수 부대역들을 묘사하는 파라미터들을 생성하기 위해서, 고주파수 코더(50) 내에서 고주파수 부대역들과 가장 일치하는, 저주파수 신호 섹션들을 찾는 것이 필수적이다. 고주파수 코더(50) 및 저주파수 코더(52)는 N개의 MDCT 코딩된 컴포넌트들을 생성할 수 있고, 여기서
Figure 112008031622477-PCT00008
은 저주파수 컴포넌트들을 나타내고,
Figure 112008031622477-PCT00009
은 저주파수 컴포넌트들을 나타낸다.
저주파수 코더(52)를 구비하여,
Figure 112008031622477-PCT00010
개의 저주파수 MDCT 계수들
Figure 112008031622477-PCT00011
,
Figure 112008031622477-PCT00012
이 코딩될 수 있다. 전형적으로
Figure 112008031622477-PCT00013
이지만, 다른 선택들이 행해질 수 있다.
및 원본 스펙트럼
Figure 112008031622477-PCT00015
을 이용해서, 사용된 측도(measure)들을 갖고, 최대한 원본 고주파수 신호
Figure 112008031622477-PCT00016
,
Figure 112008031622477-PCT00017
Figure 112008031622477-PCT00018
와 유사한 고주파수 컴포넌트
Figure 112008031622477-PCT00019
을 생성하는 것이 목적이다.
Figure 112008031622477-PCT00020
Figure 112008031622477-PCT00021
은 함께 수학식 2와 같이 합성된 스펙트럼
Figure 112008031622477-PCT00022
을 생성한다.
Figure 112008031622477-PCT00023
원본 고주파수 스펙트럼
Figure 112008031622477-PCT00024
Figure 112008031622477-PCT00025
개의 오버랩되지 않은 대역들로 나뉜다. 원칙적으로 대역들의 수는 물론 대역들의 폭까지도 마음대로 선택될 수 있다. 예를 들어 8개의 동일한 폭의 주파수 대역들은 N이 1024개의 샘플들과 동일할 때 사용될 수 있다. 다른 하나의 합리적인 대안은 사람 청력의 지각적 속성들을 기초로 대역들을 선택하는 것이다. 예를 들어, 바크(Bark) 또는 ERB(equivalent rectangular bandwidth) 스케일들이 대역들의 수 및 대역들의 폭들을 선택하기 위해 이용될 수 있다.
고주파수 코더 내에서, 고주파수 신호 및 저주파수 컴포넌트들 간의 유사성 측도가 계산될 수 있다.
Figure 112008031622477-PCT00026
Figure 112008031622477-PCT00027
샘플들의 길이를 갖는
Figure 112008031622477-PCT00028
의 j번째 대역을 포함하는 열 벡터라고 한다.
Figure 112008031622477-PCT00029
는 코딩된 저주파수 스펙트럼
Figure 112008031622477-PCT00030
과 수학식 3과 같이 비교될 수 있다.
Figure 112008031622477-PCT00031
여기서,
Figure 112008031622477-PCT00032
는 벡터들 a 및 b 간의 유사성 척도이고,
Figure 112008031622477-PCT00033
은 코딩된 저주파수 스펙트럼
Figure 112008031622477-PCT00034
의 인덱스들
Figure 112008031622477-PCT00035
을 포함하는 벡터이다. 원하는 저주파수 신호 섹션의 길이는 현재 고주파수 부대역의 길이와 동일해서, 기본적으로 필요한 정보 하나는 각 저주파수 섹션들이 시작하는 곳을 표시하는 인덱스
Figure 112008031622477-PCT00036
이다.
유사성 측도가 가장 높은 유사성을 제공하는 인덱스
Figure 112008031622477-PCT00037
를 선택하기 위해 사용될 수 있다. 유사성 측도가 벡터들의 형태가 얼마나 유사한지 묘사하기 위해 사용될 수 있고, 벡터들의 형태의 상대적 진폭은 중요하지 않다. 유사성 측도를 위한 많은 대안들이 존재한다. 하나의 가능한 구현은 정규 상관(normalized correlation)일 수 있다 즉,
Figure 112008031622477-PCT00038
이것은 a 및 b의 진폭들에 민감하지 않은 측도를 제공한다. 다른 적당한 대안은 유클리드 거리에 기초한 유사성 측도이다. 즉,
Figure 112008031622477-PCT00039
상응하여 많은 다른 유사성 측도들이 또한 이용될 수 있다.
저주파수 신호 샘플들 내에서 이런 가장 유사한 섹션들이 고주파수 부대역들로 복사될 수 있고 특정 스케일링 인자들을 사용하여 스케일링될 수 있다. 스케일링 인자들은 코딩된 고주파수 스펙트럼의 포락선이 원본 스펙트럼의 포락선을 따르는 것을 처리한다.
인덱스
Figure 112008031622477-PCT00040
를 사용하여,
Figure 112008031622477-PCT00041
와 형태가 가장 유사한 선택된 벡터
Figure 112008031622477-PCT00042
Figure 112008031622477-PCT00043
와 동일한 진폭으로 스케일링되어야 한다. 스케일링을 위한 많은 상이한 기술들이 존재한다. 예를 들어 스케일링은 2가지 (phase)들에서 실행될 수 있는데, 첫 번째 상은 스펙트럼에서 높은 진폭 피크들과 일치하도록 선형 영역에서이고 그런 이후에는 에너지 및 형태가 일치하도록 로그 영역에서이다. 이런 스케일링 인자들로 벡터
Figure 112008031622477-PCT00044
를 스케일링해서 코딩된 고 주파수 컴포넌트
Figure 112008031622477-PCT00045
가 생기게 한다.
선형 영역 스케일링은 단순히 수학식 6과 같이 실행될 수 있다.
Figure 112008031622477-PCT00046
Figure 112008031622477-PCT00047
는 수학식 7로부터 얻어진다.
Figure 112008031622477-PCT00048
Figure 112008031622477-PCT00049
이 양의 값 및 음의 값 모두를 얻을 수 있다는 것을 주의하라. 로그 스케일링 전에, 벡터 샘플들의 부호는 물론
Figure 112008031622477-PCT00050
의 최대 로그 값까지도 저장될 수 있다.
Figure 112008031622477-PCT00051
Figure 112008031622477-PCT00052
다음에, 로그 스케일링이 실행될 수 있고
Figure 112008031622477-PCT00053
가 수학식 10, 11과 같이 업데이트된다.
Figure 112008031622477-PCT00054
Figure 112008031622477-PCT00055
여기서 스케일링 인자
Figure 112008031622477-PCT00056
는 수학식 12로부터 얻어질 수 있다.
Figure 112008031622477-PCT00057
이 스케일링 인자는 로그 영역에서 파형들 간의 유사성을 최대화시킨다. 대안적으로 에너지들이 등가 레벨에 근사하게 설정되도록
Figure 112008031622477-PCT00058
가 선택될 수 있다.
Figure 112008031622477-PCT00059
위의 수학식들에서 변수
Figure 112008031622477-PCT00060
의 목적은
Figure 112008031622477-PCT00061
에서 가장 큰 값들의 진폭들(즉 스펙트럼 피크들)이 너무 높게 스케일링되지 않는 것을 보장하는 것이다(제1 스케일링 인자
Figure 112008031622477-PCT00062
가 이미 그것들을 정확한 레벨로 설정해 놓았다). 변수
Figure 112008031622477-PCT00063
는 그 정보가 로그 영역으로의 변환 동안 손실되기 때문에, 원본 샘플들의 부호를 저장하기 위해 사용된다.
대역들이 스케일링된 이후에, 합성된 고 주파수 스펙트럼
Figure 112008031622477-PCT00064
이 벡터들
Figure 112008031622477-PCT00065
을 결합함으로써 얻어질 수 있다.
파라미터들이 선택된 이후에, 파라미터들을 고주파수 영역 복원 정보를 디코더(8)로 전송하기 위해 양자화되어야 한다.
디코더(8)에서
Figure 112008031622477-PCT00066
를 복원할 수 있도록, 파라미터들
Figure 112008031622477-PCT00067
, 및
Figure 112008031622477-PCT00068
이 각 대역 마다 필요하다. 디코더(8)에서, 고주파수 발생 수단(54)이 이런 파라미터들을 이용한다. 인덱스
Figure 112008031622477-PCT00069
가 정수이기 때문에, 그것은 이와 같이 제시될 수 있다.
Figure 112008031622477-PCT00070
Figure 112008031622477-PCT00071
는 예를 들어 스칼라 또는 벡터 양자화를 사용하여 양자화될 수 있다.
이런 파라미터들의 양자화된 버전들,
Figure 112008031622477-PCT00072
, 및
Figure 112008031622477-PCT00073
가 고주파수 발생 수단(54)에서 수학식 6 및 수학식 10에 따라
Figure 112008031622477-PCT00074
를 구하기 위해 사용된다.
저주파수 디코딩 수단(56)은 저주파수 신호를 디코딩하고 복원된 고주파수 부대역들과 같이 수학식 2에 따라 출력 신호(14)를 형성한다.
도 7에 도시된 시스템은 포락선 정규화를 위한 수단으로 더 향상될 수 있다. 도 8에 도시된 시스템은 도 7에 도시된 시스템에 추가하여 포락선 정규화 수단(58) 및 포락선 합성 수단(60)을 포함한다.
이런 시스템에서 고주파수 코딩 기술이 인코더(4) 내에서 포락선 정규화 수 단(58)을 사용하여 포락선 정규화 스펙트럼을 발생시키기 위해 사용된다. 실제 포락선 합성은 디코더(8) 내의 별도의 포락선 합성 수단(60)에서 실행된다.
포락선 정규화가 예를 들어, LPC 분석 또는 cepstral 모델링을 사용하여 실행될 수 있다. 포락선 정규화에서, 원본 고주파수 스펙트럼 포락선을 묘사하는 포락선 파라미터들이 도 8에 도시된 것과 같이 디코더로 제출되어야 한다는 것을 주의해야 한다.
SBR에서, 추가 사인곡선들 및 잡음 컴포넌트들이 고주파수 영역에 부가된다. 위에서 서술된 본 발명에서 동일한 것을 하는 것이 또한 가능하다. 필요하다면 추가 컴포넌트들이 용이하게 부가될 수 있다. 이것은 서술된 방법에서 원본 및 합성된 스펙트럼들 간의 차를 측정해서 스펙트럼 형태들에서 상당한 차이들이 존재하는 위치를 찾는 것이 가능하기 때문이다. 예를 들어 공통(common) BWE 코더들에서 스펙트럼 형태가 원본 스펙트럼과 다를 수 있기 때문에 추가 사인 곡선 또는 잡음 컴포넌트들을 부가할지 여부를 결정하는 것이 전형적으로 더 어렵다.
입력 신호가 매우 음조(tonal)가 있는 일정 경우들에서, 코딩된 신호의 품질이 원본과 비교할 때 감소되는 것을 주목하여 왔다. 이것은 코딩된 고주파수 영역이 원본 신호에서와 같이 하나의 프레임에서 다른 하나의 프레임까지 주기적으로 유지될 수 없기 때문이다. 일정 주기적(사인 곡선) 컴포넌트들이 없어졌거나 기존 주기적 컴포넌트들의 진폭이 하나의 프레임으로부터 다른 하나의 프레임까지 너무 많이 변경되기 때문에 주기성이 상실된다.
고주파수 부대역들을 복원하기 위해 사용되는 저주파수 신호 샘플들이 전체 사인 곡선을 나타내지 않을 때조차 음조 섹션들을 포함시키기 위해서, 2개의 추가 단계들이 제공될 수 있다.
제1 단계에서, 가능한 품질 등급 저하들을 갖는 음조 신호 섹션들이 검출될 수 있다. 음조 섹션들은 SDFT(Shifted Discrete Fourier Transform) 영역 내 2 개의 연속 프레임들 간에서 유사점들을 비교함에 의해 검출될 수 있다. SDFT는 이런 목적을 위한 유용한 변환인데, 이는 SDFT가 위상 정보를 또한 포함할 뿐만 아니라, 코더의 다른 부분들에서 사용되는, MDCT 변환에 여전히 밀접하게 관련되어 있기 때문이다.
음조 검출이 과도적 검출 바로 후와 실제 고주파수 영역 코딩을 초기화하기 전에 실행될 수 있다. 과도적 프레임들이 음조 컴포넌트들을 일반적으로 포함하고 있지 않기 때문에 음조 검출은 현재 프레임들 및 이전 프레임들 모두가 정규 긴 프레임들(예를 들어 2048개의 샘플들)일 때에만 적용될 수 있다.
음조 검출은 상기 표시된 대로 SDFT(Shifted Discrete Fourier Transform)를 기초로 하고, 이것은 2N개의 샘플들의 긴 프레임들에 대해 수학식 14와 같이 정의될 수 있다.
Figure 112008031622477-PCT00075
여기서 h(n) 는 윈도우이고, x(n) 는 입력 신호이고, u v 는 각각 시간 영역 시프트 및 주파수 영역 시프트를 각각 나타낸다. 이런 영역 시프트들은 u = (N + l)/2 and v = 1/2이 되도록 정의될 수 있고 그때부터
Figure 112008031622477-PCT00076
를 유지한다.
따라서 SDFT 및 MDCT 변환들을 각각 계산하는 대신에, SDFT 변환이 음조 분석을 위해 우선적으로 계산될 수 있고 그런 다음에 MDCT 변환이 SDFT 계수들의 실수 부분으로서 직접적으로 얻어진다. 이런 방식으로 음조 검출은 계산적 복잡도를 증가시키지는 않는다.
현재 및 이전 프레임들의 SDFT 변환을 각각 나타내는
Figure 112008031622477-PCT00077
Figure 112008031622477-PCT00078
로서, 프레임들 간의 유사성이 수학식 15를 사용하여 측정될 수 있다.
Figure 112008031622477-PCT00079
여기서
Figure 112008031622477-PCT00080
는 고주파수 코딩의 한계 주파수에 대응한다. 파라미터 S가 더 작아질수록, 고 주파수 스펙트럼들이 더 유사해 진다. S 값을 기초로, 프레임들이 수학식 16과 같이 분류될 수 있다.
Figure 112008031622477-PCT00081
제한 인자들 slim1 및 slim2에 대한 양호한 선택들은 각각 0.02 및 0.2이다. 그러나 다른 선택들이 또한 만들어질 수 있다. 또한 다른 변경들이 사용될 수 있고 예를 들어 분류들 중 하나가 완전히 삭제될 수 있다.
도 10에 도시된 것과 같이 위에서 서술된 음조 검출(62)은 입력 신호(10)를 기초로 실행될 수 있다.
음조 검출(62)을 기초로, 입력 프레임들이 무조(not tonal)(64), 음조 있음(66), 및 강하게 음조 있음(68)인, 3개의 그룹들로 나뉜다.
음조 검출(62) 후에, 두 번째 단계에서 음조 섹션들의 품질은 위에서 서술된 것과 같이, 추가의 사인 곡선들을 고주파수 영역에 부가하고 가능하게는 고주파수 영역을 생성하기 위해 사용되는 고주파수 부대역들의 수를 증가시킴으로써 향상될 수 있다.
가장 전형적인 경우는 신호가 무조(not tonal)(64)이어서, 코딩은 위에서 묘사된 것과 같이 계속된다.
입력 신호가 음조 있음(66)으로서 분류되면, 위에서 설명된 것과 같이 코딩을 적용한 후에 추가의 사인 곡선들이 고주파수 스펙트럼에 추가될 수 있다. 고정된 수의 사인 곡선들이 MDCT 영역 스펙트럼에 똑바로 추가될 수 있다. 사인 곡선들 이 원본 스펙트럼 및 코딩된 스펙트럼 간의 절대 차가 가장 큰 주파수들에 부가될 수 있다. 사인 곡선들의 위치들 및 진폭들이 양자화되어서 디코더로 제출된다.
프레임이 음조가 있는 것으로(또는 강하게 음조가 있는 것) 검출될 때, 사인 곡선들이 스펙트럼의 고주파수 영역에 부가될 수 있다. 각각 원본 및 코딩된 고주파수 부대역들을 나타내는
Figure 112008031622477-PCT00082
Figure 112008031622477-PCT00083
에서, 제1 사인 곡선이 인덱스
Figure 112008031622477-PCT00084
에 추가될 수 있고, 이것은 수학식 17로부터 얻어질 수 있다.
Figure 112008031622477-PCT00085
사인 곡선의 (부호를 포함하는) 진폭이 수학식 18과 같이 정의될 수 있다.
Figure 112008031622477-PCT00086
최종적으로
Figure 112008031622477-PCT00087
는 수학식 19와 같이 업데이트될 수 있다.
Figure 112008031622477-PCT00088
수학식 17 내지 수학식 19는 원하는 수의 사인곡선들이 추가될 때까지 반복될 수 있다. 전형적으로 4개의 추가 사인 곡선들이 음조 섹션들 동안에 명백히 향 상된 결과를 생기게 할 수 있다. 사인 곡선들의 진폭들
Figure 112008031622477-PCT00089
이 양자화되어 디코더(8)로 제출될 수 있다. 사인 곡선들의 위치들
Figure 112008031622477-PCT00090
이 또한 제출될 수 있다. 또한, 디코더(8)가 현재 프레임이 음조가 있다는 것을 통지받을 수 있다.
음조 섹션들 동안에 제2 스케일링 인자
Figure 112008031622477-PCT00091
가 품질을 향상시키지 않을 수 있고, 그 때는 제거될 수 있다는 것을 주목해야 한다.
강한 음조 섹션(68)이 검출되었을 때, 현재 섹션이 고주파수 영역 코딩에서 특히 어려워진다는 것이 알려져 있다. 따라서 사인 곡선만을 추가하는 것으로는 불충분할 수 있다. 품질은 고주파수 코딩의 정확도를 증가시킴으로서 더 향상될 수 있다. 이것은 고주파수 영역을 생성하기 위해 사용되는 대역들의 수를 추가함으로써 실행될 수 있다.
강한 음조 섹션들 동안에, 고주파수 부대역들이 하나의 프레임으로부터 다른 하나의 프레임까지 매우 유사하게 유지된다. 코딩된 신호에서 이 유사성을 유지하기 위해 특별한 활동들이 적용될 수 있다. 고주파수 부대역들의 수
Figure 112008031622477-PCT00092
가 상대적으로 낮으면(즉 8 또는 그 이하), 고주파수 부대역들의 수가 더 높은 레이트들로 증가될 수 있다. 예를 들어, 16개의 고주파수 부대역들이 더 정확한 성능을 제공한다.
높은 수의 대역들에 더하여, 높은 수의 사인 곡선들이 추가될 수 있다. 일반적으로 좋은 해결책은 "정규" 음조 섹션들 동안 보다 2배 많은 사인 곡선들을 사용하는 것이다.
사인 곡선들의 수를 증가시키는 것뿐만 아니라 고주파수 부대역들의 수를 증가시키는 것은 "정규" 프레임들과 비교할 때 강한 음조 섹션들의 비트레이트를 두 배로 한다. 그러나 강한 음조 섹션들은 매우 특별한 경우이고 매우 드물게 발생하기 때문에, 평균 비트레이트를 증가시키는 것은 매우 적다.

Claims (29)

  1. 오디오 신호들을 인코딩하기 위한 방법으로서,
    - 입력 오디오 신호를 수신하는 단계,
    - 상기 오디오 신호를 적어도 저주파수 대역 및 고주파수 대역으로 나누는 단계,
    - 상기 고주파수 대역을 적어도 2개의 고주파수 부대역 신호들로 나누는 단계,
    - 저주파수 대역 신호 섹션들 내에서 어떤 것이 고주파수 부대역 신호들과 가장 일치하는가를 결정하는 단계, 및
    - 고주파수 부대역 신호들과 가장 일치하는 저주파수 대역 신호 섹션들에 적어도 관련된 파라미터들을 발생시키는 단계를 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  2. 제1항에 있어서,
    상기 파라미터들을 발생시키는 단계는 저주파수 대역 신호 섹션들을 스케일링하기 위한 적어도 하나의 스케일링 인자(scaling factor)를 발생시키는 것을 더 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  3. 제2항에 있어서,
    상기 스케일링 인자는 상기 파라미터들을 사용하여 상기 고주파수 부대역 신호들로 전치되어 있는(transpose) 저주파수 신호 섹션들의 포락선이 상기 수신된 신호의 고주파수 부대역 신호들의 포락선을 따를 수 있도록 발생되는, 오디오 신호들을 인코딩하기 위한 방법.
  4. 제2항에 있어서,
    상기 스케일링 인자들을 발생시키는 단계는 상기 스펙트럼 내에서 적어도 진폭 피크들과 일치하도록 선형 영역 내에서 스케일링 인자를 발생시키는 것을 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  5. 제2항에 있어서,
    상기 스케일링 인자들을 발생시키는 단계는 적어도 상기 스펙트럼의 에너지 및/또는 형태와 일치하도록 로그 영역 내에서 스케일링 인자들을 발생시키는 것을 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  6. 제1항에 있어서,
    상기 파라미터들을 발생시키는 단계는 상응하는 고주파수 부대역 신호들을 나타내는 저주파수 신호 섹션들로의 링크들을 발생시키는 것을 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  7. 제1항에 있어서,
    상기 저주파수 대역 신호 섹션들 내에서 어떤 것이 고주파수 부대역 신호들과 가장 일치하는가를 결정하는 단계는,
    A) 정규 상관(normalized correlation),
    B) 유클리드 거리,
    중 적어도 하나를 사용하는 단계를 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  8. 제1항에 있어서,
    적어도 상기 저주파수 신호 섹션들의 샘플들은 변형 이산 코사인 변환(modified discrete cosine transformation)을 사용하여 발생되는, 오디오 신호들을 인코딩하기 위한 방법.
  9. 제1항에 있어서,
    상기 고주파수 부대역 신호들의 포락선을 정규화하는 단계를 더 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  10. 제2항에 있어서,
    상기 저주파수 신호의 샘플들을 양자화하는 단계 및 적어도 상기 스케일링 인자들을 양자화하는 단계를 더 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  11. 제1항에 있어서,
    상기 입력 신호는 일시적으로 연속 프레임들로 나뉘고,
    상기 입력 신호의 2개의 연속 프레임들 내에서 음조(tonal) 섹션들을 검출하는 단계를 더 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  12. 제11항에 있어서,
    상기 음조 섹션들을 검출하는 단계는 시프트 이산 푸리에 변환(Shifted Discrete Fourier Transformation)을 사용하는, 오디오 신호들을 인코딩하기 위한 방법.
  13. 제11항에 있어서,
    사인 곡선들을 음조 섹션들에 추가하는 단계를 더 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  14. 제11항에 있어서,
    음조 섹션들을 위해 고주파수 부대역들의 수를 증가시키는 단계를 더 포함하는, 오디오 신호들을 인코딩하기 위한 방법.
  15. 오디오 신호들을 디코딩하기 위한 방법으로서,
    - 인코딩된 비트스트림을 수신하는 단계,
    - 상기 비트스트림으로부터 적어도 저주파수 신호 및 적어도 저주파수 신호 섹션들에 관련된 파라미터들을 디코딩하는 단계,
    - 적어도 2개의 고주파수 부대역 신호들을 복원하기 위해 저주파수 신호 샘플들 및 저주파수 신호 섹션들에 관련된 파라미터들을 이용하는 단계,
    - 적어도 저주파수 신호 및 적어도 2개의 고주파수 부대역 신호들을 포함하는 출력 신호를 출력하는 단계를 포함하는, 오디오 신호들을 디코딩하기 위한 방법.
  16. 오디오 신호들을 인코딩하기 위한 인코더로서,
    - 입력 오디오 신호를 수신하도록 구성된 수신 수단,
    - 상기 오디오 신호를 적어도 저주파수 대역 및 고주파수 대역으로 나누도록 구성되고, 상기 고주파수 대역을 적어도 2개의 고주파수 부대역 신호들로 나누도록 또한 구성된 필터링 수단, 및
    - 고주파수 부대역 신호들과 가장 일치하는 저주파수 대역 신호 섹션들에 적어도 관련된 파라미터들을 발생시키도록 구성된 코딩 수단을 포함하는, 오디오 신호들을 인코딩하기 위한 인코더.
  17. 제16항에 있어서,
    상기 코딩 수단은 상기 저주파수 대역 신호 섹션들을 스케일링하기 위한 적 어도 하나의 스케일링 인자들을 발생시키도록 구성된, 오디오 신호들을 인코딩하기 위한 인코더.
  18. 제16항에 있어서,
    상기 코딩 수단은 상기 파라미터들을 사용하여 고주파수 부대역 신호들로 전치되어 있는 저주파수 신호 섹션들의 포락선이 상기 수신된 신호의 고주파수 부대역 신호들의 포락선을 따를 수 있도록 스케일링 인자를 발생시키도록 구성된, 오디오 신호들을 인코딩하기 위한 인코더.
  19. 제16항에 있어서,
    상기 필터링 수단은 상기 입력 신호를 일시적으로 연속 프레임들로 나누도록 구성되고, 상기 입력 신호의 2개의 연속 프레임들 내에서 음조 섹션들을 검출하도록 구성된, 오디오 신호들을 인코딩하기 위한 인코더.
  20. 제19항에 있어서,
    상기 필터링 수단은 시프트 이산 푸리에 변환(Shifted Discrete Fourier Transformation)을 사용하여 음조 섹션들을 검출하도록 구성된, 오디오 신호들을 인코딩하기 위한 인코더.
  21. 제19항에 있어서,
    상기 코딩 수단은 사인 곡선들을 음조 섹션들에 추가하도록 구성된, 오디오 신호들을 인코딩하기 위한 인코더.
  22. 제19항에 있어서,
    상기 코딩 수단은 음조 섹션들을 위해 고주파수 부대역들의 수를 증가시키도록 구성된, 오디오 신호들을 인코딩하기 위한 인코더.
  23. 오디오 신호들을 디코딩하기 위한 디코더로서,
    - 인코딩된 비트스트림을 수신하도록 구성된 수신 수단,
    - 상기 비트스트림으로부터 적어도 저주파수 신호 및 적어도 저주파수 신호 섹션들에 관련된 파라미터들을 디코딩하도록 구성된 디코딩 수단,
    - 적어도 2개의 고주파수 부대역 신호들을 복원하기 위해 저주파수 신호의 샘플들 및 저주파수 신호 섹션들에 관련된 파라미터들을 이용하도록 구성된 발생 수단을 포함하는, 오디오 신호들을 디코딩 하기 위한 디코더.
  24. 제23항에 따른 디코더, 및 제16항에 따른 인코더를 포함하는 디지털 오디오 압축을 위한 시스템.
  25. 오디오 신호들을 인코딩하기 위한 컴퓨터 프로그램 생성물로서, 상기 프로그램은 프로세서로 하여금,
    - 입력 오디오 신호를 수신하고,
    - 상기 오디오 신호를 적어도 저주파수 대역 및 고주파수 대역으로 나누고,
    - 상기 고주파수 대역을 적어도 2개의 고주파수 부대역 신호들로 나누고, 그리고
    - 고주파수 부대역 신호들과 가장 일치하는 저주파수 대역 신호 섹션들에 적어도 관련된 파라미터들을 발생시키도록 하는 동작 가능한 명령어들을 포함하는, 오디오 신호들을 인코딩하기 위한 컴퓨터 프로그램 생성물.
  26. 제25항에 있어서,
    상기 프로세서로 하여금 상기 입력 신호를 일시적으로 연속 프레임들로 나누고, 상기 입력 신호의 2개의 연속 프레임들 내에서 음조 섹션들을 검출하도록 하는 동작 가능한, 오디오 신호들을 인코딩하기 위한 컴퓨터 프로그램 생성물,
  27. 제26항에 있어서,
    프로세서로 하여금 음조 섹션들을 검출하기 위해 시프트 이산 푸리에 변환(Shifted Discrete Fourier Transformation)을 사용하도록 하는 동작 가능한, 오디오 신호들을 인코딩하기 위한 컴퓨터 프로그램 생성물.
  28. 제26항에 있어서,
    프로세서로 하여금 음조 섹션들을 위해 고주파수 부대역들의 수를 증가시키 도록 하는 동작 가능한, 오디오 신호들을 인코딩하기 위한 컴퓨터 프로그램 생성물.
  29. 오디오 신호들을 디코딩하기 위한 컴퓨터 프로그램 생성물로서, 상기 프로그램은 프로세서로 하여금,
    - 인코딩된 비트스트림을 수신하고
    - 상기 비트스트림으로부터 적어도 저주파수 신호 및 적어도 저주파수 신호 섹션들에 관련된 파라미터들을 디코딩하고,
    - 적어도 2개의 고주파수 부대역 신호들을 복원하기 위해 저주파수 신호 샘플들 및 저주파수 신호 섹션들에 관련된 파라미터들을 이용하고,
    - 적어도 저주파수 신호 및 적어도 2개의 고주파수 부대역 신호들을 포함하는 출력 신호를 출력하도록 하는 동작 가능한 명령어들을 포함하는, 비트 스트림들을 디코딩하기 위한 컴퓨터 프로그램 생성물.
KR1020087010631A 2005-11-04 2005-11-04 오디오 압축 KR100958144B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2005/003293 WO2007052088A1 (en) 2005-11-04 2005-11-04 Audio compression

Publications (2)

Publication Number Publication Date
KR20080059279A true KR20080059279A (ko) 2008-06-26
KR100958144B1 KR100958144B1 (ko) 2010-05-18

Family

ID=35883664

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087010631A KR100958144B1 (ko) 2005-11-04 2005-11-04 오디오 압축

Country Status (8)

Country Link
US (1) US8326638B2 (ko)
EP (1) EP1943643B1 (ko)
JP (1) JP4950210B2 (ko)
KR (1) KR100958144B1 (ko)
CN (1) CN101297356B (ko)
AU (1) AU2005337961B2 (ko)
BR (1) BRPI0520729B1 (ko)
WO (1) WO2007052088A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150109460A (ko) * 2013-01-29 2015-10-01 후아웨이 테크놀러지 컴퍼니 리미티드 대역폭 확장 주파수 대역 신호를 예측하는 방법, 및 디코딩 장치
WO2015147434A1 (ko) * 2014-03-25 2015-10-01 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
WO2009059631A1 (en) 2007-11-06 2009-05-14 Nokia Corporation Audio coding apparatus and method thereof
KR101238239B1 (ko) 2007-11-06 2013-03-04 노키아 코포레이션 인코더
US9275648B2 (en) * 2007-12-18 2016-03-01 Lg Electronics Inc. Method and apparatus for processing audio signal using spectral data of audio signal
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2239731B1 (en) * 2008-01-25 2018-10-31 III Holdings 12, LLC Encoding device, decoding device, and method thereof
CN102057424B (zh) * 2008-06-13 2015-06-17 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
ES2906255T3 (es) * 2009-01-28 2022-04-13 Dolby Int Ab Transposición armónica mejorada
MX2011008685A (es) * 2009-02-26 2011-09-06 Panasonic Corp Codificador, decodificador y metodo para los mismos.
US8805680B2 (en) * 2009-05-19 2014-08-12 Electronics And Telecommunications Research Institute Method and apparatus for encoding and decoding audio signal using layered sinusoidal pulse coding
WO2011000408A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Audio coding
JP5433022B2 (ja) 2009-09-18 2014-03-05 ドルビー インターナショナル アーベー 高調波転換
EP2481048B1 (en) * 2009-09-25 2017-10-25 Nokia Technologies Oy Audio coding
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
PL4152320T3 (pl) * 2009-10-21 2024-02-19 Dolby International Ab Nadpróbkowanie w banku filtrów połączonym z modułem transpozycji
CN102598123B (zh) 2009-10-23 2015-07-22 松下电器(美国)知识产权公司 编码装置、解码装置及其方法
JP5511839B2 (ja) 2009-10-26 2014-06-04 パナソニック株式会社 トーン判定装置およびトーン判定方法
WO2011058752A1 (ja) 2009-11-12 2011-05-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
EP2362376A3 (en) * 2010-02-26 2011-11-02 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using envelope shaping
WO2011114192A1 (en) * 2010-03-19 2011-09-22 Nokia Corporation Method and apparatus for audio coding
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5652658B2 (ja) 2010-04-13 2015-01-14 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
RU2582061C2 (ru) 2010-06-09 2016-04-20 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Способ расширения ширины полосы, устройство расширения ширины полосы, программа, интегральная схема и устройство декодирования аудио
EP2584561B1 (en) 2010-06-21 2018-01-10 III Holdings 12, LLC Decoding device, encoding device, and methods for same
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US8831933B2 (en) 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2012052802A1 (en) * 2010-10-18 2012-04-26 Nokia Corporation An audio encoder/decoder apparatus
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
RU2464649C1 (ru) 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5807453B2 (ja) * 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
CN106847295B (zh) * 2011-09-09 2021-03-23 松下电器(美国)知识产权公司 编码装置和编码方法
WO2013057895A1 (ja) * 2011-10-19 2013-04-25 パナソニック株式会社 符号化装置及び符号化方法
PL3624119T3 (pl) 2011-10-28 2022-06-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie kodujące i sposób kodowania
EP2831875B1 (en) 2012-03-29 2015-12-16 Telefonaktiebolaget LM Ericsson (PUBL) Bandwidth extension of harmonic audio signal
EP2717263B1 (en) 2012-10-05 2016-11-02 Nokia Technologies Oy Method, apparatus, and computer program product for categorical spatial analysis-synthesis on the spectrum of a multichannel audio signal
EP2997573A4 (en) 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
CN103280222B (zh) * 2013-06-03 2014-08-06 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
WO2015037969A1 (ko) * 2013-09-16 2015-03-19 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
EP3046104B1 (en) 2013-09-16 2019-11-20 Samsung Electronics Co., Ltd. Signal encoding method and signal decoding method
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
KR102513009B1 (ko) 2013-12-27 2023-03-22 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
US10020002B2 (en) * 2015-04-05 2018-07-10 Qualcomm Incorporated Gain parameter estimation based on energy saturation and signal scaling
US9613628B2 (en) 2015-07-01 2017-04-04 Gopro, Inc. Audio decoder for wind and microphone noise reduction in a microphone array system
DE102017200320A1 (de) * 2017-01-11 2018-07-12 Sivantos Pte. Ltd. Verfahren zur Frequenzverzerrung eines Audiosignals
JP2020105231A (ja) * 2017-03-22 2020-07-09 Spiber株式会社 モールド成形体及びモールド成形体の製造方法
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN110111800B (zh) * 2019-04-04 2021-05-07 深圳信息职业技术学院 一种电子耳蜗的频带划分方法、装置及电子耳蜗设备
CN113192523A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JPH11120185A (ja) * 1997-10-09 1999-04-30 Canon Inc 情報処理装置及びその方法
US6711540B1 (en) * 1998-09-25 2004-03-23 Legerity, Inc. Tone detector with noise detection and dynamic thresholding for robust performance
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7447639B2 (en) * 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
EP1701340B1 (en) * 2001-11-14 2012-08-29 Panasonic Corporation Decoding device, method and program
KR100949232B1 (ko) * 2002-01-30 2010-03-24 파나소닉 주식회사 인코딩 장치, 디코딩 장치 및 그 방법
EP1439524B1 (en) * 2002-07-19 2009-04-08 NEC Corporation Audio decoding device, decoding method, and program
KR100524065B1 (ko) * 2002-12-23 2005-10-26 삼성전자주식회사 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150109460A (ko) * 2013-01-29 2015-10-01 후아웨이 테크놀러지 컴퍼니 리미티드 대역폭 확장 주파수 대역 신호를 예측하는 방법, 및 디코딩 장치
US9361904B2 (en) 2013-01-29 2016-06-07 Huawei Technologies Co., Ltd. Method for predicting bandwidth extension frequency band signal, and decoding device
US9875749B2 (en) 2013-01-29 2018-01-23 Huawei Technologies Co., Ltd. Method for predicting bandwidth extension frequency band signal, and decoding device
US10388295B2 (en) 2013-01-29 2019-08-20 Huawei Technologies Co., Ltd. Method for predicting bandwidth extension frequency band signal, and decoding device
US10607621B2 (en) 2013-01-29 2020-03-31 Huawei Technologies Co., Ltd. Method for predicting bandwidth extension frequency band signal, and decoding device
WO2015147434A1 (ko) * 2014-03-25 2015-10-01 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법

Also Published As

Publication number Publication date
EP1943643A1 (en) 2008-07-16
BRPI0520729A2 (pt) 2009-05-26
BRPI0520729A8 (pt) 2016-03-22
CN101297356B (zh) 2011-11-09
JP2009515212A (ja) 2009-04-09
WO2007052088A1 (en) 2007-05-10
AU2005337961B2 (en) 2011-04-21
EP1943643B1 (en) 2019-10-09
US8326638B2 (en) 2012-12-04
BRPI0520729B1 (pt) 2019-04-02
KR100958144B1 (ko) 2010-05-18
AU2005337961A1 (en) 2007-05-10
JP4950210B2 (ja) 2012-06-13
CN101297356A (zh) 2008-10-29
US20090271204A1 (en) 2009-10-29

Similar Documents

Publication Publication Date Title
KR100958144B1 (ko) 오디오 압축
TWI555008B (zh) 使用在智慧間隙填充架構內之雙聲道處理之音頻編碼器、音頻解碼器及相關方法
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR101238239B1 (ko) 인코더
KR101441474B1 (ko) 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
CN101086845B (zh) 声音编码装置及方法以及声音解码装置及方法
US20160254005A1 (en) Method and apparatus to encode and decode an audio/speech signal
KR20080097178A (ko) 부호화/복호화 장치 및 방법
US20090192789A1 (en) Method and apparatus for encoding/decoding audio signals
US9240192B2 (en) Device and method for efficiently encoding quantization parameters of spectral coefficient coding
US9373337B2 (en) Reconstruction of a high-frequency range in low-bitrate audio coding using predictive pattern analysis
CN117940994A (zh) 基于长期预测和/或谐波后置滤波生成预测频谱的处理器
RU2409874C2 (ru) Сжатие звуковых сигналов
RU2414009C2 (ru) Устройство и способ для кодирования и декодирования сигнала
US20100280830A1 (en) Decoder
Petrovsky et al. Audio/speech coding using the matching pursuit with frame-based psychoacoustic optimized time-frequency dictionaries and its performance evaluation
EP4120253A1 (en) Integral band-wise parametric coder
KR20080034819A (ko) 부호화/복호화 장치 및 방법
KR20240042449A (ko) 오디오 신호의 펄스 및 잔차 부분의 코딩 및 디코딩
KR20080034817A (ko) 부호화/복호화 장치 및 방법
WO2008114078A1 (en) En encoder

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130419

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140422

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150416

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160419

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170420

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180417

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190417

Year of fee payment: 10