KR101428608B1 - 대역폭 확장을 위한 스펙트럼 평탄도 제어 - Google Patents

대역폭 확장을 위한 스펙트럼 평탄도 제어 Download PDF

Info

Publication number
KR101428608B1
KR101428608B1 KR1020137002805A KR20137002805A KR101428608B1 KR 101428608 B1 KR101428608 B1 KR 101428608B1 KR 1020137002805 A KR1020137002805 A KR 1020137002805A KR 20137002805 A KR20137002805 A KR 20137002805A KR 101428608 B1 KR101428608 B1 KR 101428608B1
Authority
KR
South Korea
Prior art keywords
band
coefficient
low
highband
energy
Prior art date
Application number
KR1020137002805A
Other languages
English (en)
Other versions
KR20130025963A (ko
Inventor
양 가오
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20130025963A publication Critical patent/KR20130025963A/ko
Application granted granted Critical
Publication of KR101428608B1 publication Critical patent/KR101428608B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

실시예에 따르면, 인코딩된 오디오 비트스트림을 디코더에서 디코딩하는 방법은, 오디오 비트스트림을 수신하는 단계, 상기 오디오 비트스트림의 저대역 비트스트림을 디코딩하여 주파수 도메인 내의 저대역 계수를 획득하는 단계, 및 복수의 상기 저대역 계수를 고주파 대역 위치에 복제하여 고대역 계수를 생성하는 단계를 포함한다. 상기 방법은 상기 고대역 계수를 프로세스하여 프로세스된 고대역 계수를 형성하는 단계를 더 포함한다. 상기 고대역 계수를 프로세스하여 프로세스된 고대역 계수를 형성하는 단계는, 상기 고대역 계수를 평탄화 또는 평활화하도록 변형 이득을 승산함으로써 고대역 계수의 에너지 엔벨로프를 변형하는 단계, 및 상기 수신된 오디오 비트스트림으로부터 디코딩된 수신된 스펙트럼 엔벨로프를 상기 고대역 계수에 적용하는 단계를 포함한다. 그런 다음 상기 저대역 계수와 상기 프로세스된 고대역 계수를 시간 도메인으로 역변환하여 시간 도메인 출력 신호를 획득한다.

Description

대역폭 확장을 위한 스펙트럼 평탄도 제어{SPECTRUM FLATNESS CONTROL FOR BANDWIDTH EXTENSION}
본 특허출원은 2011년 7월 18일에 출원되고 발명의 명칭이 "Spectrum Flatness Control for Bandwidth Extension"인 미국 비가출원 No.13/185,163 및 2010년 7월 19일에 출원되고 발명의 명칭이 "Spectrum Flatness Control for Bandwidth Extension"인 미국 가출원 No.61/365,456에 대한 우선권을 주장하는 바이며, 상기 문헌들의 내용은 본 명세서에 원용되어 포함된다.
본 발명은 일반적으로 오디오/음성 프로세스에 관한 것이며, 특히 대역폭 확장을 위한 스펙트럼 평탄도 제어에 관한 것이다.
현대의 오디오/음성 디지털 신호 통신 시스템에서는, 디지털 신호를 인코더에서 압축하고, 그 압축된 정보 또는 비트스트림을 패킷화하여 통신 채널을 통해 디코더에 프레임 단위로 송신할 수 있다. 인코더와 디코더로 함께 이루어진 시스템을 코덱(CODEC)이라 한다. 음성/오디오 압축을 사용하여 음성/오디오 신호를 나타내는 비트 수를 감소할 수 있으며 이에 의해 전송에 필요한 대역폭 및/또는 비트 레이트를 감소할 수 있다. 일반적으로, 비트 레이트가 높을수록 오디오 품질이 높아지고, 반면 비트 레이트가 낮을수록 오디오 품질이 낮아진다.
필터 뱅크 기술(filter bank technology)에 기반한 오디오 코딩이 폭넓게 사용되고 있다. 신호 프로세스에서, 필터 뱅크는 입력 신호를 복수의 구성요소로 분리하는 대역-통과 필터의 어레이이며, 각각의 구성요소는 원래의 입력 신호의 단일 주파수 서브대역을 수반한다. 필터 뱅크가 수행하는 분해 프로세스를 분석이라 하고, 필터 뱅크 분석의 출력은 필터 뱅크 내에 있는 필터만큼 많은 서브대역을 가지는 서브대역 신호로서 언급된다. 재구성 처리를 필터 뱅크 합성이라 한다. 디지털 신호 프로세스에서, 필터 뱅크는 수신기의 뱅크에도 흔히 적용되는 용어이고, 서브대역을 감소된 레이트로 샘플링될 수 있는 저 중심 주파수(low center frequency)로 다운-변환할 수 있다. 대역통과 서브대역에 의해서도 때때로 동일한 합성 결과를 얻어낼 수 있다. 필터 뱅크의 출력은 복소수 계수의 형태로 될 수 있는데, 각각의 복소수 계수는 필터 뱅크의 각각의 서브대역에 있어서 코사인 항목 및 사인 항목을 각각 나타내는 실수 요소 및 허수 요소를 가진다.
(필터 뱅크 분석 및 필터 뱅크 합성)은 시간 도메인 신호를 주파수 도메인 계수로 변환하고 주파수 도메인 계수를 시간 도메인 계수로 역변환하는 일종의 변환 쌍이다. 다른 대중적인 변환 쌍, 예를 들어 (FFTiFFT), (DFTiDFT), (MDCTiMDCT)도 음성/오디오 코딩에 사용될 수 있다.
신호 압축을 위한 필터 뱅크의 어플리케이션에서, 일부의 주파수는 지각적으로(perceptually) 다른 주파수보다 더 중요하다. 분해 후, 지각적으로 중요한 주파수는 정교한 분해능으로 코딩될 수 있는데, 이러한 주파수에서의 작은 차이를 지각적으로 인식하여 이러한 차이를 보존하는 코딩 방식을 사용하는 것이 타당하다고 보기 때문이다. 한편, 지각적으로 덜 중요한 주파수는 정확하게 복제되지 않으며, 그러므로 코딩 중에 일부의 미세한 디테일의 손실이 있는 것을 감안해도, 거친 코딩 방식(coarser coding scheme)을 사용할 수 있다. 통상적인 거친 코딩 방식은 대역폭 확장(Bandwidth Extension: BWE)의 개념에 기반할 수 있으며, 공지의 고대역 확장(High Band Extension: HBE)에도 기반할 수 있다. 최근의 대중적인 하나의 특정한 BWE 또는 HBE 방식은 서브 대역 복제(Sub Band Replica: SBR) 또는 스펙트럼 대역 복제(Spectral Band Replication: SBR)로서 알려져 있다. 이러한 기술은 일부의 주파수 서브대역(통상적으로 고대역)을 미미한 비트 레이트 버짓(bit rate budget)으로 또는 비트 레이트 버짓 없이 인코딩하고 디코딩하는 것과 유사하며, 이에 의해 정상적인 인코딩/디코딩 방식보다 상당히 낮은 비트 레이트를 낸다. SBR 기술에 따르면, 고주파 대역의 정교한 스펙트럼 구조를 저주파 대역으로부터 복제하고, 랜덤 노이즈가 부가될 수 있다. 다음, 인코더로부터 디코더로 전송된 측면 정보(side information)를 사용하여 고주파 대역의 스펙트럼 엔벨로프의 형상을 형성한다. 포스트-프로세싱 모듈을 가진 특정한 SBR 기술이 MPEG4 USAC로 명칭이 붙은 국제표준에서 사용되었으며, 여기서 MPEG는 동영상 전문가 그룹(Moving Picture Experts Group)을 의미하고 USAC는 통합 음성 오디오 코딩(Unified Speech Audio Coding)을 의미한다.
일부의 어플리케이션에서는, 디코더 측에서 포스트-프로세싱 또는 제어 포스트-프로세싱을 사용하여 저비트 레이트 코딩 또는 SBR 코딩에 의해 코딩된 신호의 지각 품질을 더 향상시킨다. 때때로, 몇몇 포스트-프로세싱 또는 제어 포스트-프로세싱 모듈이 SBR 디코더에 도입된다.
실시예에 따르면, 인코딩된 오디오 비트스트림을 디코더에서 디코딩하는 방법은, 오디오 비트스트림을 수신하는 단계, 상기 오디오 비트스트림의 저대역 비트스트림을 디코딩하여 주파수 도메인 내의 저대역 계수를 획득하는 단계, 및 복수의 상기 저대역 계수를 고주파 대역 위치에 복제하여 고대역 계수를 생성하는 단계를 포함한다. 상기 방법은 상기 고대역 계수를 프로세스하여 프로세스된 고대역 계수를 형성하는 단계를 더 포함한다. 상기 고대역 계수를 프로세스하여 프로세스된 고대역 계수를 형성하는 단계는, 상기 고대역 계수를 평탄화 또는 평활화하도록 변형 이득을 승산함으로써 고대역 계수의 에너지 엔벨로프를 변형하는 단계, 및 상기 수신된 오디오 비트스트림으로부터 디코딩된 수신된 스펙트럼 엔벨로프를 상기 고대역 계수에 적용하는 단계를 포함한다. 그런 다음 상기 저대역 계수와 상기 프로세스된 고대역 계수를 시간 도메인으로 역변환하여 시간 도메인 출력 신호를 획득한다.
추가의 실시예에 따르면, 디코더에서 디코딩된 음성/오디오 신호를 생성하고 생성된 고주파 대역의 스펙트럼 평탄도를 향상시키는 포스트 프로세싱 방법은, 대역폭 확장(Bandwidth Extension: BWE) 고대역 계수 생성 방법을 사용하여, 주파수 도메인 내의 저대역 계수로부터 고대역 계수를 생성하는 단계를 포함한다. 상기 방법은, 상기 고대역 계수에 평탄화 또는 평활화 계수를 승산함으로써 상기 고대역 계수의 에너지 엔벨로프를 평탄화 또는 평활화하는 단계; BWE 형성 및 결정 방법을 사용하여 상기 고대역 계수의 에너지를 형성 및 결정하는 단계; 및 상기 저대역 계수 및 상기 저대역 계수를 시간 도메인으로 역변환하여 시간도메인 출력 음성/오디오 신호를 획득하는 단계를 더 포함한다.
추가의 실시예에 따르면, 인코딩된 오디오 신호를 수신하는 시스템은, 저대역 블록의 출력단에서 상기 인코딩된 오디오 신호의 저대역 부분을 주파수 도메인 저대역 계수로 변환하도록 구성되어 있는 상기 저대역 블록을 포함한다. 고대역 블록은 상기 저대역 블록의 출력단에 결합되어 있고, 복수의 상기 저대역 계수를 고주파 대역 위치에 복제함으로써 고대역 블록의 출력단에서 고대역 블록 계수를 생성하도록 구성되어 있다. 상기 시스템은 상기 고대역 블록의 출력단에 결합되어 있고, 엔벨로프 형성 블록의 출력단에서 형성된 고대역 계수를 생성하도록 구성되어 있는 상기 엔벨로프 형성 블록을 더 포함한다. 상기 엔벨로프 형성 블록은, 변형 이득을 승산함으로써 상기 고대역 계수의 에너지 엔벨로프를 변형하여 상기 고대역 계수를 평탄화 또는 평활화하며, 상기 인코딩된 오디오 신호로부터 디코딩된 수신된 스펙트럼 엔벨로프를 상기 고대역 계수에 적용하도록 구성되어 있다. 상기 시스템은 상기 엔벨로프 형성 블록의 출력단 및 상기 저대역 블록의 출력단에 결합되어 있고, 시간 도메인 오디오 출력 신호를 생성하도록 구성되어 있는 역변환 블록을 더 포함한다.
추가의 실시예에 따르면, 비일시적의 컴퓨터가 판독 가능한 매체는 실행 가능한 프로그램이 저장되어 있다. 상기 프로그램은, 인코딩된 오디오 신호를 디코딩하여 디코딩된 오디오 신호를 생성하는 단계; 및 스펙트럼 대역폭 확장을 위해 스펙트럼 평탄도 제어로 상기 디코딩된 오디오 신호를 포스트 프로세싱하는 단계를 수행하도록 프로세서에 명령한다. 실시예에서, 상기 인코딩된 오디오 신호는 입력 오디오 신호의 부호화 표현(coded representation)을 포함한다.
전술한 바는 이하에 설명되는 발명의 상세한 설명을 더 잘 이해할 수 있도록 하기 위해 본 발명의 실시예의 특징을 폭넓게 개략적으로 설명하였다. 본 발명의 실시예의 추가의 특징 및 이점에 대해 이하에 설명할 것이며, 이는 본 발명의 청구의 범위의 요지가 될 것이다. 당업자라면 설명된 개념 및 특정한 실시예는 본 발명의 동일한 목적을 수행하는 데 있어서 다른 구조 또는 프로세스를 변형 또는 설계하는 기반으로서 용이하게 활용될 수 있다는 것을 이해할 수 있을 것이다. 당업자라면 이러한 등가의 구성은 첨부된 청구의 범위에 설명된 바와 같이 본 발명의 정신 및 범주를 벗어나지 않는다는 것을 이해할 수 있을 것이다.
실시예 및 실시예의 이점를 더 완전하게 이해하기 위해, 첨부된 도면에 대한 이하의 설명을 참조한다.
도 1a 및 도 1b는 본 발명의 실시예에 따른 예시적인 인코더 및 디코더를 도시하는 도면이다.
도 2a 및 도 2b는 본 발명의 추가의 실시예에 따른 예시적인 인코더 및 디코더를 도시하는 도면이다.
도 3은 예시적인 스펙트럼 평탄도 제어 시스템 및 방법을 사용하지 않고 무성음화된 음성에 대한 SBR 방식을 사용하여 생성된 고대역 스펙트럼 엔벨로프에 대한 도면이다.
도 4는 예시적인 스펙트럼 평탄도 제어 시스템 및 방법을 사용하고 무성음화된 음성에 대한 SBR 방식을 사용하여 생성된 고대역 스펙트럼 엔벨로프에 대한 도면이다.
도 5는 예시적인 스펙트럼 평탄도 제어 시스템 및 방법을 사용하지 않고 통상의 유성음화된 음성에 대한 SBR 방식을 사용하여 생성된 고대역 스펙트럼 엔벨로프에 대한 도면이다.
도 6은 예시적인 스펙트럼 평탄도 제어 시스템 및 방법을 사용하고 통상의 유성음화된 음성에 대한 SBR 방식을 사용하여 생성된 고대역 스펙트럼 엔벨로프에 대한 도면이다.
도 7은 본 발명의 실시예에 따른 통신 시스템에 대한 개요도이다.
도 8은 본 발명의 방법을 실행하는 데 활용될 수 있는 프로세스 시스템에 대한 개요도이다.
실시예를 만들고 사용하는 것에 대해 이하에 상세히 설명한다. 그렇지만, 본 발명은 다양한 특정한 문맥에서 구현될 수 있는 많은 적용 가능한 창조적 개념을 제공한다는 것을 이해해야 한다. 설명되는 특정한 실시예는 본 발명을 만들고 사용하는 특정한 방식에 대한 설명에 지나지 않으며, 발명의 범위를 제한하는 것은 아니다.
본 발명은 특정한 문맥의 다양한 실시예와 관련해서, 오디오 인코딩 및 디코딩을 위한 시스템 및 방법에 대해 설명한다. 본 발명의 실시예는 또한 다른 타입의 신호 프로세스에도 적용 가능하다.
본 발명의 실시예에서는 오디오 디코더에서의 SBR 성능을 높이기 위해 스펙트럼 평탄도 제어를 사용한다. 스펙트럼 평탄도 제어는 음성 및 오디오 신호의 저비트 레이트 코딩(예를 들어 SBR)을 더 향상시키는 포스트-프로세싱 또는 제어된 포스트-프로세싱 기술 중 하나로서 볼 수 있다. SBR 기술을 가진 코덱은 고주파 대역에서보다 저주파 대역을 코딩하는 데 더 많은 비트를 사용하는데, 이는 고주파 대역의 정교한 스펙트럼 구조는 매우 적은 수의 여분 비트(extra bit)를 사용하거나 여분 비트를 전혀 사용하지 않고 저주파 대역으로부터 용이하게 복제된다는 것이 SBR의 기본적인 한 특성이기 때문이다. 고주파 대역 상의 스펙트럼 에너지 분포를 결정하는 고주파 대역의 스펙트럼 엔벨로프는 통상적으로 매우 한정된 수의 비트로 코딩된다. 일반적으로, 고주파 대역은 수 개의 서브대역으로 대충 분할되고, 각 서브대역의 에너지는 양자화된 다음 인코더로부터 디코더로 송신된다. 고주파 대역에 있어서 SBR로 코딩될 정보를 측면 정보라고 하는데, 고주파 대역을 위해 소모된 비트 수가 정상적인 코딩 방식보다 훨씬 더 적거나 저주파 대역 코딩보다 훨씬 덜 중요하기 때문이다.
실시예에서, 스펙트럼 평탄도 제어는 비트를 전혀 사용하지 않고 디코더에서 사용될 수 있는 포스트-프로세싱 모듈로서 실행된다. 예를 들어 포스트-프로세싱은 포스트-프로세싱 모듈을 위해 인코더로부터 전송된 정보를 전혀 사용하지 않고 디코더에서 수행될 수 있다. 이러한 실시예에서, 포스트-프로세싱 모듈은 포스트-프로세싱이 아닌 목적을 위해 초기에 전송된 이용 가능한 정보만을 디코더에서 사용하여 동작한다. 스펙트럼 평탄도 제어 모듈을 제어하기 위해 제어 플래그를 사용하는 실시예에서는, 상기 제어 플래그를 위해 인코더로부터 디코더로 송신된 정보를, SBR을 위한 측면 정보의 일부로서 볼 수 있다. 예를 들어, 스펙트럼 평탄도 제어 모듈을 온 또는 오프로 전환하거나 다른 스펙트럼 평탄도 제어 모듈을 선택하기 위해 하나의 비트를 소모할 수 있다.
도 1a-b 및 도 2a-b는 본 실시예에 따라 SBR 방식을 사용하는 인코더 및 디코더에 대한 일례이다. 이 도면들에는 스펙트럼 평탄도 제어 어플리케이션의 가능한 예시적 위치도 도시되어 있으나, 스펙트럼 평탄도 제어의 정확한 위치는 후술하는 바와 같이 상세한 인코딩/디코딩에 따라 다르다. 도 3, 도 4, 도 5 및 도 6은 실시예에 따른 시스템의 예시적인 스펙트럼을 도시한다.
도 1a는 본 실시예에 따른 필터 뱅크 인코더를 도시하고 있다. 인코더에서 원래의 오디오 신호 도는 음성 신호(101)는 먼저 필터 뱅크 분석 또는 다른 변환 방식을 사용하여 주파수 도메인으로 변환된다. 변환의 저대역 필터 뱅크 출력 계수(102)는 양자화된 다음 비트스트림 채널(103)을 통해 디코더에 전송된다. 변환으로부터 생성된 고주파 대역 출력 계수(104)가 분석되고, 고주파 대역에 대한 저비트 레이트 측면 정보가 비트스트림 채널(105)을 통해 디코더에 전송된다. 일부의 실시예에서는, 저비트 레이트 측면 정보만이 고주파 대역을 위해 전송된다.
도 1b에 도시된 본 실시예의 디코더에서, 전송 채널로부터의 비트스트림(106)을 사용하여 저주파 대역의 양자화된 필터 뱅크 계수(107)를 디코딩한다. 저대역 주파수 도메인 계수(107)는 선택적으로 포스트-프로세스되어 포스트-프로세스 계수(108)를 획득한 후, 필터 뱅크 합성과 같은 역변환을 수행한다. 고대역 신호는 SBR 기술로 디코딩되는데, 측면 정보를 사용하면 고주파 대역의 생성에 일조한다.
실시예에서, 측면 정보는 비트스트림(110)으로부터 디코딩되고, 주파수 도메인 고대역 계수(111) 또는 포스트 프로세스 고대역 계수(112)는 몇 가지 단계를 사용하여 생성된다. 이러한 단계는 적어도 2개의 기본 단계를 포함한다: 한 단계는 저대역 주파수 계수를 고대역 위치에 복제하는 것이고, 다른 단계는 수신된 측면 정보를 사용하여 상기 복제된 고대역 계수의 스펙트럼 엔벨로프를 형성하는 것이다. 일부의 실시예에서는, 스펙트럼 엔벨로프를 적용하기 전후에 스펙트럼 평탄도 제어를 고주파 대역에 적용할 수 있으며; 스펙트럼 평탄도 제어를 저대역 계수에 먼저 적용할 수도 있다. 그런 다음 이러한 포스트-프로세스 저대역 계수는 스펙트럼 평탄도 제어를 적용한 후 고대역 위치에 복제된다. 많은 실시예에서, 스펙트럼 평탄도 제어는 신호 체인(signal chain)의 다양한 위치에 놓일 수 있다. 스펙트럼 평탄도 제어의 가장 효과적인 위치는 예를 들어 디코더 구조 및 수신된 스펙트럼 엔벨로프의 정밀도에 따라 다르다. 마지막으로 고대역 계수와 저대역 계수를 함께 결합하고 시간 도메인으로 다시 역변환하여 출력 오디오 신호(109)를 획득한다.
도 2a 및 도 2b는 본 실시예의 인코더 및 디코더를 각각 도시하고 있다. 실시예에서, 저대역 신호는 임의의 코딩 방식으로 인코딩/디코딩되고 그동안 고대역 신호는 저비트 레이트 SBR 방식으로 인코딩/디코딩된다. 도 2a의 인코더에서, 저대역 인코더는 원래의 저대역 신호(201)를 분석하여 저대역 파라미터(202)를 획득하고, 그런 다음 저대역 파라미터는 양자화되어 비트스트림 채널(203)을 통해 인코더로부터 디코더로 전송된다. 고대역 신호를 포함하는 원래의 신호(204)는 필터 뱅크 분석 또는 다른 정보 도구를 사용하여 주파수 도메인으로 변환된다. 변환으로부터의 고주파 대역의 출력 계수를 분석하여 측면 파라미터(205)를 획득하고, 이 측면 파라미터가 고대역 측면 정보를 나타낸다.
일부의 실시예에서는, 고주파 대역을 위한 저비트 레이트 측면 정보만이 비트스트림 채널(206)을 통해 디코더로 전송된다. 도 2의 디코더에서, 저대역 신호(208)는 수신된 비트스트림(207)에 의해 디코딩되고, 그런 다음 저대역 신호는 필터 뱅크 분석과 같은 변환 도구를 사용하여 주파수 도메인으로 변환되어 대응하는 주파수 계수(209)를 획득한다. 일부의 실시예에서, 저대역 주파수 도메인 계수(209)는 선택적으로 포스트 프로세스되어 포스트-프로세스 계수(210)를 획득한 후, 필터 뱅크 합성과 같은 역변환으로 진행한다. 고대역 신호는 SBR 신호에 의해 디코딩되는데, 측면 변환을 사용하여 고주파 대역의 생성에 일조한다. 측면 정보는 비트스트림(211)으로부터 디코딩되어 측면 파라미터(212)를 획득한다.
일실시예에서, 저대역 주파수 계수를 고대역 위치에 복제함으로써 주파수 도메인 고대역 계수(213) 또는 포스트-프로세스 고대역 계수(214)를 생성하고, 측면 파라미터를 사용하여, 복제된 고대역 계수의 스펙트럼 엔벨로프를 형성한다. 수신된 스펙트럼 엔벨로프를 적용하기 전후에 스펙트럼 평탄도 제어를 고주파 대역에 적용할 수 있으며; 스펙트럼 평탄도 제어는 먼저 저대역 계수에 적용될 수도 있다. 다음, 이러한 포스트-프로세스 저대역 계수를 고대역 위치에 복제하기 전에 스펙트럼 평탄도 제어를 적용한다. 추가의 실시예에서는, 고대역 계수에 랜덤 노이즈를 부가한다. 마지막으로 고대역 계수와 저대역 계수를 함께 결합하고 시간 도메인으로 다시 역변환하여 출력 오디오 신호(215)를 획득한다.
도 3, 도 4, 도 5 및 도 6은 본 실시예의 스펙트럼 평탄도 제어 시스템 및 방법의 스펙트럼 성능을 도시하고 있다. 저주파 대역은 정상적인 코딩 방식을 사용하여 정상적인 비트 레이트로 인코딩/디코딩되는데, 상기 정상적인 비트 레이트는 고대역 측면 정보를 코딩하는 데 사용되는 비트 레이트보다 훨씬 높을 수 있고, 고주파 대역은 SBR 방식을 사용하여 생성된다. 고주파 대역이 저주파 대역보다 넓으면, 저주파 대역이 고주파 대역에 반복적으로 복제된 다음 스케일링되는 것도 가능하다.
도 3은 무성음화된 음성의 스펙트럼을 나타내며, [F1, F2]로부터의 스펙트럼은 [F2, F3] 및 [F3, F4]로 복제된다. 일부의 경우, 저대역(301)은 평탄하지 않지만 원래의 고대역(303)은 평탄한 경우에는, 고대역(302)을 반복적으로 복제하여 원래의 고대역(303)을 가지는 원래의 신호와 관련된 왜곡 신호를 생성할 수 있다.
도 4는 본 실시예의 평탄도 제어가 적용되는 시스템의 스펙트럼을 도시하고 있다. 도시된 바와 같이, 저대역(401)은 도 3의 저대역(301)과 유사하게 나타나 있지만, 반복적으로 복제된 고대역(204)이 원래의 고대역(403)에 훨씬 더 가깝게 나타난다.
도 5는 유성음화된 음성을 나타내는 스펙트럼을 도시하고 있으며, 원래의 고대역 영역(503)은 노이즈가 있고 평탄하며 저대역(501)은 평탄하지 않다. 그렇지만, 반복적으로 복제된 고대역(502)도 원래의 고대역((503)과 관련해서 평탄하지 않다.
도 6은 유성음화된 음성을 나타내는 스펙트럼을 도시하고 있으며 여기서는 적형적인 스펙트럼 평탄도 제어 방법이 적용되고 있다. 여기서, 저대역(601)은 저대역(501)과 동일하지만, 반복적으로 복제된 고대역(602)의 스펙트럼 형상이 원래의 고대역(603)에 훨씬 더 가깝다.
생성된 고대역 스펙트럼을 스펙트럼 평탄도 제어 포스트-프로세싱을 적용하여 더욱 평탄하게 하는 데 사용될 수 있는 시스템 및 방법은 많이 있다. 이하에서는 가능한 방법 중 일부에 대해 설명할 것이며, 그렇지만, 이하에서 명시적으로 설명하지 않은 다른 대안의 실시예도 가능하다.
일실시예에서, 고주파 대역 위치에 복제될 저대역 계수를 분석하여 스펙트럼 평탄도 제어 파라미터를 추정한다. 저대역 계수로부터 복제된 고대역 계수를 분석하여 스펙트럼 평탄도 제어 파라미터를 추정할 수도 있다. 대안으로, 다른 방법을 사용하여 스펙트럼 평탄도 제어 파라미터를 추정할 수도 있다.
실시예에서, 저대역 계수로부터 복제된 고대역 계수에 스펙트럼 평탄도 제어를 적용한다. 대안으로, 고대역 계수에 스펙트럼 평탄도 제어를 적용한 후, 측면 정보로부터 디코딩된 수신된 스펙트럼 엔벨로프를 적용하여 고주파 대역을 형성할 수도 있다. 또한, 고대역 계수에 스펙트럼 평탄도 제어를 적용하기 전에, 측면 정보로부터 디코딩된 수신된 스펙트럼 엔벨로프를 적용하여 고주파 대역을 형성할 수 있다. 대안으로, 다른 방식으로 스펙트럼 평탄도 제어를 적용할 수도 있다.
일부의 실시예에서, 스펙트럼 평탄도 제어는 다른 부류의 신호에 대해 동일한 파라미터를 가지는 반면, 다른 실시예에서 스펙트럼 평탄도 제어는 다른 부류의 신호에 대해 동일한 파라미터를 유지하지 않는다. 일부의 실시예에서, 인코더로부터의 수신된 플래그에 기초해서 및/또는 디코더에서 이용할 수 있는 신호 분류에 기초해서, 스펙트럼 평탄도 제어는 온 또는 오프로 전환된다. 스펙트럼 평탄도 제어를 온 및 오프로 전환하기 위한 기초로서 다른 조건들을 사용할 수도 있다.
일부의 실시예에서, 스펙트럼 평탄도 제어는 전환될 수 없으며, 동일한 제어 파라미터가 항상 유지된다. 다른 실시예에서, 스펙트럼 평탄도 제어는 전환되지 않는 반면 제어 파라미터를 디코더 측에서 이용할 수 있는 정보에 맞출 수 있다.
실시예에서, 스펙트럼 평탄도 제어는 일련의 방법을 사용해서 달성될 수 있다. 예를 들어, 일실시예에서, 고주파 대역 위치에 복제될 주파수 계수의 스펙트럼 엔벨로프를 평활화함으로써 스펙트럼 평탄도 제어를 달성할 수 있다. 저주파 대역으로부터 복제된 고대역 계수의 스펙트럼 엔벨로프를 평활화함으로써, 또는 수신된 스펙트럼 엔벨로프를 적용하기 전에 저주파 대역으로부터 복제된 고대역 계수의 스펙트럼 엔벨로프를 일정한 평균값에 더 가깝게 함으로써, 스펙트럼 평탄도 제어를 달성할 수도 있다. 또한, 다른 방법들을 사용할 수도 있다.
실시예에서, 스펙트럼 평탄도 개선은 다음과 같은 2가지 기본적인 단계를 사용한다: (1) SBR을 사용하는 경우, 복사된 고대역 스펙트럼이 평탄하게 되어야 하는 신호 프레임을 식별하는 방식; 및 (2) 식별된 프레임에 대해 디코더에서 고대역 스펙트럼을 평판하게 하는 저비용 방식. 일부의 실시예에서는, 모든 신호 프레임이 스펙트럼 평탄도 개선을 필요로 하는 것은 아니다. 사실, 일부의 프레임에 있어서는, 이러한 동작이 가청 왜곡을 일으킬 수도 있기 때문에 고대역 스펙트럼을 더 평탄하게 하지 않는 것이 더 나을 수도 있다. 예를 들어, 스펙트럼 평탄도 개선은 음성 신호에서는 필요할 수 있지만, 음악 신호에서는 필요하지 않을 수도 있다. 일부의 실시예에서, 스펙트럼 평탄도 개선은 원래의 고대역 스펙트럼이 노이즈형(noise-like)이거나 평탄한 음성 프레임에 적용되고, 어떠한 강력한 스펙트럼 피크도 포함하지 않는다.
이하의 실시예 알고리즘 예는 노이즈가 있고 평탄한 고대역 스펙트럼을 가지는 프레임을 식별한다. 이 알고리즘은 MPEG-4 USAC 기술에 적용될 수 있다.
이 알고리즘 예가 도 2에 기반하는 것으로 가정하고, 인코더에서 2048 디지털 프레임(수퍼프레임이라고도 함)의 긴 프레임에 있어서 필터 뱅크 분석으로부터의 필터 뱅크 복소수 계수 출력은 다음과 같다:
Figure 112013009853193-pct00001
여기서, i는 샘플링 레이트가 28800Hz인 2.22ms를 나타내는 시간 인덱스이고, k는 0 내지 14400Hz의 64개의 작은 서브대역에 있어서 225Hz 단계를 나타내는 주파수 인덱스이다.
하나의 수퍼프레임에 대한 시간-주파수 에너지 어레이는 다음과 같이 표현될 수 있다:
Figure 112013009853193-pct00002
단순화를 위해, 식 (2)에서의 에너지는 선형 도메인 내에 표현되고 공지의 식 Energy _ dB=10 log ( Engergy )를 사용하여 dB 도메인 내에 표현될 수도 있으며, 선형 도메인 내의 Energy를 dB 도메인 내의 Energy _ dB로 변환한다. 실시예에서, 하나의 수퍼프레임에 대한 평균 주파수 방향 에너지 분포는 다음과 같이 표현될 수 있다:
Figure 112013009853193-pct00003
실시예에서, Spectrum _ Shapness라는 파라미터를 추정하여 이하의 방식으로 평탄한 고대역을 검출하는 데 사용한다. Start _ HB는 저대역과 고대역 간의 경계를 규정하는 시작점이고, Spectrum _ Shapness는 고대역의 각 서브대역에 대해 평가된 수개의 스펙트럼 샤프니스 파라미터(spectrum sharpness parameter)의 평균값인 것으로 한다.
Figure 112013009853193-pct00004
이고, 여기서,
Figure 112013009853193-pct00005
이고, 여기서,
Figure 112013009853193-pct00006
이고, 여기서, Start _ HB, L_ sub, 및 K- sub는 상수이다. 일실시예에서, 예시값은 Start _ HB=30, L_ sub=3, 및 K- sub=11이다. 대안으로, 다른 값이 사용될 수도 있다.
고대역 검출에 일조하는 데 사용되는 다른 파라미터는 스펙트럼 틸트(spectrum tilt)를 나타내는 에너지 비율이다.
Figure 112013009853193-pct00007
여기서,
Figure 112013009853193-pct00008
Figure 112013009853193-pct00009
이다.
L1, L2, 및 L3는 상수이다. 일실시예에서, 이것의 예시값은 L1=8, L2=16, 및 L3=24이다. flat _ flag=1이 평탄한 고대역을 나타내고 flat _ flag=0이 비평탄 고대역을 나타내면, 평탄 표시 플래그는 초기에 flat _ flag=0으로 설정된다. 그런 다음, 각 수퍼프레임에 대한 결정이 다음과 같은 방식으로 이루어진다:
Figure 112013009853193-pct00010
여기서, THRD0, THRD1, THRD2, THRD3, 및 THRD4는 상수이다. 일실시예에서, 예시값은 THRD0=32, THRD1=0.64, THRD2=0.62, THRD3=0.72, 및 THRD4=0.70이다. 대안으로, 다른 값이 사용될 수도 있다. 일부의 실시예에서, flat _ flag가 인코더에서 결정된 후에는, 스펙트럼 평탄도 플래그를 디코더에 전송하는 데 수퍼프레임 당 1프레임만이 필요하다. 음악/음성 분류가 이미 있다면, 스펙트럼 평탄도 플래그 역시 음악/음성 결정과 동일하게 간단히 설정될 수 있다.
디코더 측에서는, 현재의 수퍼프레임에 대해 수신된 flat _ flag가 1이면 고대역 스펙트럼이 더 평탄하게 된다. 디코더에서 2048 디지털 샘플(수퍼프레임이라고도 함)의 긴 프레임에 있어서 필터-뱅크 복소수 계수가 다음과 같은 것으로 가정한다:
Figure 112013009853193-pct00011
여기서, i는 샘플링 레이트가 28800Hz인 2.22ms를 나타내는 시간 인덱스이고, k는 0 내지 14400Hz의 64개의 작은 서브대역에 대한 225Hz 단계를 나타내는 주파수 인덱스이다. 대안으로, 시간 인덱스 및 주파수 인덱스에 대해 다른 값을 사용할 수도 있다.
인코더와 마찬가지로, Start _ HB는 고대역의 시작점이고, 저대역과 고대역 간의 경계를 규정한다. 식 (9)에서 k=0 내지 k=Start _ HB -1의 저대역 계수는 비트스트림을 직접 디코딩하거나 디코딩된 저대역 신호를 주파수 도메인으로 변환함으로써 획득된다. SBR 기술을 사용하는 경우에는, 식 (9)에서 k=Start _ HB 내지 k=63의 고대역 계수는 식 (9)에서의 저대역 계수 중 일부를 고대역 위치에 복제함으로써 먼저 획득되고, 그런 다음 측면 정보로부터 디코딩된 수신된 스펙트럼 엔벨로프를 적용함으로써 포스트-프로세싱되고, 평활화되고 및/또는 형성된다. 일부의 실시예에서, 고대역 계수의 평활화 또는 평탄화는 수신된 스펙트럼 엔벨로프를 적용하기 전에 수행된다. 대안으로, 수신된 스펙트럼 엔벨로프를 적용한 후 수행될 수도 있다.
인코더와 마찬가지로, 디코더에서 하나의 수퍼프레임에 대한 시간-주파수 에너지 어레이는 다음과 같이 표현될 수 있다:
Figure 112013009853193-pct00012
고대역 계수의 평활화 또는 평탄화가 수신된 스펙트럼 엔벨로프를 적용하기 전에 수행되면, 식 (10)에서 k=Start _ HB 내지 k=63의 에너지 어레이는 수신된 스펙트럼 엔벨로프를 적용하기 전의 고대역 계수의 에너지 분포를 나타낸다. 단순화를 위해, 식 (10)에서의 에너지는 선형 도메인 내에 표현되고 공지의 식 Energy_dB=10log(Engergy)를 사용하여 dB 도메인 내에 표현될 수도 있으며, 선형 도메인 내의 Energy를 dB 도메인 내의 Energy _ dB로 변환한다. 실시예에서, 하나의 수퍼프레임에 대한 평균 주파수 방향 에너지 분포는 다음과 같이 표현될 수 있다:
Figure 112013009853193-pct00013
고대역에 대한 평균(mean) 에너지 파라미터는 다음과 같이 정의될 수 있다:
Figure 112013009853193-pct00014
고대역을 더 평탄하게 하기 위한 다음의 변형 이득(modification gain)을 추정하여 고대역 필터 뱅크 계수에 적용하며, 이 변형 이득을 평탄화(또는 평활화) 이득이라고도 칭한다.
Figure 112013009853193-pct00015
flat _ flag는 스펙트럼 평탄도 제어를 온 또는 오프로 전환하기 위한 분류 플래그이다. 이 플래그는 인코더로부터 디코더로 전송될 수 있으며, 음성/음악 분류 또는 디코더에서 이용 가능한 정보에 기반한 결정을 나타낼 수 있으며; Gain (k)는 평탄화(평활화) 이득이고; Start _ HB, End _ HB, C0C1은 상수이다. 일실시예에서, 예시값은 Start _ HB=30, End _ HB=64, C0=0.5C1=0.5이다. 대안으로, 다른 값이 사용될 수도 있다. C0C1C0+C1=1의 조건을 충족한다. 큰 C1은, 더 많은 적극적인 스펙트럼 변형이 사용되고 스펙트럼 에너지 분포는 평균 스펙트럼 에너지에 더 가깝게 되며, 이에 따라 스펙트럼이 더 평탄하게 된다는 것을 의미한다. 실시예에서, C0C1의 값 설정은 비트 레이트, 샘플링 레이트 및 고주파 대역 위치에 따라 다르다. 일부의 실시예에서, 고대역이 고주파 범위 내에 위치할 때 큰 C1이 선택될 수 있고, 작은 C1은 상대적으로 저주파 범위 내에 위치하는 고대역을 위한 것이다.
위의 예는 복제된 고대역 스펙트럼 엔벨로프를 평활화 또는 평탄화하는 여러 방법 중 하나일 뿐임을 이해해야 한다. 많은 다른 방법이 가능한데, 예를 들어, 다항 곡선 맞춤(Polynomial Curve Fitting)이라 하는 수학적 데이터 평활화 알고리즘(mathematical data smoothing algorithm)을 사용하여 평탄화(또는 평활화) 이득을 추정한다. 마지막으로 오디오/음성 디지털 신호를 출력하는 필터 뱅크 합성에 모든 저대역 계수 및 고대역 계수를 입력한다.
일부의 실시예에서는, 생성된 고주파 대역의 스펙트럼 평탄도를 제어하기 위한 포스트-프로세싱 방법이 사용된다. 스펙트럼 평탄도 제어 방법은 몇 가지 단계를 포함하는데, 저대역 신호를 얻기 위해 저대역 비트스트림을 디코딩하는 단계, 및 저대역 계수 { Sr _ dec [i][k], Si _dec[i][k]}(단, k=0,...,Start _ HB -1)를 얻기 위해 상기 저대역 신호를 주파수 도메인으로 변환하는 단계를 포함한다. 이러한 저대역 계수 중 일부는 고주파 대역 위치에 복제되어 고대역 계수 {Sr_dec[i][k],Si_dec[i][k]}(단, k=Start _ HB,...End _ HB -1)를 생성한다. 고대역 계수의 에너지 엔벨로프는 평탄화 또는 평활화 이득 {Gain(k)}을 고대역 계수에 승산함으로써 평탄화되거나 평활화된다.
실시예에서, 평탄화 또는 평활화 계수는, 저대역 계수로부터 복제된 고대역 계수 또는 고대역 계수에 복제될 저대역 계수의 에너지 분포 {F_ energy _dec[k]}를 분석하고, 검사하고, 사용하며 그리고 평탄화 또는 평활화함으로써 평가된다. 평탄화(또는 평활화) 이득을 평가하기 위한 파라미터 중 하나는 고대역 계수의 에너지 또는 복제될 저대역 계수의 에너지를 평균화함으로써 평균 에너지 값(Mean _ HB)이다. 평탄화 또는 평활화 이득은 인코더로부터 디코더로 전송된 스펙트럼 평탄도 분류(flat _ flag)에 따라, 전환될 수 있거나 가변될 수 있다. 분류는 복수의 스펙트럼 샤프니스 파라미터를 사용함으로써 인코더에서 결정되며, 각각의 스펙트럼 샤프니스 파라미터는 원래의 고주파 대역의 서브대역 j에 대해 평균 에너지 (MeanEnergy(j))를 최대 에너지 ( MaxEnergy (j))로 제산함으로써 정의된다.
실시예에서, 분류는 또한 음성/음악 결정에 기반할 수도 있다. 수신된 비트스트림으로부터 디코딩된, 수신된 스펙트럼 엔벨로프는 또한 고대역 계수를 형성하는 데에 추가로 적용될 수 있다. 마지막으로, 저대역 계수 및 고대역 계수는 시간 도메인으로 다시 역변환되어 시간 도메인 출력 음성/오디오 신호를 획득한다.
일부의 실시예에서, 고대역 계수는 대역폭 확장(Bandwidth Extension: BWE) 또는 스펙트럼 대역 복제(Spectral Band Replication: SBR) 기술에 의해 생성되며, 그런 다음 생성된 고대역 계수에 대해 스펙트럼 평탄도 제어 방법이 적용된다.
다른 실시예에서, 저대역 계수는 저대역 비트스트림으로부터 직접 디코딩되며, 그런 다음, 저대역 계수의 일부로부터 복제되는 고대역 계수에 대해 스펙트럼 평탄도 제어 방법이 적용된다.
도 7은 본 발명의 실시예에 따른 통신 시스템(710)을 도시하고 있다. 통신 시스템(710)은 통신 링크(738 및 740)를 통해 네트워크(736)에 연결된 오디오 액세스 장치(706 및 708)를 포함한다. 일실시예에서, 오디오 액세스 장치(706 및 708)는 보이스 오버 인터넷 프로토콜(voice over internet protocol: VOIP) 장치이고 네트워크(736)는 광대역 네트워크(wide area network; WAN), 공중 교환 전화망(public switched telephone network: PSTN) 및/또는 인터넷이다. 다른 실시예에서, 오디오 액세스 장치(706)는 수신 오디오 장치이고 오디오 액세스 장치(708)는 전송 오디오 장치이며, 상기 전송 오디오 장치는 브로드캐스트 품질, 고선명 오디오 데이터, 스트리밍 오디오 데이터, 및/또는 비디오 프로그래밍을 수반하는 오디오를 전송한다. 통신 링크(738 및 740)는 유선 및/또는 무선 광대역 접속이다. 대안의 실시예에서, 오디오 액세스 장치(706 및 708)는 셀룰러 또는 이동 전화기이고, 링크(738 및 740)는 무선 이동 전화 채널이며, 네트워크(736)는 이동 전화망을 나타낸다. 오디오 액세스 장치(706)는 사운드, 예를 들어 음악 또는 사람의 목소리를 아날로그 오디오 입력 신호(728)로 변환하기 위해 마이크로폰(712)을 사용한다. 마이크로폰 인터페이스(716)는 오디오 입력 신호(728)를 디지털 오디오 신호(732)로 변환하여 코덱(720)의 인코더(722)에 입력한다. 인코더(722)는 인코딩된 오디오 신호 TX를 생성하여 본 발명의 실시예에 따라 네트워크 인터페이스(726)를 통해 네트워크(726)로 전송한다. 코덱(720) 내의 디코더(724)는 네트워크 인터페이스(726)를 통해 네트워크(736)로부터 인코딩된 오디오 신호 RX를 수신하고, 인코딩된 오디오 신호 RX를 디지털 오디오 신호(734)로 변환한다. 스피커 인터페이스(718)는 디지털 오디오 신호(734)를 라우드스피커(714)를 구동하기에 적절한 오디오 신호(730)로 변환한다.
오디오 액세스 장치(706)가 VOIP 장치인 본 발명의 실시예에서, 오디오 액세스 장치(706) 내의 구성요소 중 일부 또는 전부는 핸드셋 내에 구현될 수 있다. 그렇지만, 일부의 실시예에서는, 마이크로폰(712) 및 라우드스피커(714)는 별도의 유닛이며, 마이크로폰 인터페이스(716), 스피커 인터페이스(718), 코덱(720) 및 네트워크 인터페이스(726)는 퍼스널 컴퓨터 내에 구현된다. 코덱(720)은 컴퓨터 또는 전용의 프로세서에서 운용되는 소프트웨어로 구현될 수 있거나, 또는 예를 들어 주문형 반도체(application specific integrated circuit: ASIC) 상의 전용의 하드웨어에 의해 구현될 수 있다. 마이크로폰 인터페이스(716)는 핸드셋 내에 및/또는 컴퓨터 내에 설치된 아날로그/디지털(A/D) 컨버터뿐만 아니라, 다른 인터페이스 회로에 의해 구현된다. 마찬가지로, 스피커 인터페이스(718)는 핸드셋 내에 및/또는 컴퓨터 내에 설치된 디지털/아날로그 컨버터 및 다른 인터페이스 회로에 의해 구현된다. 추가의 실시예에서, 오디오 액세스 장치(706)는 당기술분야의 다른 방법으로 구현되거나 분할된다.
오디오 액세스 장치(706)가 셀룰러 또는 이동 전화기인 본 발명의 실시예에서, 오디오 액세스 장치(706) 내의 요소들은 셀룰러 핸드셋 내에 구현된다. 코덱(720)은 핸드셋 내의 프로세서에서 운용되는 소프트웨어 또는 전용의 하드웨어에 의해 구현된다. 본 발명의 추가의 실시예에서, 오디오 액세스 장치는 예를 들어 인터콤과 같은 피어-투-피어 무선 및 무선 디지털 통신 시스템이나, 무선 핸드셋과 같은 다른 장치에 구현될 수 있다. 컨슈머 오디오 장치와 같은 어플리케이션에서, 오디오 액세스 장치는 인코더(722) 또는 디코더(724)만이 예를 들어 디지털 마이크로폰 시스템이나 음악 재생 장치 내에 있는 코덱을 포함할 수 있다. 본 발명의 다른 실시예에서, 코덱(720)은 예를 들어 PSTN에 액세스하는 셀룰러 기지국에서 마이크로폰(712) 및 스피커(714) 없이 사용될 수 있다.
도 8은 본 발명의 방법을 실행하는 데 활용될 수 있는 프로세싱 시스템(800)을 도시하고 있다. 이 경우, 마이크로프로세서, 디지털 신호 프로세서 또는 임의의 다른 적절한 프로세스 장치일 수 있는 프로세서(802)에서 주요 프로세스가 수행된다. 일부의 실시예에서, 프로세서(802)는 복수의 프로세서를 사용해서 구현될 수 있다. 프로그램 코드(예를 들어, 전술한 알고리즘을 실행하는 코드) 및 데이터는 메모리(804)에 저장될 수 있다. 메모리(8404)는 DRAM과 같은 로컬 메모리이거나, 하드 드라이브와 같은 대용량 저장 장치일 수 있고, 광학 장치 또는 (로컬 또는 원격으로 연결될 수 있는) 그외의 저장 장치일 수 있다. 메모리를 단일 블록으로 해서 기능적으로 도시하고 있으나, 하나 이상의 하드웨어 블록을 사용하여 이러한 기능을 실행할 수 있다.
일실시예에서, 프로세서(802)는 도 1a-b 및 도 2a-b에 도시된 유닛 중 여러 유닛(또는 모든 유닛)을 실행하는 데 사용될 수 있다. 예를 들어, 프로세서는 본 발명의 기술을 수행하는 데 포함되는 하위작업을 다른 시간대에서 실행하기 위해 특정한 기능 유닛의 역할을 할 수 있다. 대안으로, (예를 들어, 프로세서와 동일하거나 다른) 다른 하드웨어 블록을 사용하여 다른 기능을 수행할 수 있다. 다른 실시예에서는, 프로세서(802)가 일부의 하위작업을 수행하는 동안 별도의 회로를 사용하여 다른 작업을 수행한다.
도 8은 또한 I/O 포트(806)를 도시하고 있으며, 이것은 오디오 및/또는 비트스트림 데이터를 프로세서에 제공하거나 프로세서로부터 수신하는 데 사용될 수 있다. 오디오 소스(808)(데스티네이션은 명시적으로 도시되어 있지 않음)는 시스템의 필수 부품은 아니다는 것을 나타내기 위해 쇄선으로 도시되어 있다. 예를 들어, 오디오 소스는 인터넷과 같은 네트워크에 의해 또는 로컬 인터페이스(예를 들어, USB 또는 LAN 인터페이스)에 의해 시스템에 연결될 수 있다.
실시예는 저비용이면서 저비트 레이트로 그 수신된 사운드의 주관적인 품질을 향상시키는 이점이 있다.
실시예 및 그 이점을 상세히 설명하였으나, 첨부된 청구의 범위에 의해 규정된 바와 같이 본 발명의 정신 및 범주를 벗어남이 없이 본 명세서에서 다양한 변경, 대체 및 대안이 이루어질 수 있음은 물론이다.
또한, 본 출원의 범주는 명세서에서 언급된 프로세스, 기계, 제조품, 조성물, 수단, 방법 및 단계에 대해 특정한 실시예로 제한하려는 것이 아니다.
당업자는 본 발명의 상세한 설명으로부터, 여기에 설명된 대응하는 실시예가 본 발명에 따라 활용될 수 있을 때 실질적으로 동일한 기능을 수행하거나 실질적으로 동일한 결과를 달성하는, 현재 존재하거나 후에 개발될, 프로세스, 기계, 제조품, 조성물, 수단, 방법 및 단계를 용이하게 이해할 수 있을 것이다. 따라서, 첨부된 청구의 범위는 이러한 프로세스, 기계, 제조품, 조성물, 수단, 방법 및 단계를 그 범주 내에 포함하도록 의도된다.

Claims (24)

  1. 인코딩된 오디오 비트스트림을 디코더에서 디코딩하는 디코딩 방법에 있어서,
    저대역 비트스트림을 포함하는 상기 오디오 비트스트림을 수신하는 단계;
    상기 저대역 비트스트림을 디코딩하여 주파수 도메인 내의 저대역 계수를 획득하는 단계;
    복수의 상기 저대역 계수를 고주파 대역 위치에 복제하여 고대역 계수를 생성하는 단계;
    상기 고대역 계수를 프로세스하여 프로세스된 고대역 계수를 형성하는 단계; 및
    상기 저대역 계수와 상기 프로세스된 고대역 계수를 시간 도메인으로 역변환하여 시간 도메인 출력 신호를 획득하는 단계
    를 포함하며,
    상기 고대역 계수를 프로세스하여 프로세스된 고대역 계수를 형성하는 단계는,
    상기 고대역 계수의 에너지 엔벨로프(energy envelope)를 변형하는 단계로서, 상기 고대역 계수를 평탄화 또는 평활화하기 위해 변형 이득(modification gain)을 승산하는 단계를 포함하는 상기 에너지 엔벨로프를 변형하는 단계; 및
    상기 고대역 계수에 수신된 스펙트럼 엔벨로프를 적용하는 단계로서, 상기 수신된 스펙트럼 엔벨로프는 상기 수신된 오디오 비트스트림으로부터 디코딩되는, 상기 고대역 계수에 수신된 스펙트럼 엔벨로프를 적용하는 단계
    를 포함하는, 디코딩 방법.
  2. 제1항에 있어서,
    상기 수신된 비트스트림은 고대역 측면 비트스트림(high-band side bitstream)을 포함하며,
    상기 디코딩 방법은,
    상기 고대역 측면 비트스트림을 디코딩하여 측면 정보를 획득하는 단계; 및
    상기 측면 정보를 가진 고대역을 생성하기 위해 스펙트럼 대역 복제(Spectral Band Replication: SBR) 기술을 사용하는 단계
    를 더 포함하는 디코딩 방법.
  3. 제1항에 있어서,
    상기 변형 이득을 평가하는 단계
    를 더 포함하며,
    상기 변형 이득을 평가하는 단계는,
    상기 저대역 계수로부터 복제된 상기 고대역 계수를 분석하고 변형하는 단계 또는 상기 고대역 위치에 복제될 상기 저대역 계수의 에너지 분포를 분석하고 변형하는 단계
    를 포함하는, 디코딩 방법.
  4. 제3항에 있어서,
    상기 변형 이득을 평가하는 단계는,
    상기 고대역 계수의 에너지를 평균화함으로써 획득된 평균 에너지 값을 사용하는 단계
    를 포함하는, 디코딩 방법.
  5. 제3항에 있어서,
    상기 변형 이득을 평가하는 단계는,
    Figure 112013009853193-pct00016

    을 평가하는 단계
    를 포함하며,
    단, { Gain (k), k= Start _ HB ,..., End _ HB -1}는 변형 이득이고, F_ energy _ dec [k]는 복제된 고대역의 각각의 주파수 위치 인덱스 k에서의 에너지 분포이고, Start_HBEnd _ HB는 고대역 범위를 규정하고, C0+C1=1을 만족하는 C0C1은 미리 정한 상수이며, Mean _ HB는 상기 고대역 계수의 에너지를 평균화함으로써 획득된 평균 에너지 값인, 디코딩 방법.
  6. 제3항에 있어서,
    상기 변형 이득은 인코더로부터 상기 디코더에 의해 수신된 스펙트럼 평탄도 분류에 따라 전환될 수 있거나 가변될 수 있는, 디코딩 방법.
  7. 제6항에 있어서,
    상기 스펙트럼 평탄도 분류는 복수의 스펙트럼 샤프니스 파라미터(spectrum sharpness parameter)에 기반하여 결정되는 단계
    를 더 포함하며,
    상기 복수의 스펙트럼 샤프니스 파라미터 각각은 원래의 고주파 대역의 서브대역에 대해 평균 에너지를 최대 에너지로 제산함으로써 규정되는, 디코딩 방법.
  8. 제6항에 있어서,
    상기 스펙트럼 평탄도 분류는 음성/음악 결정에 기반하는, 디코딩 방법.
  9. 제1항에 있어서,
    상기 저대역 비트스트림을 디코딩하여 주파수 도메인 내의 저대역 계수를 획득하는 단계는,
    상기 저대역 비트스트림을 디코딩하여 저대역 신호를 획득하는 단계; 및
    상기 저대역 신호를 상기 주파수 도메인으로 변환하여 상기 저대역 계수를 획득하는 단계
    를 포함하는, 디코딩 방법.
  10. 제1항에 있어서,
    상기 에너지 엔벨로프를 변형하는 단계는 상기 에너지 엔벨로프를 평탄화 또는 평활화하는 단계를 포함하는, 디코딩 방법.
  11. 디코더에서 디코딩된 음성/오디오 신호를 생성하고 생성된 고주파 대역의 스펙트럼 평탄도를 향상시키는 포스트 프로세싱 방법에 있어서,
    대역폭 확장(Bandwidth Extension: BWE) 고대역 계수 생성 방법을 사용하여, 주파수 도메인 내의 저대역 계수로부터 고대역 계수를 생성하는 단계;
    상기 고대역 계수에 평탄화 또는 평활화 이득을 승산함으로써 상기 고대역 계수의 에너지 엔벨로프를 평탄화 또는 평활화하는 단계;
    BWE 형성 및 결정 방법을 사용하여 상기 고대역 계수의 에너지를 형성 및 결정하는 단계; 및
    상기 저대역 계수 및 상기 고대역 계수를 시간 도메인으로 역변환하여 시간도메인 출력 음성/오디오 신호를 획득하는 단계
    를 포함하는 포스트 프로세싱 방법.
  12. 제11항에 있어서,
    평탄화 또는 평활화 이득을 평가하는 단계
    를 더 포함하며,
    상기 평탄화 또는 평활화 이득을 평가하는 단계는,
    상기 고대역 계수 또는 고대역 위치에 복제될 상기 저대역 계수를 분석하고, 검사하고, 사용하며 그리고 평탄화 또는 평활화하는 단계
    를 포함하는, 포스트 프로세싱 방법.
  13. 제12항에 있어서,
    상기 평탄화 또는 평활화 이득을 평가하는 단계는,
    상기 고대역 계수의 에너지를 평균화함으로써 획득된 평균 에너지 값을 사용하는 단계
    를 포함하는, 포스트 프로세싱 방법.
  14. 제12항에 있어서,
    상기 평탄화 또는 평활화 이득은 인코더로부터 상기 디코더로 전송된 스펙트럼 평탄도 분류에 따라 전환될 수 있거나 가변될 수 있는, 포스트 프로세싱 방법.
  15. 제14항에 있어서,
    상기 스펙트럼 평탄도 분류는 음성/음악 결정에 기반하는, 포스트 프로세싱 방법.
  16. 제11항에 있어서,
    상기 BWE 고대역 계수 생성 방법은 스펙트럼 대역 복제(Spectral Band Replication: SBR) 고대역 계수 생성 방법을 포함하며,
    상기 BWE 형성 및 결정 방법은 SBR 형성 및 결정 방법을 포함하는, 포스트 프로세싱 방법.
  17. 인코딩된 오디오 신호를 수신하는 시스템에 있어서,
    저대역 블록의 출력단에서 상기 인코딩된 오디오 신호의 저대역 부분을 주파수 도메인 저대역 계수로 변환하도록 구성되어 있는 상기 저대역 블록;
    상기 저대역 블록의 출력단에 결합되어 있고, 복수의 상기 저대역 계수를 고주파 대역 위치에 복제함으로써 고대역 블록의 출력단에서 고대역 블록 계수를 생성하도록 구성되어 있는 상기 고대역 블록;
    상기 고대역 블록의 출력단에 결합되어 있고, 엔벨로프 형성 블록의 출력단에서 형성된 고대역 계수를 생성하도록 구성되어 있는 상기 엔벨로프 형성 블록; 및
    상기 엔벨로프 형성 블록의 출력단 및 상기 저대역 블록의 출력단에 결합되어 있고, 시간 도메인 오디오 출력 신호를 생성하도록 구성되어 있는 역변환 블록
    을 포함하며,
    상기 엔벨로프 형성 블록은,
    변형 이득을 승산함으로써 상기 고대역 계수의 에너지 엔벨로프를 변형하여 상기 고대역 계수를 평탄화 또는 평활화하며,
    상기 인코딩된 오디오 신호로부터 디코딩된 수신된 스펙트럼 엔벨로프를 상기 고대역 계수에 적용하도록 구성되어 있는, 시스템.
  18. 제17항에 있어서,
    상기 인코딩된 오디오 신호의 고대역 측면 비트스트림으로부터 상기 수신된 스펙트럼 엔벨로프를 생성하도록 구성되어 있는 고대역 측면 비트스트림 디코더 블록을 더 포함하는 시스템.
  19. 제17항에 있어서,
    상기 저대역 블록은,
    상기 인코딩된 오디오 신호의 저대역 비트스트림을 저대역 디코더 블록의 출력단에서 디코딩된 저대역 신호로 디코딩하도록 구성되어 있는 상기 저대역 디코더 블록; 및
    상기 저대역 디코더 블록의 출력단에 결합되어 있고, 상기 디코딩된 저대역 신호로부터 상기 주파수 도메인 저대역 계수를 생성하도록 구성되어 있는 시간/주파수 필터 뱅크 분석기
    를 포함하는, 시스템.
  20. 제17항에 있어서,
    상기 엔벨로프 형성 블록은 상기 저대역 블록에 추가로 결합되어 있고,
    상기 엔벨로프 형성 블록은 상기 고대역 계수 또는 고대역 위치에 복제될 상기 저대역 계수를 분석하고, 검사하고, 사용하고, 변형함으로써 상기 변형 이득을 평가하도록 추가로 구성되어 있는, 시스템.
  21. 제20항에 있어서,
    상기 엔벨로프 형성 블록은 상기 고대역 계수의 에너지를 평균화함으로써 획득된 평균 에너지 값을 사용하여 상기 변형 이득을 평가하는, 시스템.
  22. 제17항에 있어서,
    상기 출력 오디오 신호는 라우드스피커에 결합하도록 구성되어 있는, 시스템.
  23. 실행 가능한 프로그램이 저장되어 있는 비일시적인 컴퓨터가 판독 가능한 매체에 있어서,
    상기 프로그램은,
    입력 오디오 신호의 부호화 표현(coded representation)을 포함하는 인코딩된 오디오 신호를 디코딩하여 디코딩된 오디오 신호를 생성하는 단계; 및
    스펙트럼 대역폭 확장을 위해 스펙트럼 평탄도 제어로 상기 디코딩된 오디오 신호를 포스트 프로세싱하는 단계
    를 수행하도록 프로세서에 명령하며,
    상기 디코딩된 오디오 신호를 포스트 프로세싱하는 단계는,
    고대역 계수에 평탄화 또는 평활화 이득을 승산함으로써 상기 디코딩된 오디오 신호의 고대역 계수의 에너지 엔벨로프를 평탄화 또는 평활화하는 단계; 및
    BWE 형성 및 결정 방법을 사용하여 상기 고대역 계수의 에너지를 형성 및 결정하는 단계
    를 더 포함하는, 비일시적인 컴퓨터가 판독 가능한 매체.
  24. 삭제
KR1020137002805A 2010-07-19 2011-07-19 대역폭 확장을 위한 스펙트럼 평탄도 제어 KR101428608B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US36545610P 2010-07-19 2010-07-19
US61/365,456 2010-07-19
US13/185,163 2011-07-18
US13/185,163 US9047875B2 (en) 2010-07-19 2011-07-18 Spectrum flatness control for bandwidth extension
PCT/US2011/044519 WO2012012414A1 (en) 2010-07-19 2011-07-19 Spectrum flatness control for bandwidth extension

Publications (2)

Publication Number Publication Date
KR20130025963A KR20130025963A (ko) 2013-03-12
KR101428608B1 true KR101428608B1 (ko) 2014-08-08

Family

ID=45467633

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137002805A KR101428608B1 (ko) 2010-07-19 2011-07-19 대역폭 확장을 위한 스펙트럼 평탄도 제어

Country Status (9)

Country Link
US (2) US9047875B2 (ko)
EP (2) EP3291232A1 (ko)
JP (2) JP5662573B2 (ko)
KR (1) KR101428608B1 (ko)
CN (1) CN103026408B (ko)
AU (1) AU2011282276C1 (ko)
BR (1) BR112013001224B8 (ko)
ES (1) ES2644231T3 (ko)
WO (1) WO2012012414A1 (ko)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
PL4016527T3 (pl) 2010-07-19 2023-05-22 Dolby International Ab Przetwarzanie sygnałów audio podczas rekonstrukcji wysokich częstotliwości
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9300812B2 (en) * 2011-04-15 2016-03-29 Nokia Technologies Oy Method and apparatus for spectrum use
JP6037156B2 (ja) 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
JP5975243B2 (ja) * 2011-08-24 2016-08-23 ソニー株式会社 符号化装置および方法、並びにプログラム
WO2013042884A1 (ko) * 2011-09-19 2013-03-28 엘지전자 주식회사 영상 부호화/복호화 방법 및 그 장치
EP2774145B1 (en) * 2011-11-03 2020-06-17 VoiceAge EVS LLC Improving non-speech content for low rate celp decoder
CN110706715B (zh) 2012-03-29 2022-05-24 华为技术有限公司 信号编码和解码的方法和设备
KR101897455B1 (ko) * 2012-04-16 2018-10-04 삼성전자주식회사 음질 향상 장치 및 방법
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
RU2625561C2 (ru) * 2013-01-29 2017-07-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип для компенсации переключения режима кодирования
MY172161A (en) * 2013-01-29 2019-11-15 Fraunhofer Ges Forschung Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
CN105247614B (zh) 2013-04-05 2019-04-05 杜比国际公司 音频编码器和解码器
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
KR20170124590A (ko) * 2013-06-21 2017-11-10 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
ES2901806T3 (es) 2013-12-02 2022-03-23 Huawei Tech Co Ltd Método y aparato de codificación
JP6593173B2 (ja) 2013-12-27 2019-10-23 ソニー株式会社 復号化装置および方法、並びにプログラム
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
KR102121642B1 (ko) * 2014-03-31 2020-06-10 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
CN106409303B (zh) * 2014-04-29 2019-09-20 华为技术有限公司 处理信号的方法及设备
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN105336339B (zh) * 2014-06-03 2019-05-03 华为技术有限公司 一种语音频信号的处理方法和装置
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN107004422B (zh) * 2014-11-27 2020-08-25 日本电信电话株式会社 编码装置、解码装置、它们的方法及程序
EP3230976B1 (en) * 2014-12-11 2021-02-24 Uberchord UG (haftungsbeschränkt) Method and installation for processing a sequence of signals for polyphonic note recognition
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
BR112017024480A2 (pt) 2016-02-17 2018-07-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. pós-processador, pré-processador, codificador de áudio, decodificador de áudio e métodos relacionados para aprimoramento do processamento transiente
EP3453187B1 (en) 2016-05-25 2020-05-13 Huawei Technologies Co., Ltd. Audio signal processing stage, audio signal processing apparatus and audio signal processing method
CN106202730B (zh) * 2016-07-11 2019-09-24 广东工业大学 一种基于能量包络线的运动规划过程定位精度判断方法
JP6439843B2 (ja) * 2017-09-14 2018-12-19 ソニー株式会社 信号処理装置および方法、並びにプログラム
EP3769484B1 (en) * 2018-03-19 2022-05-04 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses of signaling spectrum flatness configuration
CN108630212B (zh) * 2018-04-03 2021-05-07 湖南商学院 非盲带宽扩展中高频激励信号的感知重建方法与装置
US11562759B2 (en) 2018-04-25 2023-01-24 Dolby International Ab Integration of high frequency reconstruction techniques with reduced post-processing delay
MA52530A (fr) * 2018-04-25 2021-03-03 Dolby Int Ab Intégration de techniques de reconstruction audio haute fréquence
WO2019213965A1 (zh) * 2018-05-11 2019-11-14 华为技术有限公司 语音信号的处理方法和移动设备
CN111210832B (zh) * 2018-11-22 2024-06-04 广州广晟数码技术有限公司 基于频谱包络模板的带宽扩展音频编解码方法及装置
JP6693551B1 (ja) * 2018-11-30 2020-05-13 株式会社ソシオネクスト 信号処理装置および信号処理方法
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN115148217B (zh) * 2022-06-15 2024-07-09 腾讯科技(深圳)有限公司 音频处理方法、装置、电子设备、存储介质及程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100063802A1 (en) 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive Frequency Prediction

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10006A (en) * 1853-09-06 Improvement in printer s ink
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
CA2453814C (en) 2002-07-19 2010-03-09 Nec Corporation Audio decoding apparatus and decoding method and program
WO2004084181A2 (en) 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Simple noise suppression model
EP1719117A1 (en) 2004-02-16 2006-11-08 Koninklijke Philips Electronics N.V. A transcoder and method of transcoding therefore
WO2005112001A1 (ja) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
KR20070085788A (ko) * 2004-11-05 2007-08-27 코닌클리케 필립스 일렉트로닉스 엔.브이. 신호 속성들을 사용한 효율적인 오디오 코딩
CN101213590B (zh) 2005-06-29 2011-09-21 松下电器产业株式会社 可扩展解码装置及丢失数据插值方法
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
EP1926083A4 (en) 2005-09-30 2011-01-26 Panasonic Corp AUDIOCODING DEVICE AND AUDIOCODING METHOD
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US8326638B2 (en) * 2005-11-04 2012-12-04 Nokia Corporation Audio compression
JP4736812B2 (ja) * 2006-01-13 2011-07-27 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
WO2007083934A1 (en) * 2006-01-18 2007-07-26 Lg Electronics Inc. Apparatus and method for encoding and decoding signal
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
JP2008076847A (ja) * 2006-09-22 2008-04-03 Matsushita Electric Ind Co Ltd 復号器及び信号処理システム
JP2008096567A (ja) 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
WO2008108701A1 (en) * 2007-03-02 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Postfilter for layered codecs
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
JP5326311B2 (ja) * 2008-03-19 2013-10-30 沖電気工業株式会社 音声帯域拡張装置、方法及びプログラム、並びに、音声通信装置
EP2255534B1 (en) * 2008-03-20 2017-12-20 Samsung Electronics Co., Ltd. Apparatus and method for encoding using bandwidth extension in portable terminal
JP5010743B2 (ja) * 2008-07-11 2012-08-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
JP5203077B2 (ja) * 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
WO2010028301A1 (en) 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8352279B2 (en) 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
US8380498B2 (en) 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US8463603B2 (en) 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
US9037474B2 (en) 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8407046B2 (en) 2008-09-06 2013-03-26 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8532998B2 (en) 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
WO2010031049A1 (en) 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
CN101770775B (zh) * 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
US8391212B2 (en) 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
US8718804B2 (en) 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
JP5298245B2 (ja) * 2009-12-16 2013-09-25 ドルビー インターナショナル アーベー Sbrビットストリームパラメータダウンミックス
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
US8793126B2 (en) * 2010-04-14 2014-07-29 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100063802A1 (en) 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive Frequency Prediction

Also Published As

Publication number Publication date
EP3291232A1 (en) 2018-03-07
CN103026408A (zh) 2013-04-03
KR20130025963A (ko) 2013-03-12
AU2011282276B2 (en) 2014-08-28
CN103026408B (zh) 2015-01-28
ES2644231T3 (es) 2017-11-28
JP5662573B2 (ja) 2015-02-04
US20150255073A1 (en) 2015-09-10
BR112013001224A2 (pt) 2016-06-07
EP2583277A1 (en) 2013-04-24
JP6044035B2 (ja) 2016-12-14
US10339938B2 (en) 2019-07-02
JP2015092254A (ja) 2015-05-14
WO2012012414A1 (en) 2012-01-26
EP2583277B1 (en) 2017-09-06
AU2011282276A1 (en) 2013-03-07
AU2011282276C1 (en) 2014-12-18
JP2013531281A (ja) 2013-08-01
EP2583277A4 (en) 2015-03-11
BR112013001224B1 (pt) 2022-03-22
US20120016667A1 (en) 2012-01-19
US9047875B2 (en) 2015-06-02
BR112013001224B8 (pt) 2022-05-03

Similar Documents

Publication Publication Date Title
KR101428608B1 (ko) 대역폭 확장을 위한 스펙트럼 평탄도 제어
JP6673957B2 (ja) 帯域幅拡張のための高周波数符号化/復号化方法及びその装置
US8560330B2 (en) Energy envelope perceptual correction for high band coding
US10217470B2 (en) Bandwidth extension system and approach
CN103069484B (zh) 时/频二维后处理
US9646616B2 (en) System and method for audio coding and decoding
KR20160018497A (ko) 음향 신호의 대역폭 확장을 행하는 장치 및 방법
US20210035591A1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
KR20090029904A (ko) 모바일 기기에서 지각적 오디오 코딩 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170720

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180719

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190718

Year of fee payment: 6