KR101341246B1 - 수정된 이산 코사인 변환 오디오 코더에 대한 대역폭 확장 방법 및 장치 - Google Patents

수정된 이산 코사인 변환 오디오 코더에 대한 대역폭 확장 방법 및 장치 Download PDF

Info

Publication number
KR101341246B1
KR101341246B1 KR1020117018182A KR20117018182A KR101341246B1 KR 101341246 B1 KR101341246 B1 KR 101341246B1 KR 1020117018182 A KR1020117018182 A KR 1020117018182A KR 20117018182 A KR20117018182 A KR 20117018182A KR 101341246 B1 KR101341246 B1 KR 101341246B1
Authority
KR
South Korea
Prior art keywords
frequency band
band
adjacent frequency
spectrum
transition
Prior art date
Application number
KR1020117018182A
Other languages
English (en)
Other versions
KR20110111463A (ko
Inventor
텐카시 라마바드란
마크 자시우크
Original Assignee
모토로라 모빌리티 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티 엘엘씨 filed Critical 모토로라 모빌리티 엘엘씨
Publication of KR20110111463A publication Critical patent/KR20110111463A/ko
Application granted granted Critical
Publication of KR101341246B1 publication Critical patent/KR101341246B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

본 방법은 제1 주파수 대역 내의 스펙트럼을 갖는 신호에 대한 전이 대역을 정의하는 단계를 포함하며, 여기서 상기 전이 대역은 상기 제 1 주파수 대역의 일부분으로서 정의되며, 상기 제 1 주파수 대역에 인접한 인접 주파수 대역 근처에 위치한다. 상기 방법은 전이 대역 스펙트럼 엔벨로프 및 전이 대역 여기 스펙트럼을 획득하기 위하여 상기 전이 대역을 분석하는 단계; 인접 주파수 대역 스펙트럼 엔벨로프를 추정하는 단계; 상기 신호의 피치 주파수에 의하여 결정되는 반복 주기를 갖는, 상기 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 인접 주파수 대역 여기 스펙트럼을 생성하는 단계; 및 인접 주파수 대역 신호 스펙트럼을 획득하기 위하여 상기 인접 주파수 대역 스펙트럼 엔벨로프 및 상기 인접 주파수 대역 여기 스펙트럼을 결합하는 단계를 포함한다. 방법을 수행하기 위한 신호 처리 로직이 또한 개시된다.

Description

수정된 이산 코사인 변환 오디오 코더에 대한 대역폭 확장 방법 및 장치{BANDWIDTH EXTENSION METHOD AND APPARATUS FOR A MODIFIED DISCRETE COSINE TRANSFORM AUDIO CODER}
관련 출원들에 대한 상호 참조
본 개시내용은 "METHOD AND APPARATUS TO FACILITATE PROVISION AND USE OF AN ENERGY VALUE TO DETERMINE A SPECTRAL ENVELOPE SHAPE FOR OUT-OF-SIGNAL BANDWIDTH CONTENT" 라는 명칭으로 2007년 11월 29일에 출원된 미국 특허 출원번호 제11/946,978호(Attorney Docket No.: CML04909EV); "METHOD AND APPARATUS FOR ESTIMATING HIGH-BAND ENERGY IN A BANDWIDTH EXTENSION SYSTEM" 이라는 명칭으로 2008년 2월 1일에 출원된 미국 특허 출원번호 제12/024,620호(Attorney Docket No.: CML04911EV); 및 "METHOD AND APPARATUS FOR ESTIMATING HIGH-BAND ENERGY IN A BANDWIDTH EXTENSION SYSTEM" 이라는 명칭으로 2008년 2월 7일에 출원된 미국 특허 출원번호 제12/027,571호(Attorney Docket No: CML06672AUD)와 관련되며, 이들 출원 모두는 여기에 참조로서 통합된다.
본 개시내용의 분야
본 개시내용은 오디오 코더들 및 가청 콘텐츠를 렌더링하는 것에 관한 것이며, 특히 오디오 코더들에 대한 대역폭 확장 기술들에 관한 것이다.
모바일 전화들을 통한 전화 스피치(speech)는 보통 단지 가청 사운드 스펙트럼의 일부분만을, 예컨대 300 내지 3400 Hz 오디오 스펙트럼 내의 협대역 스피치를 활용하였다. 보통의 스피치와 비교하여, 이러한 협대역 스피치는 저하된(muffled) 품질 및 감소된 음성 이해도(intelligibility)를 가진다. 따라서, "대역폭 확장(bandwidth extension)" 또는 "BWE"로서 지칭되는 스피치 코더들의 출력에 대한 대역폭을 확장하기 위한 다양한 방법들이, 코더 출력의 인지 사운드 품질을 인위적으로 개선시키기 위하여 적용될 수 있다.
비록 BWE 방식들이 파라메트릭(parametric) 또는 비파라메트릭(non-parametric)일 수 있을지라도, 대부분의 공지된 BWE 방식들은 파라메트릭적이다. 파라미터들은 스피치 신호가 성도(vocal tract)에 의하여 청각적으로 필터링된 여기 소스 신호(excitation source signal)로서 고려되는 스피치 생성의 소스-필터 모델로부터 발생한다. 성도는, 필터 계수들을 계산하기 위한 all-pole 필터, 예컨대 선형 예측(LP: linear prediction) 기술들을 사용하여 모델링될 수 있다. LP 계수들은 스피치 스펙트럼 엔벨로프 정보를 효율적으로 파라미터화(parameterize)한다. 다른 파라메트릭 방법들은 스피치 스펙트럼 엔벨로프를 모델링하기 위하여 라인 스펙트럼 주파수(LSF: line spectral frequency)들, 멜-주파수 켑스트랄 계수(MFCC: mel-frequency cepstral coefficient)들 및 로그-스펙트럼 엔벨로프 샘플(LES:log-spectral envelope sample)들을 활용한다.
많은 현재의 스피치/오디오 코더들은 입력 신호의 수정된 이산 코사인 변환(MDCT) 표현을 활용하며, 따라서 MDCT 기반 스피치/오디오 코더들에 적용될 수 있는 BWE 방법들이 필요하다.
도 1은 고주파수 대역 신호 스펙트럼을 추정하기 위하여 실시예들에서 사용되는 고주파수 대역 근처에서 전이 대역을 갖는 오디오 신호의 다이어그램이다.
도 2는 실시예들에 따른 코더의 기본 동작에 대한 흐름도이다.
도 3은 실시예들에 따른 코더의 동작에 대한 추가 세부내용들을 도시한 흐름도이다.
도 4는 실시예들에 따라 코더를 사용하는 통신 디바이스의 블록 다이어그램이다.
도 5는 실시예들에 따른 코더의 블록 다이어그램이다.
도 6은 일 실시예에 따른 코더의 블록 다이어그램이다.
본 개시내용은 코더의 대역폭 확장을 위한 방법을 제공하는데, 상기 방법은 제1 주파수 대역 내의 스펙트럼을 갖는 신호에 대한 전이 대역을 정의하는 단계를 포함하며, 여기서 전이 대역은 제1 주파수 대역의 부분으로서 정의되며, 제1 주파수 대역에 인접한 인접 주파수 대역 근처에 위치한다. 상기 방법은 전이 대역 스펙트럼 엔벨로프 및 전이 대역 여기 스펙트럼을 획득하기 위하여 전이 대역을 분석하며; 인접 주파수 대역 스펙트럼 엔벨로프를 추정하며; 신호의 피치(pitch) 주파수에 의하여 결정되는 반복 주파수를 가진, 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 인접 주파수 대역 여기 스펙트럼을 생성하며; 그리고 인접 주파수 대역 신호 스펙트럼을 획득하기 위하여 인접 주파수 대역 스펙트럼 엔벨로프 및 인접 주파수 대역 여기 스펙트럼을 결합한다. 방법을 수행하기 위한 신호 처리 로직이 또한 개시된다.
실시예들에 따르면, 대역폭 확장은 7 내지 14 kHz와 같은 한 주파수 대역을 모델링하는 MDCT 계수들을 예측하기 위하여 4 내지 7 kHz와 같은 다른 주파수 대역을 모델링하는 스피치 또는 오디오 코더에 의하여 생성되는 적어도 양자화된 MDCT 계수들을 사용하여 구현될 수 있다.
동일한 도면부호들이 동일한 컴포넌트들을 나타내는 도면들을 지금 참조하면, 도 1은 0 내지 Y kHz 범위의 가청 스펙트럼(102)에 걸친 오디오 신호(101)를 나타내는 그래프(100)이며, 이 그래프(100)는 일정한 비율로 도시되어 있지 않다. 신호(101)는 낮은 대역 부분(104), 및 낮은 대역 스피치의 부분으로서 재생되지 않는 높은 대역 부분(105)을 가진다. 실시예들에 따르면, 전이 대역(103)은 높은 대역 부분(105)을 추정하기 위하여 선택되어 활용된다. 입력 신호는 다양한 방식들로 획득될 수 있다. 예컨대, 신호(101)는 통신 시스템의 디지털 무선 채널을 통해 이동국으로 전송되어 수신된 스피치일 수 있다. 신호(101)는 또한 메모리로부터, 예컨대 오디오 재생 디바이스내에서 저장된 오디오 파일로부터 획득될 수 있다.
도 2는 실시예들에 따른 코더의 기본 동작을 예시한다. 단계(201)에서, 전이 대역(103)은 신호(101)의 제1 주파수 대역(104) 내에서 정의(define)된다. 전이 대역(103)은 제1 주파수 대역의 일부분으로서 정의되며, 인접 주파수 대역(예컨대 높은 대역 부분(105)) 근처에 위치한다. 단계(203)에서 전이 대역(103)은 전이 대역 스펙트럼 데이터를 획득하기 위하여 분석되며, 단계(205)에서 인접 주파수 대역 신호 스펙트럼은 전이 대역 스펙트럼 데이터를 사용하여 생성된다.
도 3은 일 실시예에 대한 동작의 추가 세부내용들을 예시한다. 단계(301)에서, 전이 대역은 단계(201)와 유사하게 정의된다. 단계(303)에서, 전이 대역은 전이 대역 여기 스펙트럼 및 전이 대역 스펙트럼 엔벨로프를 포함하는 전이 대역 스펙트럼 데이터를 획득하기 위하여 분석된다. 단계(305)에서는 인접 주파수 대역 스펙트럼 엔벨로프가 추정된다. 다음으로, 인접 주파수 대역 여기 스펙트럼은 입력 신호의 피치(pitch) 주파수에 의하여 결정되는 반복 주파수를 가진, 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 단계(307)에 도시된 바와같이 생성된다. 단계(309)에서 제시된 바와 같이, 인접 주파수 대역 스펙트럼 엔벨로프 및 인접 주파수 대역 여기 스펙트럼은 인접 주파수 대역에 대한 신호 스펙트럼을 획득하기 위하여 결합될 수 있다.
도 4는 실시예들에 따른 전자 디바이스(400)의 컴포넌트들을 예시한 블록 다이어그램이다. 전자 디바이스는 이동국, 랩탑 컴퓨터, 개인휴대단말(PDA), 라디오, 오디오 플레이어(예컨대, MP3 플레이어), 또는 유선 전송을 통하던지 또는 무선 전송을 통하던지 간에 오디오 신호를 수신하고 여기에 개시된 실시예들의 방법들 및 장치들을 사용하여 오디오 신호를 디코딩할 수 있는 임의의 다른 적절한 디바이스일 수 있다. 전자 디바이스(400)는 실시예들에 따라 신호 처리 로직(405)에 오디오 신호가 제공되는 입력 부분(403)을 포함할 것이다.
도 4 뿐만 아니라 도 5 및 도 6은, 여기에 개시된 실시예들을 실시하고 사용하는데 필요한 로직을 당업자에게 예시하기 위한 목적으로 단지 예시적으로 도시한다는 것이 이해되어야 한다. 따라서, 여기에 도시된 도면들은 예컨대 전자 디바이스를 구현하는데 필요한 모든 컴포넌트들의 완전한 도식적인 다이어그램들인 것으로 의도되지 않으며, 오히려 단지 여기에서 기술된 실시예들을 실시하고 사용하는 방법을 당업자에게 이해시키는데 필요한 것만을 도시한다. 따라서, 로직의 다양한 어레인지먼트(arrangement)들, 및 도시된 임의의 내부 컴포넌트들, 및 이들간의 임의의 대응 커넥티비티(connectivity)가 활용될 수 있고, 이러한 어레인지먼트들 및 대응 커넥티비티는 여전히 여기에 개시된 실시예들을 따른다는 것이 또한 이해되어야 한다.
여기에서 사용되는 "로직"이라는 용어는 하나 이상의 프로그램가능 프로세서들, ASIC들, DSP들, 하드와이어드 로직(hardwired logic) 또는 이들의 조합들 상에서 실행되는 소프트웨어 및/또는 펌웨어를 포함한다. 따라서, 실시예들에 따르면, 예컨대 신호 처리 로직(405)을 포함하는 임의의 기술된 로직은 임의의 적절한 방식으로 구현될 수 있으며, 여전히 여기에 개시된 실시예들을 따를 것이다.
전자 디바이스(400)는 수신기, 또는 트랜시버, 프론트 엔드 부분(401) 및 신호를 수신하기 위한 임의의 필수 안테나 또는 안테나들을 포함할 수 있다. 따라서, 수신기(401) 및/또는 입력 로직(403)은 신호 처리 로직(405)에 의하여 추가로 처리하기에 적합한 적절한 오디오 신호들을 신호 처리 로직(405)에 제공하기 위한 모든 필수 로직을 개별적으로 또는 조합하여 포함할 것이다. 신호 처리 로직(405)은 또한 일부 실시예들에서 코드북(codebook) 또는 코드북들(407) 및 룩업 테이블들(lookup tables)(409)을 포함할 수 있다. 룩업 테이블들(409)은 스펙트럼 엔벨로프 룩업 테이블들일 수 있다.
도 5는 신호 처리 로직(405)의 추가 세부내용들을 제공한다. 신호 처리 로직(405)은 오디오 신호의 높은 대역 부분을 나타내는 MDCT 계수들의 세트를 결정하는 추정 및 제어 로직(500)을 포함한다. 역(inverse)-MDCT, 즉 IMDCT(501)은 대역폭 확장 오디오 신호를 획득하기 위하여 합산 연산부(505)를 통해 오디오 신호(503)의 낮은 대역 부분과 결합되는 시간-도메인(time-domain)으로 신호를 변환하기 위하여 사용된다. 다음으로, 대역폭 확장 오디오 신호는 오디오 출력 로직(도시되지 않음)에 출력된다.
일부 실시예들의 추가 세부내용들은, 비록 예시된 일부 로직이 모든 실시예들에서 제시되지 않을 수 있고 필요하지 않을 수 있을지라도 도 6에 의하여 예시된다. 예시적인 목적으로, 이하에서는 낮은 대역이 50 Hz 내지 7kHz의 범위(보통 광대역 스피치/오디오 스펙트럼으로서 지칭됨)를 커버(cover)하는 것으로 고려되며, 높은 대역은 7kHz 내지 14kHz의 범위를 커버하는 것으로 고려된다. 낮은 및 높은 대역들의 조합, 즉 50 Hz 내지 14 kHz의 범위는 보통 수퍼-광대역 스피치/오디오 스펙트럼으로서 지칭된다. 명확하게, 낮은 및 높은 대역들에 대한 다른 선택들이 가능하며 여전히 실시예들을 따를 것이다. 또한, 예시적인 목적으로, 베이스라인(baseline) 코더의 부분인 입력 블록(403)은 이하의 신호들, 즉 i) 디코딩된 광대역 스피치/오디오 신호 swb, ii) 적어도 전이 대역에 대응하는 MDCT 계수들, 및 iii) 피치 주파수(606) 또는 대응 피치 주기/지연을 제공하기 위하여 도시된다. 일부 실시예들에서, 입력 블록(403)은 단지 디코딩된 광대역 스피치/오디오 신호만을 제공할 수 있으며, 이 경우에 다른 신호들은 디코더에서 입력 블록으로부터 유도될 수 있다. 도 6에 예시된 바와 같이, 입력 블록(403)으로부터, 양자화된 MDCT 계수들의 세트가 전이 대역을 나타내기 위하여 단계(601)에서 선택된다. 예컨대, 4 내지 7 kHz의 주파수 대역은 전이 대역으로서 활용될 수 있으나, 다른 스펙트럼 부분들이 사용될 수 있으며 여전히 실시예들을 따를 것이다.
다음으로, 선택된 전이 대역 MDCT 계수들은, MDCT 계수들의 추정된 세트를 생성하여 예컨대 7-14 kHz의 인접 대역의 신호 콘텐츠를 특정(specify)하기 위하여 디코딩된 광대역 스피치/오디오(예컨대 7kHz 까지)로부터 계산된 선택된 파라미터들과 함께 사용된다. 따라서, 선택된 전이 대역 MDCT 계수들은 전이 대역 분석 로직(603) 및 전이 대역 에너지 추정기(615)에 제공된다. 전이 대역을 나타내는 양자화된 MDCT 계수들의 에너지는 전이 대역 에너지 추정기 로직(615)에 의하여 계산된다. 전이 대역 에너지 추정기 로직(615)의 출력은 에너지 값이며, 비록 디코딩된 광대역 스피치/오디오 신호의 전이 대역의 에너지와 동일하지 않을지라도 이 에너지와 밀접하게 관련된다.
단계(615)에서 결정된 에너지 값은, 인접 대역, 예컨대 7-14 kHz의 주파수 대역을 모델링하는 MDCT 계수들의 에너지를 계산하는 비-선형 에너지 예측기인 높은 대역 에너지 예측기(611)에 입력된다. 일부 실시예들에서, 높은 대역 에너지 예측기(611) 성능을 개선하기 위하여, 높은 대역 에너지 예측기(611)는 전이 대역 형태(shape) 추정기(609)에 의하여 결정되는 전이 대역 스펙트럼 부분의 스펙트럼 엔벨로프 형태와 관련하여 영 교차(zero crossing)들 계산기(619)에 의하여 계산되는, 디코딩된 스피치로부터의 영 교차들을 사용할 수 있다. 영 교차 값 및 전이 대역 형태에 따르면, 상이한 비-선형 예측기들이 사용되어 예측기 성능이 강화된다. 예측기들을 설계할 때, 큰 트레이닝 데이터베이스(large training database)는 먼저 영 교차 값 및 전이 대역 형태에 기반하여 다수의 파티션(partition)들로 분할되며, 이렇게 생성된 파티션들 각각에 대하여 개별 예측기 계수들이 계산된다.
더 상세히, 영 교차들 계산기(619)의 출력은 프레임 영 교차들을 양자화하는 8-레벨 스케일러(scalar) 양자화기를 사용하여 양자화될 수 있으며, 마찬가지로 전이 대역 형태 추정기(609)는 스펙트럼 엔벨로프 형태를 분류하는 8-형태 스펙트럼 엔벨로프 벡터 양자화기(VQ)일 수 있다. 따라서, 대부분의 64개(즉, 8x8) 비선형 예측기들에서의 각각의 프레임이 제공되며, 선택된 파티션에 대응하는 예측기는 그 프레임에 사용된다. 대부분의 실시예들에서는 64개보다 적은 수의 예측기들이 사용되는데 이는 64개의 파티션들의 일부가 자신들의 내포물(inclusion)을 보장하기 위하여 트레이닝 데이터베이스로부터 충분한 수의 프레임들을 할당받지 못하기 때문이며, 그로 인하여 상기 파티션들은 근접 파티션들과 병합될 수 있다. 낮은 에너지 프레임들에 걸쳐 트레이닝되는(trained) 개별 에너지 예측기(도시 안됨)는 실시예들에 따라 이러한 낮은-에너지 프레임들에 대하여 사용될 수 있다.
전이 대역(4-7 kHz)에 대응하는 스펙트럼 엔벨로프를 계산하기 위하여, 그 대역 내의 신호를 나타내는 MDCT 계수들은 우선 절대-값 오퍼레이터(operator)에 의하여 블록(603)에서 처리된다. 다음으로, 0 값인 처리된 MDCT 계수들이 식별되며, 제로-아웃된(zeroed-out) 크기들은 선형 보간 오퍼레이터를 적용하기 전에 (예컨대, 5의 인자 만큼) 축소된(scaled down) 바운딩(bounding)한 영이 아닌 값의 MDCT 크기들 간의 선형 보간을 통해 획득된 값들에 의하여 대체된다. 앞서 기술된 0 값인 MDCT 계수들의 소거는 MDCT 크기 스펙트럼의 동적 범위를 감소시키며, 수정된 MDCT 계수들로부터 계산된 스펙트럼 엔벨로프의 모델링 효율성을 개선시킨다.
다음으로, 수정된 MDCT 계수들은 20*log10(x) 오퍼레이터(도시안됨)를 통해 dB 도메인으로 변환된다. 7 내지 8 kHz의 대역에서, dB 스펙트럼은 4-7 kHz 주파수 대역에 대하여 계산될 스펙트럼 엔벨로프의 동적 범위를 추가로 감소시키기 위하여, 7 kHz에 대응하는 주파수 인덱스에 대한 스펙트럼 폴딩(spectral folding)에 의하여 획득된다. 다음으로, 역 이산 푸리에 변환(IDFT)은 첫번째 8개의 (의사(pseudo-)) 켑스트랄 계수들을 계산하기 위하여 4-8 kHz 주파수 대역에 대하여 구성된 dB 스펙트럼에 적용된다. 그 다음에, dB 스펙트럼 엔벨로프는 켑스트랄 계수들에 대하여 이산 푸리에 변환(DFT) 연산을 수행함으로써 계산된다.
결과적인 전이 대역 MDCT 스펙트럼 엔벨로프는 2가지 방식으로 사용된다. 첫번째, 이는 전이 대역 스펙트럼 엔벨로프 벡터 양자화기, 즉 입력 스펙트럼 엔벨로프에 가장 근접한 사전 저장된 스펙트럼 엔벨로프의 인덱스(8개 중 하나)를 리턴(return)하는 전이 대역 형태 추정기(609)에 대한 입력을 형성한다. 이 인덱스는 디코딩된 스피치로부터 계산된 영 교차들의 스케일러 양자화기에 의하여 리턴된 인덱스(8개 중 하나)와 함께 위에서 상세히 기술된 바와 같이 대부분의 64개의 비선형 에너지 예측기들 중 하나를 선택하기 위하여 사용된다. 둘째, 계산된 스펙트럼 엔벨로프는 전이 대역 MDCT 계수들의 스펙트럼 엔벨로프를 평탄화(flatten)하기 위하여 사용된다. 이것이 수행될 수 있는 한 방식은 각각의 전이 대역 MDCT 계수를 이에 대응하는 스펙트럼 엔벨로프 값으로 나누는 것이다. 평탄화는 또한 로그 도메인에서 구현될 수 있으며, 이 경우에 나눗셈 연산은 감산 연산에 의하여 대체된다. 후자의 구현에서, MDCT 계수 부호들(또는 극성들)은, 로그 도메인으로의 전환이 양의 값 입력들을 필요로 하기 때문에 나중의 복원을 위하여 저장된다. 실시예들에서, 평탄화는 로그 도메인에서 구현된다.
다음으로, 블록(603)에 의하여 출력되는 평탄화된 전이-대역 MDCT 계수들(전이 대역 MDCT 여기 스펙트럼을 나타냄)은 7-14 kHz로부터의 대역 내의 여기 신호를 모델링하는 MDCT 계수들을 생성하기 위하여 사용된다. 일 실시예에서, 전이 대역에 대응하는 MDCT 인덱스들의 범위는, 초기 MDCT 인덱스가 32 kHz 샘플링에서 0 및 20 ms 프레임 크기라고 가정할때, 160 내지 279일 수 있다. 평탄화된 전이-대역 MDCT 계수들이 주어질때, 7-14 kHz 대역에 대응하는 인덱스들 280 내지 559에 대한 여기를 나타내는 MDCT 계수들은 이하의 매핑을 사용하여 생성된다.
Figure 112011060090247-pct00001
주어진 프레임에 대한 주파수 지연 D의 값은, 코어 코덱 전송된 정보의 부분인 20 ms 프레임의 마지막 서브프레임에 대한 장기간 예측기(LTP: long term predictor) 지연의 값으로부터 계산된다. 이와 같이 디코딩된 LTP 지연으로부터, 프레임에 대한 추정된 피치 주파수 값이 계산되며, 이러한 피치 주파수 값의 가장 큰 정수 배수가 식별되며, 120 보다 작거나 또는 동일한 대응하는 정수 주파수 지연 값 D(MDCT 인덱스 도메인에서 정의됨)가 산출된다. 이러한 방식은 평탄화된 전이-대역 MDCT 정보의 재사용을 보장하여 4-7 kHz 대역의 MDCT 계수들 및 7-14 kHz 대역에 대하여 추정된 MDCT 계수들 간의 고조파(harmonic) 관계를 보존한다. 대안적으로, 백색 잡음 시퀀스 입력으로부터 계산된 MDCT 계수들은 7-14 kHz로부터의 대역 내의 평탄화된 MDCT 계수들의 추정치를 형성하기 위하여 사용될 수 있다. 어느 방식으로도, 7-14 kHz 대역의 여기 정보를 나타내는 MDCT 계수들의 추정치는 높은 대역 여기 생성기(605)에 의하여 형성된다.
비-선형 에너지 예측기에 의하여 출력되는 7-14 kHz로부터의 대역의 MDCT 계수들의 예측된 에너지 값은, 아티팩트(artifact)들을 최소화하고 대역폭 확장 출력 스피치의 품질을 향상시키기 위하여 디코딩된 광대역 신호 특징들에 기반하여 에너지 적응기 로직(617)에 의하여 적응될 수 있다. 이러한 목적을 위하여, 에너지 적응기(617)는, 예측된 높은 대역 에너지 값 외에, 이하의 입력들, 즉 i) 높은 대역 에너지 예측기(611)로부터의 예측 에러의 표준 편차 σ, ii) 보이싱(voicing) 레벨 추정기(621)로부터의 보이싱 레벨 υ, iii) 온세트(onset)/파열음(plosive) 검출기(623)의 출력 d, 및 iv) 정상-상태/전이 검출기(625)의 출력 ss를 수신한다.
7-14 kHz로부터의 대역 내의 MDCT 계수들의 예측된 그리고 적응된 에너지 값이 주어질때, 그 에너지 값과 일치하는 스펙트럼 엔벨로프는 코드북(407)으로부터 선택된다. 이와 같이 7-14 kHz 대역의 MDCT 계수들을 특징 지우며 그 대역 내의 에너지 값들에 따라 분류되는 스펙트럼 엔벨로프들을 모델링하는 스펙트럼 엔벨로프들의 코드북은 오프-라인(off-line)으로 트레이닝된다. 예측된 그리고 적응된 에너지 값에 가장 근접한 에너지 클래스(energy class)에 대응하는 엔벨로프는 높은 대역 엔벨로프 선택기(613)에 의하여 선택된다.
선택된 스펙트럼 엔벨로프는 높은 대역 엔벨로프 선택기(613)에 의하여 높은 대역 MDCT 생성기(607)에 제공되며, 다음으로 7-14 kHz로부터의 대역 내의 평탄화된 여기를 모델링하는 MDCT 계수들을 셰이핑(shape)하기 위하여 적용된다. 다음으로, 높은 대역 MDCT 스펙트럼을 나타내는 7-14 kHz 대역에 대응하는 셰이핑된 MDCT 계수들은, 7-14 kHz 대역의 콘텐츠를 갖는 시간 도메인 신호를 형성하기 위하여 역 수정된 코사인 변환(IMDCT)(501)에 적용된다. 다음으로, 이러한 신호는 14 kHz 까지의 정보를 포함하는 대역폭 확장 신호를 형성하기 위하여 7 kHz까지의 콘텐츠를 갖는 디코딩된 광대역 신호, 즉 낮은 대역 부분(503)과 예컨대 합산 연산기(505)에 의하여 결합된다.
한 방식에 의하면, 전술한 예측된 그리고 적응된 에너지 값은 복수의 대응하는 후보 스펙트럼 엔벨로프 형태들을 포함하는 룩-업 테이블(409)에 액세스하는 것을 용이하게 하기 위하여 사용될 수 있다. 이러한 방식을 지원하기 위하여, 이러한 장치는 또한 필요한 경우에 신호 처리 로직(405)에 동작가능하게 연결되는 하나 이상의 룩-업 테이블들(409)을 포함할 수 있다. 이와 같이 구성되면, 신호 처리 로직(405)은 적절하게 룩-업 테이블들(409)에 용이하게 액세스할 수 있다.
앞서 논의된 신호 처리가 기지국과 무선 통신하는 이동국에 의하여 수행될 수 있다는 것이 이해되어야 한다. 예컨대, 기지국은 광대역 또는 협대역 디지털 오디오 신호를 종래의 수단을 통해 이동국에 전송할 수 있다. 일단 수신되면, 이동국 내의 신호 처리 로직은, 이동국의 사용자가 명확하게 들을 수 있고 또한 청취하기에 더 만족스런 디지털 오디오 신호의 대역폭 확장 버전을 생성하기 위한 필수 연산들을 수행한다.
부가적으로, 일부 실시예들에서, 보이싱 레벨 추정기(621)는 높은 대역 여기 생성기(605)와 함께 사용될 수 있다. 예컨대, 무성음(unvoiced speech)을 표시하는 0의 보이싱 레벨은 잡음 여기의 사용을 결정하기 위하여 사용될 수 있다. 유사하게, 유성음(voiced speech)을 표시하는 1의 보이싱 레벨은 앞서 기술된 바와 같이 전이 대역 여기로부터 도출되는 높은 대역 여기의 사용을 결정하기 위하여 사용될 수 있다. 혼합된 성음(mixed-voiced speech)을 표시하는 0 내지 1 사이에 보이싱 레벨이 있을때, 다양한 여기들은 보이싱 레벨에 의하여 결정되어 사용되는 적절한 비율로 혼합될 수 있다. 잡음 여기는 의사 랜덤 잡음 함수일 수 있으며, 앞서 기술된 바와 같이 보이싱 레벨에 기반한, 스펙트럼의 필링(filling) 또는 패칭(patching) 홀(hole)들로서 고려될 수 있다. 따라서, 혼합된 높은 대역 여기는 유성음, 무성음 및 혼합된 성음에 적합하다.
도 6은 전이 대역 MDCT 계수 선택기 로직(601), 전이 대역 분석 로직(603), 높은 대역 여기 생성기(605), 높은 대역 MDCT 계수 생성기(607), 전이 대역 형태 추정기(609), 높은 대역 에너지 예측기(611), 높은 대역 엔벨로프 선택기(613), 전이 대역 에너지 추정기(615), 에너지 적응기(617), 영 교차 계산기(619), 보이싱 레벨 추정기(621), 온세트/파열음 검출기(623) 및 SS/전이 검출기(625)를 포함하는 추정 및 제어 로직(500)을 도시한다.
입력(403)은 디코딩된 광대역 스피치/오디오 신호 swb, 적어도 전이 대역에 대응하는 MDCT 계수들, 및 각각의 프레임에 대한 피치 주파수(또는 지연)를 제공한다. 전이 대역 MDCT 선택기 로직(601)은 베이스라인 코더의 부분이며, 전이 대역 분석 로직(603) 및 전이 대역 에너지 추정기(615)에 전이 대역에 대한 MDCT 계수들의 세트를 제공한다.
보이싱 레벨 추정: 보이싱 레벨을 추정하기 위하여, 영 교차 계산기(619)는 다음과 같이 광대역 스피치 swb의 각각의 프레임에서 영 교차들 zc의 수를 계산할 수 있다.
Figure 112011060090247-pct00002
여기서
Figure 112011060090247-pct00003
여기서, n은 샘플 인덱스이며, N은 샘플들에서 프레임 크기이다. 추정 및 제어 로직(500)에서 사용되는 프레임 크기 및 퍼센트 오버랩(percent overlap)은 베이스라인 코더에 의하여 결정되며, 예컨대 32 kHz 샘플링 주파수에서 N=640이며 50% 오버랩으로 결정된다. 앞서 계산된 zc 파라미터의 값은 0 내지 1의 범위를 가진다. zc 파라미터로부터, 보이싱 레벨 추정기(621)는 다음과 같이 보이싱 레벨 υ을 추정할 수 있다.
Figure 112011060090247-pct00004
여기서, ZClow 및 ZChigh는 적절하게 선택된 낮은 그리고 높은 임계치들을 각각 나타내며, 예컨대, ZClow = 0.125 이고 그리고 ZChigh = 0.30 이다.
높은 대역 에너지를 추정하기 위하여, 전이 대역 에너지 추정기(615)는 전이 대역 MDCT 계수들로부터 전이-대역 에너지를 추정한다. 전이-대역은 광대역 내에 포함되며 높은 대역에 근접한 주파수 대역으로서 여기에서 정의되며, 즉, 높은 대역(예시적인 예에서 약 7000-14,000 Hz인)으로의 전이로서 사용된다. 전이-대역 에너지 Etb를 계산하기 위한 한 방식은 전이-대역 내에서 스펙트럼 컴포넌트들, 즉 MDCT 계수들의 에너지들을 합산하는 것이다.
dB(데시벨)의 전이-대역 에너지 Etb로부터, dB의 높은 대역 에너지 Ehb0는 다음과 같이 추정된다.
Figure 112011060090247-pct00005
여기서, 계수들 α 및 β는 트레이닝 스피치/오디오 데이터베이스로부터의 많은 수의 프레임들에 걸친 높은 대역 에너지의 실제 그리고 추정된 값들 간의 평균 자승 에러(mean squared error)를 최소화하도록 선택된다.
추정의 정확성은 전이-대역 형태 추정기(609)에 의하여 제공될 수 있는 전이-대역 스펙트럼 형태 및 영 교차 파라미터 zc와 같은 추가 스피치 파라미터들로부터의 상황 정보(contextual Information)를 이용함으로써 추가로 향상될 수 있다. 초기에 논의된 영 교차 파라미터는 스피치 보이싱 레벨을 표시한다. 전이 대역 형태 추정기(609)는 전이 대역 엔벨로프 형태의 고해상도 표현을 제공한다. 예컨대, 전이 대역 스펙트럼 엔벨로프 형태들(dB)의 벡터 양자화된 표현이 사용될 수 있다. 벡터 양자화기(VQ) 코드북은 큰 트레이닝 데이터베이스로부터 계산되는 전이 대역 스펙트럼 엔벨로프 형태 파라미터들 tbs로 지칭되는 8개의 형태들로 구성된다. 대응하는 zc-tbs 파라미터 평면(plane)은 개선된 성능을 달성하기 위하여 zc 및 tbs 파라미터들을 사용하여 형성될 수 있다. 초기에 논의된 바와 같이, zc-tbs 평면은 8개의 tbs 형태들 및 zc의 8개의 스케일러 양자화된 레벨들에 대응하는 64 개의 파티션들로 분할된다. 파티션들의 일부는 트레이닝 데이터베이스로부터의 충분한 데이터 포인트들이 부족한 근접 파티션들과 병합될 수 있다. zc-tbs 평면의 나머지 파티션들의 각각에 대하여, 개별 예측기 계수들이 계산된다.
높은 대역 에너지 예측기(611)는 예컨대 다음과 같은 Ehb0를 추정할때 Etb의 더 높은 멱수(power)들을 사용함으로써 추정의 정확성을 추가로 개선시킬 수 있다.
Figure 112011060090247-pct00006
이러한 경우에, 5개의 상이한 계수들, 즉 α4, α3, α2, α1 및 β는 zc-tbs 파라미터 평면의 각각의 파티션에 대하여 선택된다. Ehb0를 추정하기 위한 앞의 수식들이 비선형이기 때문에, 입력 신호 레벨, 즉 에너지가 변할 때 추정된 높은 대역 에너지를 조정하는데 있어서 특별한 주의가 기울어져야 한다. 이를 달성하기 위한 한 방식은 입력 신호 레벨(dB)을 추정하는 것, 공칭 신호 레벨에 대응하게 Etb를 상향 또는 하향 조정하는 것, Ehb0을 추정하는 것, 그리고 실제 신호 레벨에 대응하게 Ehb0을 상향 또는 하향 조정하는 것이다.
높은 대역 에너지의 추정은 에러들이 유발되기 쉽다. 과대-추정(over-estimation)은 아티팩트들을 유발하기 때문에, 추정된 높은 대역 에너지는 Ehb0의 추정 에러의 표준 편차에 비례하는 양 만큼 낮게 바이어스된다. 즉, 높은 대역 에너지는 다음과 같이 에너지 적응기(617)에서 적응된다.
Figure 112011060090247-pct00007
여기서, Ehb1은 dB의 적응된 높은 대역 에너지이며, Ehb0은 dB의 추정된 높은 대역 에너지이며,
Figure 112011060090247-pct00008
는 비례 인자이며, σ은 dB의 추정 에러의 표준 편차이다. 따라서, 추정된 높은 대역 에너지 레벨을 결정한 후에, 추정된 높은 대역 에너지 레벨은 추정된 높은 대역 에너지의 추정 정확도에 기반하여 수정된다. 도 6을 참조하면, 높은 대역 에너지 예측기(611)는 높은 대역 에너지 레벨의 추정에서 비신뢰성(unreliability)의 측정치를 추가적으로 결정하며, 에너지 적응기(617)는 비신뢰성의 측정치에 비례하는 양(amount) 만큼 낮게 추정된 높은 대역 에너지 레벨을 바이어싱한다. 일 실시예에서, 비신뢰성의 측정치는 추정된 높은 대역 에너지 레벨에서 에러의 표준 편차 σ를 포함한다. 비신뢰성의 다른 측정치들은 또한 실시예들의 범위로부터 벗어나지 않고 사용될 수 있다.
추정된 높은 대역 에너지를 "바이어싱 다운(biasing down)"함으로써, 에너지 과대-추정의 확률(또는 발생 횟수)은 감소되며 결과적으로 아티팩트들의 수를 감소시킨다. 또한, 추정된 높은 대역 에너지가 감소되는 양은, 추정이 얼마나 양호한지에 비례하며, 즉 더 신뢰성 있는(즉, 낮은 σ 값) 추정치는 덜 신뢰성 있는 추정치보다 더 작은 양만큼 감소된다. 높은 대역 에너지 예측기(611)를 설계하는 동안, zc-tbs 파라미터 평면의 각각의 파티션에 대응하는 σ 값은 트레이닝 스피치 데이터베이스로부터 계산되며 추정된 높은 대역 에너지를 "바이어싱 다운"할 때의 추후의 사용을 위하여 저장된다. zc-tbs 파라미터 평면의 (<=64개의) 파티션들의 σ 값은 예컨대 약 5.9 dB의 평균값과 함께 약 4dB 내지 8dB의 범위를 가진다. 이러한 높은 대역 에너지 예측기에 대하여 λ의 적절한 값은 예컨대 1.2이다.
종래의 방식에 있어서, 높은 대역 에너지의 과대 추정은, 높은 대역 에너지 추정기(611)의 설계시에 과소-추정된(under-estimated) 에러들 보다 과대-추정된 에러들에 대하여 더 벌칙을 적용(penalize)하는 비대칭 비용(cost) 함수를 사용함으로써 처리된다. 종래의 방식과 비교할 때, 여기에서 기술된 "바이어스 다운" 방식은 다음과 같은 장점들, 즉 (A) 높은 대역 에너지 예측기(611)의 설계는 그것이 표준 대칭 "자승 에러" 비용 함수에 기반하기 때문에 더 단순하다는 장점, (B) "바이어스 다운"은 (설계 단계 동안 묵시적으로(implicitly)으로 수행되는 것이 아니라) 동작 단계 동안 명시적으로(explicitly) 수행되며 따라서 "바이어스 다운"의 양은 원하는대로 용이하게 제어될 수 있다는 장점, 및 (C) 추정의 신뢰성에 대한 "바이어스 다운"의 양의 의존도는 (설계 단계 동안 사용되는 특정 비용 함수에 따라 묵시적인 대신에) 명시적이어서 간단하다는 장점을 가진다.
에너지 과대-추정으로 인한 아티팩트들을 감소시키는 것 외에, 앞서 기술된 "바이어스 다운" 방식은 유성음 프레임(voiced frame)들에 대한 추가 장점, 즉 높은 대역 스펙트럼 엔벨로프 형태 추정의 임의의 에러들을 마스킹하여 결과적인 "시끄러운" 아티팩트들을 감소시키는 장점을 가진다. 그러나, 무성음 프레임(unvoiced frame)들에 있어서, 만일 추정된 높은 대역 에너지의 감소가 너무 크면, 대역폭 확장 출력 스피치는 더 이상 초광대역 스피치와 같이 소리나지 않는다. 이와 반대로, 추정된 높은 대역 에너지는 또한, 다음과 같이 보이싱 레벨에 따라 에너지 적응기(617)에서 적응된다.
Figure 112011060090247-pct00009
여기서, Ehb2는 dB의 보이싱-레벨 적응된 높은 대역 에너지이며,
Figure 112011060090247-pct00010
는 무성음에 대한 0으로부터 유성음에 대한 1까지의 범위를 가진 보이싱 레벨이며,
Figure 112011060090247-pct00011
Figure 112011060090247-pct00012
는 dB에서 상수들이다.
Figure 112011060090247-pct00013
Figure 112011060090247-pct00014
의 선택은 "바이어스 다운"을 위하여 사용되는 λ의 값에 의존하며, 최상의 사운딩 출력 스피치를 도출하기 위하여 실험적으로 결정된다. 예컨대, λ가 1.2로서 선택될때,
Figure 112011060090247-pct00015
Figure 112011060090247-pct00016
는 각각 3.0 및 -3.0으로서 선택될 수 있다. λ의 값에 대한 다른 선택들이
Figure 112011060090247-pct00017
Figure 112011060090247-pct00018
에 대한 상이한 선택을 야기할 수 있는 것에 유의해야 하며, 즉
Figure 112011060090247-pct00019
Figure 112011060090247-pct00020
의 값들은 모두 양이거나 또는 음일 수 있고 반대 부호를 가질 수 있다는 것에 유의해야 한다. 무성음에 대한 증가된 에너지 레벨은 광대역 입력과 비교하여 대역폭 확장 출력에서 그러한 스피치를 강조하며, 또한 이러한 무성음 세그먼트들에 대하여 더 적절한 스펙트럼 엔벨로프 형태를 선택하는데 도움을 준다.
도 6을 참조하면, 보이싱 레벨 추정기(621)는 보이싱 레벨에 기반하여 추정된 높은 대역 에너지 레벨을 추가로 수정함으로써 광대역 신호 특징들에 기반하여 추정된 높은 대역 에너지 레벨을 추가로 수정하는 에너지 적응기(617)에 보이싱 레벨을 출력한다. 추가 수정은 실질적인 유성음에 대하여 높은 대역 에너지 레벨을 감소시키고 그리고/또는 실질적인 무성음에 대하여 높은 대역 에너지 레벨을 증가시키는 것을 포함한다.
높은 대역 에너지 예측기(611) 및 이 다음에 위치하는 에너지 적응기(617)는 대부분의 프레임들에 대하여 아주 잘 동작하는데 반해, 경우에 따라 높은 대역 에너지가 극도로(grossly) 과소 또는 과대 추정되는 프레임들이 존재한다. 따라서, 일부 실시예들은 이러한 추정 에러들을 위하여 제공될 수 있으며, 적어도 부분적으로 평활 필터(smoothing filter)를 포함하는 에너지 트랙 평활 로직(도시안됨)을 사용하여 이들을 정정할 수 있다. 따라서, 광대역 신호 특징들에 기반하여 추정된 높은 대역 에너지 레벨을 수정하는 단계는 (추정치의 표준 편차 σ 및 보이싱 레벨 υ에 기반하여 앞서 기술된 바와 같이 사전에 수정된) 추정된 높은 대역 에너지 레벨을 평활하게 하여 본질적으로 연속 프레임들 간의 에너지 차이를 감소시키는 단계를 포함할 수 있다.
예컨대, 보이싱 레벨 적응된 높은 대역 에너지 Ehb2는 다음과 같이 3-포인트 평균화 필터를 사용하여 평활하게 될 수 있다.
Figure 112011060090247-pct00021
여기서, Ehb3는 평활화된 추정치이며, k는 프레임 인덱스이다. 평활화는 특히 추정치가 아웃라이어(outlier)일 때, 즉 프레임의 높은 대역 에너지 추정치가 인접 프레임들의 추정치들과 비교하여 너무 높거나 또는 너무 낮을때 연속 프레임들 간의 에너지 차이를 감소시킨다. 따라서, 평활화는 출력 대역폭 확장 스피치에서 아티팩트들의 수를 감소시키는데 도움을 준다. 3-포인트 평균화 필터는 하나의 프레임의 지연을 발생시킨다. 지연을 가지거나 또는 지연을 가지지 않은 다른 타입들의 필터들이 또한 에너지 트랙을 평활화하기 위하여 설계될 수 있다.
평활화된 에너지 값 Ehb3는 또한, 최종 적응된 높은 대역 에너지 추정치 Ehb를 획득하기 위하여 에너지 적응기(617)에 의하여 적응될 수 있다. 이러한 적응 단계는 정상상태/전이 검출기(625)에 의하여 출력된 ss 파라미터 및/또는 온세트/파열음 검출기(623)에 의하여 출력된 d 파라미터에 기반하여 평활화된 에너지 값을 감소시키거나 또는 증가시키는 단계를 포함할 수 있다. 따라서, 광대역 신호 특징들에 기반하여 추정된 높은 대역 에너지 레벨을 수정하는 단계는, 프레임이 정상상태에 있는지 또는 과도상태에 있는지의 여부에 기반하여 추정된 높은 대역 에너지 레벨(또는 사전에 수정된 추정된 높은 대역 에너지 레벨)을 수정하는 단계를 포함할 수 있다. 이는 과도상태 프레임들에 대하여 높은 대역 에너지 레벨을 감소시키는 단계 및/또는 정상상태 프레임들에 대하여 높은 대역 에너지 레벨을 증가시키는 단계를 포함할 수 있으며, 온세트/파열음의 발생에 기반하여 추정된 높은 대역 에너지 레벨을 수정하는 단계를 더 포함할 수 있다. 한 방식에 의하면, 높은 대역 에너지 값을 적응시키는 것은, 높은 대역 스펙트럼의 선택이 추정된 에너지에 고정(tie)될 수 있기 때문에 에너지 레벨 뿐만 아니라 스펙트럼 엔벨로프 형태를 변경시킨다.
프레임은 자신이 충분한 에너지를 가지는 경우에(즉, 그것이 묵음 프레임(silence frame)이 아니라 스피치 프레임인 경우에) 그리고 스펙트럼 센스(sense)에서 그리고 에너지 측면에서 자신의 인접 프레임들의 각각에 근접한 경우에 정상상태 프레임으로서 정의된다. 2개의 프레임들은 2개의 프레임들 간의 이타쿠라(Itakura) 거리가 특정 임계치 보다 낮은 경우에 스펙트럼적으로 근접한 것으로 고려될 수 있다. 다른 타입들의 스펙트럼 거리 측정치들이 또한 사용될 수 있다. 2개의 프레임들은 2개의 프레임들의 광대역 에너지들의 차이가 특정 임계치보다 낮은 경우에 에너지 측면에서 근접한 것으로 고려된다. 정상상태 프레임이 아닌 임의의 프레임은 전이 프레임으로 고려된다. 정상상태 프레임은 과도상태 프레임들보다 훨씬 더 양호하게 높은 대역 에너지 추정시 에러들을 마스킹할 수 있다. 따라서, 프레임의 추정된 높은 대역 에너지는 ss 파라미터에 기반하여, 즉 다음과 같이 프레임이 정상상태 프레임인지(ss=1) 또는 과도상태 프레임인지(ss=0)의 여부에 따라 적응된다.
Figure 112011060090247-pct00022
여기서,
Figure 112011060090247-pct00023
는 양호한 출력 스피치 품질을 달성하기 위하여 실험적으로 선택된 상수들(dB)이다.
Figure 112011060090247-pct00024
Figure 112011060090247-pct00025
의 값들은 "바이어스 다운"을 위하여 사용되는 비례 상수 λ의 선택에 의존한다. 예컨대, λ가 1.2로서 선택되고
Figure 112011060090247-pct00026
가 3.0으로서 선택되며
Figure 112011060090247-pct00027
가 -3.0으로서 선택될때,
Figure 112011060090247-pct00028
Figure 112011060090247-pct00029
은 각각 1.5 및 6.0으로서 선택될 수 있다. 이러한 예에서는 정상상태 프레임들에 대하여 추정된 높은 대역 에너지를 약간 증가시키고, 과도상태 프레임들에 대하여 추정된 높은 대역 에너지를 상당히 더 감소시킨다는 것에 유의해야 한다. λ,
Figure 112011060090247-pct00030
Figure 112011060090247-pct00031
의 값들에 대한 다른 선택들은
Figure 112011060090247-pct00032
Figure 112011060090247-pct00033
에 대한 상이한 선택들을 야기할 수 있다는 것에 유의해야 하며, 즉
Figure 112011060090247-pct00034
Figure 112011060090247-pct00035
의 값들은 모두 양이거나 또는 음일 수 있거나 또는 반대 부호들을 가질 수 있다는 것에 유의해야 한다. 또한, 정상상태/과도상태 프레임들을 식별하기 위한 다른 기준들이 사용될 수 있다는 것에 유의해야 한다.
온세트/파열음 검출기(623) 출력 d에 기반하여, 추정된 높은 대역 에너지 레벨은 다음과 같이 조정될 수 있으며, 즉 d=1일때 이는 대응 프레임이 온세트를 포함한다는 것을 표시하며, 예컨대 묵음으로부터 무성음 또는 유성음, 또는 파열음으로의 전이를 표시한다. 온세트/파열음은, 앞선 프레임의 광대역 에너지가 특정 임계치보다 낮고 현재의 프레임 및 앞선 프레임들 간의 에너지 차이가 다른 임계치를 초과하는 경우에 현재의 프레임에서 검출된다. 다른 구현에서, 현재의 프레임 및 앞선 프레임들의 전이 대역 에너지는 온세트/파열음을 검출하기 위하여 사용된다. 온세트/파열음을 검출하기 위한 다른 방법들이 또한 사용될 수 있다. 온세트/파열음은 하기와 같은 이유들, 즉 A) 온세트/파열음 근처의 높은 대역 에너지의 추정이 곤란하다는 이유, B) 통상적인 블록 처리가 사용되기 때문에 출력 스피치에서 프리-에코(pre-echo) 타입 아티팩트들 발생할 수 있다는 이유, 및 C) 파열음들(예컨대,
Figure 112011060090247-pct00036
,
Figure 112011060090247-pct00037
Figure 112011060090247-pct00038
)이 초기 에너지 버스트 이후에 광대역에서 특정 마찰음(sibilant)들(예컨대,
Figure 112011060090247-pct00039
,
Figure 112011060090247-pct00040
Figure 112011060090247-pct00041
)과 유사하지만 높은 대역에서 매우 상이한 특징들을 가져서 에너지 과대-추정 및 이로 인한 아티팩트들을 유발한다는 이유 때문에 특별한 문제점을 제시한다. 온세트/파열음(d=1)에 대한 높은 대역 에너지 적응은 다음과 같이 수행된다.
Figure 112011060090247-pct00042
여기서, k는 프레임 인덱스이다. 온세트/파열음이 검출되는 프레임(k=1)으로 시작하는 제 1 Kmin 프레임들에 대하여, 높은 대역 에너지는 가장 낮은 가능한 값 Emin으로 세팅된다. 예컨대, Emin
Figure 112011060090247-pct00043
dB로 세팅되거나 또는 가장 낮은 에너지를 가진 높은 대역 스펙트럼 엔벨로프 형태의 에너지로 세팅될 수 있다. 다음 프레임들(예컨대,
Figure 112011060090247-pct00044
내지
Figure 112011060090247-pct00045
에 의하여 주어진 범위)에 대하여, 에너지 적응은 단지 프레임의 보이싱 레벨
Figure 112011060090247-pct00046
이 임계치 V1를 초과하는 동안만 수행된다. 보이싱 레벨 파라미터 대신에, 적절한 임계치를 가진 영 교차 파라미터 zc는 또한 이러한 목적을 위하여 사용될 수 있다. 이러한 범위 내의 프레임의 보이싱 레벨이 V1보다 작거나 또는 동일하게 될 때마다, 온세트 에너지 적응은 즉시 정지되며, 즉
Figure 112011060090247-pct00047
는 다음 온세트가 검출될 때까지
Figure 112011060090247-pct00048
와 동일하게 세팅된다. 만일 보이싱 레벨
Figure 112011060090247-pct00049
이 V1보다 크면,
Figure 112011060090247-pct00050
내지
Figure 112011060090247-pct00051
에 대하여 높은 대역 에너지는 고정 양
Figure 112011060090247-pct00052
만큼 감소된다.
Figure 112011060090247-pct00053
내지
Figure 112011060090247-pct00054
에 대하여 높은 대역 에너지는 사전에 특정된 시퀀스
Figure 112011060090247-pct00055
에 의하여
Figure 112011060090247-pct00056
로부터
Figure 112011060090247-pct00057
쪽으로 점진적으로 증가되며,
Figure 112011060090247-pct00058
에서
Figure 112011060090247-pct00059
Figure 112011060090247-pct00060
와 동일하게 세팅되며 이는 다음 온세트가 검출될때까지 계속된다. 온세트/파열음 기반 에너지 적응을 위하여 사용되는 파라미터들의 통상적인 값들은 예컨대
Figure 112011060090247-pct00061
,
Figure 112011060090247-pct00062
, 및
Figure 112011060090247-pct00063
이다. d=0에 대해서는 에너지의 추가 적응이 수행되지 않으며, 즉
Figure 112011060090247-pct00064
Figure 112011060090247-pct00065
와 동일하게 세팅된다. 따라서, 광대역 신호 특징들에 기반하여 추정된 높은 대역 에너지 레벨을 수정하는 단계는 온세트/파열음의 발생에 기반하여 추정된 높은 대역 에너지 레벨(또는 사전에 수정된 추정된 높은 대역 에너지 레벨)을 수정하는 단계를 포함할 수 있다.
앞서 기술된 바와 같은, 추정된 높은 대역 에너지의 적응은, 대역폭 확장 출력 스피치에서 아티팩트들의 수를 감소시켜서 스피치의 품질을 향상시키는데 도움을 준다. 비록 추정된 높은 대역 에너지를 적응시키기 위하여 사용되는 동작들의 시퀀스가 특정 방식으로 제시되었을지라도, 당업자는 시퀀스에 대한 이러한 특이성이 필수조건이 아니며 따라서 다른 시퀀스들이 사용될 수 있고 여전히 여기에 개시된 실시예들에 따를 것이라는 것을 인식할 것이다. 또한, 높은 대역 에너지 레벨을 수정하기 위하여 기술된 동작들은, 실시예들에 선택적으로 적용될 수 있다.
따라서, 동작의 방법들 및 신호 처리 로직은 약 7 내지 14 kHz 범위의 높은 대역 스펙트럼 부분을 추정하고 높은 대역의 스펙트럼 부분을 갖는 오디오 출력이 제공될 수 있도록 MDCT 계수들을 결정하기 위하여 여기에 개시되었다. 여기에 개시된 실시예들과 균등한 다른 변형들이 당업자에 의하여 이루어질 수 있으며, 여전히 이하의 청구항들에 의하여 여기에서 규정된, 실시예들의 사상 및 범위에 따를 것이다.

Claims (21)

  1. 제1 주파수 대역 내의 스펙트럼을 갖는 신호에 대한 전이 대역(transition band)을 정의(define)하는 단계 ― 상기 전이 대역은 상기 제1 주파수 대역의 일부분으로서 정의되며, 상기 전이 대역은 상기 제1 주파수 대역에 인접한 인접 주파수 대역 근처에 위치함 ―;
    전이 대역 스펙트럼 데이터를 획득하기 위하여 상기 전이 대역을 분석하는 단계;
    전이 대역 스펙트럼 엔벨로프 및 전이 대역 여기 스펙트럼을 획득하기 위하여 상기 전이 대역 스펙트럼 데이터를 분석하는 단계; 및
    상기 전이 대역 스펙트럼 데이터를 사용하여 인접 주파수 대역 신호 스펙트럼을 생성하는 단계를 포함하고,
    상기 전이 대역 스펙트럼 데이터를 사용하여 인접 주파수 대역 신호 스펙트럼을 생성하는 단계는,
    인접 주파수 대역 스펙트럼 엔벨로프(envelope)를 추정하는 단계;
    상기 전이 대역 스펙트럼 데이터를 사용하여 인접 주파수 대역 여기(excitation) 스펙트럼을 생성하는 단계; 및
    상기 인접 주파수 대역 신호 스펙트럼을 생성하기 위하여 상기 인접 주파수 대역 스펙트럼 엔벨로프 및 상기 인접 주파수 대역 여기 스펙트럼을 결합하는 단계
    를 포함하는, 대역폭 확장 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서, 상기 전이 대역 스펙트럼 데이터를 사용하여 인접 주파수 대역 여기 스펙트럼을 생성하는 단계는, 상기 신호의 피치 주파수(pitch frequency)에 의하여 결정되는 반복 주기를 갖는, 상기 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 상기 인접 주파수 대역 여기 스펙트럼을 생성하는 단계를 더 포함하는, 대역폭 확장 방법.
  5. 제1항에 있어서, 상기 인접 주파수 대역 스펙트럼 엔벨로프를 추정하는 단계는, 상기 인접 주파수 대역에서의 상기 신호의 에너지를 추정하는 단계를 더 포함하는, 대역폭 확장 방법.
  6. 제1항에 있어서, 대역폭 확장된 신호 스펙트럼 및 대응하는 대역폭 확장된 신호를 획득하기 위하여 상기 제1 주파수 대역 내의 상기 스펙트럼과 상기 인접 주파수 대역 신호 스펙트럼을 결합하는 단계를 더 포함하는, 대역폭 확장 방법.
  7. 제4항에 있어서, 상기 인접 주파수 대역 여기 스펙트럼을 생성하는 단계는, 상기 인접 주파수 대역 내의 의사-잡음(pseudo-noise) 여기 스펙트럼과, 상기 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 생성되는 상기 인접 주파수 대역 여기 스펙트럼을 혼합하는 단계를 더 포함하는, 대역폭 확장 방법.
  8. 제7항에 있어서, 상기 신호로부터 추정되는 보이싱 레벨(voicing level)을 사용하여 상기 인접 주파수 대역 여기 스펙트럼 및 상기 의사-잡음 여기 스펙트럼을 혼합하기 위한 혼합 비(mixing ratio)를 결정하는 단계를 더 포함하는, 대역폭 확장 방법.
  9. 제8항에 있어서, 상기 의사-잡음 여기 스펙트럼을 사용하여 상기 전이 대역 여기 스펙트럼의 대응 홀(hole)들로 인한 상기 인접 주파수 대역 여기 스펙트럼의 임의의 홀들을 채우는(filling) 단계를 더 포함하는, 대역폭 확장 방법.
  10. 제1 주파수 대역 내의 스펙트럼을 갖는 신호에 대한 전이 대역을 정의하는 단계 ― 상기 전이 대역은 상기 제1 주파수 대역의 일부분으로서 정의되며, 상기 전이 대역은 상기 제1 주파수 대역에 인접한 인접 주파수 대역 근처에 위치함 ―;
    전이 대역 스펙트럼 엔벨로프 및 전이 대역 여기 스펙트럼을 획득하기 위하여 상기 전이 대역을 분석하는 단계;
    인접 주파수 대역 스펙트럼 엔벨로프를 추정하는 단계;
    상기 신호의 피치 주파수에 의하여 결정되는 반복 주기를 갖는, 상기 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 인접 주파수 대역 여기 스펙트럼을 생성하는 단계; 및
    인접 주파수 대역 신호 스펙트럼을 획득하기 위하여 상기 인접 주파수 대역 스펙트럼 엔벨로프 및 상기 인접 주파수 대역 여기 스펙트럼을 결합하는 단계
    를 포함하는, 대역폭 확장 방법.
  11. 제10항에 있어서, 상기 인접 주파수 대역 스펙트럼 엔벨로프를 추정하는 단계는, 상기 인접 주파수 대역에서의 상기 신호의 에너지를 추정하는 단계를 더 포함하는, 대역폭 확장 방법.
  12. 제11항에 있어서, 대역폭 확장된 신호 스펙트럼 및 대응하는 대역폭 확장된 신호를 획득하기 위하여 상기 제1 주파수 대역 내의 상기 스펙트럼 및 상기 인접 주파수 대역 신호 스펙트럼을 결합하는 단계를 더 포함하는, 대역폭 확장 방법.
  13. 제12항에 있어서, 상기 인접 주파수 대역 여기 스펙트럼을 생성하는 단계는, 상기 인접 주파수 대역 내의 의사-잡음 여기 스펙트럼과, 상기 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 생성되는 상기 인접 주파수 대역 여기 스펙트럼을 혼합하는 단계를 더 포함하는, 대역폭 확장 방법.
  14. 제13항에 있어서, 상기 신호로부터 추정되는 보이싱 레벨을 사용하여 상기 인접 주파수 대역 여기 스펙트럼과 상기 의사-잡음 여기 스펙트럼을 혼합하기 위한 혼합 비를 결정하는 단계를 더 포함하는, 대역폭 확장 방법.
  15. 제14항에 있어서, 상기 의사-잡음 여기 스펙트럼을 사용하여 상기 전이 대역 여기 스펙트럼의 대응 홀들로 인한, 상기 인접 주파수 대역 여기 스펙트럼의 임의의 홀들을 채우는 단계를 더 포함하는, 대역폭 확장 방법.
  16. 대역폭 확장 장치로서,
    신호 처리 로직(signal processing logic)
    을 포함하며,
    상기 신호 처리 로직은,
    제1 주파수 대역 내의 스펙트럼을 갖는 신호에 대한 전이 대역을 정의하며 ― 상기 전이 대역은 상기 제1 주파수 대역의 일부분으로서 정의되며, 상기 전이 대역은 상기 제1 주파수 대역에 인접한 인접 주파수 대역 근처에 위치함 ―;
    전이 대역 스펙트럼 엔벨로프 및 전이 대역 여기 스펙트럼을 획득하기 위하여 상기 전이 대역을 분석하며;
    인접 주파수 대역 스펙트럼 엔벨로프를 추정하며;
    상기 신호의 피치 주파수에 의하여 결정되는 반복 주기를 갖는, 상기 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 인접 주파수 대역 여기 스펙트럼을 생성하며;
    인접 주파수 대역 신호 스펙트럼을 획득하기 위하여 상기 인접 주파수 대역 스펙트럼 엔벨로프 및 상기 인접 주파수 대역 여기 스펙트럼을 결합하도록
    동작하는, 대역폭 확장 장치.
  17. 제16항에 있어서, 상기 신호 처리 로직은 또한, 상기 인접 주파수 대역에서의 상기 신호의 에너지를 추정하도록 동작하는, 대역폭 확장 장치.
  18. 제17항에 있어서, 상기 신호 처리 로직은 또한, 대역폭 확장된 신호 스펙트럼 및 대응하는 대역폭 확장된 신호를 획득하기 위하여 상기 제1 주파수 대역 내의 상기 스펙트럼 및 상기 인접 주파수 대역 신호 스펙트럼을 결합하도록 동작하는, 대역폭 확장 장치.
  19. 제17항에 있어서, 상기 신호 처리 로직은 또한, 상기 인접 주파수 대역 내의 의사-잡음 여기 스펙트럼과, 상기 전이 대역 여기 스펙트럼의 적어도 일부분의 주기적 반복에 의하여 생성되는 상기 인접 주파수 대역 여기 스펙트럼을 혼합하도록 동작하는, 대역폭 확장 장치.
  20. 제19항에 있어서, 상기 신호 처리 로직은 또한, 상기 신호로부터 추정되는 보이싱 레벨을 사용하여 상기 인접 주파수 대역 여기 스펙트럼 및 상기 의사-잡음 여기 스펙트럼을 혼합하기 위한 혼합 비를 결정하도록 동작하는, 대역폭 확장 장치.
  21. 제20항에 있어서, 상기 신호 처리 로직은 또한, 상기 의사-잡음 여기 스펙트럼을 사용하여 상기 전이 대역 여기 스펙트럼의 대응 홀들로 인한, 상기 인접 주파수 대역 여기 스펙트럼의 임의의 홀들을 채우도록 동작하는, 대역폭 확장 장치.
KR1020117018182A 2009-02-04 2010-02-02 수정된 이산 코사인 변환 오디오 코더에 대한 대역폭 확장 방법 및 장치 KR101341246B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/365,457 US8463599B2 (en) 2009-02-04 2009-02-04 Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US12/365,457 2009-02-04
PCT/US2010/022879 WO2010091013A1 (en) 2009-02-04 2010-02-02 Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Publications (2)

Publication Number Publication Date
KR20110111463A KR20110111463A (ko) 2011-10-11
KR101341246B1 true KR101341246B1 (ko) 2013-12-12

Family

ID=42101566

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117018182A KR101341246B1 (ko) 2009-02-04 2010-02-02 수정된 이산 코사인 변환 오디오 코더에 대한 대역폭 확장 방법 및 장치

Country Status (8)

Country Link
US (1) US8463599B2 (ko)
EP (1) EP2394269B1 (ko)
JP (2) JP5597896B2 (ko)
KR (1) KR101341246B1 (ko)
CN (1) CN102308333B (ko)
BR (1) BRPI1008520B1 (ko)
MX (1) MX2011007807A (ko)
WO (1) WO2010091013A1 (ko)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
JP5423684B2 (ja) * 2008-12-19 2014-02-19 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
EP2490216B1 (en) * 2009-10-14 2019-04-24 III Holdings 12, LLC Layered speech coding
JPWO2011121955A1 (ja) * 2010-03-30 2013-07-04 パナソニック株式会社 オーディオ装置
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP2012032713A (ja) * 2010-08-02 2012-02-16 Sony Corp 復号装置、復号方法、およびプログラム
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2012108680A2 (ko) * 2011-02-08 2012-08-16 엘지전자 주식회사 대역 확장 방법 및 장치
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
RU2648595C2 (ru) 2011-05-13 2018-03-26 Самсунг Электроникс Ко., Лтд. Распределение битов, кодирование и декодирование аудио
EP2791937B1 (en) 2011-11-02 2016-06-08 Telefonaktiebolaget LM Ericsson (publ) Generation of a high band extension of a bandwidth extended audio signal
RU2610293C2 (ru) 2012-03-29 2017-02-08 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
CN105976830B (zh) 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
CN103971693B (zh) 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
JP6157926B2 (ja) * 2013-05-24 2017-07-05 株式会社東芝 音声処理装置、方法およびプログラム
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN108364657B (zh) * 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
CN105761723B (zh) 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
WO2015136078A1 (en) * 2014-03-14 2015-09-17 Telefonaktiebolaget L M Ericsson (Publ) Audio coding method and apparatus
ES2732859T3 (es) * 2014-05-01 2019-11-26 Nippon Telegraph & Telephone Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y medio de grabación
KR101860143B1 (ko) * 2014-05-01 2018-05-23 니폰 덴신 덴와 가부시끼가이샤 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9536537B2 (en) 2015-02-27 2017-01-03 Qualcomm Incorporated Systems and methods for speech restoration
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20180056032A (ko) 2016-11-18 2018-05-28 삼성전자주식회사 신호 처리 프로세서 및 신호 처리 프로세서의 제어 방법
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
WO2020041497A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc. Speech enhancement and noise suppression systems and methods
CN112180762B (zh) * 2020-09-29 2021-10-29 瑞声新能源发展(常州)有限公司科教城分公司 非线性信号系统构建方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1367566A2 (en) 1997-06-10 2003-12-03 Coding Technologies Sweden AB Source coding enhancement using spectral-band replication
KR20040101227A (ko) * 2002-03-28 2004-12-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 주파수 변환에 기초한 불완전한 스펙트럼을 가진 오디오신호의 스펙트럼을 복구하기 위한 방법 및 장치
WO2006110990A1 (en) 2005-04-20 2006-10-26 Qnx Software Systems (Wavemakers), Inc. System for improving speech quality and intelligibility
US20060293016A1 (en) 2005-06-28 2006-12-28 Harman Becker Automotive Systems, Wavemakers, Inc. Frequency extension of harmonic signals

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH02166198A (ja) 1988-12-20 1990-06-26 Asahi Glass Co Ltd ドライクリーニング用洗浄剤
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5245589A (en) * 1992-03-20 1993-09-14 Abel Jonathan S Method and apparatus for processing signals to extract narrow bandwidth features
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
JP2956548B2 (ja) * 1995-10-05 1999-10-04 松下電器産業株式会社 音声帯域拡大装置
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
JPH0916198A (ja) * 1995-06-27 1997-01-17 Japan Radio Co Ltd 低ビットレートボコーダにおける励起信号発生装置及び励起信号発生方法
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5949878A (en) * 1996-06-28 1999-09-07 Transcrypt International, Inc. Method and apparatus for providing voice privacy in electronic communication systems
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
EP1356454B1 (en) * 2001-01-19 2006-03-01 Koninklijke Philips Electronics N.V. Wideband signal transmission system
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
KR100602975B1 (ko) 2002-07-19 2006-07-20 닛본 덴끼 가부시끼가이샤 오디오 복호 장치와 복호 방법 및 프로그램을 기록한 컴퓨터 판독가능 기록매체
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
DE102004041705A1 (de) * 2003-09-03 2005-03-31 Phoenix Ag Einrichtung zur Überwachung einer Förderanlage
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP2005136647A (ja) * 2003-10-30 2005-05-26 New Japan Radio Co Ltd 低音ブースト回路
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
KR100708121B1 (ko) 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
MX2007012187A (es) * 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para deformacion en tiempo de banda alta.
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
TWI324336B (en) * 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070109977A1 (en) * 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US20080004866A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Artificial Bandwidth Expansion Method For A Multichannel Signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
DE602006009927D1 (de) 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1367566A2 (en) 1997-06-10 2003-12-03 Coding Technologies Sweden AB Source coding enhancement using spectral-band replication
KR20040101227A (ko) * 2002-03-28 2004-12-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 주파수 변환에 기초한 불완전한 스펙트럼을 가진 오디오신호의 스펙트럼을 복구하기 위한 방법 및 장치
WO2006110990A1 (en) 2005-04-20 2006-10-26 Qnx Software Systems (Wavemakers), Inc. System for improving speech quality and intelligibility
US20060293016A1 (en) 2005-06-28 2006-12-28 Harman Becker Automotive Systems, Wavemakers, Inc. Frequency extension of harmonic signals

Also Published As

Publication number Publication date
CN102308333B (zh) 2014-03-19
EP2394269B1 (en) 2017-04-05
US20100198587A1 (en) 2010-08-05
JP5597896B2 (ja) 2014-10-01
EP2394269A1 (en) 2011-12-14
US8463599B2 (en) 2013-06-11
WO2010091013A1 (en) 2010-08-12
JP2012514763A (ja) 2012-06-28
KR20110111463A (ko) 2011-10-11
CN102308333A (zh) 2012-01-04
JP2014016622A (ja) 2014-01-30
BRPI1008520B1 (pt) 2020-05-05
BRPI1008520A2 (pt) 2016-03-08
MX2011007807A (es) 2011-09-21

Similar Documents

Publication Publication Date Title
KR101341246B1 (ko) 수정된 이산 코사인 변환 오디오 코더에 대한 대역폭 확장 방법 및 장치
US11657825B2 (en) Frame error concealment method and apparatus, and audio decoding method and apparatus
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US9653088B2 (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR100956876B1 (ko) 고대역 여기 생성을 위한 시스템들, 방법들, 및 장치들
EP1719116B1 (en) Switching from ACELP into TCX coding mode
US9454974B2 (en) Systems, methods, and apparatus for gain factor limiting
US20070147518A1 (en) Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
KR20130023289A (ko) 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들
US20150332707A1 (en) Apparatus and method for generating a frequency enhancement signal using an energy limitation operation
US20140019125A1 (en) Low band bandwidth extended
Atti et al. Super-wideband bandwidth extension for speech in the 3GPP EVS codec

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161124

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171127

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20181123

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20191127

Year of fee payment: 7