KR101482830B1 - 오디오 신호의 대역폭 확장 방법 및 장치 - Google Patents

오디오 신호의 대역폭 확장 방법 및 장치 Download PDF

Info

Publication number
KR101482830B1
KR101482830B1 KR20127012371A KR20127012371A KR101482830B1 KR 101482830 B1 KR101482830 B1 KR 101482830B1 KR 20127012371 A KR20127012371 A KR 20127012371A KR 20127012371 A KR20127012371 A KR 20127012371A KR 101482830 B1 KR101482830 B1 KR 101482830B1
Authority
KR
South Korea
Prior art keywords
energy
signal
spectral envelope
audio signal
bandwidth
Prior art date
Application number
KR20127012371A
Other languages
English (en)
Other versions
KR20120055746A (ko
Inventor
텐카시 브이. 라마바드란
마크 에이. 재시우크
Original Assignee
모토로라 모빌리티 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티 엘엘씨 filed Critical 모토로라 모빌리티 엘엘씨
Publication of KR20120055746A publication Critical patent/KR20120055746A/ko
Application granted granted Critical
Publication of KR101482830B1 publication Critical patent/KR101482830B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

본 발명은 대응하는 신호 대역폭을 갖는 디지털 오디오 신호를 제공(101)한 다음, 적어도 신호 대역폭 외 에너지(out-of-signal bandwidth energy)의 추정치에 대응하는 에너지값을 상기 디지털 오디오 신호에 대응하는 것으로서 제공(102)한다. 그 다음 본 발명은 상기 에너지값을 이용하여 스펙트럼 엔벨로프 형상과 신호 대역폭 외 콘텐트(out-of-signal bandwidth content)에 대한 상기 스펙트럼 엔벨로프 형상에 적합한 대응하는 에너지를 상기 디지털 오디오 신호에 대응하는 것으로서 결정한다(103). 그 다음, 한가지 접근법에서, 필요하다면, 본 발명은 (예를 들어, 프레임 단위로) 상기 디지털 오디오 신호와 상기 신호 대역폭 외 콘텐트를 결합하여 상기 디지털 오디오 신호의 대역폭이 확장된 버전을 제공하여 가청적으로 랜더링함으로써 상기와 같이 랜더링된 상기 디지털 오디오 신호의 대응하는 오디오 품질을 향상시킨다(104).

Description

오디오 신호의 대역폭 확장 방법 및 장치{METHOD AND APPARATUS FOR BANDWIDTH EXTENSION OF AUDIO SIGNAL}
본 발명은 일반적으로 가청 콘텐트(audible content)의 랜더링에 관한 것으로, 특히, 대역폭 확장 기술에 관한 것이다.
디지털 표현으로부터 오디오 콘텐트를 가청적으로 랜더링(audible rendering)하는 것은 어떤 공지된 분야에서의 노력으로 이루어진다. 소정의 애플리케이션 설정(application settings)에서, 디지털 표현은 대응하는 완전한 대역폭(complete corresponding bandwidth)을 원 오디오 샘플(original audio sample)과 관련하는 것으로 이루어진다. 그러한 경우, 가청 랜더링은 매우 정밀하고 자연스러운 사운드 출력으로 표현될 수 있다. 그러나, 그러한 접근법은 그에 상응하는 데이터량에 맞추기 위해서는 상당한 오버헤드 자원을 필요로 한다. 예를 들어, 무선 통신 설정과 같은 많은 애플리케이션 설정에서, 그러한 정보량은 언제나 적절히 지원될 수 없다.
그러한 제한에 순응하기 위하여, 소위 협대역(narrow-band) 음성 기술은 그 표현을 제한함으로써 정보량을 원 오디오 샘플에 대응하는 완전한 대역폭 이하로 다시 제한하도록 작용할 수 있다. 그러나, 이와 관련된 일 예에서, 자연스런 음성은 8 kHz(또는 그 이상)까지 유의 성분(significant components)을 포함하고 있는 반면, 협대역 표현은, 예를 들어, 300 내지 3,400 Hz 범위에 관한 정보만 제공할 수 있다. 결과적인 콘텐트가 가청적으로 랜더링될 때, 그 결과적인 콘텐트는 통상 음성 기반 통신의 기능적 요구를 지원하기에 충분히 가지적(intelligible)이다. 그러나, 불행하게도, 협대역 음성 처리 또한 소리가 죽은(muffled) 음성을 생성하고 전대역(full-band) 음성에 비해 양해도(intelligibility)를 훨씬 더 저감시킬 수 있다.
이와 같은 필요성을 충족시키기 위해, 때때로 대역폭 확장 기술들이 이용된다. 이용가능한 협대역 정보뿐만 아니라 다른 정보에 기초하여 고대역 및/또는 저대역에서 유실된 정보를 인위적으로 생성하여 협대역 콘텐트에 부가될 수 있는 정보를 선택함으로써 의사(pseudo) 광(또는 전)대역 신호를 합성한다. 이러한 기술을 이용하여, 예를 들어, 300 내지 3400 Hz 범위의 협대역 음성을, 예를 들어, 100 내지 8000 Hz 범위의 광대역 음성으로 변환할 수 있다. 이를 위해, 필요한 정보의 중요한 부분은 고대역(3400 내지 8000 Hz)에서의 스펙트럼 엔벨로프(spectral envelope)이다. 만일 광대역 스펙트럼 엔벨로프가 추정된다면, 통상 그로부터 고대역 스펙트럼 엔벨로프가 용이하게 추출될 수 있다. 형상(shape)과 이득(또는 등가적으로, 에너지)으로 이루어진 고대역 스펙트럼 엔벨로프를 생각해 볼 수 있다.
한가지 접근법에서, 예를 들어, 코드북 매핑을 통해 협대역 스펙트럼 엔벨로프로부터 광대역 스펙트럼 엔벨로프를 추정함으로써 고대역 스펙트럼 엔벨로프의 형상이 추정된다. 그 다음 광대역 스펙트럼 엔벨로프의 협대역 구간 내의 에너지를 협대역 스펙트럼 엔벨로프의 에너지와 일치시키도록 조절함으로써 고대역 에너지가 추정된다. 이러한 접근법에서, 고대역 스펙트럼 엔벨로프의 형상은 고대역 에너지를 결정하며 또한 그 형상의 추정시의 모든 오류는 그에 대응하여 고대역 에너지의 추정치에 영향을 미칠 것이다.
또 다른 접근법에서, 고대역 스펙트럼 엔벨로프 형상과 고대역 에너지는 개별적으로 추정되며, 최후에 사용되는 고대역 스펙트럼 엔벨로프는 추정된 고대역 에너지와 일치하도록 조절된다. 한가지 관련 접근법에서, 추정된 고대역 에너지 외에, 고대역 스펙트럼 엔벨로프 형상을 결정하는데 다른 파라미터들이 사용된다. 그러나, 결과적인 고대역 스펙트럼 엔벨로프는 반드시 적절한 고대역 에너지를 갖는 것으로 보장되지 않는다. 그러므로 고대역 스펙트럼 엔벨로프의 에너지를 추정된 값으로 조절하기 위해서는 추가적인 단계가 필요하다. 특별한 관리가 취해지지 않는다면, 이러한 접근법은 결과적으로 협대역과 고대역 사이의 경계에서 광대역 스펙트럼 엔벨로프의 불연속을 초래할 것이다. 대역폭 확장, 특히, 고대역 엔벨로프 추정에 관한 기존의 접근법들이 상당한 성공을 거두었지만, 이들 접근법은 적어도 몇몇 애플리케이션 설정에서 반드시 적절한 품질의 결과적인 음성을 생성하지 못한다.
만족스러운 품질을 갖는 대역폭이 확장된 음성을 생성하기 위해서는, 그러한 음성 내에서 아티팩트(artifacts)의 개수가 최소화되어야 한다. 고대역 에너지를 과대하게 추정하면 성가신 아티팩트를 낳는 결과를 가져오는 것으로 알려져 있다. 또한 고대역 스펙트럼 엔벨로프 형상을 부정확하게 추정하면 아티팩트를 초래할 수 있으나 이들 아티팩트는 보통 그 정도가 가볍고 협대역 음성에 의해 용이하게 마스크된다.
전술한 필요성은 다음의 상세한 설명에서 기술된, 특히, 도면과 함께 연구될 때, 신호 대역폭 외 콘텐트의 스펙트럼 엔벨로프 형상을 결정하는 에너지값의 제공과 그의 사용을 용이하게 하는 본 발명의 방법 및 장치를 제공함으로써 적어도 부분적으로 충족된다.
도 1은 본 발명의 다양한 실시예들에 따라 구성되는 흐름도이다.
도 2는 본 발명의 다양한 실시예들에 따라 구성되는 그래프이다.
도 3은 본 발명의 다양한 실시예들에 따라 구성되는 블록도이다.
도 4는 본 발명의 다양한 실시예들에 따라 구성되는 블록도이다.
도 5는 본 발명의 다양한 실시예들에 따라 구성되는 블록도이다.
도 6은 본 발명의 다양한 실시예들에 따라 구성되는 그래프이다.
숙련자들은 도면들에서 구성요소들이 간략성과 명료성을 기하기 위하여 예시되고 반드시 축척대로 그려지지 않는다는 것을 인식할 것이다. 예를 들어, 도면들에서 일부 구성요소들의 치수 및/또는 상대적 위치들은 본 발명의 각종 실시예들의 이해를 높이는데 도움이 되도록 다른 구성요소들에 비해 강조될 수 있다. 또한, 상업적으로 실행가능한 실시예에서 유용하거나 필요한 잘 인식된 구성요소 외 공통 구성요소들은 종종 본 발명의 이들 각종 실시예들을 고찰하는데 지장을 덜 주도록 도시되지 않는다. 소정의 액션 및/또는 단계들이 특정한 발생 순서로 설명되거나 도시될 수 있지만, 본 기술 분야에서 숙련된 자들은 그러한 순서에 대한 특이성이 실제로 필요하지 않음을 또한 인식할 것이다. 또한, 본 명세서에서 사용되는 용어 및 표현들은 이와 달리 특정한 의미가 본 명세서에서 기술된 경우 외에 이들 대응하는 각각의 탐구 및 연구 분야에 대하여 그러한 용어 및 표현과 일치하는 통상의 의미를 갖는다는 것을 인식할 것이다.
개괄적으로 말하면, 이들 각종 실시예들에 따라서, 대응하는 신호 대역폭을 갖는 디지털 오디오 신호를 제공하고, 적어도 신호 대역폭 외 에너지(out-of-signal bandwidth energy)의 추정치에 대응하는 에너지값을 그 디지털 오디오 신호에 대응하는 것으로서 제공한다. 그 다음 이 에너지값을 이용하여 스펙트럼 엔벨로프 형상(spectral envelope shape)과 신호 대역폭 외 콘텐트의 스펙트럼 엔벨로프 형상에 적합한 대응하는 에너지를 디지털 오디오 신호에 대응하는 것으로서 동시에 결정할 수 있다. 그 다음, 한가지 접근법에서, 필요하다면 디지털 오디오 신호와 신호 대역폭 외 콘텐트를 (프레임 단위로) 결합하여 디지털 오디오 신호의 대역폭이 확장된 버전을 제공하여 가청적으로 랜더링함으로써 그와 같이 랜더링된 디지털 오디오 신호의 대응하는 오디오 품질을 향상시킨다.
이와 같이 구성된 대역 외 에너지는 대역 외 스펙트럼 엔벨로프를 의미하는 것으로, 즉, 추정된 에너지값은 대역 외 스펙트럼 엔벨로프, 즉, 스펙트럼 형상과 대응하는 적절한 에너지를 결정하는데 사용된다. 이러한 접근법은 비교적 구현 및 처리가 간단한 것으로 판명되었다. 신호 대역 외 에너지 파라미터는 대역 외 다차원(multi-dimensional) 스펙트럼 엔벨로프보다 제어 및 조작이 더 용이하다. 그 결과, 이러한 접근법은 지금까지 사용된 종래 기술의 접근법들 중 적어도 일부보다 더 높은 품질의 결과적인 가청 콘텐트를 생성하는 경향도 있다.
이들 및 다른 이익들은 후술하는 상세한 설명을 철저히 검토하고 연구할 때 더욱 명료해 질 수 있다. 이제 도면들, 특히 도 1을 참조하면, 대응 프로세스(100)는 대응하는 신호 대역폭을 갖는 디지털 오디오 신호를 제공(101)하는 것으로 시작할 수 있다. 전형적인 애플리케이션 설정에서, 본 프로세스는 그러한 콘텐트로 이루어진 다수의 프레임들을 제공하는 것을 포함할 것이다. 이러한 기법들은 설명되는 단계들에 따라 그러한 각각의 프레임을 처리하는 것을 용이하게 수용할 것이다. 한가지 접근법에서, 예를 들어, 그러한 각각의 프레임은 원 오디오 콘텐트(original audio content)의 10 내지 40 밀리세컨드(milliseconds)에 해당할 수 있다.
본 프로세스는, 예를 들어, 합성된 음성 콘텐트(synthesized vocal content)를 포함하는 디지털 오디오 신호를 제공하는 것을 포함한다. 예를 들어, 이러한 가르침을 휴대용 무선 통신 장치에서 수신된 보코딩된(vo-coded) 음성 콘텐트와 함께 채용할 때가 그 경우이다. 그러나, 본 기술 분야에서 숙련된 자들에 의해 잘 인식되는 바와 같이 다른 가능성도 존재한다. 예를 들어, 디지털 오디오 신호는 그 대신 원 음성 신호, 또는 원 음성 신호 또는 합성된 음성 콘텐트를 재샘플링한 버전(re-sampled version)을 포함할 수 있다.
잠시 도 2를 참조하면, 이러한 디지털 오디오 신호는 대응하는 원 신호 대역폭(202)을 갖는 소정의 원 오디오 신호(201)와 관련된다는 것을 인식할 것이다. 이와 같이 대응하는 원 신호 대역폭(202)은 전형적으로 디지털 오디오 신호에 대응하는 전술한 신호 대역폭보다 더 클 것이다. 이러한 경우는, 예를 들어, 디지털 오디오 신호가 원 오디오 신호(201)의 일부(203)만을 표현하고 다른 부분들은 대역 외 부분으로 둘 때 일어날 수 있다. 도시된 예시적인 예에서, 이것은 저대역부(204)와 고대역부(205)를 포함한다. 본 기술 분야에서 숙련된 자들은 이와 같은 예가 예시 목적만을 위한 것이며 다만 표현되지 않은 부분(unrepresented portion)만이 저대역부 또는 고대역부를 포함할 수 있음을 인식할 것이다. 이러한 가르침은 또한 표현되지 않은 부분이 둘 이상의 표현된 부분(도시되지 않음)의 중간 대역에 속하는 애플리케이션 설정에 사용하는데 적용할 수 있을 것이다.
따라서 원 오디오 신호(201)에서 표현되지 않은 부분(들)은 이러한 본 가르침이 어떤 적절한 그리고 허용가능한 방식으로 적절히 대체하거나 또는 이와 달리 표현하고자 하는 콘텐트를 포함하고 있음을 쉽게 인식할 것이다. 또한 이러한 신호 대역폭은 관련 샘플링 주파수에 의해 결정된 나이퀴스트(Nyquist) 대역폭의 일부만을 점유하고 있음을 이해할 것이다. 이 신호 대역폭은 계속해서 희망하는 대역폭 확장을 이루는 주파수 영역을 추가로 제공한다는 것을 이해할 것이다.
다시 도 1을 참조하면, 그 다음 본 프로세스(100)는 적어도 신호 대역폭 외 에너지의 추정치에 대응하는 에너지값을 디지털 오디오 신호에 대응하는 것으로서 제공(102)한다. 많은 애플리케이션 설정의 경우, 이러한 제공은 적어도 부분적으로 원 신호가 디지털 오디오 신호 그 자체의 대역폭보다 더 넓은 대역폭을 가지고 있다는 가정에 근거할 수 있다.
한가지 접근법에서, 이 단계는 에너지값을 적어도 부분적으로 디지털 오디오 신호 그 자체의 함수로서 추정하는 것을 포함할 수 있다. 또 다른 접근법에서, 필요하다면, 이 단계는 이러한 에너지값을 직간접적으로 나타내는 전술한 디지털 오디오 신호를 최초에 전송한 소스로부터 정보를 수신하는 것을 포함할 수 있다. 후자의 접근법은 원 음성 코더 (또는 대응하는 다른 소스)가 그러한 에너지값이, 예를 들어, 디지털 오디오 신호 그 자체와 함께 전송된, 대응하는 하나 이상의 메트릭(metrics)에 의해 직간접적으로 측정되고 그 메트릭으로 표현되게 하는 적절한 기능을 포함할 때 유용할 수 있다.
이와 같은 신호 대역폭 외 에너지는 주파수가 디지털 오디오 신호의 대응하는 신호 대역폭보다 더 높은 신호 콘텐트에 대응하는 에너지를 포함할 수 있다. 그러한 접근법은, 예를 들어, 전술한 제거된(removed) 콘텐트 그 자체가 디지털 오디오 신호에 의해 직접 표현되는 오디오 콘텐트보다 주파수가 더 높은 대역폭을 점유하는 콘텐트를 포함할 때 적합하다. 대안예에서, 또는 전술한 접근법과 결합하여, 이와 같은 신호 대역폭 외 에너지는 디지털 오디오 신호의 대응하는 신호 대역폭보다 주파수가 더 낮은 신호 콘텐트에 대응할 수 있다. 물론, 이러한 접근법은 전술한 제거된 콘텐트 그 자체가 디지털 오디오 신호에 의해 직접 표현되는 오디오 콘텐트보다 주파수가 더 낮은 대역폭을 점유하는 콘텐트를 포함할 때 일어나는 상황을 보완할 수 있다.
그런 다음 본 프로세스(100)는 (전술한 바와 같이 다수의 이산 제거된 부분들을 표현할 경우의 다수의 에너지값들을 포함할 수 있는) 이러한 에너지값을 이용하여 신호 대역폭 외 콘텐트를 적절히 표현하 스펙트럼 엔벨로프 형상을 디지털 오디오 신호에 대응하는 것으로서 결정(103)한다. 본 프로세스는, 예를 들어, 에너지값을 이용하여 스펙트럼 엔벨로프 형상과 신호 대역폭 외 콘텐트의 에너지값과 일치하는 스펙트럼 엔벨로프 형상에 적합한 대응하는 에너지를 디지털 오디오 신호에 대응하는 것으로서 동시에 결정하는 것을 포함할 수 있다.
한가지 접근법에서, 본 프로세스는 에너지값을 이용하여 대응하는 다수의 후보 스펙트럼 엔벨로프 형상들을 포함하는 룩업 테이블(look-up table)에 액세스하는 것을 포함할 수 있다. 또 다른 접근법에서, 본 프로세스는 에너지값을 이용하여 다수의 스펙트럼 엔벨로프 형상을 포함하는 룩업 테이블에 액세스하고 둘 이상의 이들 형상들 사이에서 보간하여 희망하는 스펙트럼 엔벨로프 형상을 획득하는 것을 포함할 수 있다. 또 다른 접근법에서, 본 프로세스는 디지털 오디오 신호로부터 유도된 하나 이상의 파라미터들을 이용하는 둘 이상의 룩업 테이블들 중 하나를 선택하고 해당 에너지값을 이용하여 대응하는 다수의 후보 스펙트럼 엔벨로프 형상들을 포함하는 선택된 룩업 테이블에 액세스하는 것을 포함할 수 있다. 필요하다면, 본 프로세스는 파라메트릭(parametric) 형태로 저장된 후보 형상들을 액세스하는 것을 포함할 수 있다. 이러한 가르침은 또한 선택적인 적절한 수학적 함수를 이용하여 필요한 만큼 그러한 하나 이상의 형상들을 유도하든지 필요하다면 그러한 테이블로부터 해당 형상을 추출하는 것을 수용할 것이다.
그 다음 본 프로세스(100)는 디지털 오디오 신호와 신호 대역폭 외 콘텐트를 결합하는 것을 선택적으로 수용하여 디지털 비디오 신호의 대역폭이 확장된 버전을 제공(104)함으로써 가청 형태로 랜더링할 때 디지털 오디오 신호의 대응하는 오디오 품질을 향상할 것이다. 한가지 접근법에서, 본 프로세스는 스펙트럼 콘텐트에 대하여 서로 배타적인 두 가지 항목들을 결합하는 것을 포함할 수 있다. 그 경우, 그러한 결합은, 예를 들어, 이들 두(또는 그 이상) 세그먼트들을 단순히 연결(concatenating)하거나 이와 달리 이들 두 세그먼트들을 서로 접합하는(joining) 형태를 취할 수 있다. 또 다른 접근법에서, 필요하다면, 신호 대역폭 외 콘텐트는 디지털 오디오 신호의 대응하는 신호 대역폭 내의 일부분을 가질 수 있다. 그러한 중첩(overlap)은 적어도 몇몇 애플리케이션 설정에서 신호 대역 외 콘텐트의 중첩 부분과 디지털 오디오 신호의 대응하는 대역 내(in-band) 부분을 결합함으로써 일 부분에서 다른 부분으로의 천이(transition)를 부드럽게 하고 및/또는 그 천이를 안정(feather)되게 하는데 유용할 수 있다.
본 기술 분야에서 숙련된 자들은 전술한 프로세스들이 본 기술 분야에서 공지된 바와 같은 부분적으로 또는 전체적으로 프로그램가능한 플랫폼들 또는 몇몇 애플리케이션들의 용도로 필요할 수 있는 전용 플랫폼들을 포함하여 광범위한 이용가능한 및/또는 용이하게 구성된 플랫폼들 중 어떤 것을 이용하여 용이하게 동작가능하다는 것을 인식할 것이다. 이제 도 3을 참조하면, 그러한 플랫폼에 대한 예시적인 접근법이 제공될 것이다.
이러한 예시적인 예에서, 장치(300)에서 선택적인 프로세서(301)는 입력부(302)에 동작가능하게 연결되며 이 입력부는 대응하는 신호 대역폭을 갖는 디지털 오디오 신호를 수신하도록 구성되고 배열된다. 장치(300)가 양방향 무선 통신 장치를 포함할 때, 그러한 디지털 오디오 신호는 본 기술 분야에서 공지된 바와 같이 대응하는 수신기(303)에 의해 제공될 수 있다. 그러한 경우, 예를 들어, 디지털 오디오 신호는 수신된 보코딩된 음성 콘텐트의 함수로서 형성된 합성된 음성 콘텐트를 포함할 수 있다.
프로세서(301)는 계속해서 (예를 들어, 프로세서(301)가 본 기술 분야에서 공지된 바와 같은 부분적으로 또는 전체적으로 프로그램가능한 플랫폼을 포함할 때 대응하는 프로그래밍을 통해) 본 명세서에 기술된 하나 이상의 단계들 또는 다른 기능을 수행하도록 구성되고 배열될 수 있다. 이 프로세서는, 예를 들어, 적어도 신호 대역폭 외 에너지의 추정치에 대응하는 에너지값을 디지털 오디오 신호에 대응하는 것으로서 제공한 다음 그 에너지값과 에너지가 인덱스된 한 세트의 형상들(a set of energy-indexed shapes)을 이용하여 대역폭 외 콘텐트의 스펙트럼 엔벨로프 형상을 디지털 오디오 신호에 대응하는 것으로서 결정하는 것을 포함할 수 있다.
전술한 바와 같이, 한가지 접근법에서, 전술한 에너지값은 대응하는 다수의 후보 스펙트럼 엔벨로프 형상들을 포함하는 룩업 테이블에 용이하게 액세스하도록 도움을 줄 수 있다. 그러한 접근법을 지원하기 위하여, 이 장치는 또한 필요한 경우 프로세서(301)에 동작가능하게 연결된 하나 이상의 룩업 테이블들(304)을 포함할 수 있다. 이와 같이 구성된 프로세서(301)는 필요에 따라 룩업 테이블(304)에 용이하게 액세스할 수 있다.
본 기술 분야에서 숙련된 자들은 그러한 장치(300)가 도 3에 도시된 예시에 의해 제안된 바와 같이 물리적으로 구분되는 다수의 구성요소들로 구성될 수 있음을 인식하고 이해할 것이다. 그러나, 이러한 예시는 로직 도면을 포함하는 것으로 보여주는 것이 또한 가능하며, 그 경우 하나 이상의 이들 구성요소들이 공유 플랫폼을 통해 동작가능하고 실현될 수 있다. 또한 그러한 공유 플랫폼이 본 기술 분야에서 공지된 바와 같이 전체적으로 또는 적어도 부분적으로 프로그램가능한 플랫폼을 포함할 수 있음을 인식할 것이다.
이제 도 4를 참조하면, 8 kHz로 샘플링된 입력 협대역 음성(s nb )은 먼저 대응하는 업샘플러(401)를 이용하여 2로 업샘플링되어 16 kHz로 샘플링된 업샘플링된 협대역 음성(
Figure 112012038238854-pat00001
)이 획득된다. 이것은 (예를 들어, 각 쌍의 원 음성 샘플들 사이에 제로값을 갖는 샘플을 삽입함으로써) 1:2 보간을 수행한 다음, 예를 들어, 0와 3400 Hz 사이에 통과 대역을 갖는 저역 통과 필터(LPF)를 이용하여 저역 통과 필터링하는 것을 포함할 수 있다.
s nb 로부터, 협대역 선형 예측(LP) 파라미터들, 즉, A nb = {1, a 1 , a 2 ,.., aP}(여기서 P는 모델 차수임)는 또한 공지의 LP 분석 기술을 채용하는 LP 분석기(402)를 이용하여 계산된다. (물론 다른 가능성이 존재하는데, 예를 들어, LP 파라미터들은
Figure 112012038238854-pat00002
가 2:1 데시메이트된 버전으로부터 계산될 수 있다.) 이들 LP 파라미터들은 아래와 같은 협대역 입력 음성의 스펙트럼 엔벨로프를 모델링한다.
Figure 112012038238854-pat00003
전술한 수학식에서, 각 주파수(ω)(라디안/샘플)는 ω=2πf/ F s 로 주어지며, 여기서 f는 신호 주파수(Hz)이며 F s 는 샘플링 주파수(Hz)이다. 샘플링 주파수(F s )가 8 kHz인 경우, 적절한 모델 차수(P)는, 예를 들어, 10 이다.
그 다음 LP 파라미터들(A nb )은 보간 모듈(403)을 이용하여 2로 보간되어
Figure 112012038238854-pat00004
가 획득된다.
Figure 112012038238854-pat00005
를 이용하여, 업샘플링된 협대역 음성(
Figure 112012038238854-pat00006
)은 분석 필터(404)를 통해 역 필터링되어 (또한 16 kHz로 샘플링된) LP 잔류 신호(
Figure 112012038238854-pat00007
)가 구해진다. 한가지 접근법에서, 이와 같은 역(또는 분석) 필터링 동작은 아래와 같은 수학식으로 기술될 수 있다.
Figure 112012038238854-pat00008
여기서 n은 샘플 인덱스이다.
전형적인 애플리케이션 설정에서,
Figure 112012038238854-pat00009
을 얻기 위해
Figure 112012038238854-pat00010
을 역 필터링하는 것은 프레임 단위로 수행될 수 있으며 여기서 하나의 프레임은 T초의 지속 기간 동안 연속하는 일련의 N개의 샘플들로서 규정된다. 많은 음성 신호 애플리케이션들에서, TN의 대응값이 8 kHz 샘플링 주파수에서 약 160이고 16 kHz에서 약 320인 약 20 ms로 선택하는 것이 좋다. 연속하는 프레임들은, 예를 들어, 50%까지 또는 대략 50% 서로 중첩될 수 있으며, 그 경우, 현재 프레임에서 후반부 샘플들과 다음 프레임에서 전반부 샘플들은 동일하며, 하나의 새로운 프레임은 매 T/2초마다 처리된다. T가 20 ms로서 50% 중첩으로 선택되는 경우, 예를 들어, LP 파라미터들(A nb )은 매 10 ms마다 연속하는 160개의 s nb 샘플들로부터 계산되고, 대응하는
Figure 112012038238854-pat00011
프레임의 320개의 샘플들 중 중간의 160개 샘플들을 역 필터링하여 160개 샘플들의
Figure 112012038238854-pat00012
을 생성하는데 사용된다.
또한 역 필터링 동작을 위한 2P-차 LP 파라미터들을 업샘플링된 협대역 음성으로부터 직접 계산할 수 있다. 그러나, 이러한 접근법은 적어도 몇 가지 동작 조건에서 반드시 성능을 높이지 않으면서도 LP 파라미터들의 계산과 역 필터링 연산에 따른 복잡도를 증가시킬 수 있다.
그 다음 LP 잔류 신호(
Figure 112012038238854-pat00013
)는 전파 정류기(405)를 이용하여 전파 정류되고, 그 결과를 (예를 들어, 3400과 8000 Hz 사이의 통과 대역을 갖는 고역 통과 필터(HPF)(406)를 이용하여) 고역 통과 필터링하여 고대역 정류된 잔류 신호(rr hb )가 얻어진다. 이와 병행하여, 의사-랜덤 노이즈 소스(407)의 출력 또한 고역 통과 필터링(408)되어 고대역 노이즈 신호(n hb )가 얻어진다. 그 다음 이들 두 신호들, 즉, rr hb n hb 는 추정 및 제어 모듈(ECM)(410)에 의해 제공된 음성 레벨(υ)에 따라 혼합기(409)에서 혼합된다 (이 모델에 대해서는 아래에서 더욱 상세히 설명됨). 이와 같은 예시적인 예에서, 이러한 음성 레벨(υ)은 0에서 1까지의 범위를 가지며, 여기서 0는 무성음 레벨(unvoiced level)을 나타내고 1은 충분한 유성음 레벨(fully-voiced level)을 나타낸다. 혼합기(409)는 본질적으로 확실하게 두 입력 신호들이 동일한 에너지 레벨을 갖도록 조절한 후 그 출력에서 두 입력 신호들의 가중치 합을 형성한다. 혼합기의 출력 신호(m hb )는 아래와 같이 주어진다.
m hb = (υ)rr hb + (1-υ)n hb
본 기술 분야에서 숙련된 자들은 다른 혼합 규칙들 또한 가능하다는 것을 인식할 것이다. 또한 두 신호들, 즉, 전파 정류된 LP 잔류 신호 및 의사-랜덤 노이즈 신호를 먼저 혼합한 다음, 혼합된 신호를 고역 통과 필터링하는 것이 가능하다. 이 경우, 두 개의 고역 통과 필터들(406 및 408)은 혼합기(409)의 출력에 배치된 단일의 고역 통과 필터로 대체된다.
그 다음 결과적인 신호(m hb )는 고대역(HB) 여기 프리프로세서(411)를 이용하여 전처리되어 고대역 여기 신호(ex hb )가 형성된다. 전처리 단계들은 (i) 혼합기 출력 신호(m hb )를 고대역 에너지 레벨(E hb )과 일치시키도록 스케일링하는 단계, 및 (ii) 혼합기 출력 신호(m hb )를 고대역 스펙트럼 엔벨로프(SE hb )와 일치하도록 선택적으로 형상화하는 단계를 포함할 수 있다. E hb SE hb 는 둘 다 ECM(410)에 의해 HB 여기 프리-프로세서(411)에 제공된다. 이러한 접근법을 채용할 때, 그러한 형상화가 혼합기 출력 신호(m hb )의 위상 스펙트럼에 영향을 미치지 않도록 보장하는 많은 애플리케이션 설정에서 유용할 수 있으며, 즉, 그러한 형상화는 제로- 위상(zero-phase) 응답 필터에 의해 수행되는 것이 바람직할 수 있다.
업샘플링된 협대역 음성 신호(
Figure 112012038238854-pat00014
) 및 고대역 여기 신호(ex hb )는 합산기(412)를 통해 서로 합산되어 혼합 대역 신호(
Figure 112012038238854-pat00015
)가 형성된다. 이러한 결과적인 혼합 대역 신호(
Figure 112012038238854-pat00016
)는 등화기 필터(413)에 입력되며 이 등화기 필터는 그 입력을 ECM(410)에 의해 제공된 광대역 스펙트럼 엔벨로프 정보(SE wb )를 이용하여 필터링하여 추정된 광대역 신호(
Figure 112012038238854-pat00017
)를 형성한다. 등화기 필터(413)는 본질적으로 광대역 스펙트럼 엔벨로프(SE wb )를 입력 신호(
Figure 112012038238854-pat00018
)에 가하여 (
Figure 112012038238854-pat00019
)를 형성한다 (이에 대해서는 아래에서 추가로 설명된다). 추정된 결과적인 광대역 신호(
Figure 112012038238854-pat00020
)는, 예를 들어, 3400에서 8000 Hz까지의 통과 대역을 갖는 고역 통과 필터(414)를 이용하여 고역 통과 필터링되고, 예를 들어, 0에서 300 Hz까지의 통과 대역을 갖는 저역 통과 필터(415)를 이용하여 저역 통과 필터링되어 각각 고대역 신호(
Figure 112012038238854-pat00021
) 및 저대역 신호(
Figure 112012038238854-pat00022
)가 구해진다. 이들 신호들(
Figure 112012038238854-pat00023
,
Figure 112012038238854-pat00024
)과, 업샘플링된 협대역 신호(
Figure 112012038238854-pat00025
)는 다른 합산기(416)에서 서로 합산되어 대역 확장된 신호(s bwe )가 형성된다.
본 기술 분야에서 숙련된 자들은 대역 확장된 신호(s bwe )를 구할 수 있는 다른 각종 필터 구성들이 존재한다는 것을 인식할 것이다. 만일 등화기 필터(413)가 그의 입력 신호(
Figure 112012038238854-pat00026
) 중 일부인 업샘플링된 협대역 음성 신호(
Figure 112012038238854-pat00027
)의 스펙트럼 콘텐트를 정확하게 유지한다면, 추정된 광대역 신호(
Figure 112012038238854-pat00028
)는 대역 확장된 신호(s bwe )로서 직접 출력될 수 있으며 이로써 고역 통과 필터(414), 저역 통과 필터(415), 및 합산기(416)가 제거될 수 있다. 대안으로, 두 개의 등화기 필터가 사용될 수 있는데, 그 중 하나는 저주파 부분을 복구하고 다른 하나는 고주파 부분을 복구하며, 전자의 출력은 후자의 고역 통과 필터링된 출력에 가산되어 대역 확장된 신호(s bwe )가 획득될 수 있다.
본 기술 분야에서 숙련된 자들은 이와 같은 특정한 예시적인 예에서, 고대역 정류된 잔류 여기 및 고대역 노이즈 여기가 유성음 레벨에 따라 서로 혼합됨을 이해하고 인식할 것이다. 유성음 레벨이 무성음을 나타내는 0인 경우, 노이즈 여기가 배타적으로 사용된다. 유사하게, 유성음 레벨이 유성음을 나타내는 1인 경우, 고대역 정류된 잔류 여기가 배타적으로 사용된다. 유성음 레벨이 혼합된 유성음을 나타내는 0와 1 사이에 있는 경우, 두 가지 여기가 유성음 레벨에 의해 결정되어 사용된 바와 같은 적절한 비율로 혼합된다. 따라서 혼합된 고대역 여기는 유성음, 무성음, 그리고 혼합된 유성음에 적합하다.
또한 이와 같은 예시적인 실시예에서,
Figure 112012038238854-pat00029
을 합성하기 위해 등화기 필터가 사용되고 있음을 이해하고 인식할 것이다. 등화기 필터는 ECM에 의해 이상적인 엔벨로프로서 제공된 광대역 스펙트럼 엔벨로프(SE wb )를 고려하여 그의 입력 신호(
Figure 112012038238854-pat00030
)의 스펙트럼 엔벨로프를 이상적인 스펙트럼 엔벨로프와 일치하도록 정정(또는 등화)한다. 스펙트럼 엔벨로프 등화에는 크기만이 관여되므로, 등화기 필터의 위상 응답은 제로로 선택된다. 등화기 필터의 크기 응답은 SE wb (ω)/SE mb (ω)로 특정화된다. 음성 코딩 애플리케이션용의 그러한 등화기 필터의 설계와 구현은 어떤 잘 인식된 분야에서의 노력으로 이루어진다. 그러나, 간단히 말해서, 등화기 필터는 중첩-부가(overlap-add(OLA)) 분석을 이용하여 아래와 같이 동작한다.
먼저 입력 신호(
Figure 112012038238854-pat00031
)는 중첩 프레임들, 예를 들어, 중첩이 50%인 20 ms(16 kHz에서 320개의 샘플들) 프레임들로 분할된다. 그 다음 각각의 샘플 프레임은 적절한 윈도우, 예를 들어, 재구성 특성이 완벽한 상승 코사인 윈도우(raised-cosine window)로 곱해진다(point-wise). 그 다음 윈도우된(windowed) 음성 프레임은 분석되어 그의 스펙트럼 엔벨로프를 모델링하는 LP 파라미터들이 추정된다. 그 프레임의 이상적인 광대역 스펙트럼 엔벨로프는 ECM에 의해 제공된다. 두 개의 스펙트럼 엔벨로프들로부터, 등화기는 필터 크기 응답을 SE wb (ω)/SE mb (ω)로서 계산하고 위상 응답을 제로로 설정한다. 그런 다음 입력 프레임은 등화되어 대응하는 출력 프레임이 구해진다. 마지막으로 등화된 출력 프레임들은 중복 부가되어(overlap-added) 추정된 광대역 음성(
Figure 112012038238854-pat00032
)이 합성된다.
본 기술 분야에서 숙련된 자들은 LP 분석 외에도, 소정의 음성 프레임의 스펙트럼 엔벨로프를 구하는 다른 방법들, 예를 들어, 스펙트럼 크기 피크에 대한 켑스트럼(cepstral) 분석, 조각별(piecewise) 선형 또는 고차 곡선 적합(higher order curve fitting) 등이 있음을 인식할 것이다.
본 기술 분야에서 숙련된 자들은 또한 입력 신호(
Figure 112012038238854-pat00033
)를 직접 윈도윙하는 대신에,
Figure 112012038238854-pat00034
, rr hb , 및 n hb 의 윈도우된 버전으로 시작하여 동일한 결과를 획득할 수 있음을 인식할 것이다. 또한 등화기 필터의 프레임 크기 및 중첩 백분율을
Figure 112012038238854-pat00035
로부터
Figure 112012038238854-pat00036
를 구하는데 사용된 분석 필터 블록에 사용된 것들과 동일하게 유지하는 것이 편리할 수 있다.
Figure 112012038238854-pat00037
의 합성에 대하여 설명된 등화기 필터 접근법은 다수의 이점을 제공하며, 즉, i) 등화기 필터(413)의 위상 응답이 제로이므로, 등화기 출력의 상이한 주파수 성분들은 대응하는 입력 성분들과 시간 정렬된다. 이러한 접근법은 유성음에 유용할 수 있는데, 왜냐하면 정류된 잔류 고대역 여기(ex hb )의 고 에너지 세그먼트들(이를 테면, 성문(glottal) 펄스 세그먼트들)은 등화기 입력에서 대응하는 업샘플링된 협대역 음성(
Figure 112012038238854-pat00038
)의 고 에너지 세그먼트들과 시간 정렬되고, 이와 같은 시간 정렬은 등화기 출력에서 종종 양호한 음성 품질을 보장하기 위해 보존될 것이기 때문이며; ii) 등화기 필터(413)로의 입력은 LP 합성 필터의 경우에서와 같이 평평한 스펙트럼을 갖지 않아도 되며; iii) 등화기 필터(413)는 주파수 도메인에서 특정화되고, 따라서 다른 스펙트럼 성분들 보다 더 양호하고 더 정밀한 제어가 실행가능하며; 및 iv) 복잡성과 지연을 더 희생하여 필터링 유효성을 향상시키는 반복(iterations)도 가능하다(예를 들어, 등화기 출력은 다시 입력부로 제공되어 반복하여 등화됨으로써 성능이 향상된다).
이제 설명된 구성에 관한 어떤 부가적인 세부 사항이 제시될 것이다.
고대역 여기 전처리: 등화기 필터(413)의 크기 응답은 SE wb (ω)/SE mb (ω)로 주어지며 그의 위상 응답은 제로로 설정될 수 있다. 입력 스펙트럼 엔벨로프(SE mb (ω))가 이상적인 스펙트럼 엔벨로프(SE wb (ω))에 근접할수록, 등화기가 입력 스펙트럼 엔벨로프를 이상적인 스펙트럼 엔벨로프와 일치시키도록 정정하는 것이 더 쉽다. 고대역 여기 프리-프로세서(411)의 적어도 하나의 기능은 SE mb (ω)를 SE wb (ω)에 더 근접하게 이동시키는 것이고 그에 따라 등화기 필터(413)의 작업을 용이하게 한다. 첫 번째, 이것은 혼합기의 출력 신호(m hb )를 ECM(410)에 의해 제공된 정정된 고대역 에너지 레벨(E hb )로 스케일링함으로써 수행된다. 두 번째, 혼합기의 출력 신호(m hb )는 선택적으로 그의 스펙트럼 엔벨로프가 그의 위상 스펙트럼에 영향을 미치지 않고 ECM(410)에 의해 제공된 고대역 스펙트럼 엔벨로프(SE hb )와 일치하도록 형상화된다. 두 번째 단계는 본질적으로 전치 등화 단계를 포함할 수 있다.
저대역 여기: 적어도 부분적으로 샘플링 주파수에 의해 강요된 대역폭 제한에 의해 야기되는 고대역에서의 정보 유실과 달리, 협대역 신호의 저대역(0 내지 300 Hz)에서의 정보의 유실은 적어도 큰 측정치에서, 예를 들어, 마이크로폰, 증폭기, 음성 코더, 또는 전송 채널 등으로 구성되는 채널 전달 함수의 대역 제한 효과에 기인한다. 그 결과, 협대역 신호가 깨끗한 경우, 저대역 정보는 매우 낮은 레벨에서도 여전히 존재한다. 이와 같이 낮은 레벨의 정보는 간단한 방식으로 증폭되어 원래 신호가 복구될 수 있다. 그러나, 낮은 레벨의 신호들은 오차, 노이즈, 및 왜곡에 의해 쉽게 손상되므로 이와 같은 처리에서는 주의가 필요하다. 한가지 대안예로는 전술한 고대역 여기 신호와 유사하게 저대역 여기 신호를 합성하는 것이다. 즉, 저대역 여기 신호는 고대역 혼합기의 출력 신호(m hb )의 정보와 유사한 방식으로 저대역 정류된 잔류 신호(rr lb )와 저대역 노이즈 신호(n lb )를 합성함으로써 형성될 수 있다.
이제 도 5를 참조하면, 추정 및 제어 모듈(ECM)(410)은 입력으로서 협대역 음성(s nb ), 업샘플링된 협대역 음성(
Figure 112012038238854-pat00039
), 및 협대역 LP 파라미터들(A nb )을 수신하고 출력으로서 유성음 레벨(υ), 고대역 에너지(E hb ), 고대역 스펙트럼 엔벨로프(SE hb ), 및 광대역 스펙트럼 엔벨로프(SE wb )를 제공한다.
유성음 레벨 추정: 유성음 레벨을 추정하기 위해, 제로-크로싱 계산기(501)는 협대역 음성(s nb )의 각 프레임 내 제로 크로싱들(zc)의 개수를 아래와 같이 계산한다:
Figure 112012038238854-pat00040
여기서
Figure 112012038238854-pat00041
n은 샘플 인덱스이고, N은 프레임 크기(샘플)이다. ECM(410)에서 사용된 프레임 크기와 중첩 백분율을 앞에서 제시된 예시값들을 기준으로 등화기 필터(413) 및 분석 필터 블록들에서 사용된 것들, 예를 들어, T=20 ms, 8 kHz 샘플링에서 N=160, 16 kHz 샘플링에서 N=320, 및 중첩 50%와 동일하게 유지시키는 것이 용이하다. 위와 같이 계산된 zc 파라미터의 값은 0에서 1까지의 범위를 갖는다. zc 파라미터로부터, 유성음 레벨 추정기(502)는 유성음 레벨(υ)을 아래와 같이 추정할 수 있다.
Figure 112012038238854-pat00042
여기서, ZC low ZC high 는 각각 적절하게 선택된 저임계치 및 고임계치, 예를 들어, ZC low =0.40 및 ZC high =0.45를 나타낸다. 음절두음/파열음(onset/plosive) 검출기(503)의 출력(d)은 또한 유성음 레벨 검출기(502)에 공급될 수 있다. 만일 어떤 프레임이 d = 1인 음절두음 또는 파열음을 포함하는 것으로 플래그된(flagged) 경우, 그 프레임뿐만 아니라 다음 프레임의 유성음 레벨은 1로 설정될 수 있다. 한가지 접근법에서, 유성음 레벨이 1일 경우, 고대역 정류된 잔류 여기가 배타적으로 사용된다는 것을 상기하자. 이것은 노이즈용(noise-only) 또는 혼합된 고대역 여기에 비해 음절두음/파열음에서 유리한데, 왜냐하면 정류된 잔류 여기가 업샘플링된 협대역 음성의 에너지 대 시간 윤곽선에 근접하게 추종하고 그에 따라 대역폭이 확장된 신호에서의 시간 분산으로 인해 프리-에코 형태 아티팩트의 가능성을 저감시키기 때문이다.
고대역 에너지를 추정하기 위하여, 천이 대역(transition-band) 에너지 추정기(504)는 업샘플링된 협대역 음성 신호(
Figure 112012038238854-pat00043
)로부터 천이 대역 에너지를 추정한다. 천이 대역은 본 명세서에서 협대역 내에 포함되고 고대역에 근접한 주파수 대역으로서 규정되며, 즉, 천이 대역은 (본 예시적인 예에서 약 2500 내지 3400 Hz 인) 고대역으로의 천이 역활을 한다. 직관적으로, 고대역 에너지가 천이 대역과 잘 상관되는 것으로 예상할 수 있으며, 이는 실험에서 확인되었다. 천이 대역 에너지(E tb )를 계산하는 간단한 방법은 (예를 들어, 고속 푸리에 변환(FFT)을 통해)
Figure 112012038238854-pat00044
의 주파수 스펙트럼을 계산하고 천이 대역 내 스펙트럼 성분들의 에너지들을 합산하는 것이다.
천이 대역 에너지(E tb )(dB(데시벨))로부터, 고대역 에너지(E hb0 )(dB)는 아래와 같이 추정된다.
Ehb0 = αEtb + β,
여기서 계수들(α 및 β)은 훈련 음성 데이터베이스로부터 다수의 프레임들에 걸쳐서 고대역 에너지의 참값과 추정값 사이의 평균 자승 오차(mean squared error)를 최소화하도록 선택된다.
추정 정확성은 부가적인 음성 파라미터들 이를 테면 제로 크로싱 파라미터(zc)와 천이 대역 스펙트럼 기울기 추정기(505)에 의해 제공될 수 있는 천이 대역 스펙트럼 기울기 파라미터(sl)로부터의 문맥 정보(contextual information)를 이용함으로써 더 향상될 수 있다. 제로 크로싱 파라미터는 전술한 바와 같이 음성의 유성음 레벨을 나타낸다. 기울기 파라미터는 천이 대역 내에서의 스펙트럼 에너지의 변화율을 나타낸다. 이것은 천이 대역 내에서, 예를 들어, 직선 회귀(linear regression)를 통해 스펙트럼 엔벨로프(dB)를 직선으로서 근사화하고, 그의 기울기를 계산함으로써 협대역 LP 파라미터들(A nb )로부터 추정될 수 있다. 그 다음 zc - sl 파라미터 평면은 다수의 영역들로 분할되고 계수들(αβ)은 각 영역마다 개별적으로 선택된다. 예를 들어, 만일 zcsl 파라미터들의 범위가 각기 8개의 동일한 간격으로 분할된다면, zc - sl 파라미터 평면은 64개의 영역들로 분할되며, α β 계수들의 64개 세트들이 선택되되, 각 영역마다 하나씩 선택된다.
고대역 에너지 추정기(506)는 E hb0 의 추정시 E tb 의 고차 거듭제곱(higher powers)을 이용함으로써 추정 정확도를 추가로 향상시킬수 있으며, 예를 들어,
Figure 112012038238854-pat00045
이 경우, 5개의 상이한 계수들, 즉, α 4 3 , α 2 , α 1 ,βzc - sl 파라미터 평면의 각 분할 부분마다 선택된다. E hb0 를 추정하기 위한 전술한 수학식들(문단번호 63 및 67 참고)은 비선형이므로, 입력 신호 레벨, 즉, 에너지가 변화함에 따라 추정된 고대역 에너지를 조절하기 위해서는 특별한 관리가 필요하다. 이를 성취하기 위한 한가지 방법은 입력 신호 레벨(dB)을 추정하고, 공칭(nominal) 신호 레벨과 일치하도록 E tb 를 업다운 조절하고, E hb0 를 추정하며, 실제 신호 레벨과 일치하도록 E hb0 를 다운업 조절하는 것이다.
전술한 고대역 에너지 여기 방법이 대부분의 프레임들에 대해 아주 잘 작동하지만, 때때로 고대역 에너지가 전체적으로 과소 또는 과대하게 추정되는 프레임들이 있다. 그러한 추정 오차는 평활 필터를 포함하는 에너지 추적 평활기(507)에 의해 적어도 부분적으로 정정될 수 있다. 평활 필터는 에너지 추적시 실제 천이들이 영향받지 않는(unaffected), 예를 들어, 유성음과 무성음 세그먼트들 사이의 천이들을 통과하도록 하되, 가끔씩 발생되는 총 오차(occasional gross errors)를 다른 평활 에너지 추적시에, 예를 들어, 유성음 또는 무성음 세그먼트 내에서 정정하도록 설계될 수 있다. 이러한 목적에 적합한 필터는 메디안 필터, 예컨대, 아래의 수학식으로 기술되는 3-포인트(3-point) 메디안 필터이다.
Figure 112012038238854-pat00046
여기서 k는 프레임 인덱스이고, 메디안(·) 연산자는 그의 세 개의 인수들(arguments) 중 중앙값을 선택한다. 3-포인트 메디안 필터는 한 프레임의 지연을 발생한다. 또한 에너지 추적을 평활화하는 지연이 있거나 없는 다른 형태의 필터들이 설계될 수 있다.
평활된 에너지값(E hbl )은 에너지 적응기(energy adapter)(508)에 의해 더 적용되어 최종의 적응화된 고대역 에너지 추정치(E hb )가 구해질 수 있다. 이러한 적응화(adaptation)는 평활된 에너지값을 음절두음/파열음 검출기(503)에 의해 출력된 유성음 레벨 파라미터(υ) 및/또는 d 파라미터에 따라 감소시키거나 증가시키는 것을 포함할 수 있다. 한가지 접근법에서, 고대역 에너지값을 적응화하면 에너지 레벨뿐만 아니라 스펙트럼 엔벨로프 형상을 변화시키는데 이는 고대역 스펙트럼의 선택이 추정된 에너지와 관련될 수 있기 때문이다.
유성음 레벨 파라미터(υ)에 따라, 에너지 적응화는 아래와 같이 성취될 수 있다. 무성음 프레임에 해당하는 υ=0의 경우, 평활된 에너지값(E hbl )은 약간, 예를 들어, 3 dB 만큼 증가되어 적응화된 에너지값(E hb )이 얻어진다. 증가된 에너지 레벨은 협대역 입력에 비해 대역폭이 확장된 출력에서 무성음을 강조하며 또한 무성음 세그먼트들에 대해 더 적절한 스펙트럼 엔벨로프 형상을 선택하는데 도움을 준다. 유성음 프레임에 해당하는 υ=1의 경우, 평활된 에너지값(E hbl )은 약간, 예를 들어, 6 dB 만큼 감소되어 적응화된 에너지값(E hb )이 얻어진다. 약간 감소된 에너지 레벨은 유성음 세그먼트들에 대한 스펙트럼 엔벨로프 형상의 선택시의 어떤 오차와 결과적인 노이즈 아티팩트를 마스크하는데 도움을 준다.
유성음 레벨(υ)이 혼합된 유성음 프레임에 해당하는 0와 1 사이에 있을 경우, 에너지값은 적응화되지 않는다. 그러한 혼합된 유성음 프레임들은 전체 프레임 개수 중에서 작은 부분만을 나타내며 적응화되지 않은 에너지값들은 그러한 프레임들에 대해 양호하게 작용한다. 음절두음/파열음 검출기의 출력(d)에 따라, 에너지 적응화는 아래와 같이 수행된다. d=1인 경우, 이것은 대응하는 프레임이 음절두음, 예컨대, 침묵에서 무성음 또는 유성음으로의 천이, 또는 파열음, 예컨대, /t/를 포함함을 의미한다. 이 경우, 특정 프레임뿐만 아니라 다음 프레임의 고대역 에너지는 그의 고대역 에너지 콘텐트가 대역폭이 확장된 음성에서 저하되도록 매우 낮은 값으로 적응화된다. 이렇게 하면 그러한 프레임과 연관된 가끔씩 발생되는 아티팩트를 회피하는데 도움을 준다. d=0의 경우, 에너지가 더 이상 적응화되지 않는데, 즉, 전술한 바와 같은 유성음 레벨 v에 기반한 에너지 적응화가가 유지된다.
다음으로 광대역 스펙트럼 엔벨로프(SEwb)의 추정에 대해 설명된다. SE wb 를 추정하기 위하여, 협대역 스펙트럼 엔벨로프(SE nb ), 고대역 스펙트럼 엔벨로프(SE hb ), 및 저대역 스펙트럼 엔벨로프(SE lb )를 개별적으로 추정하고 이들 세 개의 엔벨로프들을 서로 결합할 수 있다.
협대역 스펙트럼 추정기(509)는 업샘플링된 협대역 음성(
Figure 112012038238854-pat00047
)으로부터 협대역 스펙트럼 엔벨로프(SE nb )를 추정할 수 있다.
Figure 112012038238854-pat00048
로부터, 먼저 공지의 LP 분석 기술을 이용하여 LP 파라미터들
Figure 112012038238854-pat00049
(여기서
Figure 112012038238854-pat00050
는 모델 차수임)이 계산된다. 업샘플링된 주파수가 16 kHz인 경우, 적절한 모델 차수(
Figure 112012038238854-pat00051
)는, 예를 들어, 20이다. LP 파라미터들(B nb )은 업샘플링된 협대역 음성의 스펙트럼 엔벨로프를 아래와 같이 모델링한다.
Figure 112012038238854-pat00052
상기 수학식에서, 각 주파수(angular frequency, ω)(라디안/샘플)는 ω=2πf/2Fs 로 주어지며, 여기서 f는 신호 주파수(Hz)이고 F s 는 샘플링 주파수(Hz)이다. 스펙트럼 엔벨로프(SE nbin SE usnb )는 전자가 협대역 입력 음성으로부터 유도되고 후자가 업샘플링된 협대역 음성으로부터 유도되므로 서로 다르다는 것을 주목하여야 한다. 그러나, 300 내지 3400 Hz의 통과 대역 내에서, 그 스펙트럼 엔벨로프들은 대략
Figure 112012038238854-pat00053
의 관계를 가져 소정 상수로 된다. 비록 스펙트럼 엔벨로프(SE usnb )가 0 내지 8000 (F s ) Hz 범위 이상으로 규정될지라도, 통과 대역(본 예시적인 예에서는 300 내지 3400 Hz) 내에 유용한 부분이 존재한다.
이에 대한 한가지 예시적인 예로서, FFT를 이용하여 아래와 같이 SE usnb 가 계산된다. 먼저, 역필터(B nb (z))의 임펄스 응답은 적절한 길이, 예를 들어, 1024로
Figure 112012038238854-pat00054
로서 계산된다. 그 다음 임펄스 응답이 FFT되고 크기 스펙트럼 엔벨로프(SE usnb )는 각 FFT 인덱스에서 역 크기(inverse magnitude)를 계산함으로써 구해진다. FFT 길이가 1024인 경우, 위와 같이 계산된 SE usnb 의 주파수 분해능(frequency resolution)은 16000/1024=15.625 Hz이다. SE usnb 로부터, 적절한 범위, 즉, 300 내지 3,400 Hz 내에서 스펙트럼 크기를 간단히 추출함으로써 협대역 스펙트럼 엔벨로프(SE nb )가 추정된다.
본 기술 분야에서 숙련된 자들은 LP 분석 외에, 소정의 음성 프레임의 스펙트럼 엔벨로프를 구하는 다른 방법들, 예를 들어, 켑스트럼 분석, 조각별 선형 또는 스펙트럼 크기 피크의 고차 곡선 적합 등이 있음을 인식할 것이다.
고대역 스펙트럼 추정기(510)는 입력으로서 고대역 에너지의 추정치를 수신하고 추정된 고대역 에너지와 일치하는 고대역 스펙트럼 엔벨로프 형상을 선택한다. 상이한 고대역 에너지들에 대응하는 상이한 고대역 스펙트럼 엔벨로프 형상들을 찾아내는 한가지 기술이 다음에 설명된다.
16 kHz로 샘플링된 광대역 음성으로 이루어진 대형 훈련 데이터베이스를 비롯하여, 표준 LP 분석 또는 다른 기술들을 이용하여 각 음성 프레임마다 광대역 스펙트럼 크기 엔벨로프가 계산된다. 각 프레임에 대한 광대역 스펙트럼 엔벨로프로부터, 3400 Hz에서의 스펙트럼 크기로 분할함으로써 3400 내지 8000 Hz에 대응하는 고대역 부분이 추출되고 정규화된다. 이에 따라 결과적인 고대역 스펙트럼 엔벨로프는 3400 Hz에서 0 dB의 크기를 갖는다. 각각의 정규화된 고대역 엔벨로프에 대응하는 고대역 에너지는 다음에 계산된다. 그 다음 일련의 고대역 스펙트럼 엔벨로프들은 고대역 에너지에 따라 분할되며, 예를 들어, 전체 범위를 커버하도록 1 dB 씩 다른 일련의 공칭 에너지값들이 선택되며 에너지가 공칭값의 0.5 dB 이내인 모든 엔벨로프들이 서로 그룹화된다.
그와 같이 형성된 각 그룹마다, 평균 고대역 스펙트럼 엔벨로프 형상이 계산된 다음 대응하는 고대역 에너지가 계산된다. 도 6에는 (크기(dB) 대 주파수(Hz)로 된) 에너지 레벨이 상이한 60 개의 일련의 고대역 스펙트럼 엔벨로프 형상들(600)이 도시된다. 도면의 바닥부터 카운트하여, 전술한 것과 유사한 기술을 이용하여 1번째, 10번째, 20번째, 30번째, 40번째, 50번째, 및 60번째 형상들(본 명세서에서 사전 계산된 형상들로 지칭됨)을 구했다. 나머지 53개의 형상들은 가장 근접한 사전 계산된 형상들 사이에서 간단한 선형 보간(dB 도메인에서)을 통해 얻었다.
이들 형상들의 에너지는 1번째 형상의 경우 약 4.5 dB로부터 60번째 형상의 경우 약 43.5 dB까지의 범위를 갖는다. 어떤 프레임의 고대역 에너지가 주어진다면, 나중에 본 명세서에서 설명되는 바와 같이 가장 근접하게 일치하는 고대역 스펙트럼 엔벨로프 형상을 선택하는 것은 간단한 문제이다. 선택된 형상은 소정 상수로 추정된 고대역 스펙트럼 엔벨로프(SE hb )를 나타낸다. 도 6에서, 평균 에너지 분해능은 대략 0.65 dB이다. 명확하게 말하면, 형상의 개수를 증가시킴으로써 분해능을 더 좋게 할 수 있다. 도 6의 형상들이 주어진다면, 특정 에너지에 대하여 어떤 형상이 유일하게 선택된다. 또한 소정의 에너지에 대해서 하나 이상의 형상, 예를 들어, 에너지 레벨 당 4개의 형상들이 존재하는 상황을 생각해 볼 수 있는데, 이 경우, 각각의 소정의 에너지 레벨마다 4개의 형상들 중 하나를 선택하기 위해 부가적인 정보가 필요하다. 또한, 각각의 세트가 고대역 에너지로 인덱스된 다수의 세트들의 형상들, 예를 들어, 유성음 파라미터(υ)에 의해 선택가능한 두 개의 세트들의 형상들을 가질 수 있으며, 여기서 하나의 세트는 유성음 프레임들용이고 다른 세트는 무성음 프레임들용이다. 혼합된 유성음 프레임의 경우, 두 개의 세트들로부터 선택된 두 개의 형상들이 적절히 결합될 수 있다.
전술한 고대역 스펙트럼 추정 방법은 몇 가지 명백한 이점들을 제공한다. 예를 들어, 이러한 접근법은 고대역 스펙트럼 추정치들의 시간 진화(time evolution)를 명시적으로 제어(explicit control)한다. 구분되는 음성 세그먼트들 내의 고대역 스펙트럼 추정치들, 예를 들어, 유성음, 무성음 등의 부드러운 진화는 종종 아티팩트가 없는 대역폭이 확장된 음성에 중요하다. 전술한 고대역 스펙트럼 추정 방법의 경우, 고대역 에너지의 변화가 적으면 고대역 스펙트럼 엔벨로프 형상의 변화를 적게하는 결과를 가져온다는 것이 도 6으로부터 명백하다. 따라서, 고대역 스펙트럼의 부드러운 진화는 본질적으로 확실하게 구분되는 음성 세그먼트들 내에서 고대역 에너지의 시간 진화가 부드러워지도록 함으로써 보장될 수 있다. 이것은 명백하게 전술한 바와 같은 에너지 추적 평활화를 통해 성취된다.
구분되는 음성 세그먼트들 내에서 에너지 평활화가 수행되는 그들 구분되는 음성 세그먼트들은 공지의 스펙트럼 거리 측정법, 이를 테면, 로그 스펙트럼 왜곡 또는 LP 기반 이타쿠라 왜곡(Itakura distortion) 중 어떤 하나를 이용하여 협대역 음성 스펙트럼 또는 업샘플링된 협대역 음성 스펙트럼의 변화를 프레임마다 추적함으로써 한층 더 정밀한 분해능으로 식별될 수 있음을 주목하여야 한다. 이러한 접근법을 이용하여, 구분되는 음성 세그먼트가 일련의 프레임들로서 규정될 수 있으며, 이들 프레임들 내에서 스펙트럼은 느린 속도로 진화하며 이들 프레임들은 각 측면에서 계산된 스펙트럼 변화가 소정의 또는 적응적 임계치를 초과하는 어떤 프레임으로 일괄하여 다루어지며 이로써 구분되는 음성 세그먼트의 어떤 측면에 스펙트럼 천이가 존재함을 나타낸다. 그 다음 에너지 추적은 세그먼트 경계들에 걸쳐서가 아니라 구분되는 음성 세그먼트 내에서 평활화될 수 있다.
여기서, 고대역 에너지 추적의 부드러운 진화는 구분되는 음성 세그먼트 내에서 바람직한 특성인 추정된 고대역 스펙트럼 엔벨로프의 부드러운 진화로 변경된다. 또한 구분되는 음성 세그먼트 내에서 고대역 스펙트럼 엔벨로프의 부드러운 진화를 보장하는 이러한 접근법은 또한 후처리 단계로서 종래 기술의 방법들에 의해 획득된 추정된 일련의 고대역 스펙트럼 엔벨로프들에 적용될 수 있음을 주목하여야 한다. 그러나, 그 경우, 결과적으로 고대역 스펙트럼 엔벨로프의 진화를 자동적으로 부드럽게 해준다는 현재 가르침의 간단한 에너지 추적 평활화와 달리, 고대역 스펙트럼 엔벨로프들은 구분되는 음성 세그먼트 내에서 명백하게 평활화될 필요가 있을 수 있다.
저대역(본 예시적인 예에서 0 내지 300 Hz일 수 있음)에서 협대역 음성 신호의 정보 유실은 고대역의 경우에서처럼 샘플링 주파수에 의해 강요된 대역폭 제한에 기인하지 않고, 예를 들어, 마이크로폰, 증폭기, 음성 코더, 전송 채널 등으로 구성되는 채널 전달 함수의 대역 제한 효과에 기인한다.
그 다음 저대역 신호를 복구하는 간단한 접근법은 0에서 300 Hz까지의 범위 내에서 이와 같은 채널 전달 함수의 효과를 제거하기 위한 것이다. 이렇게 하기 위한 간단한 방법은 저대역 스펙트럼 추정기(511)를 이용하여 이용가능한 데이터로부터 0에서 300 Hz까지의 주파수 범위에서 채널 전달 함수를 추정하고, 그의 역을 획득하며, 그리고 그 역을 이용하여 업샘플링된 협대역 음성의 스펙트럼 엔벨로프를 증대(boost)하는 것이다. 즉, 저대역 스펙트럼 엔벨로프(SE lb )는 SE usnb 와 (스펙트럼 엔벨로프 크기가 로그 도메인, 예를 들어, dB로 표현된 것으로 가정하여) 채널 전달 함수의 역으로부터 설계된 스펙트럼 엔벨로프 부스트 특성(SE boost )의 합산으로서 추정된다. 많은 애플리케이션 설정의 경우, SE boost 의 설계시에 주위가 필요하다. 저대역 신호의 복구는 본질적으로 저 레벨 신호의 증폭을 기반으로 하므로, 그러한 복구는 전형적으로 저 레벨 신호들과 연관된 오차, 노이즈, 및 왜곡을 증폭하는 위험을 내재하고 있다. 저 레벨 신호의 품질에 따라서, 최대의 부스트 값이 적절히 제한되어야 한다. 또한, 0에서 약 60 Hz까지의 주파수 범위 내에서, 전기적 험(hum)과 배경 노이즈의 증폭을 피하도록 낮은(또는 심지어 음전기의, 즉, 감쇄) 값들을 갖도록 SE boost 를 설계하는 것이 바람직하다.
그 다음 광대역 스펙트럼 추정기(512)는 협대역, 고대역, 및 저대역에서 추정된 스펙트럼 엔벨로프들을 결합함으로써 광대역 스펙트럼 엔벨로프를 추정할 수 있다. 이들 세 가지 엔벨로프들을 결합하여 광대역 스펙트럼 엔벨로프를 추정하는 는 한가지 방법은 아래와 같다.
협대역 스펙트럼 엔벨로프(SE nb )는 전술한 바와 같은
Figure 112012038238854-pat00055
로부터 추정되며 400에서 3200 Hz 까지의 범위 내에서 그의 값들은 광대역 스펙트럼 엔벨로프 추정치(SE wb )의 어떠한 변경없이 사용된다. 적절한 고대역 형상을 선택하기 위해서는, 고대역 에너지와 3400 Hz에서의 시작 크기 값이 필요하다. 고대역 에너지(E hb )(dB)는 전술한 바와 같이 추정된다. 3400 Hz에서 시작 크기 값은 선형 회귀(linear regression)를 통해 얻은 직선에 의해 천이 대역, 즉, 2500 내지 3400 Hz 내에서
Figure 112012038238854-pat00056
의 FFT 크기 스펙트럼(dB)을 모델링하고 3400 Hz에서 그 직선의 값을 구함으로써 추정된다. 이 크기 값을 M 3400 (dB) 라고 가정하자. 그러면 고대역 스펙트럼 엔벨로프 형상은, 예를 들어, 도 6에 도시된 바와 같이 많은 값들 중 하나로 선택되며, 선택된 하나의 값은 E hb - M 3400 에 가장 근접한 에너지값을 갖는다. 이 형상을 SE closest 라고 가정하자. 그러면 고대역 스펙트럼 엔벨로프 추정치(SE hb )와 그에 따른 3400에서 8000 Hz까지의 범위 내에서의 광대역 스펙트럼 엔벨로프(SE wb )는 SE closest + M 3400 으로서 추정된다.
3200과 3400 Hz 사이에서, SE wb SE nb 와 3200 Hz에서 SE nb 와 3400 Hz에서 M 3400 를 연결하는 직선 사이에서 선형적으로 보간된 값(dB)로서 추정된다. 보간된 팩터 그 자체는 선형적으로 변경되어 추정된 SE wb 가 3200 Hz에서 SE nb 부터 3400 Hz에서 M 3400 로 점차 이동하도록 한다. 0와 400 Hz 사이에서, 저대역 스펙트럼 엔벨로프(SE lb )와 광대역 스펙트럼 엔벨로프(SE wb )는 (SE nb + SE boost )로서 추정되며, 여기서 SE boost 는 전술한 바와 같이 채널 전달 함수의 역으로부터 적절하게 설계된 부스트 특성을 나타낸다.
전술한 바와 같이, 음절두음 및/또는 파열음을 포함하는 프레임들은 대역폭이 확장된 음성에서 가끔씩의 아티팩트를 회피하는 특수 처리로 이익을 얻을 수 있다. 그러한 프레임들은 선행 프레임들에 대해 이들의 에너지 급증으로 식별될 수 있다. 어떤 프레임에 대한 음절두음/파열음 검출기(503)의 출력(d)은 선행 프레임의 에너지가 저하되고, 즉, 소정의 임계치, 예컨대, -50 dB 이하이고, 선행 프레임에 대한 현재 프레임의 에너지 증가가 또 다른 임계치, 예컨대, 15 dB를 초과할 때마다 1로 설정된다. 그렇지 않으면, 검출기의 출력(d)은 0로 설정된다. 프레임 에너지 그 자체는 협대역, 즉, 300 내지 3400 Hz 내에서 업샘플링된 협대역 음성(
Figure 112012038238854-pat00057
)의 FFT 크기 스펙트럼의 에너지로부터 계산된다. 전술한 바와 같이, 음절두음/파열음 검출기(503)의 출력(d)은 유성음 레벨 추정기(502)와 에너지 적응기(508)에 공급된다. 전술한 바와 같이, 어떤 프레임이 d=1인 음절두음 또는 파열음을 포함하는 것으로서 플래그될 때마다, 그 프레임뿐만 아니라 다음 프레임의 유성음 레벨(υ)은 1로 설정된다. 또한, 그 프레임뿐만 아니라 다음 프레임의 적응화된 고대역 에너지 값(E hb )은 낮은 값으로 설정된다.
스펙트럼 엔벨로프, 제로 크로싱, LP 계수, 대역 에너지 등과 같은 파라미터들의 추정에 대해 앞에서 소정 경우에 협대역 음성으로부터 그리고 다른 경우에 업샘플링된 협대역 음성으로부터 수행되는 특정한 예들로 기술되었지만, 본 기술 분야에서 숙련된 자들은 각각의 파라미터들의 추정과 이들의 이후의 사용 및 응용예들은 설명된 가르침의 정신 및 범주로부터 일탈함이 없이 이들 두 가지 신호들 중 어느 하나(협대역 음성 또는 업샘플링된 협대역 음성)로부터 수행되도록 변형될 수 있음을 인식할 것이다.
본 기술 분야에서 숙련된 자들은 본 발명의 정신 및 범주로부터 일탈함이 없이 전술한 실시예들에 대하여 광범위한 변형, 변경, 및 결합이 이루어질 수 있으며, 그러한 변형, 변경, 및 결합이 본 발명의 개념의 범주 내에 속하는 것으로 간주된다는 것을 인식할 것이다.

Claims (13)

  1. 오디오 신호의 대역폭 확장에서 오디오 콘텐트를 렌더링하기 위한 방법으로서,
    대역폭 확장 시스템에서의 음성 디코더에 의해, 대응 신호 대역폭을 갖는 디지털 오디오 신호를 제공하는 단계;
    상기 대역폭 확장 시스템에서의 음성 디코더에 의해, 적어도 상기 디지털 오디오 신호에 대응하는 신호 대역폭 외 콘텐트(out-of-signal bandwidth content)에 포함된 전체 에너지의 추정(estimate)을 나타내는 에너지 값을 생성하는 단계;
    상기 음성 디코더에 의해, 상기 신호 대역폭 외 콘텐트에 대한 시작 크기 값을 생성하는 단계;
    상기 음성 디코더에 의해, 상기 시작 크기 값을 이용하여 상기 에너지 값을 정규화하는 단계; 및
    상기 음성 디코더에 의해, 상기 디지털 오디오 신호에 대응하는 신호 대역폭 외 콘텐트에 대해, 스펙트럼 엔벨로프 형상을 결정하기 위해 상기 정규화된 에너지 값을 이용하고, 상기 스펙트럼 엔벨로프 형상에 대응하는 에너지를 결정하기 위해 상기 시작 크기 값을 이용하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 디지털 오디오 신호를 제공하는 단계는, 상기 음성 디코더에 의해, 합성된 음성 콘텐트(vocal content)를 제공하는 단계를 포함하는 방법.
  3. 제1항에 있어서, 상기 정규화된 에너지 값을 이용하는 단계는, 대응하는 복수의 후보 스펙트럼 엔벨로프 형상들을 포함하는 룩업 테이블에 액세스하기 위해 적어도 부분적으로 상기 정규화된 에너지 값을 이용하는 단계를 포함하는 방법.
  4. 제1항에 있어서, 상기 신호 대역폭 외 에너지는 상기 디지털 오디오 신호의 상기 대응 신호 대역폭보다 주파수가 더 높은 신호 콘텐트를 나타내는 에너지를 포함하는 방법.
  5. 제1항에 있어서, 상기 신호 대역폭 외 에너지는 상기 디지털 오디오 신호의 상기 대응 신호 대역폭보다 주파수가 더 낮은 신호 콘텐트를 나타내는 에너지를 포함하는 방법.
  6. 제1항에 있어서,
    상기 음성 디코더에 의해, 상기 디지털 오디오 신호의 대역폭이 확장된 버전을 제공하여 가청적으로 랜더링(audibly rendered)함으로써 이와 같이 랜더링된 상기 디지털 오디오 신호의 대응하는 오디오 품질을 향상시키기 위해 상기 디지털 오디오 신호와 상기 신호 대역폭 외 콘텐트를 결합하는 단계를 더 포함하는 방법.
  7. 제6항에 있어서, 상기 신호 대역폭 외 콘텐트는 상기 대응 신호 대역폭 내에 속하는 콘텐트와 중첩되고 상기 대응 신호 대역폭 내에 속하는 콘텐트의 일부를 포함하는 방법.
  8. 제7항에 있어서, 상기 디지털 오디오 신호와 상기 신호 대역폭 외 콘텐트를 결합하는 단계는 상기 대응 신호 대역폭 내에 속하는 콘텐트의 일부와 상기 디지털 오디오 신호의 대응하는 대역 내 부분(in-band portion)을 결합하는 단계를 더 포함하는 방법.
  9. 오디오 신호의 대역폭 확장 장치로서,
    대응 신호 대역폭을 갖는 디지털 오디오 신호를 수신하도록 구성되고 배열된 입력부; 및
    상기 입력부에 동작가능하게 연결된 프로세서 - 상기 프로세서는, 적어도 상기 디지털 오디오 신호에 대응하는 신호 대역폭 외 콘텐트(out-of-signal bandwidth content)에 포함된 전체 에너지의 추정(estimate)을 나타내는 에너지 값을 생성하고, 상기 신호 대역폭 외 콘텐트에 대한 시작 크기 값을 생성하고, 상기 시작 크기 값을 이용하여 상기 에너지 값을 정규화하고, 상기 디지털 오디오 신호에 대응하는 신호 대역폭 외 콘텐트에 대해, 스펙트럼 엔벨로프 형상을 결정하기 위해 상기 정규화된 에너지 값을 이용하고, 상기 스펙트럼 엔벨로프 형상에 대응하는 에너지를 결정하기 위해 시작 크기 값을 이용하도록 구성되고 배열됨 -
    를 포함하는 오디오 신호의 대역폭 확장 장치.
  10. 삭제
  11. 제1항에 있어서,
    스펙트럼 엔벨로프 형상 및 상기 스펙트럼 엔벨로프 형상에 대응하는 에너지를 결정하기 위해 상기 정규화된 에너지 값과 상기 시작 크기 값을 이용하는 단계는 상기 스펙트럼 엔벨로프 형상 및 상기 스펙트럼 엔벨로프 형상에 대응하는 에너지를 동시에 결정하기 위해 상기 정규화된 에너지 값과 상기 시작 크기 값을 이용하는 단계를 포함하는 방법.
  12. 삭제
  13. 제9항에 있어서,
    상기 프로세서는 상기 스펙트럼 엔벨로프 형상 및 상기 스펙트럼 엔벨로프 형상에 대응하는 에너지를 동시에 결정하기 위해, 상기 정규화된 에너지 값 및 상기 시작 크기 값을 이용하도록 구성되고 배열되는 오디오 신호의 대역폭 확장 장치.
KR20127012371A 2007-11-29 2008-10-09 오디오 신호의 대역폭 확장 방법 및 장치 KR101482830B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/946,978 US8688441B2 (en) 2007-11-29 2007-11-29 Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US11/946,978 2007-11-29
PCT/US2008/079366 WO2009070387A1 (en) 2007-11-29 2008-10-09 Method and apparatus for bandwidth extension of audio signal

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020107011802A Division KR20100086018A (ko) 2007-11-29 2008-10-09 오디오 신호의 대역폭 확장 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20120055746A KR20120055746A (ko) 2012-05-31
KR101482830B1 true KR101482830B1 (ko) 2015-01-15

Family

ID=40149754

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020107011802A KR20100086018A (ko) 2007-11-29 2008-10-09 오디오 신호의 대역폭 확장 방법 및 장치
KR20127012371A KR101482830B1 (ko) 2007-11-29 2008-10-09 오디오 신호의 대역폭 확장 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020107011802A KR20100086018A (ko) 2007-11-29 2008-10-09 오디오 신호의 대역폭 확장 방법 및 장치

Country Status (8)

Country Link
US (1) US8688441B2 (ko)
EP (1) EP2232223B1 (ko)
KR (2) KR20100086018A (ko)
CN (2) CN102646419B (ko)
BR (1) BRPI0820463B1 (ko)
MX (1) MX2010005679A (ko)
RU (1) RU2447415C2 (ko)
WO (1) WO2009070387A1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8326641B2 (en) * 2008-03-20 2012-12-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
EP2502231B1 (en) * 2009-11-19 2014-06-04 Telefonaktiebolaget L M Ericsson (PUBL) Bandwidth extension of a low band audio signal
WO2011121782A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 帯域拡張装置および帯域拡張方法
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
CN102473417B (zh) 2010-06-09 2015-04-08 松下电器(美国)知识产权公司 频带扩展方法、频带扩展装置、集成电路及音频解码装置
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
KR20120016709A (ko) * 2010-08-17 2012-02-27 삼성전자주식회사 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8583425B2 (en) * 2011-06-21 2013-11-12 Genband Us Llc Methods, systems, and computer readable media for fricatives and high frequencies detection
RU2725416C1 (ru) * 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
US9601125B2 (en) 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
AU2014371411A1 (en) 2013-12-27 2016-06-23 Sony Corporation Decoding device, method, and program
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN106997767A (zh) * 2017-03-24 2017-08-01 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
EP3382702A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
CN107863095A (zh) 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108156575B (zh) 2017-12-26 2019-09-27 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN108156561B (zh) 2017-12-26 2020-08-04 广州酷狗计算机科技有限公司 音频信号的处理方法、装置及终端
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN112259117B (zh) * 2020-09-28 2024-05-14 上海声瀚信息科技有限公司 一种目标声源锁定和提取的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
KR20050010744A (ko) * 2002-07-19 2005-01-28 닛본 덴끼 가부시끼가이샤 오디오 복호 장치와 복호 방법 및 프로그램

Family Cites Families (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH02166198A (ja) 1988-12-20 1990-06-26 Asahi Glass Co Ltd ドライクリーニング用洗浄剤
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5245589A (en) * 1992-03-20 1993-09-14 Abel Jonathan S Method and apparatus for processing signals to extract narrow bandwidth features
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5949878A (en) * 1996-06-28 1999-09-07 Transcrypt International, Inc. Method and apparatus for providing voice privacy in electronic communication systems
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
KR20000047944A (ko) * 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
JP4063670B2 (ja) * 2001-01-19 2008-03-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 広帯域信号伝送システム
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
JP3597808B2 (ja) 2001-09-28 2004-12-08 トヨタ自動車株式会社 無段変速機の滑り検出装置
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
KR20040066835A (ko) * 2001-11-23 2004-07-27 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 대역폭 확장기 및 광대역 오디오 신호 생성 방법
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR100917464B1 (ko) * 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20050065784A1 (en) * 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP2005136647A (ja) * 2003-10-30 2005-05-26 New Japan Radio Co Ltd 低音ブースト回路
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR100708121B1 (ko) 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
BRPI0607646B1 (pt) * 2005-04-01 2021-05-25 Qualcomm Incorporated Método e equipamento para encodificação por divisão de banda de sinais de fala
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
PL1875463T3 (pl) * 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR101171098B1 (ko) * 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070109977A1 (en) * 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US20080004866A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Artificial Bandwidth Expansion Method For A Multichannel Signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
DE602006009927D1 (de) 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
US8688441B2 (en) 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
KR20050010744A (ko) * 2002-07-19 2005-01-28 닛본 덴끼 가부시끼가이샤 오디오 복호 장치와 복호 방법 및 프로그램

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Epps, J. et al. "A New Technique for Wideband Enhancement of Coded Narrowband Speech", In : Speech Coding Proceedings, 1999 IEEE Workshop on, 1999, pages 174-176. *
Epps, J. et al. "A New Technique for Wideband Enhancement of Coded Narrowband Speech", In : Speech Coding Proceedings, 1999 IEEE Workshop on, 1999, pages 174-176.*

Also Published As

Publication number Publication date
MX2010005679A (es) 2010-06-02
RU2447415C2 (ru) 2012-04-10
KR20120055746A (ko) 2012-05-31
CN102646419B (zh) 2015-04-22
BRPI0820463B1 (pt) 2019-03-06
US20090144062A1 (en) 2009-06-04
EP2232223B1 (en) 2016-06-15
CN101878416A (zh) 2010-11-03
BRPI0820463A2 (pt) 2015-06-16
RU2010126497A (ru) 2012-01-10
WO2009070387A1 (en) 2009-06-04
BRPI0820463A8 (pt) 2015-11-03
CN102646419A (zh) 2012-08-22
KR20100086018A (ko) 2010-07-29
EP2232223A1 (en) 2010-09-29
CN101878416B (zh) 2012-06-06
US8688441B2 (en) 2014-04-01

Similar Documents

Publication Publication Date Title
KR101482830B1 (ko) 오디오 신호의 대역폭 확장 방법 및 장치
EP2238594B1 (en) Method and apparatus for estimating high-band energy in a bandwidth extension system
EP2238593B1 (en) Method and apparatus for estimating high-band energy in a bandwidth extension system for audio signals
EP2144232B1 (en) Apparatus and methods for enhancement of speech
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
US6988066B2 (en) Method of bandwidth extension for narrow-band speech
US8069038B2 (en) System for bandwidth extension of narrow-band speech
US8265940B2 (en) Method and device for the artificial extension of the bandwidth of speech signals
CA3109028C (en) Optimized scale factor for frequency band extension in an audio frequency signal decoder
EP2394269A1 (en) Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
EP2951825B1 (en) Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171227

Year of fee payment: 4