KR20100123712A - 대역폭 확장 시스템에서 고대역 에너지를 추정하기 위한 방법 및 장치 - Google Patents

대역폭 확장 시스템에서 고대역 에너지를 추정하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20100123712A
KR20100123712A KR1020107019971A KR20107019971A KR20100123712A KR 20100123712 A KR20100123712 A KR 20100123712A KR 1020107019971 A KR1020107019971 A KR 1020107019971A KR 20107019971 A KR20107019971 A KR 20107019971A KR 20100123712 A KR20100123712 A KR 20100123712A
Authority
KR
South Korea
Prior art keywords
high band
band energy
energy
energy level
estimated
Prior art date
Application number
KR1020107019971A
Other languages
English (en)
Other versions
KR101199431B1 (ko
Inventor
마크 에이. 자시유크
텐카시 브이. 라마바드란
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20100123712A publication Critical patent/KR20100123712A/ko
Application granted granted Critical
Publication of KR101199431B1 publication Critical patent/KR101199431B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Abstract

방법(100)은 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하는 단계(101)를 포함한다. 입력 디지털 오디오 신호는 프로세싱되어 프로세싱된 디지털 오디오 신호를 생성한다(102). 대역폭 확장 입력 디지털 오디오 신호에 대응하는 고대역 에너지 레벨의 추정이 결정된다(103). 추정 정확도 및/또는 협대역 신호 특성들에 기초하여 추정된 고대역 에너지 레벨의 수정이 행해진다(104). 고대역 디지털 오디오 신호가 수정된 고대역 에너지 레벨의 추정 및 고대역 에너지 레벨의 수정된 추정에 대응하는 추정된 고대역 스펙트럼에 기초하여 생성된다(105).

Description

대역폭 확장 시스템에서 고대역 에너지를 추정하기 위한 방법 및 장치{METHOD AND APPARATUS FOR ESTIMATING HIGH-BAND ENERGY IN A BANDWIDTH EXTENSION SYSTEM}
관련 출원들
본 출원은 공동 계류중이고 공동 소유이며 전체가 본원에 참조로서 통합되어 있는 2007년 11월 29일에 출원된 미국 특허 출원 번호 11/946,978과 관련된다. 본 출원은 공동 계류중이고 공동 소유이며 본원에 참조로서 부가적으로 통합되어 있는 2008년 2월 1일자로 출원된 미국 특허 출원 번호 12/024,620과 관련된다.
본 발명은 일반적으로 가청 콘텐츠(contents)를 렌더링(rendering)하는 것에 관한 것으로, 특히 대역폭 확장 기술들에 관한 것이다.
디지털 표현(digital representation)으로부터 오디오 콘텐츠(audio contents)를 가청 렌더링하는 것은 공지된 노력의 영역을 포함한다. 일부 애플리케이션(application) 설정에서, 디지털 표현들은 원 오디오 샘플과 관련되는 완전 대응 대역폭을 포함한다. 그와 같은 경우에, 가청 렌더링은 매우 정확하고 자연스런 음향 출력을 포함할 수 있다. 그러나 그와 같은 방법은 대응하는 데이터의 양을 수용하는데 상당한 오버헤드(overhead) 자원들을 필요로 한다. 예를 들어 무선 통신 설정들과 같은 많은 애플리케이션 설정들에서, 그러한 정보의 양은 항상 알맞게 지원될 수 있는 건 아니다.
이와 같은 한계를 수용하기 위해서, 소위 협대역 음성 기술들은, 상기 표현들을 원 오디오 샘플 정보와 관련되는 완전한 대응 대역폭보다 적게 차례대로 제한함으로써 정보의 양을 제한하는데 이바지할 수 있다. 이 점에 있어서 하나의 예를 제외하고, 자연스런 음성은 8kHz까지(또는 보다 높은)의 중요한 성분들을 포함하지만, 협대역 표현은 단지 말하자면 300 내지 3,400Hz 범위에 관한 정보만을 제공할 수 있다. 이 결과에 따른 콘텐츠는, 들을 수 있도록 렌더링될 때, 전형적으로 충분히 이해 가능하여 음성 기반 통신의 기능적 요구 사항들을 지원한다. 그러나, 불행하게도, 협대역 음성 프로세싱(processing)은 또한 청취 시 잘 안 들리는 음성을 생성하는 경향이 있어서 심지어 전대역 음성과 비교하여 이해가능성이 감소됐을 수 있다.
이 부족함을 만족시키기 위해, 때로는 대역폭 확장 기술들이 채용된다. 이용 가능한 협대역 정보뿐만 아니라 다른 정보를 기반으로 하여 더 높고/높거나 더 낮은 대역들에서의 손실 정보를 인위적으로 발생시키고 협대역 콘텐츠에 추가될 수 있는 정보를 선택함으로써 의사 광(전) 대역 신호(pseudo wide(full) band signal)를 합성한다. 예를 들어 이와 같은 기술들을 사용함으로써, 300 내지 3400Hz 범위 내의 협대역 음성을 광 대역 음성, 즉, 100 내지 8000Hz 범위로 변환할 수 있다. 이 목적을 위해서, 필요한 정보의 임계 피스(critical piece)는 고대역(3400 내지 8000Hz)에서 스펙트럼 포락선(spectral envelope)이다. 광대역 스펙트럼 포락선이 추정되는 경우, 고대역 스펙트럼 포락선은 일반적으로 광대역 스펙트럼 포락선으로부터 용이하게 추출될 수 있다. 고대역 스펙트럼 포락선이 형상 및 이득(또는 등가적으로 에너지)으로 구성되는 것으로 생각할 수 있다.
예를 들어, 하나의 방법에 의해, 고대역 스펙트럼 포락선 형상은 협대역 스펙트럼 포락선으로부터 코드북 매핑(codebook mapping)을 통해 광대역 스펙트럼 포락선을 추정함으로써 추정된다. 이때 고대역 에너지는 협대역 스펙트럼 포락선의 에너지를 매칭하도록 광대역 스펙트럼 포락선의 협대역 섹션 내의 에너지를 조정함으로써 추정된다. 이 방법에서, 고대역 스펙트럼 포락선 형상은 고대역 에너지를 결정하고, 형상을 추정하는데 있어서의 임의의 실수들은 또한 이에 상응하여 고대역 에너지의 추정들에 영향을 미칠 것이다.
다른 방법에서, 고대역 스펙트럼 포락선 형상 및 고대역 에너지는 개별적으로 추정되고, 최종적으로 사용되는 고대역 스펙트럼 포락선은 추정된 고대역 에너지와 매칭하도록 조정된다. 하나의 관련된 방법에 의해서 다른 파라미터들 이외에 추정된 고대역 에너지가 사용되어 고대역 스펙트럼 포락선 형상을 결정한다. 그러나, 그 결과에 따른 고대역 스펙트럼 포락선은 적절한 고대역 에너지를 갖는 것을 반드시 보장하는 것은 아니다. 그러므로 고대역 스펙트럼 포락선의 에너지를 추정된 값으로 조정하기 위해 추가 단계가 필요하다. 특수한 조처가 취해지지 않는 경우, 이 방법은 협대역 및 고대역 사이의 경계에서 광대역 스펙트럼 포락선에서의 불연속점을 발생시킬 것이다. 대역폭 확장, 특히 고대역 포락선 추정에 대한 기존 방법들이 당연히 성공할지라도, 상기 방법들이 적어도 일부 애플리케이션 설정들에서는 그 결과에 있어서 적절한 품질의 음성을 반드시 산출하지는 않는다.
허용 가능한 품질의 대역폭 확장 음성을 생성하기 위해, 그와 같은 음성에서의 아티팩트(artifact)들의 수는 최소화되어야 한다. 고대역 에너지의 과대 추정은 성가신 아티팩트들을 발생시키는 것으로 알려져 있다. 고대역 스펙트럼 포락선 형상의 부정확한 추정 또한 아티팩트들을 야기하지만 이 아티팩트들은 일반적으로 더 약하므로 협대역 음성에 의해 용이하게 감춰질 수 있다.
본 발명에 따르면, 방법이 제공되고, 상기 방법은: 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하는 단계; 상기 입력 디지털 오디오 신호에 대응하는 추정된 고대역 에너지 레벨을 결정하는 단계; 및 추정 정확도 및/또는 상기 협대역 신호 특성들에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계를 포함한다.
본 발명에 따르면, 장치가 제공되고, 상기 장치는: 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하고, 상기 입력 디지털 오디오 신호에 대응하는 추정된 고대역 에너지 레벨을 생성하고, 추정 정확도 및/또는 협대역 신호 특성들에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 추정 및 제어 모듈을 포함한다.
본 발명에 따르면, 다른 방법이 제공되고, 상기 방법은: 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하는 단계; 상기 입력 디지털 오디오 신호에 대응하는 추정된 고대역 에너지 레벨을 수신하는 단계; 및 상기 추정 정확도 및/또는 상기 협대역 신호 특성들에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계를 포함한다.
상술한 바와 같이, 본 발명에 의해, 허용 가능한 품질의 대역폭 확장 음성을 생성하는데 있어서 음성에서의 아티팩트들의 수가 최소화되고, 적절한 품질의 음성이 생성된다.
도 1은 본 발명의 다양한 실시예들에 따라 구성되는 흐름도.
도 2는 본 발명의 다양한 실시예들에 따라 구성되는 그래프.
도 3은 본 발명의 다양한 실시예들에 따라 구성되는 블록도.
도 4는 본 발명의 다양한 실시예들에 따라 구성되는 블록도.
도 5는 본 발명의 다양한 실시예들에 따라 구성되는 블록도.
도 6은 본 발명의 다양한 실시예들에 따라 구성되는 그래프.
상술한 필요성은 적어도 부분적으로 다음의 상세한 설명에서 기술되는 대역폭 확장 시스템에서의 고대역 에너지를 추정하기 위한 방법 및 장치의 제공을 통해 적어도 부분적으로 만족된다. 첨부 도면들은, 동일한 참조 번호들이 개별 도면들 전체에 걸쳐 동일하거나 기술적으로 유사한 요소들을 언급하고 아래 상세한 설명과 함께 명세서에 통합되어 일부를 형성하므로, 다양한 실시예들은 한층 더 예시하고 본 발명에 따른 다양한 원리들 및 이점들을 설명하는데 이바지한다.
당업자들은 도면에서의 요소들이 간소하고 명료하게 도시되어 반드시 축적대로 도시될 필요가 없음을 인식할 것이다. 예를 들어, 도면들에서 일부 요소들의 치수들 및/또는 상대적인 위치는 본 발명의 다양한 실시예들의 이해를 개선하는데 도움을 주도록 다른 요소들에 비해 확대될 수 있다. 또한, 흔하지만 널리 이해되는 요소들은 상업적으로 가능한 실시예에서 유용하거나 필요할지라도 본 발명의 이러한 다양한 실시예들의 전망을 보다 적게 방해하도록 하기 위해 종종 도시되지 않는다. 특정한 동작들 및/또는 단계들은 특정한 발생 순서로 도시되거나 설명될 수 있으나 당업자는 시퀀스에 대한 그러한 특수성은 실제로 필요하지 않다는 것을 이해할 것임이 더욱 인식될 것이다. 본원에서 사용되는 용어들 및 표현들은, 상이한 특수한 의미들이 본원에서 달리 설명되는 경우를 제외하고, 위에서 설명된 바와 같이 본 기술 분야에서의 당업자들에 의한 용어들 및 표현들에 허용되는 것과 마찬가지로 일반적인 기술적인 의미를 지니는 것이 또한 이해될 것이다.
본원에서 논의되는 내용들은 인공 대역폭 확장을 위한 비용 효율적인 방법 및 시스템에 관한 것이다. 그와 같은 내용들에 따르면, 협대역 디지털 오디오 신호가 수신된다. 협대역 디지털 오디오 신호는 예를 들어, 셀룰러 네트워크(cellular network) 내의 이동국(mobile station)을 통해 수신되는 신호일 수 있고, 협대역 디지털 오디오 신호는 300 내지 3400Hz의 주파수 범위에 있는 음성을 포함할 수 있다. 인공 대역폭 확장 기술은 100 내지 300Hz와 같은 저 대역 주파수들 및 3400 내지 8000Hz와 같은 고 대역 주파수들을 포함하도록 디지털 오디오 신호의 스펙트럼을 확장시켜서 구현된다. 저 대역 및 고 대역 주파수들을 포함하도록 스펙트럼을 확장하는 인공 대역폭 확장을 사용함으로써, 상기 기술을 구현한 이동국의 사용자에게 더욱 만족스런 자연스런 소리의 디지털 오디오 신호가 생성된다.
인공 대역폭 확장 기술들에서, 보다 높은(3400 내지 8000Hz) 및 보다 낮은(100 내지 300Hz) 대역들에서의 손실 정보는 이용 가능한 협대역 정보뿐만 아니라 음성 데이터베이스로부터 도출되고 저장되며 의사 광 대역 신호를 합성하도록 협대역 신호에 추가되는 선험적 정보(apriori information)에 기초하여 인위적으로 생성된다. 이러한 해법은 기존 송신 시스템에 최소 변화들을 요구하기 때문에 매우 매력적이다. 예를 들어, 추가적인 비트율(bit rate)이 필요하지 않다. 인공 대역폭 확장은 수신 종단에서 후프로세싱(post processing) 요소와 통합될 수 있으므로 통신 시스템에서 사용되는 음성 코딩 기술 또는 통신 시스템의 특징 자체, 예를 들어 아날로그, 디지털, 지상선 또는 셀룰러와는 독립적이다. 예를 들어, 인공 대역폭 확장 기술들은 협대역 디지털 오디오 신호를 수신하는 이동국에 의해 구현될 수 있고, 그 결과에 따른 광 대역 신호는 이동국의 사용자에게 재생되는 오디오를 발생시키는데 사용된다.
고 대역 정보를 결정하는데 있어서, 우선 고 대역에서의 에너지가 추정된다. 협대역 신호의 서브세트(subset)는 고대역 에너지를 추정하는데 사용된다. 고대역 주파수에 가장 근접한 협대역 신호의 서브세트(subset)는 고대역 신호와 가장 높은 상관성을 갖는다. 따라서, 전체 협대역과는 대조적으로, 상기 협대역의 서브세트만이 고대역 에너지를 추정하는데 사용된다. 사용되는 서브세트는 "전이 대역(transition band)"로 칭해지고, 2500 내지 3400Hz와 같은 주파수들을 포함할 수 있다. 보다 구체적으로, 전이 대역은 본원에서 협대역 내에 포함되고 고대역에 접한 주파수 대역으로 정의되고, 즉, 그것은 고대역으로의 전이 역할을 한다. 이 방법은 종래 기술과는 달리 전체 협대역에서의 에너지에 의해 고대역 에너지를 통상적으로 비율로 추정하는 대역폭 확장 시스템들이다.
고대역 에너지를 추정하기 위해, 전이 대역 에너지는 우선 아래의 도 4 및 도 5에 관하여 논의되는 기술들을 통해서 추정된다. 예를 들어, 전이 대역의 전이 대역 에너지는 우선 입력되는 협대역 신호를 업 샘플링(up sampling)하고, 업 샘플링된 협대역 신호의 주파수 스펙트럼을 계산하고나서, 전이 대역 내의 스펙트럼 성분들의 에너지들을 합산함으로써 계산될 수 있다. 후속해서 추정된 전이 대역 에너지는 다항식에 독립 변수로서 삽입되어 고대역 에너지를 추정한다. 영(0)차 거듭제곱, 즉 상수항을 포함하는 다항식에서의 독립 변수의 상이한 거듭제곱의 계수들 또는 가중치들은 트레이닝 음성 데이터베이스(training speech database)로부터 아주 많은 수의 프레임(frame)들에 걸친 고대역 에너지의 참값 및 추정값 사이의 평균 제곱 에러(mean squared error)를 최소화하도록 선택된다. 추정 정확도는 협대역 신호로부터 도출되는 파라미터들뿐만 아니라 아래에서 더 자세하게 논의되는 전이 대역 신호로부터 도출되는 파라미터들에 대한 추정을 조정함으로써 더욱 강화될 수 있다. 고대역 에너지가 추정된 이후에, 고대역 스펙트럼은 고대역 에너지 추정에 기초하여 추정된다.
이 방식으로 전이 대역을 사용함으로써, 전체 협대역에서의 에너지가 고대역 에너지를 추정하는데 사용된다면 가능할 수 있는 대응하는 더욱 고품질의 오디오 신호를 생성하는 강력한 확장 기술이 제공된다. 더욱이, 이 기술은 기존 통신 시스템들에 과도하게 불리한 영향을 주지 않고도 이용될 수 있는데, 왜냐하면, 상기 대역폭 확장 기술들은 통신 시스템을 통해 수신되는 협대역 신호에 적용, 즉 기존 통신 시스템들이 협대역 신호들을 송신하는데 사용될 수 있기 때문이다.
도 1은 본 발명의 다양한 실시예들에 따라 대역폭 확장 디지털 오디오 신호를 생성하기 위한 프로세스(100)를 도시한다. 우선, 동작 101에서, 협대역 디지털 오디오 신호가 수신된다. 전형적인 애플리케이션 설정에서, 이는 그와 같은 콘텐츠의 복수의 프레임들을 제공하는 것을 포함한다. 이 내용들은 기술된 단계들에 따라서 각각의 그와 같은 프레임들을 프로세싱하는데 용이하게 적응한다. 예를 들어 하나의 방법에 의하면, 각각의 그와 같은 프레임은 원 오디오 콘텐츠의 10 내지 40 밀리초들에 대응한다.
예를 들어 이는 합성된 음성 콘텐츠를 포함하는 디지털 오디오 신호를 제공하는 것을 포함한다. 그와 같은 경우는 예를 들어 휴대용 통신 디바이스에서 수신된 보코딩(vocoding)된 음성 콘텐츠와 함께 이 내용들을 채용할 때이다. 그러나 당업계에 의해 충분히 이해되는 바와 같이 다른 가능성 또한 존재한다. 예를 들어, 디지털 오디오 신호는 대신에 원 음성 신호 또는 원 음성 신호 또는 합성된 음성 콘텐츠 중 하나의 재샘플링된 버전을 포함할 수 있다.
잠시 도 2를 참조하면, 이 디지털 오디오 신호가 원 대응하는 신호 대역폭(202)을 가지는 일부 원 오디오 신호(201)에 관련되는 것이 이해될 것이다. 이 원 대응하는 신호 대역폭(202)은 전형적으로 디지털 오디오 신호에 대응하는 상술한 신호 대역폭보다 더 클 것이다. 예를 들어 이는 디지털 오디오 신호가 원 오디오 신호(201)의 일부만을 표시하고 다른 부분들이 대역 외에 남아 있을 때 발생할 수 있다. 도시된 설명의 예에서, 이는 저대역 부분(204) 및 고대역 부분(205)을 포함한다. 당업자는 이 예가 단지 설명을 목적으로 제공되고 표시되지 않은 부분은 단지 저대역 부분 또는 고대역 부분을 포함할 수 있음일 인식할 것이다. 이 내용들은 표시되지 않은 부분이 둘 이상의 표시된 부분들의 중간대역(도시되지 않음)이 되도록 하는 애플리케이션 설정에서 사용하는데 적용 가능할 것이다.
그러므로, 원 오디오 신호(201)의 표시되지 않은 부분(들)은, 상기 본 내용들이 합리적으로 대체하거나 그렇지 않으면 어떤 합당하고 허용 가능한 방식으로 표현하려고 하는 콘텐츠를 포함하는 것이 용이하게 이해될 것이다. 이 신호 대역폭이 관련된 샘플링 주파수에 의해 결정되는 나이키스트(Nyquist) 대역폭의 일부만을 점유하는 것이 또한 이해될 것이다. 이는 계속해서 원하는 대역폭 확장에 영향을 주는 주파수 영역을 더 제공하는 것이 이해될 것이다.
다시 도 1을 참조하면, 동작 102에서 입력 디지털 오디오 신호가 프로세싱되어 프로세싱된 디지털 오디오 신호가 생성된다. 하나의 방법에 의하면, 동작 102에서 상기 프로세싱은 업 샘플링 동작이다. 다른 방법에 의하면, 이는 출력이 입력과 같은 단일 단위 이득 시스템일 수 있다. 동작 103에서, 입력 디지털 오디오 신호에 대응하는 고대역 에너지 레벨은 협대역 대역폭의 사전 결정된 상부 주파수 내에서의 프로세싱된 디지털 오디오 신호의 전이 대역에 기초하여 추정된다.
상기 추정에 기초하여 전이 대역 성분들을 사용함으로써, 모든 협대역 성분들이 고대역 성분들의 에너지값을 추정하는데 전체적으로 사용되는 경우에 일반적으로 가능할 수 있는 추정보다 더욱 정확한 추정이 달성된다. 하나의 방법에 의하면, 고대역 에너지값은 복수의 대응하는 후보 고대역 스펙트럼 포락선 형상들을 포함하는 검색표(lookup table)에 액세스하여 고대역 스펙트럼 포락선, 즉, 정확한 에너지 레벨에서 적절한 고대역 스펙트럼 포락선 형상을 결정하는데 사용될 수 있다.
104에서, 추정된 고대역 에너지 레벨은 추정 정확도 및/또는 협대역 신호 특성들에 기초하여 수정되어 아티팩트들을 감소시킴으로써 대역폭 확장 오디오 신호의 품질을 강화시킨다. 이는 아래에서 더욱 상세하게 기술될 것이다. 최종적으로, 단계 105에서, 고대역 디지털 오디오 신호는 고대역 에너지 레벨의 수정된 추정 및 고대역 에너지 레벨의 수정된 추정에 대응하는 추정된 고대역 스펙트럼에 기초하여 선택적으로 생성된다.
그리고나서 이 프로세스(100)는 선택적으로 디지털 오디오 신호를 추정된 에너지값 및 고대역 성분들의 스펙트럼에 대응하는 고대역 콘텐츠와 결합하는 것을 수용함으로써 렌더링되기 위한 협대역 디지털 오디오 신호의 대역폭 확장 버전이 제공될 것이다. 도 1에 도시된 상기 프로세스가 단지 추정된 고대역 성분들을 추가하는 것만을 도시할지라도, 저대역 성분들이 또한 추정되고 협대역 디지털 오디오 신호와 결합되어서 대역폭 확장 광대역 신호를 생성할 수 있음이 인식되어야 한다.
그 결과에 따른 대역폭 확산 오디오 신호(입력 디지털 오디오 신호를 인위적으로 생성된 신호외 대역폭 콘텐츠와 결합시킴으로써 획득된)는 가청 형태로 렌더링되면 개선된 오디오 품질 대 원 협대역 디지털 오디오 신호를 갖는다. 하나의 방법에 의하면, 이는 자체의 스펙트럼 콘텐츠에 대해 상호 배타적인 두 아이템들을 결합하는 것을 포함할 수 있다. 그와 같은 경우에, 결합은 예를 들어 단순 연결 또는 그렇지 않으면 두(또는 그 이상) 세그먼트(segment)들을 서로 결합하는 형태를 취할 수 있다. 다른 방법에 의하면, 원하는 경우에, 고대역 및/또는 저대역 대역폭 콘텐츠는 디지털 오디오 신호의 대응하는 신호 대역폭 내에 있는 부분을 가질 수 있다. 그와 같은 중첩(overlap)은 적어도 일부 애플리케이션 설정들에서 유용할 수 있어서, 고대역 및/또는 저대역 대역폭 콘텐츠의 중첩 부분을 디지털 오디오 신호의 대응하는 대역 내 부분과 결합시킴으로써 한 부분에서 다른 부분으로의 전이를 매끄럽게 하고/하거나 페더링(feathering)한다.
당업자는 상술한 프로세스들이, 당업계에 공지되어 있는 부분 또는 전체적으로 프로그램 가능한 플랫폼들 또는 일부 애플리케이션들에 바람직할 수 있는 전용 플랫폼들을 포함하는, 임의의 광범위하게 이용 가능하고/하거나 용이하게 구성되는 플랫폼들을 사용하여 용이하게 작동할 수 있음을 이해할 것이다. 이제 도 3을 참조하여, 그와 같은 플랫폼에 대한 설명적인 방법이 제공될 것이다.
이 설명적인 예에서, 장치(300)에서, 선택된 프로세서(301)는 대응하는 신호 대역폭을 갖는 디지털 오디오 신호를 수신하도록 구성되고 배열되는 입력(302)과 실행 가능하게 결합된다. 장치(300)가 무선 양방향 통신 디바이스들을 포함하면, 그와 같은 디지털 오디오 신호는 당업계에 공지되어 있는 바와 같이 대응하는 수신기(303)에 의해서 제공될 수 있다. 그러한 경우에, 예를 들어, 디지털 오디오 신호는 수신된 보코딩 음성 콘텐츠의 기능으로 형성되는 합성된 음성 콘텐츠를 포함할 수 있다.
차례로, 프로세서(301)는 (예를 들어 프로세서(301)가 당업계에 공지되어 있는 부분 또는 전체의 프로그램 가능 플랫폼을 포함할 때 대응하는 프로그래밍을 통해) 본원에서 설명되는 하나 이상의 단계들 또는 다른 기능들을 수행하도록 구성되고 배열될 수 있다. 이는 예를 들어 전이 대역 에너지로부터 고대역 에너지값을 추정하고 나서 고대역 에너지값 및 에너지 인덱스 형상들의 세트를 사용하여 고대역 스펙트럼 포락선을 결정하는 것을 포함할 수 있다.
상술한 바와 같이, 하나의 방법에 의하면, 상술한 고대역 에너지값은 복수의 대응하는 후보 스펙트럼 포락선 형태들을 포함하는 검색표에 액세스하는 것을 용이하게 하는데 사용된다. 그와 같은 방법을 지지하기 위해, 이 장치는 또한, 원하는 경우, 프로세서(301)에 실행 가능하게 결합되는 하나 이상의 검색표들(304)을 포함할 수 있다. 이렇게 구성되어, 프로세서(301)는 적절하게 검색표들(304)에 용이하게 액세스할 수 있다.
당업자는 그러한 장치(300)가 도 3에 도시된 예에 의해서 제안되는 바와 같은 복수의 물리적 개별 요소들로 구성될 수 있음을 인식할 것이다. 그러나, 이 설명을 논리적 관점을 포함하는 것으로 보는 것이 또한 가능하며, 이 경우에 이 요소들 중 하나 이상은 공유 플랫폼을 통해 인에이블되거나 실현될 수 있다. 그와 같은 공유된 플랫폼은 당업계에 공지되어 있는 바와 같이 전체적 또는 적어도 부분적으로 프로그램 가능한 플랫폼을 포함할 수 있음이 또한 이해될 것이다.
상술한 프로세싱은 기지국과의 무선 통신하는 이동국에 의해 수행될 수 있음이 인식되어야 한다. 예를 들어, 기지국은 협대역 디지털 오디오 신호를 종래의 수단을 통해 이동국으로 송신할 수 있다. 일단 수신되면, 이동국 내의 프로세서(들)는 필요한 동작들을 수행하여 디지털 오디오 신호의 더욱 명확하고 이동국의 사용자에게 듣기에 더욱 만족스런 대역폭 확장 버전을 생성한다.
이제 도 4를 참조하면, 8 kHz에서 샘플링된 입력 협대역 음성(snb)이 대응하는 업샘플러(upsampler)(401)를 사용하여 2로 우선 업샘플링되어 16 kHz에서 샘플링되는 업샘플링된 협대역 음성(
Figure pct00001
)을 획득한다. 이는 1 : 2 보간(예를 들어 원 음성 샘플들의 각각의 쌍 사이에 제로 값(zero valued) 샘플을 삽입함으로써)을 수행한 후에 예를 들어 0과 3400Hz 사이의 통과 대역을 갖는 저역 통과 필터(low pass filter : LPF)를 사용하여 저역 통과 필터링를 수행하는 것을 포함한다.
snb로부터, 협대역 선형 예측(linear predictive: LP) 파라미터들, A nb = {1, a1, a2,...,aP}(여기서 P는 모델 순서이다)은 또한 널리 공지되어 있는 LP 분석 기법들을 채용하는 LP 분석기(402)를 사용하여 계산될 수 있다. (물론 다른 것도 있다: 예를 들어
Figure pct00002
의 2 : 1 훼손 버전으로부터 LP 파라미터가 계산될 수 있다.) 이 LP 파라미터 모델들은 협대역 입력 음성의 스펙트럼 포락선을
Figure pct00003
로 모델링한다.
상기 식에서, 라디언/샘플로의 각 주파수 ω는 ω=2πf/FS에 의해 주어지고, 여기서 f는 Hz 단위의 신호 주파수이고 FS는 Hz 단위의 샘플링 주파수이다. 8 kHz의 샘플링 주파수에 대해서, 적절한 모델 차수 P는 예를 들어 10이다.
그리고나서 LP 파라미터들(A nb)은 보간 모듈(403)을 사용하여 2만큼 보간되어
Figure pct00004
= {1, 0, a1, 0, a2, 0,..., 0, aP}를 획득한다.
Figure pct00005
를 사용하면, 업샘플링된 협대역 음성(
Figure pct00006
)은 분석 필터(404)를 사용하여 역 필터링되어 LP 잔여 신호(
Figure pct00007
)(이는 또한 16 kHz에서 샘플링된다)를 획득한다. 하나의 방법에 의하면, 역(또는 분석) 필터링 동작은 식
Figure pct00008
으로 기술될 수 있고, 여기서 n은 샘플 인덱스이다.
전형적인 애플리케이션 설정에서,
Figure pct00009
를 획득하기 위한
Figure pct00010
의 역 필터링은 프레임 대 프레임 기반으로 행해질 수 있고 여기서 프레임은 T초의 지속시간을 통한 N개의 연속 샘플들의 시퀀스로서 규정된다. 많은 음성 신호 애플리케이션들의 경우, 양호한 T의 선택은 약 20ms이며, 이때 N에 대하여 대응하는 값들은 8 kHz에서 약 160 그리고 16 kHz 샘플 주파수에서 약 320이다. 연속 프레임들은 예를 들어 50%까지 또는 정도까지 서로 중첩될 수 있고, 이 경우에, 현재 프레임 내의 샘플들의 제 2 절반 및 다음 프레임 내의 샘플들의 제 1 절반은 동일하므로 새 프레임은 매 T/2초마다 프로세싱된다. T를 20ms 및 50% 중첩으로 선택하기 위해, 예를 들어 LP 파라미터들(A nb)은 매 10ms마다 160 연속 snb 샘플들로부터 계산되고, 320 샘플들 중 대응하는
Figure pct00011
프레임의 중간 160 샘플들을 역 필터링하는데 사용되어 160의
Figure pct00012
의 샘플들을 산출한다.
또한 업샘플링된 협대역 음성으로부터 직접 역 필터링 동작에 대한 2P 차수 LP 파라미터들을 계산할 수 있다. 그러나, 이 방법은 적어도 일부 동작 상태들 하에서의 성능을 반드시 증가시키지 않으면서도, LP 파라미터들의 계산 및 역 필터링 동작 모두의 복잡성을 증가시킬 수 있다.
LP 잔여 신호(
Figure pct00013
)는 다음에 전파 정류기(405)를 사용하여 전파 정류되고 그 결과는 고역 통과 필터링되어(예를 들어 3400과 8000Hz 사이의 통과 대역을 갖는 고역 통과 필터(high-pass filter: HPF)(406)를 사용하여) 고역 정류 잔여 신호(rrhb)가 획득된다. 동시에, 의사 랜덤(pseudo-random) 잡음원(noise source)(407)의 출력이 또한 고역 통과 필터링(408)되어 고역 잡음 신호(nhb)가 획득된다. 대안으로, 고역 통과 필터링된 잡음 시퀀스는 버퍼(buffer)(예를 들어 순환 버퍼(circular buffer))에 사전 저장되고 필요할 때 액세스되어 nhb를 생성한다. 그와 같은 버퍼의 사용으로 실시간으로 의사 랜덤 잡음 샘플들을 고역 통과 필터링하는 것과 연관된 계산들이 제거될 수 있다. 이 두 신호들, 즉 rrhb 및 nhb는 이후에 추정 및 제어 모듈(Estimation & Control Module: ECM)(410)(이 모듈은 이후에 더욱 자세하게 설명될 것이다)에 의해 제공되는 보이싱(voicing) 레벨(v)에 따라 믹서(409)에서 믹싱된다. 이 예시적인 실시예에서, 이 보이싱 레벨(v)의 범위는 0에서 1이고, 0은 무성 레벨(unvoiced level)을 나타내고 1은 완전 유성 레벨(fully-voiced level)을 나타낸다. 믹서(409)는, 두 입력 신호들이 동일한 에너지 레벨을 가지도록 조정된 것이 확보된 후에, 필수적으로 자체의 출력에서 두 입력 신호들의 가중 합을 형성한다. 믹서 출력 신호(mhb)는
Figure pct00014
에 의해 제공된다.
당업자는 다른 믹싱 규칙들이 또한 가능하다는 것을 인식할 것이다. 또한 우선 두 신호들, 즉 전파 정류된 LP 잔여 신호 및 의사 랜덤 잡음 신호를 믹싱하고나서 믹싱된 신호를 고역 통과 필터링하는 것이 가능하다. 이 경우에, 두 고역 통과 필터들(406 및 408)은 믹서(409)의 출력에 위치된 단일 고역 통과 필터에 의해 대체된다.
그 후에 그 결과에 따른 신호(mhb)는 고역 통과(high-band: HB) 여기 사전 프로세서(excitation preprocessor)(411)를 사용하여 사전 프로세싱되어 고대역 여기 신호(exhb)를 형성한다. 사전 프로세싱 단계는: (i) 믹서 출력 신호(mhb)를 고대역 에너지 레벨(Ehb)과 매칭하도록 스케일링(scaling)하는 단계, 및 (ii) 고대역 스펙트럼 포락선(SEhb)과 매칭하도록 믹서 출력 신호(mhb)를 선택적으로 형상화(shape)하는 단계를 포함할 수 있다. Ehb 및 SEhb 이 둘 모두는 ECM(410)에 의해 HB 여기 사전 프로세서(411)에 제공된다. 이 방법을 채용하면, 이는 많은 애플리케이션 설정들에서 그와 같은 형상화가 믹서 출력 신호(mhb)의 위상 스펙트럼에 영향을 주지 않는 것을 보장하는데 유용할 수 있다: 즉, 형상화는 바람직하게도 영(0) 위상 응답 필터에 의해서 수행될 수 있다.
업샘플링된 협대역 음성 신호(
Figure pct00015
) 및 고대역 여기 신호(exhb)는 합산기(412)를 사용하여 서로 가산되어 믹싱된 대역 신호(
Figure pct00016
)를 형성한다. 이 결과에 따른 믹싱된 대역 신호(
Figure pct00017
)는 ECM(410)에 의해 제공되는 광대역 스펙트럼 포락선 정보(SEwb)를 사용하여 상기 입력을 필터링하는 이퀄라이저 필터(equalizer filter)(413)에 입력되어 추정된 광대역 신호(
Figure pct00018
)를 형성한다. 이퀄라이저 필터(413)는 필수적으로 입력 신호(
Figure pct00019
)에 광대역 스펙트럼 포락선(SEwb)을 가함으로써
Figure pct00020
를 형성한다(이 점에 대한 추가 논의가 아래에 있다). 그 결과에 따른 추정된 광대역 신호(
Figure pct00021
)는 예를 들어 3400 내지 8000Hz의 통과 대역을 갖는 고역 통과 필터(414)를 사용하여 고역 통과 필터링되고, 예를 들어 0 내지 300Hz의 통과 대역을 갖는 저역 통과 필터(415)를 사용하여 저역 통과 필터링되어 고대역 신호(
Figure pct00022
) 및 저대역 신호(
Figure pct00023
)가 각각 획득된다. 이 신호들(
Figure pct00024
,
Figure pct00025
) 및 업샘플링된 협대역 신호(
Figure pct00026
)는 다른 가산기(416)에서 서로 가산되어 대역폭 확장 신호(Sbwe)를 형성한다.
당업자는 대역폭 확장 신호(Sbwe)를 획득하기 위해 다양한 다른 필터 구성들이 존재함을 이해할 것이다. 이퀄라이저 필터(413)가 자체의 입력 신호(
Figure pct00027
)의 일부인 업샘플링된 협대역 음성 신호(
Figure pct00028
)의 스펙트럼 콘텐츠를 정확하게 유지하는 경우, 추정된 광대역 신호(
Figure pct00029
)는 대역폭 확장 신호(sbwe)로서 직접 출력될 수 있어서 고역 통과 필터(414), 저역 통과 필터(415), 및 합산기(416)가 제거될 수 있다. 대안으로, 두 이퀄라이저 필터들이 사용될 수 있고, 하나는 저 주파수 부분을 복구하고 다른 하나는 고 주파수 부분을 복구하며, 전자의 출력은 후자의 고역 통과 필터링된 출력에 추가될 수 있어서 대역폭 확장 신호(sbwe)가 획득될 수 있다.
당업자는 이 특정한 예시적인 실시예에서, 고대역 정류 잔여 여기 및 고대역 잡음 여기는 보이싱 레벨에 따라 서로 믹싱되는 것을 이해하고 인식할 것이다. 보이싱 레벨이 무음 음성을 나타내는 0일 때, 잡음 여기가 독점적으로 사용된다. 유사하게, 보이싱 레벨이 유성화된 음성을 나타내는 1일 때, 고대역 정류 잔여 여기가 독점적으로 사용된다. 보이싱 레벨이 0과 1 사이에 있을 때, 두 여기들은 보이싱 레벨에 의해 결정되는 적절한 비율로 믹싱되어 사용된다. 그러므로 믹싱된 고대역 여기는 보이싱(voicing)된, 보이싱되지 않은, 그리고 믹싱된 보이싱된 사운드들에 적합하다.
이 예시적인 실시예에서, 이퀄라이저 필터는
Figure pct00030
를 합성하는데 사용되는 것이 더 이해되고 인식될 것이다. 이퀄라이저 필터는 ECM에 의해 제공되는 광대역 스펙트럼 포락선(SEwb)을 이상적인 포락선으로 고려하며 자체의 입력 신호(
Figure pct00031
)의 스펙트럼 포락선을 이상적인 포락선에 매칭하도록 정정(또는 이퀄라이징)한다. 스펙트럼 포락선 이퀄라이징에서는 단지 크기만이 포함되므로, 이퀄라이저 필터의 위상 응답은 영(0)으로 선택된다. 이퀄라이저 필터의 크기 응답은 SEwb(ω)/SEmb(ω)에 의해 지정된다. 음성 코딩 애플리케이션을 위한 그러한 이퀄라이저 필터의 설계 및 구현예는 잘 이해된 노력해야할 영역을 포함한다. 그러나, 요약하면, 이퀄라이저 필터는 중첩 추가(overlap-add: OLA) 분석을 사용하여 다음과 같이 동작한다.
입력 신호(
Figure pct00032
)는 우선 중첩하는 프레임들, 예를 들어 50%가 중첩하는 20ms(16 kHz에서 320 샘플들) 프레임들로 분리된다. 그리고나서 샘플들의 각각의 프레임은 적절한 윈도(window), 예를 들어 완전한 재구성 특성(reconstruction property)을 갖는 상승형 코사인(raised cosine) 윈도에 의해 승산된다(점 단위(point-wise). 윈도화된 음성 프레임은 다음에 자체의 스펙트럼 포락선을 모델링하는 LP 파라미터들을 추정하기 위해 분석된다. 프레임에 대한 이상적인 광대역 스펙트럼 포락선은 ECM에 의해 제공된다. 두 스펙트럼 포락선들로부터, 이퀄라이저는 필터 크기 응답을 SEwb(ω)/SEmb(ω)로 계산하고 위상 응답을 영으로 설정한다. 그리고나서 입력 프레임이 이퀄라이징되어 대응하는 출력 프레임을 획득한다. 최종적으로 이퀄라이징된 출력 프레임들이 오버랩 가산되어 추정된 광대역 음성(
Figure pct00033
)을 합성한다.
당업자는 LP 분석 외에도 제공된 음성 프레임의 스펙트럼 포락선을 달성하기 위한 다른 방법들, 예를 들어 캡스트럴(cepstral) 분석, 스펙트럼 크기 피크들의 구분구적 선형(piecewise linear) 또는 오름차순 곡선 적합법(higher order curve fitting) 등이 존재함을 인식할 것이다.
당업자는 또한 입력 신호(
Figure pct00034
)를 직접 윈도화(windowing)하는 대신에
Figure pct00035
, rrhb, 및 nhb의 윈도화된 버전들로 시작해서 동일한 결과를 달성할 수 있음이 인식될 것이다. 프레임 크기 및 이퀄라이저 필터에 대한 중첩 퍼센티지를
Figure pct00036
로부터
Figure pct00037
를 획득하는데 사용되는 분석 필터 블록에서 사용되는 것과 동일하게 유지하는 것이 또한 편리할 수 있다.
Figure pct00038
을 합성하는 기술된 이퀄라이저 필터 방법은 다수의 장점들을 제공한다: i) 이퀄라이저 필터(413)의 위상 응답이 영이므로, 이퀄라이저 출력의 상이한 주파수 성분들은 입력의 대응하는 성분들과 시간 정렬된다. 이는 정류된 잔여 고대역 여기(exhb)의 고 에너지 세그먼트들(성문 펄스 세그먼트들(glottal pulse segments)과 같은)이 이퀄라이저 입력에서 업샘플링된 협대역 음성(
Figure pct00039
)의 대응하는 고 에너지 세그먼트들과 시간 정렬되기 때문에 유성 음성에 대해 유용할 수 있고, 이퀄라이저 출력에서 이 시간 정렬의 보존은 흔히 양호한 음성 품질을 보장하도록 동작할 것이다; ii) 이퀄라이저 필터(413)로의 입력은 LP 합성 필터의 경우와 같이 편평 스펙트럼(flat spectrum)을 가질 필요가 없다; iii) 이퀄라이저 필터(413)는 주파수 도메인에서 지정되므로 스펙트럼의 상이한 부분들에 대한 보다 양호하고 세밀한 제어가 실행 가능하다; 그리고 iv) 반복들이 추가적인 복잡성 및 지연을 없애고 필터 효율을 개선하는 것이 가능하다(예를 들어 이퀄라이저 출력은 성능을 개선시키기 위해 반복해서 이퀄라이징되는 입력으로 피드백될 수 있다).
기술된 구성에 대한 일부 추가 세부사항들이 이제 제공될 것이다.
고대역 여기 사전 프로세싱: 이퀄라이저 필터(413)의 크기 응답은 SEwb(ω)/SEmb(ω)로 제공되고, 자체의 위상 응답은 영으로 설정된다. 입력 스펙트럼 포락선 SEmb(ω)이 이상적인 스펙트럼 포락선 SEwb(ω)에 근접할수록, 이퀄라이저가 입력 스펙트럼 포락선을 이상적인 포락선에 매칭하도록 정정하는 것이 더 용이해진다. 고대역 여기 사전 프로세서(41)의 적어도 하나의 기능은 SEmb(ω)를 SEwb(ω)에 더 근접하게 이동시켜서 이퀄라이저 필터(413)의 임무를 보다 용이하게 하는 것이다. 우선, 믹서 출력 신호(mhb)를 ECM(410)에 의해 제공되는 정확한 고대역 에너지 레벨(Ehb)로 스케일링함으로써 행해진다. 두번째로, 믹서 출력 신호(mhb)는 선택적으로 자체의 스펙트럼 포락선이 자체의 위상 스펙트럼에 영향을 주지 않으면서도 ECM(410)에 의해 제공되는 고대역 스펙트럼 포락선(SEhb)에 매칭하도록 형상화될 수 있다. 제 2 단계는 필수적으로 사전 이퀄라이징 단계를 포함할 수 있다.
저대역 여기: 적어도 부분적으로, 주파수를 샘플링함으로써 부과되는 대역폭 제한에 의해 발생된, 고대역에서의 정보 손실과는 달리, 협대역 신호의 저대역(0 내지 300Hz)에서의 정보의 손실은 적어도 대부분 예를 들어 마이크로폰, 증폭기, 음성 코더, 송신 채널 등으로 구성한 채널 전달 함수의 대역 제한 효과에 기인한다. 결과적으로, 명료한 협대역 신호에서, 저대역 정보는 매우 낮은 레벨에서도 계속 존재한다. 이 저 레벨 정보는 직접적인 방식으로 증폭되어 원 신호를 복구할 수 있다. 그러나, 낮은 레벨 신호들은 에러들, 잡음들, 및 왜곡들에 의해 쉽게 손상되기 때문에 이 프로세스에서는 조심을 기해야 한다. 대안은 상술한 고대역 여기 신호와 유사한 저대역 여기 신호를 합성하는 것이다. 즉, 저대역 여기 신호는 저대역 정류 잔여 신호(rrlb) 및 저대역 잡음 신호(nlb)를 고대역 믹서 출력 신호(mhb)의 형성과 유사한 방식으로 믹싱함으로써 형성된다.
이제 도 5를 참조하면, 온셋/파열음 검출기(onset/plosive detector; 503), 제로 크로싱(zero-crossing) 계산기(501), 전이 대역 경사 추정기(505), 전이 대역 에너지 추정기(504), 협대역 스펙트럼 추정기(509), 저대역 스펙트럼 추정기(511), 광대역 스펙트럼 추정기(512), 고대역 스펙트럼 추정기(510), SS/전이 검출기(513), 고대역 에너지 추정기(506), 보이싱 레벨 추정기(502), 에너지 어댑터(adapter)(514), 에너지 자취 평활기(energy track smoother; 507), 및 에너지 어댑터(508)를 포함하는 추정 및 제어 모듈(ECM)(410)이 도시된다.
ECM(410)은 협대역 스피치(snb), 업샘플링된 협대역 음성(
Figure pct00040
) 및 협대역 LP 파라미터들(A nb)을 입력으로 취하고, 보이싱 레벨(v), 고대역 에너지(Ehb), 고대역 스펙트럼 포락선(SEhb) 및 광대역 스펙트럼 포락선(SEwb)을 출력으로서 제공한다.
보이싱 레벨 추정: 보이싱 레벨을 추정하기 위해, 제로 크로싱 계산기(501)는 협대역 음성(snb)의 각각의 프레임 내의 제로 크로싱들(zc)의 수를 다음과 같이 계산한다:
Figure pct00041
여기서,
Figure pct00042
n은 샘플 인덱스이고, N은 샘플들에서 프레임 크기이다. ECM(410)에서 사용되는 프레임 크기 및 중첩 퍼센티지는 이퀄라이저 필터(413) 및 분석 필터 블록들, 예를 들어 초기에 제공된 예시적인 값들을 참조하여 T=20ms, 8 kHz 샘플링에 대해 N = 160, 16 kHz 샘플링에 대해 N = 320, 그리고 50% 중첩과 동일하게 유지되는 것이 편리하다. 상술한 바와 같이 계산된 zc 파라미터 값의 범위는 0 내지 1이다. zc 파라미터로부터, 보이싱 레벨 추정기(502)는 보이싱 레벨(v)을 다음과 같이 추정할 수 있다.
Figure pct00043
여기서, ZClow 및 ZChigh는 각각 적절하게 선택된 낮고 높은 문턱값들, 예를 들어 ZClow = 0.40 및 ZChigh = 0.45를 나타낸다. 온셋/파열음 검출기(503)의 출력 d는 또한 보이싱 레벨 검출기(502)로 공급될 수 있다. 프레임이 d=1로서 온셋 또는 파열음을 포함하는 것으로 플래그(flag)되면, 상기 프레임뿐만 아니라 다음 플레임의 보이싱 레벨은 1로 설정된다. 하나의 방법에 의하면, 보이싱 레벨이 1이면, 고대역 정류 잔류 여기가 독점적으로 사용되는 것을 상기하라. 이는 잡음 독자적인 또는 믹싱된 고대역 여기와 비교해서 온셋/파열음에서 유용한데, 왜냐하면 정류된 잔류 여기는 업샘플링된 협대역 음성의 에너지 대 시간 등가선(contour)에 근접하게 뒤따르므로 대역폭 확장 신호에서의 시간 분산으로 인한 프리 에코(pre echo) 유형 아티팩트들의 가능성을 감소시키기 때문이다.
고대역 에너지를 추정하기 위해서, 전이 대역 에너지 추정기(504)는 업샘플링된 협대역 음성 신호(
Figure pct00044
)로부터 전이 대역 에너지를 추정한다. 전이 대역은 여기서 협대역 내에 포함되고 고대역에 근접한 주파수 대역으로 규정되므로, 즉 고대역으로의 전이로서 기능한다(즉, 예시적인 실시예에서 약 2500 내지 3400Hz). 직관적으로, 고대역 에너지가 전이 대역 에너지와 양호하게 상관될 것으로 예상되며, 이는 실험에서 확증된다. 전이 대역 에너지(Etb)를 계산하는 단순한 방법은
Figure pct00045
의 주파수 스펙트럼을 계산하고(예를 들어, 고속 푸리에 변환(Fast Fourier Transform: FFT)을 통해서), 전이 대역 내의 스펙트럼 성분의 에너지들을 합산하는 것이다.
dB(데시벨) 단위인 전이 대역 에너지(Etb)로부터, dB 단위인 고대역 에너지(Ehb0)는
Figure pct00046
로 추정되고, 여기서, 계수들(α 및 β)은 트레이닝 음성 데이터베이스로부터 아주 많은 수의 프레임들에 걸쳐 고대역 에너지의 실제값(true)과 추정값 사이의 평균 제곱 에러를 최소화하도록 선택된다.
추정 정확도는 제로 크로싱 파라미터(zc) 및 전이 대역 경사 추정기(505)에 의해 제공될 수 있는 전이 대역 스펙트럼 경사 파라미터(sl)와 같은 추가 음성 파라미터들로부터 문맥 정보(contextual information)를 사용함으로써 더 강화될 수 있다. 상기에 논의된 바와 같이, 제로 크로싱 파라미터는 음성 유성 레벨을 나타낸다. 경사 파라미터는 전이 대역 내의 스펙트럼 에너지의 변화율을 나타낸다. 이는 전이 대역 내의 스펙트럼 포락선(dB 단위의)을 직선으로, 예를 들어 선형 회귀법(linear regression)을 통해 근사화하고 그 경사를 계산함으로써 협대역 LP 파라미터들(A nb)로부터 추정될 수 있다. 그리고나서 zc-sl 파라미터 평면은 다수의 영역들로 분할되고 계수들(α 및 β)은 각각의 영역에 대하여 개별적으로 선택된다. 예를 들어, zc 및 sl 파라미터들의 범위들이 각각 8 개의 동일한 간격들로 분할되는 경우, zc - sl 파라미터 평면은 64 영역들로 분할되고, α 및 β 계수들의 64 세트들이 각각의 영역에 대해 하나씩, 선택된다.
다른 방법에 의하면(도 5에 도시되지 않음), 부가적인 추정 정확성의 개선은 다음과 같이 달성된다. 경사 파라미터(sl) (전이 대역 내에 스펙트럼 포락선의 제 1 차수 표현인) 대신에, 더욱 높은 분해능 표현이 고대역 에너지 추정기의 성능을 강화하는데 채용될 수 있음을 주목하라. 예를 들어, 전이 대역 스펙트럼 포락선 형상들(dB 단위인)의 벡터 양자화(vector quantized) 표현이 사용될 수 있다. 하나의 예시적인 예에서, 벡터 양자화기(VQ) 코드북(codebook)은 큰 트레이닝 데이터베이스로부터 계산되는 전이 대역 스펙트럼 포락선 형상 파라미터들(tbs)로서 칭해지는 64 형상들로 구성된다. zc-sl 파라미터 평면에서의 sl 파라미터는 tbs 파라미터로 대체될 수 있어서 개선된 성능이 달성된다. 그러나, 다른 방법에 의하면, 스펙트럼 평탄도(flatness) 측정치(sfm)로 칭해지는 제 3 파라미터가 도입된다. 스펙트럼 평탄도 측정치는 적절한 주파수 범위(예를 들어 300 내지 3400Hz) 내의 협대역 스펙트럼 포락선(dB 단위의)의 대수적 평균 대 기하학적 평균의 비로서 규정된다. sfm 파라미터는 평탄한 스펙트럼 포락도가 어느 정도인지를 -이 예에서 뾰족한 포락선에 대한 약 0에서부터 완전 평탄한 포락선에 대한 1까지의 범위- 표시한다. sfm 파라미터는 또한 음성의 보이싱 레벨, 그러나 zc와는 상이한 방식으로 관련된다. 하나의 방법에 따르면, 3차원 zc-sfm-tbs 파라미터 공간은 다음과 같이 다수의 영역들로 분할된다. zc-sfm 평면은 12 영역들로 분할됨으로써 3차원 공간에 12 × 64 = 768의 가능한 영역들을 발생시킨다. 그러나 이 영역들 모두가 트레이닝 데이터베이스로부터 충분한 데이터 점들을 가지는 것은 아니다. 그러므로, 많은 애플리케이션 설정들의 경우, 유용한 영역들의 수는 약 500 개로 제한되므로, α 및 β 계수들의 개별 세트는 이 영역들 각각에 대해서 선택된다.
고대역 에너지 추정기(506)는 Ehb0를 추정하는데 Etb의 더 높은 제곱들을 사용하여 추정 정확도에 있어서의 추가적인 개선을 제공하며, 예를 들어,
Figure pct00047
이 경우에, 5개의 계수들, 즉, α4, α3, α2, α1, 및 β은 zc-sl 파라미터 평면의 각각의 구획에 대해(또는 대안으로 zc-sfm-tbs 파라미터 공간의 각각의 구획에 대해) 선택된다. Ehb0를 추정하기 위한 상기 식들(상기 두 문단(문단 70 및 75) 참조)이 비선형이기 때문에, 입력 신호 레벨, 즉, 에너지가 변할 때 추정된 고대역 에너지를 조정하는데 있어서 특히 신중해야 한다. 이를 달성하는 하나의 방식은 dB 단위인 입력 신호 레벨을 추정하고 Etb를 위 또는 아래로 조정하여 명목 신호 레벨에 대응하도록 하고, Ehb0를 추정하고 Ehb0를 아래 또는 위로 실제 신호 레벨에 대응시킨다.
고대역 에너지의 추정은 에러인 경향이 있다. 과추정은 아티팩트들을 발생시키므로 추정된 고대역 에너지는 Ehb0의 추정의 표준 편차에 비례하는 양만큼 낮아지도록 바이어싱(biasing)된다. 즉, 고대역 에너지는 에너지 어댑터1(514)에서:
Figure pct00048
여기서 Ehb1는 적응된 dB 단위의 고대역 에너지이고, Ehb0는 추정된 dB 단위의 고대역 에너지이고, λ≥0은 비례 계수이고, σ는 dB 단위의 추정 오차의 표준 편차이다. 그러므로, 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하고, 대응하는 디지털 오디오 신호로부터 추정된 고대역 에너지 레벨을 결정한 후에, 추정된 고대역 에너지 레벨은 추정된 고대역 에너지의 추정 정확성에 기초하여 수정된다. 도 5를 참조하면, 고대역 에너지 추정기(506)가 추가적으로 고대역 에너지 레벨의 추정에서의 비신뢰도(unreliability)의 크기(measure)를 결정하고 에너지 어댑터(514)는 비신뢰도의 크기에 비례하는 양만큼 낮아지도록 추정된 고대역 에너지 레벨을 바이어싱한다. 본 발명의 하나의 실시예에서 비신뢰도의 크기는 추정된 고대역 에너지 레벨에서 에러의 표준 편차를 포함한다. 비신뢰도의 다른 크기가 본 발명의 범위를 벗어나지 않고 또한 채용될 수 있음을 주목하라.
추정된 고대역 에너지를 "아래로 바이어싱"함으로써, 에너지 과추정의 확률(또는 발생의 수)이 감소되어, 아티팩트들의 수를 감소시킨다. 또한, 추정된 고대역 에너지가 감소되는 양은 추정치가 양호한 정도에 비례하여 감소된다 - 더욱 신뢰성있는(즉, 낮은 σ 값) 추정치는 덜 신뢰성 있는 추정치보다 더 작은 양만큼 감소된다. 고대역 에너지 추정기를 설계하는 동안, zc-sl 파라미터 평면의 각각의 구획(또는 대안으로, zc-sfm-tbs 파라미터 공간의 각각의 구획)에 대응하는 σ 값은 트레이닝 음성 데이터베이스로부터 계산되고 추정된 고대역 에너지를 "아래로 바이어싱"하는데 이후에 사용하기 위해 저장된다. zc-sfm-tbs 파라미터 공간의 약 500 구획들의 σ 값은 예를 들어 범위가 약 3dB에서 약 10dB이고, 평균값은 약 5.8dB이다. 이 고대역 에너지 예측기에 대한 λ의 적절한 값은 예를 들어 1.5이다.
종래 기술의 방법에서, 고대역 에너지의 과추정은 고대역 에너지 추정기의 설계시에 저추정된 에러들보다 많은 과추정된 에러들에 벌칙을 주는 비대칭 비용 함수를 사용함으로써 처리된다. 이 종래 기술과 비교해서, 본 발명에 기술된 "아래로 바이어싱"하는 방법은 다음의 장점을 갖는다: (A) 고대역 에너지 추정기는 표준 대칭 "제곱 에러" 비용 함수에 기초하기 때문에 고대역 에너지 추정기의 설계가 더 간단하다; (B) "아래로 바이어싱"하는 것은 동작 단계 동안 명시적으로 (그리고 설계 단계 동안 암시적이지 않은) 행해지므로 "아래로 바이어싱"되는 양은 원하는대로 용이하게 제어될 수 있다; 그리고 (C) 상기 추정의 신뢰도로 "아래로 바이어싱"하는 양의 의존도는 명시적이고 수월하다(설계 단계 동안 사용되는 특정한 비용 함수에 암시적으로 좌우되는 대신에).
에너지 과추정에 의해 아티팩트들을 감소시키는 것 외에, 상술한 "아래로 바이어싱"하는 방법은 음성 프레임들에 대해 추가 이점을 갖는다 - 즉, 고대역 스펙트럼 포락선 형상 추정에서의 임의의 에러들을 마스킹(masking)함으로써 그 결과에 따른 "시끄러운" 아티팩트들을 감소시키는 것이다. 그러나, 무음의 프레임들의 경우, 추정된 고대역 에너지의 감소가 너무 크면, 대역폭 확장 출력 음성은 더 이상 광대역 음성처럼 들리지 않는다. 이를 줄이기 위해, 추정된 고대역 에너지는 에너지 어댑터1(514)에서 자체의 보이싱 레벨에 따라
Figure pct00049
와 같이 적응되고, 여기서 Ehb2는 dB 단위인 보이싱 레벨 적응된 고대역 에너지이고, v는 무음 음성에 대한 0부터 보이싱된 음성에 대한 1까지의 범위인 보이싱 레벨, 및 δ1 및 δ21 > δ2)는 dB 단위의 상수이다. δ1 및 δ2의 선택은 "아래로의 바이어싱"을 위해 사용되는 λ의 값에 좌우되고 가장 양호하게 발음되는 출력 음성을 산출하는데 경험에 의해 결정된다. 예를 들어, λ가 1.5로 선택될 때, δ1 및 δ2는 7.6 및 -0.3으로 각각 선택될 수 있다. λ의 값에 대한 다른 선택들은 δ1 및 δ2에 대하여 상이한 선택들을 야기할 수 있으며 δ1 및 δ2의 값들은 둘 모두 양 또는 음이거나 반대 부호들일 수 있음을 주목하라. 무음 음성에 대해 증가된 에너지 레벨은 협대역 입력에 비해 대역폭 확장 출력에서 그러한 음성을 강조하고 또한 그와 같은 무음 세그먼트들에 대한 더욱 적절한 스펙트럼 포락선 형상을 선택하는 것을 돕는다.
도 5를 참조하면, 보이싱 레벨 추정기는 보이싱 레벨을 에너지 어댑터1로 출력하고, 에너지 어댑터는 보이싱 레벨에 기초하여 추정된 고대역 에너지 레벨을 부가적으로 수정함으로써 협대역 신호 특성들에 기초하여 추정된 고대역 에너지 레벨을 부가적으로 수정한다. 부가적인 수정은 실질적으로 보이싱된 음성에 대한 고대역 에너지 레벨을 감소시키고/시키거나 실질적으로 보이싱되지 않은 음성에 대한 고대역 에너지 레벨을 증가시키는 것을 포함한다.
에너지 어댑터1(515)에 선행하는 고대역 에너지 추정기(506)가 대부분의 프레임들에 아주 양호하게 작동할지라도, 경우에 따라 전체적으로 고대역 에너지가 저추정 또는 과추정되는 프레임들이 존재한다. 그와 같은 추정 에러들은 평활 필터를 포함하는 에너지 자취 평활기(507)에 의해 적어도 부분적으로 정정될 수 있다. 그러므로 협대역 신호 특성에 기초하여 추정된 고대역 에너지 레벨을 수정하는 것은 추정된 고대역 에너지 레벨(추정치(σ) 및 보이싱 레벨(v)의 표준 편차에 기초하여 상술한 바와 같이 이전에 수정되었던)을 평활화하여 연속 프레임들 사이의 에너지 차를 필수적으로 감소시키는 것을 포함한다.
예를 들어, 보이싱 레벨이 적응된 고대역 에너지(Ehb2)는 3지점 평균화 필터를 사용하여
Figure pct00050
으로 평활화될 수 있고, 여기서 Ehb3은 평활화된 추정치이고 k는 프레임 인덱스이다. 평활화는, 특히 추정치가 "아웃라이어(outlier)"일 때, 즉, 프레임의 고대역 에너지 추정치가 인접 프레임들의 추정치들에 비해 너무 높거나 낮을 때 연속 프레임들의 에너지 차를 감소시킨다. 그러므로, 평활화는 출력된 대역폭 확장 음성에서 아티팩트들의 수를 감소시키는데 도움을 준다. 3지점 평균화 필터는 한 프레임의 지연을 도입한다. 지연이 있거나 또는 없는 다른 유형의 필터들은 또한 에너지 자취를 평활화하도록 설계될 수 있다.
평활화된 에너지 값(Ehb3)은 부가적으로 에너지 어댑터2(508)에 의해 적응되어 최종 적응된 고대역 에너지 추정치(Ehb)를 획득할 수 있다. 이 적응은 정상 상태/전이 검출기(513)에 의해 출력되는 ss 파라미터 및/또는 온셋/파열음 검출기(503)에 의해 출력되는 d 파라미터에 기초하여 평활화된 에너지값을 감소시키거나 또는 증가시키는 것을 포함한다. 그러므로, 협대역 신호 특성들에 기초하여 추정된 고대역 에너지 레벨을 수정하는 단계는 프레임이 정상 상태인지 또는 전이 상태인지에 기초하여 추정된 고대역 에너지 레벨(또는 이전에 수정된 추정된 고대역 에너지 레벨)을 수정하는 단계를 포함할 수 있다. 이는 전이 프레임들에 대한 고대역 에너지 레벨을 감소시키는 단계 및/또는 정상 상태 프레임들에 대한 고대역 에너지 레벨을 증가시키는 것을 포함하고, 온셋/파열음의 발생에 기초하여 추정된 고대역 에너지 레벨을 수정하는 단계를 더 포함할 수 있다. 하나의 방법에 의하면, 고대역 에너지 스펙트럼의 선택이 추정된 에너지와 관련될 수 있으므로 고대역 에너지값을 적응시킴으로써 에너지 레벨뿐만 아니라 스펙트럼 포락선 형상이 변경될 수 있다.
프레임은 충분한 에너지를 가질 때 정상 상태 프레임으로 규정되고(즉, 음성 프레임이며 묵음 프레임은 아니다), 스펙트럼의 의미 또는 에너지 측면 모두에서 자신의 인접 프레임들 각각에 근접한다. 두 프레임들은 서로의 Itakura 거리가 특정한 문턱값 이하인 경우 스펙트럼적으로 근접하다고 고려될 수 있다. 다른 유형의 스펙트럼 거리 측정들이 또한 사용될 수 있다. 두 프레임들의 협대역 에너지들의 차가 특정한 문턱값 이하인 경우 에너지 측면에서 두 프레임들이 밀접하다고 고려된다. 정상 상태 프레임이 아닌 임의의 프레임은 전이 프레임으로 고려된다. 정상 상태 프레임은 전이 프레임들보다 훨씬 더 양호하게 고대역 에너지 추정에서의 에러들을 마스킹할 수 있다. 따라서, 프레임의 추정된 고대역 에너지는 ss 파라미터에 기초하여, 즉, ss 파라미터가 정상 상태 프레임(ss=1) 또는 전이 프레임(ss=0)인지에 따라
Figure pct00051
로 적응되고, 여기서 μ2 > μ1≥0이고, 양호한 출력 음성 품질을 달성하기 위해 dB 단위의 상수들은 경험적으로 선택된다. μ1 및 μ2의 값은 "아래로 바이어싱"을 위해 사용되는 비례 상수(λ)의 선택에 좌우된다. 예를 들어, λ가 1.5로 선택되면 δ1는 7.6으로 선택되고, δ2는 -0.3으로 선택되고, μ1 및 μ2는 각각 1.5 및 6.0으로 선택될 수 있다. 이 예에서 추정된 고대역 에너지가 정상 상태 프레임들의 경우 미세하게 증가하고 추정된 고대역 에너지가 전이 프레임들의 경우 현저하게 더욱 감소하는 것을 주목하라. λ, δ1 및 δ2의 값들에 대한 다른 선택들은 μ1 및 μ2에 대해 상이한 선택의 결과를 초래할 수 있음 - μ1 및 μ2의 값들은 모두 양 또는 음 또는 반대 부호들일 수 있다-을 주목하라. 더욱이, 정상 상태/전이 프레임들을 식별하기 위한 다른 기준이 또한 사용될 수 있음을 주목하라.
온셋/파열음 검출기 출력(d)에 기초하여, 추정 고대역 에너지 레벨은 다음과 같이 조정될 수 있다: d=1일 때, 이는 대응하는 프레임이 온셋, 예를 들어 묵음에서 보이싱되지 않거나 보이싱된 사운드 또는 파열음 사운드로 전이를 포함하는 것을 나타낸다. 온셋/파열음은 이전 프레임의 협대역 에너지가 특정한 문턱값 아래에 있고 현재 및 이전 프레임들 사이의 에너지 차가 다른 문턱값을 초과하지 않는 경우 현재 프레임에서 검출된다. 온셋/파열음을 검출하기 위하여 또한 다른 방법들이 채용될 수 있다. 다음의 이유들로 인해 특수한 문제를 제공한다: A) 온셋/파열음 부근의 고대역 에너지의 추정이 난해하다; B) 프리 에코 유형 아티팩트들은 채용되는 전형적인 블록 프로세싱으로 인해 출력 음성에서 발생할 수 있다; C) 자체의 초기 에너지가 파열된(burst) 후의 파열음(예를 들어 [p], [t], 및 [k]) 사운드들은 협대역에서 특정한 치찰음(sibilants)(예를 들어, [s], [∫] 및 [3])과 유사한 특성을 갖지만 에너지 과추정 및 결과적으로 아티팩트들을 야기하는 고대역에서는 상당한 차이를 갖는다. 온셋/파열음(d=1)에 대한 고대역 에너지 적응은 다음과 같다:
Figure pct00052
여기서 k는 프레임 인덱스이다. 온셋/파열음이 검출되는 프레임(k=1)으로 시작하는 제 1 Kmin 프레임들의 경우, 고대역 에너지는 가장 낮은 가능값(possible value) Emin으로 설정된다. 예를 들어 Emin는 -∞ dB로 또는 가장 낮은 에너지를 갖는 고대역 스펙트럼 포락선 형상의 에너지로 설정될 수 있다. 후속 프레임들의 경우(즉, k = Kmin + 1에서 k = Kmax로 주어지는 범위의 경우), 에너지 적응은 프레임의 보이싱 레벨(v(k))이 문턱값(V1)을 초과하는 경우에만 행해진다. 이 범위 내의 프레임의 보이싱 레벨이 V1보다 작아지거나 같아질 때마다, 온셋 에너지 적응은 즉각 중단, 즉 Ehb(k)는 다른 온셋이 검출될 때까지 Ehb4(k)와 동일하게 설정된다. 보이싱 레벨(v(k))이 V1보다 큰 경우, k = Kmin + 1에서 k = KT에 대해 고대역 에너지는 고정량 Δ만큼 감소한다. k = KT + 1에서 k = Kmax의 경우, 고대역 에너지는 사전 지정된 시퀀스 ΔT(k-KT)를 통해 Ehb4(k)-Δ로부터 Ehb4(k)로 점차 감소하고 k = Kmax + 1에서 Ehb(k)는 Ehb4(k)과 동일하게 설정되고, 이는 다음 온셋이 검출될 때까지 계속된다. 에너지 적응에 기초하여 온셋/파열음에 사용되는 파라미터들의 전형적인 값들은 예를 들어, Kmin = 2, KT = 5, Kmax = 7, V1 = 0.4, Δ = -12dB, ΔT(1) = 6dB, ΔT(2) = 9.5dB이다. d = 0인 경우, 부가적인 에너지의 적응이 행해지지 않는, 즉, Ehb는 Ehb4와 동일하게 설정된다. 그러므로, 협대역 신호 특성들에 기초하여 추정된 고대역 에너지 레벨을 수정하는 단계는 온셋/파열음의 발생에 기초하여 추정된 고대역 에너지 레벨(또는 이전에 수정된 추정된 고대역 에너지 레벨)을 수정하는 단계를 포함할 수 있다.
상기 19문단(문단 77 내지 문단 95)에서 약술된 바와 같은 추정된 고대역 에너지의 적응은 대역폭 확장 출력 음성에서의 아티팩트들의 수를 최소화하여 자체의 품질을 개선하는데 도움을 준다. 추정된 고대역 에너지를 적응시키는데 사용되는 동작들의 시퀀스가 특정한 방식으로 제공되었을지라도, 당업자는 시퀀스에 관한 그러한 특정한 방식이 실제로 요구되지 않음을 인식할 것이다. 또한, 고대역 에너지 레벨을 수정하기 위해 기술된 동작들은 선택적으로 적용될 수 있다.
광대역 스펙트럼 포락선의 추정(SEwb)이 다음에 기술된다. SEwb를 추정하기 위해, 협대역 스펙트럼 포락선(SEnb), 고대역 스펙트럼 포락선(SEhb) 및 저대역 스펙트럼 포락선(SElb)을 개별적으로 추정하고 세 포락선들을 서로 결합한다.
협대역 스펙트럼 추정기(509)는 업샘플링된 협대역 음성(
Figure pct00053
)으로부터 협대역 스펙트럼 포락선(SEnb)을 추정한다.
Figure pct00054
로부터, LP 파라미터들, Q가 모델 차수일 때의 B nb = {1, b1, b2, ..., bQ}는 널리 공지되어 있는 LP 분석 기법들을 사용하여 우선 계산된다. 16 kHz의 업샘플링된 주파수에 있어서 적절한 모델 차수(Q)는 예를 들어 20이다. LP 파라미터들(B nb)은 업샘플링된 협대역 음성의 스펙트럼 포락선을
Figure pct00055
으로 모델링한다.
상기 식에서, 라디언/샘플 단위의 각 주파수 ω는 ω = ω=2πf/2FS에 의해 주어지고, 여기서 f는 Hz 단위의 신호 주파수이고 FS는 Hz 단위의 샘플링 주파수이다. 스펙트럼 포락선들(SEnbin 및 SEusnb)은 전자가 협대역 입력 음성으로부터 도출되고 후자가 업샘플링된 협대역 음성으로부터 도출되므로 상이하다는 것이 주목하라. 그러나, 300 내지 3400Hz의 통과 대역 내에서, 이들은 대체로 SEusnb(ω)
Figure pct00056
SEnbin(2ω)에 의해 상수 이내까지 관련된다. 스펙트럼 포락선(SEusnb)이 범위 0 내지 8000(Fs)Hz에 걸쳐 규정될지라도, 유용한 부분은 통과 대역(이 예시적인 예에서, 300 내지 3400Hz) 내에 있다.
이에 대한 하나의 예시적인 예로서, SEusnb의 계산은 다음과 같이 FFT를 사용하여 행해진다. 우선, 역 필터의 임펄스 응답 B nb(z)은 적절한 길이, 예를 들어 {1, b1, b2, ..., bQ, 0, 0, ..., 0} 과 같이 1024로 계산된다. 그리고나서 임펄스 응답의 FFT가 취해지고 크기 스펙트럼 포락선(SEusnb)은 각각의 FFT 인덱스에서 역 크기를 계산함으로써 획득된다. 1024의 FFT 길이의 경우, 상기와 같이 계산된 SEusnb의 주파수 분해능은 16000/1024 = 15.625 Hz이다. SEusnb로부터, 협대역 스펙트럼 포락선(SEnb)이 적절한 범위 300 내지 3400Hz 내에서부터의 스펙트럼 크기들을 단지 추출함으로써 추정된다.
당업자는 LP 분석 외에도 제공된 음성 프레임의 스펙트럼 포락선을 획득하는 다른 방법들, 예를 들어, 캡스트럴 분석, 스펙트럼 크기 피크들의 구분구적 선형 또는 오름차순 곡선 적합법 등이 존재함을 인식할 것이다.
고대역 스펙트럼 추정기(510)는 입력으로서 고대역 에너지의 추정을 취하고 추정된 고대역 에너지에 부합되는 고대역 스펙트럼 포락선 형상을 선택한다. 상이한 고대역 에너지들에 대응하는 상이한 고대역 스펙트럼 포락선 형상들을 제안하는 기법들이 다음에 설명된다.
16 kHz로 샘플링된 광대역 음성의 대규모 트레이닝 데이터베이스로 시작하면, 광대역 스펙트럼 크기 포락선은 표준 LP 분석 또는 다른 기법들을 사용하여 각각의 음성 프레임에 대해 계산된다. 각각의 프레임의 광대역 스펙트럼 포락선으로부터, 3400 내지 8000Hz에 대응하는 고대역 부분이 추출되고 3400Hz에서 스펙트럼 크기로 완전 분할함으로써 표준화된다. 그러므로 그 결과에 따른 고대역 스펙트럼 포락선은 3400Hz에서 0 dB의 크기를 갖는다. 각각의 표준화된 고대역 포락선에 대응하는 고대역 에너지가 다음에 계산된다. 그 후에 고대역 스펙트럼 포락선들의 집합체는 고대역 에너지에 기초하여 분리, 예를 들어 1dB 만큼 차이가 나는 명목 에너지값들의 시퀀스는 전체 범위를 커버하도록 선택되고 0.5 dB의 명목 값 내의 에너지를 갖는 모든 포락선들은 서로 그룹화된다.
그렇게 형성된 각각의 그룹에 대해서, 평균 고대역 스펙트럼 포락선 형상이 계산되고 후속해서 대응하는 고대역 에너지가 계산된다. 도 6에서, 상이한 에너지 레벨에 있는 60개의 고대역 스펙트럼 포락선 형상들의 세트(600)(dB 단위의 크기 대 Hz 단위의 주파수를 갖는다)가 도시된다. 도면의 하부로부터 계수하면, 1번째, 10번째, 20번째, 30번째, 40번째, 50번째 및 60번째 형상들(본원에서 사전 계산된 형상들로 칭한다)은 상술한 기법과 유사한 기법을 사용하여 달성되었다. 나머지 53개의 형상들은 가장 가까운 사전 계산된 형상들 사이의 단순 선형 보간(dB 도메인에서의)에 의해 달성되었다.
이 형상들의 에너지들의 범위는 1번째 형상에 대한 약 4.5 dB로부터 60번째 형상에 대한 약 43.5 dB까지이다. 프레임에 대한 고대역 에너지가 제공되므로, 본 문서에서 이후에 설명되는 바와 같이 고대역 스펙트럼 포락선 형상에 가장 근접하게 매칭하는 것을 선택하는 것은 단순한 일이다. 선택된 형상은 추정된 고대역 스펙트럼 포락선(SEhb)을 상수 내로 표현한다. 도 6에서, 평균 에너지 분해능은 약 0.65 dB이다. 명백하게도, 더 양호한 분해능은 형상들의 수를 증가시킴으로써 가능하다. 도 6에서 형상들이 제공되므로, 특정 에너지에 대한 형상의 선택은 고유하다. 제공된 에너지에 대해 하나 이상의 형상이 존재하는 경우, 예를 들어 에너지 레벨당 4 형상들이 존재하는 경우를 또한 생각할 수 있는데, 이 경우에 각각의 제공된 에너지 레벨에 대해 4 형상들 중 하나를 선택할 추가 정보가 필요하다. 더욱이, 다수의 형상들의 세트들을 가지며 각 세트는 고대역 에너지에 의해 인덱싱(indexing)될 수 있는, 예를 들어 보이싱 파라미터(v)에 의해 선택가능한 두 형상들의 세트들을 가지고 하나는 보이싱된 프레임들에 대한 세트이고 다른 하나는 보이싱되지 않은 프레임들에 대한 세트일 수 있다. 믹싱된 보이싱된 프레임의 경우, 두 세트들로부터 선택된 두 형상들은 적절하게 결합될 수 있다.
상술한 고대역 스펙트럼 추정 방법은 어느 정도 명확한 이점들을 제공한다. 예를 들어, 이 방법은 고대역 스펙트럼 추정의 시간 전개에 대한 명시적인 제어를 제공한다. 개별 음성 세그먼트들, 예를 들어 보이싱된 음성, 보이싱되지 않은 음성 등 내에서의 고대역 스펙트럼 추정들의 부드러운 전개는 종종 아티팩트가 없는 대역폭 확장 음성에 중요하다. 상술한 고대역 스펙트럼 추정 방법에 대해, 고대역 에너지의 작은 변화가 고대역 포락선 스펙트럼 형상들의 작은 변화를 일으킨다는 것이 도 6으로부터 명백하다. 그러므로, 개별 음성 세그먼트들 내의 고대역 에너지의 시간 전개 또한 부드럽다는 것을 확보함으로써 고대역 스펙트럼의 부드러운 전개가 필수적으로 보장될 수 있다. 이는 상술한 바와 같이 에너지 자취 평활화에 의해 명백하게 달성된다.
내부에서 에너지 평활화가 행해지는 개별 음성 세그먼트들은, 예를 들어 모든 프레임마다 로그(log) 스펙트럼 왜곡 또는 LP 기반 Itakura 왜곡과 같은 널리 공지되어 있는 스펙트럼 거리 측정들 중 임의의 하나를 사용하여 협대역 음성 스펙트럼 또는 업샘플링된 협대역 음성 스펙트럼의 변화를 추적함으로써, 더욱 미세한 분해능으로 식별될 수 있음을 주목하라. 이 방법을 사용하므로, 개별 음성 세그먼트는 프레임들의 시퀀스로서 규정될 수 있고, 상기 프레임들의 시퀀스 내부에서는 스펙트럼이 서서히 전개되고 있고, 상기 시퀀스는 계산된 스펙트럼 변화가 고정되거나 적응된 문턱값을 초과함으로써 개별 음성 세그먼트의 어느 한 측면에 스펙트럼 전이의 존재를 표시하는 프레임 옆에 있는 각각의 측면을 묶는다. 그 후에 에너지 자취의 평활화는 개별 음성 세그먼트 내에서, 그러나 세그먼트 경계들을 가로지르지는 않고 행해질 수 있다.
여기서, 고대역 에너지 자취의 부드러운 전개는 추정된 고대역 스펙트럼 포락선의 부드러운 전개로 변환되고, 이는 개별 음성 세그먼트 내에서는 바람직한 특성이다. 또한 개별 음성 세그먼트 내의 고대역 스펙트럼 포락선의 부드러운 전개는 또한 종래의 방법들에 의해 획득되는 추정된 고대역 스펙트럼 포락선의 시퀀스에 대한 후 프로세싱 단계로서 적용될 수 있다. 그러나, 이 경우에, 고대역 스펙트럼 포락선들은 고대역 스펙트럼 포락선의 부드러운 전개를 자동적으로 발생시키는 현재의 내용의 직접적인 에너지 자취 평활화와는 달리, 개별 음성 세그먼트 내에서 명시적으로 평활화되는 것이 필요할 것이다.
저대역(이 예시적인 예에서, 0 내지 300Hz일 수 있는)에서의 협대역 음성 신호의 손실은 고대역의 경우와 마찬가지로 샘플링 주파수에 의해 부과되는 대역폭 제한에 기인하지 않고 예를 들어 마이크로폰, 증폭기, 음성 코더, 송신 채널 등으로 구성되는 채널 전달 함수의 대역 제한 효과에 기인한다.
그리고나서 저대역 신호를 복구하는 직접적인 방법은 0 내지 300Hz 범위 내의 이 채널 전달 함수의 효과를 상쇄하는 것이다. 이를 행하는 단순한 방법은, 저대역 스펙트럼 추정기(511)를 사용하여 이용가능한 데이터로부터 0 내지 300Hz 범위의 주파수에서의 채널 전달 함수를 추정하고, 이의 역함수를 획득하고 이 역을 사용하여 업샘플링된 협대역 음성의 스펙트럼 포락선을 부스트(boost)하는 것이다. 즉, 저대역 스펙트럼 포락선(SElb)은 SEusnb의 합으로 추정되고 스펙트럼 포락선은 채널 전달 함수의 역함수로부터 설계되는 특성들(SEboost)(스펙트럼 포락선 크기들은 로그 도메인에서 예를 들어 dB로 표현된다)을 부스트한다. 많은 애플리케이션 설정들의 경우, SEboost의 설계에 신중을 기해야만 한다. 저대역 신호의 복구가 필수적으로 저 레벨 신호의 증폭에 기초하므로, 이는 저 레벨 신호들과 전형적으로 연관되는 에러들, 잡음, 및 왜곡들을 증폭할 위험성을 수반한다. 저 레벨 신호의 품질에 따라, 최대 부스트 값이 적절하게 제한되어야 한다. 또한, 0에서 약 60Hz까지의 주파수 범위 내에서, 전기적 험(hum) 및 배경 잡음의 증폭을 방지하기 위해 낮은(또는 심지어 음(-)의, 즉, 감쇄하는) 값을 갖는 SEboost를 설계하는 것이 바람직하다.
그리고나서 광대역 스펙트럼 추정기(512)는 협대역, 고대역, 및 저대역에서의 추정된 스펙트럼 포락선들을 결합함으로써 광대역 스펙트럼 포락선을 추정할 수 있다. 세 포락선들을 결합하여 광대역 스펙트럼 포락선을 추정하는 하나의 방법은 다음과 같다.
협대역 스펙트럼 포락선(SEnb)은 상술한 바와 같이
Figure pct00057
로부터 추정되고 400에서 3200Hz 범위 내에서의 이의 값들은 광대역 스펙트럼 포락선 추정치(SEwb)에 어떠한 변화없이 사용된다. 적절한 고대역 형상을 선택하기 위해, 3400Hz에서의 고대역 에너지 및 시작 크기 값이 필요하다. dB 단위의 고대역 에너지(Ehb)는 상술한 바와 같이 추정된다. 3400Hz에서 시작하는 크기 값은 선형 회귀법을 통한 직선에 의해, 전이 대역, 즉 2500 내지 3400Hz 내에서의 dB 단위의
Figure pct00058
의 FFT 크기 스펙트럼을 모델링하고 3400Hz에서 상기 직선의 값을 찾음으로써 추정된다. 이 크기 값을 dB 단위의 M3400으로 표시하자. 이때 고대역 스펙트럼 포락선 형상은 예를 들어 도 6에 도시되는 바와 같이 Ehb - M3400에 가장 근접한 에너지값을 갖는 많은 값들 중 하나로 선택된다. 이 형상을 SEclosest로 표시하자. 그리고나서 고대역 스펙트럼 포락선은 SEhb를 추정하고 따라서 3400에서 8000Hz의 범위 내의 광대역 스펙트럼 포락선(SEwb)은 SEclosest + M3400으로 추정된다.
3200 및 3400Hz 사이에서, SEwb는 3200Hz에서는 SEnb에 결합하고 3400Hz에서는 M3400에 결합하는 직선 및 SEnb 사이의 dB 단위의 선형으로 보간된 값으로 추정된다. 보간 계수 자체는 선형으로 변하므로 추정된 SEwb는 3200Hz에서의 SEnb로부터 3400Hz에서의 M3400까지 점차 이동하게 된다. 0 및 400Hz 사이에서, 저대역 스펙트럼 포락선(SElb) 및 광대역 스펙트럼 포락선(SEwb)은 SEnb + SEboost로 추정되고, 여기서 SEboost는 상술한 채널 전달 함수의 역함수로부터 적절하게 설계된 부스트 특성을 나타낸다.
상술한 바와 같이, 온셋들 및/또는 파열음들을 포함하는 프레임들은 특수 처리로부터 이익을 얻어서 대역폭 확장 음성에서 경우에 따른 아티팩트들을 방지할 수 있다. 그와 같은 프레임들은 이전 프레임들에 대한 자체의 에너지의 급작스런 증가에 의해 식별될 수 있다. 프레임에 대한 온셋/파열음 검출기(503) 출력(d)은 이전 프레임의 에너지가 낮을 때마다, 즉, 특정한 문턱값 미만, 예를 들어 - 50dB일 때마다, 그리고 이전 프레임에 대한 현재 프레임의 에너지의 증가가 다른 문턱값, 예를 들어 15dB를 초과할 때마다 1로 설정된다. 그렇지 않으면, 검출기 출력(d)은 0으로 설정된다. 프레임 에너지 자체는 협대역, 즉 300 내지 3400 Hz 내의 업샘플링된 협대역 음성(
Figure pct00059
)의 FFT 크기 스펙트럼의 에너지로부터 계산된다. 상기에서 주목한 바와 같이, 온셋/파열음 검출기(503)의 출력(d)은 보이싱 레벨 추정기(502) 및 에너지 어댑터(508)로 공급된다. 상술한 바와 같이, 프레임이 d = 1로서 온셋 또는 파열음을 포함하는 것으로 플래그될 때마다, 상기 프레임뿐만 아니라 다음의 프레임의 보이싱 레벨(v)은 1로 설정된다. 또한, 상기 프레임뿐만 아니라 다음 프레임들의 고대역 에너지값은 상술한 바와 같이 수정된다.
당업자는 기술된 고대역 에너지 추정 기법들이 다른 종래의 대역폭 확장 시스템들과 함께 사용되고 그러한 시스템들에 대한 인공 생성 고대역 신호 콘텐츠가 적절한 에너지 레벨로 스케일링(scaling)될 수 있음을 인식할 것이다. 게다가, 에너지 추정 기법이 고주파수 대역(예를 들어, 3400 내지 8000 Hz)을 참조하여 기술될지라도, 이는 또한 전이 대역을 적절하게 재규정함으로써 임의의 다른 대역에서 에너지를 추정하는데 적용될 수 있다. 예를 들어, 0 내지 300 Hz와 같이 저대역 상황에서 에너지를 추정하기 위해, 전이 대역은 300 내지 600 Hz 대역으로 재규정될 수 있다. 당업자는 또한 본원에서 기술된 고대역 에너지 추정 기법들이 음성/오디오 코딩 목적으로 채용될 수 있음을 인식할 것이다. 마찬가지로, 고대역 스펙트럼 포락선 및 고대역 여기를 추정하기 위해 본원에서 기술된 기법들은 음성/오디오 코딩의 상황에서 사용될 수 있다.
본 발명에서 기술된 것과 다른 기법들이 고대역 에너지 레벨을 추정하는데 사용될 수 있음을 주목하라. 대역폭 확장 시스템이 다른 장소에서 송신되는 고대역 에너지 레벨의 추정치를 수신하는 것이 또한 가능하다. 고대역 에너지 레벨은 또한 암시적으로 추정될 수 있는데, 예를 들어 광대역 신호의 에너지 레벨을 대신 추정할 수 있고, 이 추정치 및 다른 공지된 정보로부터, 고대역 에너지 레벨이 추출될 수 있다.
스펙트럼 포락선, 제로 크로싱들, LP 계수들, 대역 에너지들 등과 같은 파라미터들의 추정이, 일부 경우들에서 협대역 음성으로부터 행해지고 다른 경우들에서 업샘플링된 협대역 음성으로 행해지는 것과 같이, 특정 예들로 기술될지라도, 각각의 파라미터들의 추정 및 이의 후속 사용 및 응용이 기술된 내용의 정신 및 범위를 벗어나지 않고도 상기 두 신호들(협대역 음성 또는 업샘플링된 협대역 음성) 중 하나로부터 행해지도록 수정될 수 있음이 당업자에 의해 인식될 것이다.
당업자는 광범위한 수정들, 대체물들, 및 결합물들이 본 발명의 정신 및 범위로부터 벗어나지 않고 상술한 실시예들에 대해 행해질 수 있고 그와 같은 수정들, 대체물들, 및 결합물들이 발명의 개념의 범위 내에 있을 것으로 간주하여야 함을 인식할 것이다.

Claims (10)

  1. 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하는 단계;
    상기 입력 디지털 오디오 신호에 대응하는 추정된 고대역 에너지 레벨을 결정하는 단계; 및
    추정 정확도 및/또는 상기 협대역 신호 특성들에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계를 포함하는, 방법.
  2. 제 1 항에 있어서, 상기 추정 정확도에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계는:
    상기 고대역 에너지 레벨의 추정시에 비신뢰도(unreliability)의 크기(measure)를 결정하는 단계; 및
    상기 추정된 고대역 에너지 레벨을 상기 비신뢰도의 크기에 비례한 양만큼 더 낮아지도록 바이어싱(biasing)하는 단계를 포함하는, 방법.
  3. 제 2 항에 있어서, 상기 비신뢰도의 크기를 결정하는 단계는 상기 추정된 고대역 에너지 레벨에서 상기 에러의 표준 편차를 결정하는 단계를 포함하는, 방법.
  4. 제 1 항에 있어서, 상기 협대역 신호 특성들에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계는 보이싱 레벨에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계를 포함하는, 방법.
  5. 제 4 항에 있어서, 상기 보이싱 레벨(voicing level)에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계는 실질적으로 보이싱된 음성에 대한 고대역 에너지 레벨을 감소시키는 단계 및/또는 실질적으로 보이싱되지 않은 음성에 대한 고대역 에너지 레벨을 증가시키는 단계를 포함하는, 방법.
  6. 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하고, 상기 입력 디지털 오디오 신호에 대응하는 추정된 고대역 에너지 레벨을 생성하고, 추정 정확도 및/또는 협대역 신호 특성들에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 추정 및 제어 모듈(estimation and control module: ECM)을 포함하는, 장치.
  7. 제 6 항에 있어서, 상기 ECM은 고대역 에너지 레벨의 추정 시에 비신뢰도의 크기를 결정하고 상기 추정된 고대역 에너지 레벨을 상기 비신뢰도의 크기에 비례한 양만큼 더 낮아지도록 바이어싱함으로써 상기 추정된 고대역 에너지 레벨을 수정하는, 장치.
  8. 제 7 항에 있어서, 상기 비신뢰도의 크기는 표준 편차를 포함하는, 장치.
  9. 제 6 항에 있어서, 상기 ECM은 보이싱 레벨에 기초하여 상기 추정된 고대역 에너지 레벨을 수정함으로써 상기 추정된 고대역 에너지 레벨을 수정하는, 장치.
  10. 협대역 신호를 포함하는 입력 디지털 오디오 신호를 수신하는 단계;
    상기 입력 디지털 오디오 신호에 대응하는 추정된 고대역 에너지 레벨을 수신하는 단계; 및
    상기 추정 정확도 및/또는 상기 협대역 신호 특성들에 기초하여 상기 추정된 고대역 에너지 레벨을 수정하는 단계를 포함하는, 방법.
KR1020107019971A 2008-02-07 2009-02-05 대역폭 확장 시스템에서 고대역 에너지를 추정하기 위한 방법 및 장치 KR101199431B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/027,571 US20090201983A1 (en) 2008-02-07 2008-02-07 Method and apparatus for estimating high-band energy in a bandwidth extension system
US12/027,571 2008-02-07
PCT/US2009/033159 WO2009100182A1 (en) 2008-02-07 2009-02-05 Method and apparatus for estimating high-band energy in a bandwidth extension system

Publications (2)

Publication Number Publication Date
KR20100123712A true KR20100123712A (ko) 2010-11-24
KR101199431B1 KR101199431B1 (ko) 2012-11-09

Family

ID=40626568

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107019971A KR101199431B1 (ko) 2008-02-07 2009-02-05 대역폭 확장 시스템에서 고대역 에너지를 추정하기 위한 방법 및 장치

Country Status (9)

Country Link
US (3) US20090201983A1 (ko)
EP (1) EP2238593B1 (ko)
KR (1) KR101199431B1 (ko)
CN (1) CN101939783A (ko)
BR (1) BRPI0907361A2 (ko)
ES (1) ES2467966T3 (ko)
MX (1) MX2010008288A (ko)
RU (1) RU2471253C2 (ko)
WO (1) WO2009100182A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011079841A1 (de) 2010-12-06 2012-06-28 Hyundai Motor Co. System zum Regeln eines Motors von einem Hybridfahrzeug

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734462B2 (en) * 2005-09-02 2010-06-08 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
WO2009116815A2 (en) * 2008-03-20 2009-09-24 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8831958B2 (en) * 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
CN101770775B (zh) * 2008-12-31 2011-06-22 华为技术有限公司 信号处理方法及装置
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
RU2552184C2 (ru) * 2010-05-25 2015-06-10 Нокиа Корпорейшн Устройство для расширения полосы частот
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
US8798190B2 (en) * 2011-02-01 2014-08-05 Blackberry Limited Communications devices with envelope extraction and related methods
WO2012131438A1 (en) * 2011-03-31 2012-10-04 Nokia Corporation A low band bandwidth extender
CN107529709B (zh) 2011-06-16 2019-05-07 Ge视频压缩有限责任公司 解码器、编码器、解码和编码视频的方法及存储介质
UA114674C2 (uk) 2011-07-15 2017-07-10 ДЖ.І. ВІДІЕУ КЕМПРЕШН, ЛЛСі Ініціалізація контексту в ентропійному кодуванні
MY197538A (en) * 2012-03-29 2023-06-22 Ericsson Telefon Ab L M Bandwidth extension of harmonic audio signal
JP5949379B2 (ja) * 2012-09-21 2016-07-06 沖電気工業株式会社 帯域拡張装置及び方法
US9749021B2 (en) * 2012-12-18 2017-08-29 Motorola Solutions, Inc. Method and apparatus for mitigating feedback in a digital radio receiver
CN103915104B (zh) * 2012-12-31 2017-07-21 华为技术有限公司 信号带宽扩展方法和用户设备
CN103928029B (zh) 2013-01-11 2017-02-08 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
US10043535B2 (en) * 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
CN105229738B (zh) * 2013-01-29 2019-07-26 弗劳恩霍夫应用研究促进协会 用于使用能量限制操作产生频率增强信号的装置及方法
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
WO2016173627A1 (en) * 2015-04-28 2016-11-03 Telefonaktiebolaget Lm Ericsson (Publ) A device and a method for controlling a grid of beams
US9891638B2 (en) * 2015-11-05 2018-02-13 Adtran, Inc. Systems and methods for communicating high speed signals in a communication device
JP6769299B2 (ja) * 2016-12-27 2020-10-14 富士通株式会社 オーディオ符号化装置およびオーディオ符号化方法
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
CN109688531B (zh) * 2017-10-18 2021-01-26 宏达国际电子股份有限公司 获取高音质音频变换信息的方法、电子装置及记录介质
EP3567404A1 (en) * 2018-05-09 2019-11-13 Target Systemelektronik GmbH & Co. KG Method and device for the measurement of high dose rates of ionizing radiation
US10944599B2 (en) * 2019-06-28 2021-03-09 Adtran, Inc. Systems and methods for communicating high speed signals in a communication device

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
JPH02166198A (ja) 1988-12-20 1990-06-26 Asahi Glass Co Ltd ドライクリーニング用洗浄剤
US5765127A (en) 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5245589A (en) 1992-03-20 1993-09-14 Abel Jonathan S Method and apparatus for processing signals to extract narrow bandwidth features
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5949878A (en) 1996-06-28 1999-09-07 Transcrypt International, Inc. Method and apparatus for providing voice privacy in electronic communication systems
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
KR20000047944A (ko) 1998-12-11 2000-07-25 이데이 노부유끼 수신장치 및 방법과 통신장치 및 방법
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
WO2002029782A1 (en) 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
DE60117471T2 (de) 2001-01-19 2006-09-21 Koninklijke Philips Electronics N.V. Breitband-signalübertragungssystem
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
EP1451812B1 (en) 2001-11-23 2006-06-21 Koninklijke Philips Electronics N.V. Audio signal bandwidth extension
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP3861770B2 (ja) 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
DE60326484D1 (de) * 2002-11-12 2009-04-16 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur generierung von audiokomponenten
KR100917464B1 (ko) 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US20070136050A1 (en) * 2003-07-07 2007-06-14 Koninklijke Philips Electronics N.V. System and method for audio signal processing
US20050065784A1 (en) 2003-07-31 2005-03-24 Mcaulay Robert J. Modification of acoustic signals using sinusoidal analysis and synthesis
US7461003B1 (en) 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
JP2005136647A (ja) 2003-10-30 2005-05-26 New Japan Radio Co Ltd 低音ブースト回路
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
EP3336843B1 (en) * 2004-05-14 2021-06-23 Panasonic Intellectual Property Corporation of America Speech coding method and speech coding apparatus
KR100708121B1 (ko) 2005-01-22 2007-04-16 삼성전자주식회사 음성 신호의 대역 확장 방법 및 장치
WO2006107837A1 (en) 2005-04-01 2006-10-12 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
US8249861B2 (en) 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
WO2006116024A2 (en) * 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
US8311840B2 (en) 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
KR101171098B1 (ko) 2005-07-22 2012-08-20 삼성전자주식회사 혼합 구조의 스케일러블 음성 부호화 방법 및 장치
US7953605B2 (en) 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
EP1772855B1 (en) 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal
US7490036B2 (en) 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US20070109977A1 (en) 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7835904B2 (en) 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US20080004866A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Artificial Bandwidth Expansion Method For A Multichannel Signal
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
DE602006009927D1 (de) 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
US8639500B2 (en) 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
US8229106B2 (en) * 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8433582B2 (en) 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8463412B2 (en) 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8463599B2 (en) 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011079841A1 (de) 2010-12-06 2012-06-28 Hyundai Motor Co. System zum Regeln eines Motors von einem Hybridfahrzeug

Also Published As

Publication number Publication date
CN101939783A (zh) 2011-01-05
US8527283B2 (en) 2013-09-03
KR101199431B1 (ko) 2012-11-09
RU2010137104A (ru) 2012-03-20
EP2238593A1 (en) 2010-10-13
MX2010008288A (es) 2010-08-31
WO2009100182A1 (en) 2009-08-13
US20110112845A1 (en) 2011-05-12
ES2467966T3 (es) 2014-06-13
BRPI0907361A2 (pt) 2015-07-14
RU2471253C2 (ru) 2012-12-27
US20110112844A1 (en) 2011-05-12
EP2238593B1 (en) 2014-05-14
US20090201983A1 (en) 2009-08-13

Similar Documents

Publication Publication Date Title
KR101199431B1 (ko) 대역폭 확장 시스템에서 고대역 에너지를 추정하기 위한 방법 및 장치
KR101214684B1 (ko) 대역폭 확장 시스템에서 고-대역 에너지를 추정하기 위한 방법 및 장치
KR101482830B1 (ko) 오디오 신호의 대역폭 확장 방법 및 장치
US7181402B2 (en) Method and apparatus for synthetic widening of the bandwidth of voice signals
EP2144232B1 (en) Apparatus and methods for enhancement of speech
KR101461774B1 (ko) 대역폭 확장기
US20020128839A1 (en) Speech bandwidth extension
US20020138268A1 (en) Speech bandwidth extension
US20100246849A1 (en) Signal processing apparatus
EP3457402B1 (en) Noise-adaptive voice signal processing method and terminal device employing said method
US9640189B2 (en) Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
EP2372707B1 (en) Adaptive spectral transformation for acoustic speech signals
KR20050049103A (ko) 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151023

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161021

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171020

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181023

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20191025

Year of fee payment: 8