KR20190097321A

KR20190097321A - 오디오 신호의 배경 잡음 추정

Info

Publication number: KR20190097321A
Application number: KR1020197023763A
Authority: KR
Inventors: 마르틴 셀스테트
Original assignee: 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date: 2014-07-29
Filing date: 2015-07-01
Publication date: 2019-08-20
Also published as: CA2956531A1; KR102267986B1; KR101895391B1; ES2664348T3; JP6208377B2; PL3582221T3; KR20170026545A; ES2869141T3; RU2665916C2; JP6788086B2; US20170069331A1; RU2020100879A; ZA201903140B; MY178131A; CA2956531C; HUE037050T2; JP2018041083A; PH12017500031A1; NZ728080A; MX2019005799A

Abstract

본 발명은 오디오 신호의 배경 잡음을 추정하기 위한 배경 잡음 추정기 및 그 방법에 관한 것이다. 방법은 오디오 신호 세그먼트에 대해 0차 선형 예측으로부터의 나머지 신호와 2차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제1 선형 예측 이득 및 오디오 신호 세그먼트에 대해 2차 선형 예측으로부터의 나머지 신호와 16차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제2 선형 예측 이득에 기초하여, 프레임 또는 프레임의 일부와 같은 오디오 신호 세그먼트와 관련된 적어도 하나의 파라미터를 획득하는 단계를 포함한다. 방법은 획득된 적어도 하나의 파라미터에 적어도 기초하여 오디오 신호 세그먼트가 중지를 포함하는지를 결정하는 단계; 및 오디오 신호 세그먼트가 중지를 포함할 때 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하는 단계를 더 포함한다.

Description

오디오 신호의 배경 잡음 추정{ESTIMATION OF BACKGROUND NOISE IN AUDIO SIGNALS}

본 발명의 실시예는 오디오 신호 처리에 관한 것으로, 특히 예로서 사운드 활동 결정을 지원하기 위한 배경 잡음의 추정에 관한 것이다.

불연속 전송(DTX)을 이용하는 통신 시스템에서는, 효율과 품질 비저하 사이의 균형을 찾는 것이 중요하다. 이러한 시스템에서, 활동 검출기는 능동적으로 코딩될 활성 신호, 예로서 음성 또는 음악, 및 수신기 측에서 생성된 안락 잡음으로 대체될 수 있는 배경 신호를 갖는 세그먼트를 지시하는데 사용된다. 활동 검출기가 비활동을 검출하는 데 너무 효율적이면, 활성 신호 내에 클리핑이 생기며, 이는 클리핑된 활성 세그먼트가 안락 잡음으로 대체될 때 주관적 품질 저하로 인식된다. 동시에, 활동 검출기가 충분히 효율적이지 않고, 배경 잡음 세그먼트를 활성으로 분류한 다음에 안락 잡음이 있는 DTX 모드에 들어가는 대신 배경 잡음을 능동적으로 인코딩하면 DTX의 효율이 감소한다. 대부분의 경우, 클리핑 문제는 더 나쁜 것으로 간주된다.

도 1은 오디오 신호를 입력으로 취하고 활동 결정을 출력으로 생성하는 일반화된 사운드 활동 검출기(SAD) 또는 음성 활동 검출기(VAD)의 개요 블록도를 나타낸다. 입력 신호는 데이터 프레임들, 즉 구현에 따라 예로서 5-30ms의 오디오 신호 세그먼트들로 분할되며, 프레임당 하나의 활동 결정이 출력으로 생성된다.

주 결정("prim")은 도 1에 도시된 주 검출기에 의해 수행된다. 주 결정은 기본적으로 이전의 입력 프레임에서 추정된 배경 특징과 현재 프레임의 특징의 비교일 뿐이다. 임계치보다 큰 현재 프레임의 특징과 배경 특징 사이의 차이는 활성 주 결정을 유발한다. 행오버 추가 블록은 최종 결정인 "플래그"를 형성하기 위해 과거의 주 결정에 기초하여 주 결정을 확장하는 데 사용된다. 행오버를 사용하는 이유는 주로 활동 버스트의 중간 및 백엔드 클리핑 위험을 감소/제거하기 위한 것이다. 도면에 도시된 바와 같이, 동작 제어기는 입력 신호의 특성에 따라 주 검출기에 대한 임계치(들) 및 행오버 추가의 길이를 조정할 수 있다. 배경 추정기 블록은 입력 신호의 배경 잡음을 추정하는 데 사용된다. 배경 잡음은 여기에서 "배경" 또는 "배경 특징"으로 지칭될 수도 있다.

배경 특징의 추정은 2개의 기본적으로 다른 원칙에 따라, 도 1에서 쇄선으로 표시된 주 결정을 이용하여, 즉 결정 또는 결정 메트릭 피드백을 이용하여, 또는 입력 신호의 일부 다른 특성을 이용하여, 즉 결정 피드백을 이용하지 않고 수행될 수 있다. 두 가지 전략의 조합을 사용할 수도 있다.

배경 추정을 위해 결정 피드백을 사용하는 코덱의 예는 AMR-NB(Adaptive Multi-Rate Narrowband)이고, 결정 피드백이 사용되지 않는 코덱의 예는 EVRC(Enhanced Variable Rate CODEC) 및 G.718이다.

사용할 수 있는 다수의 상이한 신호 특징 또는 특성이 있지만, VAD에서 사용되는 한 가지 일반적인 특징은 입력 신호의 주파수 특성이다. 일반적으로 사용되는 타입의 주파수 특성은 복잡도가 낮고 낮은 SNR에서 신뢰할 수 있는 동작으로 인해 부대역 프레임 에너지이다. 따라서, 입력 신호는 상이한 주파수 부대역들로 분할되고, 배경 레벨은 각각의 부대역에 대해 추정된다고 가정된다. 이러한 방식으로, 배경 잡음 특징 중 하나는 각각의 부대역에 대한 에너지 값을 갖는 벡터이다. 이들은 주파수 도메인에서 입력 신호의 배경 잡음을 특성화하는 값이다.

배경 잡음의 추적을 달성하기 위해, 실제 배경 잡음 추정 갱신이 적어도 세 가지 상이한 방법으로 행해질 수 있다. 한 가지 방법은 갱신을 처리하기 위해 주파수 빈마다 자동 회귀(AR) 프로세스를 사용하는 것이다. 이러한 코덱의 예로는 AMR-NB 및 G.718이 있다. 기본적으로, 이 타입의 갱신의 경우, 갱신의 스텝 크기는 현재 입력과 현재 배경 추정치 사이의 관찰된 차이에 비례한다. 다른 방법은 추정치가 현재 입력보다 크거나 최소값보다 작을 수 없다는 제한과 함께 현재 추정치의 곱셈 스케일링을 사용하는 것이다. 이는 추정치가 현재 입력보다 높을 때까지 프레임마다 증가된다는 의미한다. 이 상황에서, 현재 입력이 추정치로 사용된다. EVRC는 VAD 기능에 대한 배경 추정을 갱신하기 위해 이 기술을 사용하는 코덱의 예이다. EVRC는 VAD 및 잡음 억제를 위해 상이한 배경 추정치를 사용한다는 점에 유의한다. VAD는 DTX와 다른 상황에서 사용될 수 있음에 유의해야 한다. 예를 들어, EVRC와 같은 가변 레이트 코덱에서, VAD는 레이트 결정 기능의 일부로 사용될 수 있다.

세 번째 방법은 추정치가 이전 프레임의 슬라이딩 시간 윈도우 동안 최소값인 소위 최소 기법을 사용하는 것이다. 이는 기본적으로 고정 잡음에 대한 평균 추정치를 얻고 근사화하기 위해 보상 계수를 사용하여 스케일링되는 최소 추정치를 제공한다.

활성 신호의 신호 레벨이 배경 신호보다 훨씬 높은, 높은 SNR의 경우, 입력 오디오 신호가 활성 또는 비활성인지를 결정하는 것은 매우 쉬울 수 있다. 그러나, 낮은 SNR 경우에, 특히 배경이 비정적이거나 그 특성에서 활성 신호와 유사할 때 활성 및 비활성 신호를 분리하는 것은 매우 어렵다.

VAD의 성능은 특히 고정적이지 않은 배경의 경우에 배경의 특성을 추적하는 배경 잡음 추정기의 능력에 의존한다. 추적을 잘 수행하면 음성 클리핑의 위험을 증가시키지 않고 VAD를 보다 효율적이게 할 수 있다.

상관은 음성, 주로 음성의 유성음 부분을 검출하는 데 사용되는 중요한 특징이지만, 높은 상관을 나타내는 잡음 신호도 있다. 이러한 경우, 상관을 갖는 잡음은 배경 잡음 추정치의 갱신을 방해할 것이다. 결과는 음성 및 배경 잡음이 모두 활성 콘텐츠로 코딩되므로 높은 활동이다. 높은 SNR(약 >20dB)의 경우에 에너지 기반 중지 검출을 사용하여 문제를 줄일 수 있지만, 이는 20dB 내지 10dB 또는 5dB의 SNR 범위에서는 신뢰할 수 없다. 여기서 설명되는 해결책은 이 범위에서 차이를 보인다.

발명의 요약

오디오 신호의 배경 잡음의 개선된 추정을 달성하는 것이 바람직할 것이다. 여기서, "개선"은 오디오 신호가 활성 음성 또는 음악을 포함하는지 여부에 관해 보다 정확한 결정을 행하며, 따라서 더 자주 추정하고, 예를 들어 이전의 추정치를 갱신하여, 오디오 신호 세그먼트의 배경 잡음이 음성 및/또는 음악과 같은 활성 콘텐츠를 사실상 갖지 않는다는 것을 암시할 수 있다. 여기서, 배경 잡음 추정치를 생성하기 위한 개선된 방법이 제공되며, 이는 예를 들어 사운드 활동 검출기가 더 적절한 결정을 내리는 것을 가능하게 할 수 있다.

오디오 신호의 배경 잡음 추정을 위해서는 입력 신호가 알려지지 않은 활성 신호와 배경 신호의 혼합을 포함하는 경우에도 배경 잡음 신호의 특성을 식별하기 위한 신뢰할 수 있는 특징을 찾을 수 있는 것이 중요하며, 활성 신호는 음성 및/또는 음악을 포함할 수 있다.

본 발명자는 상이한 선형 예측 모델 차수들에 대한 나머지 에너지들과 관련된 특징들이 오디오 신호들의 중지를 검출하는 데 이용될 수 있다는 것을 깨달았다. 이러한 나머지 에너지는 예를 들어 음성 코덱에서 일반적인 선형 예측 분석으로부터 추출될 수 있다. 특징들을 필터링하고 결합하여 배경 잡음을 검출하는 데 사용할 수 있는 특징들 또는 파라미터들의 세트를 형성할 수 있으며, 이는 해결책이 잡음 추정에 사용하기에 적합하게 한다. 여기에 설명되는 해결책은 SNR이 10 내지 20 dB 범위인 조건에서 특히 효율적이다.

본 명세서에서 제공되는 다른 특징은 배경에 대한 스펙트럼 근접성의 척도이며, 예를 들어 이는 예를 들어 부대역 SAD에서 사용되는 주파수 도메인 부대역 에너지를 사용함으로써 달성될 수 있다. 스펙트럼 근접성 척도는 또한 오디오 신호가 중지를 포함하는지의 여부를 결정하는 데 사용될 수 있다.

제1 양태에 따르면, 배경 잡음 추정을 위한 방법이 제공된다. 방법은 오디오 신호 세그먼트에 대해 0차 선형 예측으로부터의 나머지 신호와 2차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제1 선형 예측 이득 및 오디오 신호 세그먼트에 대해 2차 선형 예측으로부터의 나머지 신호와 16차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제2 선형 예측 이득에 기초하여, 프레임 또는 프레임의 일부와 같은 오디오 신호 세그먼트와 관련된 적어도 하나의 파라미터를 획득하는 단계를 포함한다. 방법은 획득된 적어도 하나의 파라미터에 적어도 기초하여 오디오 신호 세그먼트가 중지를 포함하는지를 결정하는 단계; 및 오디오 신호 세그먼트가 중지를 포함할 때 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하는 단계를 더 포함한다.

제2 양태에 따르면, 배경 잡음 추정기가 제공된다. 배경 잡음 추정기는 오디오 신호 세그먼트에 대해 0차 선형 예측으로부터의 나머지 신호와 2차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제1 선형 예측 이득 및 오디오 신호 세그먼트에 대해 2차 선형 예측으로부터의 나머지 신호와 16차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제2 선형 예측 이득에 기초하여 오디오 신호 세그먼트와 관련된 적어도 하나의 파라미터를 획득하도록 구성된다. 배경 잡음 추정기는 획득된 적어도 하나의 파라미터에 적어도 기초하여 오디오 신호 세그먼트가 중지를 포함하는지를 결정하고, 오디오 신호 세그먼트가 중지를 포함할 때 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하도록 더 구성된다.

제3 양태에 따르면, 제2 양태에 따른 배경 잡음 추정기를 포함하는 SAD가 제공된다.

제4 양태에 따르면, 제2 양태에 따른 배경 잡음 추정기를 포함하는 코덱이 제공된다.

제5 양태에 따르면, 제2 양태에 따른 배경 잡음 추정기를 포함하는 통신 디바이스가 제공된다.

제6 양태에 따르면, 제2 양태에 따른 배경 잡음 추정기를 포함하는 네트워크 노드가 제공된다.

제7 양태에 따르면, 적어도 하나의 프로세서 상에서 실행될 때, 적어도 하나의 프로세서가 제1 양태에 따른 방법을 수행하게 하는 명령어를 포함하는 컴퓨터 프로그램이 제공된다.

제8 양태에 따르면, 제7 양태에 따른 컴퓨터 프로그램을 포함하는 캐리어가 제공된다.

본 명세서에 개시된 기술의 상기 및 다른 목적, 특징 및 이점은 첨부 도면에 도시된 실시예에 대한 다음의 보다 상세한 설명으로부터 명백해질 것이다. 도면은 반드시 축척으로 도시된 것은 아니며, 대신에 본 명세서에 개시된 기술의 원리를 설명하는 것에 중점을 두었다.
도 1은 활동 검출기 및 행오버 결정 논리를 도시하는 블록도이다.
도 2는 예시적인 실시예에 따른, 배경 잡음 추정 방법을 도시하는 흐름도이다.
도 3은 예시적인 실시예에 따른 차수 0 및 2의 선형 예측을 위한 나머지 에너지에 관련된 특징의 계산을 도시한 블록도이다.
도 4는 예시적인 실시예에 따른 차수 2 및 16의 선형 예측을 위한 나머지 에너지에 관련된 특징의 계산을 도시하는 블록도이다.
도 5는 예시적인 실시예에 따른 스펙트럼 근접성 척도에 관련된 특징의 계산을 도시한 블록도이다.
도 6은 부대역 에너지 배경 추정기를 나타내는 블록도이다.
도 7은 부록 A에 기술된 해결책으로부터의 배경 갱신 결정 논리를 도시하는 흐름도이다.
도 8-10은 2개의 음성 버스트를 포함하는 오디오 신호에 대해 계산될 때 본 명세서에 제시된 상이한 파라미터의 거동을 도시하는 도면이다.
도 11a-11c 및 12-13은 예시적인 실시예에 따른 배경 잡음 추정기의 상이한 구현을 도시하는 블록도이다.
"부록 A"로 마킹된 도면 페이지들은 부록 A와 관련되며, 도 14a 내지 14h로서 참조된다.

본 명세서에 개시된 해결책은 오디오 신호의 배경 잡음의 추정에 관한 것이다. 도 1에 도시된 일반화된 활동 검출기에서, 배경 잡음을 추정하는 기능은 "배경 추정기"로 표시된 블록에 의해 수행된다. 여기에 기술된 해결책의 일부 실시예는 본 명세서에 참고로 포함된 W02011/049514, W02011/049515에서 그리고 부록 A(첨부 A)에서도 이전에 개시된 해결책과 관련하여 검토될 수 있다. 여기에 개시된 해결책은 이러한 이전에 개시된 해결책의 구현과 비교될 것이다. W02011/049514, W02011/049515 및 부록 A에 개시된 해결책이 양호한 해결책이지만, 여기에서 제시된 해결책은 여전히 이들 해결책과 관련하여 이점을 갖는다. 예를 들어, 여기에 제시된 해결책은 배경 잡음을 추적하는 데에 훨씬 더 적합하다.

VAD의 성능은 특히 비중지 배경의 경우에 배경의 특성을 추적하는 배경 잡음 추정기의 능력에 의존한다. 추적을 보다 잘 수행하면, 음성 클리핑의 위험을 증가시키지 않고 VAD를 보다 효율화할 수 있다.

현재의 잡음 추정 방법의 하나의 문제점은 낮은 SNR에서 배경 잡음의 양호한 추적을 달성하기 위해서는 신뢰성 있는 중지 검출기가 필요하다는 것이다. 음성 전용 입력의 경우, 음절 레이트 또는 사람이 계속 말할 수 없다는 사실을 이용하여 음성의 중지를 발견할 수 있다. 이러한 해결책은 배경 갱신을 하지 않는 충분한 시간 후에 중지 검출에 대한 요구가 "완화"되어 음성의 중지를 검출할 가능성이 더 커질 수 있다는 것을 수반한다. 이것은 잡음 특성이나 레벨의 급격한 변화에 대응하는 것을 가능하게 한다. 이러한 잡음 복원 논리의 일부 예는 다음과 같은데, 1) 음성 발음이 높은 상관을 갖는 세그먼트를 포함함에 따라 상관을 갖지 않는 충분한 수의 프레임 후에 음성에 중지가 있다고 가정하는 것이 일반적으로 안전하다. 2) 신호 대 잡음비 SNR>0일 때, 음성 에너지가 배경 잡음보다 높기 때문에, 프레임 에너지가 보다 긴 시간, 예로서 1-5초 동안 최소 에너지에 근접하면, 음성 중지가 있다고 가정하는 것도 안전하다. 이전의 기술은 음성 전용 입력에 대해서는 잘 작동하지만, 음악이 활성 입력으로 간주될 때는 충분하지 않다. 음악에서는 여전히 음악인 낮은 상관을 갖는 긴 세그먼트가 존재할 수 있다. 또한, 음악의 에너지 동력은 거짓 중지 검출을 트리거할 수도 있으며, 이로 인해 원하지 않고 잘못된 배경 잡음 추정치의 갱신이 유발될 수 있다.

이상적으로, 활동 검출기 또는 "중지 발생 검출기"라고 불리는 것의 반대 기능은 잡음 추정을 제어하는 데 필요할 수 있다. 이는 배경 잡음 특성의 갱신이 현재 프레임에 활성 신호가 없는 경우에만 수행되는 것을 보증할 것이다. 그러나, 전술한 바와 같이, 오디오 신호 세그먼트가 활성 신호를 포함하는지 여부를 결정하는 것은 쉬운 일이 아니다.

전통적으로, 활성 신호가 음성 신호로 알려진 경우, 활동 검출기는 음성 활동 검출기(VAD)라고 불렸다. 활동 검출기에 대한 VAD라는 용어는 입력 신호가 음악을 포함할 수 있을 때도 종종 사용된다. 그러나 현대 코덱에서는 음악도 활성 신호로 검출되어야 할 때 활동 검출기를 사운드 활동 검출기(SAD)라고 지칭하는 것도 일반적이다.

도 1에 도시된 배경 추정기는 주 검출기 및/또는 행오버 블록으로부터의 피드백을 이용하여 비활성 오디오 신호 세그먼트의 위치를 파악한다. 여기에 설명된 기술을 개발할 때 그러한 피드백에 대한 의존성을 제거하거나 최소한 줄이려는 욕구가 있었다. 따라서, 여기에 개시된 배경 추정을 위해, 활성 및 배경 신호의 미지의 혼합을 갖는 입력 신호만이 이용 가능할 때, 배경 신호 특성을 식별하기 위한 신뢰성 있는 특징을 발견할 수 있는 것이 발명자에 의해 중요한 것으로서 식별되었다. 발명자는 또한, 입력 신호가 잡음 세그먼트로부터 시작한다고 가정할 수 없거나, 심지어 활성 신호가 음악일 수 있기 때문에, 입력 신호가 잡음과 혼합된 음성이라고 가정할 수 없다는 것을 깨달았다.

하나의 양태는, 현재 프레임이 현재 잡음 추정치와 동일한 에너지 레벨을 가질 수 있지만, 주파수 특성이 매우 상이할 수 있으며, 이는 현재 프레임을 사용하여 잡음 추정의 갱신을 수행하는 것을 바람직하지 않게 한다는 것이다. 도입되는 근접성 특징 상대 배경 잡음 갱신은 이러한 경우에 갱신을 방지하는 데 사용할 수 있다.

또한, 초기화 동안, 배경 잡음 갱신이 활성 콘텐츠를 사용하여 이루어지는 경우에 잠재적으로 SAD로부터 클리핑을 초래할 수 있으므로, 잘못된 결정을 피하면서 잡음 추정이 가능한 한 빨리 시작되도록 하는 것이 바람직하다. 초기화하는 동안 근접성 특징의 초기화 고유 버전을 사용하면 이 문제를 적어도 부분적으로 해결할 수 있다.

여기에 기술된 해결책은 배경 잡음 추정 방법, 특히 어려운 SNR 상황에서 양호하게 동작하는 오디오 신호 중지 검출 방법에 관한 것이다. 해결책은 도 2-5를 참조하여 아래에서 설명될 것이다.

음성 코딩 분야에서, 입력 신호의 스펙트럼 형상을 분석하기 위해 소위 선형 예측을 사용하는 것이 일반적이다. 분석은 대개 프레임당 두 번 이루어지며, 시간적 정확성을 향상시키기 위해 입력 신호의 5ms 블록마다 필터가 생성되도록 결과가 보간된다.

선형 예측은 이산 시간 신호의 미래 값이 이전 샘플의 선형 함수로서 추정되는 수학 연산이다. 디지털 신호 처리에서 선형 예측은 종종 선형 예측 코딩(LPC)이라고 하며, 따라서 필터 이론의 서브세트로 볼 수 있다. 음성 코더에서의 선형 예측에서는, 선형 예측 필터 A(z)가 입력 음성 신호에 적용된다. A(z)는 입력 신호에 적용할 때 입력 신호로부터 필터 A(z)를 사용하여 모델링될 수 있는 중복을 제거하는 올 제로 필터(all zero filter)이다. 따라서, 필터가 입력 신호의 일부 양태 또는 양태들을 모델링하는 데 성공할 때, 필터로부터의 출력 신호는 입력 신호보다 낮은 에너지를 갖는다. 이 출력 신호는 "나머지", "나머지 에너지" 또는 "나머지 신호"로 표시된다. 대안적으로 나머지 필터로 표시되는 그러한 선형 예측 필터는 상이한 수의 필터 계수를 갖는 상이한 모델 차수를 가질 수 있다. 예를 들어, 적절하게 음성을 모델링하기 위해, 모델 차수 16의 선형 예측 필터가 요구될 수 있다. 따라서, 음성 코더에서, 모델 차수 16의 선형 예측 필터 A(z)가 사용될 수 있다.

발명자는 20dB 내지 10dB 또는 가능하게는 5dB의 SNR 범위의 오디오 신호의 중지를 검출하기 위해 선형 예측과 관련된 특징이 사용될 수 있다는 것을 깨달았다. 본 명세서에 설명된 해결책의 실시예에 따르면, 오디오 신호에 대한 상이한 모델 차수에 대한 나머지 에너지 사이의 관계가 오디오 신호의 중지를 검출하는 데 사용된다. 사용되는 관계는 하위 모델 차수의 나머지 에너지와 상위 모델 차수의 나머지 에너지 사이의 몫이다. 나머지 에너지들 사이의 몫은 선형 예측 필터가 하나의 모델 차수와 다른 모델 차수 사이에서 얼마나 많은 신호 에너지를 모델링 또는 제거할 수 있었는지를 나타내는 지표이기 때문에, "선형 예측 이득"으로 지칭될 수 있다.

나머지 에너지는 선형 예측 필터 A(z)의 모델 차수 M에 의존할 것이다. 선형 예측 필터에 대한 필터 계수를 계산하는 일반적인 방법은 Levinson-Durbin 알고리즘이다. 이 알고리즘은 회귀적이며, 차수 M의 예측 필터 A(z)를 생성하는 과정에서 "부산물"로서 하위 모델 차수의 나머지 에너지를 생성할 것이다. 이러한 사실은 본 발명의 실시예에 따라 이용될 수 있다.

도 2는 오디오 신호에서의 배경 잡음의 추정을 위한 예시적인 일반적인 방법을 도시한다. 방법은 배경 잡음 추정기에 의해 수행될 수 있다. 방법은 오디오 신호 세그먼트에 대해 0차 선형 예측으로부터의 나머지 신호와 2차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제1 선형 예측 이득 및 오디오 신호 세그먼트에 대해 2차 선형 예측으로부터의 나머지 신호와 16차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제2 선형 예측 이득에 기초하여, 프레임 또는 프레임의 일부와 같은 오디오 신호 세그먼트와 관련된 적어도 하나의 파라미터를 획득하는 단계(201)를 포함한다.

방법은 획득된 적어도 하나의 파라미터에 적어도 기초하여 오디오 신호 세그먼트가 중지를 포함하는지, 즉 음성 및 음악과 같은 활성 콘텐츠를 갖지 않는지를 결정하는 단계(202); 및 오디오 신호 세그먼트가 중지를 포함할 때 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하는 단계(203)를 더 포함한다. 즉, 방법은 획득된 적어도 하나의 파라미터에 적어도 기초하여 오디오 신호 세그먼트에서 중지가 검출될 때 배경 잡음 추정치를 갱신하는 단계를 포함한다.

선형 예측 이득은 오디오 신호 세그먼트에 대해 0차에서 2차 선형 예측으로 진행하는 것과 관련된 제1 선형 예측 이득; 및 오디오 신호 세그먼트에 대해 2차에서 16차 선형 예측으로 진행하는 것과 관련된 제2 선형 예측 이득으로서 설명될 수 있다. 또한, 적어도 하나의 파라미터의 획득은 대안으로서 결정, 계산, 유도 또는 생성으로서 설명될 수 있다. 모델 차수 0, 2 및 16의 선형 예측과 관련된 나머지 에너지는 정규 인코딩 프로세스의 일부로서 선형 예측을 수행하는 인코더의 일부로부터 획득, 수신 또는 검색될 수 있는데, 즉 여하튼 그에 의해 제공될 수 있다. 따라서, 특히 배경 잡음의 추정을 위해 나머지 에너지가 유도될 필요가 있을 때와 비교하여, 여기서 설명된 해결책의 계산 복잡성이 감소될 수 있다.

선형 예측 특징들에 기초하여 획득된 적어도 하나의 파라미터는 배경 잡음 갱신을 수행할지 여부에 대한 결정을 향상시키는 입력 신호의 레벨 독립적 분석을 제공할 수 있다. 이 해결책은 일반적인 동적 범위의 음성 신호로 인해 에너지 기반 SAD의 성능이 제한되는 SNR 범위 10 내지 20dB에서 특히 유용한다.

여기서, 많은 가운데, 변수 E(0), ..., E(m), ..., E(M)은 M + 1개의 필터 Am(z)의 모델 차수 0 내지 M에 대한 나머지 에너지를 나타낸다. E(0)는 입력 에너지일 뿐이라는 점에 유의한다. 본 명세서에 설명된 해결책에 따른 오디오 신호 분석은 0차 선형 예측으로부터의 나머지 신호와 2차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 선형 예측 이득, 및 2차 선형 예측으로부터의 나머지 신호와 16차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 선형 예측 이득을 분석함으로써 몇몇 새로운 특징 또는 파라미터를 제공한다. 즉, 0차에서 2차 선형 예측으로 진행하는 선형 예측 이득은 (2번째 모델 차수에 대한) 나머지 에너지 E(2)로 (0번째 모델 차수에 대한) "나머지 에너지" E(0)을 나눈 값과 동일하다. 이에 따라, 2차 선형 예측에서 16차 선형 예측으로 진행하는 선형 예측 이득은 (16번째 모델 차수에 대한) 나머지 에너지 E(16)으로 (2번째 모델 차수에 대한) 나머지 에너지 E(2)를 나눈 값과 동일하다. 파라미터들 및 예측 이득들에 기초한 파라미터들의 결정의 예들이 아래에서 더 상세히 설명될 것이다. 전술한 일반적인 실시예에 따라 획득된 적어도 하나의 파라미터는 배경 잡음 추정치를 갱신할지 여부를 평가하기 위해 사용되는 결정 기준의 일부를 형성할 수 있다.

적어도 하나의 파라미터 또는 특징의 장기 안정성을 개선하기 위해, 제한된 버전의 예측 이득이 계산될 수 있다. 즉, 적어도 하나의 파라미터를 획득하는 단계는 0차에서 2차로 그리고 2차에서 16차 선형 예측으로 진행하는 것과 관련된 선형 예측 이득을 미리 정의된 구간의 값으로 제한하는 단계를 포함할 수 있다. 예를 들어, 선형 예측 이득은 예를 들어 아래의 수학식 1 및 수학식 6에 나타난 바와 같이 0과 8 사이의 값을 갖도록 제한될 수 있다.

적어도 하나의 파라미터를 획득하는 단계는 예로서 저역 통과 필터링에 의해 제1 및 제2 선형 예측 이득 각각의 적어도 하나의 장기 추정치를 생성하는 단계를 더 포함할 수 있다. 또한, 이러한 적어도 하나의 장기 추정치는 적어도 하나의 선행하는 오디오 신호 세그먼트와 연관된 대응하는 선형 예측 이득에 더 기초할 것이다. 2개 이상의 장기 추정치가 생성될 수 있으며, 예로서 선형 예측 이득과 관련된 제1 및 제2 장기 추정치는 오디오 신호의 변화에 대해 다르게 반응한다. 예를 들어, 제1 장기 추정치는 제2 장기 추정치보다 변화에 더 빨리 반응할 수 있다. 그러한 제1 장기 추정치는 대안적으로 단기 추정치로 표시될 수 있다.

적어도 하나의 파라미터를 획득하는 단계는 오디오 신호 세그먼트와 관련된 선형 예측 이득들 중 하나와 상기 선형 예측 이득의 장기 추정치 사이의 후술하는 절대 차이 Gd_0_2(수학식 3)와 같은 차이를 결정하는 단계를 더 포함할 수 있다. 대안으로 또는 부가적으로, 아래의 수학식 9에서와 같이, 2개의 장기 추정치 사이의 차이가 결정될 수 있다. 결정이라는 용어는 대신 계산, 생성 또는 유도와 교환될 수 있다.

적어도 하나의 파라미터를 획득하는 단계는 위에서 지시된 바와 같이 선형 예측 이득들을 저역 통과 필터링하여 장기 추정치들을 유도하는 단계를 포함할 수 있으며, 이들 중 일부는 대안으로서 추정치에서 얼마나 많은 세그먼트가 고려되는지에 따라 단기 추정치로서 표시될 수 있다. 적어도 하나의 저역 통과 필터의 필터 계수는 예를 들어 현재 오디오 신호 세그먼트에만 관련된 선형 예측 이득과, 예로서 복수의 선행 오디오 신호 세그먼트에 기초하여 얻어진 대응하는 예측 이득의 장기 평균 또는 장기 추정치로 표시되는 평균 사이의 관계에 의존할 수 있다. 이것은 예를 들어 예측 이득의 장기 추정치를 더 생성하도록 수행될 수 있다. 저역 통과 필터링은 2개 이상의 단계로 수행될 수 있으며, 각 단계는 오디오 신호 세그먼트의 중지의 존재에 관한 결정을 내리기 위해 사용되는 파라미터 또는 추정치를 유발할 수 있다. 예를 들어, 오디오 신호의 변경을 상이한 방식으로 반영하는 (아래에 설명되는 G1_0_2(수학식 2) 및 Gad_0_2(수학식 4) 및/또는 G1_2_16(수학식 7), G2_2_16(수학식 8) 및 Gad_2_16(수학식 10)과 같은) 상이한 장기 추정치는 현재의 오디오 신호 세그먼트의 중지를 검출하기 위해 분석되거나 비교될 수 있다.

오디오 신호 세그먼트가 중지를 포함하는지의 여부를 결정하는 단계(202)는 오디오 신호 세그먼트와 관련된 스펙트럼 근접성 척도에 더 기초할 수 있다. 스펙트럼 근접성 척도는 현재 처리된 오디오 신호 세그먼트의 "주파수 대역별" 에너지 레벨이 현재 배경 잡음 추정치의 "주파수 대역별" 에너지 레벨, 예로서 현재 오디오 신호 세그먼트의 분석 전에 행해진 이전 갱신의 결과인 초기값 또는 추정치에 얼마나 가까운지를 지시할 것이다. 스펙트럼 근접성 척도의 결정 또는 유도의 예가 아래의 수학식 12 및 수학식 13에서 주어진다. 스펙트럼 근접성 척도는 현재 배경 추정치와 비교하여 주파수 특성에 큰 차이가 있는 저에너지 프레임을 기반으로 한 잡음 갱신을 방지하는 데 사용할 수 있다. 예를 들어, 주파수 대역에 걸친 평균 에너지는 현재 신호 세그먼트 및 현재 배경 잡음 추정치에 대해 동등하게 낮을 수 있지만, 스펙트럼 근접성 척도는 에너지가 주파수 대역에 대해 다르게 분포되는지를 나타낼 것이다. 이러한 에너지 분포의 차이는 현재 신호 세그먼트, 예를 들어 프레임이 저레벨 활성 콘텐츠일 수 있고, 프레임에 기초한 배경 잡음 추정치의 갱신이 예로서 유사한 콘텐츠를 갖는 미래의 프레임의 검출을 방지할 수 있다는 것을 암시할 수 있다. 부대역 SNR이 에너지 증가에 가장 민감하기 때문에, 훨씬 낮은 레벨의 활성 콘텐츠의 사용은 낮은 주파수의 자동차 잡음에 비해 음성의 고주파 부분과 같이 그러한 특정 주파수 범위가 배경 잡음에 존재하지 않을 경우에 배경 추정치를 크게 갱신할 수 있다. 이러한 갱신 후에는 음성을 검출하기가 더 어려워질 것이다.

이미 위에서 제시한 바와 같이, 스펙트럼 근접성 척도는 현재 분석된 오디오 신호 세그먼트의, 대안으로서 부대역으로 표시되는 주파수 대역의 세트에 대한 에너지 및 주파수 대역의 세트에 대응하는 현재 배경 잡음 추정치에 기초하여 유도되거나 획득되거나 계산될 수 있다. 이것은 또한 이하에 보다 상세히 예시되고 기술되며, 도 5에 도시된다.

전술한 바와 같이, 스펙트럼 근접성 척도는 현재 처리된 오디오 신호 세그먼트의 현재 주파수 대역별 에너지 레벨을 현재 배경 잡음 추정치의 주파수 대역별 에너지 레벨과 비교함으로써 유도되거나 획득되거나 계산될 수 있다. 그러나, 처음에는, 즉 오디오 신호를 분석하는 초기의 제1 기간 또는 제1 수의 프레임 동안에는, 신뢰할 수 있는 배경 잡음 추정치가 없을 수 있는데, 이는 예로서 배경 잡음 추정치의 신뢰성 있는 갱신이 아직 수행되지 않았기 때문이다. 따라서, 스펙트럼 근접성 값을 결정하기 위해 초기화 기간이 적용될 수 있다. 그러한 초기화 기간 동안, 현재 오디오 신호 세그먼트의 주파수 대역별 에너지 레벨은 예로서 구성 가능한 상수 값일 수 있는 초기 배경 추정치와 대신 비교될 것이다. 아래의 추가 예들에서, 이 초기 배경 잡음 추정치는 예시 값 E_min = 0.0035로 설정된다. 초기화 기간 후, 절차는 정상 동작으로 전환할 수 있고, 현재 처리된 오디오 신호 세그먼트의 현재 주파수 대역별 에너지 레벨을 현재 배경 잡음 추정치의 주파수 대역별 에너지 레벨과 비교할 수 있다. 초기화 기간의 길이는 예를 들어 시뮬레이션 또는 테스트에 기초하여 구성될 수 있으며, 이는 예를 들어 신뢰성 있고/있거나 만족스러운 배경 잡음 추정치가 제공되기 전에 시간이 걸린다는 것을 나타낸다. 아래에서 사용되는 예에서는 (현재 오디오 신호에 기초하여 유도된 "실제" 추정치 대신에) 초기 배경 잡음 추정치와의 비교가 처음 150 프레임 동안에 수행된다.

적어도 하나의 파라미터는 NEW_POS_BG로 표시되는, 아래의 추가적인 코드 내에 예시된 파라미터 및/또는 후술되는 복수의 파라미터 중 하나 이상일 수 있고, 이는 중지 검출을 위한 결정 기준 또는 결정 기준의 구성 요소의 형성을 유발한다. 환언하면, 선형 예측 이득에 기초하여 획득(201)된 적어도 하나의 파라미터 또는 특징은 이하에 설명되는 하나 이상의 파라미터일 수 있고, 이하에 설명되는 하나 이상의 파라미터를 포함할 수 있고/있거나, 이하에 설명되는 하나 이상의 파라미터에 기초할 수 있다.

나머지 에너지 E(0) 및 E(2)와 관련된 특징 또는 파라미터

도 3은 예시적인 실시예에 따라, E(0) 및 E(2)에 관련된 특징 또는 파라미터의 유도의 개요 블록도를 도시한다. 도 3에서 알 수 있는 바와 같이, 예측 이득은 E(0)/E(2)로서 먼저 계산된다. 예측 이득의 제한된 버전은 다음과 같이 계산된다.

여기서, E(0)은 입력 신호의 에너지를 나타내고, E(2)는 2차 선형 예측 후의 나머지 에너지이다. 수학식 1의 표현은 예측 이득을 0과 8 사이의 구간으로 제한한다. 예측 이득은 정상적인 경우에 0보다 커야 하지만, 예를 들어 0에 가까운 값에 대해서는 이상이 발생할 수 있고, 따라서 "0 초과" 제한(0<)이 유용할 수 있다. 예측 이득을 최대 8로 제한하는 이유는, 여기에 설명된 해결책의 목적을 위해, 예측 이득이 유의미한 선형 예측 이득을 나타내는 약 8 이상임을 알면 충분하다는 것이다. 2개의 상이한 모델 차수 사이의 나머지 에너지 간에 차이가 없을 때, 선형 예측 이득은 1일 것이며, 이는 더 높은 모델 차수의 필터가 더 낮은 모델 차수의 필터보다 오디오 신호를 모델링하는 데 더 성공적이지 않음을 나타낸다는 점에 유의해야 한다. 또한, 예측 이득 G_0_2가 다음 식에서 너무 큰 값을 취하는 경우, 이것은 유도된 파라미터의 안정성을 위협할 수 있다. 8은 특정 실시예에 대해 선택된 예시적인 값일 뿐이라는 점에 유의해야 한다. 파라미터 G_0_2는 대안적으로 예를 들어 epsP_0_2 또는

로 표시될 수 있다.

이어서, 제한된 예측 이득을 두 단계로 필터링하여, 이 이득의 장기 추정치를 생성한다. 제1 저역 통과 필터링 및 따라서 제1 장기 특징 또는 파라미터의 유도는 다음과 같이 이루어진다.

여기서, 식의 두 번째 "G1_0_2"는 이전 오디오 신호 세그먼트로부터의 값으로서 판독되어야 한다. 이 파라미터는 일반적으로 배경 전용 입력 세그먼트가 있으면 입력의 배경 잡음 유형에 따라 0 또는 8일 것이다. 파라미터 G1_0_2는 대안적으로 예를 들어 epsP_0_2_lp 또는

로 표시될 수 있다. 이어서, 다른 특징 또는 파라미터가 다음 식에 따라 제1 장기 특징 G1_0_2와 프레임별 제한 예측 이득 G_0_2 사이의 차이를 사용하여 생성되거나 계산될 수 있다.

이것은 예측 이득의 장기 추정치와 비교하여 현재 프레임의 예측 이득의 지시를 제공할 것이다. 파라미터 Gd_0_2는 대안적으로 예로서 epsP_0_2_ad 또는

로 표시될 수 있다. 도 4에서, 이 차이는 제2 장기 추정치 또는 특징 Gad_0_2를 생성하는 데 사용된다. 이것은 장기 차이가 다음 식에 따라 현재 추정 평균 차이보다 높은지 또는 낮은지에 따라 다른 필터 계수를 적용하는 필터를 사용하여 수행된다.

여기서, Gd_0_2 < Gad_0_2이면, a = 0.1이고, 아니면 a = 0.2이다.

여기서, 식의 두 번째 "Gad_0_2"는 이전 오디오 신호 세그먼트로부터의 값으로서 판독되어야 한다. 파라미터 Gad_0_2는 대안적으로 예를 들어 Glp_0_2, epsP_0_2_ad_lp 또는

로 표시될 수 있다. 필터링이 우연한 높은 프레임 차이를 마스킹하지 못하게 하기 위해, 도면에 도시되지 않은 다른 파라미터가 유도될 수 있다. 즉, 이러한 마스킹을 방지하기 위해 제2 장기 특징 Gad_0_2가 프레임 차이와 결합될 수 있다. 이 파라미터는 다음과 같이 예측 이득 특징의 프레임 버전 Gd_0_2 및 장기 버전 Gad_0_2 중 최대값을 취함으로써 유도될 수 있다.

파라미터 Gmax_0_2는 대안으로서 예를 들면 epsP_0_2_ad_lp_max 또는

로 표시될 수 있다.

나머지 에너지 E(2) 및 E(16)과 관련된 특징 또는 파라미터

도 4는 예시적인 실시예에 따른 E(2) 및 E(16)에 관련된 특징 또는 파라미터의 유도의 개요 블록도를 도시한다. 도 4에서 알 수 있는 바와 같이, 예측 이득은 E(2)/E(16)으로서 먼저 계산된다. 2차 나머지 에너지와 16차 나머지 에너지 간의 차이 또는 관계를 이용하여 생성되는 특징 또는 파라미터는 0차 나머지 에너지와 2차 나머지 에너지 사이의 관계와 관련하여 전술한 것들과 약간 상이하게 유도된다.

여기서도 제한된 예측 이득은 다음과 같이 계산된다.

여기서, E(2)는 2차 선형 예측 후의 나머지 에너지를 나타내고, E(16)는 16차 선형 예측 후의 나머지 에너지를 나타낸다. 파라미터 G_2_16은 대안으로서 예를 들면 epsP_2_16 또는

으로 표시될 수 있다. 이어서, 이러한 제한된 예측 이득은 이러한 이득의 2개의 장기 추정치를 생성하는 데 사용되며: 하나는 장기 추정치가 아래에 나타난 바와 같이 증가되거나 증가되지 않을 경우에 필터 계수가 상이한 경우이다.

여기서, G_2_16 > G1_2_16인 경우에 a = 0.2이고, 아니면 a = 0.03이다.

파라미터 G1_2_16은 대안적으로 예를 들어 epsP_2_16_lp 또는

이다.

제2 장기 추정치는 다음 식에 따라 일정한 필터 계수를 사용한다.

여기서, b=0.02이다.

파라미터 G2_2_16은 대안적으로 예를 들어 epsP_2_16_lp2 또는

이다.

대부분의 유형의 배경 신호의 경우, G1_2_16 및 G2_2_16은 모두 0에 가까울 것이지만, 이들은 일반적으로 음성 및 기타 활성 콘텐츠에 대해 16차 선형 예측이 필요한 콘텐츠에 대해 상이한 응답을 가질 것이다. 제1 장기 추정치 G1_2_16은 일반적으로 제2 장기 추정치 G2_2_16보다 높을 것이다. 장기 특징들 간의 이 차이는 다음 식에 따라 측정된다.

파라미터 Gd_2_16은 대안으로서 epsP_2_16_dlp 또는

으로 표시할 수 있다.

또한, Gd_2_16은 다음 식에 따라 제3 장기 특징을 생성하는 필터에 대한 입력으로 사용될 수 있다.

여기서, Gd_2_16 < Gad_2_16이면 c = 0.02이고, 아니면 c = 0.05이다.

이 필터는 제3 장기 신호를 증가시킬지 여부에 따라 상이한 필터 계수를 적용한다. 파라미터 Gad_2_16은 대안적으로 예를 들어 epsP_2_16_dlp_lp2 또는

으로 표시될 수 있다. 또한, 여기서, 장기 신호 Gad_2_16은 필터 입력 신호 Gd_2_16과 결합되어, 필터링이 현재 프레임에 대한 우연한 높은 입력을 마스킹하는 것을 방지할 수 있다. 또한, 마지막 파라미터는 프레임 또는 세그먼트 및 특징의 장기 버전 중 최대값이다.

파라미터 Gmax_2_16은 대안으로서 예를 들면 epsP_2_16_dlp_max 또는

로 표시될 수 있다.

스펙트럼 근접성/차이 척도

스펙트럼 근접성 특징은 부대역 에너지가 계산되고 부대역 배경 추정치와 비교되는 현재 입력 프레임 또는 세그먼트의 주파수 분석을 사용한다. 스펙트럼 근접성 파라미터 또는 특징은 예로서 전술한 선형 예측 이득과 관련된 파라미터와 조합하여 사용되어, 현재 세그먼트 또는 프레임이 이전의 배경 추정치에 비교적 가깝거나 적어도 너무 멀지 않은 것을 보증할 수 있다.

도 5는 스펙트럼 근접성 또는 차이 척도의 계산의 블록도를 도시한다. 초기화 기간, 예를 들어 처음 150 프레임 동안, 초기 배경 추정치에 대응하는 상수와의 비교가 이루어진다. 초기화가 끝나면, 정상 동작으로 진행하여, 배경 추정치와 비교된다. 스펙트럼 분석은 20개의 부대역에 대한 부대역 에너지를 생성하지만, 여기서 nonstaB의 계산은 부대역 i = 2, ... 16만을 사용하는데, 이는 주로 이러한 대역들에서는 음성 에너지가 위치하기 때문이라는 점에 유의한다. 여기서, nonstaB는 비고정성을 반영한다.

따라서, 초기화 동안, nonstaB는 다음과 같이 Emin을 사용하여 계산되며, 여기서는 Emin = 0.0035로 설정된다.

여기서, sum은 i = 2 ... 16에 대해 행해진다.

이는 초기화 동안 배경 잡음 추정에서 결정 오류의 영향을 줄이기 위해 수행된다. 초기화 기간 후에, 계산은 다음 식에 따라 각각의 부대역의 현재 배경 잡음 추정치를 사용하여 이루어진다.

여기서, sum은 i = 2 ... 16에 대해 행해진다.

로그 전에 각각의 부대역 에너지에 상수 1을 더하면 저에너지 프레임에 대한 스펙트럼 차이에 대한 민감도가 감소한다. 파라미터 nonstaB는 대안적으로 예로서 non_staB 또는 nonstat_B로 표시될 수 있다.

배경 추정기의 예시적인 실시예를 나타내는 블록도가 도 6에 도시되어 있다. 도 6의 실시예는 입력 오디오 신호를 적당한 길이, 예로서 5-30 ms의 프레임들 또는 세그먼트들로 분할하는 입력 프레이밍(601)을 위한 블록을 포함한다. 실시예는 입력 신호의 각각의 프레임 또는 세그먼트에 대해 본 명세서에서 파라미터로도 지칭되는 특징을 계산하는 특징 추출(602)을 위한 블록을 더 포함한다. 실시예는 현재 프레임의 신호에 기초하여 배경 추정치가 갱신될 수 있는지 여부, 즉 신호 세그먼트가 음성 및 음악과 같은 활성 콘텐츠를 갖지 않는지를 결정하기 위한 갱신 결정 논리(603)을 위한 블록을 더 포함한다. 실시예는 갱신 결정 논리가 그렇게 하는 것이 적당함을 지시할 때 배경 잡음 추정치를 갱신하기 위한 배경 갱신기(604)를 더 포함한다. 도시된 실시예에서, 배경 잡음 추정치는 부대역마다, 즉 다수의 주파수 대역에 대해 유도될 수 있다.

본 명세서에서 설명된 해결책은 본원의 부록 A 및 또한 문헌 WO2011/049514에 기술된 배경 잡음 추정에 대한 이전 해결책을 개선하는 데 사용될 수 있다. 이하, 본원에 설명된 해결책은 이전에 설명된 해결책과 관련하여 설명될 것이다. 배경 잡음 추정기의 실시예의 코드 구현으로부터의 코드 예들이 주어질 것이다.

이하, 실제 구현 상세가 G.718 기반 인코더에서 본 발명의 실시예에 대해 설명된다. 이 구현은 부록 A 및 본 명세서에 참고로 포함된 WO2011/049514의 해결책에 기술된 많은 에너지 특징을 사용한다. 아래에 제시된 것보다 많은 상세를 위해, 부록 A 및 WO2011/049514를 참조한다.

다음의 에너지 특징이 W02011/049514에 정의되어 있다.

다음의 상관 특징이 W02011/049514에 정의되어 있다.

다음의 특징이 부록 A에서 주어진 해결책에서 정의되었다.

부록 A에 주어진 해결책으로부터의 잡음 갱신 논리는 도 7에 도시된다. 부록 A의 잡음 추정기의 여기에 설명된 해결책과 관련된 개선은 주로 특징이 계산되는 부분(701); 중지 결정이 상이한 파라미터에 기초하여 행해지는 부분(702); 및 또한 중지가 검출되는지의 여부에 기초하여 상이한 동작이 취해지는 부분(703)과 주로 관련된다. 또한, 개선은 여기에 설명된 해결책을 도입하기 전에는 검출되지 않았을 새로운 특징에 기초하여 중지가 검출될 때 예로서 갱신될, 배경 잡음 추정치의 갱신(704)에 영향을 줄 수 있다. 본 명세서에 설명된 예시적인 구현에서, 여기에 도입되는 새로운 특징은 위에서 그리고 도 6에서 Ecb(i)에 대응하는 현재 프레임의 부대역 에너지 enr[i] 및 위에서 그리고 도 6에서 Ncb(i)에 대응하는 현재 배경 잡음 추정치 bckr[i]를 사용하여 결정되는 non_staB로부터 시작하여 다음과 같이 계산된다. 아래의 제1 코드 섹션의 제1 부분은 적절한 배경 추정치가 유도되기 전에 오디오 신호의 처음 150 프레임에 대한 특별한 초기 절차와 관련된다.

아래의 코드 섹션은 선형 예측 나머지 에너지에 대한, 즉 선형 예측 이득에 대한 새로운 특징의 계산 방법을 보여준다. 여기서, 나머지 에너지는 epsP[m]으로 명명된다(이전에 사용된 E(m) 참조).

아래의 코드는 실제 갱신 결정, 즉 배경 잡음 추정치를 갱신할지 여부의 결정에 사용되는 결합된 메트릭, 임계치 및 플래그의 생성을 보여준다. 선형 예측 이득 및/또는 스펙트럼 근접성과 관련된 파라미터의 적어도 일부는 굵은 글씨로 표시되어 있다.

현재 프레임 또는 세그먼트가 활성 콘텐츠를 포함할 때 배경 잡음 추정치의 갱신을 하지 않는 것이 중요하므로, 갱신이 행해질지를 결정하기 위해 여러 조건이 평가된다. 잡음 갱신 논리의 주요 결정 단계는 갱신을 수행할지이며, 이는 아래에 밑줄친 논리 표현의 평가에 의해 형성된다. 새로운 파라미터 NEW_POS_BG(부록 A 및 WO2011/049514의 해결책과 관련하여 새로운 것임)는 중지 검출기이며, 선형 예측 필터의 0차에서 2차 및 2차에서 16차 모델로 진행하는 선형 예측 이득을 기반으로 얻어지고, tn_ini는 스펙트럼 근접성과 관련된 특징을 기반으로 하여 얻어진다. 여기서는 예시적인 실시예에 따라 새로운 특징을 사용하는 결정 논리를 따른다.

전술한 바와 같이, 선형 예측으로부터의 특징은 입력 신호의 레벨 독립적인 분석을 제공하여, 배경 잡음 갱신에 대한 결정을 개선하는데, 이는 에너지 기반 SAD가 정상 동적 범위의 음성 신호로 인해 제한된 성능을 갖는 SNR 범위 10 내지 20dB에서 특히 유용하다.

배경 근접성 특징은 또한 초기화 및 정상 동작 모두에 사용될 수 있기 때문에 배경 잡음 추정을 개선한다. 초기화 동안, 이것은 자동차 잡음에 일반적인 주로 낮은 주파수의 콘텐츠를 갖는 (더 낮은 레벨의) 배경 잡음에 대한 신속한 초기화를 가능하게 할 수 있다. 또한, 특징은 현재 배경 추정치에 비하여 주파수 특성의 큰 차이를 갖는 저에너지 프레임을 사용하는 잡음 갱신을 방지하는 데 사용될 수 있으며, 이는 현재 프레임이 저레벨 활성 콘텐츠일 수 있고, 갱신이 유사한 콘텐츠를 갖는 미래의 프레임의 검출을 방지할 수 있음을 암시한다.

도 8-10은 10dB SNR 자동차 잡음의 배경에서 음성에 대해 각 파라미터 또는 메트릭이 어떻게 거동하는지를 나타낸다. 도 8-10에서, 도트

는 각각 프레임 에너지를 나타낸다. 도 8 및 9a-c에서, 에너지는 G_0_2 및 G_2_16 기반 특징에서 더 잘 비교될 수 있도록 10으로 나눈 값이다. 도면들은 2개의 발음을 포함하는 오디오 신호에 대응하며, 여기서 제1 발음에 대한 대략적인 위치는 프레임들(1310-1420)에 있고, 제2 발음에 대한 것은 프레임들(1500-1610)에 있다.

도 8은 자동차 잡음이 있는 10dB SNR 음성에 대한 프레임 에너지(/10)(도트

) 및 특징 G_0_2(원

) 및 Gmax_0_2(플러스 "+")를 나타낸다. 모델 차수 2를 갖는 선형 예측을 사용하여 모델링할 수 있는 신호에 소정의 상관이 존재하기 때문에 G_0_2는 자동차 잡음 동안 8이라는 점에 유의한다. 발음 동안, 특징 Gmax_0_2는 (이 예에서) 1.5 이상이 되고, 음성 버스트 이후에 0으로 떨어진다. 결정 논리의 특정 구현에서, Gmax_0_2는 이 특징을 사용하여 잡음을 갱신할 수 있도록 0.1 이하이어야 한다.

도 9a는 프레임 에너지(/10)(도트

) 및 특징 G_2_16(원

), G1_2_16(크로스 "x"), G2_2_16(플러스 "+")을 나타낸다. 도 9b는 프레임 에너지(/10)(도트

) 및 특징 G_2_16(원

), Gd_2_16(크로스 "x") 및 Gad_2_16(플러스 "+")을 나타낸다. 도 9c는 프레임 에너지(/10)(도트

) 및 특징 G_2_16(원

) 및 Gmax_2_16(플러스 "+")을 나타낸다. 도 9a-c에 도시된 도면들도 자동차 잡음이 있는 10dB SNR 음성과 관련된다. 특징은 각 파라미터를 보다 쉽게 볼 수 있도록 세 도면에 표시된다. G_2_16(원

)은 자동차 잡음(즉, 외부 발음) 동안만 1보다 높으며, 이는 더 높은 모델 차수로부터의 이득이 이 유형의 잡음에 대해 낮다는 것을 나타낸다. 발음 동안, 특징 Gmax_2_16(도 9c의 플러스 "+")이 증가하고, 이어서 다시 0으로 떨어지기 시작한다. 결정 논리의 특정 구현에서, 특징 Gmax_2_16은 또한 잡음 갱신을 허용하기 위해 0.1보다 낮아져야 한다. 이 특정 오디오 신호 샘플에서는 이것이 발생하지 않는다.

도 10은 자동차 잡음이 있는 10dB SNR 음성에 대한 프레임 에너지(도트

)(이번에는 10으로 나누지 않음) 및 특징 nonstaB(플러스 "+")를 나타낸다. 특징 nonstaB는 잡음 전용 세그먼트 동안 0-10의 범위에 있으며, 발음의 경우에 (주파수 특성이 음성에 대해 상이하므로) 훨씬 더 커진다. 그러나 발음 동안에도 특징 nonstaB가 0-10의 범위에 속하는 프레임이 있음에 유의해야 한다. 이러한 프레임의 경우, 배경 잡음을 갱신하여 배경 잡음을 더 잘 추적할 가능성이 있을 수 있다.

여기에 개시된 해결책은 또한 하드웨어 및/또는 소프트웨어로 구현된 배경 잡음 추정기에 관한 것이다.

배경 잡음 추정기, 도 11a-11c

배경 잡음 추정기의 예시적인 실시예가 도 11a에 일반적인 방식으로 도시되어 있다. 배경 잡음 추정기는 예로서 음성 및/또는 음악을 포함하는 오디오 신호의 배경 잡음을 추정하도록 구성된 모듈 또는 엔티티를 지칭한다. 인코더(1100)는 예를 들어 도 2 및 7을 참조하여 상기 기술된 방법들에 대응하는 적어도 하나의 방법을 수행하도록 구성된다. 인코더(1100)는 전술한 방법 실시예와 동일한 기술적 특징, 목적 및 이점과 관련된다. 배경 잡음 추정기는 불필요한 반복을 피하기 위해 간략하게 설명될 것이다.

배경 잡음 추정기는 다음과 같이 구현 및/또는 설명될 수 있다. 배경 잡음 추정기(1100)는 오디오 신호의 배경 잡음을 추정하도록 구성된다. 배경 잡음 추정기(1100)는 처리 회로 또는 처리 수단(1101) 및 통신 인터페이스(1102)를 포함한다. 처리 회로(1101)는 인코더(1100)가 오디오 신호 세그먼트에 대해 0차 선형 예측으로부터의 나머지 신호와 2차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제1 선형 예측 이득 및 오디오 신호 세그먼트에 대해 2차 선형 예측으로부터의 나머지 신호와 16차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제2 선형 예측 이득에 기초하여 적어도 하나의 파라미터, 예로서 NEW_POS_BG를 획득, 예로서 결정 또는 계산하게 하도록 구성된다.

처리 회로(1101)는 또한 배경 잡음 추정기가 적어도 하나의 파라미터에 기초하여 오디오 신호 세그먼트가 중지를 포함하는지, 즉 음성 및 음악과 같은 활성 콘텐츠를 갖지 않는지를 결정하게 하도록 구성된다. 처리 회로(1101)는 또한 오디오 신호 세그먼트가 중지를 포함할 때 배경 잡음 추정기가 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하게 하도록 구성된다.

예를 들어 입출력(I/O) 인터페이스로도 표시될 수 있는 통신 인터페이스(1102)는 다른 엔티티 또는 모듈로 데이터를 전송하고 그로부터 데이터를 수신하기 위한 인터페이스를 포함한다. 예를 들어, 선형 예측 모델 차수 0, 2, 및 16에 관련된 나머지 신호들이 선형 예측 코딩을 수행하는 오디오 신호 인코더로부터 I/O 인터페이스를 통해 획득, 예로서 수신될 수 있다.

처리 회로(1101)는 도 11b에 도시된 바와 같이 프로세서(1103)와 같은 처리 수단, 예로서 CPU 및 명령어를 저장 또는 유지하는 메모리(1104)를 포함할 수 있다. 또한, 메모리는 처리 수단(1103)에 의해 실행될 때 인코더(1100)가 전술한 동작을 수행하게 하는 컴퓨터 프로그램(1105)의 형태의 명령어를 포함할 것이다.

처리 회로(1101)의 대안적인 구현이 도 11c에 도시되어 있다. 여기서 처리 회로는 배경 잡음 추정기(1100)가 오디오 신호 세그먼트에 대해 0차 선형 예측으로부터의 나머지 신호와 2차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제1 선형 예측 이득 및 오디오 신호 세그먼트에 대해 2차 선형 예측으로부터의 나머지 신호와 16차 선형 예측으로부터의 나머지 신호 사이의 몫으로서 계산된 제2 선형 예측 이득에 기초하여 적어도 하나의 파라미터, 예로서 NEW_POS_BG를 획득, 예로서 결정 또는 계산하게 하도록 구성된 획득 또는 결정 유닛 또는 모듈(1106)을 포함한다. 처리 회로는 또한 배경 잡음 추정기(1100)가 적어도 하나의 파라미터에 기초하여 오디오 신호 세그먼트가 중지를 포함하는지, 즉 음성 및 음악과 같은 활성 콘텐츠를 갖지 않는지를 결정하게 하도록 구성된 결정 유닛 또는 모듈(1107)을 포함한다. 처리 회로(1101)는 또한 오디오 신호 세그먼트가 중지를 포함할 때 배경 잡음 추정기가 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하게 하도록 구성된 갱신 또는 추정 유닛 또는 모듈(1110)을 포함한다.

처리 회로(1101)는 배경 잡음 추정기가 선형 예측 이득을 저역 통과 필터링하여, 선형 예측 이득의 하나 이상의 장기 추정치를 생성하게 하도록 구성된 필터 유닛 또는 모듈과 같은 더 많은 유닛을 포함할 수 있다. 그렇지 않으면 저역 통과 필터링과 같은 동작은 예로서 결정 유닛 또는 모듈(1107)에 의해 수행될 수 있다.

전술한 배경 잡음 추정기의 실시예들은 선형 예측 이득을 제한 및 저역 통과 필터링하고, 선형 예측 이득과 장기 추정치 차이 및 장기 추정치들 사이의 차이를 결정하고/하거나, 스펙트럼 근접성 척도를 사용하는 것 등과 같은 여기에 기술된 상이한 방법 실시예를 위해 구성될 수 있다.

배경 잡음 추정기(1100)는 예컨대 부록 A에 예시된 기능과 같이 배경 잡음 추정을 수행하기 위한 추가 기능을 포함하는 것으로 가정될 수 있다.

도 12는 예시적인 실시예에 따른 배경 추정기(1200)를 도시한다. 배경 추정기(1200)는 예를 들어 모델 차수 0, 2 및 16에 대한 나머지 에너지를 수신하기 위한 입력 유닛을 포함한다. 배경 추정기는 프로세서 및 메모리를 더 포함하며, 상기 메모리는 상기 프로세서에 의해 실행 가능한 명령어를 포함하며, 따라서 상기 배경 추정기는 본 명세서에 설명된 실시예에 따른 방법을 수행하도록 동작한다.

따라서, 배경 추정기는 도 13에 도시된 바와 같이 입출력 유닛(1301), 모델 차수 0, 2 및 16에 대한 나머지 에너지로부터 처음 두 세트의 특징을 계산하기 위한 계산기(1302) 및 스펙트럼 근접성 특징을 계산하기 위한 주파수 분석기(1303)를 포함할 수 있다.

위에서 설명한 것들과 같은 배경 잡음 추정기는 예를 들어 VAD 또는 SAD, 인코더 및/또는 디코더, 즉 코덱 내에 그리고/또는 통신 디바이스와 같은 디바이스 내에 포함될 수 있다. 통신 디바이스는 이동 전화, 비디오 카메라, 사운드 레코더, 태블릿, 데스크탑, 랩탑, TV 셋톱 박스 또는 홈 서버/홈 게이트웨이/홈 액세스 포인트/홈 라우터의 형태인 사용자 장비(UE)일 수 있다. 통신 디바이스는 일부 실시예에서 오디오 신호의 코딩 및/또는 트랜스코딩에 적합한 통신 네트워크 디바이스일 수 있다. 이러한 통신 네트워크 디바이스의 예는 서버, 예로서 미디어 서버, 애플리케이션 서버, 라우터, 게이트웨이 및 무선 기지국이다. 또한, 통신 디바이스는 선박, 무인 비행기, 비행기 및 도로 차량, 예로서 자동차, 버스 또는 로리와 같은 용기 내에 위치되도록, 즉 내장되도록 적응될 수 있다. 이러한 내장 디바이스는 통상적으로 차량 텔레매틱스 유닛 또는 차량 인포테인먼트 시스템에 속할 것이다.

본 명세서에 설명된 단계들, 기능들, 절차들, 모듈들, 유닛들 및/또는 블록들은 범용 전자 회로 및 주문형 회로 양자를 포함하는 개별 회로 또는 집적 회로 기술과 같은 임의의 통상적인 기술을 사용하여 하드웨어로 구현될 수 있다.

특정 예는 하나 이상의 적절하게 구성된 디지털 신호 프로세서 및 다른 공지된 전자 회로, 예를 들어, 특별한 기능을 수행하기 위해 상호 접속된 개별 논리 게이트들, 또는 주문형 집적 회로(ASIC)를 포함한다.

대안적으로, 전술한 단계, 기능, 절차, 모듈, 유닛 및/또는 블록 중 적어도 일부는 하나 이상의 처리 유닛을 포함하는 적절한 처리 회로에 의한 실행을 위한 컴퓨터 프로그램과 같은 소프트웨어로 구현될 수 있다. 소프트웨어는 네트워크 노드에서의 컴퓨터 프로그램의 사용 전 및/또는 사용 동안 전자 신호, 광 신호, 라디오 신호와 같은 캐리어, 또는 컴퓨터 판독 가능 저장 매체에 의해 운반될 수 있다.

여기에 제시된 흐름도 또는 흐름도들은 하나 이상의 프로세서에 의해 수행될 때 컴퓨터 흐름도 또는 흐름도들로 간주될 수 있다. 대응하는 장치는 기능 모듈의 그룹으로서 정의될 수 있으며, 프로세서에 의해 수행되는 각 단계는 기능 모듈에 대응한다. 이 경우, 기능 모듈은 프로세서에서 실행되는 컴퓨터 프로그램으로 구현된다.

처리 회로의 예는 하나 이상의 마이크로프로세서, 하나 이상의 디지털 신호 프로세서(DSP), 하나 이상의 중앙 처리 유닛(CPU) 및/또는 하나 이상의 필드 프로그래밍 가능 게이트 어레이(FPGA) 또는 하나 이상의 프로그래밍 가능 논리 제어기(PLC)와 같은 임의의 적절한 프로그래밍 가능 논리 회로를 포함하지만 이에 한정되지 않는다. 즉, 전술한 상이한 노드 내의 배열 내의 모듈 또는 유닛은 아날로그 및 디지털 회로의 조합 및/또는 예로서 메모리에 저장된 소프트웨어 및/또는 펌웨어로 구성된 하나 이상의 프로세서에 의해 구현될 수 있다. 이러한 프로세서 중 하나 이상은 물론, 다른 디지털 하드웨어가 단일 주문형 집적 회로(ASIC)에 포함될 수 있거나, 여러 프로세서 및 다양한 디지털 하드웨어가 개별적으로 패키지되거나 시스템 온 칩(SoC) 내에 조립되는지에 관계없이 여러 개별 구성 요소 사이에 분산될 수 있다.

또한, 제안된 기술이 구현되는 임의의 통상적인 디바이스 또는 유닛의 일반적인 처리 능력을 재사용하는 것이 가능할 수도 있음을 이해해야 한다. 예로서 기존 소프트웨어를 다시 프로그래밍하거나 새로운 소프트웨어 구성 요소를 추가함으로써 기존 소프트웨어를 다시 사용할 수도 있다.

전술한 실시예는 단지 예로서 제공된 것이고, 제안된 기술은 이에 한정되지 않는다는 것을 이해하여야 한다. 이 분야의 기술자는 본 발명의 범위를 벗어나지 않고 다양한 수정, 조합 및 변경이 실시예에 대해 이루어질 수 있음을 이해할 것이다. 특히, 다른 실시예들에서의 상이한 부분 해결책들은 기술적으로 가능할 경우 다른 구성들에서 결합될 수 있다.

"포함한다" 또는 "포함하는"이라는 단어를 사용하는 경우, 이는 비제한적으로, 즉 "적어도 구성됨"을 의미하는 것으로 해석되어야 한다.

또한, 일부 대안적인 구현들에서, 블록들에서 언급된 기능들/동작들은 흐름도들에서 언급된 순서와 다르게 행해질 수 있다는 것에 유의해야 한다. 예를 들어, 연속하여 도시된 두 개의 블록은 사실은 실질적으로 동시에 실행될 수 있거나 또는 그 블록들은, 관련된 기능/동작들에 따라, 때때로 역순으로 실행될 수 있다. 더욱이, 흐름도들 및/또는 블록도들의 주어진 블록의 기능이 다수의 블록으로 분리될 수 있으며/있거나 흐름도들 및/또는 블록도들의 둘 이상의 블록의 기능이 적어도 부분적으로 통합될 수 있다. 마지막으로, 본 발명의 개념의 범위를 벗어나지 않고, 도시된 블록들 사이에 다른 블록들이 추가/삽입될 수 있고/있거나, 블록들/동작들이 생략될 수 있다.

상호작용하는 유닛들의 선택뿐만 아니라, 본 개시 내에서의 유닛들의 명명은 예시의 목적일 뿐이고, 전술한 방법들 중 임의의 방법을 실행하는 데 적당한 노드는 제안된 절차 동작들을 실행할 수 있기 위하여 복수의 대안적 방식으로 구성될 수 있다는 것을 이해해야 한다.

본 개시에서 설명된 유닛들은 논리적 엔티티로서 간주되어야 하며 반드시 별개의 물리적 엔티티로서 간주되어서는 안 된다는 점에도 유의해야 한다.

단수의 요소에 대한 참조는 명시적으로 그렇게 기술하지 않는 한 "오직 하나"를 의미하는 것을 의도하지 않고, 오히려 "하나 이상"을 의도한다. 이 분야의 통상의 기술자에게 공지되어 있는 전술한 실시예들의 요소들에 대한 모든 구조적 및 기능적 등가물들이 본 명세서에 참조로 명백하게 통합되고 그에 의해 포함되도록 의도된다. 게다가, 한 디바이스 또는 방법이, 본 명세서에 포함된다는 이유로 여기서 개시된 기술에 의해 해결하고자 하는 각각의 및 모든 문제를 해결할 필요는 없다.

여기의 일부 예에서, 공지된 디바이스, 회로, 및 방법의 상세한 설명은 불필요한 상세로 개시된 기술의 설명을 흐리게 하지 않도록 생략된다. 개시된 기술의 원리, 양태, 및 실시예뿐만 아니라 그 특정한 예를 기재한 본 명세서의 모든 기재사항은 그의 구조적 및 기능적 등가물 모두를 포괄하는 것으로 의도된다. 또한, 이러한 등가물은 현재 알려진 등가물뿐만 아니라 장래에 개발되는 등가물, 예로서 구조에 관계없이 동일한 기능을 수행하는 임의의 개발된 요소를 모두 포함하는 것으로 의도된다.

부록 A

아래 텍스트에서의 도면에 대한 참조는 도 14a 내지 14h에 대한 참조이며, 따라서 아래의 "도 2"는 도면의 도 14a에 대응한다.

도 2는 여기서 제안되는 기술에 따른 배경 잡음 추정 방법의 예시적인 실시예를 도시한 흐름도이다. 방법은 SAD의 일부일 수 있는 배경 잡음 추정기에 의해 수행되도록 의도된다. 배경 잡음 추정기 및 SAD는 또한 오디오 인코더에 포함될 수 있으며, 오디오 인코더는 무선 디바이스 또는 네트워크 노드에 포함될 수 있다. 기술된 배경 잡음 추정기에 대해, 잡음 추정치를 하향 조정하는 것은 제한되지 않는다. 각 프레임에 대해, 가능한 새로운 부대역 잡음 추정치가 계산되며, 프레임이 배경 또는 활성 콘텐츠인지에 관계없이, 새로운 값이 현재 값보다 낮으면, 이 값은 배경 프레임으로부터의 값일 가능성이 매우 크므로 직접 사용된다. 후속하는 잡음 추정 논리는 부대역 잡음 추정치가 증가될 수 있는지 그리고 그러한 경우에 얼마나 증가될 수 있는지를 결정하는 제2 단계이며, 증가는 이전에 계산된 가능한 새로운 부대역 잡음 추정치에 기초한다. 기본적으로, 이 논리는 현재 프레임이 배경 프레임이라는 결정을 형성하며, 확실하지 않은 경우에는 원래 추정했던 것보다 작은 증가를 허용할 수 있다.

도 2에 도시된 방법은, 오디오 신호 세그먼트의 에너지 레벨이 장기 최소 에너지 레벨 lt_min보다 높은(202:1) 임계 값보다 클 때, 또는 오디오 신호 세그먼트의 에너지 레벨이 lt_min보다 높은(202:2) 임계치보다 작지만 오디오 신호 세그먼트에서 중지가 검출되지 않을 때(204:1):

- 오디오 신호 세그먼트가 음악을 포함하는 것으로 결정되고(203:2), 현재의 배경 잡음 추정치가 도 2에 "T"로 표시되고 또한 예로서 아래의 코드에서 2*E_MIN으로 예시되는 최소값을 초과할 때(205:1), 현재 배경 잡음 추정치를 감소시키는 단계(206)를 포함한다.

상기한 바를 수행하고 배경 잡음 추정치를 SAD에 제공함으로써, SAD는 보다 적절한 사운드 활동 검출을 수행할 수 있게 된다. 또한, 잘못된 배경 잡음 추정치 갱신으로부터의 복원이 가능해진다.

전술한 방법에서 사용되는 오디오 신호 세그먼트의 에너지 레벨은 대안적으로 예를 들어, 현재 프레임 에너지 Etot 또는 현재 신호 세그먼트에 대한 부대역 에너지를 합산함으로써 계산될 수 있는 신호 세그먼트 또는 프레임의 에너지로서 지칭될 수 있다.

상기 방법에서 사용된 다른 에너지 특징, 즉 장기 최소 에너지 레벨 lt_min은 복수의 선행 오디오 신호 세그먼트 또는 프레임에 대해 결정되는 추정치이다. lt_min은 대안적으로 예를 들어 Etot_l_lp로 표시될 수 있다. lt_min을 유도하는 하나의 기본적인 방법은 소정 수의 과거 프레임에 대해 현재 프레임 에너지의 히스토리의 최소값을 사용하는 것이다. "현재 프레임 에너지-장기 최소 추정치"로서 계산된 값이 예를 들어 THR1로 표시된 임계치 아래인 경우, 현재 프레임 에너지는 여기서 장기 최소 에너지에 근접하거나 장기 최소 에너지에 가깝다고 말해진다. 즉, (Etot-lt_min)<THR1일 때, 현재 프레임 에너지 Etot는 장기 최소 에너지 lt_min에 가까운 것으로 결정될 수 있다(202). (Etot-lt_min)=THR1인 경우는 구현에 따라 결정들 어느 하나(202:1 또는 202:2)로서 지칭할 수 있다. 도 2의 넘버링 202:1은 현재 프레임 에너지가 lt_min에 가깝지 않다는 결정을 나타내고, 202:2는 현재 프레임 에너지가 lt_min에 가깝다는 결정을 나타낸다. XXX:Y 형태의 도 2의 다른 넘버링은 대응하는 결정을 나타낸다. 특징 lt_min은 아래에서 더 설명된다.

현재 배경 잡음 추정치가 초과해야 하는 최소값은 감소하기 위해 0 또는 작은 양수 값으로 가정될 수 있다. 예를 들어, 아래의 코드에서 예시되는 바와 같이, "totalNoise"라고 표시될 수 있고, 예를 들어 10*log10∑backr[i]로서 결정될 수 있는 배경 추정치의 현재 총 에너지는 감소가 문제가 되려면 0의 최소값을 초과하는 것이 필요할 수 있다. 대안적으로 또는 부가적으로, 부대역 배경 추정치를 포함하는 벡터 backr[i] 내의 각 엔트리는 감소가 수행되도록 하기 위해 최소값 E_MIN과 비교될 수 있다. 아래 코드 예에서 E_MIN은 작은 양수 값이다.

본 명세서에서 제안된 해결책의 바람직한 실시예에 따르면, 오디오 신호 세그먼트의 에너지 레벨이 lt_min보다 높은 임계 값보다 큰지의 결정은 입력 오디오 신호로부터 유도된 정보에 기초하는데, 즉 사운드 활동 검출기 결정으로부터의 피드백에 기초하지 않는다.

현재 프레임이 중지를 포함하는지 여부의 결정(204)은 하나 이상의 기준에 기초하여 상이한 방식으로 수행될 수 있다. 중지 기준은 중지 검출기라고도 할 수 있다. 단일 중지 검출기가 적용될 수 있거나, 다른 중지 검출기의 조합이 적용될 수 있다. 중지 검출기의 조합을 사용하면, 이들 각각은 서로 다른 조건에서 중지를 검출하는 데 사용될 수 있다. 현재 프레임이 중지 또는 비활성을 포함할 수 있다는 하나의 지시자는 프레임에 대한 상관 특징이 낮고 다수의 선행 프레임 또한 낮은 상관 특성을 갖는다는 것이다. 현재의 에너지가 장기 최소 에너지에 가깝고 중지가 검출되면, 배경 잡음은 도 2에 도시된 바와 같이 현재 입력에 따라 갱신될 수 있다. 중지는 오디오 신호 세그먼트의 에너지 레벨이 lt_min보다 높은 임계치보다 작은 것에 더하여, 미리 정의된 수의 연속 선행 오디오 신호 세그먼트가 활성 신호를 포함하지 않는 것으로 결정되고/되거나 오디오 신호의 동력이 임계치를 초과할 때 검출되는 것으로 간주될 수 있다. 이는 또한 아래 코드 예에서 설명된다.

배경 잡음 추정치의 감소(206)는 배경 잡음 추정치가 진정한 배경 잡음과 관련하여 "너무 높아지는" 상황의 처리를 가능하게 한다. 이것은 또한 예를 들면 배경 잡음 추정치가 실제 배경 잡음으로부터 벗어나는 것으로 표현될 수 있다. 배경 잡음 추정치가 너무 높으면 SAD에 의한 부적절한 결정을 초래할 수 있으며, 이 경우에 현재 신호 세그먼트는 활성 음성 또는 음악을 포함하는 경우에도 비활성인 것으로 결정된다. 배경 잡음 추정치가 너무 높아지는 이유는 예를 들어 음악에서의 잘못된 또는 원치 않는 배경 잡음 갱신이며, 이 경우에 잡음 추정은 배경 음악을 오인하여 잡음 추정을 증가시킨다. 개시된 방법은 예로서 입력 신호의 다음 프레임이 음악을 포함하는 것으로 결정될 때 그러한 잘못 갱신된 배경 잡음 추정치가 조정될 수 있게 한다. 이 조정은 현재 입력 신호 세그먼트 에너지가 예로서 부대역에서 현재 배경 잡음 추정치보다 높더라도, 잡음 추정치가 스케일링 다운되는 배경 잡음 추정치의 강제 감소에 의해 수행된다. 배경 잡음 추정을 위한 전술한 논리는 배경 부대역 에너지의 증가를 제어하는 데 사용된다는 점에 유의해야 한다. 현재 프레임 부대역 에너지가 배경 잡음 추정치보다 낮을 때 부대역 에너지를 낮추는 것이 항상 허용된다. 이 기능은 도 2에 명확히 도시되지는 않는다. 이러한 감소는 일반적으로 스텝 크기에 대한 고정된 설정을 갖는다. 그러나, 배경 잡음 추정치는 전술한 방법에 따라 결정 논리와 관련해서만 증가되는 것이 허용되어야 한다. 중지가 검출되면, 에너지 및 상관 특징은 실제 배경 잡음 갱신이 이루어지기 전에 배경 추정치 증가를 위한 조정 스텝 크기가 얼마나 커야 할지를 결정(207)하는 데에도 사용될 수 있다.

앞서 언급했듯이, 일부 음악 세그먼트는 매우 잡음 같기 때문에 배경 잡음과 분리하기가 어려울 수 있다. 따라서, 입력 신호가 활성 신호이더라도, 잡음 갱신 논리는 부대역 에너지 추정치의 증가를 잘못 허용할 수 있다. 이것은 잡음 추정치가 높아져야 하는 것보다 더 높아질 수 있으므로 문제를 유발할 수 있다.

종래 기술의 배경 잡음 추정기에서, 부대역 에너지 추정치는 입력 부대역 에너지가 현재 잡음 추정치 아래로 떨어질 때만 감소될 수 있다. 그러나, 일부 음악 세그먼트는 매우 잡음과 같은 이유로 배경 잡음과 분리되기 어려울 수 있으므로, 발명자는 음악에 대한 복원 전략이 필요하다는 것을 깨달았다. 본 명세서에 기술된 실시예들에서, 입력 신호가 음악과 유사한 특징으로 되돌아갈 때 강제 잡음 추정치 감소에 의해 이러한 복원이 행해질 수 있다. 즉, 전술한 에너지 및 중지 논리가 잡음 추정의 증가를 방지할 때(202:1, 204:1), 입력이 음악인 것으로 의심되는지가 테스트되며(203), 그러한 경우(203:2), 잡음 추정치가 최저 레벨 도달할 때까지(205:2) 각 프레임마다 소량의 부대역 에너지가 감소된다(206).

전술한 것들과 같은 배경 추정기는 VAD 또는 SAD 내에 그리고/또는 인코더 및/또는 디코더 내에 포함되거나 구현될 수 있으며, 인코더 및/또는 디코더는 이동 전화, 랩탑, 태블릿 등과 같은 사용자 디바이스에서 구현될 수 있다. 배경 추정기는 또한 미디어 게이트웨이와 같은 네트워크 노드에, 예로서 코덱의 일부로서 포함될 수 있다.

도 5는 예시적인 실시예에 따른 배경 추정기의 구현을 개략적으로 도시한 블록도이다. 입력 프레이밍 블록(51)은 먼저 입력 신호를 적당한 길이, 예로서 5-30 ms의 프레임들로 분할한다. 각각의 프레임에 대해, 특징 추출기(52)는 입력으로부터 적어도 다음의 특징들을 계산한다. 1) 특징 추출기는 주파수 도메인에서 프레임을 분석하고, 부대역들의 세트에 대한 에너지가 계산된다. 부대역들은 배경 추정에 사용되는 동일한 부대역들이다. 2) 특징 추출기는 시간 도메인에서 프레임을 추가로 분석하고, 예를 들어, 프레임이 활성 콘텐츠를 포함하는지 여부를 결정하는 데 사용되는 cor_est 및/또는 lt_cor_est로 표시되는 상관을 계산한다. 3) 특징 추출기는 장기 최소 에너지 lt_min과 같은 현재 및 이전 입력 프레임의 에너지 히스토리에 대한 특징을 갱신하기 위해 예로서 Etot로 표시되는 현재 프레임 총 에너지를 더 이용한다. 이어서, 상관 및 에너지 특징은 갱신 결정 논리 블록(53)으로 공급된다.

여기서, 여기서 개시된 해결책에 따른 결정 논리는 갱신 결정 논리 블록(53)에서 구현되며, 여기서 상관 및 에너지 특징은 현재 프레임 에너지가 장기 최소 에너지에 가까운지 여부; 현재 프레임이 (활성 신호가 아니라) 중지의 일부인지 여부; 및 현재 프레임이 음악의 일부인지 여부에 대한 결정을 형성하는 데 사용된다. 본 명세서에 기술된 실시예에 따른 해결책은 이러한 특징 및 결정이 강건한 방식으로 배경 잡음 추정을 갱신하는 데 사용되는 방법을 포함한다.

이하, 본 명세서에 개시된 해결책의 실시예에 대한 일부 구현 상세가 설명될 것이다. 이하의 구현 상세는 G.718 기반 인코더의 일 실시예로부터 취해진다. 이 실시예는 W02011/049514 및 W02011/049515에 기술된 특징 중 일부를 사용한다.

다음 특징은 W02011/09514에 설명된 수정된 G.718에 정의되어 있다.

Etot; 현재 입력 프레임의 총 에너지

Etot_l 최소 에너지 포락선을 추적

Etot_l_lp; 최소 에너지 포락선 Etot_l의 평활화 버전

totalNoise; 배경 추정치의 현재 총 에너지

bckr[i]; 부대역 배경 추정치를 갖는 벡터

tmpN[i]; 사전 계산된 잠재적인 새로운 배경 추정치

aEn; 다수의 특징(카운터)을 사용하는 배경 검출기

harm_cor_cnt 상관 또는 고조파 이벤트를 갖는 마지막 프레임 이후의 프레임들을 카운트

act_pred 입력 프레임 특징만으로부터 활동의 예측

cor[i] i=0 현재 프레임의 끝, i=1 현재 프레임의 시작, i=2 이전 프레임의 끝에 대한 상관 추정치들을 갖는 벡터

다음 특징은 W02011/09515에 설명된 수정된 G.718에 정의되어 있다.

Etot_h 최대 에너지 포락선을 추적

sign_dyn_lp; 평활화된 입력 신호 동역학

또한, 특징 Etot_v_h는 W02011/049514에 정의되었지만, 이 실시예에서는 수정되었고, 이제 다음과 같이 구현된다.

Etot_v는 프레임들 간의 절대 에너지 변화, 즉 프레임들 간의 순간 에너지 변화의 절대값을 측정한다. 위의 예에서, 마지막 프레임 에너지와 현재 프레임 에너지 간의 차이가 7 단위보다 작을 때 두 프레임 사이의 에너지 변화가 "낮음"으로 결정된다. 이것은 현재 프레임(및 이전 프레임)이 중지의 일부일 수 있다는, 즉 배경 잡음만을 포함할 수 있다는 지시자로서 사용된다. 그러나, 이러한 낮은 변화는 대안으로서 예로서 음성 버스트의 중간에서 발견될 수 있다. 변수 Etot_last는 이전 프레임의 에너지 레벨이다.

코드에서 설명된 상기 단계들은 도 2의 흐름도에서 "상관 및 에너지 계산/갱신" 단계의 일부로서, 즉 동작(201)의 일부로서 수행될 수 있다. W02011/049514 구현에서, VAD 플래그를 사용하여, 현재 오디오 신호 세그먼트가 배경 잡음을 포함하는지 여부를 결정하였다. 발명자들은 피드백 정보에 대한 의존성이 문제가 될 수 있다는 것을 인식했다. 본원에 개시된 해결책에서, 배경 잡음 추정치를 갱신할지 여부를 결정하는 것은 VAD(또는 SAD) 결정에 의존하지 않는다.

또한, 본 명세서에 개시된 해결책에서, W02011/049514 구현의 일부가 아닌 다음의 특징들은 동일한 단계, 즉 도 2에 도시된 상관 및 에너지 계산/갱신 단계의 일부로서 계산/갱신될 수 있다. 이러한 특징들은 배경 추정치를 갱신할지 여부의 결정 논리에도 사용된다.

보다 적절한 배경 잡음 추정치를 달성하기 위해, 다수의 특징이 이하에서 정의된다. 예를 들어, 새로운 상관 관련 특징 cor_est 및 lt_cor_est가 정의된다. 특징 cor_est는 현재 프레임에서의 상관의 추정치이고, cor_est는 또한 상관의 평활화된 장기 추정치인 lt_cor_est를 생성하는 데 사용된다.

위에서 정의된 바와 같이, cor[i]는 상관 추정치를 포함하는 벡터이고, cor[0]은 현재 프레임의 끝을 나타내고, cor[1]은 현재 프레임의 시작을 나타내고, cor[2]는 이전 프레임의 끝을 나타낸다.

또한, 새로운 특징인 lt_tn_track이 계산되어, 배경 추정치가 현재 프레임 에너지에 얼마나 자주 가깝게 있는지의 장기 추정치를 제공한다. 현재 프레임 에너지가 현재 배경 추정치에 충분히 가까울 때 이것은 배경이 가까운지의 여부를 신호로 알리는(1/0) 조건에 의해 등록된다. 이 신호는 장기 척도 lt_tn_track을 형성하는 데 사용된다.

이 예에서, 현재 프레임 에너지가 배경 잡음 추정치에 가까울 때 0,03이 추가되고, 그렇지 않은 경우에 유일한 나머지 항은 단지 이전 값의 0.97배이다. 이 예에서 "가까움"은 현재 프레임 에너지 Etot와 배경 잡음 추정치 totalNoise 간의 차이가 10 단위보다 작은 것으로 정의된다. "가까움"에 대한 다른 정의도 가능하다.

또한, 현재 배경 추정치 Etot와 현재 프레임 에너지 totalNoise 간의 거리는 이 거리의 장기 추정치를 제공하는 특징 lt_tn_dist를 결정하는 데 사용된다. 유사한 특징 lt_Ellp_dist가 장기 최소 에너지 Etot_l_lp와 현재 프레임 에너지 Etot 사이의 거리에 대해 생성된다.

상기 도입된 특징 harm_cor_cnt는 상관 또는 고조파 이벤트를 갖는 최종 프레임 이후의, 즉 활동과 관련된 소정 기준을 이행하는 프레임 이후의 프레임들의 수를 카운트하는 데 사용된다. 즉, 조건 harm_cor_cnt==0일 때, 이는 현재 프레임이 상관 또는 고조파 이벤트를 나타내기 때문에 활성 프레임일 가능성이 매우 크다는 것을 의미한다. 이것은 얼마나 자주 그러한 이벤트가 발생하는지에 대한 장기 평활화된 추정치 lt_haco_ev를 형성하는 데 사용된다. 이 경우, 갱신은 대칭이 아니며, 즉 아래에서 볼 수 있듯이 추정치가 증가하거나 감소하는 경우 다른 시상수가 사용된다.

위에서 도입된 특징 lt_tn_track의 낮은 값은 입력 프레임 에너지가 일부 프레임의 배경 에너지에 근접하지 않았음을 나타낸다. 이것은 현재 프레임 에너지가 배경 에너지 추정치에 근접하지 않은 각 프레임에 대해 lt_tn_track이 감소되기 때문이다. lt_tn_track은 전술한 바와 같이 현재 프레임 에너지가 배경 에너지 추정치에 근접하는 경우에만 증가한다. 이 "비추적", 즉 프레임 에너지가 배경 추정치로부터 멀리 있는 것이 얼마나 오랫동안 지속되었는지에 대한 더 나은 추정치를 얻기 위해, 이러한 추적 부재를 갖는 프레임들의 수에 대한 카운터 low_tn_track_cnt는 다음과 같이 형성된다.

위의 예에서 "낮음"은 값 0.05 아래로 정의된다. 이것은 다르게 선택될 수 있는 예시적인 값으로 간주되어야 한다.

도 2에 도시된 "중지 및 음악 결정 형성" 단계의 경우, 배경 검출로도 표시되는 중지 검출을 형성하기 위해 아래의 3개의 코드 표현이 사용된다. 다른 실시예들 및 구현들에서, 중지 검출을 위해 다른 기준들이 또한 추가될 수 있다. 실제 음악 결정은 상관 및 에너지 특징을 사용하여 코드에 형성된다.

1: bg_bgd = Etot < Etot_l_lp + 0.6f*st->Etot_v_h;

Etot가 배경 잡음 추정치에 가까울 때 bg_bgd는 "1" 또는 "참"이 된다. bg_bgd는 다른 배경 검출기에 대한 마스크의 역할을 한다. 즉, bg_bgd가 "참"이 아니면, 아래의 배경 검출기 2와 3을 평가할 필요가 없다. Etot_v_h는 N_var로 대안적으로 표시될 수 있는 잡음 변화 추정치이다. Etot_v_h는 프레임 사이의 절대 에너지 변화를 측정하는 Etot_v를 사용하여 (로그 도메인에서) 입력 총 에너지로부터 유도된다. 특징 Etot_v_h는 작은 상수 값, 예로서 각 프레임에 대해 0.2의 최대값만을 증가시키도록 제한된다. Etot_l_lp는 최소 에너지 포락선 Etot_l의 평활화된 버전이다.

2: aE_bgd = st -> aEn == 0;

aEn이 0이면, aE_bgd가 "1" 또는 "참"이 된다. aEn은 활성 신호가 현재 프레임에 존재한다고 결정될 때 증가되고 현재 프레임이 활성 신호를 포함하지 않는 것으로 결정될 때 감소되는 카운터이다. aEn은 특정 수, 예로서 6 이상으로 증가하지 않고, 0보다 작게 감소되지 않을 수 있다. 다수의, 예로서 6개의 연속 프레임 후에, 활성 신호가 없으면, aEn은 0과 동일할 것이다.

3:

여기서 세 가지 조건이 참일 때 sd1_bgd는 "1" 또는 "참"이 되고, 신호 동력 sign_dyn_lp는 높은데, 이 예에서는 15보다 크고, 현재 프레임 에너지는 배경 추정치에 가깝고, 상관 또는 고조파 이벤트 없이 특정 수의 프레임, 이 예에서는 20개의 프레임이 지났다.

bg_bgd의 기능은 현재 프레임 에너지가 장기 최소 에너지에 가깝다는 것을 검출하기 위한 플래그인 것이다. 후자의 두 개 aE_bgd 및 sd1_bgd는 다른 조건에서의 중지 또는 배경 검출을 나타낸다. aE_bgd는 이 둘의 가장 일반적인 검출기이며, sd1_bgd는 주로 높은 SNR에서 음성 중지를 검출한다.

본 명세서에 개시된 기술의 일 실시예에 따른 새로운 결정 논리는 이하의 코드에서 다음과 같이 구성된다. 결정 논리는 마스킹 조건 bg_bgd 및 2개의 중지 검출기 aE_bgd 및 sd1_bgd를 포함한다. 또한, totalNoise가 최소 에너지 추정치를 얼마나 잘 추적하는지에 대한 장기 통계를 평가하는 제3 중지 검출기가 있을 수 있다. 첫 번째 라인이 참인 경우에 평가되는 조건은 스텝 크기가 얼마나 커야 하는지(updt_step)에 대한 결정 논리이며, 실제 잡음 추정 갱신은 "st->bckr[i]=-"에 대한 값의 할당이다. tmpN[i]는 W02011/049514에서 설명된 해결책에 따라 계산된 이전에 계산된 잠재적으로 새로운 잡음 레벨이다. 아래의 결정 논리는 도 2의 부분(209)을 따르며, 이는 아래의 코드와 관련하여 부분적으로 지시된다.

로 시작하는 마지막 코드 블록의 코드 세그먼트는 현재 입력이 음악인 것으로 의심되는 경우에 사용되는 배경 추정치의 강제 다운 스케일링을 포함한다. 이것은 함수: 최소 에너지 추정치와 비교되는 장기간의 배경 잡음의 열악한 추정 AND 고조파 또는 상관 이벤트의 빈번한 발생 AND 마지막 조건 "totalNoise>0"이 배경 추정치의 현재 총 에너지가 0보다 큰 것의 체크로서, 배경 추정치의 감소가 고려될 수 있음을 의미함으로써 결정된다. 또한, "bckr[i]> 2 * E_MIN"인지가 결정되고, 여기서 E_MIN은 작은 양수 값이다. 이것은 부대역 배경 추정치를 포함하는 벡터 내의 각 엔트리의 체크이며, 따라서 엔트리는 (이 예에서 0,98을 곱함으로써) 감소되도록 E_MIN을 초과해야 한다. 이러한 체크는 배경 추정치를 너무 작은 값으로 감소시키는 것을 피하기 위해 행해진다.

실시예들은 SAD/VAD의 향상된 성능이 고효율 DTX 해결책을 달성하고 클리핑에 의해 야기되는 음성 품질 또는 음악의 저하를 피할 수 있게 하는 배경 잡음 추정을 개선한다.

Etot_v_h로부터 W02011/09514에 기술된 결정 피드백을 제거함으로써, 잡음 추정과 SAD 사이의 분리가 더 잘 된다. 이것은 SAD 기능/튜닝이 변경되는 경우에/변경될 때 잡음 추정이 변경되지 않으므로 이점이 있다. 즉, 배경 잡음 추정치의 결정은 SAD의 기능과 무관하게 된다. 또한, 배경 추정치가 변경될 때 SAD로부터의 2차 효과의 영향을 받지 않으므로 잡음 추정 논리의 조정이 쉬워진다.

Claims

오디오 신호의 배경 잡음 추정치를 갱신하기 위한 방법으로서, 상기 방법은:
- 입력 오디오 신호 세그먼트와 관련된 적어도 하나의 파라미터를:
- 상기 오디오 신호 세그먼트에 대해 제2 선형 예측으로부터의 나머지 신호 에너지와 제1 선형 예측으로부터의 나머지 신호 에너지 사이의 몫으로서 계산된 제1 선형 예측 이득; 및
- 상기 오디오 신호 세그먼트에 대해 제3 선형 예측으로부터의 나머지 신호 에너지와 상기 제2 선형 예측으로부터의 상기 나머지 신호 에너지 사이의 몫으로서 계산된 제2 선형 예측 이득
에 기초하여 획득하는 단계(201) - 상기 제2 선형 예측은 상기 제1 선형 예측보다 높은 차수로부터 기인하고, 상기 제3 선형 예측은 상기 제2 선형 예측보다 높은 차수로부터 기인함 -;
- 상기 적어도 하나의 파라미터에 적어도 기초하여 상기 오디오 신호 세그먼트가 중지를 포함하는지를 결정하는 단계(202); 및
상기 오디오 신호 세그먼트가 중지를 포함하는 것으로 결정되면:
- 상기 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하는 단계(203)
를 포함하는 방법.
제1항에 있어서,
상기 적어도 하나의 파라미터를 획득하는 단계는,
- 상기 제1 및 제2 선형 예측 이득을 사전 정의된 구간 내의 값을 취하도록 제한하는 단계
를 포함하는 방법.
제1항 또는 제2항에 있어서,
상기 적어도 하나의 파라미터를 획득하는 단계는:
- 상기 제1 및 제2 선형 예측 이득 각각의 적어도 하나의 장기 추정치를 생성하는 단계 - 상기 장기 추정치는 적어도 하나의 선행하는 오디오 신호 세그먼트와 관련된 대응하는 선형 예측 이득에 더 기초함 -
를 포함하는 방법.
제1항 또는 제2항에 있어서,
상기 적어도 하나의 파라미터를 획득하는 단계는:
상기 오디오 신호 세그먼트와 관련된 상기 선형 예측 이득들 중 하나와 상기 선형 예측 이득의 장기 추정치 사이의 차이를 결정하는 단계
를 포함하는 방법.
제1항 또는 제2항에 있어서,
상기 적어도 하나의 파라미터를 획득하는 단계는:
상기 선형 예측 이득들 중 하나와 연관된 두 개의 장기 추정치 사이의 차이를 결정하는 단계
를 포함하는 방법.
제1항 또는 제2항에 있어서,
상기 적어도 하나의 파라미터를 획득하는 단계는 상기 제1 및 제2 선형 예측 이득을 저역 통과 필터링하는 단계를 포함하는 방법.
제6항에 있어서,
적어도 하나의 저역 통과 필터의 필터 계수들은 상기 오디오 신호 세그먼트와 관련된 선형 예측 이득과 복수의 선행하는 오디오 신호 세그먼트에 기초하여 획득된 대응하는 선형 예측 이득의 평균 사이의 관계에 의존하는 방법.
제1항 또는 제2항에 있어서,
상기 오디오 신호 세그먼트가 중지를 포함하는지의 상기 결정은 상기 오디오 신호 세그먼트와 관련된 스펙트럼 근접성 척도에 더 기초하는 방법.
제8항에 있어서,
상기 오디오 신호 세그먼트의 주파수 대역들의 세트에 대한 에너지들 및 상기 주파수 대역들의 세트에 대응하는 배경 잡음 추정치들에 기초하여 상기 스펙트럼 근접성 척도를 획득하는 단계를 더 포함하는 방법.
제9항에 있어서,
초기화 기간 동안, 초기값 E_min이 상기 스펙트럼 근접성 척도를 획득하는 근거인 상기 배경 잡음 추정치들로서 사용되는 방법.
복수의 오디오 신호 세그먼트를 포함하는 오디오 신호의 배경 잡음 추정치를 갱신하기 위한 장치(1100)로서, 상기 장치는:
- 적어도 하나의 파라미터를:
- 상기 오디오 신호 세그먼트에 대해 제2 선형 예측으로부터의 나머지 신호 에너지와 제1 선형 예측으로부터의 나머지 신호 에너지 사이의 몫으로서 계산된 제1 선형 예측 이득; 및
- 상기 오디오 신호 세그먼트에 대해 제3 선형 예측으로부터의 나머지 신호 에너지와 상기 제2 선형 예측으로부터의 상기 나머지 신호 에너지 사이의 몫으로서 계산된 제2 선형 예측 이득
에 기초하여 획득하고 - 상기 제2 선형 예측은 상기 제1 선형 예측보다 높은 차수로부터 기인하고, 상기 제3 선형 예측은 상기 제2 선형 예측보다 높은 차수로부터 기인함 -;
- 상기 적어도 하나의 파라미터에 적어도 기초하여 상기 오디오 신호 세그먼트가 중지를 포함하는지를 결정하고;
상기 오디오 신호 세그먼트가 중지를 포함한다고 결정되면:
- 상기 오디오 신호 세그먼트에 기초하여 배경 잡음 추정치를 갱신하도록 구성되는, 장치.
제11항에 있어서,
상기 장치는 제2항 내지 제10항 중 어느 한 항의 방법을 수행하도록 더 구성되는 장치.
제11항 또는 제12항의 장치를 포함하는 오디오 코덱.
제11항 또는 제12항의 장치를 포함하는 통신 디바이스.