KR101246954B1 - 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 - Google Patents
오디오 신호에서의 잡음 추정을 위한 방법 및 장치 Download PDFInfo
- Publication number
- KR101246954B1 KR101246954B1 KR1020137002342A KR20137002342A KR101246954B1 KR 101246954 B1 KR101246954 B1 KR 101246954B1 KR 1020137002342 A KR1020137002342 A KR 1020137002342A KR 20137002342 A KR20137002342 A KR 20137002342A KR 101246954 B1 KR101246954 B1 KR 101246954B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise level
- time
- noise
- determining
- speech
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Abstract
잡음 레벨/스펙트럼 추정 및 스피치 활동 검출을 위한 시스템 및 방법이 개시된다. 몇몇 실시형태들은 잡음 레벨을 추정하고 후속하여 스피치의 존재를 검출하기 위해 확률적 모델을 포함한다. 이들 실시형태들은 다양한 잡음 환경에서 개선된 검출을 생성하는, 표준 음성 활동 검출기 (VAD) 를 능가한다.
Description
관련 출원의 상호 참조
본 출원은, 전체 내용이 본원에 참조로서 포함되는, 2008 년 10 월 15 일자로 출원된 미국 가 특허출원 제 61/105,727 호에 우선권을 주장한다.
배경
기술의 분야
본 개시물은 일반적으로 잡음 레벨/스펙트럼 추정 및 스피치 (speech) 활동 검출을 위한 방법 및 장치에 관한 것이고, 보다 상세하게는 잡음 레벨을 추정하고 스피치의 존재를 검출하기 위한 확률적 모델의 이용에 관한 것이다.
종종 보다 새로운 도전들이 존재하는 많은 분야들에서 통신 기술들이 계속해서 진화한다. 모바일 전화기 및 무선 헤드셋의 도래로, 매우 혹독한 환경, 즉 낮은 신호대 잡음비 (SNR) 에서 진정한 전 양방향성 대화를 갖는다. 신호 강화 및 잡음 억제는 이들 상황에서 중심역할이 된다. 원하는 스피치의 명료성은, 다른 단부에서 리스너에게 신호를 전송하기 전에 원하지 않는 잡음 신호를 억제함으로써 강화된다. 잡음 배경 내에서 스피치의 존재를 검출하는 것은 신호 강화 및 잡음 억제의 하나의 중요한 성분이다. 향상된 스피치 검출을 달성하기 위해서, 일부 시스템들은 인커밍 신호를 복수의 상이한 시간/주파수 프레임들로 분할하고, 각 프레임 내의 스피치의 존재의 확률을 추정한다.
스피치의 존재를 검출하는데 있어서 가장 큰 어려움들 중 하나는 잡음 플로어 (noise floor), 특히 단일의 마이크로폰/센서를 이용하는 비-정상 (non-stationary) 잡음 레벨을 추적하는 것이다. 스피치 활동 검출은 현대의 통신 디바이스들에서, 특히 셀 전화기 및 무선 헤드셋 디바이스들과 같은 낮은 신호대 잡음비 하에서 동작하는 현대의 모바일 디바이스들에서 널리 이용된다. 대부분의 이들 디바이스들에서, 신호 강화 및 잡음 억제는 다른 단부에서 리스너에세 잡음 신호를 전송하기 전에, 잡음 신호에 대해 수행된다; 이는 원하는 스피치의 명료성을 향상시키기 위해 행해진다. 신호 강화/잡음 억제에서, 스피치 또는 음성 활동 검출기 (voice activity detector; VAD) 는 잡음 오염된 신호에서 원하는 스피치의 존재를 검출하는데 이용된다. 이 검출기는 스피치의 존재 또는 부존재의 바이너리 결정을 생성할 수도 있거나, 또한 스피치 존재의 확률을 생성할 수도 있다.
스피치의 존재를 검출하는데 있어서 하나의 어려움은, 잡음 "상한 (ceiling)" 및 "하한 (floor)" 으로도 알려진, 신호에서의 배경 잡음의 레벨의 상위 바운드 및 하위 바운드를 결정하는 것이다. 이는 특히, 단일의 마이크로폰 입력을 이용하여 비-정상 잡음에 해당된다. 또한, 디바이스 또는 디바이스를 사용하는 사람의 물리적 움직임들로 인한 잡음 레벨에서의 신속한 변화를 추적하는 것이 더욱 더 어렵다.
소정 실시형태에서, 오디오 신호의 현재 프레임에서 잡음 레벨을 추정하기 위한 방법이 개시된다. 이 방법은, 복수의 오디오 프레임들의 잡음 레벨들을 결정하는 단계 및 복수의 오디오 프레임들에 대한 잡음 레벨들의 평균 및 표준 편차를 계산하는 단계를 포함한다. 현재 프레임의 잡음 레벨 추정은 평균으로부터 표준 편차를 감산한 값을 이용하여 계산된다.
소정 실시형태에서, 잡음 결정 시스템이 개시된다. 이 시스템은 복수의 오디오 프레임들의 잡음 레벨들을 결정하도록 구성된 모듈 및, 복수의 오디오 프레임들에 대한 잡음 레벨들의 평균 및 표준 편차를 계산하도록 구성된 하나 이상의 모듈들을 포함한다. 시스템은 또한, 상기 평균으로부터 표준 편차를 감산한 값으로서 현재 프레임의 잡음 레벨 추정을 계산하도록 구성된 모듈을 포함할 수도 있다.
몇몇 실시형태에서, 복수의 시간-주파수 빈들 (bins) 에서의 신호의 잡음 레벨을 추정하기 위한 방법이 개시되고, 이는 하나 이상의 컴퓨터 시스템 상에서 구현될 수도 있다. 이 방법은, 신호의 각각의 빈에 대해, 복수의 오디오 프레임들의 잡음 레벨을 결정하고, 시간-주파수 빈에서의 잡음 레벨을 추정하고; 시간-주파수 빈에서의 예비 잡음 레벨을 결정하고; 예비 잡음 레벨로부터 시간-주파수 빈에서의 세컨더리 잡음 레벨 (secondary noise level) 을 결정하며; 시간-주파수 빈에서의 세컨더리 잡음 레벨로부터 바운딩된 잡음 레벨 (bounded noise level) 을 결정한다.
몇몇 실시형태는 오디오 신호의 현재 프레임의 잡음 레벨을 추정하기 위한 시스템을 개시한다. 이 시스템은, 복수의 오디오 프레임들의 잡음 레벨들을 결정하기 위한 수단; 복수의 오디오 프레임들에 대한 잡음 레벨들의 평균 및 표준 편차를 계산하기 위한 수단; 및 상기 평균으로부터 표준 편차를 감산한 값으로서 현재 프레임의 잡음 레벨 추정을 계산하기 위한 수단을 포함할 수도 있다.
소정 실시형태에서, 방법을 수행하기 위해 프로세서 상에서 실행되는 명령들을 포함하는 컴퓨터 판독가능 매체가 개시된다. 이 방법은, 복수의 오디오 프레임들의 잡음 레벨들을 결정하는 단계; 복수의 오디오 프레임들에 대한 잡음 레벨들의 평균 및 표준 편차를 계산하는 단계; 및 상기 평균으로부터 표준 편차를 감산한 값으로서 현재 프레임의 잡음 레벨 추정을 계산하는 단계를 포함한다.
첨부된 도면들에서 제한의 방식이 아닌 예시의 방식에 의해 각종 구성들이 예시된다.
도 1 은 본 발명의 원리들에 따른 VAD 의 간략화된 블록도이다.
도 2 는 주파수 도메인 VAD 에 대한 주파수 선택 가중치 벡터를 나타내는 그래프이다.
도 3 은 핑크 (pink) 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
도 4 는 배블 (babble) 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
도 5 는 트래픽 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
도 6 은 파티 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
도 1 은 본 발명의 원리들에 따른 VAD 의 간략화된 블록도이다.
도 2 는 주파수 도메인 VAD 에 대한 주파수 선택 가중치 벡터를 나타내는 그래프이다.
도 3 은 핑크 (pink) 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
도 4 는 배블 (babble) 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
도 5 는 트래픽 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
도 6 은 파티 잡음 환경 하에서 제안된 시간 도메인 VAD 의 성능을 나타내는 그래프이다.
본 실시형태들은 신호에서의 잡음 레벨을 결정하고, 몇몇 경우에서 후속하여 스피치를 검출하기 위한 방법 및 시스템을 포함한다. 이들 실시형태들은 종래 기술에 비해 다수의 상당한 진보를 포함한다. 하나의 개선점은 종래 및 현재의 오디오 프레임들로부터의 배경 잡음의 평균 값에 기초하여 스피치 신호에서의 배경 잡음의 추정을 수행하는 것과 관련된다. 이는, 초기 및 현재 오디오 프레임들로부터의 최소의 잡음 값들에 기초하여 스피치의 프레임에 대한 현재 배경 잡음 레벨을 계산하는 다른 시스템들과 상이하다. 전통적으로, 연구원들은 현재 잡음 레벨을 추정하기 위해 이전 잡음 값들의 최소값을 검토해왔다. 그러나, 일 실시형태에서, 추정된 잡음 신호 레벨은 몇몇 과거의 프레임들로부터 계산되고, 최저치 보다는 이 앙상블의 평균이 계산되며, 스케일링된 표준 편차가 앙상블에서 감산된다. 결과의 값은, 통상적으로 앙상블 최저치를 이용하여 제공되는 것 보다 현재 오디오 프레임의 잡음 레벨의 더욱 정확한 추정을 유리하게 제공한다.
또한, 이 추정된 잡음 레벨은 잡음의 보다 정확한 추정을 유지하기 위해 인커밍 신호 레벨에 기초하여 동적으로 바운딩될 수 있다. 추정된 잡음 레벨은 부가적으로, 단절 (discontinuity) 을 최소화하기 위해 이전 값들과 " 평활화되거나 (smoothed)" 또는 "평균된다". 추정된 잡음 레벨은 그 후, 잡음 레벨 초과의 에너지 레벨들을 갖는 프레임에서의 스피치를 식별하는데 이용될 수도 있다. 이는, 또한 스피치의 존재의 조정된 확률을 생성하기 위해 비-선형 시그모이드 활성화 함수 (sigmoidal activation function) 에 의해 이용될 수도 있는, 선험적인 신호대 잡음비 (SNR) 를 연산함으로써 결정될 수도 있다.
도 1 을 참조하면, 전통적인 음성 활동 검출 (VAD) 시스템 (100) 은 배경 잡음을 갖는 세그먼트들, 및 배경 잡음 및 스피치 양자 모두를 갖는 세그먼트들을 포함하는 인커밍 신호 (101) 를 수신한다. VAD 시스템 (100) 은 시간 신호 (101) 를 프레임들 (103a- 103d) 로 분할한다. 이들 프레임들 각각 (103a-d) 은 그 후, 주어진 프레임을 어느 클래스 (잡음 또는 스피치) 에 배치할 것인지를 결정하는 분류 모듈 (104) 로 패스된다.
분류 모듈 (104) 은 주어진 신호의 에너지를 연산하고, 그 에너지를 잡음 플로어의 추정에 대응하는 시변 임계 (time varing threshold) 와 비교한다. 잡음 플로어 추정은 각각의 인커밍 (incoming) 프레임으로 업데이트될 수도 있다. 몇몇 실시형태에서, 프레임은, 프레임 신호의 추정된 에너지 레벨이 특정 프레임 내의 측정된 잡음 플로어보다 높은 경우 스피치 활동으로서 분류된다. 따라서, 이 모듈에서, 잡음 스펙트럼 추정은 스피치 인식의 기초적인 컴포넌트, 원하는 경우 차후의 강화 (enhancement) 컴포넌트이다. 특히, SNR 의 환경 및 비-정상 잡음 환경 하에서, 이러한 시스템들의 강건함 (robustness) 은 잡음 통계법에서 신속한 변화를 신뢰할 수 있게 추적하기 위한 능력에 의해 최대한으로 영향을 받는다.
VAD 에 기초하는 종래의 잡음 추정 방법은 스피치 부존재의 주기까지 잡음 추정의 업데이트를 제한한다. 그러나, 이들 VAD 신뢰도는 약한 스피치 컴포넌트 및 낮은 입력 SNR 에 대해 심하게 악화된다. 전력 스펙트럼 밀도 히스토그램에 기초한 다른 기술들은, 계산적으로 비용이 많이 들고, 많은 메모리 리소스들을 필요로 하고, 낮은 SNR 컨디션 하에서 잘 수행하지 않으며, 이런 이유로 셀 전화기 및 블루투스 헤드셋 애플리케이션에 적합하지 않다. 최소 통계법이 잡음 스펙트럼 추정을 위해 이용되고, 이는 과거의 복수의 프레임들의 최소값이 잡음 추정이도록 취함으로써 동작한다. 유감스럽게도, 이 방법은, 정상 잡음 (stationary noise) 에 대해 잘 작용하고, 비-정상 환경들을 대할 때 심하게 악화된다.
일 실시형태는, "파티 (party) 잡음" 또는 "배블 잡음" 과 같은 고도의 비-정상 잡음을 포함하는, 많은 종류의 원하지 않는 오디오 신호들을 추적하는데 있어서 매우 효과적인 잡음 스펙트럼 추정 및 방법을 포함한다. 이 시스템은, 이러한 추정에 좋지 않은 환경에서도 정확한 잡음 플로어를 생성한다. 이 추정된 잡음 플로어는 선험적인 SNR 을 연산하는데 이용되고, SNR 은 차례로 시그모이드 함수 "로지스틱 함수 (logistic function)" 에서 이용되어 스피치의 존재의 확률을 결정한다. 몇몇 실시형태에서, 이 기능을 위해 스피치 결정 모듈이 이용된다.
x[n] 및 d[n] 이 각각 원하는 스피치 및 상관되지 않은 추가의 잡음 신호를 가리키는 것으로 하자. 관찰된 신호 또는 오염된 신호 y[n] 은 다음과 같이 주어진 단순히 그들의 덧셈이다:
y[n] = x[n] + d[n] (1)
2 개의 가설, H0[n] 및 H1[n] 은 각각 n 번째 시간 프레임에서의 스피치 부존재 및 존재를 가리킨다. 몇몇 실시형태에서, 잡음 측정의 과거의 에너지 레벨 값들은 스피치 부존재의 주기 동안 순환적으로 (recursively) 평균될 수도 있다. 대조적으로, 추정은 스피치 존재 동안 일정하게 유지될 수도 있다. 구체적으로,
여기서, 은 시간 프레임 n 에서 잡음 신호의 에너지이고, 는 0 과 1 사이의 평활화 파라미터를 가리킨다. 그러나, 언제 스피치가 존재하는지가 항상 분명한 것은 아니기 때문에, 방법들 H0 또는 H1 각각을 언제 적용할 지가 분명하지 않을 수도 있다. 대신에, 시간에 대한 평활화 인자를 업데이트함으로써 순환되는 평균을 추정하는 "조건부 스피치 존재 확률" 을 이용할 수도 있다:
여기서,
이 방식으로, 스피치의 존재가 알려지지 않을 때 보다 정확한 추정이 이루어질 수 있다.
다르게는 잡음 레벨 추정을 위해 최소 통계 기반 방법들이 이전에 고려되었다. 예를 들어, 말하자면 과거의 100 개의 프레임들에 대한 추정된 잡음 신호 레벨 λd 를 검토할 수 있고, 이 앙상블의 최소값을 연산할 수 있으며, 이 최소값을 추정된 잡음 레벨로서 선언할 수 있다. 즉,
여기서, min[x] 는 벡터 x 의 엔트리들의 최소값을 나타내고, 은 시간 프레임 n 에서 추정된 잡음 레벨이다. 100 초과 또는 미만의 프레임에 대한 연산을 수행할 수 있고, 100 은 여기에서 그리고 본 명세서 전체에서 단지 예시의 범위로서 제공된다. 이 접근은 정상 잡음에 대해 잘 작동하지만 비-정상 환경들에서 악화된다.
이를 처리하기 위해, 다른 문제들 중에서, 본 실시형태는 시스템의 전체 검출 효율성을 향상시키기 위해 이하에서 설명되는 기술들을 이용한다.
평균 통계법
일 실시형태에서, 본 발명의 시스템 및 방법은 잡음 플로어를 계산하기 위해 최소 통계법 보다는 평균 통계법을 이용한다. 구체적으로, 신호 에너지 는 과거의 프레임 값들의 스케일링된 표준 편차 를 평균 로부터 감산함으로써 계산된다. 현재의 에너지 레벨 는 그 후 과거의 프레임들로부터 모든 이전에 계산된 신호 에너지 의 최소값으로서 선택된다.
여기서, 는 벡터 x 의 엔트리들의 평균을 가리킨다. 본 실시형태는 100 개의 과거 프레임들에 대한 추정된 잡음 레벨의 스케일링된 표준 편차를 동일한 수의 프레임들에 대한 추정된 잡음 레벨의 평균으로부터 감산하는 것을 고려한다.
잡음 추정을 이용하는
스피치
검출
일단 잡음 추정 이 계산되었으면, 스피치는 높은 SNR 의 영역들을 식별함으로써 추론될 수도 있다. 특히, 수학적 모델이 개발될 수도 있고, 이는 논리적 회귀 기반 분류기에 기초하여 스피치의 존재의 조정된 확률을 정확하게 추정한다. 몇몇 실시형태에서, 피처 기반 분류기가 이용될 수도 있다. 스피치의 단기 스펙트럼은 로그 분포에 의해 잘 모델링되기 때문에, 피처들의 세트로서 SNR 그 자체 보다는 추정된 선험적 SNR 의 로그를 이용할 수도 있다. 즉,
안정성을 위해, 또한 상기 양의 시간 평활화를 행할 수 있다:
로지스틱 함수로서 알려진 비-선형 및 무기억 (memory less) 활성화 함수는 그 후 원하는 스피치 검출에 이용될 수도 있다. 시간 프레임 n 에서 스피치의 존재의 확률은 다음과 같이 주어진다:
원한다면, 추정된 확률 prob[n] 은 또한, 스피치에서의 갑작스런 버스트 (burst) 를 추적하기 위해 작은 망각 인자 (forgetting factor) 를 이용하여 시간-평활화될 수 있다. 스피치 부존재 및 존재의 바이너리 판정들을 획득하기 위해서, 추정된 확률 (prob ∈ [0,1]) 은 미리-선택된 임계와 비교될 수 있다. 보다 높은 값의 prob 는 스피치의 존재의 보다 높은 확률을 나타낸다. 예를 들어, prob[n] > 0.7 인 경우, 시간 프레임 n 에서 스피치의 존재가 선언될 수도 있다. 그렇지 않은 경우, 프레임은 단지 넌-스피치 (non-speech) 활동을 포함하는 것으로 고려될 수도 있다. 제한된 실시형태들은 더욱 정확한 잡음 레벨 결정의 결과로서 더욱 정확한 스피치 검출을 생성한다.
잡음 추정에 대한 개선
평균 및 표준 편차의 연산은 과거 프레임 추정을 저장하기 위해 충분한 메모리를 요구한다. 이 요건은 (소정의 아주 작은 휴대용 디바이스들과 같은) 제한된 메모리를 갖는 소정의 애플리케이션/디바이스에 대해 금지될 수도 있다. 이러한 경우, 다음의 근사가 이용되어 상기 계산을 대체할 수도 있다. 평균 추정에 대한 근사는 전력 추정 x(n) 을 평활화 상수 αM 과 기하급수적으로 평균함으로써 연산될 수도 있다. 유사하게, 분산 추정 (variance estimate) 에 대한 근사는 평활화 상수 와 전력 추정의 제곱을 기하급수적으로 평균함으로써 연산될 수도 있고, 여기서 n 은 프레임 인덱스를 나타낸다.
다르게는, 분산 추정 의 제곱근을 취함으로써 표준 편차 추정에 대한 근사가 획득될 수도 있다. 평활화 상수들 & 은 범위 [0.95, 0.99] 에서 선택되어 20 - 100 프레임들에 대한 평균에 대응할 수도 있다. 또한, 에 대한 근사는 평균과 스케일링된 표준 편차 추정 간의 차이를 연산함으로써 획득될 수도 있다. 일단 평균-마이너스-스케일링된 표준 편차 추정이 획득되면, 말하자면, 100 개의 프레임들의 세트에 대한 차이의 최소 통계들이 수행될 수도 있다.
이 특성은 단독으로 최소 통계법과 비교되는 비-정상 잡음 피크들의 우세한 추적을 제공한다. 몇몇 실시형태에서, 잡음 레벨 추정에 영향을 주는 원하는 스피치 피크들에 대해 보상하기 위해, 잡음 레벨의 표준 편차가 감산된다. 그러나, 식 7 에서 과도한 감산은 추정된 잡음 레벨 이하를 초래할 수도 있다. 이 문제를 처리하기 위해, 스피치 부존재 동안 장기 평균이 런 (run) 될 수도 있다. 즉,
잡음 바운딩 (Noise Bounding)
통상적으로, 인커밍 신호가 매우 분명한 경우 (높은 SNR), 잡음 레벨은 통상적으로 과소 추정된다 (under-estimated). 이 이슈를 해결하기 위한 일 방법은 최소 18 dB 을 원하는 신호 레벨 미만으로 말하도록 잡음 레벨을 보다 낮게 바운드하는 것이다. 보다 낮은 바운딩은 다음의 플로어링 연산 (flooring operation) 을 이용하여 달성될 수 있다:
여기서 인자들 내지 는 조정 가능하고, SNR_Estimate 및 Longterm_Avg_SNR 은 잡음 추정들 및 을 이용하여 각각 획득된 후천적 SNR 및 장기 SNR 추정이다. 이 방식에서, 잡음 레벨은 요구에 따라 활성의 원하는 신호 레벨 미만의 12-24 dB 사이에서 바운딩될 수도 있다.
주파수-기반 잡음 추정
실시형태들은 부가적으로, 다르게 이용될 수 있는 주파수 도메인 서브-대역 기반 연산적으로 수반된 스피치 검출기를 포함한다. 여기서, 각각의 시간 프레임은 시간 프레임의 푸리에 변환에서 표현된 컴포넌트 주파수들의 컬렉션으로 분할된다. 이들 주파수들은 "시간-주파수" 빈에서의 그 각각의 프레임과 연관되어 남아 있다. 원하는 실시형태는 그 후, 각각의 시간-주파수 빈 (k,n), 즉 k 번째 주파수 빈 및 n 번째 시간 프레임에서 스피치의 존재의 확률을 추정한다. 몇몇 애플리케이션은 시간-주파수 원자 레벨 및 시간-프레임 레벨 양자 모두에서 추정될 스피치의 존재의 확률을 필요로 한다.
각각의 시간-주파수 빈에서의 스피치 검출기의 동작은 각각의 주파수 빈에서 수행된다는 것을 제외하고, 전술된 시간-도메인 구현과 유사할 수도 있다. 특히, 각각의 시간-주파수 빈 (k,n) 에서의 잡음 레벨 는, 평활화 인자 를 이용하여, 이 주파수 에서 과거 100 개의 프레임 동안 신호 에너지와 과거의 프레임 에서의 잡음 레벨 사이에서 보간함으로써 추정된다:
상기 식에서, Y(k,i) 는 k 번째 주파수 빈 및 i 번째 시간-프레임에서의 오염된 신호이다. 각각의 빈에서의 예비 잡음 레벨은 다음과 같이 추정될 수도 있다:
시간 도메인 VAD 와 유사하게, 스피치 존재 H0 및 부존재 H1 동안 장기 평균이 다음에 식에 따라 수행될 수도 있다,
각각의 시간-주파수 빈에서의 세컨더리 잡음 레벨은 그 후, 다음과 같이 추정될 수도 있다:
몇몇 높은 SNR 빈들에 대한 잡음 레벨에서 과소추정의 문제를 처리하기 위해서, 다음의 바운딩 컨디션 및 식이 이용될 수도 있다.
여기서 내지 는 조정 가능하고, SNR_Estimate 및 Longterm_Avg_SNR 은 잡음 추정 및 을 각각 이용하여 획득된 후천적인 SNR 및 장기 SNR 추정이다. 은 각각의 시간-주파수 빈에서의 최종 잡음 레벨을 나타낸다.
다음으로, 전술된 시간 도메인 수학적 모델 (식 2 내지 17) 에 기초한 식들은 각각의 시간-주파수 빈에서의 스피치의 존재의 확률을 추정하도록 이용될 수도 있다. 특히, 각각의 시간-주파수 원자에서 후천적 SNR 은 다음과 같이 주어진다:
안정화를 위해, 또한 상기 양의 시간 평활화를 행할 수 있고:
여기서 prob[k, n] 는 k 번째 주파수 빈 및 n 번째 시간 프레임에서 스피치의 존재의 확률을 나타낸다.
바이
-레벨 (
bi
-
level
) 아키텍처
전술된 수학적 모델들은 각각의 시간-주파수 빈에서의 출력 확률들을 최적으로 유연성있게 결합하고, 각각의 시간-프레임에서의 스피치 발생의 확률의 개선된 추정을 얻는 것을 허용한다. 일 실시형태에서, 예를 들어 바이-레벨 아키텍처를 고려하고, 여기서 검출기의 제 1 레벨은 시간-주파수 빈 레벨에서 동작하고, 출력은 제 2 시간-프레임 레벨 스피치 검출기로 입력된다.
바이-레벨 아키텍처는 각각의 시간-프레임에서의 스피치의 존재의 확률의 보다 좋은 추정을 얻기 위해 각각의 시간-주파수 빈에서의 추정된 확률들을 조합한다. 이 접근은, 스피치가 소정의 주파수 대역들 (600 Hz 내지 1550 Hz) 에서 우세하다는 사실을 이용할 수도 있다. 도 2 는 몇몇 실시형태에서 이용된 복수의 주파수 가중치의 플롯 (203) 을 나타낸다. 몇몇 실시형태에서, 이들 가중치는 이하에서 도시된 빈 레벨 확률의 가중화된 평균을 결정하기 위해 이용된다
여기서, 가중치 벡터 W 는 도 2 에 도시된 값들을 포함한다. 최종적으로, 각각의 프레임에서의 스피치 존재 또는 부존재의 바이너리 판정은 시간 도메인 접근과 유사한 사전-선택된 임계와 추정된 확률을 비교함으로써 이루어질 수도 있다.
실시예들
전술된 실시형태들의 이점을 평가하기 위해, 전술된 시간 및 주파수 실시형태, 및 2 개의 리드하는 VAD 시스템들을 이용하여 스피치 검출이 수행되었다. 변화하는 잡음 환경 하에서 이들 각각에 대한 ROC 커브들을 도 3 내지 도 6 에 나타내었다. 상기 실시형태들의 시간 버전 및 주파수 버전 각각은 표준 VAD 보다 상당히 잘 수행되었다. 각각의 예들에 있어서, 이용된 잡음 데이터베이스는 표준 추천 ETSI EG 202 396-1 에 기초하였다. 이 데이터베이스는 음성 품질 및 잡음 억제 평가 목적을 위해 자동차 소음, 거리 소음, 배블 잡음 등의 표준 레코딩을 제공한다. 추가의 실 세계 레코딩이 또한 VAD 성능을 평가하기 위해 이용되었다. 이들 잡음 환경들은 테스트 중인 어려운 코퍼스를 제공하는, 정상 및 비-정상 잡음 양자 모두를 포함한다. 5dB 의 SNR 은 특별히 검출을 어렵게 하도록 또한 선택되었다 (통상적인 오피스 잡음은 3OdB 의 정도임).
실시예 1
목적한 시간 도메인 스피치 검출기를 평가하기 위해서, 변하는 잡음 환경 하에서 그리고 5 dB 의 SNR 에서 수신기 동작 특성 (ROC) 이 플롯팅된다. 도 3 에 도시된 바와 같이, ROC 커브는 (존재하는 경우 스피치의 존재를 검출하는) 검출의 확률 (301) 대 (존재하지 않는 경우 스피치의 존재를 선언하는) 오 경보의 확률 (302) 을 플롯팅한다. 적절한 검출 레이트에서 매우 낮은 오 경보를 갖는 것이 바람직하다. 주어진 오 경보에 대한 검출의 확률의 더 높은 값은 보다 좋은 성능을 가리키고, 따라서 일반적으로 상위 커브는 보다 좋은 검출기이다.
ROC 는 4 개의 상이한 잡음들 - 핑크 잡음, 배블 잡음, 트래픽 잡음 및 파티 잡음에 대해 도시된다. 핑크 잡음은 주파수에 역비례하는 전력 스펙트럼 밀도를 갖는 정적 잡음이다. 통상적으로 이것은 자연적인 물리적 시스템에서 관찰되고, 종종 오디오 신호 프로세싱 솔루션을 테스트하는데 이용된다. 배블 잡음 및 트래픽 잡음은 자연에서 의사 정상상태 (quasi-stationary) 이고, 모바일 통신 환경에서 잡음 소스들과 통상적으로 접한다. 배블 잡음 및 트래픽 잡음 신호는 ETSI EG 202 396-1 표준 추천에 의해 제공된 잡음 데이터베이스에서 이용 가능하다. 파티 잡음은 고도로 비-정상 잡음이고, VAD 의 성능을 평가하기 위해 극한 경우 예로서 이용된다. 대부분의 단일-마이크로폰 음성 활동 검출기는 잡음의 고도로 비-정상 성질로 인해 파티 잡음의 존재에서 높은 오 경보를 생성한다. 그러나, 본 발명에서 제안된 방법은 파티 잡음을 갖더라도 낮은 오 경보를 생성한다.
도 3 은 제 1 표준 VAD (303c), 제 2 표준 VAD (303b) 의 ROC 커브를 나타내고, 현재 시간 기반 실시형태들 중 하나 (303a), 및 현재 주파수 기반 실시형태들 중 하나 (303d) 가 핑크 잡음 환경에서 플롯팅된다. 도시된 바와 같이, 현재 실시형태들 (303a, 303d) 은 제 1 VAD (303b) 및 제 2 VAD (303c) 각각을 상당히 능가하였고, 오 경보 제약 (302) 이 완화될 때 항상 보다 높은 검출 (301) 을 기록하였다.
실시예 2
도 4 는 제 1 표준 VAD (403c), 제 2 표준 VAD (403b) 의 ROC 커브를 나타내고, 현재 시간 기반 실시형태들 중 하나 (403a), 및 현재 주파수 기반 실시형태들 중 하나 (403d) 가 배블 잡음 환경에서 플롯팅된다. 도시된 바와 같이, 현재 실시형태들 (403a, 403d) 은 제 1 VAD (403b) 및 제 2 VAD (403c) 각각을 상당히 능가하였고, 오 경보 제약 (402) 이 완화될 때 항상 보다 높은 검출 (401) 을 기록하였다.
실시예 3
도 5 는 제 1 표준 VAD (503c), 제 2 표준 VAD (503b) 의 ROC 커브를 나타내고, 현재 시간 기반 실시형태들 중 하나 (503a), 및 현재 주파수 기반 실시형태들 중 하나 (503d) 가 트래픽 잡음 환경에서 플롯팅된다. 도시된 바와 같이, 현재 실시형태들 (503a, 503d) 은 제 1 VAD (503b) 및 제 2 VAD (503c) 각각을 상당히 능가하였고, 오 경보 제약 (502) 이 완화될 때 항상 보다 높은 검출 (501) 을 기록하였다.
실시예 4
도 6 은 제 1 표준 VAD (603c), 제 2 표준 VAD (603b) 의 ROC 커브를 나타내고, 현재 시간 기반 실시형태들 중 하나 (603a), 및 현재 주파수 기반 실시형태들 중 하나 (603d) 가 ROC-ICASSP 강당 잡음 환경에서 플롯팅된다. 도시된 바와 같이, 현재 실시형태들 (603a, 603d) 은 제 1 VAD (603b) 및 제 2 VAD (603c) 각각을 상당히 능가하였고, 오 경보 제약 (602) 이 완화될 때 항상 보다 높은 검출 (601) 을 기록하였다.
본원에 설명된 기술들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 유닛 또는 컴포넌트로서 설명된 임의의 피처들은 통합된 로직 디바이스 내에 함께 또는 별도의 상호정보교환이 가능한 로직 디바이스들과 같이 개별적으로 구현될 수도 있다. 소프트웨어로 구현되는 경우, 기술들은 실행 시에 전술된 방법들 중 하나 이상을 수행하는 명령들을 포함하는 컴퓨터 판독가능 매체에 의해 적어도 부분적으로 실현될 수도 있다. 컴퓨터 판독가능 매체는 패키징 재료들을 포함할 수도 있는 컴퓨터 프로그램 제품의 일부를 형성할 수도 있다. 컴퓨터 판독가능 매체는 SDRAM 과 같은 RAM, ROM, NVRAM, EEPROM, 플래시 메모리, 자기 또는 광 데이터 저장 매체 등을 포함할 수 있다. 기술들은 추가적으로, 또는 다르게는 명령들 또는 데이터 구조들의 형태로 코드를 반송 또는 통신하고, 컴퓨터에 의해 액세스, 판독, 및/또는 실행될 수 있는 컴퓨터 판독가능 통신 매체에 의해 적어도 부분적으로 실현될 수도 있다.
코드는, 예컨대 하나 이상의 디지털 신호 프로세서 (DSP), 범용 마이크로프로세서, 주문형 집적 회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA), 또는 다른 등가의 집적 또는 이산 논리 회로와 같은 하나 이상의 프로세서에 의해 실행될 수도 있다. 따라서, 본원에 이용된 바와 같이 용어 "프로세서" 는 본원에 설명된 기술들의 구현에 적합한 앞서 말한 구조 또는 임의의 구조 중 어느 하나를 지칭할 수도 있다. 또한, 몇몇 양태에서, 본 원에 설명된 기능성은, 인코딩 및 디코딩용으로 구성된 전용 소프트웨어 유닛이나 하드웨어 유닛 내에 제공될 수도 있고, 또는 결합형 비디오 인코더-디코더 (CODEC) 에 통합될 수도 있다. 유닛들과 같은 상이한 피처들의 서술은 도시된 디바이스들의 상이한 기능적 양태들을 하이라이트하도록 의도되고, 이러한 유닛들이 개별적인 하드웨어 또는 소프트웨어 컴포넌트들에 의해 실현되어야 한다는 것을 반드시 암시하지 않는다. 차라리, 하나 이상의 유닛들과 연관된 기능성은 공동의 또는 개별적인 하드웨어 또는 소프트웨어 컴포넌트들 내에 통합될 수도 있다. 실시형태들은 컴퓨터 프로세서 및/또는 전기 회로를 이용하여 구현될 수도 있다.
본 발명의 각종 실시형태가 전술되었다. 이들 실시형태 및 다른 실시형태는 다음의 특허청구범위의 범위 내에 있다.
Claims (20)
- 신호의 복수의 시간-주파수 빈들에서의 오디오 신호의 잡음 레벨을 추정하기 위한 방법으로서,
상기 신호의 빈들 각각에 대해:
복수의 오디오 프레임들의 잡음 레벨들을 결정하는 단계;
상기 시간-주파수 빈에서의 잡음 레벨을 추정하는 단계;
상기 시간-주파수 빈에서의 예비 잡음 레벨을 결정하는 단계;
상기 예비 잡음 레벨로부터 상기 시간-주파수 빈에서의 세컨더리 잡음 레벨을 결정하는 단계; 및
상기 시간-주파수 빈에서의 상기 세컨더리 잡음 레벨로부터 바운딩된 잡음 레벨을 결정하는 단계를 포함하는, 잡음 레벨 추정 방법. - 제 1 항에 있어서,
상기 바운딩된 잡음 레벨을 결정하는 단계는, 상기 추정된 잡음 레벨을 12-24 dB 사이에서 활성의 원하는 신호 레벨 미만으로 바운딩하는 단계를 포함하는, 잡음 레벨 추정 방법. - 제 1 항에 있어서,
현재 프레임에서의 각각의 주파수에 대한 스피치의 확률의 가중화된 합계를 취함으로써 상기 현재 프레임에서의 스피치의 확률을 계산하는 단계를 더 포함하는, 잡음 레벨 추정 방법. - 제 3 항에 있어서,
600 Hz 내지 1550 Hz 범위 내의 가중치들은 최소 0.02 의 값으로 주어지는, 잡음 레벨 추정 방법. - 신호의 복수의 시간-주파수 빈들에서의 오디오 신호의 잡음 레벨을 결정하기 위한 잡음 결정 시스템으로서,
상기 신호의 빈들 각각에 대해:
복수의 오디오 프레임들의 잡음 레벨들을 결정하도록 구성된 제 1 모듈;
상기 시간-주파수 빈에서의 잡음 레벨을 추정하도록 구성된 제 2 모듈;
상기 시간-주파수 빈에서의 예비 잡음 레벨을 결정하도록 구성된 제 3 모듈;
상기 예비 잡음 레벨로부터 상기 시간-주파수 빈에서의 세컨더리 잡음 레벨을 결정하도록 구성된 제 4 모듈; 및
상기 시간-주파수 빈에서의 상기 세컨더리 잡음 레벨로부터 바운딩된 잡음 레벨을 결정하도록 구성된 제 5 모듈을 포함하는, 잡음 결정 시스템. - 제 5 항에 있어서,
상기 제 5 모듈은 상기 추정된 잡음 레벨을 12-24 dB 사이에서 활성의 원하는 신호 레벨 미만으로 바운딩하도록 구성되는, 잡음 결정 시스템. - 제 5 항에 있어서,
현재 프레임에서의 각각의 주파수에 대한 스피치의 확률의 가중화된 합계를 취함으로써 상기 현재 프레임에서의 스피치의 확률을 계산하도록 구성된 제 6 모듈을 더 포함하는, 잡음 결정 시스템. - 제 7 항에 있어서,
600 Hz 내지 1550 Hz 범위 내의 가중치들은 최소 0.02 의 값으로 주어지는, 잡음 결정 시스템. - 신호의 복수의 시간-주파수 빈들에서의 오디오 신호의 잡음 레벨을 추정하기 위한 시스템으로서,
상기 신호의 빈들 각각에 대해:
복수의 오디오 프레임들의 잡음 레벨들을 결정하는 수단;
상기 시간-주파수 빈에서의 잡음 레벨을 추정하는 수단;
상기 시간-주파수 빈에서의 예비 잡음 레벨을 결정하는 수단;
상기 예비 잡음 레벨로부터 상기 시간-주파수 빈에서의 세컨더리 잡음 레벨을 결정하는 수단; 및
상기 시간-주파수 빈에서의 상기 세컨더리 잡음 레벨로부터 바운딩된 잡음 레벨을 결정하는 수단을 포함하는, 잡음 레벨 추정 시스템. - 제 9 항에 있어서,
상기 바운딩된 잡음 레벨을 결정하는 수단은, 상기 추정된 잡음 레벨을 12-24 dB 사이에서 활성의 원하는 신호 레벨 미만으로 바운딩하는 수단을 포함하는, 잡음 레벨 추정 시스템. - 제 9 항에 있어서,
현재 프레임에서의 각각의 주파수에 대한 스피치의 확률의 가중화된 합계를 취함으로써 상기 현재 프레임에서의 스피치의 확률을 계산하는 수단을 더 포함하는, 잡음 레벨 추정 시스템. - 제 11 항에 있어서,
600 Hz 내지 1550 Hz 범위 내의 가중치들은 최소 0.02 의 값으로 주어지는, 잡음 레벨 추정 시스템. - 명령들을 포함하는 컴퓨터 판독가능 매체로서, 상기 명령들은 프로세서 상에서 실행시에 신호의 복수의 시간-주파수 빈들에서의 오디오 신호의 잡음 레벨을 추정하기 위한 방법을 수행하며, 상기 방법은,
상기 신호의 빈들 각각에 대해:
복수의 오디오 프레임들의 잡음 레벨들을 결정하는 단계;
상기 시간-주파수 빈에서의 잡음 레벨을 추정하는 단계;
상기 시간-주파수 빈에서의 예비 잡음 레벨을 결정하는 단계;
상기 예비 잡음 레벨로부터 상기 시간-주파수 빈에서의 세컨더리 잡음 레벨을 결정하는 단계; 및
상기 시간-주파수 빈에서의 상기 세컨더리 잡음 레벨로부터 바운딩된 잡음 레벨을 결정하는 단계를 포함하는, 컴퓨터 판독가능 매체. - 제 13 항에 있어서,
상기 바운딩된 잡음 레벨을 결정하는 단계는, 상기 추정된 잡음 레벨을 12-24 dB 사이에서 활성의 원하는 신호 레벨 미만으로 바운딩하는 단계를 포함하는, 컴퓨터 판독가능 매체. - 제 13 항에 있어서,
상기 방법은, 현재 프레임에서의 각각의 주파수에 대한 스피치의 확률의 가중화된 합계를 취함으로써 상기 현재 프레임에서의 스피치의 확률을 계산하는 단계를 더 포함하는, 컴퓨터 판독가능 매체. - 제 15 항에 있어서,
600 Hz 내지 1550 Hz 범위 내의 가중치들은 최소 0.02 의 값으로 주어지는, 컴퓨터 판독가능 매체. - 신호의 복수의 시간-주파수 빈들에서의 오디오 신호의 잡음 레벨을 추정하기 위한 방법을 수행하도록 프로그래밍된 프로세서로서, 상기 방법은,
상기 신호의 빈들 각각에 대해:
복수의 오디오 프레임들의 잡음 레벨들을 결정하는 단계;
상기 시간-주파수 빈에서의 잡음 레벨을 추정하는 단계;
상기 시간-주파수 빈에서의 예비 잡음 레벨을 결정하는 단계;
상기 예비 잡음 레벨로부터 상기 시간-주파수 빈에서의 세컨더리 잡음 레벨을 결정하는 단계; 및
상기 시간-주파수 빈에서의 상기 세컨더리 잡음 레벨로부터 바운딩된 잡음 레벨을 결정하는 단계를 포함하는, 프로세서. - 제 17 항에 있어서,
상기 바운딩된 잡음 레벨을 결정하는 단계는, 상기 추정된 잡음 레벨을 12-24 dB 사이에서 활성의 원하는 신호 레벨 미만으로 바운딩하는 단계를 포함하는, 프로세서. - 제 17 항에 있어서,
상기 방법은, 현재 프레임에서의 각각의 주파수에 대한 스피치의 확률의 가중화된 합계를 취함으로써 상기 현재 프레임에서의 스피치의 확률을 계산하는 단계를 더 포함하는, 프로세서. - 제 19 항에 있어서,
600 Hz 내지 1550 Hz 범위 내의 가중치들은 최소 0.02 의 값으로 주어지는, 프로세서.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10572708P | 2008-10-15 | 2008-10-15 | |
US61/105,727 | 2008-10-15 | ||
US12/579,322 US8380497B2 (en) | 2008-10-15 | 2009-10-14 | Methods and apparatus for noise estimation |
US12/579,322 | 2009-10-14 | ||
PCT/US2009/060828 WO2010045450A1 (en) | 2008-10-15 | 2009-10-15 | Methods and apparatus for noise estimation in audio signals |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020117011012A Division KR20110081295A (ko) | 2008-10-15 | 2009-10-15 | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130019017A KR20130019017A (ko) | 2013-02-25 |
KR101246954B1 true KR101246954B1 (ko) | 2013-03-25 |
Family
ID=42099699
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137002342A KR101246954B1 (ko) | 2008-10-15 | 2009-10-15 | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 |
KR1020137007743A KR20130042649A (ko) | 2008-10-15 | 2009-10-15 | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 |
KR1020117011012A KR20110081295A (ko) | 2008-10-15 | 2009-10-15 | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137007743A KR20130042649A (ko) | 2008-10-15 | 2009-10-15 | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 |
KR1020117011012A KR20110081295A (ko) | 2008-10-15 | 2009-10-15 | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8380497B2 (ko) |
EP (1) | EP2351020A1 (ko) |
JP (1) | JP5596039B2 (ko) |
KR (3) | KR101246954B1 (ko) |
CN (1) | CN102187388A (ko) |
TW (1) | TW201028996A (ko) |
WO (1) | WO2010045450A1 (ko) |
Families Citing this family (159)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
KR101335417B1 (ko) * | 2008-03-31 | 2013-12-05 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
EP2444966B1 (en) * | 2009-06-19 | 2019-07-10 | Fujitsu Limited | Audio signal processing device and audio signal processing method |
KR101581885B1 (ko) * | 2009-08-26 | 2016-01-04 | 삼성전자주식회사 | 복소 스펙트럼 잡음 제거 장치 및 방법 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9172345B2 (en) | 2010-07-27 | 2015-10-27 | Bitwave Pte Ltd | Personalized adjustment of an audio device |
US20120166117A1 (en) | 2010-10-29 | 2012-06-28 | Xia Llc | Method and apparatus for evaluating superconducting tunnel junction detector noise versus bias voltage |
US10218327B2 (en) * | 2011-01-10 | 2019-02-26 | Zhinian Jing | Dynamic enhancement of audio (DAE) in headset systems |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
FR2976710B1 (fr) * | 2011-06-20 | 2013-07-05 | Parrot | Procede de debruitage pour equipement audio multi-microphones, notamment pour un systeme de telephonie "mains libres" |
CN102592592A (zh) * | 2011-12-30 | 2012-07-18 | 深圳市车音网科技有限公司 | 语音数据的提取方法和装置 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
EP2828853B1 (en) | 2012-03-23 | 2018-09-12 | Dolby Laboratories Licensing Corporation | Method and system for bias corrected speech level determination |
HUP1200197A2 (hu) | 2012-04-03 | 2013-10-28 | Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem | Eljárás és elrendezés környezeti zaj valós idejû, forrásszelektív monitorozására és térképezésére |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8842810B2 (en) * | 2012-05-25 | 2014-09-23 | Tim Lieu | Emergency communications management |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
CN102820035A (zh) * | 2012-08-23 | 2012-12-12 | 无锡思达物电子技术有限公司 | 一种对长时变噪声的自适应判决方法 |
US9521263B2 (en) * | 2012-09-17 | 2016-12-13 | Dolby Laboratories Licensing Corporation | Long term monitoring of transmission and voice activity patterns for regulating gain control |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
JP6066471B2 (ja) * | 2012-10-12 | 2017-01-25 | 本田技研工業株式会社 | 対話システム及び対話システム向け発話の判別方法 |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9449609B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Accurate forward SNR estimation based on MMSE speech probability presence |
US9449615B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Externally estimated SNR based modifiers for internal MMSE calculators |
US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
TWI573096B (zh) * | 2013-12-31 | 2017-03-01 | 智原科技股份有限公司 | 影像雜訊估測的方法與裝置 |
KR20150105847A (ko) * | 2014-03-10 | 2015-09-18 | 삼성전기주식회사 | 음성구간 검출 방법 및 장치 |
CN105336341A (zh) * | 2014-05-26 | 2016-02-17 | 杜比实验室特许公司 | 增强音频信号中的语音内容的可理解性 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
WO2015191470A1 (en) * | 2014-06-09 | 2015-12-17 | Dolby Laboratories Licensing Corporation | Noise level estimation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105336344B (zh) * | 2014-07-10 | 2019-08-20 | 华为技术有限公司 | 杂音检测方法和装置 |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886966B2 (en) * | 2014-11-07 | 2018-02-06 | Apple Inc. | System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9330684B1 (en) * | 2015-03-27 | 2016-05-03 | Continental Automotive Systems, Inc. | Real-time wind buffet noise detection |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
JP6404780B2 (ja) * | 2015-07-14 | 2018-10-17 | 日本電信電話株式会社 | ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10224053B2 (en) * | 2017-03-24 | 2019-03-05 | Hyundai Motor Company | Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10360895B2 (en) | 2017-12-21 | 2019-07-23 | Bose Corporation | Dynamic sound adjustment based on noise floor estimate |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
CN111063368B (zh) * | 2018-10-16 | 2022-09-27 | 中国移动通信有限公司研究院 | 一种音频信号中的噪声估计方法、装置、介质和设备 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
KR102237286B1 (ko) * | 2019-03-12 | 2021-04-07 | 울산과학기술원 | 음성 구간 검출장치 및 그 방법 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
JP7004875B2 (ja) * | 2019-12-20 | 2022-01-21 | 三菱電機株式会社 | 情報処理装置、算出方法、及び算出プログラム |
CN111354378B (zh) * | 2020-02-12 | 2020-11-24 | 北京声智科技有限公司 | 语音端点检测方法、装置、设备及计算机存储介质 |
US11620999B2 (en) | 2020-09-18 | 2023-04-04 | Apple Inc. | Reducing device processing of unintended audio |
CN113270107B (zh) * | 2021-04-13 | 2024-02-06 | 维沃移动通信有限公司 | 音频信号中噪声响度的获取方法、装置和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316381A (ja) | 2002-04-23 | 2003-11-07 | Toshiba Corp | 雑音抑圧方法及び雑音抑圧プログラム |
WO2004002002A1 (en) | 2002-06-24 | 2003-12-31 | Freescale Semiconductor, Inc. | Communication system and method therefor |
KR20060056186A (ko) * | 2004-11-20 | 2006-05-24 | 엘지전자 주식회사 | 음성인식장치의 음성구간 검출방법 |
US20070027685A1 (en) | 2005-07-27 | 2007-02-01 | Nec Corporation | Noise suppression system, method and program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0315897A (ja) * | 1989-06-14 | 1991-01-24 | Fujitsu Ltd | 判別閾値設定制御方式 |
JP2966452B2 (ja) | 1989-12-11 | 1999-10-25 | 三洋電機株式会社 | 音声認識装置の雑音除去システム |
WO2000075919A1 (en) | 1999-06-07 | 2000-12-14 | Ericsson, Inc. | Methods and apparatus for generating comfort noise using parametric noise model statistics |
US7117149B1 (en) * | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
CN100580770C (zh) * | 2005-08-08 | 2010-01-13 | 中国科学院声学研究所 | 基于能量及谐波的语音端点检测方法 |
CN101197130B (zh) * | 2006-12-07 | 2011-05-18 | 华为技术有限公司 | 声音活动检测方法和声音活动检测器 |
-
2009
- 2009-10-14 US US12/579,322 patent/US8380497B2/en active Active
- 2009-10-15 JP JP2011532248A patent/JP5596039B2/ja not_active Expired - Fee Related
- 2009-10-15 TW TW098134985A patent/TW201028996A/zh unknown
- 2009-10-15 WO PCT/US2009/060828 patent/WO2010045450A1/en active Application Filing
- 2009-10-15 KR KR1020137002342A patent/KR101246954B1/ko not_active IP Right Cessation
- 2009-10-15 EP EP09737318A patent/EP2351020A1/en not_active Withdrawn
- 2009-10-15 KR KR1020137007743A patent/KR20130042649A/ko not_active Application Discontinuation
- 2009-10-15 CN CN2009801412129A patent/CN102187388A/zh active Pending
- 2009-10-15 KR KR1020117011012A patent/KR20110081295A/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316381A (ja) | 2002-04-23 | 2003-11-07 | Toshiba Corp | 雑音抑圧方法及び雑音抑圧プログラム |
WO2004002002A1 (en) | 2002-06-24 | 2003-12-31 | Freescale Semiconductor, Inc. | Communication system and method therefor |
KR20060056186A (ko) * | 2004-11-20 | 2006-05-24 | 엘지전자 주식회사 | 음성인식장치의 음성구간 검출방법 |
US20070027685A1 (en) | 2005-07-27 | 2007-02-01 | Nec Corporation | Noise suppression system, method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2012506073A (ja) | 2012-03-08 |
US8380497B2 (en) | 2013-02-19 |
TW201028996A (en) | 2010-08-01 |
KR20130019017A (ko) | 2013-02-25 |
JP5596039B2 (ja) | 2014-09-24 |
CN102187388A (zh) | 2011-09-14 |
KR20110081295A (ko) | 2011-07-13 |
EP2351020A1 (en) | 2011-08-03 |
US20100094625A1 (en) | 2010-04-15 |
KR20130042649A (ko) | 2013-04-26 |
WO2010045450A1 (en) | 2010-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101246954B1 (ko) | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 | |
Davis et al. | Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold | |
KR100944252B1 (ko) | 오디오 신호 내에서 음성활동 탐지 | |
JP5905608B2 (ja) | 背景雑音の存在下でのボイスアクティビティ検出 | |
JP6257063B2 (ja) | 周囲雑音二乗平均平方根(rms)検出器 | |
US10848887B2 (en) | Blocked microphone detection | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
US20170078791A1 (en) | Spatial adaptation in multi-microphone sound capture | |
US8239194B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
US20120130713A1 (en) | Systems, methods, and apparatus for voice activity detection | |
KR101260938B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
KR101317813B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
CN105830154B (zh) | 估计音频信号中的背景噪声 | |
KR101335417B1 (ko) | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 | |
GB2566756A (en) | Temporal and spatial detection of acoustic sources | |
CN111508512A (zh) | 语音信号中的摩擦音检测 | |
Jeong et al. | Adaptive noise power spectrum estimation for compact dual channel speech enhancement | |
Zhou et al. | Non-intrusive speech quality objective evaluation in high-noise environments | |
KR102424795B1 (ko) | 음성 구간 검출 방법 | |
WO2021197566A1 (en) | Noise supression for speech enhancement | |
Abu-El-Quran et al. | Multiengine Speech Processing Using SNR Estimator in Variable Noisy Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20151230 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20161229 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20171228 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |