KR102410392B1 - 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출 - Google Patents

실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출 Download PDF

Info

Publication number
KR102410392B1
KR102410392B1 KR1020177011018A KR20177011018A KR102410392B1 KR 102410392 B1 KR102410392 B1 KR 102410392B1 KR 1020177011018 A KR1020177011018 A KR 1020177011018A KR 20177011018 A KR20177011018 A KR 20177011018A KR 102410392 B1 KR102410392 B1 KR 102410392B1
Authority
KR
South Korea
Prior art keywords
activity detection
voice activity
speech
audio signal
values
Prior art date
Application number
KR1020177011018A
Other languages
English (en)
Other versions
KR20170060108A (ko
Inventor
얼 비커스
Original Assignee
사이러스 로직, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사이러스 로직, 인코포레이티드 filed Critical 사이러스 로직, 인코포레이티드
Publication of KR20170060108A publication Critical patent/KR20170060108A/ko
Application granted granted Critical
Publication of KR102410392B1 publication Critical patent/KR102410392B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

"실행 중 범위 정규화" 방법은 음성 활동 검출(VAD)에 유용한 특징 값들 범위의 실행 중 추정들을 계산하고 특징들을 원하는 범위에 매핑함으로써 정규화하는 단계를 포함한다. 실행 중 범위 정규화는 VAD 특징들의 최소 및 최대 값들의 실행 중 추정들의 계산, 및 원래의 범위를 원하는 범위에 매핑함으로써 특징 값들을 정규화하는 것을 포함한다. 평활화 계수들은 최소 및 최대 값들의 실행 중 추정들 중 적어도 하나의 변화율을 방향적으로 편향시키도록 선택적으로 선택된다. 정규화된 VAD 특징 파라미터들은 음성 활동을 검출하고, 트레이닝되는 기계 학습 알고리즘을 사용하여 오디오 데이터의 스피치 구성 요소를 분리하거나 향상시키기 위해 기계 학습 알고리즘을 트레이닝하는 데 사용된다.

Description

실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출{NEURAL NETWORK VOICE ACTIVITY DETECTION EMPLOYING RUNNING RANGE NORMALIZATION}
관련 출원에 대한 상호 참조
본 출원은 2014년 9월 26일에 출원된 "Neural Network Voice Activity Detection Employing Running Range Normalization"이라는 명칭의 미국 가출원 일련번호 제62/056,045호, 및 2015년 9월 25일에 출원된 "Neural Network Voice Activity Detection Employing Running Range Normalization"이라는 명칭의 미국 실용 출원 일련번호 제14/866,824호의 우선권을 주장하며, 이 출원들의 전체가 본 명세서에 참조로 포함된다.
기술분야
본 개시 내용은 일반적으로 오디오 신호들을 출력하기 전에 음성 데이터를 분리(isolating)하거나, 오디오 신호들로부터 노이즈(noise)를 제거하거나, 또는 다른 방식으로 오디오 신호들을 향상시키는 기술들을 포함하는, 오디오 신호들을 처리하는(processing) 기술들에 관한 것이다. 더 구체적으로, 본 개시 내용은 음성 활동 검출(VAD : voice activity detection)에 관한 것으로, 더욱 구체적으로는 오디오 신호로부터 유도되는 하나 이상의 음성 활동 검출 특징들(features) 또는 특징 파라미터들(feature parameters)을 정규화하는 방법들에 관한 것이다. 또한, 오디오 신호들을 처리하기 위한 장치들 및 시스템들이 개시된다.
음성 활동 검출기들은 오디오 신호들의 스피치를 향상시키고, 특정 화자(speaker)의 음성의 인식 또는 스피치 인식을 포함하는 다양한 다른 목적들을 위해 오랫동안 사용되어 왔다.
통상적으로, 음성 활동 검출기들은 오디오 신호가 스피치를 포함하는지에 관한 결정을 하기 위해, 에너지 레벨(energy level)들 및 제로-크로싱 율(zero-crossing rate)들과 같은 특징들과 함께 퍼지 규칙(fuzzy rule)들 또는 휴리스틱스(heuristics)에 의존해 왔다. 몇몇 경우들에서, 종래의 음성 활동 검출기들에 의해 이용되는 임계값(threshold)들은 오디오 신호의 신호-대-노이즈 비율(SNR)에 의존하는데, 이는 적절한 임계값들을 선택하는 것을 어렵게 만든다. 추가적으로, 종래의 음성 활동 검출기들은 오디오 신호가 높은 SNR을 갖는 조건하에서 잘 작동하는 반면에, 오디오 신호의 SNR이 낮을 때에는 신뢰성이 떨어진다.
몇몇 음성 활동 검출기들은 신경망(neural network)들과 같은 기계 학습(machine learning) 기술들의 사용에 의해 개선되어 왔으며, 신경망은 통상적으로 더 정확한 음성 활동 추정을 제공하기 위해 수 개의 평범한 음성 활동 검출(VAD) 특징들을 결합한다. (본 명세서에서 사용되는 "신경망"이라는 용어는, 서포트 벡터 기계(support vector machine)들, 결정 트리(decision tree)들, 로지스틱 회귀(logistic regression), 통계학적 분류기(statistical classifier)들 등과 같은 다른 기계 학습 기술들을 또한 지칭할 수 있다.) 이러한 개선되는 음성 활동 검출기들은 그들을 트레이닝(train)하는 데 사용되는 오디오 신호들과 잘 작동하는 반면에, 상이한 유형들의 노이즈를 포함하거나 음성 활동 검출기들을 트레이닝하는 데 사용된 오디오 신호들과 다른 잔향(reverberation)의 양을 포함하는 다른 환경들로부터 획득된 오디오 신호들에 적용될 경우에, 통상적으로 신뢰성이 떨어진다.
"특징 정규화(feature normalization)"로 알려진 기술은 음성 활동 검출기가 다양한 상이한 특성들을 갖는 오디오 신호들을 평가하는 데 사용될 수 있는 견고성(robustness)을 개선하기 위해 사용되어 왔다. 예를 들어, 평균-분산 정규화(MVN : Mean-Variance Normalization)에서, 특징 벡터들의 각 요소의 평균들 및 분산들은 각각 0 및 1로 정규화된다. 특징 정규화는, 상이한 데이터 세트(set)들에 대한 견고성을 개선하는 것 외에도, 현재 시간 프레임을 이전 프레임들과 비교하는 방법에 대한 정보를 암시적으로 제공한다. 예를 들어, 주어진 분리된 데이터 프레임에서 정규화되지 않은 특징이 0.1의 값을 갖는 경우, 이것은 이 프레임이 스피치와 대응하는지 여부에 대한 정보를 거의 제공하지 않을 수 있고, 특히 우리가 SNR을 알지 못하는 경우에 더 그렇다. 그러나, 녹음(recording)의 장기 통계를 기반으로 하여 특징이 정규화된 경우, 이것은 이 프레임을 전체 신호와 비교하는 방법에 대한 추가적인 컨텍스트(context)를 제공한다.
그러나, MVN과 같은 전통적인 특징 정규화 기술들은 스피치에 대응하는 오디오 신호의 퍼센티지(즉, 사람이 말하는 시간의 퍼센티지(percentage))에 통상적으로 매우 민감하다. 만약 런타임(runtime) 동안의 온라인 스피치 데이터가 신경망을 트레이닝하는 데 사용된 데이터와 크게 다른 스피치의 퍼센티지를 갖는다면, VAD 특징들의 평균값들은 이에 상응하여 이동될 것이고, 잘못된 결과를 낳게 된다. 그러므로, 음성 활동 검출 및 특징 정규화에 있어 개선이 요구된다.
본 발명의 일 양태는, 몇몇 실시예들에서, 오디오 신호로부터 정규화된 음성 활동 검출 특징들(normalized voice activity detection features)을 획득하는 방법을 특징으로 한다. 방법은 컴퓨팅 시스템(computing system)에서 수행되고, 오디오 신호를 시간 프레임들(time frames)의 시퀀스(sequence)로 분할하는 단계; 시간 프레임들 각각에 대한 오디오 신호의 하나 이상의 음성 활동 검출 특징을 계산하는 단계; 및 시간 프레임들 각각에 대한 오디오 신호의 하나 이상의 음성 활동 검출 특징의 최소 값 및 최대 값의 실행 중 추정들(running estimates)을 계산하는 단계를 포함한다. 방법은 시간 프레임들 각각에 대한 오디오 신호의 하나 이상의 음성 활동 검출 특징의 최소 값 및 최대 값의 실행 중 추정들을 비교함으로써 하나 이상의 음성 활동 검출 특징의 입력 범위들을 계산하는 단계; 및 시간 프레임들 각각에 대한 오디오 신호의 하나 이상의 음성 활동 검출 특징을 입력 범위들로부터 하나 이상의 원하는 타겟 범위(target range)에 매핑(mapping)하여, 하나 이상의 정규화된 음성 활동 검출 특징을 획득하는 단계를 더 포함한다.
몇몇 실시예들에서, 발화된 음성 데이터(spoken voice data)를 나타내는 오디오 신호의 하나 이상의 특징들은 전대역(full-band) 에너지, 저대역(low-band) 에너지, 주(primary) 마이크로폰(microphone) 및 참조(reference) 마이크로폰에서 측정되는 에너지들의 비율들, 분산 값들, 스펙트럼 중심 비율(spectral centroid ratio)들, 스펙트럼 분산, 스펙트럼 차이들의 분산, 스펙트럼 평탄도(spectral flatness), 및 제로-크로싱 율(zero crossing rate) 중 하나 이상을 포함한다.
몇몇 실시예들에서, 하나 이상의 정규화된 음성 활동 검출 특징은 발화된 음성 데이터의 우도(likelihood)의 추정을 생성하기 위해 사용된다.
몇몇 실시예들에서, 방법은 하나 이상의 정규화된 음성 활동 검출 특징을 기계 학습 알고리즘(machine learning algorithm)에 적용하여, 바이너리 스피치/비-스피치 지정(binary speech/non-speech designation), 및 스피치 활동의 우도 중 적어도 하나를 나타내는 음성 활동 검출 추정을 생성하는 단계를 더 포함한다.
몇몇 실시예들에서, 방법은 음성 활동 검출 추정을 사용하여 하나 이상의 적응형 필터(adaptive filter)들의 적응 레이트(adaptation rate)를 제어하는 단계를 더 포함한다.
몇몇 실시예들에서, 시간 프레임들은 시간 프레임들의 시퀀스 내에서 중첩(overlapping)한다.
몇몇 실시예들에서, 방법은 평활화(smoothing), 양자화(quantizing), 및 임계화(thresholding) 중 적어도 하나를 포함하여, 하나 이상의 정규화된 음성 활동 검출 특징을 후처리(post-processing)하는 단계를 더 포함한다.
몇몇 실시예들에서, 하나 이상의 정규화된 음성 활동 검출 특징은 노이즈(noise) 감소, 적응 필터링(adaptive filtering), 전력 레벨(power level) 차이 계산, 및 비-스피치 프레임들의 감쇠(attenuation) 중 하나 이상에 의해 오디오 신호를 향상시키기 위해 사용된다.
몇몇 실시예들에서, 방법은 비-음성 데이터가 실질적으로 없는, 발화된 음성 데이터를 포함하는 선명화된 오디오 신호(clarified audio signal)를 생성하는 단계를 더 포함한다.
몇몇 실시예들에서, 하나 이상의 정규화된 음성 활동 검출 특징은 스피치를 검출하기 위한 기계 학습 알고리즘을 트레이닝하기 위해 사용된다.
몇몇 실시예들에서, 하나 이상의 음성 활동 검출 특징의 최소 값 및 최대 값의 실행 중 추정들을 계산하는 단계는 하나 이상의 음성 활동 검출 특징에 비대칭 지수 평균화(asymmetrical exponential averaging)를 적용하는 단계를 포함한다. 몇몇 실시예들에서, 방법은 평활화된(smoothed) 최소 값 추정들 및 평활화된 최대 값 추정들 중 하나의 점진적 변경(gradual change) 및 빠른 변경(rapid change) 중 하나를 생성하기 위해 선택되는 시간 상수(time constant)들에 대응하도록 평활화 계수(smoothing coefficient)들을 설정하는 단계를 더 포함한다. 몇몇 실시예들에서, 평활화 계수들은, 최대 값 추정의 연속적인 업데이트(updating)가 더 높은 음성 활동 검출 특징 값들에 빠르게 응답하고, 더 낮은 음성 활동 검출 특징 값들에 대한 응답으로는 더 느리게 감소하도록 선택된다. 몇몇 실시예들에서, 평활화 계수들은, 최소 값 추정의 연속적인 업데이트가 더 낮은 음성 활동 검출 특징 값들에 빠르게 응답하고, 더 높은 음성 활동 검출 특징 값들에 대한 응답으로는 느리게 증가하도록 선택된다.
몇몇 실시예들에서, 매핑은 다음의 공식에 따라 수행된다:
normalizedFeatureValue = 2 × (newFeatureValue - featureFloor) / (featureCeiling - featureFloor) - 1.
몇몇 실시예들에서, 매핑은 다음의 공식에 따라 수행된다:
normalizedFeatureValue = (newFeatureValue - featureFloor) / (featureCeiling - featureFloor).
몇몇 실시예들에서, 하나 이상의 음성 활동 검출 특징의 입력 범위들을 계산하는 단계는 최대 값들의 실행 중 추정들로부터 최소 값들의 실행 중 추정들을 감산(subtracting)함으로써 수행된다.
본 발명의 다른 양태는, 몇몇 실시예들에서, 음성 활동 검출 특징들을 정규화하는 방법을 특징으로 한다. 방법은 오디오 신호를 시간 프레임들의 시퀀스로 세그먼트화(segmenting)하는 단계; 음성 활동 검출 특징들에 대한 실행 중 최소 및 최대 값 추정들을 계산하는 단계; 실행 중 최소 및 최대 값 추정들을 비교함으로써 입력 범위들을 계산하는 단계; 및 음성 활동 검출 특징들을 입력 범위들로부터 하나 이상의 원하는 타겟 범위들에 매핑함으로써 음성 활동 검출 특징들을 정규화하는 단계를 포함한다.
몇몇 실시예들에서, 실행 중 최소 및 최대 값 추정들을 계산하는 단계는 실행 중 최소 및 최대 값 추정들 중 적어도 하나에 대한 방향적으로 편향되는(directionally-biased) 변화율을 설정하기 위해 평활화 계수들을 선택하는 단계를 포함한다.
몇몇 실시예들에서, 평활화 계수들은, 실행 중 최대 값 추정이 더 높은 최대 값들에 더 빠르게 응답하고, 더 낮은 최대 값들에 더 느리게 응답하도록 선택된다.
몇몇 실시예들에서, 평활화 계수들은, 실행 중 최소 값 추정이 더 낮은 최소 값들에 더 빠르게 응답하고, 더 높은 최소 값들에 더 느리게 응답하도록 선택된다.
본 발명의 다른 양태는, 몇몇 실시예들에서, 오디오 신호 내의 음성 데이터를 식별하는 방법을 수행하기 위한 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 매체(computer-readable medium)를 특징으로 하고, 컴퓨터 판독 가능 매체는 컴퓨터 스토리지 매체들(computer storage media); 및 컴퓨터 스토리지 매체들 상에 저장되는 컴퓨터 실행 가능 명령어들(computer-executable instructions)을 포함하고, 컴퓨터 실행 가능 명령어들은, 컴퓨팅 시스템에 의해 실행될 때, 컴퓨팅 시스템이, 복수의 음성 활동 검출 특징들을 계산하고; 음성 활동 검출 특징들의 최소 값 및 최대 값의 실행 중 추정들을 계산하고; 최소 값 및 최대 값의 실행 중 추정들을 비교함으로써 음성 활동 검출 특징들의 입력 범위들을 계산하고; 음성 활동 검출 특징들을 입력 범위들로부터 하나 이상의 원하는 타겟 범위에 매핑하여 정규화된 음성 활동 검출 특징들을 획득하게 하도록 구성된다.
본 발명의 더 완전한 이해는 도면과 관련하여 고려될 때, 상세한 설명을 참조함으로써 유도될 수 있다.
도 1은 일 실시예에 따른, 실행 중 범위 정규화(running range normalization)를 이용하는 음성 활동 검출 방법을 도시한다.
도 2는 일 실시예에 따른, VAD 특징들을 정규화하기 위해 실행 중 범위 정규화를 사용하는 방법의 프로세스 흐름을 도시한다.
도 3은 대응하는 하한(floor) 및 상한(ceiling) 값들 및 결과적인 정규화된 VAD 특징과 함께, 통상의 정규화되지 않은 VAD 특징의 시간적 변화를 도시한다.
도 4는 일 실시예에 따른, 음성 활동 검출기를 트레이닝하는 방법을 도시한다.
도 5는 일 실시예에 따른, 음성 활동 검출기를 검사하는(testing) 방법의 프로세스 흐름을 도시한다.
도 6은 디지털 오디오 오디오를 분석하기 위한 컴퓨터 아키텍처(architecture)를 도시한다.
이하의 설명은 단지 본 발명의 예시적인 실시예들에 관한 것이고, 본 발명의 범위, 이용가능성, 또는 구성을 제한하려고 의도된 것은 아니다. 오히려, 이하의 설명은 본 발명의 다양한 실시예들을 구현하기 위한 편리한 설명을 제공하기 위해 의도된다. 명백해질 바와 같이, 본 명세서에서 제시되는 바와 같은 본 발명의 범위를 벗어나지 않고서, 이 실시예들에서 설명되는 요소들의 기능 및 배치에 다양한 변경들이 가해질 수 있다. 따라서, 본 명세서의 상세한 설명은 오직 설명의 목적으로 제공되는 것이지 제한의 목적으로 제공되는 것이 아니다.
명세서에서 "일 실시예" 또는 "실시예"의 언급은 실시예와 관련하여 설명되는 특정한 특징, 구조, 또는 특성이 본 발명의 적어도 하나의 실시예에 포함됨을 나타내기 위해 의도된다. 명세서의 다양한 곳에서의 "일 실시예에서" 또는 "실시예"라는 문구의 출현들은 반드시 모두 동일한 실시예를 지칭하는 것은 아니다.
본 발명은 디지털 데이터를 분석하기 위한 방법들, 시스템들, 및 컴퓨터 프로그램 제품들에 확장된다. 분석되는 디지털 데이터는 예를 들어, 디지털 오디오 파일들, 디지털 비디오 파일들, 실시간 오디오 스트림(stream)들, 및 실시간 비디오 스트림들 등의 형태일 수 있다. 본 발명은 디지털 데이터의 소스(source) 내의 패턴들을 식별하고, 식별된 패턴들을 사용하여, 예를 들어, 음성 데이터를 분리시키거나 향상시키기 위해 디지털 데이터를 분석하고, 분류하고, 필터링한다(filter). 본 발명의 특정 실시예들은 디지털 오디오에 관한 것이다. 실시예들은 임의의 오디오 소스로부터 비파괴(non-destructive) 오디오 분리(isolation) 및 구분(separation)을 수행하도록 설계된다.
일 양태에서, 본 기술 분야에서 "음성 활동 검출"(VAD)이라고 지칭되는, 오디오 신호(예를 들어, 전화, 이동 전화, 오디오 녹음 장비 또는 그밖에 유사한 것 등과 같은 오디오 디바이스의 마이크로폰(microphone)에 의해 수신되는 오디오 신호)가 개인의 음성에 대응하는 오디오를 포함할 우도를 결정하는 데 사용되는 하나 이상의 특징들을 연속적으로 정규화하는 방법이 개시된다. 이러한 방법은 본 명세서에서 "실행 중 범위 정규화(running range normalization)"라고 지칭되는 프로세스를 포함하는데, 이는 개인의 음성의 다양한 양태들을 설명할 가능성이 있는 오디오 신호들의 특징들의 파라미터들을 추적(tracking)하고, 선택적으로, 연속해서 수정하는 것을 포함한다. 제한 없이, 실행 중 범위 정규화는 개인의 음성이 오디오 신호의 적어도 일부를 구성한다는 것을 나타낼 수 있는 오디오 신호의 하나 이상의 특징의 최소 및 최대 값들(즉, 각각 특징 하한 추정(feature floor estimate) 및 특징 상한 추정(feature ceiling estimate))의 실행 중 추정들의 계산을 포함할 수 있다. 관심 있는 특징들은 오디오 신호가 개인의 음성을 포함하고 있는지를 나타내는 것이기 때문에, 이 특징들은 "VAD 특징들"로 지칭될 수 있다. 특정한 VAD 특징에 대한 하한 및 상한 추정들을 추적하고 수정함으로써, 오디오 신호의 특정 특징들이 발화된 음성(spoken voice)의 존재를 나타내는지에 관한 신뢰도(level of confidence)를 극대화 할 수 있다.
VAD 특징들의 몇몇 비제한적 예시들은 전대역(full-band) 에너지, 저대역 에너지(예를 들어, < 1kHz)를 포함하는 다양한 대역들에서의 에너지들, 주(primary) 마이크로폰 및 참조(reference) 마이크로폰에서 측정되는 에너지들의 비율들, 분산 값들, 스펙트럼 중심 비율(spectral centroid ratio)들, 스펙트럼 분산, 스펙트럼 차이들의 분산, 스펙트럼 평탄도(spectral flatness), 및 제로-크로싱 율을 포함한다.
도 1을 참조하면, VAD 방법(100)의 실시예가 도시된다. VAD 방법은 (선택적으로 중첩하는) 시간 프레임들의 시퀀스로 분할될 수 있는 하나 이상의 오디오 신호("노이지 스피치(noisy speech)")를 획득하는 것을 포함할 수 있다(단계(102)). 몇몇 실시예들에서, 오디오 신호가 음성 활동을 포함하는지에 관한 결정이 내려지기 전에, 오디오 신호는 어떤 향상 처리(enhancement processing)를 겪을 수 있다. 각각의 시간 프레임에서, 각각의 오디오 신호는 하나 이상의 VAD 특징을 결정하거나 계산하기 위해 평가될 수 있다("VAD 특징들 계산"에서)(단계(104)). 특정한 시간 프레임으로부터의 VAD 특징(들)에 대해, 실행 중 범위 정규화 프로세스가 이 VAD 특징들에 대해 수행될 수 있다("실행 중 범위 정규화"에서)(단계(106)). 실행 중 범위 정규화 프로세스는 그 시간 프레임에 대한 특징 하한 추정 및 특징 상한 추정을 계산하는 것을 포함할 수 있다. 특징 하한 추정과 특징 상한 추정 사이의 범위에 매핑(mapping)함으로써, 대응하는 VAD 특징에 대한 파라미터들이 복수의 시간 프레임에 걸쳐, 또는 시간 경과에 따라 정규화될 수 있다("정규화된 VAD 특징들")(단계(108)).
그런 다음, 정규화된 VAD 특징들은 오디오 신호가 음성 신호를 포함하는지를 결정하기 위해 (예를 들어, 신경망 등에 의해) 사용될 수 있다. 이 프로세스는 오디오 신호가 처리되는 동안, 음성 활동 검출기를 지속적으로 업데이트하기 위해 반복될 수 있다.
정규화된 VAD 특징들의 시퀀스가 주어지면, 신경망은 바이너리 스피치/비-스피치 결정(binary speech/non-speech decision), 스피치 활동의 우도, 또는 바이너리 스피치/비-스피치 결정을 생성하기 위해 선택적으로 임계값(threshold)에 종속될 실수(real number)를 나타내는 VAD 추정을 생성할 수 있다(단계(110)). 신경망에 의해 생성되는 VAD 추정은 오디오 신호의 추가 처리를 제어하는 데 사용될 수 있는 후처리된(post-processed) VAD 추정을 생성하는, 양자화(quantization), 평활화(smoothing), 임계화(thresholding), "고아 제거(orphan removal)" 등과 같은 추가 처리를 겪을 수 있다(단계(112)). 예를 들어, 오디오 신호 또는 오디오 신호의 일부에서 음성 활동이 검출되지 않으면, 오디오 신호 내의 다른 오디오 소스들(예를 들어, 노이즈, 음악 등)이 오디오 신호의 관련 부분에서 제거될 수 있어, 그 결과 조용한 오디오 신호가 될 수 있다. (선택적 후처리한) VAD 추정은 또한 적응형 필터(adaptive filter)들의 적응 레이트(adaptation rate)를 제어하거나 다른 스피치 향상 파라미터들을 제어하는 데 사용될 수 있다.
오디오 신호는 마이크로폰으로, 수신기로, 전기 신호로서 또는 임의의 다른 적절한 방식으로 획득될 수 있다. 오디오 신호는 적절한 프로그래밍(programming)의 제어 하에서 동작될 때, 본 명세서에서 제공되는 개시 내용에 따라 오디오 신호를 분석 및/또는 처리할 수 있는 컴퓨터 프로세서, 마이크로컨트롤러(microcontroller), 또는 임의의 다른 적절한 처리 요소에 전송될 수 있다.
비제한적인 실시예로서, 오디오 신호는 전화, 이동 전화, 오디오 녹음 장비 또는 그밖에 유사한 것과 같은 오디오 디바이스의 하나 이상의 마이크로폰(microphone)에 의해 수신될 수 있다. 오디오 신호는 디지털 오디오 신호로 변환될 수 있고, 그런 다음, 오디오 디바이스의 처리 요소에 전송될 수 있다. 처리 요소는 본 개시 내용에 따른 VAD 방법을 디지털 오디오 신호에 적용할 수 있으며, 몇몇 실시예들에서, 디지털 오디오 신호에 대해 다른 프로세스들을 수행하여 그 디지털 오디오 신호를 더 명확하게 하거나 그 디지털 오디오 신호로부터 노이즈를 제거할 수 있다. 그런 다음, 처리 요소는 선명화된 오디오 신호를 저장할 수 있고, 선명화된 오디오 신호를 전송하고/전송하거나, 선명화된 오디오 신호를 출력할 수 있다.
다른 비제한적 실시예에서, 디지털 오디오 신호는 전화, 이동 전화, 오디오 녹음 장비, 오디오 재생 장비, 또는 그밖에 유사한 것과 같은 오디오 디바이스에 의해 수신될 수 있다. 디지털 오디오 신호는 오디오 디바이스의 처리 요소에 전달될 수 있으며, 그 후 이 처리 요소는 디지털 오디오 신호에 대해 본 개시 내용에 따른 VAD 방법을 수행하는 프로그램을 실행할 수 있다. 추가적으로, 처리 요소는 디지털 오디오 신호의 선명도(clarity)를 더 개선하는 하나 이상의 다른 프로세스들을 실행할 수 있다. 그런 다음, 처리 요소는 선명화된 디지털 오디오 신호를 저장, 전송, 및/또는 가청적으로(audibly) 출력할 수 있다.
도 2를 참조하면, 실행 중 범위 정규화 프로세스(200)는 정규화되지 않은 VAD 특징들의 세트를 정규화된 VAD 특징들의 세트로 변환하는 데 사용된다. 각각의 시간 프레임에서, 업데이트되는 하한 및 상한 추정들이 각 특징에 대해 계산된다(단계들(202, 204)). 그런 다음, 각각의 특징은 하한 및 상한 추정들에 기반하는 범위에 매핑되고(단계(206)), 정규화된 VAD 특징들의 세트를 생성한다(단계(208)).
특징 하한 추정 및 특징 상한 추정은 0으로 초기화될 수 있다. 대안적으로, 오디오 신호의 처음 몇 초 동안의 최적의 성능을 위해(예를 들어, 실시간으로 획득되는 오디오 신호로), 특징 하한 추정 및 특징 상한 추정은 미리 결정된 일반적인 값(typical value)으로 초기화될 수 있다(예를 들어, 공장에서 등). 특징 하한 추정들 및 특징 상한 추정들의 추가 계산(예를 들어, 전화 통화 중에, 오디오 신호가 다른 방식으로 수신되고, 음성을 검출하고/검출하거나 오디오 신호를 선명하게 하기 위해 처리될 때 등)은 복수의 시간 프레임에 걸쳐 평활화된 특징 하한 추정들 및 평활화된 특징 상한 추정들을 각각 추적하기 위해 비대칭 지수 평균화를 적용하는 것을 포함할 수 있다. 비대칭 지수 평균화 대신에 하한 및/또는 상한 추정들을 추적하는 다른 방법들이 사용될 수 있다. 예를 들어, 최소 통계 알고리즘은 유한 윈도우(finite window) 내에서 (선택적으로 주파수의 함수로서) 노이지 스피치 파워(noisy speech power)의 최소 값을 추적한다.
특징 하한 추정의 컨텍스트에서, 비대칭 지수 평균화의 사용은 오디오 신호로부터의 새로운 VAD 특징의 값을 특징 하한 추정과 비교하고, 새로운 VAD 특징의 값이 특징 하한 추정을 초과하는 경우, 특징 하한 추정을 점진적으로 증가시키는 것을 포함할 수 있다. 평활화 계수를 5초 이상과 같은 느린 시간 상수에 대응하는 값으로 설정함으로써, 특징 하한 추정의 점진적 증가가 성취될 수 있다. 대안으로서, 오디오 신호로부터의 새로운 VAD 특징의 값이 특징 하한 추정보다 작은 경우, 특징 하한 추정은 신속하게 감소할 수 있다. 1초 이하와 같은 빠른 시간 상수에 대응하는 값으로 평활화 계수를 설정함으로써, 특징 하한 추정의 신속한 감소가 성취될 수 있다. 다음의 수학식은 비대칭 지수 평균화를 특징 하한 추정에 적용하는 데 사용될 수 있는 알고리즘을 나타낸다:
featureFloornew = cFloor×featureFloorprevious+(1-cFloor)×newFeatureValue
여기서 cFloor는 현재 하한 평활화 계수(current floor smoothing coefficient), featureFloorprevious는 이전의 평활화된 특징 하한 추정, newFeatureValue는 가장 최근의 정규화되지 않은 VAD 특징, 그리고 featureFloornew는 새로운 평활화된 특징 하한 추정이다.
특징 상한 추정의 컨텍스트에서, 비대칭 지수 평균화의 사용은 오디오 신호로부터의 새로운 VAD 특징의 값을 특징 상한 추정과 비교하는 것을 포함할 수 있다. 새로운 VAD 특징이 특징 상한 추정보다 작은 값을 갖는 경우, 특징 상한 추정은 점진적으로 감소될 수 있다. 평활화 계수를 5초 이상과 같은 느린 시간 상수에 대응하는 값으로 설정함으로써, 특징 하한 추정의 점진적 감소가 성취될 수 있다. 대신, 새로운 VAD 특징이 특징 상한 추정보다 큰 경우, 특징 상한 추정은 신속하게 증가할 수 있다. 평활화 계수를 1초 이하와 같은 빠른 시간 상수에 대응하는 값으로 설정함으로써, 특징 상한 추정의 신속한 증가가 성취될 수 있다. 특정한 실시예에서, 다음의 알고리즘은 비대칭 지수 평균화를 특징 상한 추정에 적용하는 데 사용될 수 있다:
featureCeilnew = cCeil*featureCeilprevious+(1-cCeil)*newFeatureValue.
여기서 cCeil은 현재 상한 평활화 계수, featureCeilprevious는 이전의 평활화된 특징 상한 추정, newFeatureValue는 가장 최근의 정규화되지 않은 VAD 특징, 그리고 featureCeilnew는 새로운 평활화된 특징 상한 추정이다.
정규화되지 않은 VAD 특징 값들의 통상적인 시리즈(series) 및 대응하는 하한 및 상한 값들이 도 3의 상단 플롯에 도시된다. 실선은 프레임마다 달라지는 정규화되지 않은 VAD 특징 값들을 묘사하고; 점선은 대응하는 상한 값들을 묘사하고; 1점 쇄선은 대응하는 하한 값들을 묘사한다. 특징 상한 추정들은 새로운 피크(new peak)들에 빠르게 응답하지만, 낮은 특징 값들에 대한 응답으로는 느리게 감소한다. 비슷하게, 특징 하한 추정은 작은 특징 값들에 빠르게 응답하지만, 큰 값들에 대한 응답으로는 느리게 증가한다.
통상적으로 대략 0.25초의 시간 상수들을 사용하는 빠른 계수들은 특징 하한 및 상한 값들이 최소 및 최대 특징 값들의 실행 중 추정들에 빠르게 수렴(converge)하는 것을 허용하는 반면에, 느린 계수들은 MVN과 같은 정규화 기술들에 대해 실용적일 것보다 훨씬 더 긴 시간 상수들(예를 들어, 18초)을 사용할 수 있다. featureCeil 값이 장기적인 침묵 동안에 최대 특징 값들을 기억하는 경향이 있을 것이므로, 느린 시간 상수들은 실행 중 범위 정규화를 스피치 퍼센티지에 훨씬 덜 민감하게 만든다. 화자가 다시 말하기 시작할 때, 빠른 시간 상수는 featureCeil이 새로운 최대 특징 값들에 빠르게 접근하도록 도와줄 것이다. 추가적으로, 실행 중 범위 정규화는 노이즈 하한에 대응하는 최소 특징 값들의 명시적 추정을 한다. VAD 임계값들이 상대적으로 노이즈 하한에 가까운 경향이 있기 때문에, 이러한 명시적 최소 특징 추정은 평균 및 분산을 추적함으로써 얻어지는 암시적 추정들보다 더 유용한 것으로 보여진다. 몇몇 적용들에서, 예를 들어, 하한 추정들보다 더 빨리 상한 추정들을 적응시키기 위해서, 또는 그 반대를 위해서, 하한 및 상한 추정들에 대해 상이한 시간 상수 쌍을 사용하는 것이 유리할 수 있다.
일단 특징 하한 추정 및 특징 상한 추정이 특정한 VAD 특징에 대해 계산되면, 그 VAD 특징은 특징 하한 추정과 특징 상한 추정 사이의 범위를 원하는 타겟 범위(desired target range)에 매핑함으로써 정규화될 수 있다. 원하는 타겟 범위는 선택적으로 -1에서 +1까지 확장될 수 있다. 특정 실시예에서, 매핑은 다음의 공식을 사용하여 수행될 수 있다:
Figure 112017039780481-pct00001
결과적인 정규화된 특징 값(normalized feature value)들은 도 3의 하단 플롯에 묘사되고, 도 3의 상단 플롯에서의 정규화되지 않은 특징 값들에 대응한다. 이 예시에서, 정규화된 특징 값들은 대략 -1에서 +1까지의 원하는 타겟 범위를 차지하는 경향이 있다. 이 정규화된 특징 값들은 일반적으로 다양한 환경 조건들에서 더 견고하고(robust), VAD 신경망을 트레이닝하고 적용하는 데 더 유용하다.
유사하게, 원하는 타겟 범위가 0에서 +1까지인 경우, 매핑은 다음의 공식을 사용하여 수행될 수 있다:
Figure 112017039780481-pct00002
다양한 비선형(non-linear) 매핑이 또한 사용될 수 있다.
정규화되지 않은 VAD 특징 값이 평활화된 하한 및 상한 추정들의 지연된 응답으로 인해, 때때로 현재의 하한 추정과 상한 추정 사이의 범위를 벗어나는 일이 흔하며, 이는 정규화된 VAD 특징 값이 원하는 타겟 범위를 벗어나게 한다. 이것은 통상적으로 신경망을 트레이닝하고 적용하기 위한 목적으로는 문제가 되지 않지만, 원한다면, 타겟 범위의 최대 값보다 큰 정규화된 특징 값들이 타겟 범위의 최대 값으로 설정될 수 있고; 마찬가지로, 타겟 범위의 최소 값보다 작은 정규화된 특징들이 타겟 범위의 최소 값으로 설정될 수 있다.
다른 양태에서, 전술한 바와 같은 VAD 방법은 음성 활동 검출기를 트레이닝하는 데 사용될 수 있다. 이러한 트레이닝 방법은 노이즈 신호들 및 클린 스피치 신호(clean speech signal)들을 포함하는 복수의 트레이닝 신호들의 사용을 포함할 수 있다. 노이즈 및 클린 스피치 신호들은 다양한 신호-대-노이즈 비율로 혼합되어, 노이지 스피치 신호들을 생성할 수 있다.
음성 활동 검출기의 트레이닝은 노이지 스피치 신호들을 처리하여 그것으로부터 복수의 VAD 특징을 결정하거나 계산하는 것을 포함할 수 있다. 본 명세서에서 전술한 것과 같은 실행 중 범위 정규화 프로세스는 정규화된 VAD 특징들을 제공하기 위해 VAD 특징들에 적용될 수 있다.
별도로, 클린 스피치를 위해 최적화되는 음성 활동 검출기는 복수의 노이지 오디오 신호들에 대응하는 복수의 클린 오디오 신호들에 적용될 수 있다. 클린 스피치를 위해 최적화되는 음성 활동 검출기로 클린 오디오 신호들을 처리함으로써, VAD 특징들에 대한 실측 자료 데이터(ground truth data)가 획득될 수 있다.
그런 다음, 노이지 오디오 신호들로부터 유도되는 정규화된 VAD 특징들 및 실측 자료 데이터는 신경망을 트레이닝하는 데 사용될 수 있으므로, 신경망은 정규화된 VAD 특징들의 유사한 세트를 대응하는 실측 자료 데이터와 연관시키는 것을 "배울" 수 있다.
도 4를 참조하면, 음성 활동 검출기를 트레이닝하는 방법(400)의 실시예가 도시된다. VAD를 트레이닝하는 방법(400)은 주어진 신호-대-노이즈 비율들을 갖는 "노이지 스피치"의 예시들을 생성하기 위해 클린 스피치 데이터(402)를 노이즈 데이터(404)와 혼합하는 단계를 포함할 수 있다(단계(406)). 각각의 노이지 스피치 신호는 ("VAD 특징들 계산"에서) 각 시간 프레임에 대해 하나 이상의 VAD 특징들을 결정하거나 계산하도록 평가될 수 있다(단계(408)). 가장 최근의 시간 프레임으로부터의 VAD 특징(들), 및 선택적으로 하나 이상의 이전 시간 프레임들로부터 유도되는 특징 정보를 사용하여, 실행 중 범위 정규화 프로세스가 이 VAD 특징들에 대해 수행될 수 있다("실행 중 범위 정규화"에서)(단계(410)). 실행 중 범위 정규화 프로세스는 각 시간 프레임에 대한 특징 하한 추정 및 특징 상한 추정을 계산하는 것을 포함할 수 있다. 특징 하한 추정과 특징 상한 추정 사이의 범위를 원하는 타겟 범위에 매핑함으로써, 대응하는 VAD 특징에 대한 파라미터들이 복수의 시간 프레임에 걸쳐, 또는 시간 경과에 따라 정규화될 수 있다("정규화된 VAD 특징들")(단계(412)).
"실측 자료 VAD 데이터"는 클린 스피치 데이터의 핸드 마킹(hand-marking)에 의해 획득될 수 있거나, 노이지 스피치 및 VAD 특징들을 유도해낸 동일한 클린 스피치 데이터를 입력으로 하는 종래의 VAD로부터 획득될 수 있다(단계(414)). 그런 다음, 신경망은 정규화된 VAD 특징들 및 실측 자료 VAD 데이터를 사용하여 트레이닝되므로, 신경망은 정규화된 VAD 특징들의 특정 조합들 및/또는 시퀀스들이 특정 유형의 실측 자료 VAD 데이터에 대응한다는 사실로부터 외삽(extrapolate)할("배울") 수 있다(단계(416)).
일단 음성 활동 검출기가 트레이닝되면, 트레이닝된 음성 활동 검출기의 최적화되고 정규화된 VAD 특징들뿐만 아니라, 트레이닝된 음성 활동 검출기가 검사될 수 있다. 도 5는 음성 활동 검출기를 검사하는 방법(500)의 실시예의 프로세스 흐름을 도시한다. 트레이닝되는 음성 활동 검출기의 검사는 다양한 신호-대-노이즈 비율들로 함께 혼합되어 노이지 스피치 신호들을 생성할 수 있는 클린 스피치 데이터(502)(예를 들어, 추가적인 트레이닝 신호들) 및 노이즈 데이터(504)의 하나 이상의 추가적인 세트를 이용할 수 있다(단계(506)). 각각의 시간 프레임에서, VAD 특징들의 세트는 노이지 스피치로부터 계산되고(단계(508)), 실행 중 범위 정규화 프로세스는 대응하는 정규화된 VAD 특징들의 세트를 생성하는 데 사용된다(단계(210)). 이러한 정규화된 VAD 특징들은 신경망에 적용된다(단계(512)). 신경망은 선택적으로 평활화되거나, 양자화되거나, 임계화되거나, 또는 다른 방식으로 후처리될 수 있는 VAD 추정을 생성하도록 구성되고 트레이닝된다(단계(514)). 별도로, 클린 스피치 데이터는 클린 스피치를 위해 최적화된 VAD에 적용되어(단계(516)), 실측 자료 VAD 데이터(518)의 세트를 생성하고, 이것은 선택적으로 평활화되거나, 양자화되거나, 임계화되거나, 또는 다른 방식으로 후처리될 수 있다(단계(520)). 신경망으로부터의 (선택적으로 후처리되는) VAD 추정들 및 (선택적으로 후처리되는) 실측 자료 VAD 데이터는 "정밀도(precision)" 및 "리콜(recall)"과 같은 정확도 측정들을 계산하는 프로세스에 적용될 수 있어서, 이는 개발자들이 최고의 성능을 위해 알고리즘을 미세 조정(fine-tune)하도록 허용한다(단계(522)).
본 발명의 실시예들은 또한 디지털 데이터를 분석하기 위한 컴퓨터 프로그램 제품들로 확장될 수 있다. 이러한 컴퓨터 프로그램 제품들은 디지털 데이터를 분석하기 위한 방법들을 수행하기 위해 컴퓨터 프로세서(computer processor)들 상에서 컴퓨터 실행 가능 명령어들을 실행하기 위해 의도될 수 있다. 이러한 컴퓨터 프로그램 제품들은 컴퓨터 실행 가능 명령어들이 인코딩된(encoded) 컴퓨터 판독 가능 매체들을 포함할 수 있으며, 이 컴퓨터 실행 가능 명령어들은 적절한 컴퓨터 환경들 내의 적절한 프로세서들 상에서 실행될 때, 본 명세서에서 더 설명된 바와 같이 디지털 데이터를 분석하는 방법을 수행한다.
본 발명의 실시예들은, 이하에서 더 자세히 논의되는 바와 같이, 예를 들어, 하나 이상의 컴퓨터 프로세서들 및 데이터 스토리지(data storage) 또는 시스템 메모리와 같은 컴퓨터 하드웨어를 포함하는 특수 목적 또는 범용 컴퓨터를 포함하거나 이용할 수 있다. 본 발명의 범위 내의 실시예들은 또한 컴퓨터 실행 가능 명령어들 및/또는 데이터 구조들을 운반(carrying)하거나 저장하기 위한 물리적 및 다른 컴퓨터 판독 가능 매체들을 포함한다. 이러한 컴퓨터 판독 가능 매체들은 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스될 수 있는 임의의 사용 가능한 매체들일 수 있다. 컴퓨터 실행 가능 명령어들을 저장하는 컴퓨터 판독 가능 매체들은 컴퓨터 스토리지 매체들이다. 컴퓨터 실행 가능 명령어들을 운반하는 컴퓨터 판독 가능 매체들은 전송 매체들이다. 따라서, 제한이 아닌 예시로서, 본 발명의 실시예들은 적어도 두 개의 뚜렷하게 상이한 종류의 컴퓨터 판독 가능 매체들, 즉 컴퓨터 스토리지 매체들 및 전송 매체들을 포함할 수 있다.
컴퓨터 스토리지 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 컴퓨터 실행 가능 명령어들 또는 데이터 구조들의 형태로 원하는 프로그램 코드 수단을 저장하는 데 사용될 수 있고, 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 다른 물리적 매체를 포함한다.
"네트워크"는 컴퓨터 시스템 및/또는 모듈들 및/또는 다른 전자 디바이스들 사이에서 전자 데이터의 전송을 가능하게 하는 하나 이상의 데이터 링크(data link)들로서 정의된다. 정보가 네트워크 또는 다른 통신 연결(하드와이어드(hardwired), 무선, 또는 하드와이어드 또는 무선의 조합)을 통해 컴퓨터에 전송되거나 제공될 때, 컴퓨터는 그 연결을 전송 매체로 적절하게 간주한다. 전송 매체들은 범용 또는 특수 목적 컴퓨터에 의해 수신되거나 액세스될 수 있는 컴퓨터 실행 가능 명령어들 및/또는 데이터 구조들의 형태로 원하는 프로그램 코드 수단을 운반하거나 전송하는 데 사용될 수 있는 네트워크 및/또는 데이터 링크들을 포함할 수 있다. 상기의 조합들은 또한 컴퓨터 판독 가능 매체들의 범위 내에 포함되어야 한다.
나아가, 다양한 컴퓨터 시스템 구성 요소들에 도달할 때, 컴퓨터 실행 가능 명령어들 또는 데이터 구조들의 형태의 프로그램 코드 수단은 전송 매체들로부터 컴퓨터 스토리지 매체들(또는 그 반대)에 자동적으로 전송될 수 있다. 예를 들어, 네트워크 또는 데이터 링크를 통해 수신되는 컴퓨터 실행 가능 명령어들 또는 데이터 구조들은 네트워크 인터페이스 모듈(예를 들어, "NIC") 내의 RAM에 버퍼링될(buffered) 수 있고, 그런 다음, 결국 컴퓨터 시스템 RAM 및/또는 컴퓨터 시스템에서의 덜 휘발성인(less volatile) 컴퓨터 스토리지 매체들에 전송될 수 있다. 따라서, 컴퓨터 스토리지 매체들은 전송 매체들을 또한(또는 아마도 주로) 사용하는 컴퓨터 시스템 구성 요소들에 포함될 수 있다는 것을 이해하여야 한다.
컴퓨터 실행 가능 명령어들은, 예를 들어, 프로세서에서 실행될 때, 범용 컴퓨터, 특수 목적 컴퓨터, 또는 특수 목적 처리 디바이스가 특정 기능 또는 기능들의 그룹을 수행하게 하는 명령어들 및 데이터를 포함한다. 컴퓨터 실행 가능 명령어들은, 예를 들어, 프로세서 상에서 직접 실행될 수 있는 바이너리들, 또는 어셈블리 언어(assembly language)와 같은 중간 포맷 명령어(intermediate format instruction)들, 또는 특정 기계 또는 프로세서를 대상으로 하는 컴파일러(compiler)에 의한 컴파일(compilation)을 요구할 수 있는 훨씬 더 높은 레벨의 소스 코드일 수 있다. 요지가 구조적 특징들 및/또는 방법론적 동작들에 특정한 언어로 설명되었지만, 첨부되는 청구항들에서 정의되는 요지는 반드시 설명되는 특징들 또는 상술한 동작들로 제한되지 않는다는 점이 이해되어야 한다. 오히려, 설명되는 특징들 및 동작들은 청구항들을 구현하기 위한 예시적인 형태들로서 개시된다.
본 기술 분야의 통상의 기술자들은 본 발명이, 개인용 컴퓨터들, 데스크톱 컴퓨터들, 랩톱 컴퓨터들, 메시지 프로세서들, 핸드-헬드(hand-held) 디바이스들, 멀티-프로세서(multi-processor) 시스템, 마이크로프로세서-기반(microprocessor-based) 또는 프로그래머블(programmable) 소비자 가전 제품들, 네트워크 PC들, 미니컴퓨터(minicomputer)들, 메인프레임(mainframe) 컴퓨터들, 이동 전화들, PDA들, 호출기(pager)들, 라우터(router)들, 스위치들 등을 포함하는 많은 유형의 컴퓨터 시스템 구성들을 갖는 네트워크 컴퓨팅 환경들에서 실시될 수 있다는 것을 이해할 것이다. 본 발명은 네트워크를 통해 연결되는(하드와이어드 데이터 링크들에 의해, 무선 데이터 링크들에 의해, 또는 하드와이어드 및 무선 데이터 링크들의 조합에 의해) 로컬(local) 및 원격 컴퓨터 시스템들 둘 모두가 작업을 수행하는 분산된(distributed) 시스템 환경들에서도 실시될 수 있다. 분산된 시스템 환경에서, 프로그램 모듈들은 로컬 및 원격 메모리 스토리지 디바이스들 둘 모두에 위치될 수 있다.
도 6을 참조하면, 디지털 오디오 데이터를 분석하기 위한 예시적인 컴퓨터 아키텍처(600)가 도시된다. 본 명세서에서 컴퓨터 시스템(600)으로도 지칭되는 컴퓨터 아키텍처(600)는 하나 이상의 컴퓨터 프로세서들(602) 및 데이터 스토리지를 포함한다. 데이터 스토리지는 컴퓨팅 시스템(600) 내의 메모리(604)일 수 있고, 휘발성(volatile) 또는 비휘발성(non-volatile) 메모리일 수 있다. 컴퓨팅 시스템(600)은 또한 데이터 또는 다른 정보들의 디스플레이를 위한 디스플레이(612)를 포함할 수 있다. 컴퓨팅 시스템(600)은 컴퓨팅 시스템(600)이 예를 들어, (아마도 인터넷(610)과 같은) 네트워크를 통해 다른 컴퓨팅 시스템들, 디바이스들, 또는 데이터 소스들과 통신하도록 허용하는 통신 채널들(608)을 또한 포함할 수 있다. 컴퓨팅 시스템(600)은 디지털 또는 아날로그 데이터의 소스가 액세스되도록 허용하는 마이크로폰(606)과 같은 입력 디바이스를 또한 포함할 수 있다. 이러한 디지털 또는 아날로그 데이터는 예를 들어, 오디오 또는 비디오 데이터일 수 있다. 디지털 또는 아날로그 데이터는 라이브 마이크로폰(live microphone)으로부터 오는 것과 같은 실시간 스트리밍 데이터(streaming data)의 형태일 수 있거나, 또는 컴퓨팅 시스템(600)에 의해 직접 액세스 가능하거나 통신 채널들(608)을 통해 또는 인터넷(610)과 같은 네트워크를 통해 더 원격으로 액세스될 수 있는 데이터 스토리지(614)로부터 액세스되는 저장된 데이터일 수 있다.
통신 채널들(608)은 전송 매체들의 예시들이다. 전송 매체들은 통상적으로 반송파(carrier wave) 또는 다른 전송 메커니즘(transport mechanism)과 같은 변조되는 데이터 신호 내에 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들, 또는 다른 데이터를 구현하고 임의의 정보-전달 매체들을 포함한다. 제한이 아닌 예시로서, 전송 매체들은 유선 네트워크들 및 직접 유선 접속들(direct-wired connections)과 같은 유선 매체들, 및 음향, 라디오, 적외선, 및 다른 무선 매체들과 같은 무선 매체들을 포함한다. 본 명세서에서 사용되는 "컴퓨터 판독 가능 매체들"이라는 용어는 컴퓨터 스토리지 매체들 및 전송 매체들 둘 모두를 포함한다.
본 발명의 범위 내의 실시예들은 또한 저장된 컴퓨터 실행 가능 명령어들 또는 데이터 구조들을 운반하거나 보유하기 위해 컴퓨터 판독 가능 매체들을 포함한다. "컴퓨터 스토리지 매체들"로 불리는 이러한 물리적 컴퓨터 판독 가능 매체들은 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 사용 가능한 물리적 매체들일 수 있다. 제한이 아닌 예시로서, 이러한 컴퓨터 판독 가능 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 컴퓨터 실행 가능 명령어들 또는 데이터 구조들의 형태로 원하는 프로그램 코드 수단을 저장하는 데 사용될 수 있고, 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 다른 물리적 매체를 포함할 수 있다.
컴퓨터 시스템들은 예를 들어, LAN(Local Area Network), WAN(Wide Area Network), WWAN(Wireless Wide Area Network), 및 심지어 인터넷(110)과 같은 네트워크(또는 그 일부)를 통해 서로 접속될 수 있다. 그러므로, 임의의 다른 연결되는 컴퓨터 시스템들 및 그들의 구성 요소들뿐만 아니라 묘사되는 컴퓨터 시스템들 각각은 메시지 관련 데이터를 생성할 수 있고, 메시지 관련 데이터(예를 들어, IP(Internet Protocol) 데이터그램들, 및 TCP(Transmission Control Protocol), HTTP(Hypertext Transfer Protocol), SMTP(Simple Mail Transfer Protocol) 등과 같은 IP 데이터그램들을 이용하는 기타 상위 계층의 프로토콜들)를 네트워크를 통해 교환할 수 있다.
개시되는 요지의 다양한 양태들의 특징들 및 이점들뿐만 아니라, 다른 양태들은 상기 제공된 개시 내용, 첨부 도면들 및 첨부되는 청구항들의 고려를 통해 본 기술 분야의 통상의 기술자들에게 명백할 것이다.
전술한 개시 내용은 많은 세부 사항들을 제공하지만, 이들은 후술하는 청구항들 중 어느 하나의 범위를 제한하는 것으로 해석되어서는 안 된다. 청구항들의 범위를 벗어나지 않는 다른 실시예들이 고안될 수 있다. 상이한 실시예들로부터의 특징들이 조합되어 이용될 수 있다.
마지막으로, 본 발명은 다양한 예시적인 실시예들을 참조하여 상술되었지만, 본 발명의 범위를 벗어나지 않으면서, 실시예에 많은 변경들, 조합들 및 수정들이 이루어질 수 있다. 예를 들어, 본 발명은 스피치 검출에 사용하기 위해 설명되었지만, 본 발명의 양태들은 다른 오디오, 비디오, 데이터 검출 방식에 용이하게 적용될 수 있다. 나아가, 다양한 요소들, 구성 요소들, 및/또는 프로세스들은 대안적인 방식들로 구현될 수 있다. 이 대안들은 특정한 적용에 따라, 또는 방법들 또는 시스템의 구현 또는 동작과 연관된 임의의 수의 인자들을 고려하여 적절하게 선택될 수 있다. 추가적으로, 본 명세서에 설명되는 기술들은 다른 유형의 적용들 및 시스템들과 함께 사용하기 위해 확장되거나 수정될 수 있다. 이 다른 변경들 또는 수정들은 본 발명의 범위 내에 포함되도록 의도된다.

Claims (22)

  1. 오디오 신호(audio signal)로부터 정규화된 음성 활동 검출 특징들(normalized voice activity detection features)을 획득하는 방법으로서,
    컴퓨팅 시스템(computing system)에서, 오디오 신호를 시간 프레임들(time frames)의 시퀀스(sequence)로 분할(dividing)하는 단계;
    상기 시간 프레임들 각각에 대한 상기 오디오 신호의 하나 이상의 음성 활동 검출 특징을 계산(computing)하는 단계;
    상기 오디오 신호의 하나 이상의 음성 활동 검출 특징에 비대칭 지수 평균화(asymmetrical exponential averaging)를 적용함으로써, 상기 시간 프레임들 각각에 대한 상기 오디오 신호의 상기 하나 이상의 음성 활동 검출 특징의 최소 값 및 최대 값의 실행 중 추정들(running estimates)을 계산하는 단계;
    상기 시간 프레임들 각각에 대한 상기 오디오 신호의 상기 하나 이상의 음성 활동 검출 특징의 상기 최소 값 및 상기 최대 값의 상기 실행 중 추정들을 비교함으로써 상기 하나 이상의 음성 활동 검출 특징의 입력 범위들을 계산하는 단계; 및
    상기 시간 프레임들 각각에 대한 상기 오디오 신호의 상기 하나 이상의 음성 활동 검출 특징을 상기 입력 범위들로부터 하나 이상의 원하는 타겟 범위(target range)에 매핑(mapping)하여, 하나 이상의 정규화된 음성 활동 검출 특징을 획득하는 단계; 및
    평활화된(smoothed) 최소 값 추정들 및 평활화된 최대 값 추정들 중 하나의 점진적 변경(gradual change) 및 빠른 변경(rapid change) 중 하나를 생성하기 위해 선택되는 시간 상수(time constant)들에 대응하도록 평활화 계수(smoothing coefficient)들을 설정하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    발화된 음성 데이터(spoken voice data)를 나타내는 상기 오디오 신호의 상기 하나 이상의 특징들은 전대역(full-band) 에너지, 저대역(low-band) 에너지, 주(primary) 마이크로폰(microphone) 및 참조(reference) 마이크로폰에서 측정되는 에너지들의 비율들, 분산 값들, 스펙트럼 중심 비율(spectral centroid ratio)들, 스펙트럼 분산, 스펙트럼 차이들의 분산, 스펙트럼 평탄도(spectral flatness), 및 제로-크로싱 율(zero crossing rate) 중 하나 이상을 포함하는, 방법.
  3. 제1항에 있어서,
    상기 하나 이상의 정규화된 음성 활동 검출 특징은 발화된 음성 데이터의 우도(likelihood)의 추정을 생성하기 위해 사용되는, 방법.
  4. 제1항에 있어서,
    상기 하나 이상의 정규화된 음성 활동 검출 특징을 기계 학습 알고리즘(machine learning algorithm)에 적용하여, 바이너리 스피치/비-스피치 지정(binary speech/non-speech designation) 및 스피치 활동의 우도 중 적어도 하나를 나타내는 음성 활동 검출 추정을 생성하는 단계를 더 포함하는 방법.
  5. 제4항에 있어서,
    상기 음성 활동 검출 추정을 사용하여 하나 이상의 적응형 필터(adaptive filter)들의 적응 레이트(adaptation rate)를 제어하는 단계를 더 포함하는 방법.
  6. 제1항에 있어서,
    상기 시간 프레임들은 상기 시간 프레임들의 시퀀스 내에서 중첩(overlapping)하는, 방법.
  7. 제1항에 있어서,
    평활화(smoothing), 양자화(quantizing), 및 임계화(thresholding) 중 적어도 하나를 포함하여, 상기 하나 이상의 정규화된 음성 활동 검출 특징을 후처리(post-processing)하는 단계를 더 포함하는 방법.
  8. 제1항에 있어서,
    상기 하나 이상의 정규화된 음성 활동 검출 특징은 노이즈(noise) 감소, 적응 필터링(adaptive filtering), 전력 레벨(power level) 차이 계산, 및 비-스피치 프레임들의 감쇠(attenuation) 중 하나 이상에 의해 상기 오디오 신호를 향상시키기 위해 사용되는, 방법.
  9. 제1항에 있어서,
    비-음성 데이터가 실질적으로 없는 발화된 음성 데이터를 포함하는 선명화된 오디오 신호(clarified audio signal)를 생성하는 단계를 더 포함하는 방법.
  10. 제1항에 있어서,
    상기 하나 이상의 정규화된 음성 활동 검출 특징은 스피치를 검출하기 위한 기계 학습 알고리즘을 트레이닝(train)하기 위해 사용되는, 방법.
  11. 삭제
  12. 삭제
  13. 제1항에 있어서,
    상기 평활화 계수들은, 최대 값 추정의 연속적인 업데이트(updating)가 더 높은 음성 활동 검출 특징 값들에 빠르게 응답하고, 더 낮은 음성 활동 검출 특징 값들에 대한 응답으로는 더 느리게 감소(decay)하도록 선택되는, 방법.
  14. 제1항에 있어서,
    상기 평활화 계수들은, 최소 값 추정의 연속적인 업데이트가 더 낮은 음성 활동 검출 특징 값들에 빠르게 응답하고, 더 높은 음성 활동 검출 특징 값들에 대한 응답으로는 느리게 증가하도록 선택되는, 방법.
  15. 제1항에 있어서,
    상기 매핑은
    normalizedFeatureValue = 2 × (newFeatureValue - featureFloor) / (featureCeiling - featureFloor) - 1
    의 수학식에 따라 수행되는, 방법.
  16. 제1항에 있어서,
    상기 매핑은
    normalizedFeatureValue = (newFeatureValue - featureFloor) / (featureCeiling - featureFloor)
    의 수학식에 따라 수행되는, 방법.
  17. 제1항에 있어서,
    상기 하나 이상의 음성 활동 검출 특징의 입력 범위들을 계산하는 단계는 상기 최대 값들의 상기 실행 중 추정들로부터 상기 최소 값들의 상기 실행 중 추정들을 감산(subtracting)함으로써 수행되는, 방법.
  18. 음성 활동 검출 특징들을 정규화(normalizing)하는 방법으로서,
    오디오 신호를 시간 프레임들의 시퀀스로 세그먼트화(segmenting)하는 단계;
    실행 중 최소 값 및 최대 값 중 적어도 하나에 대한 방향적으로 편향되는 변화율(directionally-biased rate of change)을 설정하기 위해 평활화 계수들을 선택함으로써, 음성 활동 검출 특징들에 대한 실행 중 최소 값 추정 및 최대 값 추정을 계산하는 단계;
    상기 실행 중 최소 값 추정 및 최대 값 추정을 비교함으로써 입력 범위들을 계산하는 단계; 및
    상기 음성 활동 검출 특징들을 상기 입력 범위들로부터 하나 이상의 원하는 타겟 범위들에 매핑함으로써 상기 음성 활동 검출 특징들을 정규화하는 단계
    를 포함하는 방법.
  19. 삭제
  20. 제18항에 있어서,
    상기 평활화 계수들은, 상기 실행 중 최대 값 추정이 더 높은 최대 값들에 더 빠르게 응답하고, 더 낮은 최대 값들에 더 느리게 응답하도록 선택되는, 방법.
  21. 제18항에 있어서,
    상기 평활화 계수들은, 상기 실행 중 최소 값 추정이 더 낮은 최소 값들에 더 빠르게 응답하고, 더 높은 최소 값들에 더 느리게 응답하도록 선택되는, 방법.
  22. 오디오 신호 내의 음성 데이터를 식별하는 방법을 수행하기 위한 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능 매체(computer-readable medium)로서,
    컴퓨터 스토리지 매체들(computer storage media); 및
    상기 컴퓨터 스토리지 매체들 상에 저장되는 컴퓨터 실행 가능 명령어들(computer-executable instructions)
    을 포함하고, 상기 컴퓨터 실행 가능 명령어들은, 컴퓨팅 시스템에 의해 실행될 때, 상기 컴퓨팅 시스템이
    복수의 음성 활동 검출 특징들을 계산하고;
    실행 중 최소 값 및 최대 값 중 적어도 하나에 대한 방향적으로 편향되는 변화율(directionally-biased rate of change)을 설정하기 위해 평활화 계수들을 선택함으로써, 상기 음성 활동 검출 특징들의 최소 값 및 최대 값의 실행 중 추정들을 계산하고;
    상기 최소 값 및 상기 최대 값의 상기 실행 중 추정들을 비교함으로써 상기 음성 활동 검출 특징들의 입력 범위들을 계산하고;
    상기 음성 활동 검출 특징들을 상기 입력 범위들로부터 하나 이상의 원하는 타겟 범위에 매핑하여 정규화된 음성 활동 검출 특징들을 획득하게 하도록 구성되는, 컴퓨터 판독 가능 매체.
KR1020177011018A 2014-09-26 2015-09-26 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출 KR102410392B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462056045P 2014-09-26 2014-09-26
US62/056,045 2014-09-26
US14/866,824 US9953661B2 (en) 2014-09-26 2015-09-25 Neural network voice activity detection employing running range normalization
US14/866,824 2015-09-25
PCT/US2015/052519 WO2016049611A1 (en) 2014-09-26 2015-09-26 Neural network voice activity detection employing running range normalization

Publications (2)

Publication Number Publication Date
KR20170060108A KR20170060108A (ko) 2017-05-31
KR102410392B1 true KR102410392B1 (ko) 2022-06-16

Family

ID=55582142

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177011018A KR102410392B1 (ko) 2014-09-26 2015-09-26 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출

Country Status (6)

Country Link
US (2) US9953661B2 (ko)
EP (1) EP3198592A4 (ko)
JP (1) JP6694426B2 (ko)
KR (1) KR102410392B1 (ko)
CN (1) CN107004409B (ko)
WO (1) WO2016049611A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972752B2 (en) 2022-09-02 2024-04-30 Actionpower Corp. Method for detecting speech segment from audio considering length of speech segment

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US9978397B2 (en) * 2015-12-22 2018-05-22 Intel Corporation Wearer voice activity detection
US10880833B2 (en) * 2016-04-25 2020-12-29 Sensory, Incorporated Smart listening modes supporting quasi always-on listening
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
KR101893789B1 (ko) * 2016-10-27 2018-10-04 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
EP3373208A1 (en) * 2017-03-08 2018-09-12 Nxp B.V. Method and system for facilitating reliable pattern detection
US10224053B2 (en) * 2017-03-24 2019-03-05 Hyundai Motor Company Audio signal quality enhancement based on quantitative SNR analysis and adaptive Wiener filtering
KR20180111271A (ko) 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
US11501154B2 (en) 2017-05-17 2022-11-15 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
US10929754B2 (en) * 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
CN110998723B (zh) * 2017-08-04 2023-06-27 日本电信电话株式会社 使用神经网络的信号处理装置及信号处理方法、记录介质
KR102014384B1 (ko) 2017-08-17 2019-08-26 국방과학연구소 보코더 유형 판별 장치 및 방법
US10504539B2 (en) * 2017-12-05 2019-12-10 Synaptics Incorporated Voice activity detection systems and methods
AU2019287569A1 (en) 2018-06-14 2021-02-04 Pindrop Security, Inc. Deep neural network based speech enhancement
US10460749B1 (en) * 2018-06-28 2019-10-29 Nuvoton Technology Corporation Voice activity detection using vocal tract area information
KR101992955B1 (ko) * 2018-08-24 2019-06-25 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
US11527265B2 (en) 2018-11-02 2022-12-13 BriefCam Ltd. Method and system for automatic object-aware video or audio redaction
JP7407580B2 (ja) 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
JP2020115206A (ja) * 2019-01-07 2020-07-30 シナプティクス インコーポレイテッド システム及び方法
KR102237286B1 (ko) * 2019-03-12 2021-04-07 울산과학기술원 음성 구간 검출장치 및 그 방법
TWI759591B (zh) * 2019-04-01 2022-04-01 威聯通科技股份有限公司 語音增強方法及系統
EP3948854B1 (en) * 2019-04-16 2024-01-31 Google LLC Joint endpointing and automatic speech recognition
KR102271357B1 (ko) 2019-06-28 2021-07-01 국방과학연구소 보코더 유형 판별 방법 및 장치
KR20210010133A (ko) 2019-07-19 2021-01-27 삼성전자주식회사 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들
WO2021021038A1 (en) 2019-07-30 2021-02-04 Aselsan Elektroni̇k Sanayi̇ Ve Ti̇caret Anoni̇m Şi̇rketi̇ Multi-channel acoustic event detection and classification method
KR20210017252A (ko) 2019-08-07 2021-02-17 삼성전자주식회사 다채널 오디오 신호 처리 방법 및 전자 장치
US11823706B1 (en) * 2019-10-14 2023-11-21 Meta Platforms, Inc. Voice activity detection in audio signal
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
TR202021840A1 (tr) * 2020-12-26 2022-07-21 Cankaya Ueniversitesi Konuşma sinyali aktivite bölgelerinin belirlenmesini sağlayan yöntem.
CN113192536B (zh) * 2021-04-28 2023-07-28 北京达佳互联信息技术有限公司 语音质量检测模型的训练方法、语音质量检测方法及装置
CN113470621B (zh) * 2021-08-23 2023-10-24 杭州网易智企科技有限公司 语音检测方法、装置、介质及电子设备
US11823707B2 (en) 2022-01-10 2023-11-21 Synaptics Incorporated Sensitivity mode for an audio spotting system
KR20240055337A (ko) 2022-10-20 2024-04-29 주식회사 이엠텍 복수의 음향 환경들을 고려하는 음향 신호 처리 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125490A1 (en) 2008-10-24 2011-05-26 Satoru Furuta Noise suppressor and voice decoder
US20120130713A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3604393B2 (ja) * 1994-07-18 2004-12-22 松下電器産業株式会社 音声検出装置
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6249757B1 (en) * 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
IT1315917B1 (it) * 2000-05-10 2003-03-26 Multimedia Technologies Inst M Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati.
US20020123308A1 (en) * 2001-01-09 2002-09-05 Feltstrom Alberto Jimenez Suppression of periodic interference in a communications system
CN1181466C (zh) * 2001-12-17 2004-12-22 中国科学院自动化研究所 基于子带能量和特征检测技术的语音信号端点检测方法
GB2384670B (en) * 2002-01-24 2004-02-18 Motorola Inc Voice activity detector and validator for noisy environments
CA2420129A1 (en) * 2003-02-17 2004-08-17 Catena Networks, Canada, Inc. A method for robustly detecting voice activity
CN101228577B (zh) 2004-01-12 2011-11-23 语音信号技术公司 自动化语音识别通道归一化方法及系统
US7873114B2 (en) 2007-03-29 2011-01-18 Motorola Mobility, Inc. Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
BRPI0814241B1 (pt) * 2007-07-13 2020-12-01 Dolby Laboratories Licensing Corporation método e aparelho para suavizar um nível em função do tempo de um sinal e memória legível por computador
CN101802910B (zh) * 2007-09-12 2012-11-07 杜比实验室特许公司 利用话音清晰性的语音增强
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8340405B2 (en) * 2009-01-13 2012-12-25 Fuji Xerox Co., Ltd. Systems and methods for scalable media categorization
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
EP2491548A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
US10218327B2 (en) 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
EP2673777B1 (en) * 2011-02-10 2018-12-26 Dolby Laboratories Licensing Corporation Combined suppression of noise and out-of-location signals
US9286907B2 (en) * 2011-11-23 2016-03-15 Creative Technology Ltd Smart rejecter for keyboard click noise
US9384759B2 (en) * 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
CN103325386B (zh) * 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
EP2848007B1 (en) * 2012-10-15 2021-03-17 MH Acoustics, LLC Noise-reducing directional microphone array
KR101716646B1 (ko) * 2013-01-10 2017-03-15 한국전자통신연구원 국부이진패턴을 이용한 객체 검출 인식 방법 및 장치
CN103345923B (zh) * 2013-07-26 2016-05-11 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN104424956B9 (zh) * 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
US9454975B2 (en) * 2013-11-07 2016-09-27 Nvidia Corporation Voice trigger
CN103578466B (zh) * 2013-11-11 2016-02-10 清华大学 基于分数阶傅里叶变换的语音非语音检测方法
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8223988B2 (en) 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
US20110125490A1 (en) 2008-10-24 2011-05-26 Satoru Furuta Noise suppressor and voice decoder
US20120130713A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972752B2 (en) 2022-09-02 2024-04-30 Actionpower Corp. Method for detecting speech segment from audio considering length of speech segment

Also Published As

Publication number Publication date
CN107004409B (zh) 2021-01-29
JP2017530409A (ja) 2017-10-12
WO2016049611A1 (en) 2016-03-31
CN107004409A (zh) 2017-08-01
JP6694426B2 (ja) 2020-05-13
EP3198592A1 (en) 2017-08-02
US20180240472A1 (en) 2018-08-23
KR20170060108A (ko) 2017-05-31
US9953661B2 (en) 2018-04-24
EP3198592A4 (en) 2018-05-16
US20160093313A1 (en) 2016-03-31

Similar Documents

Publication Publication Date Title
KR102410392B1 (ko) 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
US10504539B2 (en) Voice activity detection systems and methods
US10127919B2 (en) Determining noise and sound power level differences between primary and reference channels
US20160284346A1 (en) Deep neural net based filter prediction for audio event classification and extraction
Shivakumar et al. Perception optimized deep denoising autoencoders for speech enhancement.
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
US20110238417A1 (en) Speech detection apparatus
EP3807878B1 (en) Deep neural network based speech enhancement
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
EP2774147B1 (en) Audio signal noise attenuation
EP2745293B1 (en) Signal noise attenuation
US10332541B2 (en) Determining noise and sound power level differences between primary and reference channels
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
Dov et al. Voice activity detection in presence of transients using the scattering transform
KR101124712B1 (ko) 비음수 행렬 인수분해 기반의 음성 검출 방법
JP5147012B2 (ja) 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体
Kammi et al. A Bayesian approach for single channel speech separation
Wang The Study of Automobile-Used Voice-Activity Detection System Based on Two-Dimensional Long-Time and Short-Frequency Spectral Entropy
Abu-El-Quran et al. Multiengine Speech Processing Using SNR Estimator in Variable Noisy Environments

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant