KR20200009035A - 상관 기반 근접장 검출기 - Google Patents

상관 기반 근접장 검출기 Download PDF

Info

Publication number
KR20200009035A
KR20200009035A KR1020197036715A KR20197036715A KR20200009035A KR 20200009035 A KR20200009035 A KR 20200009035A KR 1020197036715 A KR1020197036715 A KR 1020197036715A KR 20197036715 A KR20197036715 A KR 20197036715A KR 20200009035 A KR20200009035 A KR 20200009035A
Authority
KR
South Korea
Prior art keywords
statistics
near field
microphone
correlation
normalized
Prior art date
Application number
KR1020197036715A
Other languages
English (en)
Other versions
KR102352927B1 (ko
Inventor
사무엘 피. 에베네젤
Original Assignee
시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시러스 로직 인터내셔널 세미컨덕터 리미티드 filed Critical 시러스 로직 인터내셔널 세미컨덕터 리미티드
Publication of KR20200009035A publication Critical patent/KR20200009035A/ko
Application granted granted Critical
Publication of KR102352927B1 publication Critical patent/KR102352927B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/805Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Abstract

본 개시의 실시예들에 따라, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법은 제 1 마이크로폰 신호와 제 2 마이크로폰 신호 사이의 정규화된 상호 상관 함수를 계산하는 단계, 제 1 마이크로폰 신호와 제 2 마이크로폰 신호의 각각의 정규화된 자기 상관 함수들을 계산하는 단계, 정규화된 상호 상관 함수 및 정규화된 자기 상관 함수들을 복수의 타임 래그 영역들로 분할하는 단계; 복수의 타임 래그 영역들의 각각의 개개의 타임 래그 영역에 대하여 각각의 타임 래그 영역 내에서 정규화된 상호 상관 함수와 정규화된 자기 상관 함수 사이의 개개의 최대 편차를 계산하는 단계; 다수의 검출 통계값들을 도출하기 위해 복수의 타임 래그 영역들로부터 개개의 최대 편차들을 조합하는 단계; 및 근접장 신호를 검출하기 위해 다수의 검출 통계값들의 각각의 검출 통계값을 개개의 임계값과 비교하는 단계를 포함할 수 있다.

Description

상관 기반 근접장 검출기
본 개시의 전형적인 실시예들의 분야는 오디오 디바이스에서 음성 애플리케이션들에 연관되거나 관련된 방법들, 장치들, 및 구현들에 관한 것이다. 애플리케이션들은 음성 활성 검출기에서 근접장 이벤트들의 검출을 포함한다.
스피치 활성 검출 또는 스피치 검출이라고도 알려진 음성 활성 검출(voice activity detection; VAD)은 인간 스피치의 존재 또는 부재가 검출되는 스피치 처리에서 사용된 기술이다. VAD는 잡음 억압기들(noise suppressors), 배경 잡음 추정기들, 적응형 빔포머들, 동적 빔 스티어링, 올웨이즈-온 음성 검출(always-on voice detection), 및 대화 기반 재생 관리를 포함하는 다양한 애플리케이션들에서 사용될 수 있다. 근접장 스피치 검출은 웨어러블 디바이스들에서 사용되는 다수의 음성 기반 신호 처리 알고리즘들에서 중요한 요소이다. 공간 제한들에 의해, 웨어러블 디바이스들에서 마이크로폰 간격은 일반적으로 작고, 종래의 근접장 검출 알고리즘들은 이러한 마이크로폰 어레이들에 대해 잘 작동하지 않을 수 있다. 더욱이, 웨어러블 애플리케이션들에서 저전력 제한들에 의해, 신경망 기반 분류 방법들(neural network-based classification methods)과 같은 계산적으로 값비싼 알고리즘들의 사용은 금지된다.
다수의 스피치 향상 또는 잡음 감소 알고리즘들에서, 요구된 성능을 달성하기 위해 간섭 신호들의 존재시 원하는 스피치 신호들을 검출하는 것이 종종 필요하다. 간섭 신호들은 고정된 브라운 잡음(brown noise) 또는 로드 잡음들 내지 펍 또는 레스토랑 환경들에 존재하는 왁자지껄한 소리/경합하는 대화자 잡음과 같은 동적 신호들의 범위에 있을 수 있다. 종래의 음성 활성 검출기들은 스피치형 간섭 신호들로부터 원하는 스피치 신호들을 구별할 수 없다. 종래 방식들에서 음성 기반 신호 처리 알고리즘들은 일반적으로 다양한 간섭 잡음 형태들의 존재시 원하는 스피치 신호들을 검출하기 위해 마이크로폰 어레이들을 사용하여 도출된 공간 통계값들에 의존한다. 이러한 종래의 공간 처리 기반 검출기들은 큰 마이크로폰 간격(35 - 150 ㎜)을 가지는 핸드셋 및 헤드셋 디바이스들에서 성공적으로 사용되어왔다. 그러나, 이들 검출기들의 성능은 마이크로폰 간격이 감소될 때 열화하는 경향이 있다. 공간 제한들에 의해, 더 신규의 디바이스들에서, 마이크로폰들은 웨어러블 디바이스들에서 밀접하게 배치될 수 있고, 밀접하게 배치된 마이크로폰 어레이에 의해 제공된 공간 다이버시티 정보는 간격이 감소됨에 따라 열화할 수 있다.
본 개시의 교시들에 따라, 근접장 검출에 대한 기존 방식들과 연관된 하나 이상의 불리한 점들 및 문제들은 감소되거나 제거될 수 있다.
본 개시의 실시예들에 따라, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법은 제 1 마이크로폰 신호와 제 2 마이크로폰 신호 사이의 정규화된 상호 상관 함수를 계산하는 단계, 제 1 마이크로폰 신호 및 제 2 마이크로폰 신호의 각각의 정규화된 자기 상관 함수들(normalized auto correlation functions)을 계산하는 단계, 정규화된 상호 상관 함수 및 정규화된 자기 상관 함수들을 복수의 타임 래그 영역들(time lag regions)로 분할하는 단계, 복수의 타임 래그 영역들의 각각의 개개의 타임 래그 영역에 대하여, 각각의 타임 래그 영역 내에서 정규화된 상호 상관 함수와 정규화된 자기 상관 함수 사이의 각각의 최대 편차를 계산하는 단계, 다수의 검출 통계값들을 도출하기 위해 복수의 타임 래그 영역들로부터 각각의 최대 편차들을 조합하는 단계, 및 근접장 신호를 검출하기 위해 다수의 검출 통계값들의 각각의 검출 통계값을 각각의 임계값과 비교하는 단계를 포함할 수 있다.
본 개시의 이들 및 다른 실시예들에 따라, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로는 오디오 디바이스의 적어도 하나의 트랜스듀서로의 통신을 위해 오디오 출력 신호를 생성함으로써 오디오 정보를 재생하도록 구성된 오디오 출력, 제 1 마이크로폰 신호를 수신하도록 구성된 제 1 마이크로폰 입력, 제 2 마이크로폰 신호를 수신하도록 구성된 제 2 마이크로폰 입력, 및 근접장 검출기를 구현하도록 구성된 프로세서로서, 제 1 마이크로폰 신호와 제 2 마이크로폰 신호 사이의 정규화된 상호 상관 함수를 계산하고, 제 1 마이크로폰 신호 및 제 2 마이크로폰 신호의 각각의 정규화된 자기 상관 함수들을 계산하고, 정규화된 상호 상관 함수 및 정규화된 자기 상관 함수들을 복수의 타임 래그 영역들로 분할하고, 복수의 타임 래그 영역들의 각각의 개별적인 타임 래그 영역에 대하여 각각의 타임 래그 영역 내에서 정규화된 상호 상관 함수와 정규화된 자기 상관 함수 사이의 각각의 최대 편차를 계산하고, 다수의 검출 통계값들을 도출하기 위해 복수의 타임 래그 영역들로부터 각각의 최대 편차들을 조합하고, 근접장 신호를 검출하기 위해 다수의 검출 통계값들의 각각의 검출 통계값을 각각의 임계값과 비교하도록 구성된, 프로세서를 포함할 수 있다.
본 개시의 기술적인 이점들은 명세서에 포함된 도면들, 상세한 설명, 및 청구항들로부터 당업자에게 쉽게 명백할 수 있다. 실시예들의 목적들 및 이점들은 적어도 청구항들에 특별히 지시된 요소들, 피처들, 및 조합들에 의해 실현되고 달성될 것이다.
전술된 일반적인 설명 및 다음의 상세한 설명은 예들이고 설명하기 위한 것이고, 본 개시에서 진술된 청구항들을 제한하는 것이 아님이 이해될 것이다.
예시, 본 실시예들, 및 그의 특정한 이점들의 더 완전한 이해는 첨부하는 도면들과 함께 취해진 다음의 설명을 참조함으로써 획득될 수 있고, 유사한 참조 번호들은 유사한 특징들을 나타낸다.
도 1은 다양한 검출기들이 본 개시의 실시예들에 따라 사용자 경험을 향상시키기 위해 재생 관리 시스템과 함께 사용될 수 있는 사용 경우 시나리오의 일 예를 도시하는 도면.
도 2는 본 개시의 실시예들에 따른 예시 재생 관리 시스템을 도시하는 도면.
도 3은 본 개시의 실시예들에 따른 예시 스티어링 응답 전력 기반 빔스티어링 시스템을 도시하는 도면.
도 4는 본 개시의 실시예들에 따른 예시 적응형 빔포머를 도시하는 도면.
도 5는 본 개시의 실시예들에 따른 근접장 검출기를 포함하는 오디오 디바이스의 선택된 구성 요소들의 블록도.
도 6은 본 개시의 실시예들에 따라 잡음의 상이한 소스들에 대해 예시 장기간 평탄도 측정값들을 도시하는 그래프를 도시하는 도면.
도 7은 본 개시의 실시예들에 따라 25 밀리미터 간격에서 마이크로폰 어레이에 대하여 최대 정규화된 상관 통계값의 예시 판별을 도시하는 그래프들.
도 8은 본 개시의 실시예들에 따라 지향성 근접장 스피치 소스에 대해 예시 자기 상관 및 상호 상관 시퀀스를 도시하는 그래프.
도 9는 본 개시의 실시예들에 따라 분산된 잡음 필드에 대한 예시 자기 상관 및 상호 상관 시퀀스를 도시하는 그래프.
도 10은 본 개시의 실시예들에 따라 상관 비유사성 측정값(correlation dissimilarity measure)을 계산하기 위해 사용된 예시적인 관심 영역을 도시하는 그래프.
도 11은 본 개시의 실시예들에 따라 전파 손실 효과들을 고려함으로써 계산된 변경된 정규화된 자기 상관에서 전파 손실의 예시적인 효과들을 도시하는 그래프.
도 12는 본 개시의 실시예들에 따라 펍 잡음에 의해 손상된 잡음 근접장 스피치에 대한 전파 손실을 가지는 비유사성 측정 통계값의 예를 도시하는 그래프들.
도 13은 본 개시의 실시예들에 따라 배경 잡음의 존재시 브로드사이드 방향으로부터 도달하는 근접장 스피치에 대한 브로드사이드 통계값의 예를 도시하는 그래프들.
도 14는 본 개시의 실시예들에 따라 지향성 배경 잡음 소스가 존재할 때 상관 비유사성 측정값으로부터 바이어스를 제거하는 예시적인 효과들을 도시하는 그래프들.
도 15는 본 개시의 실시예들에 따라 공간적으로 비상관된 잡음에 대하여 자기 상관 및 상호 상관 시퀀스 사이의 예시적인 차이를 도시하는 그래프들.
도 16은 본 개시의 실시예들에 따라 실제 기록으로부터 추출된 예시 비상관된 잡음 통계값들을 도시하는 그래프들.
도 17은 본 개시의 실시예들에 따라, 근접장 검출 블록이, 근접장 스피치가 음의 방향으로부터 존재하는지를 검출하도록 수행할 수 있는 비교들을 도시하는 플로차트.
도 18은 본 개시의 실시예들에 따라, 근접장 검출 블록이, 근접장 스피치가 양의 방향으로부터 존재하는지를 검출하도록 수행할 수 있는 비교들을 도시하는 플로차트.
도 19는 본 개시의 실시예들에 따라, 근접장 검출 블록이, 근접장 스피치가 브로드사이드 방향으로부터 존재하는지를 검출하도록 수행할 수 있는 비교들을 도시하는 플로차트.
본 개시의 실시예들에 따라, 자동 재생 관리 프레임워크는 하나 이상의 오디오 이벤트 검출기들을 사용할 수 있다. 오디오 디바이스에 대한 이러한 오디오 이벤트 검출기들은, 오디오 디바이스의 사용자(예를 들면, 오디오 디바이스를 착용하고 있거나 그렇지 않으면 사용하고 있는 사용자)가 말할 때와 같이 오디오 디바이스의 근접장에서 사운드들이 검출될 때를 검출할 수 있는 근접장 검출기, 오디오 디바이스의 사용자에게 근접한 다른 사람이 말할 때와 같이 오디오 디바이스에 근접한 사운드들이 검출될 때를 검출할 수 있는 근접 검출기, 및 오디오 디바이스의 근처에서 발생되는 음향 알람들을 검출하는 토널 알람 검출기(tonal alarm detector)를 포함할 수 있다. 도 1은 본 개시의 실시예들에 따라 이러한 검출기들이 사용자 경험을 향상시키기 위해 재생 관리 시스템과 함께 사용될 수 있는 사용 경우 시나리오의 일 예를 도시한다.
도 2는 본 개시의 실시예들에 따라 이벤트 검출기(2)로부터의 결정에 기초하여 재생 신호를 변경하는 예시적인 재생 관리 시스템을 도시한다. 프로세서(7)에서 신호 처리 기능은 출력 오디오 트랜스듀서(8)(예를 들면, 라우드스피커)와 마이크로폰들(9) 사이의 에코 결합에 의해 마이크로폰들(9)에서 수신되는 음향 에코를 소거할 수 있는 음향 에코 소거기(1)를 포함할 수 있다. 에코가 감소된 신호는 근접장 검출기(3)에 의해 검출된 근접장 이벤트(예를 들면, 오디오 디바이스의 사용자로부터의 스피치를 포함하지만 그로 한정되지 않음), 근접 검출기(4)에 의해 검출된 근접 이벤트(예를 들면, 스피치 또는 근접장 사운드 이외에 다른 주변 사운드를 포함하지만 그로 한정되지 않음), 및/또는 알람 검출기(5)에 의해 검출된 토널 알람 이벤트(tonal alarm event)를 한정 없이 포함하는 하나 이상의 다양한 주변 이벤트들을 검출할 수 있는 이벤트 검출기(2)에 전달될 수 있다. 오디오 이벤트가 검출되는 경우, 이벤트 기반 재생 제어(6)는 출력 오디오 트랜스듀서(8)에 대해 재생된 오디오 정보(도 2에서 "재생 콘텐트"로서 도시됨)의 특징을 변경할 수 있다. 오디오 정보는 통신 네트워크(예를 들면, 셀룰러 네트워크)를 통해 수신된 전화 대화와 연관된 다운링크 스피치 및/또는 내부 오디오 소스로부터의 내부 오디오(예를 들면, 음악 파일, 비디오 파일 등)를 제한 없이 포함하는 출력 오디오 트랜스듀서(8)에서 재생될 수 있는 임의의 정보를 포함할 수 있다.
도 2에 도시된 바와 같이, 근접장 검출기(3)에 의해 이용될 수 있는 음성 활성 검출기(11)를 포함할 수 있다. 음성 활성 검출기(11)는 인간 스피치의 존재 또는 부재를 검출하기 위해 스피치 처리를 수행하도록 구성된 임의의 적절한 시스템, 디바이스, 또는 장치를 포함할 수 있다. 이러한 처리에 따라, 음성 활성 검출기(11)는 근접장 스피치의 존재를 검출할 수 있다.
도 2에 도시된 바와 같이, 근접 검출기(4)는 오디오 디바이스에 근접한 이벤트들을 검출하기 위해 근접 검출기(4)에 의해 이용될 수 있는 음성 활성 검출기(13)를 포함할 수 있다. 음성 활성 검출기(11)와 유사하게, 음성 활성 검출기(13)는 인간 스피치의 존재 또는 부재를 검출하기 위해 스피치 처리를 수행하도록 구성된 임의의 적절한 시스템, 디바이스, 또는 장치를 포함할 수 있다.
도 3은 본 개시의 실시예들에 따른 예시적인 스티어링된 응답 전력 기반 빔스티어링 시스템(30)을 도시한다. 스티어링된 응답 전력 기반 빔스티어링 시스템(30)은 상이한 보기 방향을 가진 다수의 빔포머들(33)(예를 들면, 지연-및-합계 및/또는 필터-및-합계 빔포머들)을 각각 수행함으로써 동작할 수 있어서 빔포머들(33)의 전체 뱅크는 원하는 관심 필드를 커버할 것이다. 각각의 빔포머(33)의 빔폭은 마이크로폰 어레이 애퍼처 길이에 의존할 수 있다. 각각의 빔포머(33)의 출력 전력이 계산될 수 있고, 최대 출력 전력을 가지는 빔포머(33)는 스티어링된 응답 전력 기반 빔 선택자(35)에 의해 출력 경로(34)로 스위칭될 수 있다. 빔 선택자(35)의 스위칭은 근접장 검출기(32)를 가지는 음성 활성 검출기(31)에 의해 제한될 수 있어서 출력 전력은 스피치가 검출될 때만 빔 선택자(35)에 의해 측정되고, 따라서 공간적으로 비정상 배경 충격 잡음들(spatially non-stationary background impulsive noises)에 응답함으로써 빔 선택자(35)가 다수의 빔포머들(33) 사이에 빠른 스위칭을 방지한다.
도 4는 본 개시의 실시예들에 따른 예시적인 적응형 빔포머(40)를 도시한다. 적응형 빔포머(40)는 수신된 데이터에 기초하여 잡음 상태들을 변경하는 것에 적응가능한 임의의 시스템, 디바이스, 또는 장치를 포함할 수 있다. 일반적으로, 적응형 빔포머는 고정된 빔포머들과 비교된 더 큰 잡음 소거 또는 간섭 억제를 달성할 수 있다. 도 4에 도시된 바와 같이, 적응형 빔포머(40)는 일반화된 사이드 로브 소거기(generalized side lobe canceller; GSC)로서 구현된다. 따라서, 적응형 빔포머(40)는 고정된 빔포머(43), 블로킹 매트릭스(44), 및 적응형 필터(46)를 포함하는 다중-입력 적응형 잡음 소거기(45)를 포함할 수 있다. 적응형 필터(46)가 모든 시간에 적응될 경우, 감산 스테이지(47) 동안 스피치 왜곡을 또한 야기하는 스피치 누설을 훈련한다. 적응형 빔포머(40)의 견고함을 증가시키기 위해, 근접장 검출기(42)를 가지는 음성 활성 검출기(41)는 스피치의 존재시 훈련 또는 적응을 디스에이블하기 위해 적응형 필터(46)로 제어 신호를 전달할 수 있다. 이러한 구현들에서, 음성 활성 검출기(41)는 잡음 추정 기간을 제어할 수 있고, 배경 잡음은 스피치가 존재할 때마다 추정되지는 않는다. 유사하게, 스피치 누설에 대한 GSC의 견고함은 적응형 블로킹 매트릭스를 사용함으로써 더 향상될 수 있고, 적응형 블로킹 매트릭스에 대한 제어는 발명의 명칭이 "적응형 빔 포밍을 위해 사전백색화를 사용하는 적응형 블록 매트릭스(Adaptive Block Matrix Using Pre-Whitening for Adaptive Beam Forming)"인 미국 특허 번호 제 9,607,603 호에 기술되는 충돌 잡음 검출기를 가지는 개선된 음성 활성 검출기를 포함할 수 있다. 이들 및 다른 실시예들에서, 음성 활성 검출기는 적응형 빔포머(40)의 음성 식별(ID) 인증 블록(39)에 의해 음성 인증 처리의 개시를 제어할 수 있다.
적응형 빔포머(40)의 견고함을 더 증가시키기 위해, 근접장 검출기(48)를 가지는 윈드 검출기(49)는 본 개시의 다른 곳에서 기술되는 성능을 증가시키기 위해 제어 신호를 배경 잡음 추정자 및/또는 빔포머(43)에 전달할 수 있다.
도 5는 본 개시의 실시예들에 따라 근접장 검출기를 구현하기 위해 적어도 두 개의 마이크로폰들(52a, 52b) 및 프로세서(53)를 포함하는 오디오 디바이스(50)의 선택된 구성요소들의 블록도를 도시한다. 마이크로폰(52)은 이러한 음압(acoustic pressure)을 나타내는 전기 신호를 생성하고 음압을 감지하기 위한 임의의 적절한 트랜스듀서를 포함할 수 있다. 일부 실시예들에서, 마이크로폰들(52)은 근접하게 이격될 수 있다(예를 들면, 서로의 35 밀리미터 이내). 각각의 마이크로폰(52)은 이러한 마이크로폰상에 음압을 나타내는 각각의 전기 신호(예를 들면, mic1, mic2)를 생성할 수 있다. 프로세서(53)는 본 명세서에서 더 상세한 바와 같이 마이크로폰(52)에 통신가능하게 결합될 수 있고 마이크로폰(52)에 의해 생성된 전기 신호들을 수신하고 근접장 검출을 수행하기 위해 이러한 신호들을 처리하도록 구성될 수 있다. 기술의 명확성을 위해 도시되지 않지만, 각각의 아날로그 디지털 컨버터는 마이크로폰(52)에 의해 생성된 아날로그 신호들을 프로세서(53)에 의해 처리될 수 있는 대응하는 디지털 신호들로 변환하기 위해 마이크로폰들(52)의 각각과 프로세서(53) 사이에 결합될 수 있다.
도 5에 도시된 바와 같이, 프로세서(53)는 정규화된 상호 상관 블록(54), 자기 상관 블록(56), 정규화된 최대 상관 블록(58), 정규화된 자기 상관 블록(60), 전파 효과들을 가지는 정규화된 자기 상관 블록(62), 브로드사이드 통계 블록(64), 합 상관 비유사성 블록(66), 평탄도 측정 블록(68), 동적 임계값 계산 블록(70), 상관 비유사성 블록(72), 바이어스 계산 블록(74), 바이어스 제거 블록(76), 및 근접장 검출 블록(78)을 포함할 수 있다.
음향 소스가 마이크로폰에 가까울 때, 마이크로폰에서 직접 대 반향 신호 비율(direct-to-reverberant signal ratio)은 일반적으로 높다. 직접 대 반향 신호 비율은 일반적으로 룸/인클로저의 반향 시간(RT60) 및 근접장 소스와 마이크로폰 사이의 경로에 있는 다른 물리적 구조들에 의존한다. 소스와 마이크로폰 사이의 거리가 증가할 때, 직접 대 반향 비율(direct-to-reverberant ratio)은 직접 경로에서 전파 손실에 의해 감소되고, 반향 신호의 에너지는 직접 경로 신호와 유사할 수 있다. 이러한 특징은 마이크로폰들(예를 들면, 마이크로폰들(52))의 어레이의 위치에 대해 견고한 근접장 신호의 존재를 나타낼 수 있는 통계값을 도출하기 위해 사용될 수 있다. 이러한 방식에 따라, 정규화된 상호 상관 블록(54)은 마이크로폰들(52a, 52b) 사이의 상호-상관 시퀀스를 다음과 같이 계산할 수 있다:
Figure pct00001
여기서 m의 범위는
Figure pct00002
이고, d는 마이크로폰 간격이고, c는 음속이고,
Figure pct00003
는 샘플링 주파수이다. 상호-상관 시퀀스로부터, 정규화된 최대 상관 블록(58)은 다음과 같이 최대 정규화된 상관 통계값을 계산할 수 있다:
Figure pct00004
여기서
Figure pct00005
은 i번째 마이크로폰 에너지에 대응한다. 정규화된 최대 상관 블록(58)은 평탄화된 최대 정규화된 상관 통계값(normMaxCorr)을 다음과 같이 생성하기 위해 최대 정규화된 상관 통계값을 평탄하게 할 수 있다:
Figure pct00006
여기서
Figure pct00007
는 평탄도 상수(smoothing constant)이다.
다양한 잡음 형태들의 존재시 근접장 스피치를 검출하기 위해 정규화된 최대 상관 통계값에 대한 고정된 임계값을 설정하는 것이 어려울 수 있다. 따라서, 프로세서(53)의 처리 블록들은 다수의 잡음 상태들 하에서 근접장 검출 레이트를 개선할 수 있는 적응형 임계값 메커니즘을 구현할 수 있다. 예시를 위해, 신호 모델을 생각하자:
Figure pct00008
여기서 i = 1, 2 및 j는 잡음 소스들의 수이고,
Figure pct00009
는 근접장 스피치 소스와 i번째 마이크로폰 사이의 임펄스 응답이고,
Figure pct00010
은 j번째 잡음 소스와 i번째 마이크로폰 사이의 임펄스 응답이고,
Figure pct00011
는 비상관 잡음이다. 이러한 모델에 대한 상호-상관 시퀀스는 다음과 같이 도출될 수 있다:
Figure pct00012
여기서 상기 상호-상관식의 제 1 부분은 스피치에 대응하고, 제 2 부분은 상관된 잡음에 대응하고,
Figure pct00013
는 비상관 잡음 전력이다. 상호-상관 시퀀스는 스피치 및 잡음 상호-상관 시퀀스들의 중첩일 수 있다. 따라서, 최대 정규화된 상관 통계값은 배경에서 잡음의 존재에 의해 바이어싱될 수 있다. 더욱이, 상호-상관 시퀀스는 신호 소스의 자기-상관에 의존할 수 있다. 따라서, 잡음에 의해 도입된 바이어스는 또한 잡음 스펙트럼의 함수로서 변할 수 있다. 예를 들면, 자동차 잡음에 의해 도입된 바이어스는 광대역 잡음(예를 들면, 도로 잡음, 화이트 잡음)에 의해 도입된 바이어스보다 많을 수 있다.
따라서, 프로세서(53)의 구성요소들은 평탄도 측정 블록(68)이 다음과 같이 평탄도 측정값을 계산할 수 있는 동적 임계 방식을 구현할 수 있다:
Figure pct00014
그리고 평탄도 측정값으로부터, 장기간 평탄도 측정값(corrFlatMeas)을 다음과 같이 계산하고,
Figure pct00015
여기서
Figure pct00016
는 평탄화 상수이다. 동적 임계값 계산 블록(70)은 동적으로-조정가능한 임계값(normMaxCorrTh)을 다음과 같이 도출할 수 있다:
Figure pct00017
여기서
Figure pct00018
는 고정된 임계값이고, 파라미터(μ)는 임계값이 평탄도 측정값의 함수로서 변할 수 있는 레이트를 결정한다. 평탄도 측정값(corrFlatMeas)이 큰 경우, 동적으로 조정가능한 임계값이 더 큰 값으로 조정될 수 있다. 예시적인 목적들을 위해, 도 6은 자동차, 펍, 도로, 및 횡단보도를 포함하여 잡음의 상이한 소스들에 대해 예시적인 장기간 평탄도 측정값들(corrFlatMeas)을 도시한다.
상기에 기술된 동적 임계 방식은 다양한 잡음 상태들 하에서 근접장 스피치 신호들의 검출 레이트를 최적화할 수 있지만, 최대 정규화된 상관 통계값(normMaxCorr)의 차별적인 능력은 마이크로폰 간격이 작을 때(35 ㎜보다 작음) 열화할 수 있다. 이러한 근접하게 이격된 마이크로폰 어레이들에서 마이크로폰간 상관은 근접장 스피치 및 잡음 양쪽 모두에 대해 높을 수 있다. 작은 마이크로폰 간격(d)에 대한 m의 범위는 16 ㎑에서 하나 또는 두 개의 샘플들 정도일 수 있고, 상호-상관 함수는 이러한 범위에서 평탄할 수 있다. 예시를 위해, 확산 및 지향성 소스들에 대한 공간-스펙트럼 코히어런스 함수들은 다음으로서 제공될 수 있다:
Figure pct00019
여기서
Figure pct00020
이다. 단일 소스 자극에 대하여, 상호-상관 함수는 다음으로서 간략화될 수 있고:
Figure pct00021
여기서
Figure pct00022
는 소스 신호의 자기-상관이고,
Figure pct00023
는 마이크로폰간 임펄스 응답이다. 공간-스펙트럼 코히어런스 함수는 마이크로폰 간격(d)이 감소함에 따라 넓어질 수 있고, 상호-상관 함수(
Figure pct00024
)는 임펄스 함수인 경향이 있다. 따라서, 근접하게 이격된 마이크로폰 어레이에 대한 상호-상관 함수는 소스 신호의 자기-상관 시퀀스에 의해 일반적으로 통제될 수 있다. 음성 지원들에 대하여, 환경에 존재하는 사운드 소스들의 자기-상관 시퀀스는 유효한 래그 상관 범위에서 거의 평탄하고, 따라서, 최대 정규화된 상관 통계값은 그의 구별 능력을 잃어버린다. 도 7은 최대 정규화된 상관 통계값(normMaxCorr)이 25-밀리미터 간격으로 마이크로폰 어레이에서 덜 구별적일 수 있는 것을 도시한다.
따라서, 프로세서(53)는 배경 잡음의 존재시 근접장 신호를 더 잘 구별하기 위해 자기-상관 시퀀스에 기초하는 통계값을 계산할 수 있다. 구체적으로, 프로세서(53)는 근접하게 이격된 마이크로폰들에 대한 정규화된 자기-상관 및 상호-상관 시퀀스들의 형상들이 유사할 수 있다는 사실을 이용하도록 구성될 수 있다. 도 8은 지향성 근접장 스피치 소스에 대한 예시적인 자기-상관 및 상호-상관 시퀀스를 도시한다. 도 8에 도시된 바와 같이, 지향성 근접장 소스들에 대하여, 상호-상관 시퀀스는 자기-상관 시퀀스의 시프트된 버전일 수 있다. 그러나, 확산된 잡음 필드에 대하여, 자기-상관 및 상호-상관 시퀀스들은 도 9에 도시된대로 모든 타임 래그들에서 유사하게 유지할 수 있다. 따라서, 프로세서(53)는 배경 잡음의 존재시 지향성 근접장 소스들을 검출하기 위해 자기-상관과 상호-상관 시퀀스들 사이의 비유사성 측정값을 생성할 수 있다.
이러한 비유사성 측정값을 계산하기 위해, 자기 상관 블록(56) 및 정규화된 자기 상관 블록(60)은 함게 정규화된 자기-상관 시퀀스를 다음과 같이 추정할 수 있다:
Figure pct00025
이러한 결과를 사용하면, 상관 비유사성 블록(72)은 양 및 음의 래그들에 대해 자기-상관 및 상호-상관 시퀀스들 사이의 차이를 개별적으로 다음과 같이 추정할 수 있다:
음의 래그들에 대하여:
Figure pct00026
양의 래그들에 대하여:
Figure pct00027
여기서 L은 통계값을 도출하기 위해 고려된 래그들의 수이다. 음의 보기 방향으로부터 오는 신호에 대하여(예를 들면, 사운드 소스 위치는 마이크로폰(52b)보다 마이크로폰(52a)에 더 가깝다),
Figure pct00028
는 음이고
Figure pct00029
는 양이고 그 반대의 경우도 가능하다. 선택된 래그들의 범위는 정규화된 상호-상관을 계산하기 위해 사용된 범위 밖에 있을 수 있는데, 왜냐하면 상관 시퀀스들은 상기 래그 범위에서 유사하기 때문이라는 것을 주의하는 것이 중요하다. 도 10은, 예를 들면, 비유사성 측정값을 계산하기 위해 사용된 예시적인 관심 영역을 나타내는 예시 그래프를 도시한다. 따라서, 상관 비유사성 블록(72)은 또한 최대 차이를 추정할 수 있다:
Figure pct00030
Figure pct00031
그리고, 그로부터 상관 비유사성 통계값을 다음과 같이 도출할 수 있다:
Figure pct00032
그리고 상관 비유사성 통계값을 평탄화하여:
Figure pct00033
를 생성할 수 있다.
마이크로폰들(52a, 52b)의 어레이에 관련한 사용자의 입의 근접성은 가깝고 먼 마이크로폰들 사이의 전파 손실 차이의 형태로 근접장 효과들을 도입할 수 있다. 적절한 마이크로폰 간격(예를 들면, > 20 ㎜)을 가지는 대부분의 마이크로폰 구성들에 대하여(브로드사이드 배향과 다른), 전파 손실 차이는 또한 근접장 방향들에 대해 이용될 수 있다. 이러한 전파 손실 효과를 이용하기 위해, 전파 효과 블록(62)에 의한 정규화된 자기 상관은 다음과 같이 양 및 음의 래그들에 대해 정규화된 자기-상관을 개별적으로 계산할 수 있다:
Figure pct00034
음 및 양의 래그들에 대한 이들 자기-상관 시퀀스들은 이전 경우에서와 동일한 마이크로폰 에너지 대신에 마이크로폰(52a) 및 마이크로폰(52b) 에너지들 각각에 의해 정규화된다.
합 상관 비유사성 블록(66)은, 새로운 자기-상관 시퀀스가 다음과 같이 제공될 수 있는 것을 제외하고, 상술된 바와 같이 상관 비유사성 블록의 것과 유사한 방식으로 자기-상관 및 상호-상관 시퀀스들 사이의 차이를 추정할 수 있다:
Figure pct00035
도 11은 비유사성 통계값들의 구별 능력을 증가시킬 수 있는 상기와 같이 계산된 변경된 정규화된 자기-상관에서 전파 손실의 예시적인 효과들을 도시하는 그래프를 도시한다. 도 12는 펍 잡음에 의해 손상된 잡음이 있는 근접장 스피치에 대한 전파 손실을 가지는 비유사성 측정 통계값의 일 예를 도시하는 그래프들을 도시한다.
다수의 웨어러블 디바이스들에서, 사용자의 입에 대하여 종형 마이크로폰 어레이 배향(endfire microphone array orientation)(예를 들면, 사용자의 입과 다른 마이크로폰 사이에 배열된 하나의 마이크로폰)을 보장하는 것이 항상 가능하지는 않다. 더욱이, 많은 경우들에서, 어레이는 도달하는 근접장 스피치에 대해 브로드사이드로 배향될 수 있다. 이러한 배향에서, 원거리장(far-field) 배경 간섭 잡음은 또한 브로드사이드 방향으로부터 도달한다. 이와 같이, 이러한 경우들에 근접장 스피치를 검출하는 것은 사소한 것이 아니다. 시프팅된 상관 시퀀스에 의존하는 상관 비유사성 측정은 브로드사이드 근접장 스피치를 구별하지 못할 수 있다. 그러나, 근접장 브로드사이드 스피치에 대하여, 제로 래그 주변의 상호-상관 시퀀스는 크게 상관될 수 있다. 따라서, 도 10에 나타내진 영역들에서의 상관 차이를 추정하는 대신에, 브로드사이드 통계 블록(64)은 제로 래그 주변의 상관 차이를 추정할 수 있다. 비유사성 측정값을 계산하는 이전의 경우들과 달리, 이러한 경우의 비유사성 측정값은 브로드사이드 근접장 스피치의 존재를 나타내기 위해 작아야 한다. 브로드사이드 통계 블록(64)은 다음과 같이 제로 래그 또는 "브로드사이드 통계값" 주변의 이러한 상관 비유사성 측정값을 계산할 수 있다:
Figure pct00036
여기서 P는 제로 지연 래그에 대응하고, 브로드사이드 통계 블록(64)은 또한 다음과 같이 브로드사이드 통계값(broadMeas)을 평탄화할 수 있다:
Figure pct00037
여기서
Figure pct00038
는 평탄화 상수이다. 도 13은 배경 잡음의 존재시 브로드사이드 방향으로부터 도달하는 근접장 스피치에 대한 브로드사이드 통계값의 예를 도시하는 그래프들을 도시한다. 도 13은 또한 스피치와 잡음 사이의 구별을 거의 제공하지 않는 도달 통계값의 방향을 보여준다. 그러나, 브로드사이드 통계적 비유사성 측정값은 도 13에서 볼 수 있듯이 배경 잡음의 존재시 근접장 스피치를 나타낸다.
상술된 상관 비유사성 측정값(
Figure pct00039
)은 배경 잡음이 본질적으로 지향성 또는 반지향성(semi-directional)일 때 바이어스를 가질 수 있다. 이러한 지속적 배경 잡음에 의해 도입된 바이어스는 최소의 통계-기반 방식을 사용하여 추정될 수 있어서, 이러한 바이어스가 상관 비유사성 측정값(
Figure pct00040
)으로부터 제거될 수 있다. 바이어스 계산 블록(74)은, 본 기술 분야에서 공지된 바와 같이, 수정된 도블링거 방법(Doblinger method)을 사용하여 바이어스를 추정할 수 있고, 바이어스 추정값은 다음과 같이 제공되고:
Figure pct00041
여기서
Figure pct00042
는 평균 필터(averaging filter)의 시간 상수를 제어하는 평탄화 파라미터(smoothing parameter)이다. 바이어스 제거 블록(76)은 상관 비유사성 측정값으로부터 바이어스를 제거하여 바이어스 조정된 상관 비유사성 측정값(CorrDiff)을 다음과 같이 생성할 수 있다:
Figure pct00043
도 14는 지향성 배경 잡음 소스가 존재할 때 상관 비유사성 측정값으로부터 바이어스를 제거하는 예시적인 효과들을 나타내는 그래프들을 도시한다. 바이어스 제거 프로세스는 잘못된 검출들을 감소시킬 수 있고, 검출 스테이지에서 적절한 임계값을 설정하는 데 도움을 줄 수 있다.
비상관 잡음의 존재는 빔포머 출력에서 비상관 잡음의 부스팅에 의해 빔포머 응용들에서 빔포머 성능에 악영향을 미친다. 따라서, 베경에서 비상관 잡음의 존재를 검출하는 것이 중요할 수 있다. 상관 시퀀스들은 비상관 잡음과 상관된 주변 잡음을 구별하기 위해 사용될 수 있다. 도 15에 도시된 바와 같이, 비상관 잡음에 대해, 자기-상관과 상호-상관 시퀀스 사이의 차이는 모든 레그들에서 클 수 있다. 합 상관 비유사성 블록(66)은 다음과 같이 상관 차이의 합을 계산할 수 있고:
Figure pct00044
합 상관 비유사성 블록(66)은 또한 이러한 통계값을 평탄화하여 다음과 같이 합 상관 비유사성(sumCorrDiff)을 생성할 수 있고:
Figure pct00045
여기서
Figure pct00046
는 평탄화 상수이다.
대안적으로, 합 상관 비유사성 블록(66)은 다음과 같이 최대 상관 차이를 계산할 수 있다:
Figure pct00047
도 16은 실제 기록으로부터 추출된 상술된 비상관 잡음 통계값들을 나타내는 그래프들을 도시한다. 상관 비유사성 측정값들은 개인용 웨어러블 디바이스들에 대한 일반적인 사용 경우 시나리오에서 종종 나타나는 윈드 잡음(wind noise)을 검출하기 위해 사용될 수도 있다. 검출된 윈드 잡음 제어 신호는, 도 4에 도시된 바와 같이, 윈드 잡음이 공간 처리에 의해 부스팅되지 않는 것을 보장하기 위해 윈드 잡음 스펙트럼 정보를 업데이트하거나 프론트-엔드 빔포머에서 적절한 조치를 취하여 잡음 감소 및 빔포머 알고리즘을 제어하기 위해 사용될 수 있다.
최대 정규화된 상관 통계값(normMaxCorr), 동적으로-조정가능한 임계값(normMaxCorrTh), 합 상관 비유사성(sumCorrDiff), 바이어스-조정된 상관 비유사성 측정값(CorrDiff), 및 브로드사이드 통계값(broadMeas)에 기초하여, 근접장 검출 블록(78)은 근접장 스피치가 존재하는지의 여부를 검출할 수 있다.
도 17은 근접장 검출 블록(78)이 근접장 스피치가 음의 방향으로부터 존재하는지(예를 들어, 근접장 소스가 마이크로폰(52b)보다 마이크로폰(52a)에 더 근접한 경우)를 검출하기 위해 수행할 수 있는 비교를 도시하는 플로차트를 도시한다. 근접장 검출 블록(78)은 (a) 정규화된 상관 통계값(normMaxCorr)(
Figure pct00048
)이 제 1 동적으로-조정 가능한 임계값(normMaxCorrTh)(
Figure pct00049
)보다 큰 경우; (b) 합 상관 비유사성(sumCorrDiff)(
Figure pct00050
)이 관련 임계값보다 작은 경우; 및 (c) (i) 바이어스-조정된 상관 비유사성 측정값(CorrDiff)이 제 1 상관 비유사성 측정 임계값보다 작은 경우, 또는 (ii) 바이어스-조정된 상관 비유사성 측정값(CorrDiff)이 제 2 상관 비유사성 측정 임계값보다 작고 정규화된 상관 통계값(normMaxCorr)(
Figure pct00051
)이 제 2 동적으로-조정가능한 임계값(normMaxCorrTh)(
Figure pct00052
)보다 큰 경우, 근접장 스피치가 음의 방향으로부터 존재한다고 결정할 수 있다.
도 18은 근접장 검출 블록(78)이, 근접장 스피치가 양의 방향으로부터 존재 하는지(예를 들면, 근접장 소스가 마이크로폰(52a)보다 마이크로폰(52b)에 더 가까운 경우)를 검출하기 위해 수행할 수 있는 비교들을 도시하는 플로차트를 도시한다. 근접장 검출 블록(78)은, (a) 정규화된 상관 통계값(normMaxCorr)(
Figure pct00053
)이 제 1 동적으로-조정 가능한 임계값(normMaxCorrTh)(
Figure pct00054
)보다 큰 경우; (b) 합 상관 비유사성(sumCorrDiff)(
Figure pct00055
)이 관련 임계값보다 작은 경우; 및 (c) (i) 바이어스-조정된 상관 비유사성 측정값(CorrDiff)이 제 1 상관 비유사성 측정 임계값보다 큰 경우, 또는 (ii) 바이어스-조정된 상관 비유사성 측정값(CorrDiff)이 제 2 상관 비유사성 측정 임계값보다 크고 정규화된 상관 통계값(normMaxCorr)(
Figure pct00056
)이 제 2 동적으로-조정 가능한 임계값(normMaxCorrTh)(
Figure pct00057
)보다 큰 경우, 근접장 스피치가 음의 방향으로부터 존재하는 것을 결정할 수 있다.
도 19는 근접장 검출 블록(78)이, 근접장 스피치가 브로드사이드 방향으로부터 존재하는지를 검출하기 위해 수행할 수 있는 비교들을 도시하는 플로차트를 도시한다. 근접장 검출 블록(78)은, (a) 정규화된 상관 통계값(normMaxCorr)(
Figure pct00058
)이 관련된 동적으로 조정 가능한 임계값(normMaxCorrTh)(
Figure pct00059
)보다 큰 경우; (b) 합 상관 비유사성(sumCorrDiff)(
Figure pct00060
)이 관련된 임계값보다 작은 경우; 및 (c) 바이어스-조정된 상관 비유사성 측정값(CorrDiff)이 관련 임계값보다 작은 경우, 근접장 스피치가 음의 방향으로부터 존재한다고 결정할 수 있다.
특히 본 개시의 이익을 가진 당업자에 의해, 특히 도면들과 관련하여, 본 명세서에 설명된 다양한 동작들이 다른 회로 또는 다른 하드웨어 구성 요소들에 의해 구현될 수 있음이 이해되어야 한다. 주어진 방법의 각각의 동작이 수행되는 순서가 변경될 수 있고, 여기에 도시된 시스템의 다양한 요소들이 추가, 재순서화, 조합, 생략, 수정 등이 될 수 있다. 본 개시는 모든 이러한 수정들 및 변경들을 포함하도록 의도되고, 따라서, 상기 설명은 제한적인 의미가 아니라 예시적인 것으로 간주되어야 한다.
유사하게, 본 개시는 특정 실시예들을 참조하지만, 본 개시의 범위 및 커버리지를 벗어나지 않으면서 이들 실시예들에 대한 특정 수정들 및 변경들이 이루어질 수 있다. 더욱이, 특정 실시예들과 관련하여 본 명세서에 설명된 문제들에 대한 임의의 이점들, 장점들, 또는 해결책들은 중요하거나 요구되거나 필수적인 특징 또는 요소로 해석되도록 의도되지 않는다.
마찬가지로, 본 개시의 이점을 갖는 추가의 실시예들은 당업자에게 명백할 것이고, 이러한 실시예들은 본 명세서에 포함되는 것으로 간주되어야 한다.

Claims (22)

  1. 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법에 있어서:
    제 1 마이크로폰 신호와 제 2 마이크로폰 신호 사이의 정규화된 상호 상관 함수를 계산하는 단계;
    제 1 마이크로폰 신호 및 제 2 마이크로폰 신호 각각의 정규화된 자기 상관 함수들을 계산하는 단계;
    정규화된 상호 상관 함수 및 정규화된 자기 상관 함수들을 복수의 타임 래그 영역들로 분할하는 단계;
    복수의 타임 래그 영역들의 각각 개개의 타임 래그 영역에 대하여, 개개의 타임 래그 영역 내에서 정규화된 상호 상관 함수와 정규화된 자기 상관 함수 사이의 개개의 최대 편차를 계산하는 단계;
    다수의 검출 통계값들을 도출하기 위해 복수의 타임 래그 영역들로부터 개개의 최대 편차들을 계산하는 단계; 및
    근접장 신호를 검출하기 위해 다수의 검출 통계값들의 각각의 검출 통계값을 개개의 임계값과 비교하는 단계를 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  2. 제 1 항에 있어서,
    다수의 검출 통계값들은 정규화된 최대 상관 통계값, 상관 비유사성 통계값(correlation dissimilarity statistic), 브로드사이드 통계값(broadside statistic), 및 비상관 잡음 통계값(uncorrelation noise statistic) 중 하나 이상을 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  3. 제 1 항에 있어서,
    다수의 검출 통계값들은 입력 신호 내 배경 잡음이 지향성이거나 반지향성(semi-directional)일 때 존재하는 바이어스를 보상하기 위해 제거된 바이어스를 가지는 상관 비유사성 통계값을 포함하는 바이어스-정정된 상관 비유사성 통계값을 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  4. 제 1 항에 있어서,
    정규화된 상호 상관 함수의 최대값을 계산하는 단계; 및
    근접장 신호를 검출하기 위해 정규화된 상호 상관 함수의 최대값을 임계값과 비교하는 단계를 더 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  5. 제 4 항에 있어서,
    정규화된 상호 상관 함수의 최대값의 장기간 평탄도 측정 통계값(long-term flatness measure statistic)을 계산하는 단계; 및
    장기간 평탄도 측정 통계값에 기초하여 임계값을 동적으로 변경하는 단계를 더 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  6. 제 1 항에 있어서,
    다수의 검출 통계값들은 비상관 잡음 통계값을 포함하고, 방법은:
    정규화된 상호 상관 함수의 최대값을 계산하는 단계; 및
    윈드 잡음의 존재를 검출하기 위해 정규화된 상호 상관 함수의 최대값을 제 1 임계값과 비교하고 비상관 잡음 통계값을 제 2 임계값과 비교하는 단계를 더 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  7. 제 1 항에 있어서,
    근접장 신호의 검출에 응답하여 오디오 정보와 연관된 특징을 변경하는 단계를 더 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  8. 제 7 항에 있어서,
    특징은:
    제 1 마이크로폰 신호 및 제 2 마이크로폰 신호 중 하나 또는 둘 모두의 진폭; 및
    제 1 마이크로폰 신호 및 제 2 마이크로폰 신호 중 하나 또는 둘 모두의 스펙트럼 콘텐트 중 하나 이상을 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  9. 제 7 항에 있어서,
    특징은 잡음 억압기(noise suppressor), 배경 잡음 추정자, 적응형 빔포머, 동적 빔 스티어링, 올웨이즈-온 보이스(always-on voice), 및 대화 기반 재생 관리 시스템 중 적어도 하나를 포함하는 음성 기반 처리 알고리즘의 적어도 하나의 계수를 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  10. 제 1 항에 있어서,
    제 1 마이크로폰 및 제 2 마이크로폰은 개인용 오디오 디바이스 내에 배치되고 약 35 밀리미터보다 적은 거리에서 서로에 근접하게 배열되는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  11. 제 1 항에 있어서,
    근접장 신호의 검출에 기초하여 음성 인증 처리를 개시하는 단계를 더 포함하는, 오디오 디바이스에서 근접장 소스들을 검출하기 위한 방법.
  12. 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로에 있어서:
    오디오 디바이스의 적어도 하나의 트랜스듀서에 통신을 위한 오디오 출력 신호를 생성함으로써 오디오 정보를 재생하도록 구성된 오디오 출력;
    제 1 마이크로폰 신호를 수신하도록 구성된 제 1 마이크로폰 입력;
    제 2 마이크로폰 신호를 수신하도록 구성된 제 2 마이크로폰 입력; 및
    프로세서로서, 근접장 검출기를 구현하도록 구성되어:
    제 1 마이크로폰 신호와 제 2 마이크로폰 신호 사이의 정규화된 상호 상관 함수를 계산하고;
    제 1 마이크로폰 신호와 제 2 마이크로폰 신호의 각각의 정규화된 자기 상관 함수들을 계산하고;
    정규화된 상호 상관 함수 및 정규화된 자기 상관 함수를 복수의 타임 래그 영역들로 분할하고;
    복수의 타임 래그 영역들의 각각의 개개의 타임 래그 영역에 대하여 개개의 타임 래그 영역 내에서 정규화된 상호 상관 함수와 정규화된 자기 상관 함수 사이의 개개의 최대 편차를 계산하고;
    다수의 검출 통계값들을 도출하기 위해 복수의 타임 래그 영역들로부터 개개의 최대 편차들을 조합하고;
    근접장 신호를 검출하기 위해 다수의 검출 통계값들의 각각의 검출 통계값을 개개의 임계값과 비교하도록 구성된, 프로세서를 포함하는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  13. 제 12 항에 있어서,
    다수의 검출 통계값들은 정규화된 최대 상관 통계값, 상관 비유사성 통계값, 브로드사이드 통계값, 및 비상관 잡음 통계값 중 하나 이상을 포함하는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  14. 제 12 항에 있어서,
    다수의 검출 통계값들은 입력 신호 내 배경 잡음이 지향성이거나 반지향성일 때 존재하는 바이어스를 보상하기 위해 제거된 바이어스를 가지는 상관 비유사성 통계값을 포함하는 바이어스-정정된 상관 비유사성 통계값을 포함하는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  15. 제 12 항에 있어서,
    프로세서는 또한:
    정규화된 상호 상관 함수의 최대값을 계산하고;
    근접장 신호를 검출하기 위해 정규화된 상호 상관 함수의 최대값을 임계값과 비교하도록 구성되는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  16. 제 15 항에 있어서,
    프로세서는 또한:
    정규화된 상호 상관 함수의 최대값의 장기간 평탄도 측정 통계값을 계산하고;
    장기간 평탄도 측정 통계값에 기초하여 임계값을 동적으로 변경하도록 구성되는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  17. 제 12 항에 있어서,
    다수의 검출 통계값들은 비상관 잡음 통계값을 포함하고, 프로세서는 또한:
    정규화된 상호 상관 함수의 최대값을 계산하고;
    윈드 잡음의 존재를 검출하기 위해 정규화된 상호 상관 함수를 제 1 임계값과 비교하고 비상관 잡음 통계값을 제 2 임계값과 비교하도록 구성되는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  18. 제 12 항에 있어서,
    프로세서는 또한 잡음 이벤트의 검출에 응답하여 오디오 정보와 연관된 특징을 변경하도록 구성되는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  19. 제 18 항에 있어서,
    특징은:
    제 1 마이크로폰 신호 및 제 2 마이크로폰 신호 중 하나 또는 둘 모두의 진폭; 및
    제 1 마이크로폰 신호 및 제 2 마이크로폰 신호 중 하나 또는 둘 모두의 스펙트럼 콘텐트를 포함하는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  20. 제 18 항에 있어서,
    특징은 잡음 억압기, 배경 잡음 추정자, 적응형 빔포머, 동적 빔 스티어링, 올웨이즈-온 보이스, 및 대화형 기반 재생 관리 시스템 중 적어도 하나를 포함하는 음성 기반 처리 알고리즘의 적어도 하나의 계수를 포함하는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  21. 제 12 항에 있어서,
    제 1 마이크로폰 및 제 2 마이크로폰은 개인용 오디오 디바이스 내에 배치되고 약 35 밀리미터보다 적은 거리에 서로 인접하게 배열되는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
  22. 제 12 항에 있어서,
    프로세서는 또한 근접장 신호의 검출에 기초하여 음성 인증 처리를 개시하도록 구성되는, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로.
KR1020197036715A 2017-05-12 2018-05-09 상관 기반 근접장 검출기 KR102352927B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/594,347 2017-05-12
US15/594,347 US10395667B2 (en) 2017-05-12 2017-05-12 Correlation-based near-field detector
PCT/US2018/031775 WO2018208899A1 (en) 2017-05-12 2018-05-09 Correlation-based near-field detector

Publications (2)

Publication Number Publication Date
KR20200009035A true KR20200009035A (ko) 2020-01-29
KR102352927B1 KR102352927B1 (ko) 2022-01-20

Family

ID=59462260

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197036715A KR102352927B1 (ko) 2017-05-12 2018-05-09 상관 기반 근접장 검출기

Country Status (6)

Country Link
US (1) US10395667B2 (ko)
KR (1) KR102352927B1 (ko)
CN (1) CN110770827B (ko)
GB (1) GB2565527B (ko)
TW (1) TWI720314B (ko)
WO (1) WO2018208899A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110692257B (zh) * 2017-05-29 2021-11-02 哈曼贝克自动系统股份有限公司 声音捕获
US10937418B1 (en) * 2019-01-04 2021-03-02 Amazon Technologies, Inc. Echo cancellation by acoustic playback estimation
GB2585086A (en) * 2019-06-28 2020-12-30 Nokia Technologies Oy Pre-processing for automatic speech recognition
US11765522B2 (en) 2019-07-21 2023-09-19 Nuance Hearing Ltd. Speech-tracking listening device
TWI748465B (zh) * 2020-05-20 2021-12-01 明基電通股份有限公司 噪音判斷方法及噪音判斷裝置
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN113223554A (zh) * 2021-03-15 2021-08-06 百度在线网络技术(北京)有限公司 一种风噪检测方法、装置、设备和存储介质
US20230050677A1 (en) * 2021-08-14 2023-02-16 Clearone, Inc. Wideband DOA Improvements for Fixed and Dynamic Beamformers
TWI829279B (zh) * 2022-08-09 2024-01-11 中興保全科技股份有限公司 聲幅辨識裝置及聲幅辨識系統
CN117496997B (zh) * 2023-12-27 2024-04-05 湘江实验室 基于惩罚机制的声源检测方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001023104A2 (en) * 1999-09-29 2001-04-05 1...Limited Method and apparatus to direct sound using an array of output transducers
US20040169581A1 (en) * 2000-02-16 2004-09-02 Verance Corporation Remote control signaling using audio watermarks
US20160205467A1 (en) * 2002-02-05 2016-07-14 Mh Acoustics, Llc Noise-reducing directional microphone array
US20170061972A1 (en) * 2011-02-02 2017-03-02 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
US9769565B2 (en) * 2015-04-10 2017-09-19 B<>Com Method for processing data for the estimation of mixing parameters of audio signals, mixing method, devices, and associated computers programs

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US15589A (en) * 1856-08-19 Hjalmar wynblad
US6160758A (en) * 1996-06-28 2000-12-12 Scientific Innovations, Inc. Utilization of auto and cross-correlation functions in methods for locating a source of a primary signal and for localizing signals
US7340068B2 (en) 2003-02-19 2008-03-04 Oticon A/S Device and method for detecting wind noise
JP2005236852A (ja) 2004-02-23 2005-09-02 Nippon Hoso Kyokai <Nhk> 信号分離方法、信号分離装置、及び信号分離プログラム
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8218397B2 (en) * 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
EP2339574B1 (en) * 2009-11-20 2013-03-13 Nxp B.V. Speech detector
US8565446B1 (en) 2010-01-12 2013-10-22 Acoustic Technologies, Inc. Estimating direction of arrival from plural microphones
EP2659487B1 (en) * 2010-12-29 2016-05-04 Telefonaktiebolaget LM Ericsson (publ) A noise suppressing method and a noise suppressor for applying the noise suppressing method
US10218327B2 (en) * 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
US10015589B1 (en) * 2011-09-02 2018-07-03 Cirrus Logic, Inc. Controlling speech enhancement algorithms using near-field spatial statistics
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
EP2736271B1 (en) * 2012-11-27 2019-06-19 Oticon A/s A method of controlling an update algorithm of an adaptive feedback estimation system and a de-correlation unit
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources
US20150172807A1 (en) * 2013-12-13 2015-06-18 Gn Netcom A/S Apparatus And A Method For Audio Signal Processing
US9607603B1 (en) * 2015-09-30 2017-03-28 Cirrus Logic, Inc. Adaptive block matrix using pre-whitening for adaptive beam forming
US9838783B2 (en) * 2015-10-22 2017-12-05 Cirrus Logic, Inc. Adaptive phase-distortionless magnitude response equalization (MRE) for beamforming applications
US10297267B2 (en) * 2017-05-15 2019-05-21 Cirrus Logic, Inc. Dual microphone voice processing for headsets with variable microphone array orientation
US10079026B1 (en) * 2017-08-23 2018-09-18 Cirrus Logic, Inc. Spatially-controlled noise reduction for headsets with variable microphone array orientation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001023104A2 (en) * 1999-09-29 2001-04-05 1...Limited Method and apparatus to direct sound using an array of output transducers
US20040169581A1 (en) * 2000-02-16 2004-09-02 Verance Corporation Remote control signaling using audio watermarks
US20160205467A1 (en) * 2002-02-05 2016-07-14 Mh Acoustics, Llc Noise-reducing directional microphone array
US20170061972A1 (en) * 2011-02-02 2017-03-02 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
US9769565B2 (en) * 2015-04-10 2017-09-19 B<>Com Method for processing data for the estimation of mixing parameters of audio signals, mixing method, devices, and associated computers programs

Also Published As

Publication number Publication date
GB2565527A (en) 2019-02-20
GB2565527B (en) 2020-02-26
KR102352927B1 (ko) 2022-01-20
US10395667B2 (en) 2019-08-27
WO2018208899A1 (en) 2018-11-15
CN110770827A (zh) 2020-02-07
CN110770827B (zh) 2020-11-13
TWI720314B (zh) 2021-03-01
TW201908761A (zh) 2019-03-01
GB201709761D0 (en) 2017-08-02
US20180330747A1 (en) 2018-11-15

Similar Documents

Publication Publication Date Title
KR102352927B1 (ko) 상관 기반 근접장 검출기
KR102352928B1 (ko) 가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱
US11056093B2 (en) Automatic noise cancellation using multiple microphones
US10079026B1 (en) Spatially-controlled noise reduction for headsets with variable microphone array orientation
US10885907B2 (en) Noise reduction system and method for audio device with multiple microphones
US10331396B2 (en) Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrival estimates
US9818425B1 (en) Parallel output paths for acoustic echo cancellation
US10269369B2 (en) System and method of noise reduction for a mobile device
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
US20050074129A1 (en) Cardioid beam with a desired null based acoustic devices, systems and methods
KR20090056598A (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
US20170040029A1 (en) Event detection for playback management in an audio device
Wang et al. Speech Enhancement Using Multi‐channel Post‐Filtering with Modified Signal Presence Probability in Reverberant Environment
EP3332558A2 (en) Event detection for playback management in an audio device

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right