KR20110090940A - 잡음 감소를 위한 센서 어레이를 사용한 오디오 소스 근접도 추정 - Google Patents

잡음 감소를 위한 센서 어레이를 사용한 오디오 소스 근접도 추정 Download PDF

Info

Publication number
KR20110090940A
KR20110090940A KR1020117011581A KR20117011581A KR20110090940A KR 20110090940 A KR20110090940 A KR 20110090940A KR 1020117011581 A KR1020117011581 A KR 1020117011581A KR 20117011581 A KR20117011581 A KR 20117011581A KR 20110090940 A KR20110090940 A KR 20110090940A
Authority
KR
South Korea
Prior art keywords
audio
proximity
amplitudes
determining
audio signals
Prior art date
Application number
KR1020117011581A
Other languages
English (en)
Other versions
KR101260131B1 (ko
Inventor
궉레웅 찬
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20110090940A publication Critical patent/KR20110090940A/ko
Application granted granted Critical
Publication of KR101260131B1 publication Critical patent/KR101260131B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

오디오 소스(14, 15)의 근접도를 추정하는 것은 복수의 센서(18, 20)로부터의 오디오 신호들을 주파수 영역으로 변환함으로써 달성된다. 변환된 오디오 신호들의 진폭들이 이후 결정된다. 주파수 영역 진폭들의 비교에 기초하여 오디오 소스의 근접도가 결정된다. 이러한 추정은 장치(16)가 상대적으로 멀리 떨어진 오디오 소스(14)와 장치에 가까이 근접하는 오디오 소스(15)를 구분할 수 있게 한다. 상기 기법은 휴대 전화기 또는 PDA, 핸즈프리 헤드셋 및 다른 오디오 입력 장치들과 같은 이동 핸드셋에 적용될 수 있다. 이러한 "근접" 검출을 이용하는 장치들은 배경 잡음을 더 잘 억제할 수 있고, 개선된 사용자 경험을 더 잘 전달할 수 있다.

Description

잡음 감소를 위한 센서 어레이를 사용한 오디오 소스 근접도 추정{AUDIO SOURCE PROXIMITY ESTIMATION USING SENSOR ARRAY FOR NOISE REDUCTION}
[우선권]
본 특허 출원은 본 특허 출원의 동일한 양수인에게 양도되고 본 명세서에 참고 문헌으로서 포함되는, 2008년 10월 24일에 출원된 "Estimation of Signal Proximity with a Sensor Array for Noise Reduction"이라는 명칭의 미국 가특허 출원 제61/108,413호에 대한 우선권을 주장한다.
본 개시 내용은 일반적으로 오디오 신호 처리와 관련되고, 보다 구체적으로는 근거리장(near-field) 오디오 신호 검출 및 잡음 억제와 관련된다.
오디오 입력을 수용하는 휴대 전화기, 양방향 라디오 및 PDA(Personal Digital Assistant)와 같은 장치는 종종 군중, 번화가, 식당, 공항, 또는 차량 등과 같은 거슬리는 잡음 환경에서 사용된다. 오디오 환경 내의 다양한 음원으로부터 생성되는 원치 않는 소리(배경 잡음이라고 일컬어짐)는 그 오디오 환경 내의 상이한 위치들로부터 방사될 수 있다. 흔한 예에는 자동차 잡음 또는 붐비는 공공장소 내의 다른 음성들이 포함될 수 있지만, 이에 한정되지 않는다. 출처와 관계없이, 원하는 오디오 신호를 배경 잡음으로부터 구별할 수 없는 것은 오디오 입력 신호의 품질 저하를 초래할 수 있다.
이러한 환경에서의 강한 배경 잡음은 사용자의 음성을 불명확하게 하고 그 사람이 무슨 말을 하고 있는지를 이해하기 어렵게 만든다. 많은 경우에, 잡음은 음성 신호를 손상시키고 따라서 원하는 오디오 신호의 품질을 현저히 떨어뜨린다. 휴대 전화기에 있어서, 예컨대 붐비는 카페나 분주한 기차역과 같은 시끄러운 환경에서 대화하는 사람은, 통화의 다른 쪽에 있는 청취자가 감지하는 잡음 손상 음성이 이해되기 어렵기 때문에, 올바르게 대화를 하지 못할 수 있다. 오디오 손상의 이러한 모든 경우에 있어서, 배경 잡음을 억제함으로써 송신되는 오디오의 품질을 개선하는 것이 바람직하다.
배경 잡음을 제거하기 위한 시도를 하는 잡음 필터링 시스템들이 개발되었지만, 이러한 시스템들은 모든 환경에서의 잡음 전부를 제거하지는 못했다. 따라서, 배경 잡음을 검출하고 억제하는 개선된 기법에 대한 필요가 존재한다.
오디오 입력 장치에 의해 수신되는 배경 잡음을 억제하기 위한 개선된 기법이 본 명세서에 개시된다. 상기 기법은 오디오 입력 장치가 상대적으로 먼 잡음원과 장치에 가까이에 근접하여 유래하는 소리를 구분할 수 있게 한다. 상기 기법은 휴대 전화기 또는 PDA, 핸즈프리(hands-free) 헤드셋 및 다른 오디오 입력 장치들과 같은 이동 핸드셋에 적용될 수 있다. 이러한 "근접" 검출을 이용하는 오디오 입력 장치는 배경 잡음을 더 잘 억제할 수 있고, 개선된 사용자 경험을 더 잘 전달할 수 있다.
일 태양에 따르면, 오디오 소스(audio source)의 근접도를 결정하는 방법은 복수의 센서로부터의 오디오 신호들을 주파수 영역으로 변환하는 단계를 포함한다. 이후 변환된 오디오 신호들의 진폭들이 결정된다. 진폭들의 비교에 기초하여 오디오 소스의 근접도가 결정된다.
다른 태양에 따르면, 오디오 소스의 근접도를 결정하는 방법은 복수의 센서로부터 오디오 신호들을 수신하는 단계 및 오디오 신호들을 주파수 영역으로 변환하는 단계를 포함한다. 변환된 오디오 신호들의 진폭들이 복수의 주파수에서 결정된다. 각각의 주파수에 대해, 그 주파수에서 상이한 센서로부터의 스펙트럼 진폭들을 비교함으로써 차분 신호가 결정된다. 이는 복수의 차분 신호를 생성한다. 차분 신호들에 기초하여 오디오 소스의 근접도가 결정된다.
다른 태양에 따르면, 장치는 오디오 소스에 응답하여 복수의 오디오 신호를 출력하는 복수의 오디오 센서를 포함한다. 상기 장치에 포함된 프로세서는 오디오 신호들을 주파수 영역으로 변환하고 또한 변환된 오디오 신호들의 진폭들을 비교함으로써 오디오 신호의 근접도를 결정하도록 구성된다.
다른 태양에 따르면, 장치는 복수의 센서로부터의 복수의 오디오 신호를 주파수 영역으로 변환하기 위한 수단, 변환된 오디오 신호들의 진폭들을 결정하기 위한 수단, 진폭들을 비교하기 위한 수단 및 진폭들의 비교에 기초하여 오디오 소스의 근접도를 결정하기 위한 수단을 포함한다.
추가적인 태양에 따르면, 하나 이상의 프로세서에 의해 실행 가능한 명령들의 집합을 구현하는 컴퓨터 판독 가능 매체는 복수의 센서로부터의 복수의 오디오 신호를 주파수 영역으로 변환하기 위한 코드, 변환된 오디오 신호들의 진폭들을 결정하기 위한 코드, 진폭들을 비교하기 위한 코드 및 진폭들의 비교에 기초하여 오디오 소스의 근접도를 결정하기 위한 코드를 포함한다.
다른 태양들, 특징들 및 장점들은 아래의 도면들 및 상세한 설명을 검토함으로써 본 기술 분야의 당업자에게 명확해질 것이다. 이러한 모든 추가적인 특징, 태양 및 장점은 본 명세서에 포함되고 첨부된 청구항들에 의해 보호되도록 의도된다.
도면들은 예시의 목적만을 위한 것임을 이해해야 한다. 또한, 도면들 내의 구성요소들은 반드시 비율에 맞지는 않으며, 그 대신 본 명세서에 기술된 기법들의 원리들을 예시하도록 강조가 주어졌다. 도면들에서, 동일한 참조 번호들은 상이한 도면들 전체에 걸쳐 대응하는 부분들을 가리킨다.
도 1은 근거리장 오디오 소스 및 원거리장 배경 오디오 소스를 포함하는 예시적인 오디오 환경의 도면.
도 2는 근거리장 오디오 소스로부터 방출되는 음파들을 개념적으로 도시하는 도면.
도 3은 원거리장 오디오 소스로부터 방출되는 음파들을 개념적으로 도시하는 도면.
도 4는 상이한 오디오 센서들로부터의 신호 진폭을 비교함으로써 오디오 소스의 근접도를 결정하는 방법을 도시하는 흐름도.
도 5는 빔 형성(beam forming)을 사용하여 오디오 소스의 근접도를 결정하는 방법을 도시하는 흐름도.
도 6은 도래(incoming) 오디오의 스펙트럼 성분들을 비교함으로써 오디오 소스의 근접도를 결정하는 방법을 도시하는 흐름도.
도 7은 스펙트럼 잡음 감소의 프로세스를 도시하는 프로세스 블록도.
도 8은 스펙트럼 잡음 감소의 프로세스를 도시하는 보다 상세한 프로세스 블록도.
도 9는 오디오 소스 근접도 추정 능력을 갖는 예시적인 헤드셋 장치의 소정의 구성요소들을 도시하는 블록도.
도 10은 예시적인 배경 잡음 억제를 도시하는 그래프들.
도면들을 참조하고 수반하는 아래의 상세한 설명은 하나 이상의 특정한 실시예를 기술하고 예시한다. 한정하기 위한 것이 아니라 오직 예시하고 설명하도록 제공되는 이러한 실시예는 청구된 발명을 본 기술 분야의 당업자가 실시할 수 있도록 충분히 상세히 도시 및 기술된다. 따라서, 간결함을 위해, 본 설명은 본 기술 분야의 당업자에게 알려진 소정의 정보를 생략할 수 있다.
"예시적"이라는 단어는 본 개시 내용 전체에 걸쳐 "예, 사례, 또는 예시로서 작용하는"이라는 의미로 사용된다. 본 명세서에서 "예시적"이라고 기술된 어떤 것도 반드시 다른 접근법이나 특징에 비해 선호되거나 유리하다고 해석되지 않아야 한다.
도 1은 헤드셋(16)과 같은 오디오 입력 장치, 사용자(12)의 입과 같은 근거리장 오디오 소스(15) 및 라디오와 같은 원거리장 배경 오디오 소스(14)를 포함하는 예시적인 오디오 환경(10)의 도면이다. 헤드셋(16)은 근거리장 오디오 소스(15) 및 원거리장 오디오 소스(14)의 영향 하에 있다. 원거리장 오디오 소스(14)는 근거리장 오디오 소스(15)보다 오디오 입력 장치로부터 더 멀리에 위치한다. 오디오 소스들(14, 15) 각각은 소리를 내는 임의의 것일 수 있다.
헤드셋(16)은 센서 어레이(sensor array)를 사용하여 오디오 소스들(14, 15)의 근접도를 추정하고 다음으로 헤드셋(16)에 포함된 잡음 감소 모듈을 제어하여 원거리장으로 분류된 오디오 신호들을 억제한다. 도시된 예에서, 센서 어레이는 헤드셋(16)에 포함된 제1 오디오 센서(18) 및 제2 오디오 센서(20)를 포함한다. 오디오 센서들(18, 20)은 이격되어 있는데, 예컨대 이들은 2 내지 4 cm 떨어져 있을 수 있다. 오디오 센서들(18, 20)은 마이크 또는 소리 입력에 반응하는 임의의 다른 적합한 오디오 트랜스듀서(audio transducer)일 수 있다. 보통의 착용 위치에서, 제1 오디오 센서(18)는 제2 오디오 센서(20)보다 사용자의 입에 더 가깝다. 그 결과, 제1 오디오 센서(18)에 의해 포착되는, 사용자의 입으로부터 유래하는 오디오 신호들은 제2 오디오 센서(20)에 의해 포착되는 동일한 신호보다 더 소리가 크다. 검출된 오디오 신호들 사이의 크기 차이는 입에서 오디오 센서들(18, 20)까지의 상대적인 거리에 따라 1 dB 내지 3 dB 또는 그 이상의 범위일 수 있다. 또한, 신호 레벨 차이는 신호 주파수에 종속된다. 전형적으로, 더 높은 신호 주파수는 회절 효과로 인해 더 높은 신호 레벨 차이를 낳는다. 원거리장 오디오 소스(14)의 경우, 오디오 센서들(18, 20)이 원거리장 소스(14)로부터의 거리에 비해 서로에게 가깝기 때문에, 오디오 센서들(18, 20)은 원거리장 오디오의 도착 방향에 관계없이 대략 동일한 진폭 레벨로 원거리장 오디오를 포착한다. 그 결과, 헤드셋(16)은 두 오디오 센서(18, 20)에서의 신호 진폭 레벨들을 모니터링하고 비교하여 오디오 소스 근접도를 추정한다.
예시적인 헤드셋(16)은 수화기 몸체(17) 및 사용자(12)가 헤드셋(16)을 편안히 착용하게 하기 위한 귀 걸개와 같은 적어도 하나의 지지부(19)를 포함한다. 붐(boom)(21)이 제1 오디오 센서(18)를 사용자의 입에 더 가까이 배치하기 위해 헤드셋(16)에 또한 포함될 수 있다. 제2 오디오 센서(20)는 도시된 바처럼 수화기 몸체(17)에 포함될 수 있다. 도시된 예에서, 헤드셋(16)은 하나 이상의 장치와 헤드셋(16) 사이의 오디오 신호들이 하나 이상의 무선 RF(Radio Frequency) 또는 IR(infrared) 채널을 통해 운반되는 블루투스(Bluetooth) 헤드셋과 같은 무선 헤드셋이다. 블루투스 무선 헤드셋으로 구현되는 경우, 헤드셋(16)은 www.bluetooth.com에서 입수 가능한 블루투스 사양에 의해 정의되는 바와 같은 구성요소들과 기능을 포함할 수 있다. 블루투스 사양은 무선 헤드셋 기능을 제공하기 위한 구체적인 지침을 제공한다. 그 대신, 헤드셋(16)은 장치와 헤드셋(16) 사이에서 오디오 신호들을 운반하는 전도체를 갖는 유선 헤드셋일 수 있다.
오디오 입력 장치가 헤드셋(16)으로서 도시되지만, 본 명세서에 개시되는 오디오 소스 근접도 추정 및 잡음 억제 기법 및 장치는 또한 통신 장치들, 예컨대 전화기, 휴대 전화기, PDA, 비디오 게임기, 음성 작동 리모컨, 실황 보도 시스템, 또는 확성(public address) 시스템 등과 같은 다른 오디오 입력 장치들에 포함될 수 있다. 오디오 입력 장치는 소리를 수신하는 장치이다.
도 2는 근거리장 오디오 소스(15)로부터 방출되는 음파들의 영향 하에 있는 헤드셋(16)을 개념적으로 도시하는 도면이다. 제1 오디오 센서(18)는 제2 오디오 센서(20)보다 상대적으로 오디오 소스(15)에 가까우므로, 센서들(18, 20)에서 소스(15)로부터 수신되는 소리의 진폭은 측정 가능하게 상이하다. 이러한 센서 진폭의 차이는 오디오 소스가 헤드셋(16)에 대해 멀거나 가까운지를 결정하도록 헤드셋(16)에 의해 이용된다.
도 3은 원거리장 오디오 소스(14)로부터 방출되는 음파들의 영향 하에 있는 헤드셋(16)을 개념적으로 도시하는 도면이다. 오디오 센서들(18, 20)은 원거리장 소스(14)로부터의 거리에 비해 서로에게 가깝기 때문에, 오디오 센서들(18, 20)은 오디오 신호의 도착 방향에 관계없이 대략 동일한 진폭 레벨로 오디오를 포착한다. 그 결과, 두 오디오 센서(18, 20)에 의해 수신되는 신호 레벨들을 모니터링하는 시스템은 오디오 소스 근접도를 추정할 수 있다.
도 4는 센서 어레이 요소들, 예컨대 오디오 센서들(18, 20)에서의 오디오 신호 레벨들에 기초하여 오디오 소스 근접도를 추정하기 위한 방법을 도시하는 흐름도(100)이다. 블록 102에서, 오디오 입력 신호들이 오디오 센서들로부터 수신된다. 각각의 센서는 오디오 채널이라고도 일컬어지는 별개의 오디오 신호를 제공한다. 각각의 오디오 신호는 특정한 오디오 센서에서 수신되는 소리를 나타낸다. 블록 104에서, 도래하는 오디오 신호들은 사전 조절(pre-condition)된다. 사전 조절은 관심 주파수 범위 밖의 간섭 신호들을 차단하도록 오디오 신호들 각각을 대역 통과 필터링하는 것을 포함할 수 있다. 예컨대, 오디오 신호들은 인간의 가청 범위 밖의 신호를 제거하도록 필터링될 수 있다. 오디오 입력 신호들은 또한 개별적인 센서들의 고유한 감도의 차이를 감당하도록 개별적으로 증폭될 수 있다. 이러한 교정 후에, 오디오 센서들로부터의 신호 레벨들은 오디오 센서들에 도착하는 신호 세기들을 더 정확하게 나타낼 것이다. 오디오 센서들은 정확한 증폭 계수(amplification factor)를 구하도록 오디오 입력 장치의 제조 중에 보정(calibrate)될 수 있다. 교정 계수(correction factor)의 사용 전 추정이 실현 불가능한 경우, 오디오 센서들이 보정될 수 있고, 교정 계수는 또한 자동 이득 정합 메커니즘을 통해 오디오 입력 장치의 동작 중에 추정될 수 있다. 오디오 신호들 처음에 센서들로부터 아날로그 신호들로서 수신될 수 있고, 이후 A/D(Analog-to-Digital) 변환기에 의해 디지털 오디오 신호들로 변환될 수 있다. 위에서 기술된 신호 사전 조절은 아날로그 오디오 신호들 또는 디지털화된 오디오 신호들에 대해, 또는 디지털 및 아날로그 처리 영역들의 임의의 적합한 조합으로 수행될 수 있다.
다음으로, 블록 106에서 각각의 오디오 센서 신호의 진폭이 결정된다. 오디오 신호들의 진폭들을 결정하기 위해 상이한 방법들이 이용될 수 있지만, 한 가지 방법은 오디오 샘플들이 시계열(time series)로 된 PCM(Pulse Code Modulation) 오디오와 같은 종래의 디지털 오디오 형식으로 오디오 신호들 각각을 디지털화하는 것이다. 이후, 각 센서로부터의 디지털화된 도래 오디오 신호들은 예컨대 10 ms(밀리초)와 같은 미리 정의된 길이를 갖는 오디오 프레임들로 분할된다. 20 ms와 같은 다른 적합한 프레임 길이들이 사용될 수 있다. 이후, 각각의 오디오 신호의 진폭이 프레임 별로 계산된다. 프레임 내의 오디오 신호의 진폭은 각각의 센서에 대해 아래와 같이 계산된다.
Figure pct00001
수학식 1에서, amp(n)은 n번째 프레임의 오디오 신호 진폭을 나타내고, n은 프레임 색인이며, xk(t)는 시간 t에서의 디지털 오디오 샘플을 나타내고, k는 k번째 센서를 나타내며, t는 도래 오디오 신호 샘플들에 대한 시간 색인이다. p는 1보다 큰 값을 가질 수 있는 미리 선택된 파라미터이며, 예컨대 p는 2일 수 있다. 합산은 프레임 내의 모든 오디오 샘플들에 대해 이루어진다. 각 센서에 대해, 오디오 신호 진폭 ampk(n)은 또한 아래와 같은 평활화(smoothing) 함수를 사용하여 연속적인 프레임들에 걸쳐 평활화될 수 있다.
Figure pct00002
수학식 2에서,
Figure pct00003
은 n번째 프레임의 평활화된 진폭값이고,
Figure pct00004
은 (n-1)번째 프레임의 평활화된 진폭값이며, α는 바람직하게는 1 미만의 값을 갖는 미리 정의된 가중화 상수이다.
또한, 평활화된 프레임 진폭들은 선택적으로 로그 영역으로 변환될 수 있다. 평활화된 프레임 진폭들은 아래의 수학식 3에 따라 로그 영역으로 변환될 수 있다.
Figure pct00005
수학식 3에서,
Figure pct00006
은 n번째 프레임의 평활화된 진폭값의 로그값이다.
블록 108에서, 오디오 채널 진폭들은 채널 진폭들 사이의 차이를 발견하도록 프레임 별로 비교된다. 예컨대, 두 개의 요소를 갖는 센서 어레이(도 1에 도시된 바와 같음)의 경우, 차이
Figure pct00007
은 아래와 같이 계산될 수 있다.
Figure pct00008
수학식 4에서,
Figure pct00009
은 제1 오디오 채널 및 제2 오디오 채널에 대해 n번째 프레임에 대한 채널 진폭들 사이의 차이를 나타낸다. 그 대신, 진폭들을 로그 영역으로 변환하지 않고 두 채널에 대한
Figure pct00010
사이의 차이를 계산함으로써 진폭 차이가 계산될 수 있다.
블록 110에서, 오디오 소스의 근접도가 결정된다. 이를 달성하기 위해, 오디오 채널들 사이의 진폭 차이가 미리 정의된 문턱값과 비교된다. 예컨대, 수학식 4에 대한
Figure pct00011
이 문턱값과 비교된다.
Figure pct00012
이 미리 정의된 개수의 연속적인 프레임에 대해 문턱값보다 큰 경우, 근거리장 플래그(flag)가 세트 상태(set state)로 트리거(trigger)된다. 세트된 플래그는 오디오 센서들이 오디오 입력 장치에 가까이 근접하는 오디오 소스를 검출하였음을 가리킨다. 이러한 플래그는
Figure pct00013
이 미리 정의된 개수의 연속적인 프레임에 대해 문턱값 아래로 떨어질 때까지 켜져 있을 수 있다. 오디오 입력 장치의 잡음 감소/억제 모듈은 도래 오디오 신호가 원거리장으로 분류되고 그에 따라 배경 잡음으로 취급되어 근거리장 플래그가 꺼지는 경우에 신호를 억제할 수 있다.
채널 진폭 차이에 대한 대안으로서, 예컨대 아래의 수학식 5에 의해 주어지는 바와 같은 미리 정의된 정규화 계수로
Figure pct00014
를 나누는 것으로부터 각각의 프레임에 대한 근거리장 점수 near_field_score가 계산될 수 있다.
Figure pct00015
정규화 계수
Figure pct00016
는 임의의 적합한 상수값 또는 함수일 수 있다.
Figure pct00017
은 또한 오디오 소스가 근거리장일 가능성을 가리키는 확률값으로 변환될 수 있다. 이러한 변환은 예컨대 아래의 수학식 6에서 주어지는 바와 같은 S자형(sigmoid) 함수와 같은 비선형 함수를 사용하여 이루어질 수 있다.
Figure pct00018
수학식 6에서, u는
Figure pct00019
이고,
Figure pct00020
는 확률값을 나타내며, A와 B는 상수들이다. 잡음 감소/억제 모듈에 의해 가해지는 억제의 양은
Figure pct00021
또는 그 대신 근거리장 확률값
Figure pct00022
의 함수로 만들어질 수 있다. 점수 또는 확률값
Figure pct00023
를 사용하여, 점수 또는 확률값이 미리 정의된 문턱값과 비교된다. 점수 또는
Figure pct00024
가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값보다 큰 경우, 근거리장 플래그가 세트 상태로 트리거된다. 세트된 플래그는 오디오 센서들이 오디오 입력 장치에 근접하는 오디오 소스를 검출하였음을 가리킨다. 이러한 플래그는 점수 또는
Figure pct00025
가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값 아래로 떨어질 때까지 켜져 있을 수 있다. 상이한 문턱값들이 near_field_score 및 확률에 대해 사용될 수 있다. 오디오 입력 장치의 잡음 감소/억제 모듈은 도래 오디오 신호가 원거리장으로 분류되고 그에 따라 배경 잡음으로 취급되어 근거리장 플래그가 꺼지는 경우에 신호를 억제할 수 있다. 또는 그 대신, 억제의 양은
Figure pct00026
또는 그 대신 근거리장 확률값
Figure pct00027
의 함수로 만들어진다. 전형적으로, 점수 또는 확률이 감소함에 따라, 더 강한 억제가 가해진다.
도 5는 빔 형성을 사용하여 오디오 소스의 근접도를 결정하는 방법을 도시하는 흐름도(200)이다. 상기 방법은 도 4의 방법과 관련하여 위에서 기술된 바처럼 복수의 오디오 센서로부터 다중 채널 오디오 입력들을 수신하고 오디오 신호들을 사전 조절함(블록 102 내지 104)으로써 시작된다.
다음으로, 블록 206에서, 근접도 추정의 정확도를 개선하기 위해, 디지털화된 오디오 채널들에게 빔 형성이 적용된다. 미가공 오디오 입력 신호들을 사용하는 대신, 예컨대 정면 방향과 같은 관심 방향으로부터 수신되는 오디오 신호들을 개선하도록 오디오 입력 신호들이 빔 형성기를 통과할 수 있다. 도래 오디오의 공간 선택도(spatial selectivity)는 적응형 또는 고정형 수신 빔 패턴들을 사용함으로써 달성된다. 본 명세서에 개시된 오디오 입력 장치들에서 적용하기에 적합한 빔 형성 기법들이 용이하게 입수 가능하다. 예컨대, 빔 형성기의 출력 yk(t)는 아래와 같이 주어진다.
Figure pct00028
수학식 7에서,
Figure pct00029
는 컨벌루션(convolution) 함수를 나타내고, Wkk'는 가중화 계수이며, k는 k번째 오디오 센서를 가리키고, k'는 k'번째 오디오 센서를 가리키며, xk'(t)는 시간 t에서의 k'번째 오디오 센서로부터의 디지털 오디오 샘플을 나타낸다. 빔 형성된 오디오 신호들 yk(t)는 이후 도 4의 블록 106 내지 110에서 기술된 것과 유사한 방식으로 처리될 수 있다.
보다 구체적으로, 블록 208에서, 각각의 빔 형성된 오디오 센서 신호의 진폭이 결정된다. 빔 형성된 오디오 신호들의 진폭들을 결정하기 위해 상이한 방법들이 이용될 수 있지만, 한 가지 방법은 오디오 샘플들이 시계열로 된 PCM(Pulse Code Modulation) 오디오와 같은 종래의 디지털 오디오 형식으로 오디오 신호들 각각을 디지털화하는 것이다. 이후, 각각의 센서로부터의 디지털화된 빔 형성된 오디오 신호들은 예컨대 10 ms와 같은 미리 정의된 길이를 갖는 오디오 프레임들로 분할된다. 20 ms와 같은 다른 적합한 프레임 길이들이 사용될 수 있다. 이후, 각각의 빔 형성된 오디오 신호의 진폭이 프레임 별로 계산된다. 프레임 내의 빔 형성된 오디오 신호의 진폭은 각각의 센서에 대해 수학식 1을 사용하여 xk(t)를 yk(t)로 치환하여 계산될 수 있다.
각각의 센서에 대해, 빔 형성된 오디오 신호 진폭은 또한 수학식 2에 의해 주어지는 평활화 함수와 같은 평활화 함수를 사용하여 연속적인 프레임들에 걸쳐 평활화될 수 있다. 또한, 평활화된 프레임 진폭들은 선택적으로 수학식 3에 따라 로그 영역으로 변환될 수 있다.
블록 210에서, 빔 형성된 오디오 채널 진폭들은 채널 진폭들 사이의 차이를 발견하도록 프레임 별로 비교된다. 예컨대, 두 개의 요소를 갖는 센서 어레이(도 1에 도시된 바와 같음)의 경우, 빔 형성된 진폭 차이는 수학식 4에 따라 결정될 수 있다. 그 대신, 진폭들을 로그 영역으로 변환하지 않고 두 개의 빔 형성된 채널에 대한 amp_smk(n) 사이의 차이를 계산함으로써 빔 형성된 진폭 차이가 계산될 수 있다.
블록 212에서, 오디오 소스의 근접도가 결정된다. 이를 달성하기 위해, 빔 형성된 오디오 채널들 사이의 진폭 차이가 미리 정의된 문턱값과 비교된다. 예컨대, 수학식 4에 대한
Figure pct00030
이 문턱값과 비교된다.
Figure pct00031
이 미리 정의된 개수의 연속적인 프레임에 대해 문턱값보다 큰 경우, 근거리장 플래그가 세트 상태로 트리거된다. 세트된 플래그는 오디오 센서들이 오디오 입력 장치에 가까이 근접하는 오디오 소스를 검출하였음을 가리킨다. 이러한 플래그는
Figure pct00032
이 미리 정의된 개수의 연속적인 프레임에 대해 문턱값 아래로 떨어질 때까지 켜져 있을 수 있다. 오디오 입력 장치의 잡음 감소/억제 모듈은 도래 오디오 신호가 원거리장으로 분류되고 그에 따라 배경 잡음으로 취급되어 근거리장 플래그가 꺼지는 경우에 도래 오디오 신호를 억제할 수 있다.
빔 형성된 채널 진폭 차이에 대한 대안으로서, 예컨대 수학식 5에 의해 주어지는 바와 같은 미리 정의된 정규화 계수로
Figure pct00033
를 나누는 것으로부터 각각의 빔 형성된 프레임에 대한 근거리장 점수 near_field_score가 계산될 수 있다.
빔 형성된 오디오 채널들에 대한
Figure pct00034
은 또한 오디오 소스가 근거리장일 가능성을 가리키는 확률값으로 변환될 수 있다. 이러한 변환은 예컨대 수학식 6에서 주어지는 바와 같은 S자형(sigmoid) 함수와 같은 비선형 함수를 사용하여 이루어질 수 있다.
빔 형성 오디오 입력 장치의 잡음 감소/억제 모듈에 의해 가해지는 억제의 양은
Figure pct00035
또는 그 대신 근거리장 확률값의 함수로 만들어질 수 있다. 점수 또는 확률값
Figure pct00036
를 사용하여, 점수 또는 확률값이 미리 정의된 문턱값과 비교된다. 점수 또는
Figure pct00037
가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값보다 큰 경우, 근거리장 플래그가 세트 상태로 트리거된다. 세트된 플래그는 오디오 센서들이 오디오 입력 장치에 가까이 근접하는 오디오 소스를 검출하였음을 가리킨다. 이러한 플래그는 점수 또는
Figure pct00038
가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값 아래로 떨어질 때까지 켜져 있을 수 있다. 상이한 문턱값들이 점수 및 확률값에 대해 사용될 수 있다. 빔 형성 오디오 입력 장치의 잡음 감소/억제 모듈은 도래 오디오 신호가 원거리장으로 분류되고 그에 따라 배경 잡음으로 취급되어 근거리장 플래그가 꺼지는 경우에 신호를 억제할 수 있다. 또는 그 대신, 억제의 양은
Figure pct00039
또는 근거리장 확률값
Figure pct00040
의 함수로 만들어진다. 전형적으로, 점수 또는 확률이 감소함에 따라, 더 강한 억제가 가해진다.
도 6은 도래 오디오의 주파수 성분들을 비교함으로써 오디오 소스의 근접도를 결정하는 방법을 도시하는 흐름도(300)이다. 상기 방법은 도 4의 방법과 관련하여 위에서 기술된 바처럼 복수의 오디오 센서로부터 다중 채널 오디오 입력들을 수신하고 오디오 신호들을 사전 조절함(블록 102 내지 104)으로써 시작된다.
다음으로, 블록 306에서, 센서 신호들이 주파수 영역으로 변환된다. 각각의 신호의 이러한 변환은 예컨대 고속 푸리에 변환(Fast Fourier Transform; FFT), 이산 푸리에 변환(Discrete Fourier Transform; DFT), 이산 코사인 변환(Discrete Cosine Transform; DCT), 웨이블렛(wavelet) 변환, 또는 임의의 다른 적합한 변환을 사용하여 이루어질 수 있다. 바람직하게는, 센서로부터의 오디오 신호들을 주파수 영역으로 변환하기 위해 FFT가 사용된다. 변환을 달성하기 위한 한 가지 방법은 오디오 샘플들이 시계열로 된 PCM(Pulse Code Modulation) 오디오와 같은 종래의 디지털 오디오 형식으로 오디오 신호들 각각을 디지털화하는 것이다. 이후, 각각의 센서로부터의 디지털화된 오디오 신호들은 예컨대 10 ms(밀리초)와 같은 미리 정의된 길이를 갖는 오디오 프레임들의 시퀀스(sequence)로 분할된다. 20 ms와 같은 다른 적합한 프레임 길이들이 사용될 수 있다. 이후, 주파수 영역 변환이 각각의 프레임 내의 오디오 샘플들에 적용된다.
블록 308에서, 각각의 관심 주파수에서, 변환된 오디오 신호들의 진폭이 결정된다. 각각의 변환된 오디오 신호의 주파수 진폭은 프레임 별로 계산될 수 있는데, n번째 프레임의 특정한 주파수 f에서의 진폭 ampk(n,f)가 변환 함수로부터 직접 구해질 수 있다. 관심 주파수의 범위는 예컨대 인간 청각의 가청 범위와 같은 임의의 원하는 주파수 스펙트럼일 수 있다. 범위 내의 각각의 관심 주파수는 범위 내의 다른 관심 주파수 또는 대역폭과 상이한 특정한 주파수 또는 대역폭일 수 있다. 예컨대, 관심 주파수는 규칙적인 간격(예컨대 100 Hz)으로 이격되거나 또는 불규칙한 간격으로 이격될 수 있다.
주파수 진폭들은 각각의 관심 주파수에서 수학식 2에 따라 평활화되어 amp_smk(n,f)를 낳을 수 있고, 선택적으로 각각의 관심 주파수에서 수학식 3을 사용하여 로그 영역으로 변환되어 각각의 주파수 f에 대해 계산된 log_amp_smk(n,f)를 낳을 수 있다.
블록 310에서, 각각의 관심 주파수에서, 변환된 센서 신호들의 진폭들(예컨대 크기들)이 서로 비교된다. diffAmp(n,f), near_field_score(n,f)가 각각 수학식 4 및 5에 따라 각각의 주파수 f에서 계산될 수 있다. 예컨대, 두 개의 요소를 갖는 센서 어레이(도 1에 도시된 바와 같음)의 경우, 주파수 영역 진폭 차이는 수학식 4에 따라 결정될 수 있다. 그 대신, 진폭들을 로그 영역으로 변환하지 않고 두 변환된 채널에 대한 amp_smk(n,f) 사이의 차이를 계산함으로써 주파수 영역 진폭 차이가 계산될 수 있다. 근거리장 플래그가 또한 각각의 주파수에 대해 별개로 계산될 수 있다.
블록 312에서, 오디오 소스의 근접도가 결정된다. 이를 달성하기 위해, 주파수 변환된 오디오 채널들 사이의 진폭 차이가 미리 정의된 문턱값과 비교된다. 예컨대, diffAmp(n,f)가 문턱값과 비교된다. diffAmp(n,f)가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값보다 큰 경우, 그 주파수에 대한 근거리장 플래그가 세트 상태로 트리거된다. 세트된 플래그는 오디오 센서들이 오디오 입력 장치에 가까이 근접하는 오디오 소스를 검출하였음을 가리킨다. 이러한 플래그는 diffAmp(n,f)가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값 아래로 떨어질 때까지 켜져 있을 수 있다. 오디오 입력 장치의 잡음 감소/억제 모듈은 도래 오디오 신호가 원거리장으로 분류되고 그에 따라 배경 잡음으로 취급되어 근거리장 플래그가 꺼지는 경우에 도래 오디오 신호를 억제할 수 있다.
주파수 변환된 채널 진폭 차이에 대한 대안으로서, 예컨대 수학식 5에 의해 주어지는 바와 같은 미리 정의된 정규화 계수로 diffAmp(n,f)를 나누는 것으로부터 각각의 변환된 프레임에서의 각각의 관심 주파수에서의 근거리장 점수 near_field_score(n,f)가 계산될 수 있다.
주파수 변환된 오디오 채널들에 대한 near_field_score(n,f) 값들은 또한 오디오 소스가 근거리장일 가능성을 가리키는 확률값들 f(u,f)로 변환될 수 있는데, 각각의 확률값은 주파수들 중 하나에 대응한다. 이러한 변환은 예컨대 수학식 6에서 주어지는 바와 같은 S자형(sigmoid) 함수와 같은 비선형 함수를 사용하여 이루어질 수 있다.
도 6의 방법을 사용하여, 잡음 감소 중에 상이한 양의 잡음 억제가 도래 오디오 신호의 상이한 주파수 성분들에 적용될 수 있다. 이러한 주파수 영역 접근법은 상이한 주파수 대역에 있는 원하는 근거리장 오디오 신호 및 원거리장 배경 잡음이 동일한 오디오 프레임에 존재하는 경우에 유익하다.
예컨대, 주파수 영역 오디오 입력 장치의 잡음 감소/억제 모듈에 의해 가해지는 억제의 양은 near_field_score(n,f) 또는 그 대신 근거리장 확률값 f(u,f)의 함수로 만들어질 수 있다. 점수들 또는 확률값들을 사용하여, 각각의 점수 또는 확률값이 미리 정의된 문턱값과 비교된다. 점수 또는 f(u,f)가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값보다 큰 경우, 근거리장 플래그가 세트 상태로 트리거된다. 세트된 플래그는 오디오 센서들이 특정한 주파수에서 오디오 입력 장치에 가까이 근접하는 오디오 소스를 검출하였음을 가리킨다. 이러한 플래그는 점수 또는 f(u,f)가 미리 정의된 개수의 연속적인 프레임에 대해 문턱값 아래로 떨어질 때까지 켜져 있을 수 있다. 상이한 문턱값들이 점수들 및 확률값들에 대해 사용될 수 있다. 주파수 영역 오디오 입력 장치의 잡음 감소/억제 모듈은 해당 주파수에서 도래 오디오 신호가 원거리장으로 분류되고 그에 따라 배경 잡음으로 취급되어 대응하는 근거리장 플래그가 꺼지는 경우에 오디오 신호의 해당 주파수 성분을 억제할 수 있다. 또는 그 대신, 억제의 양은 near_field_score(n,f) 또는 근거리장 확률값들 f(u,f)의 함수로 만들어진다. 전형적으로, 점수 또는 확률이 감소함에 따라, 더 강한 억제가 가해진다.
도 4 내지 6에서 기술된 방법들은 개별적으로 또는 임의의 적합한 조합으로 함께 사용되어 입력 오디오 장치에서의 배경 잡음 억제에 영향을 미칠 수 있다.
도 7은 음성 처리 장치에서의 스펙트럼 잡음 감소를 위한 예시적인 프로세스(400)를 도시하는 프로세스 블록도이다. 프로세스(400)는 도 1의 헤드셋(16)과 같은 오디오 입력 장치에 통합될 수 있다. 마이크(402, 404)와 같은 둘 이상의 오디오 센서가 도래 오디오를 전기 신호들로 트랜스듀스(transduce)한다. 이후 전기 신호들은 예컨대 블록 104에서 기술된 바처럼 사전 조절되고, A/D 변환기(도시되지 않음)를 사용하여 PCM과 같은 디지털 오디오 형식으로 디지털화되며, 디지털 오디오 프레임들의 시퀀스로 형성되는데, 이후 디지털 오디오 프레임들은 마이크 보정 모듈(406)에 의해 수신된다. 마이크 보정 모듈(406)은 마이크들(402, 404)의 이득들의 균형을 잡아 개별 마이크들(402, 404)의 감도의 고유한 차이를 보상한다. 이러한 교정 후에, 마이크들(402, 404)로부터의 신호 레벨들은 마이크들(402, 404)에 실제로 도착하는 신호 세기들을 더 정확하게 나타낼 것이다. 그 대신, 마이크들(402, 404)은 정확한 증폭 계수를 구하도록 오디오 입력 장치의 제조 중에 보정될 수 있다. 교정 계수의 사용 전 추정이 실현 불가능한 경우, 마이크 보정 모듈(406)은 예컨대 자동 이득 정합 메커니즘을 사용하여 마이크들(406)을 보정할 수 있다.
마이크 보정 모듈(406)로부터 출력되는 오디오 신호들은 반향 소거 모듈(408)에 제공된다. 반향 소거 모듈(408)은 종래의 반향 소거 알고리즘을 이용하여 도래 오디오 신호들로부터 반향을 제거할 수 있다. 반향 소거 모듈로부터 출력되는 오디오 프레임들은 이후 음성 활동 검출(Voice Activity Detection; VAD) 모듈(410), 공간 잡음 처리 모듈(412) 및 근접도 검출 모듈(414)에 제공된다.
VAD 모듈(410)은 도래 오디오 신호들의 프레임들 내의 인간 음성의 존재 또는 부재를 검출하고, 오디오 입력 장치에 의해 수신되는 도래 오디오에 음성이 현재 존재하는지 여부를 가리키는, 오디오 신호들에 대응하는 하나 이상의 플래그를 출력한다. VAD 모듈(410)에 의해 사용되는 VAD 알고리즘은 예컨대 본 기술 분야의 당업자에게 현재 알려진 임의의 적합한 VAD 알고리즘일 수 있다. 예컨대, 에너지 기반 VAD 알고리즘이 사용될 수 있다. 이러한 유형의 VAD 알고리즘은 신호 에너지를 계산하고 신호 에너지 레벨을 문턱값과 비교하여 음성 활동을 결정한다. 영 교차(zero-crossing) 집계 유형의 VAD 알고리즘이 또한 사용될 수 있다. 이러한 유형의 VAD 알고리즘은 입력 오디오 신호가 양에서 음으로 또는 그 반대로 변동하는 때에 프레임 당 0을 교차하는 회수를 집계함으로써 음성의 존재를 결정한다. 영 교차의 소정의 문턱값이 음성 활동을 가리키는 데 사용될 수 있다. 또한, 피치(pitch) 추정 및 검출 알고리즘은 물론, 음성의 존재를 가리키기 위한 포먼트(formant) 및/또는 켑스트럴(cepstral) 계수를 계산하는 VAD 알고리즘들이 음성 활동을 검출하는 데 사용될 수 있다. 다른 VAD 알고리즘들 또는 상술한 VAD 알고리즘들의 임의의 적합한 조합이 VAD 모듈(410)에 의해 대안적/부가적으로 이용될 수 있다.
근접도 검출 모듈(414)은 본 명세서에서 도 4 내지 6과 관련하여 기술된 근접도 검출 방법들 중 임의의 것, 또는 이들의 임의의 적합한 조합을 이용하여 오디오 입력 장치에 의해 수신되는 소리를 생성하는 오디오 소스의 근접도를 결정할 수 있다. 바람직하게는, 사용되는 근접도 검출 방법은 도 6을 참조하여 기술된 주파수 영역 방법이다. 근접도 검출 모듈(414)은 각각의 오디오 프레임에 대한 근거리장 플래그를 출력한다. 선호되는 주파수 영역 근접도 검출 방법을 사용하여, 각각의 오디오 프레임마다 각각의 관심 주파수에 대해 근거리장 플래그가 출력된다.
공간 잡음 처리 모듈(412)은 VAD 모듈(410)의 출력 플래그(들)에 기초하여 시간 영역에서 오디오 잡음을 억제한다. 처리되는 오디오 프레임들은 바람직하게는 마이크들 중 미리 정의된 것, 예컨대 사용자의 입에 더 가까운 마이크로부터 수신된 오디오 프레임들이다. 예컨대 VAD 플래그(들)이 도래 오디오 프레임이 음성을 포함하지 않음을 가리키는 경우, 공간 잡음 처리 모듈(412)은 오디오 프레임을 억제하고, 그렇지 않으면 모듈(412)은 오디오 프레임을 변경하지 않고 스펙트럼 잡음 감소(Spectral Noise Reduction; SNR) 모듈(416)에 전달한다.
SNR 모듈(416)은 VAD 모듈(410) 및 근접도 검출 모듈(414)로부터 각각 수신된 VAD 플래그(들) 및 근거리장 플래그(들)에 기초하여 오디오 프레임 내의 배경 잡음을 억제한다. VAD 플래그들 중 적어도 하나가 프레임 내에 음성이 포함되어 있음을 가리키는 경우, SNR 모듈(416)은 근접도 검출 모듈(414)로부터의 근거리장 플래그가 오디오 소스가 오디오 입력 장치에 가까이 근접함을 가리키는지 여부를 결정하도록 검사를 수행한다. VAD 플래그가 세트되지 않은 경우, SNR 모듈(416)은 공간 잡음 처리 모듈(412)로부터 부분적으로 억제된 오디오 프레임을 수신하고 있고, 프레임에 대한 후속 처리를 수행할 수 있다. 음성이 존재하는 경우, SNR 모듈(416)은 오디오 프레임들을 주파수 영역으로 변환한다. 변환은 도 6의 블록 306과 관련하여 기술된 변환들 중 임의의 것을 사용하여 이루어질 수 있다. SNR 모듈(416)은 각각의 관심 주파수에 대해 근접도 검출 모듈(414)로부터의 근거리장 플래그들을 사용할 수 있다. 근거리장 플래그가 특정한 주파수에 대해 세트된 경우, 프레임의 그 주파수 성분은 억제되지 않는다. 근거리장 플래그가 세트되지 않은 경우, 오디오 프레임의 대응하는 주파수 성분이 억제된다. 또는 그 대신, 억제의 양은 near_field_score(n,f) 또는 근거리장 확률값들 f(u,f)와 연관된다. 전형적으로, 점수 또는 확률이 감소함에 따라, 더 강한 억제가 가해진다. 이러한 처리가 SNR 모듈(416)에서 이루어진 후에, SNR 모듈(416)은 처리된 오디오 프레임들을 역변환을 사용하여 다시 시간 영역으로 변환한다. 처리된 오디오 프레임들은 이후 송신(Tx) 오디오 신호로서 출력될 수 있다.
도 8은 SNR 모듈(416)에 통합될 수 있는 스펙트럼 잡음 감소의 프로세스(600)를 도시하는 보다 상세한 프로세스 블록도이다.
전형적으로, 스펙트럼 억제 프로세스에서는, 도래 신호가 10 ms의 프레임들로 분할된다. 각각의 프레임의 스펙트럼이 계산된다(블록 606, 608). 주어진 프레임이 원하는 신호인지 여부를 결정하기 위한 판정이 내려진다. 이러한 판정은 연판정(soft decision)일 수 있고, 스펙트럼 내의 각각의 주파수에 독립적으로 이루어질 수 있다. 이러한 스펙트럼 계산 및 신호/잡음 판정의 마지막에, 각각의 주파수 f에 대한 신호 에너지 σ2 X(f) 및 잡음 에너지 σ2 N(f)가 갱신된다(각각 블록 606 및 608). 현재 프레임이 주로 잡음을 포함하는 경우, 현재 프레임의 신호는 전형적으로 감쇠된다. 이는 현재 프레임 신호를 이득 계수 G(f)로 곱함으로써 이루어진다(블록 614). G(f)는 대개 감쇠의 적극성(aggressiveness)을 제어하는 소정의 파라미터들을 갖는 σ2 X(f) 및 σ2 N(f)의 함수이다. 이득 계수를 계산하기 위해 흔히 사용되는 두 공식은 아래와 같다.
Figure pct00041
Figure pct00042
여기서 α 및 ε는 적극성 파라미터들이다. α를 증가시키는 것은 감쇠를 더 적극적으로 만들 것이고, 반면 ε를 증가시키는 것은 감쇠를 덜 적극적으로 만들 것이다.
오디오 입력 장치의 전형적인 용법에 있어서, 원하는 음성은 가까운 거리로부터 올 것이고, 반면 멀리서 오는 신호는 대개 잡음일 것이다. 따라서, 배경 잡음을 감소시키기 위해, 신호가 원거리로부터 오는 것으로 검출되는 경우 더 많은 감쇠를 적용하는 것이 바람직하다. 이는 G(f)를 근접도 검출 출력(블록 414) 및/또는 VAD 플래그(블록 410)의 함수로 만드는 것에 의해 이루어질 수 있다. 또한, VAD(410) 및 근접도 검출(414)은 둘 다 오디오 및 잡음 신호 스펙트럼 추정(블록 606 및 608)을 각각 제어할 수 있다. 예컨대, VAD가 켜져 있고 근거리장 플래그가 세트된 경우, 잡음 스펙트럼이 아닌 오디오 신호 스펙트럼을 갱신하기 위해 입력 프레임이 사용된다.
블록 610에서, 적극성 파라미터들이 결정된다. 신호가 멀리서 온 것으로 분류되는 경우, 예컨대 α를 큰 값으로 설정하고 ε를 작은 값으로 설정함으로써 G(f)가 감소된다. 신호가 가까이로부터 온 것으로 분류되는 경우, α를 작은 값으로 설정하고 ε를 큰 값으로 설정함으로써 G(f)가 증가된다. α 및 ε 값들은 near_field_score 또는 확률값의 함수로서 만들어질 수 있다. 전형적으로, α는 near_field_score(확률)에 따라 감소할 것이고 ε는 near_field_score에 따라 증가할 것이다. 다른 형태의 G(f)가 사용되는 경우, 이는 점수 또는 확률이 감소하는 경우에 G(f)가 감소된다는 원리에 따라 유사하게 수정될 수 있다. 순간 G(f)가 계산된 후에, 주파수 축 및 시간 방향에 대해 G(f)를 평활화함으로써 최종 이득 계수가 구해진다(블록 612).
도 9는 예시적인 헤드셋(16)의 소정의 구성요소들을 도시하는 블록도이다. 헤드셋(16)은 본 명세서에 기술된 바와 같은 오디오 소스 근접도 추정 및 잡음 억제를 수행하도록 구성된다. 헤드셋(16)은 무선 인터페이스(700), 마이크(402, 404), 프로세서(704), 메모리(706), 마이크 전처리 모듈(708), 오디오 처리 회로(710) 및 적어도 하나의 헤드폰(HP) 스피커(711)를 포함한다. 구성요소 700 내지 710은 디지털 버스(713)를 사용하여 함께 결합될 수 있다.
프로세서(704)는 메모리(502)에 저장된 소프트웨어 또는 펌웨어를 실행하여 블록 406 내지 416의 기능 및/또는 도 4 내지 6과 관련하여 기술된 근접도 검출 방법들을 제공한다.
프로세서(704)는 ARM7, DSP(Digital Signal Processor), 하나 이상의 ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array), CPLD(Complex Programmable Logic Device), 분리형(discrete) 로직, 또는 이들의 임의의 적합한 조합과 같은 임의의 적합한 프로세서 또는 제어기일 수 있다. 그 대신, 프로세서(704)는 마이크로프로세서-DSP 조합과 같은 복수의 프로세서를 갖는 다중 프로세서 아키텍처(architecture)를 포함할 수 있다. 예시적인 다중 프로세서 아키텍처에 있어서, DSP는 블록 406 내지 416에 대해 기술된 기능들과 같은, 본 명세서에 개시된 오디오 처리 중 적어도 일부를 제공하도록 프로그래밍될 수 있고, 마이크로프로세서는 오디오 입력 장치의 전체 동작을 제어하도록 프로그래밍될 수 있다.
메모리(502) 및 마이크로프로세서(500)는 버스(713)와 같은 공통 버스 상에서 함께 결합되고 통신할 수 있다. 메모리(502) 및 마이크로프로세서(500)는 단일 칩 상으로 집적될 수 있거나, 또는 이들은 별개의 구성요소들이거나 집적형 및 분리형 구성요소들의 임의의 적합한 조합일 수 있다. 또한, 그 대신에 다중 프로세서 및/또는 다중 메모리 배열과 같은 다른 프로세서-메모리 아키텍처들이 사용될 수 있다.
메모리(502)는 플래시 메모리, RAM, ROM, 또는 PROM 등이나 상술한 유형의 메모리들의 임의의 적합한 조합과 같은, 프로그래밍 코드 및/또는 데이터 컨텐트를 저장하기 위한 임의의 적합한 메모리 소자일 수 있다. 별개의 메모리 소자들이 또한 헤드셋(16)에 포함될 수 있다.
마이크 전처리기(708)는 마이크(402, 404)로부터 수신된 전기 신호들을 처리하도록 구성된다. 마이크 전처리기(708)는 마이크(402, 404)에 반응하는 ADC(Analog-to-Digital Converter), 증폭기, 잡음 감소 및 반향 소거 회로(Noise Reduction and Echo Cancellation Circuit; NREC)를 포함할 수 있다. ADC는 마이크들로부터의 아날로그 신호들을 디지털 신호로 변환하고, 이후 디지털 신호는 NREC에 의해 처리된다. 통신 및 음성 제어 애플리케이션들을 위해 바람직하지 않은 오디오 아티팩트(audio artifact)를 감소시키도록 NREC가 이용된다. 마이크 전처리기(708)는 시중에서 입수 가능한 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 적합한 조합을 사용하여 구현될 수 있다.
오디오 처리 회로(710)는 헤드셋(16)의 잡음 억제 처리를 통과한 후에 헤드폰 스피커(들)(711)로 출력되는 디지털화된 오디오 신호들을 부가적으로 처리하기 위한 디지털 회로 및/또는 아날로그 회로를 포함한다. D/A(Digital-to-Analog) 변환, 필터링, 증폭 및 다른 오디오 처리 기능들이 오디오 처리 회로(710)에 의해 수행될 수 있다.
헤드폰 스피커(들)(711)은 오디오 처리 회로(710)로부터 출력되는 전기 신호들을 사용자가 들을 소리로 변환하기 위한 임의의 적합한 오디오 트랜스듀서(들)이다.
무선 인터페이스(700)는 헤드셋(16)이 예컨대 휴대 전화기 등과 같은 다른 장치들과 무선으로 통신할 수 있게 한다. 무선 인터페이스(700)는 송수신기(702)를 포함한다. 무선 인터페이스(700)는 필요한 경우 핸드셋 및 다른 장치들과의 양방향 무선 통신을 제공한다. 바람직하게는, 무선 인터페이스(700)는 시중에서 입수 가능한 블루투스 모듈을 포함하는데, 블루투스 모듈은 블루투스 RF 송수신기, 기저 대역 프로세서, 프로토콜 스택(protocol stack)은 물론, 헤드셋(16) 내의 프로세서(704)와 같은 제어기에 블루투스 모듈을 접속시키기 위한 하드웨어 및 소프트웨어 인터페이스들로 이루어지는 적어도 하나의 블루투스 코어 시스템(Bluetooth core system)을 제공한다. 임의의 적합한 무선 기술이 헤드셋(16)에 이용될 수 있지만, 송수신기(700)는 바람직하게는 블루투스 송수신기이다. 무선 인터페이스(700)는 헤드셋 제어기{예컨대 프로세서(704)}에 의해 제어될 수 있다.
오디오 입력 장치는 세 개 이상의 오디오 센서를 가질 수 있다. 세 개 이상의 오디오 센서가 사용되는 경우, 가능한 각 쌍의 오디오 센서에 대해 근거리장 점수 near_field_score 또는 확률값(이들은 근접도 점수라고 일컬어짐)이 계산될 수 있다. 이후 개별적인 쌍 점수들이 조합되어 최종 점수를 낳을 수 있다. 예컨대, 세 개의 오디오 센서, 다시 말해 1, 2 및 3이 존재하는 경우, 세 개의 가능한 쌍에 대해 세 개의 쌍 점수가 계산될 수 있다. 이러한 근접도 점수들은 오디오 센서 1 및 2에 대해 점수12, 오디오 센서 1 및 3에 대해 점수13, 그리고 오디오 센서 2 및 3에 대해 점수23일 것이다. 최종 점수는 점수들의 평균을 취하거나 점수들의 최대값을 취함으로써, 또는 그 대신에 세 점수 중 가장 큰 두 점수의 평균을 취하고 다른 점수를 무시함으로써 구해질 수 있다. 그리고 다시, 이러한 조합된 near_field_score가 낮은 경우 G(f)가 감소될 것이다.
본 명세서에 개시된 기법들에 따라 처리된 오디오 신호의 예가 도 10에 도시된다. 도 10은 예시적인 배경 잡음 억제를 도시하는 그래프들(800, 802, 804)을 도시한다. 그래프(800)는 오디오 센서로부터의 미가공 입력 오디오 신호의 자취(trace)를 도시한다. 그래프들(800 내지 804)은 오디오 신호가 인간 음성과 잡음의 혼합을 포함하는 때인 제1 시구간(806) 및 오디오 신호가 어떠한 음성도 없이 배경 잡음만을 포함하는 때인 제2 시구간(808)을 포괄한다. 그래프(802)는 구간(806, 808) 동안의 근거리장 플래그의 값을 도시한다. 근거리장 플래그는 도 4 내지 6과 관련하여 본 명세서에 기술된 오디오 소스 근접도 검출 방법들 중 임의의 것에 의해 생성될 수 있다. 그래프(802)의 예에 도시된 바처럼, 인간 음성과 같은 근거리장 소스가 검출되는 때인 제1 구간(806) 동안에 근거리장 플래그가 세트된다. 원거리 오디오 소스로부터의 배경 잡음만이 존재하는 때인 제2 간격(808)에서는 플래그가 세트되지 않는다.
그래프(804)는 잡음 억제가 근거리장 플래그에 따라 적용된 후의 출력 오디오 신호를 도시한다. 구간(806)에서 플래그가 세트되는 경우, 오디오 신호에 대해 잡음 억제가 적용되지 않거나 한정된 잡음 억제가 적용된다. 구간(808)에서 플래그가 세트되지 않는 경우, 그래프(800)에 도시된 바와 같은 배경 잡음은 그래프(804)에 도시된 바처럼 예컨대 SNR 모듈(416)에 의해 더 낮은 레벨로 감소된다. 마지막 그래프(804)에서, 오디오 신호에 대응하는 근접도 정보(예컨대 근거리장 플래그)가 잡음 감소 모듈에 의해 이용되는 경우 배경 잡음이 억제된다.
본 명세서에 개시된 원리들은 휴대 전화기, PDA, 개인용 컴퓨터, 스테레오 시스템 및 비디오 게임기 등을 포함하는 다른 무선 장치들과 같은 다른 장치들에 적용될 수 있다. 또한, 본 명세서에 개시된 원리들은 헤드셋과 다른 장치 사이의 통신 링크가 무선 링크가 아닌 유선 링크인 유선 헤드셋에 적용될 수 있다. 또한, 청구범위로부터 벗어나지 않고, 구체적으로 개시된 것과는 다른 배열로 다양한 구성요소 및/또는 방법 단계/블록이 구현될 수 있다.
본 명세서에 기술된 시스템, 장치, 헤드셋 및 이들의 각각의 구성요소들의 기능은 물론 방법 단계들 및 블록들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 적합한 조합으로 구현될 수 있다. 소프트웨어/펌웨어는 마이크로프로세서, DSP, 내장형 제어기, 또는 IP(Intellectual Property) 코어와 같은 하나 이상의 디지털 회로에 의해 실행 가능한 명령들(예컨대 코드 세그먼트)의 집합들을 갖는 프로그램일 수 있다. 소프트웨어/펌웨어로 구현되는 경우, 기능은 하나 이상의 컴퓨터 판독 가능 매체 상에 명령 또는 코드로서 저장 또는 전송될 수 있다. 컴퓨터 판독 가능 매체는 한 장소에서 다른 장소로의 컴퓨터 프로그램의 전송을 촉진하는 임의의 매체를 포함하는 컴퓨터 저장 매체 및 통신 매체를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 입수 가능한 매체일 수 있다. 한정이 아닌 예를 들자면, 이러한 컴퓨터 판독 가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장 장치, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 또는 원하는 프로그램 코드를 명령 또는 데이터 구조의 형태로 운반 또는 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 또한, 임의의 접속이 온당하게 컴퓨터 판독 가능 매체로 일컬어진다. 예컨대, 동축 케이블, 광섬유 케이블, 꼬인 쌍선(twisted pair), DSL(Digital Subscriber Line), 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들을 사용하여 소프트웨어가 웹사이트, 서버, 또는 다른 원격 소스로부터 전송되는 경우, 동축 케이블, 광섬유 케이블, 꼬인 쌍선, DSL, 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들이 매체의 정의에 포함된다. 본 명세서에 사용되는 바와 같은 디스크(disk) 및 디스크(disc)는 컴팩트 디스크(Compact Disc; CD), 레이저 디스크(laser disc), 광학 디스크(optical disc), DVD(Digital Versatile Disc), 플로피 디스크(floppy disk) 및 블루레이 디스크(blu-ray disc)를 포함하는데, 디스크(disk)는 대개 자기적으로 데이터를 재생하는 반면, 디스크(disc)는 레이저를 사용하여 광학적으로 데이터를 재생한다. 상술한 것들의 조합이 컴퓨터 판독 가능 매체의 범위 내에 또한 포함된다.
소정의 실시예들이 기술되었다. 그러나, 이러한 실시예들에 대한 다양한 변경이 가능하며, 따라서 본 명세서에 제시된 원리들은 다른 실시예들에도 또한 적용될 수 있다. 따라서, 이러한 설명을 참조하여 본 기술 분야의 당업자에게 다른 실시예들 및 변형예들이 용이하게 떠오를 것이다. 따라서, 아래의 청구항들은 본 명세서 및 첨부 도면들과 함께 고찰되는 경우에 이러한 모든 실시예 및 변형예를 포괄하고자 하는 것이다.

Claims (38)

  1. 오디오 소스(audio source)의 근접도를 결정하는 방법으로서,
    복수의 센서들로부터의 복수의 오디오 신호들을 주파수 영역으로 변환하는 단계;
    상기 변환된 오디오 신호들의 진폭들을 결정하는 단계;
    상기 진폭들을 비교하는 단계; 및
    상기 진폭들의 비교에 기초하여 상기 오디오 소스의 근접도(proximity)를 결정하는 단계
    를 포함하는 오디오 소스 근접도 결정 방법.
  2. 제1항에 있어서,
    상기 오디오 신호들 각각을 빔 형성(beamforming)하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  3. 제1항에 있어서,
    상기 변환된 오디오 신호들 각각을 빔 형성하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  4. 제1항에 있어서,
    상기 오디오 신호들 각각을 대역 통과 필터링하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  5. 제1항에 있어서,
    상기 오디오 신호들 각각을 각각의 교정 계수(correction factor)에 의해 증폭시키는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  6. 제1항에 있어서,
    상기 변환 단계는 고속 푸리에 변환(FFT), 이산 코사인 변환(DCT), 이산 푸리에 변환(DFT), 웨이블릿(wavelet) 변환, 또는 상기 변환들의 임의의 적합한 조합을 상기 오디오 신호들에 적용하는 단계를 포함하는 오디오 소스 근접도 결정 방법.
  7. 제1항에 있어서,
    상기 오디오 신호들을 복수의 프레임들로 분할하는 단계;
    상기 프레임들 각각에 대한 각각의 변환된 오디오 신호의 진폭을 결정하여, 상기 진폭들을 생성하는 단계;
    상기 프레임들에 걸쳐 상기 진폭들을 평활화(smoothing)하는 단계;
    상기 변환된 오디오 신호들의 평활화된 진폭들을 서로 비교하여 적어도 하나의 차분 신호를 생성하는 단계; 및
    상기 차분 신호에 기초하여 상기 오디오 소스의 근접도를 결정하는 단계
    를 더 포함하는 오디오 소스 근접도 결정 방법.
  8. 제7항에 있어서,
    상기 차분 신호를 정규화하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  9. 제7항에 있어서,
    상기 평활화된 진폭들을 로그 영역으로 변환하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  10. 제7항에 있어서,
    비선형 함수를 상기 차분 신호에 적용하여 근접도 점수를 생성하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  11. 제10항에 있어서,
    상기 비선형 함수는 S자형(sigmoid) 함수인 오디오 소스 근접도 결정 방법.
  12. 오디오 소스의 근접도를 결정하는 방법으로서,
    복수의 센서들로부터 복수의 오디오 신호들을 수신하는 단계;
    상기 오디오 신호들을 주파수 영역으로 변환하는 단계;
    복수의 주파수들에서 변환된 오디오 신호들의 진폭들을 결정하는 단계;
    상기 주파수들 각각에 대해, 상기 주파수에 대응하는 진폭들을 비교함으로써 차분 신호를 결정하여, 복수의 차분 신호들을 결정하는 단계; 및
    상기 차분 신호들에 기초하여 상기 오디오 소스의 근접도를 결정하는 단계
    를 포함하는 오디오 소스 근접도 결정 방법.
  13. 제12항에 있어서,
    상기 주파수들 각각에서의 차분 신호를 미리 결정된 문턱값과 비교하는 단계; 및
    상기 주파수들 각각에서의 근거리장 플래그(near-field flag)를 상기 주파수에 대한 상기 차분 신호와 상기 미리 결정된 문턱값의 비교에 기초하여 결정하는 단계
    를 더 포함하는 오디오 소스 근접도 결정 방법.
  14. 제12항에 있어서,
    상기 오디오 신호들을 복수의 프레임들로 분할하는 단계; 및
    상기 프레임들 각각에 대한 진폭들을 결정하는 단계
    를 더 포함하는 오디오 소스 근접도 결정 방법.
  15. 제14항에 있어서,
    상기 프레임들에 걸쳐 상기 진폭들을 평활화하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  16. 제15항에 있어서,
    상기 평활화된 진폭들을 로그 영역으로 변환하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  17. 제12항에 있어서,
    상기 차분 신호들을 정규화하여 상기 주파수들 각각에서의 근접도 점수를 결정하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  18. 제12항에 있어서,
    비선형 함수를 상기 차분 신호들에 적용하여 상기 주파수들 각각에서의 근접도 점수를 생성하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  19. 오디오 소스에 응답하여 복수의 오디오 신호들을 출력하는 복수의 오디오 센서들; 및
    상기 오디오 신호들을 주파수 영역으로 변환하고, 변환된 오디오 신호들의 진폭들을 비교함으로써 상기 오디오 소스의 근접도를 결정하도록 구성되는 근접도 검출 모듈
    을 포함하는 장치.
  20. 제19항에 있어서,
    상기 장치는 헤드셋인 장치.
  21. 제20항에 있어서,
    상기 헤드셋은 무선 헤드셋인 장치.
  22. 제19항에 있어서,
    상기 근접도 검출 모듈로부터의 출력에 응답하는 잡음 감소/억제 모듈을 더 포함하는 장치.
  23. 제22항에 있어서,
    상기 잡음 감소/억제 모듈은 오디오 신호 스펙트럼 및 잡음 신호 스펙트럼을 추정하도록 구성되는 장치.
  24. 제19항에 있어서,
    마이크 보정 모듈을 더 포함하는 장치.
  25. 제19항에 있어서,
    음성 활동 검출(VAD) 모듈을 더 포함하는 장치.
  26. 제19항에 있어서,
    반향 소거 모듈을 더 포함하는 장치.
  27. 복수의 센서들로부터의 복수의 오디오 신호들을 주파수 영역으로 변환하기 위한 수단;
    변환된 오디오 신호들의 진폭들을 결정하기 위한 수단;
    상기 진폭들을 비교하기 위한 수단; 및
    상기 진폭들의 비교에 기초하여 오디오 소스의 근접도를 결정하기 위한 수단
    을 포함하는 장치.
  28. 하나 이상의 프로세서들에 의해 실행 가능한 명령들의 집합을 구현하는 컴퓨터 판독 가능 매체로서,
    복수의 센서들로부터의 복수의 오디오 신호들을 주파수 영역으로 변환하기 위한 코드;
    변환된 오디오 신호들의 진폭들을 결정하기 위한 코드;
    상기 진폭들을 비교하기 위한 코드; 및
    상기 진폭들의 비교에 기초하여 오디오 소스의 근접도를 결정하기 위한 코드
    를 포함하는 컴퓨터 판독 가능 매체.
  29. 제28항에 있어서,
    잡음 감소/억제를 위한 코드를 더 포함하는 컴퓨터 판독 가능 매체.
  30. 제29항에 있어서,
    오디오 신호 스펙트럼 및 잡음 신호 스펙트럼을 추정하기 위한 코드를 더 포함하는 컴퓨터 판독 가능 매체.
  31. 제28항에 있어서,
    음성 활동 검출을 위한 코드를 더 포함하는 컴퓨터 판독 가능 매체.
  32. 오디오 소스의 근접도를 결정하는 방법으로서,
    복수의 센서들로부터 복수의 오디오 신호들을 수신하는 단계;
    상기 오디오 신호들을 빔 형성하는 단계;
    상기 빔 형성된 오디오 신호들의 진폭들을 결정하는 단계;
    상기 진폭들을 비교하는 단계; 및
    상기 진폭들의 비교에 기초하여 상기 오디오 소스의 근접도를 결정하는 단계
    를 포함하는 오디오 소스 근접도 결정 방법.
  33. 제32항에 있어서,
    상기 결정 단계는,
    근거리장 점수를 계산하는 단계; 및
    상기 근거리장 점수에 기초하여 상기 오디오 소스의 근접도를 결정하는 단계
    를 포함하는 오디오 소스 근접도 결정 방법.
  34. 제32항에 있어서,
    상기 결정 단계는,
    근거리장 확률값을 계산하는 단계; 및
    상기 근거리장 확률값에 기초하여 상기 오디오 소스의 근접도를 결정하는 단계
    를 포함하는 오디오 소스 근접도 결정 방법.
  35. 제32항에 있어서,
    상기 오디오 신호들 각각을 각각의 교정 계수에 의해 증폭시키는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  36. 제32항에 있어서,
    상기 오디오 신호들을 복수의 프레임들로 분할하는 단계;
    상기 프레임들 각각에 대한 각각의 빔 형성된 오디오 신호의 진폭을 결정하여, 상기 진폭들을 생성하는 단계;
    상기 프레임들에 걸쳐 상기 진폭들을 평활화하는 단계;
    상기 빔 형성된 오디오 신호들의 평활화된 진폭들을 서로 비교하여 적어도 하나의 차분 신호를 생성하는 단계; 및
    상기 차분 신호에 기초하여 상기 오디오 소스의 근접도를 결정하는 단계
    를 더 포함하는 오디오 소스 근접도 결정 방법.
  37. 제36항에 있어서,
    상기 차분 신호를 정규화하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
  38. 제36항에 있어서,
    비선형 함수를 상기 차분 신호에 적용하여 근접도 점수를 생성하는 단계를 더 포함하는 오디오 소스 근접도 결정 방법.
KR1020117011581A 2008-10-24 2009-10-23 잡음 감소를 위한 센서 어레이를 사용한 오디오 소스 근접도 추정 KR101260131B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10841308P 2008-10-24 2008-10-24
US61/108,413 2008-10-24
US12/603,824 US8218397B2 (en) 2008-10-24 2009-10-22 Audio source proximity estimation using sensor array for noise reduction
US12/603,824 2009-10-22
PCT/US2009/061807 WO2010048490A1 (en) 2008-10-24 2009-10-23 Audio source proximity estimation using sensor array for noise reduction

Publications (2)

Publication Number Publication Date
KR20110090940A true KR20110090940A (ko) 2011-08-10
KR101260131B1 KR101260131B1 (ko) 2013-05-02

Family

ID=42117378

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117011581A KR101260131B1 (ko) 2008-10-24 2009-10-23 잡음 감소를 위한 센서 어레이를 사용한 오디오 소스 근접도 추정

Country Status (7)

Country Link
US (1) US8218397B2 (ko)
EP (1) EP2353159B1 (ko)
JP (1) JP5551176B2 (ko)
KR (1) KR101260131B1 (ko)
CN (1) CN102197422B (ko)
TW (1) TW201042634A (ko)
WO (1) WO2010048490A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014168322A1 (ko) * 2013-04-08 2014-10-16 주식회사 프라센 근접 센서 없이 사용자의 귀가 전자 장치에 근접해 있는지 여부 또는 사용자가 전자 장치의 디스플레이를 보고 있는지 여부를 판단하는 방법 및 장치

Families Citing this family (252)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8218397B2 (en) * 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5493611B2 (ja) * 2009-09-09 2014-05-14 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8988970B2 (en) * 2010-03-12 2015-03-24 University Of Maryland Method and system for dereverberation of signals propagating in reverberative environments
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8452037B2 (en) 2010-05-05 2013-05-28 Apple Inc. Speaker clip
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
WO2011149969A2 (en) * 2010-05-27 2011-12-01 Ikoa Corporation Separating voice from noise using a network of proximity filters
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8644519B2 (en) 2010-09-30 2014-02-04 Apple Inc. Electronic devices with improved audio
US8666082B2 (en) 2010-11-16 2014-03-04 Lsi Corporation Utilizing information from a number of sensors to suppress acoustic noise through an audio processing system
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8811648B2 (en) 2011-03-31 2014-08-19 Apple Inc. Moving magnet audio transducer
US8811601B2 (en) 2011-04-04 2014-08-19 Qualcomm Incorporated Integrated echo cancellation and noise suppression
US9007871B2 (en) 2011-04-18 2015-04-14 Apple Inc. Passive proximity detection
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
US20130028443A1 (en) 2011-07-28 2013-01-31 Apple Inc. Devices with enhanced audio
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8989428B2 (en) 2011-08-31 2015-03-24 Apple Inc. Acoustic systems in electronic devices
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
US9199380B2 (en) * 2011-10-28 2015-12-01 University Of Washington Through Its Center For Commercialization Acoustic proximity sensing
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
US8903108B2 (en) 2011-12-06 2014-12-02 Apple Inc. Near-field null and beamforming
US9020163B2 (en) 2011-12-06 2015-04-28 Apple Inc. Near-field null and beamforming
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9183844B2 (en) * 2012-05-22 2015-11-10 Harris Corporation Near-field noise cancellation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
EP2677725B1 (en) * 2012-06-21 2016-01-13 GN Netcom A/S A headset system with a headset unit and a detachable wearing device
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8965033B2 (en) * 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9460590B2 (en) 2012-09-24 2016-10-04 Wal-Mart Stores, Inc. Determination of customer proximity to a register through use of sound and methods thereof
US9820033B2 (en) 2012-09-28 2017-11-14 Apple Inc. Speaker assembly
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US8858271B2 (en) 2012-10-18 2014-10-14 Apple Inc. Speaker interconnect
US9357299B2 (en) 2012-11-16 2016-05-31 Apple Inc. Active protection for acoustic device
US9424859B2 (en) * 2012-11-21 2016-08-23 Harman International Industries Canada Ltd. System to control audio effect parameters of vocal signals
US8942410B2 (en) 2012-12-31 2015-01-27 Apple Inc. Magnetically biased electromagnet for audio applications
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
CN105210364A (zh) * 2013-02-25 2015-12-30 视听公司 在视频回放期间的动态音频空间感改变
US20140272209A1 (en) 2013-03-13 2014-09-18 Apple Inc. Textile product having reduced density
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
RU2536343C2 (ru) * 2013-04-15 2014-12-20 Открытое акционерное общество "Концерн "Созвездие" Способ выделения речевого сигнала в условиях наличия помех и устройство для его осуществления
CN105378826B (zh) 2013-05-31 2019-06-11 诺基亚技术有限公司 音频场景装置
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9392353B2 (en) * 2013-10-18 2016-07-12 Plantronics, Inc. Headset interview mode
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9451354B2 (en) 2014-05-12 2016-09-20 Apple Inc. Liquid expulsion from an orifice
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
CN103987000A (zh) * 2014-05-28 2014-08-13 深圳市金立通信设备有限公司 一种音频修正的方法及终端
CN103987001A (zh) * 2014-05-28 2014-08-13 深圳市金立通信设备有限公司 一种音频修正的方法及装置
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20160057597A1 (en) * 2014-08-25 2016-02-25 Telecommunication Systems, Inc. Audio emergency beacon
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10257240B2 (en) * 2014-11-18 2019-04-09 Cisco Technology, Inc. Online meeting computer with improved noise management logic
US9525943B2 (en) 2014-11-24 2016-12-20 Apple Inc. Mechanically actuated panel acoustic system
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
GB2538853B (en) 2015-04-09 2018-09-19 Dolby Laboratories Licensing Corp Switching to a second audio interface between a computer apparatus and an audio apparatus
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN106157967A (zh) * 2015-04-28 2016-11-23 杜比实验室特许公司 脉冲噪声抑制
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9847093B2 (en) 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106328151B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种环噪消除系统及其应用方法
CN106328154B (zh) * 2015-06-30 2019-09-17 芋头科技(杭州)有限公司 一种前端音频处理系统
US9900698B2 (en) 2015-06-30 2018-02-20 Apple Inc. Graphene composite acoustic diaphragm
KR101731714B1 (ko) * 2015-08-13 2017-04-28 중소기업은행 음질 개선을 위한 방법 및 헤드셋
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US9858948B2 (en) 2015-09-29 2018-01-02 Apple Inc. Electronic equipment with ambient noise sensing input circuitry
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106604183B (zh) 2015-10-20 2020-06-26 华为终端有限公司 控制终端的多麦克风降噪的拾音范围的方法和装置
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DE102016115243A1 (de) * 2016-04-28 2017-11-02 Masoud Amri Programmieren in natürlicher Sprache
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018101868A1 (en) * 2016-12-02 2018-06-07 Dirac Research Ab Processing of an audio input signal
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
WO2018140444A1 (en) * 2017-01-26 2018-08-02 Walmart Apollo, Llc Shopping cart and associated systems and methods
KR101893768B1 (ko) * 2017-02-27 2018-09-04 주식회사 브이터치 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10395667B2 (en) * 2017-05-12 2019-08-27 Cirrus Logic, Inc. Correlation-based near-field detector
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
EP3425923A1 (en) * 2017-07-06 2019-01-09 GN Audio A/S Headset with reduction of ambient noise
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US11307661B2 (en) 2017-09-25 2022-04-19 Apple Inc. Electronic device with actuators for producing haptic and audio output along a device housing
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108391190B (zh) * 2018-01-30 2019-09-20 努比亚技术有限公司 一种降噪方法、耳机及计算机可读存储介质
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10873798B1 (en) 2018-06-11 2020-12-22 Apple Inc. Detecting through-body inputs at a wearable audio device
US10757491B1 (en) 2018-06-11 2020-08-25 Apple Inc. Wearable interactive audio device
US11334032B2 (en) 2018-08-30 2022-05-17 Apple Inc. Electronic watch with barometric vent
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11561144B1 (en) 2018-09-27 2023-01-24 Apple Inc. Wearable electronic device with fluid-based pressure sensing
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109841214B (zh) * 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN114399014A (zh) 2019-04-17 2022-04-26 苹果公司 无线可定位标签
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
CN111667842B (zh) * 2020-06-10 2023-10-31 北京达佳互联信息技术有限公司 音频信号处理方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63262577A (ja) * 1987-04-20 1988-10-28 Sony Corp マイクロホン装置
JP3279612B2 (ja) * 1991-12-06 2002-04-30 ソニー株式会社 雑音低減装置
US5732143A (en) * 1992-10-29 1998-03-24 Andrea Electronics Corp. Noise cancellation apparatus
JPH07135694A (ja) * 1993-11-11 1995-05-23 Matsushita Electric Ind Co Ltd マイクロホン
US6549630B1 (en) * 2000-02-04 2003-04-15 Plantronics, Inc. Signal expander with discrimination between close and distant acoustic source
JP2002218583A (ja) * 2001-01-17 2002-08-02 Sony Corp 音場合成演算方法及び装置
DE60325595D1 (de) * 2002-07-01 2009-02-12 Koninkl Philips Electronics Nv Von der stationären spektralleistung abhängiges audioverbesserungssystem
JP4247002B2 (ja) * 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
JP2005303574A (ja) * 2004-04-09 2005-10-27 Toshiba Corp 音声認識ヘッドセット
US7970150B2 (en) 2005-04-29 2011-06-28 Lifesize Communications, Inc. Tracking talkers using virtual broadside scan and directed beams
US8345890B2 (en) * 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) * 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
EP1830348B1 (en) * 2006-03-01 2016-09-28 Nuance Communications, Inc. Hands-free system for speech signal acquisition
US20080152167A1 (en) * 2006-12-22 2008-06-26 Step Communications Corporation Near-field vector signal enhancement
US20080175408A1 (en) 2007-01-20 2008-07-24 Shridhar Mukund Proximity filter
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
WO2009069184A1 (ja) * 2007-11-26 2009-06-04 Fujitsu Limited 音処理装置、補正装置、補正方法及びコンピュータプログラム
US8218397B2 (en) * 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014168322A1 (ko) * 2013-04-08 2014-10-16 주식회사 프라센 근접 센서 없이 사용자의 귀가 전자 장치에 근접해 있는지 여부 또는 사용자가 전자 장치의 디스플레이를 보고 있는지 여부를 판단하는 방법 및 장치

Also Published As

Publication number Publication date
CN102197422A (zh) 2011-09-21
JP2012507046A (ja) 2012-03-22
TW201042634A (en) 2010-12-01
EP2353159B1 (en) 2013-03-27
JP5551176B2 (ja) 2014-07-16
US8218397B2 (en) 2012-07-10
KR101260131B1 (ko) 2013-05-02
WO2010048490A1 (en) 2010-04-29
EP2353159A1 (en) 2011-08-10
US20100103776A1 (en) 2010-04-29
CN102197422B (zh) 2013-12-18

Similar Documents

Publication Publication Date Title
KR101260131B1 (ko) 잡음 감소를 위한 센서 어레이를 사용한 오디오 소스 근접도 추정
JP5313268B2 (ja) 複数のデバイス上の複数のマイクロフォンを用いた音声強調
US8898058B2 (en) Systems, methods, and apparatus for voice activity detection
US9432766B2 (en) Audio processing device comprising artifact reduction
US8675884B2 (en) Method and a system for processing signals
US8391507B2 (en) Systems, methods, and apparatus for detection of uncorrelated component
US8620672B2 (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
KR101449433B1 (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
US20190273988A1 (en) Beamsteering
KR20080092404A (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
US20140037100A1 (en) Multi-microphone noise reduction using enhanced reference noise signal
JP5903921B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム
CN115348520A (zh) 包括反馈控制系统的助听器
US20230308817A1 (en) Hearing system comprising a hearing aid and an external processing device
JP2015019262A (ja) 音量調整装置、音量調整方法及び音量調整システム
US20240064478A1 (en) Mehod of reducing wind noise in a hearing device
EP3764360B1 (en) Signal processing methods and systems for beam forming with improved signal to noise ratio
US20230097305A1 (en) Audio device with microphone sensitivity compensator
US20230098384A1 (en) Audio device with dual beamforming
CN115884023A (zh) 具有干扰衰减器的音频设备
CN116405818A (zh) 包括低复杂性波束形成器的听力装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee