KR101669866B1 - 음향 신호 조정 - Google Patents

음향 신호 조정 Download PDF

Info

Publication number
KR101669866B1
KR101669866B1 KR1020147018003A KR20147018003A KR101669866B1 KR 101669866 B1 KR101669866 B1 KR 101669866B1 KR 1020147018003 A KR1020147018003 A KR 1020147018003A KR 20147018003 A KR20147018003 A KR 20147018003A KR 101669866 B1 KR101669866 B1 KR 101669866B1
Authority
KR
South Korea
Prior art keywords
acoustic
transfer function
microphone
acoustic signal
sound
Prior art date
Application number
KR1020147018003A
Other languages
English (en)
Other versions
KR20140097530A (ko
Inventor
데이비드 엘 그라우만
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Publication of KR20140097530A publication Critical patent/KR20140097530A/ko
Application granted granted Critical
Publication of KR101669866B1 publication Critical patent/KR101669866B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02085Periodic noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Abstract

음향 신호를 조정하기 위한 시스템 및 방법은 음향 전달 함수를 이용하여 하나 이상의 마이크로폰에 의해 제공된다. 음향 전달 함수는 음향 모델 및 음향 요소의 결정된 위치에 적어도 부분적으로 기반하여 결정될 수 있다.

Description

음향 신호 조정{ACOUSTIC SIGNAL MODIFICATION}
본 개시 내용은 일반적으로 음향 신호에 관한 것으로, 특히 음향 신호를 조정하는 것에 관한 것이다.
음성 인식 기술은 사운드에 의해 작동되는 마이크로폰을 통해 수집된 음향 신호로부터 텍스트를 생성할 수 있다. 음성 인식은 하나 이상의 마이크로폰으로부터의 음향 신호를 해석하고 그 신호를 공지의 알고리즘 또는 모델, 예를 들면, 은닉 마르코프 모델(Hidden Markov Models (HMM))을 적용하여 단어 해석하는 음성 인식 엔진에 의존할 수 있다. 그러한 기술은 전자 받아쓰기, 음성 명령 인식, 및 전화 기반의 대화형 음성 응답 고객 서비스 엔진을 포함하여, 다양한 목적을 위해 점점 더 효율적으로 사용되었다.
차량 환경은 음성 인식 기술로부터 특히 이익을 얻을 수 있는데, 이는, 차량의 운전자들에게는 음성 인식 엔진에 의해 인식된 음성 명령을 사용하는 것과 같이, 핸즈-프리 방식으로 명령을 제공하고 차량과 기타 주변 장치를 제어하는 것이 바람직하기 때문이다. 그러므로, 음성 인식 기술을 자동차 애플리케이션에 배치하면 개선된 교통 안전과 향상된 운전자 경험을 제공할 수 있다.
음성 인식 기술의 성능은 보다 빠른 프로세서와 발전된 음성인식 방법의 개발에 따라 향상되었다. 특히, 음성 인식 엔진에 의해 단어를 인식하는 정확도가 향상되었다. 다시 말해서, 단어 오차율(word error rates (WERs))과 같은, 정확도를 바탕으로 한 음성 인식용 지표(accuracy-based metrics)에서의 발전이 있었다.
음성 인식 기술의 성능의 개선과 진전에 불구하고, 차량 환경과 같은 특정 환경에서 음성 인식의 정확도는 여전히 상대적으로 오류를 일으키기 쉬울 수 있다. 예를 들면, 차량 운전석과 같이, 음파가 복수의 경로를 통해 마이크로폰에 도달할 수 있는, 그리고 엔진 잡음 및 도로 잡음 등과 같은 다른 잡음이 존재하는, 비교적 시끄러운 환경 또는 밀폐된 방에서의 음성 인식 엔진은 차선책일 수 있거나 그렇지 않으면 성능 저하될 수 있다.
이제, 참조되는 첨부 도면은, 반드시 축척대로 그려지지는 않을 수 있다.
도 1은 개시 내용의 실시예에 따라서 차량에 연관되어 음향 신호를 조정하기 위한 예시적인 방법을 도시하는 간략화된 도면이다.
도 2는 개시 내용의 실시예에 따라서 조정된 음향 신호를 음성 인식 엔진에 제공하는 예시적인 방법을 도시하는 흐름도이다.
도 3은 도 1의 차량의 예시적인 운전석을 도시하는 간략화된 톱 다운 뷰의 개략도로서, 이 도면에서 개시 내용의 실시예에 따라 예시적인 음향 모델이 생성될 수 있다.
도 4는 도 3의 예시적인 운전석을 도시하는 간략화된 개략적인 측면도로서, 이 도면에서 개시 내용의 실시예에 따라 예시적인 음향 모델이 생성될 수 있다.
도 5는 도 3의 예시적인 운전석을 도시하는 간략화된 톱 다운 뷰의 개략도로서, 이 도면에서 개시 내용의 실시예에 따라서 예시적인 오디오 요소가 하나 이상의 마이크로폰으로부터 사운드를 생성하고 음향 신호를 발생시킬 수 있다.
도 6은 개시 내용의 실시예에 따라서 음향 신호를 조정하기 위한 예시적인 시스템을 도시하는 간략화된 블록도이다.
도 7은 개시 내용의 실시예에 따라서 음향 신호를 조정하기 위해 추적된 예시적인 오디오 요소를 도시하는 간략화된 개략도이다.
도 8은 도 3의 운전석을 도시하는 간략화된 개략도로서, 이 도면에서 개시 내용의 실시예에 따라서 예시적인 사운드 경로가 오디오 요소로부터 하나 이상의 마이크로폰으로 전달된다.
도 9는 개시 내용의 실시예에 따라서 오디오 전달 함수의 예시적인 추정을 설명하는 간략화된 블록도이다.
도 10은 개시 내용의 실시예에 따라서 하나 이상의 마이크로폰의 각각으로부터의 오디오 신호를 조정하고 예시적인 조정된 음성 신호를 음성 인식 엔진에 제공하는 것을 도시하는 개략도이다.
본 발명의 실시예는, 개시된 실시예들이 도시된 첨부 도면을 참조하여 이하에서 더 상세히 기술될 것이다. 그러나, 본 발명은 많은 다른 형태로 구현될 수 있으며 본 출원에서 제시되는 실시예로 제한되는 것으로 해석되지 않아야 하며, 그 보다는 본 개시내용이 철저하고 완전하게 될 수 있도록 그리고 본 기술에서 통상의 지식을 가진 자들에게 본 발명의 범주를 완전히 전달할 수 있도록 제공된다. 유사한 참조부호는 유사한 구성요소를 지칭한다.
개시 내용의 실시예는 하나 이상의 마이크로폰에서 발생된 사운드에 대응하는 오디오 신호를 조정하기 위한 시스템, 방법, 및 장치를 제공할 수 있다. 일 양태에서, 마이크로폰은 차량의 운전석과 같이 시끄러운 음향 환경일 수 있는 및/또는 음향 반향(acoustic echoing)을 받기 쉬운 밀폐된 볼륨 또는 환경에서 제공될 수 있다. 하나 이상의 마이크로폰으로부터 나온 조정된 오디오 신호들이 합해지고 음성 인식 엔진에 제공되어 차량 내에서의 음성 명령 또는 텍스트 입력의 인식을 포함하여, 각종 어플리케이션에 개선된 음성 인식을 가능하게 해줄 수 있다. 조정된 오디오 신호는 마이크로폰에 의해 발생된 조정되지 않은 오디오 신호보다 에코 및 잡음에 덜 변질될 수 있다. 일 양태에서, 음성 인식 엔진에 제공된 조정된 오디오 신호는 결과적으로 단어 오류율(WER)을 상대적으로 더 낮출 수 있다. 개시 내용의 실시예는 부분적으로 사운드 발생 요소의 위치에 기반하여 하나 이상의 마이크로폰 각각 마다 음향 전달 함수를 상세히 결정하는 단계를 더 포함할 수 있다. 또한, 차량의 운전석과 같은 볼륨 또는 환경의 음향 모델은 하나 이상의 마이크로폰 각각의 음향 전달 함수를 결정하는데 사용될 수 있다. 일 양태에서, 볼륨 또는 환경의 음향 모델은 차량의 제조자 또는 적절한 서비스 제공자와 같은 제3자에 의해 결정될 수 있다.
개시 내용의 예시적인 실시예들은 이제 첨부 도면을 참조하여 기술될 것이다.
이제 도 1을 참조하면, 개시 내용의 실시예에 따라서 차량(102)에서 음향 신호를 해석하기 위한 예시적인 방법(100)이 설명된다. 이러한 설명의 목적을 위해, 차량(102)은 승용차, 트럭, 소형화물 트럭, 대형화물 트럭, 픽업 트럭, 미니밴, 크로스 오버 차량, 밴, 상업용 차량, 개인 차량, 트랙터-트레일러, 비행기, 제트기, 헬리콥터, 우주선, 선박, 또는 상대적으로 폐쇄된 운전석을 갖는 어떤 다른 적합한 차량을 포함할 수 있지만, 이것으로 제한되지 않는다. 그러나, 개시 내용의 실시예는 상대적으로 패쇄된 영역이 제공되는 다른 환경에서도 활용될 수 있다는 것이 인식될 것이다.
블록(104)에서, 차량(102)의 3차원(3-D) 음향 모델이 결정된다. 일 양태에서, 차량의 음향 모델은 최종 소비자에 의한 차량(102)의 구입 이전에 결정될 수 있다. 예를 들면, 차량의 제조자 또는 서비스 공급자(예를 들면, 제조자 등을 대리하는 서비스 공급자)는 차량(102)이 차량 대리점에 제공된 다음 최종 사용자에 의해 매매되기 전에 차량(102)의 음향 모델을 결정할 수 있다. 그러므로, 일 양태에서, 차량(102)의 최종 소비자는 차량(102)의 3-D 음향 모델을 결정해야 하는 것은 아니다. 차량(102)의 3-D 음향 모델은 차량(102)과 연관된 전자 메모리에 저장될 수 있다. 특히, 전자 메모리는 차량(102)과 연관된 오디오 신호를 조정하기 위한 시스템 내에 제공될 수 있다.
블록(106)에서, 3-D 음향 모델은 음향 신호를 해석 또는 조정하기 위해 사용될 수 있다. 음향 신호는 차량(102) 내부에서 생성된 사운드 또는 압축 파에 기반하여 발생될 수 있다. 예를 들면, 음향 신호는 차량 내에서 발생된 사운드에 의해 작동되는 마이크로폰에 의해, 이를 테면, 차량(102)의 운전자 또는 차량(102)의 운전석 내 다른 사용자에 의해 발생될 수 있다. 그러므로, 본질적으로, 특정 실시예에서 차량(102) 내에서 발생된 사운드를 더욱 정확하고 정밀하게 해석하는데 사용될 수 있는 차량(102)의 음향 모델이 생성되고 제공된다. 특정한 양태에서, 음향 신호는 음성-대-텍스트 기능을 제공하는 음성 인식 엔진에 의해 해석될 수 있다.
3-D 음향 모델을 이용하여 오디오 신호를 해석하는 상세 내용은 이제 도 2를 참조하여 설명될 것이다. 블록(122)에서, 개시 내용의 실시예에 따라서 조정된 음향 신호를 음성 인식 엔진에 제공하는 방법(120)은, 도 1을 참조하여 기술된 바와 같이, 차량의 3-D 음향 모델과 같은 적어도 하나의 음향 모델을 생성하는 단계를 포함할 수 있다. 특정 실시예에서, 음향 모델은 차량(102)의 제조자에 의해 생성될 수 있다. 다른 실시예에서, 음향 모델은 차량(102)을 판매하는 대리점에 의해 생성될 수 있다. 또 다른 실시예에서, 음향 모델은, 최종 사용자, 예를 들면, 차량의 운전자 또는 소유자에 의해 생성될 수 있다. 일 양태에서, 음향 모델은 차량 제조자에 의해 제조된 각 차량(102)마다 생성될 수 있다. 다른 양태에서, 음향 모델은 각 유형의 차량마다 제공될 수 있다. 예를 들면, 블록(122)에서, 특정 제조자, 모델, 년식, 및/또는 장식의 모든 차량은 동일한 음향 모델을 가질 수 있다.
특정 실시예에서, 음향 모델은 사운드가 발생되고 결과적인 음향 신호가 조정되는 볼륨 내 임의의 개수의 각각의 공간 위치에 대응하는 음향 전달 함수를 포함할 수 있다. 일 양태에서, 공간 위치는 3차원 공간에서 규정되어 결과적으로 3-D 음향 모델을 생성할 수 있다. 대안으로, 공간 위치는 2차원 공간에서 규정되어 결과적으로 2-D 음향 모델을 생성할 수 있다. 다른 대안으로서, 공간 위치는 일차원에서 규정되어 결과적으로 1차원 음향 모델을 생성할 수 있다. 개시 내용의 나머지 부분의 목적 상, 발명자들은 3-D 음향 모델을 고려할 것이지만, 기술되는 시스템, 방법 및 장치는 3-D 음향 모델이 아닌 모델에도 적용할 수 있다는 것을 주목하여야 한다.
그 다음, 블록(124)에서, 관심 영역의 위치가 모니터될 수 있다. 관심 영역은 사운드를 발생하는 음향 요소를 포함할 수 있다. 일 양태에서, 관심 영역은 사람의 입술 고리(lip ring)일 수 있다. 입술 고리는 사람 입술과 입 주위의 얼굴 영역이며 입술을 포함한다. 입술 고리의 위치는, 예를 들면, 전하 결합 소자(CCD) 기반 디지털 카메라와 같은 이미지 센서에 의해 모니터될 수 있다. 다른 양태에서, 입술 고리의 위치는 레인지 센서(range sensor)와 같이 각종의 공지된 모든 거리 센서를 이용하여 결정될 수 있다. 특정 실시예에서, 관심 영역의 위치는 이미지 센서 및 레인지 센서 둘 다를 이용하여 모니터될 수 있다.
블록(126)에서, 적어도 하나의 마이크로폰에 대한 음향 전달 함수는 블록(122)에서 발생된 바와 같은 차량(102)의 적어도 하나의 음향 모델과 함께, 블록(124)에서 모니터된 바와 같이 적어도 부분적으로 관심 영역의 위치에 근거하여 결정될 수 있다. 예를 들어, 음향 전달 함수는 차량(102)의 음향 모델에서 제공된 데이터의 체적 외삽(volumetric extrapolation)에 의해 결정될 수 있다. 다른 예로서, 음향 전달 함수는 공중 외삽(aerial extrapolation), 선형 외삽(linear extrapolation), 체적 보간(volumetric interpolation), 공중 보간(aerial interpolation), 선형 보간(linear interpolation), 및/또는 임의의 다른 공지된 외삽 또는 보간 방법의 임의의 조합에 의해 결정될 수 있다. 하나 이상의 마이크로폰의 각각에 대응하는 음향 전달 함수를 결정 또는 추정하는데 사용된 외삽 또는 보간과 같은 수학적 조작은 선형, 이차, n차 다항식, 로그, 지수, 및/또는 다른 모든 공지된 수학적 조작을 포함할 수 있다. 일 양태에서, 음향 전달 함수는 입술 고리와 같은, 적어도 부분적으로 관심 영역의 위치에 근거하여 적어도 하나의 마이크로폰의 각각 마다 생성될 수 있다. 예를 들면, 만일 차량(102)에 네 개의 마이크로폰이 있다면, 차량(102) 내 네 개의 마이크로폰의 각각에 대응하는 네 개의 상이한 전달 함수가 발생될 수 있다. 네 개의 전달 함수는 각기 블록(124)에서 결정된 바와 같은 입술 고리의 위치 및 블록(122)에서 제공된 바와 같은 차량의 음향 모델에 근거하여 생성될 수 있다.
블록(128)에서, 적어도 하나의 마이크로폰에서 사운드가 수신되며, 수신된 음파에 대응하는 음향 신호가 적어도 하나의 마이크로폰에 의해 발생된다. 그러므로, 적어도 하나의 마이크로폰의 출력은 적어도 하나의 마이크로폰에 각각 대응하는 미조정된 음향 신호이다. 일 양태에서, 발생된 음향 신호의 개수는 차량(102) 내 마이크로폰의 개수와 같을 수 있다.
블록(130)에서, 각각의 음향 신호는 블록(128)에서 결정된 바와 같이, 각각의 마이크로폰에 대응하는 각각의 음향 전달 함수에 근거하여 조정된다. 각각의 마이크로폰으로부터 출력된 미조정된 음향 신호는 조정된 음향 신호를 생성하기 위해 상기 결정된 대응하는 음향 전달 함수의 역이 곱해질 수 있다.
블록(132)에서, 각각의 조정된 음향 신호는 음성 인식 엔진에 제공될 수 있다. 그런 다음, 음성 인식 엔진은 각각의 조정된 음향 신호를 이용하여 음성으로부터 텍스트를 생성한다. 음성 기능으로부터 만들어진 텍스트는 음성 명령, 텍스트 이미지 받아쓰기, 또는 전자 메일 받아쓰기 등을 포함하여 각종 목적으로 사용될 수 있지만, 이것으로 제한되지 않는다. 특정 실시예에서, 조정된 음향 신호는 음성 인식 엔진에 제공되기에 앞서 선택적으로 합산될 수 있다.
방법(120)은 개시 내용의 특정 실시예에 따라서 여러 방식으로 조정될 수 있다는 것을 주목하여야 한다. 예를 들면, 방법(120)의 하나 이상의 동작들은 개시 내용의 다른 실시예에서 제거되거나 또는 순서가 바뀌어 실행될 수 있다. 또한, 개시 내용의 다른 실시예에 따라서 다른 동작들이 방법(120)에 추가될 수 있다.
차량(102)의 음향 모델을 발생하는 예시적인 프로세스는 도 3 및 도 4를 참조하여 기술된 바와 같이 차량(102)의 운전석(150) 내부에서 구현될 수 있다. 운전석(150)은 운전자의 좌석(152), 대시 보드(156), 및 마이크로폰(160A, 160B, 및 160C, 및 160N)와 같은 임의의 개수의 마이크로폰을 포함할 수 있다. 스피커(170) 또는 다른 적절한 사운드 발생 장치는 차량(102)의 동작 중에 사운드 발생될 수 있는 대략의 위치에 제공될 수 있다. 스피커(170)는 음향 모델의 생성 중에 음파 또는 사운드(172)로서 묘사된 임펄스파 또는 음파를 방출할 수 있다. 운전석(150)은 방사선(175)을 방사하는 방사선 방사기(174) 및/또는 레인지 센서(176)를 더 포함할 수 있다. 운전석(150)은 이미지 센서(178)를 더 포함할 수 있다. 비록 네 개의 마이크로폰들(160A-N)이 도시되지만, 몇 개의 마이크로폰이라도 가능할 수 있다. 마이크로폰은, 콘덴서 마이크로폰, 다이나믹 마이크로폰, 캐패시턴스 다이아프램 마이크로폰, 압전 마이크로폰, 광 픽업 마이크로폰, 또는 이들의 조합을 포함하는 모든 공지된 형태일 수 있으며, 이것으로 제한되지 않는다. 더욱이, 마이크로폰들(160A-N)은 임의의 지향성 및 감도를 가질 수 있다. 예를 들면, 마이크로폰들(160A-N)은 무지향성, 단일 지향성(uni-directional), 카디오이드(cardioid), 또는 양지향성(bi-directional)일 수 있다. 마이크로폰들(160A-N)은 동일한 종류 또는 혼합된 종류일 수 있다는 것 또한 주목하여야 한다. 예를 들면, 마이크로폰(160A-N) 중 일부는 콘덴서 마이크로폰일 수 있고 다른 마이크로폰은 다이나믹 마이크로폰일 수 있다.
스피커(170)는 사운드(172)를 발생시킬 수 있는 모든 공지된 종류일 수 있다. 일 양태에서, 스피커(170)는 전기 신호를 받아 사운드(172)를 발생할 수 있다. 사운드(172)는 각종의 톤, 크기, 및 리듬을 가질 수 있다. 본 출원에서 사용된 바와 같은 리듬은 사운드와 묵음의 연속이다. 일 양태에서, 사운드(172)는 주파수 범위에 걸쳐 비교적 일관된 크기를 갖는 비교적 넓은 범위의 주파수에 걸쳐있는 백색 잡음일 수 있다. 대안으로, 사운드(172)는 주파수 범위에 걸쳐 크기가 다양한 비교적 넓은 주파수 범위에 걸쳐 있는 핑크 잡음일 수 있다. 또 다른 대안으로, 사운드(172)는 임펄스 함수, 사운드 스파이크(sound spike), 모노 톤(mono-tonal)일 수 있고 또는 사운드 압축 파(sound compression waves)의 유한 개수의 주파수에 대응하는 유한 개수의 톤을 가질 수 있다. 일 양태에서, 임펄스 함수 사운드는 실질적으로 운전석(150) 내에서 사운드의 전 스펙트럼을 실질적으로 시뮬레이트할 수 있다.
레인지 센서(176)는 모든 공지된 각종의 것, 예를 들면, 적외선 검출기를 포함할 수 있다. 방사선 방사기(174)는 객체에서 반사할 수 있는 적외선 방사선(175)을 방사할 수 있으며, 반사된 방사선은 레인지 센서(176)에 의해 검출되어 레인지 센서(176)와 객체 간의 레인지 또는 거리를 결정할 수 있다. 예를 들면, 방사선 방사기(174)는 운전자 좌석(152)에 앉아 차량(102)을 운전하는 운전자의 얼굴에서 반사될 수 있는 적외선 방사선을 방출할 수 있다. 반사된 방사선은 레인지 센서(176)에 의해 검출되어 레인지 센서(176)와 운전자의 얼굴 또는 특히 운전자의 입술 고리와 같은 운전자의 얼굴의 관심 영역과의 사이의 거리를 결정할 수 있다. 비록 적외선 검출기 및 방사선 방사기가 차량(102)의 운전자와의 레인지를 결정하기 위한 것으로 기술되지만, 초음파 센서와 같은 각종의 다른 적절한 기기가 운전자와의 레인지를 결정하기 위해 활용될 수 있다.
이미지 센서(178)는 광학 이미지를 전자 신호로 변환하는 모든 공지된 기기일 수 있다. 이미지 센서(178)는 전하 결합 소자(CCD) 또는 상보형 금속 산화물 반도체(CMOS) 센서 등을 포함하여 임의의 각종 센서일 수 있다. 이미지 센서(178)는 임의의 픽셀 수 및 종횡비를 가질 수 있다.
차량(102)의 음향 모델을 생성하는 프로세스 동안, 스피커(170)는 스피커(170)에 제공된 전자 신호에 기초하여 사운드(172)를 방사할 수 있다. 각각의 마이크로폰(160A-N)은 사운드(172)에 의해 작동될 수 있으며, 각각의 스피커(160A-N)에 대응하는 음향 신호가 평가될 수 있다. 각각의 마이크로폰(160A-N)의 음향 신호를 스피커(170)에 제공된 음향 신호와 비교함으로써, 스피커(170)와 각각의 마이크로폰(160A-N) 간의 물리적인 음향 전달 함수를 결정할 수 있다. 그러므로, 사운드(172)가 각각의 마이크로폰(160A-N)의 위치로 방사되는 공간 내 어떤 지점에서의 전달 함수를 결정하는 것이 가능해진다. 특정 실시예에서, 각각의 마이크로폰에 의해 발생된 음향 신호를 스피커(170)에 제공된 전자 신호로 나눔으로써 스피커(170)의 위치와 각각의 마이크로폰 간의 물리적인 음향 전달 함수를 결정하는 것이 가능할 수 있다. 다른 실시예에서, 스피커(170)의 위치와 각각의 마이크로폰(160A-N) 간의 물리적인 음향 전달 함수는 스피커(170)에 제공된 전자 신호뿐만 아니라, 각각의 마이크로폰(160A-N)에 의해 발생된 음향 신호의 둘 모두에 대한 선형의 수학적 조작을 이용하여 결정될 수 있다. 또 다른 실시예에서, 스피커(170)의 위치와 각각의 마이크로폰(160A-N) 간의 물리적인 음향 전달 함수는 스피커(170)에 의해 제공된 전자 신호뿐만 아니라, 각각의 마이크로폰(160A-N)에 의해 발생된 음향 신호의 둘 모두에 대한 비선형의 수학적 조작을 이용하여 결정될 수 있다.
스피커(170)의 위치와 각각의 마이크로폰(160A-N) 간에 결정된 물리적 음향 전달 함수는 3차원 공간에서 스피커(170)의 위치의 함수일뿐만 아니라, 사운드(172)의 주파수의 함수일 수 있다. 그러므로, 물리적 음향 전달 함수는 주파수 도메인에서 H(ω)와 같이 주파수의 함수로서 표현될 수 있으며, 여기서, ω는 사운드(172)의 주파수이다. 물리적인 견지에서 볼 때, 전달 함수는 주파수의 함수일 수 있다고 볼 수 있는데, 그 이유는 주파수가 음파의 파장에 역관계이며, 그에 따라, 주파수와 관련하여 한 지점에서 다른 지점으로 전달하는 동안 상이한 특성을 가질 수 있기 때문이다. 일 양태에서, 특정 물체 또는 객체에 대하여 특정한 사운드의 흡수, 반사, 확산 또는 다른 특성은 파장에 종속적일 수 있다.
음향 모델은 마이크로폰(160A-N) 중 적어도 하나에 대한 공간 내 적어도 한 지점으로부터 적어도 하나의 물리적 음향 전달 함수를 결정함으로써 생성될 수 있다. 그러나, 음향 모델은 운전석(150) 내 복수의 위치 및 각각의 마이크로폰(160A-N)에 대응하는 임의의 개수의 물리적 음향 전달 함수를 포함할 수 있다. 더욱이, 음향 모델은 특정 위치에 대응하는 전달 함수의 하나 이상의 겹치지 않는 세그먼트를 포함할 수 있다. 예를 들면, 전달 함수로 표현된 전 주파수 범위는 단일의 선형 세그먼트로 표현되지 않을 수 있고 복수개의 세그먼트로 분할되어야 할 수 있으므로, 특정 위치와 특정 마이크로폰(160A-N) 간의 비선형 음향 전달 함수를 생성할 수 있다. 또한, 음향 모델은 특정 위치에 대응하는 전달 함수의 하나 이상의 겹치지 않는 세그먼트를 포함할 수 있다.
특정 실시예에서, 음향 모델은 스피커(170)를 운전석(150) 내 여러 위치로 움직여서 여러 위치에서 사운드(172)를 방사하고 그 각각의 위치와 각각의 마이크로폰(160A-N) 간의 물리적 음향 전달 함수를 결정함으로써 생성될 수 있다. 다시 말해서, 음향 모델은 운전석(150) 내 한 곳 이상의 위치로부터 각각의 마이크로폰(160A-N)에 대응하는 물리적 전달 함수를 가질 수 있다.
일 실시예에서, 차량(102)의 운전석(150) 내에서 삼각대(도시되지 않음) 위의 스피커(170)가 제공되어 음향 모델을 생성할 수 있다. 테스트 애플리케이션은 스피커(170)의 위치를 수신하고 그 위치를 각각의 마이크로폰(160A-N)에서 검출된 음향 사운드와 연관시키도록 구동될 수 있다. 스피커(170)는 핑크 잡음 및 백색 잡음을 방사할 수 있다. 대안으로, 스피커(170)는 임펄스 잡음을 방사할 수 있다. 마이크로폰(160A-N)의 그 위치에서 연관된 임펄스 응답은 기록된 후 수학적으로 조작되어 스피커(170)의 특정 위치에서 특정한 물리적 전달 함수를 생성할 수 있다. 일 양태에서, 수학적 조작은 역 연산일 수 있다. 만일 스피커(170)가 이전의 위치에서 기 설정된 거리만큼, 이를 테면, 20 센티미터(cm)만큼 이동되면, 물리적 전달 함수를 결정하는 프로세스가 반복된다. 다시 말해서, 음향 모델의 생성은 스피커(170)의 다수의 위치와 연관된 물리적 전달 함수들을 포함한다. 이러한 프로세스는 제조 기간 동안 한번 수행될 수 있으며 특정한 운전자 마다 또는 차량(102)의 애프터 마켓(after-market) 구성마다 수행될 필요는 없을 수 있다.
비제한적인 예로서, 운전석(150) 내에 네 개의 마이크로폰(160A-N)이 있고, 스피커(170)는 음향 모델을 생성하는 프로세스 동안 운전석(150) 내에서 세 곳의 상이한 위치에 배치되어 있다고 생각해 본다. 이 경우, 운전석(150) 내 세 곳의 상이한 위치 각각으로부터 마이크로폰(160A-N) 각각에 대응하는 네 개의 물리적 음향 전달 함수를 생성하여 총 12개의 상이한 물리적 음향 전달 함수를 생성할 수 있다.
특정 실시예에서, 음향 모델을 생성하는 프로세스 동안, 레인지 센서(176) 및 이미지 센서(178)는 스피커(170)의 위치를 결정하여, 결정된 전달 함수를 운전석(150) 내 3차원 공간 내 각각의 위치에 맵핑하는데 사용될 수 있다. 다른 실시예에서, 레인지 센서(176) 및 이미지 센서(178)는 사용되지 않을 수 있으며, 스피커(170)는 기 설정된 위치에 배치되어 음향 모델을 생성할 수 있다.
이제 도 5를 참조하면, 차량(102)의 운전석 내 하나 이상의 마이크로폰으로 전달된 음향 신호를 발생하는 사람과 같은 예시적인 오디오 요소의 예시적인 메커니즘이 기술된다. 특히, 운전자(179)는 대시 보드(156)뿐만 아니라 방사선 방사기(174), 레인지 센서(176), 및 이미지 센서(178)를 마주하는 운전자의 좌석(152)에 앉아 있을 수 있다. 방사선 방사기(174)는 운전자(179)를 향해 적외선 방사선(175)과 같은 전자기 방사선을 방사할 수 있다. 방사선(175)은 운전자(179)의 얼굴로부터 반사될 수 있으며, 이러한 반사는 레인지 센서(176)에 의해 검출될 수 있다. 레인지 센서(176)는 운전자(179)에서 반사된 방사선의 검출에 기반하여 레인지 센서 신호를 생성할 수 있다. 또한, 이미지 센서(178)는 운전자(179)의 얼굴을 이미징한 것에 대응하는 이미지 센서 신호를 발생할 수 있다. 더욱이, 만일 운전자(179)가 말을 하고 있다면, 발생된 사운드는 운전석(150)에 제공된 각각의 마이크로폰(160A-N)에 의해 포착될 수 있다. 각각의 마이크로폰(160A-N)은 운전자(179)로부터 검출된 사운드에 기반하여 각각의 음향 신호를 발생할 수 있다.
이제 도 6을 참조하면, 조정된 음향 신호를 발생하고 그 신호를 음성 인식 엔진(186)에 제공하기 위하여 이미지 센서(178)로부터 이미지 센서 신호와, 레인지 센서(176)로부터 레인지 센서 신호, 그리고 각각의 마이크로폰(160A-N)으로부터 음향 신호를 수신하기 위한 예시적인 시스템(180)이 기술된다. 시스템(180)은 하나 이상의 컨트롤러(181)를 포함할 수 있다. 하나 이상의 컨트롤러(181)는 각기 임의의 개수의 적절한 전자 메모리 소자(184)(개략적으로 메모리(184)라 지칭함)에 통신가능하게 결합된 하나 이상의 프로세서(182)를 포함할 수 있다. 하나 이상의 프로세서(182)는 이미지 센서 신호, 레인지 센서 신호, 및 미조정된 음향 신호를 포함하는 각각의 센서 신호를 직접 수신할 수 있다. 전자 메모리(184)는 운전석(150) 내 특정 위치에 맵핑된 물리적 음향 전달 함수를 구성하는 음향 모델을 저장하여 가지고 있을 수 있다.
하나 이상의 프로세서(182)는 각종 센서 신호를 받을 수 있으며 이미지 센서 신호 및 레인지 센서 신호에 기반하여 관심 영역의 위치를 결정할 수 있다. 앞에서 언급한 바와 같이, 관심 영역은 운전자(179)의 입술 고리를 포함할 수 있다. 하나 이상의 프로세서(182)는 추가로 메모리(184)에 저장된 음향 모델과 함께 관심 영역의 위치를 이용하여 각각의 마이크로폰들(160A-N)의 각각의 음향 전달 함수를 추정할 수 있다. 일 양태에서, 하나 이상의 프로세서(182)는 센서 신호뿐만 아니라 각각의 마이크로폰(160A-N)의 각각의 음향 전달 함수를 추정하는 음향 모델의 일부인 물리적 전달 함수의 각종 수학적 조작을 구현할 수 있다. 도 2와 함께 앞에서 언급한 바와 같이, 수학적 조작은 한번 이상의 외삽 또는 보간을 수반할 수 있다. 일단 하나 이상의 프로세서(182)가 각각의 마이크로폰들(160A-N) 마다 음향 전달 함수를 결정 또는 추정하면, 하나 이상의 프로세서(182)에 의해 마이크로폰(160A-N)으로부터 수신된 음향 신호는 음향 전달 함수를 활용하여 처리될 수 있다. 특정 실시예에서, 각각의 마이크로폰(160A-N)으로부터 수신된 하나 이상의 음향 신호는 각각의 마이크로폰(160A-N)에 대응하는 각각의 음향 전달 함수의 역으로 곱해질 수 있다. 다른 실시예에서, 메모리에 기반한 지연(lag)은 각각의 마이크로폰(160A-N)에 대응하는 각각의 음향 전달 함수의 역으로 곱하기에 앞서 하나 이상의 음향 신호에서 이행될 수 있다. 각각의 마이크로폰(160A-N)에 의해 제공된 음향 신호에 기반하여 하나 이상의 프로세서(182)에 의해 발생된 바와 같은, 조정된 음향 신호는 음성 인식 엔진(186)에 제공될 수 있다. 음성 인식 엔진(186)은 조정된 음향 신호를 이용하여 음성 명령과 같은 음성-대-텍스트 기능을 제공할 수 있다.
각각의 마이크로폰(160A-N)에 대응하는 각각의 음향 전달 함수는 동적으로 결정될 수 있다는 것을 주목하여야 한다. 다시 말해서, 특정 마이크로폰의 음향 전달 함수는 시간에 따라 바뀔 수 있다. 보다 상세히 말해서, 특정 마이크로폰의 음향 전달 함수는 운전자(179)가 그의 또는 그녀의 머리를 움직임에 따라 변할 수 있으며, 그렇지 않으면 입술 고리와 같은 관심 영역의 위치가 시간에 따라 바뀔 수 있다. 다른 용어로 말하자면, 하나 이상의 프로세서(182)에 의해 결정된 바와 같은, 각각의 마이크로폰(160A-N)에 대응하는 각각의 음향 전달 함수는 시간 또는 운전자(179)의 머리의 움직임 또는 이들 둘 다에 따라 변할 수 있다. 일 양태에서, 각각의 마이크로폰(160A-N)에 대응하는 음향 전달 함수는 사운드를 관심 영역으로부터 이동시키는데 걸리는 시간보다 적은 지연을 갖는 하나 이상의 프로세서(182)에 의해 또는 각각의 마이크로폰(160A-N)에 대한 음향 요소에 의해 결정될 수 있다. 다시 말해서, 각각의 마이크로폰(160A-N)에 대응하는 결정된 각각의 음향 전달 함수와 마이크로폰(160A-N)에 도달하는 사운드와의 사이에는 위상 차가 있을 수 있다. 그러므로, 간단하게 각각의 마이크로폰(160A-N)의 가장 최근에 결정된 음향 전달 함수를 이용하여 마이크로폰(160A-N)에 의해 발생된 음향 신호를 조정하면 희망하는 결과를 제공하지 못할 수 있다. 그 결과로서, 하나 이상의 프로세서(182)에 의해 발생된 바와 같은 실시간에 가까운 음향 전달 함수의 스트림과 각각의 마이크로폰(160A-N)에 의해 발생된 음향 신호와의 사이에 시간 지연이 발생하여 이들 간의 상대적인 위상 차를 보상할 수 있다. 두 신호 간의 상대적인 시간 지연을 만들기 위한 여러 메커니즘은 본 기술에서 널리 공지되어 있으며 간략성을 기하기 위해 본 출원에서 검토되지 않을 것이다.
프로세서(182)는, 제한 없이, 중앙 처리 유닛(CPU), 디지털 신호 프로세서(DSP), 축소 명령어 집합 컴퓨터(RISC), 복잡 명령어 집합 컴퓨터(CIOSC), 마이크로프로세서, 마이크로컨트롤러, 현장 프로그램가능 게이트 어레이(FPGA), 또는 이들의 조합을 포함할 수 있다. 시스템(180)은 또한 프로세서(들)(182)과 시스템(180)의 다른 컴포넌트들 중 하나 이상의 컴포넌트 간의 통신을 제어하는 칩셋(도시되지 않음)을 포함할 수 있다. 일 실시예에서, 시스템(180)은 Intel® 아키텍처 시스템을 기반으로 할 수 있으며, 프로세서(182) 및 칩셋은 Intel® Atom® 프로세서 패밀리와 같은 Intel® 프로세서 및 칩셋의 패밀리로 구성될 수 있다. 프로세서(들)(182)는 특정 데이터 처리 기능 또는 작업을 처리하기 위한 하나 이상의 주문형 집적 회로(ASIC) 또는 특정 용도 표준 제품(application-specific standard products (ASSPs))의 일부로서 하나 이상의 프로세서를 또한 포함할 수 있다.
메모리(184)는, 랜덤 액세스 메모리(RAM), 다이나믹 RAM(DRAM), 스태틱 RAM(SRAM), 동기식 다이나믹 RAM(SDRAM), 이배속(DDR) SDRAM (DDR-SDRAM), RAM-BUS DRAM(RDRAM), 플래시 메모리 소자, 전기적으로 소거가능 프로그램가능 리드-온리 메모리(EEPROM), 비휘발성 RAM(NVRAM), 범용 직렬 버스(USB) 제거가능 메모리, 또는 이들의 조합을 포함하는 하나 이상의 휘발성 및/또는 비휘발성 메모리 소자를 포함할 수 있으며, 이것으로 제한되지 않는다.
이제 도 7을 참조하면, 하나 이상의 프로세서(182)에 의해 전자 디스플레이(192)에 디스플레이되는 바와 같은 이미지(190)에 대응하는 이미지 센서(178) 신호에 기반한 관심 영역의 예시적인 분석이 설명된다. 차량의 사용자 또는 운전자와 같은 사람(196)의 이미지가 제공될 수 있다. 하나 이상의 프로세서(182)는 전체 이미지(190)를 분석하고 사람(196)의 이미지를 식별할 수 있다. 하나 이상의 프로세서(182)는 또한 사람(196)의 이미지를 처리하여 사람의 입술 고리(200)와 같은 사운드 발생 음향 요소를 더 가지고 있는 관심 영역(198)을 식별할 수 있다. 일 양태에서, 이미지(190) 내 사람의 입술 고리(200) 및 관심 영역(198)의 크기에 기반하여, 하나 이상의 프로세서(182)는 입술 고리(200)의 위치를 확인할 수 있다. 다른 양태에서, 레인지 센서(176)에 의해 제공된 정보와 함께 이미지(190)는 하나 이상의 프로세서(182)에 의해 입술 고리(200)의 위치를 결정하는데 사용될 수 있다. 다시 말하면, 하나 이상의 프로세서(182)는 이미지 센서(178)에 의해 제공된 바와 같은 이미지(190)를 분석할 수 있으며, 관심 영역(198)의 여러 양태에 기반하여, 하나 이상의 프로세서(182)는 나중에 각각의 마이크로폰(160A-N)에 대응하는 음향 전달 함수를 결정 또는 선택하는데 사용하기 위한, 입술 고리(200)와 같은 사운드 발생원의 위치를 결정할 수 있다.
이제 도 8을 참조하면, 입술 고리(200)와 같은 음향 요소로부터 하나 이상의 마이크로폰(160A-N)으로 사운드의 예시적인 전달을 도시하는 간략화된 개략도가 설명된다. 각종 음파의 각각의 경로(210, 212, 214, 216, 218 및 220)를 도시하는 목적을 위해, 운전석(150)의 옆면 윈도우(224) 및 윈드 실드(226)가 도시되어 있다. 몇몇 음파는 입술 고리(200)와 하나 이상의 마이크로폰(160A-N) 사이의 직접 경로(210, 212, 214 및 216)를 이동할 수 있다는 것을 알 수 있다. 또한, 몇몇 음파는 직접 경로(218 및 220)를 경유하여 이동하여, 차량(102)의 운전석(150)내 하나 이상의 객체에서 반사될 수 있다. 예를 들면, 도시된 바와 같이, 경로(218)를 이동하는 사운드는 마이크로폰(160A)에 도달하기 전에 측면 윈도우(224)에서 반사하는 것으로 도시되어 있다. 유사하게, 경로(220)를 이동하는 사운드는 마이크로폰(160B)에 도달하기 전에 윈드 실드(226)에서 반사되는 것으로 도시되어 있다. 그러므로, 마이크로폰(160A)에서, 사운드는 경로(210 및 218)를 통해 도달하며, 이 경로에서 경로(210)와 경로(218) 사이의 경로 길이 차로 인하여 이들 경로(210 및 218)의 각각으로부터 도달하는 사운드 간에는 상대적인 위상 차가 있을 수 있다. 그 결과로서, 마이크로폰(160A)은 결과적인 미조정된 음향 신호가 에코와 같은 임의의 개수의 인공물을 포함할 수 있도록 하는 방식으로 작동될 수 있다. 일 양태에서, 마이크로폰(160A 및 160B)에 의해 발생된 사운드는 사운드가 입술 고리(200)에서부터 도달하는 복수의 경로(210, 218, 212 및 220)로 인하여 잘 알아들을 수 없고, 이해하기 어렵거나 이해할 수 없다. 하나의 마이크로폰(160A-N)에 의해 발생된 미조정된 음향 신호는 하나 이상의 프로세서(182)에 제공된다. 그러므로, 하나 이상의 프로세서(182)에 의해 조정되기 전에, 미조정된 음향 신호는 여러 인공물 및 잡음을 담고 있을 수 있다는 것을 알 수 있다.
도 9를 참조하면, 각각의 마이크로폰(160A-N)에 대응하는 음향 전달 함수의 결정을 도시하는 간략화된 블록도(230)가 도시된다. 블록(124)에서 결정된 바와 같은 입술 고리 또는 관심 영역 위치(252) 및 블록(122)에서 결정되고 메모리(184)에 저장된 바와 같은 음향 모델(254)은 하나 이상의 프로세서(182)에 제공된다. 도 3 및 도 4를 참조하여 설명한 바와 같이, 음향 모델(254)은 운전석(150) 내 특정 위치(x1, y1, z1)에서 HMi(Z)로서 도시된 하나 이상의 음향 전달 함수를 포함할 수 있다. 사용된 표기에서, H는 분할된 주파수 Z의 수학적 함수이며 Mi는 i번째 마이크로폰이다. 예를 들면, 마이크로폰(160B)은 마이크로폰(160B)을 제2의 마이크로폰으로서 표시하는 명칭 M2를 가질 수 있으며, (x1, y1, z1)는 데카르트 좌표를 이용하여 공간 내 특정 지점을 규정하며, 데카르트 좌표에서 음향 모델(254)은 특정 마이크로폰 Mi에 대한 물리적 전달 함수 HMi(Z)를 제공한다. 차량(102)의 운전석(150) 내에서와 같은 공간 내 지점은 본 발명의 특정 실시예에서 구면 좌표 또는 원통형 좌표와 같은 비-데카르트 좌표계에서 규정될 수 있다. 하나 이상의 프로세서(182)는 관심 영역 위치(252) 및 음향 모델(254)에 기반하여 체적 보간(270)을 수행하여 특정 위치(x2, y2, z2)에서 마이크로폰 Mi에 대응하는 음향 전달 함수 HMi.ex(Z)를 결정할 수 있다.
하나 이상의 프로세서에 의해 수행된 바와 같은 체적 보간(270)은 아래에서 비제한적인 예를 들어 설명될 것이다. 예를 들면, 음향 모델(254)이 위치(x1, y1, z1)에서 마이크로폰 Mi에 대한 물리적 전달 함수 HMi(x1, y1, z1)를 제공하고, 위치(x3, y3, z3)에서의 같은 마이크로폰 Mi에 대한 물리적 전달 함수 HMi(x3, y3, z3)를 제공한다고 고려해본다. 또한, 관심 영역 위치는 (x2, y2, z2)에서의 관심 영역의 위치를 가리킨다고 고려해볼 때, 여기서 x2는 x1 및 x3의 범위 내에 있고, y2 는 y1 및 y3의 범위 내에 있으며, z2는 z1 및 z3의 범위 내에 있다. 그러한 경우, 선형의 체적 보간(270)은 아래의 수학식 1에 따라서 하나 이상의 프로세서(182)에 의해 수행될 수 있다.
Figure 112014060900420-pct00001
비록 선형의 체적 보간의 예가 도시되었지만, 이것으로 제한되지 않지만, 이차, n차 다항식, 로그, 지수, 또는 임의의 다른 공지된 수학적 조작을 포함하는, 그러나 이것으로 제한되지는 않는, 임의의 보간 방법이 사용될 수 있다. 더욱이, 결정된 음향 전달 함수 HMi.ex(Z)에 도달하기 위해 외삽 또는 다른 수학적 기술이 하나 이상의 프로세서(182)에 의해 사용될 수 있다.
이제 도 10을 참조하면, 예시적인 조정된 음향 신호를 음성 인식 엔진(186)에 제공하는 하나 이상의 프로세서(182)를 도시하는 개략도(280)가 도시된다. 도시된 바와 같이, 입술 고리(200)와 같은 음향 요소는 각각의 마이크로폰(160A-N)으로 사운드를 제공한다. 마이크로폰(160A-N)에 이르는 각각의 경로는 입술 고리(200)의 위치(x, y, z)에서 그와 연관된 각각의 물리적 음향 전달 함수(282, 284, 286, 288)를 가질 수 있다. 도 9와 함께 기술된 절차를 이용하여, 하나 이상의 프로세서(182)는 물리적 음향 전달 함수(282, 284, 286, 288)에 대응하는 추정된 전달 함수를 생성할 수 있다. 하나 이상의 프로세서(182)는 또한 결정된 전달 함수(290, 292, 294 및 296)의 각각의 역을 취할 수 있으며 각각의 결정된 전달 함수(274)의 역을 각각의 마이크로폰(160A-N)에 의해 생성된 미조정된 음향 신호에 곱하여 조정된 음향 신호를 생성할 수 있다. 조정된 음향 신호는 더 나아가 합산기(300)를 이용하여 합산될 수 있으며, 합산 값은 음성 인식 엔진(186)에 제공될 수 있다.
특정 실시예에서, 각각의 마이크로폰으로부터 나온 조정된 음향 신호는 합산되지 않을 수 있다는 것을 주목하여야 한다. 그 대신, 조정된 음향 신호의 서브셋이 합산되고 음성 인식 엔진(186)에 제공될 수 있다. 다른 대안으로서, 하나 이상의 프로세서(182)는 조정된 음향 신호들 중 어느 신호가 음성-대-텍스트 기능의 목적을 위해 음성 인식 엔진(186)과 함께 최고의 성능을 제공할지를 판단할 수 있다. 또 다른 가능성으로서, 각각의 조정된 음향 신호는 각각의 음성 인식 엔진에 제공될 수 있으며, 각각의 음성 인식 엔진의 음성-대-텍스트 출력은 후처리되어 개선된 음성-대-텍스트 기능을 제공할 수 있다.
본 출원에 기술된 실시예는 하드웨어, 소프트웨어, 및/또는 펌웨어를 이용하여 구현되어, 예를 들면, 본 출원에 기술된 방법 및/또는 동작을 수행할 수 있다. 본 출원에 기술된 특정 실시예는, 머신에 의해 실행되는 경우, 그 머신으로 하여금 본 출원에 기술된 방법 및/또는 동작을 수행하도록 해주는 머신-실행가능 명령을 저장하는 유형의(tangible) 머신-판독가능 매체로서 제공될 수 있다. 유형의 머신-판독가능 매체는, 플로피 디스크, 광학 디스크, 컴팩트 디스크 리드-온리 메모리(CD-ROM), 컴팩트 디스크 재기록가능 디스크(CD-RW), 자기-광학 디스크를 포함하는 모든 형태의 디스크들과, 리드-온리 메모리(ROM), 다이나믹 및 스태틱 RAM과 같은 랜덤 액세스 메모리(RAM), 소거가능한 프로그램가능 리드-온리 메모리(EPROM), 전기적으로 소거가능한 프로그램가능 리드-온리 메모리(EEPROM), 플래시 메모리, 자기 또는 광 카드와 같은 반도체 소자들, 또는 전자 명령어를 저장하기에 적합한 모든 형태의 유형의 매체를 포함할 수 있으며, 이것으로 제한되지는 않는다. 머신은 모든 적합한 프로세싱 또는 컴퓨팅 플랫폼, 장치 또는 시스템을 포함할 수 있으며 하드웨어 및/또는 소프트웨어의 임의의 적절한 조합을 이용하여 구현될 수 있다. 명령어는 임의의 적절한 형태의 코드를 포함할 수 있으며 임의의 적절한 프로그래밍 언어를 이용하여 구현될 수 있다. 다른 실시예에서, 본 출원에서 기술된 방법 및/또는 동작을 수행하는 머신-실행가능 명령어는 펌웨어로 구현될 수 있다.
본 출원에서 각종 특징, 양태 및 실시예가 기술되었다. 특징, 양태, 및 실시예는 본 기술에서 통상의 지식을 가진 자들에게 이해되는 바와 같이, 서로 조합으로 구성되기 쉬울 뿐만 아니라 변형 및 변경되기도 쉽다. 그러므로, 본 개시 내용은 그러한 조합, 변형 및 변경을 망라하는 것으로 고려되어야 한다.
본 출원에서 사용된 용어와 표현들은 설명을 위한 용어로서 사용되는 것이며 한정을 위한 것이 아니다. 그러한 용어와 표현의 사용에 있어서, 도시되고 서술된 특징과 유사한 어느 것도 (또는 그 부분) 배제할 의도가 없으며, 또한 다양한 변경이 본 청구 범위의 범주 내에서 가능하다는 것이 인정된다. 따라서 청구 항들은 이러한 모든 등가물을 포함하는 것으로 의도된다.
본 발명의 특정 실시예가 현재 가장 실현가능한 구현이 될 것이라고 생각되는 것과 관련하여 기술되었지만, 본 발명은 개시된 실시예로 제한되지 않고, 이와 반대로 청구항들의 범주 내에 포함되는 여러 변형과 등가의 구성을 포함하는 것으로 의도된다. 비록 특정 용어가 본 출원에서 사용될지라도, 이 용어는 일반적이고 설명적인 의미로만 사용되며 제한할 목적으로 사용되지 않는다.
이렇게 작성된 설명은 최선의 방식을 포함하여, 본 발명의 특정 실시예를 기술하고, 또한 본 기술에서 통상의 지식을 가진 자가 임의의 장치 또는 시스템을 제조하고 사용하며 어떤 통합된 방법을 수행하는 것을 포함하여, 본 발명의 특정 실시예를 실시할 수 있게 하는 예를 이용하고 있다. 본 발명의 특정 실시예의 특허 가능한 범위는 청구항들에서 규정되며, 본 기술에서 통상의 지식을 가진 자에게 떠오르는 다른 예를 포함할 수 있다. 그러한 다른 예들은 이 예들이 청구 항들의 문자 그대로의 표현과 다르지 않은 구조적인 요소를 갖는다면 또는 이 예들이 청구 항들의 문자 그대로의 표현과 큰 차이가 없는 균등의 구조적 요소를 포함한다면 청구 항들의 범주 내에 속하는 것으로 의도된다.

Claims (23)

  1. 하나 이상의 프로세서에 의해, 음향 모델 ― 상기 음향 모델은 적어도 하나의 초기 물리적 전달 함수를 포함하며, 각각의 초기 물리적 전달 함수는 적어도 하나의 미리 정해진 위치의 각각에서 제공되는 사운드로부터의 적어도 하나의 마이크로폰의 각각에서의 음향 응답에 기초하여 결정됨 ― 을 수신하는 단계와,
    적어도 하나의 센서를 이용하여, 상기 적어도 하나의 마이크로폰으로 제공되는 사운드를 생성하는 적어도 하나의 음향 요소의 위치를 모니터링하는 단계와,
    상기 하나 이상의 프로세서에 의해, 상기 음향 모델의 상기 적어도 하나의 초기 물리적 전달 함수 및 상기 적어도 하나의 음향 요소의 모니터링된 위치에 적어도 부분적으로 기반하여, 상기 적어도 하나의 음향 요소의 모니터링된 위치에서부터 상기 적어도 하나의 마이크로폰의 각 마이크로폰에서의 개별적인 음향 전달 함수를 결정하는 단계와,
    상기 적어도 하나의 마이크로폰의 각각에 의해 생성된 음향 신호를 수신하는 단계 ― 상기 음향 신호는 상기 적어도 하나의 음향 요소에 의해 생성되는 사운드에 대응함 ― 와,
    상기 하나 이상의 프로세서에 의해, 개별 마이크로폰의 대응하는 음향 전달 함수에 적어도 부분적으로 기반하여 각각의 상기 수신된 음향 신호를 조정하는 단계를 포함하는
    음향 신호 조정 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 적어도 하나의 음향 요소는 개인과 연관된 입술 고리(lip ring)인
    음향 신호 조정 방법.
  4. 제1항에 있어서,
    상기 적어도 하나의 음향 요소의 위치를 모니터링하는 단계는, 이미지 센서를 이용하여, 상기 적어도 하나의 음향 요소를 이미징(imaging)하는 단계를 포함하는
    음향 신호 조정 방법.
  5. 제1항에 있어서,
    상기 적어도 하나의 음향 요소의 위치를 모니터링하는 단계는, 레인지 센서를 이용하여 상기 적어도 하나의 음향 요소와 상기 레인지 센서 사이의 거리를 결정하는 단계를 포함하는
    음향 신호 조정 방법.

  6. 제1항에 있어서,
    상기 적어도 하나의 음향 요소의 위치는 3차원 공간 내 한 지점으로서 정의되는
    음향 신호 조정 방법.
  7. 제1항에 있어서,
    상기 음향 전달 함수를 결정하는 단계는,
    (i) 체적 보간(volumetric interpolation), (ii) 체적 외삽(volumetric extrapolation), (iii) 2차원 보간, (iv) 2차원 외삽, (v) 1차원 보간, 및 (vi) 1차원 외삽 중 적어도 하나를 포함하는
    음향 신호 조정 방법.
  8. 제1항에 있어서,
    상기 음향 신호의 각각은 상기 적어도 하나의 음향 요소에 의해 발생된 사운드에 대응하는 전기 신호인
    음향 신호 조정 방법.
  9. 제1항에 있어서,
    상기 음향 신호의 각각을 조정하는 단계는, 각각의 상기 음향 신호를 그의 대응하는 음향 전달 함수의 역으로 곱하는 단계를 포함하는
    음향 신호 조정 방법.
  10. 제1항에 있어서,
    상기 조정된 음향 신호 중 적어도 하나를 음성 인식 엔진에 제공하는 단계를 더 포함하는
    음향 신호 조정 방법.
  11. 제1항에 있어서,
    상기 하나 이상의 프로세서에 의해, 상기 음향 모델을 결정하는 단계를 더 포함하는
    음향 신호 조정 방법.
  12. 제11항에 있어서,
    상기 음향 모델을 결정하는 단계는 상기 적어도 하나의 초기 물리적 전달 함수를 결정하는 단계를 포함하며, 각각의 초기 물리적 전달 함수는 개별적인 위치에 대응하는
    음향 신호 조정 방법.
  13. 제12항에 있어서,
    상기 적어도 하나의 초기 물리적 전달 함수를 결정하는 단계는, 개별적인 위치 각각에서 제공되는 사운드로부터의 상기 적어도 하나의 마이크로폰에서의 음향 응답을 결정하는 단계를 더 포함하는
    음향 신호 조정 방법.
  14. 사용자와 연관된 관심 영역의 정보를 제공하도록 구성된 적어도 하나의 센서와,
    하나 이상의 초기 물리적 전달 함수를 포함하는 음향 모델이 저장된 적어도 하나의 컴퓨터-판독가능 매체와,
    검출된 사운드에 기반하여 음향 신호를 발생하도록 각각 구성된 하나 이상의 마이크로폰 ― 상기 관심 영역의 정보는 상기 하나 이상의 마이크로폰으로 제공되는 사운드를 생성하는 적어도 하나의 음향 요소의 위치를 포함하고, 상기 음향 신호는 상기 적어도 하나의 음향 요소에 의해 생성되는 사운드에 대응함 ― 과,
    상기 적어도 하나의 센서, 상기 컴퓨터-판독가능 매체, 및 상기 하나 이상의 마이크로폰에 통신가능하게 결합되고, 상기 관심 영역의 정보 및 상기 음향 모델의 상기 하나 이상의 초기 물리적 전달 함수에 적어도 부분적으로 기반하여, 상기 적어도 하나의 음향 요소의 모니터링된 위치에서부터 상기 하나 이상의 마이크로폰의 각 마이크로폰에서의 개별적인 음향 전달 함수를 결정하고, 개별 마이크로폰의 대응하는 음향 전달 함수에 적어도 부분적으로 기반하여 각각의 상기 음향 신호를 조정하도록 구성된 적어도 하나의 프로세서를 포함하되,
    각각의 초기 물리적 전달 함수는 적어도 하나의 미리 정해진 위치의 각각에서 제공되는 사운드로부터의 상기 하나 이상의 마이크로폰의 각각에서의 음향 응답에 기초하여 결정되는
    음향 신호 조정 시스템.
  15. 제14항에 있어서,
    상기 적어도 하나의 센서는 레인지 센서 또는 이미지 센서 중 적어도 하나를 포함하는
    음향 신호 조정 시스템.
  16. 제14항에 있어서,
    상기 관심 영역의 정보는 상기 사용자의 입술 고리의 공간적 위치를 포함하는
    음향 신호 조정 시스템.
  17. 제14항에 있어서,
    상기 검출된 사운드는 사람의 음성인
    음향 신호 조정 시스템.
  18. 제14항에 있어서,
    각각의 상기 음향 신호는 상기 검출된 사운드에 대응하는 전기 신호인
    음향 신호 조정 시스템.
  19. 삭제
  20. 제14항에 있어서,
    각각의 상기 조정된 음향 신호 중 적어도 하나를 수신하는 음성 인식 엔진을 더 포함하는
    음향 신호 조정 시스템.
  21. 컴퓨터-실행가능 명령어를 포함하는 적어도 하나의 컴퓨터-판독가능 매체로서, 상기 컴퓨터-실행가능 명령어는 하나 이상의 프로세서에 의해 실행되면,
    음향 모델을 식별하는 단계 ― 상기 음향 모델은 적어도 하나의 초기 물리적 전달 함수를 포함하며, 각각의 초기 물리적 전달 함수는 적어도 하나의 미리 정해진 위치의 각각에서 제공되는 사운드로부터의 적어도 하나의 마이크로폰의 각각에서의 음향 응답에 기초하여 결정됨 ― 와,
    적어도 하나의 센서를 이용하여, 상기 적어도 하나의 마이크로폰으로 제공되는 사운드를 생성하는 적어도 하나의 음향 요소의 위치를 모니터링하는 단계와,
    상기 음향 모델의 상기 적어도 하나의 초기 물리적 전달 함수 및 상기 적어도 하나의 음향 요소의 모니터링된 위치에 적어도 부분적으로 기반하여, 상기 적어도 하나의 음향 요소의 모니터링된 위치에서부터 상기 적어도 하나의 마이크로폰의 각 마이크로폰에서의 개별적인 음향 전달 함수를 결정하는 단계와,
    상기 적어도 하나의 마이크로폰의 각각에 의해 생성된 음향 신호를 수신하는 단계 ― 상기 음향 신호는 상기 적어도 하나의 음향 요소에 의해 생성되는 사운드에 대응함 ― 와,
    개별 마이크로폰의 대응하는 음향 전달 함수에 적어도 부분적으로 기반하여 각각의 상기 음향 신호를 조정하는 단계
    를 포함하는 방법을 실행하는
    컴퓨터-판독가능 매체.

  22. 삭제
  23. 제21항에 있어서,
    각각의 상기 음향 신호를 조정하는 단계는 각각의 상기 음향 신호를 그의 대응하는 음향 전달 함수의 역으로 곱하는 단계를 포함하는
    컴퓨터-판독가능 매체.
KR1020147018003A 2011-12-29 2011-12-29 음향 신호 조정 KR101669866B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/067856 WO2013101073A1 (en) 2011-12-29 2011-12-29 Acoustic signal modification

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020157018360A Division KR20150086395A (ko) 2011-12-29 2011-12-29 음향 신호 조정

Publications (2)

Publication Number Publication Date
KR20140097530A KR20140097530A (ko) 2014-08-06
KR101669866B1 true KR101669866B1 (ko) 2016-10-27

Family

ID=48698309

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147018003A KR101669866B1 (ko) 2011-12-29 2011-12-29 음향 신호 조정

Country Status (7)

Country Link
US (1) US20140278396A1 (ko)
EP (1) EP2798633B1 (ko)
JP (1) JP2015506491A (ko)
KR (1) KR101669866B1 (ko)
CN (1) CN104025188B (ko)
BR (1) BR112014016264A8 (ko)
WO (1) WO2013101073A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
JP6078461B2 (ja) * 2013-12-18 2017-02-08 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
CN103760521A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 目标全方位跟踪系统
US10474964B2 (en) * 2016-01-26 2019-11-12 Ford Global Technologies, Llc Training algorithm for collision avoidance
CN105845131A (zh) * 2016-04-11 2016-08-10 乐视控股(北京)有限公司 远讲语音识别方法及装置
US9992570B2 (en) * 2016-06-01 2018-06-05 Google Llc Auralization for multi-microphone devices
CN106328141B (zh) * 2016-09-05 2019-06-14 南京大学 一种面向移动终端的超声波唇读识别装置及方法
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
US11546689B2 (en) 2020-10-02 2023-01-03 Ford Global Technologies, Llc Systems and methods for audio processing
TWI777265B (zh) * 2020-10-05 2022-09-11 鉭騏實業有限公司 指向音源探取裝置及其方法
DE102022117701A1 (de) 2022-07-15 2024-01-18 Cariad Se Verfahren und Prozessorschaltung zum Nachbilden einer akustischen Innenraumsituation eines Kraftfahrzeugs sowie computerlesbares Speichermedium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0210559Y2 (ko) * 1984-11-05 1990-03-15
JPH01195499A (ja) * 1988-01-30 1989-08-07 Toshiba Corp 音声入力装置
US7421321B2 (en) * 1995-06-07 2008-09-02 Automotive Technologies International, Inc. System for obtaining vehicular information
JP3451022B2 (ja) * 1998-09-17 2003-09-29 松下電器産業株式会社 拡声音の明瞭度改善方法及び装置
US7920102B2 (en) * 1999-12-15 2011-04-05 Automotive Technologies International, Inc. Vehicular heads-up display system
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US8947347B2 (en) * 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7627139B2 (en) * 2002-07-27 2009-12-01 Sony Computer Entertainment Inc. Computer image and audio processing of intensity and input devices for interfacing with a computer program
US7664639B2 (en) * 2004-01-14 2010-02-16 Art Advanced Recognition Technologies, Inc. Apparatus and methods for speech recognition
WO2005106841A1 (en) * 2004-04-28 2005-11-10 Koninklijke Philips Electronics N.V. Adaptive beamformer, sidelobe canceller, handsfree speech communication device
US7760887B2 (en) * 2004-10-15 2010-07-20 Lifesize Communications, Inc. Updating modeling information based on online data gathering
US7720236B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Updating modeling information based on offline calibration experiments
KR101086602B1 (ko) * 2005-08-26 2011-11-23 현대자동차주식회사 차량용 음성인식 시스템 및 그 방법
US8761477B2 (en) * 2005-09-19 2014-06-24 University Of Virginia Patent Foundation Systems and method for adaptive beamforming for image reconstruction and/or target/source localization
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
JP2008022069A (ja) * 2006-07-10 2008-01-31 Fuji Xerox Co Ltd 音声収録装置および音声収録方法
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
US8229134B2 (en) * 2007-05-24 2012-07-24 University Of Maryland Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
ATE518381T1 (de) * 2007-09-27 2011-08-15 Harman Becker Automotive Sys Automatische bassregelung
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
WO2009126561A1 (en) * 2008-04-07 2009-10-15 Dolby Laboratories Licensing Corporation Surround sound generation from a microphone array
US9445193B2 (en) * 2008-07-31 2016-09-13 Nokia Technologies Oy Electronic device directional audio capture
JP2010232755A (ja) * 2009-03-26 2010-10-14 Kddi Corp ハンズフリー通話装置、指向性調整方法、指向性調整プログラム
US8699719B2 (en) * 2009-03-30 2014-04-15 Bose Corporation Personal acoustic device position determination
DE102009029367B4 (de) * 2009-09-11 2012-01-12 Dietmar Ruwisch Verfahren und Vorrichtung zur Analyse und Abstimmung akustischer Eigenschaften einer Kfz-Freisprecheinrichtung
EP2389016B1 (en) * 2010-05-18 2013-07-10 Harman Becker Automotive Systems GmbH Individualization of sound signals
US8467551B2 (en) * 2010-07-30 2013-06-18 Gentex Corporation Vehicular directional microphone assembly for preventing airflow encounter
US8761412B2 (en) * 2010-12-16 2014-06-24 Sony Computer Entertainment Inc. Microphone array steering with image-based source location

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム

Also Published As

Publication number Publication date
EP2798633B1 (en) 2018-05-16
JP2015506491A (ja) 2015-03-02
BR112014016264A2 (pt) 2017-06-13
BR112014016264A8 (pt) 2017-07-04
KR20140097530A (ko) 2014-08-06
CN104025188A (zh) 2014-09-03
WO2013101073A1 (en) 2013-07-04
EP2798633A4 (en) 2015-09-02
CN104025188B (zh) 2016-09-07
US20140278396A1 (en) 2014-09-18
EP2798633A1 (en) 2014-11-05

Similar Documents

Publication Publication Date Title
KR101669866B1 (ko) 음향 신호 조정
US9615171B1 (en) Transformation inversion to reduce the effect of room acoustics
US20240087587A1 (en) Wearable system speech processing
US9495975B2 (en) Systems and methods for source signal separation
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
US11328740B2 (en) Voice onset detection
US9549274B2 (en) Sound processing apparatus, sound processing method, and sound processing program
US20210306751A1 (en) Method of waking a device using spoken voice commands
CN110402584A (zh) 车内通话控制装置、车内通话系统以及车内通话控制方法
US11310593B2 (en) Voice input device and method for estimation of utterance direction
US20190250240A1 (en) Correlation function generation device, correlation function generation method, correlation function generation program, and wave source direction estimation device
KR20150086395A (ko) 음향 신호 조정
KR102226405B1 (ko) 음원 인식 방법 및 장치, 그리고 컴퓨터 판독가능 저장매체
US9865278B2 (en) Audio signal processing device, audio signal processing method, and audio signal processing program
KR102132603B1 (ko) 거리 측정 장치 및 방법
US20220076667A1 (en) Speech recognition apparatus, method and non-transitory computer-readable storage medium
JP7294561B2 (ja) 情報呈示装置、情報呈示方法および情報呈示プログラム
JP7004875B2 (ja) 情報処理装置、算出方法、及び算出プログラム
CN111415678B (zh) 对移动设备或可穿戴设备进行开放或封闭空间环境分类
US20230402049A1 (en) Microphone system
CN117634157A (zh) 多通道噪声数据仿真方法、装置、设备及存储介质
RU2699415C1 (ru) Система и способ обнаружения портативного устройства
Whittington et al. Low-cost hardware speech enhancement for improved speech recognition in automotive environments
CN117746879A (zh) 一种车内外声音交流方法、系统及车辆

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
AMND Amendment
E90F Notification of reason for final refusal
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant