KR20230039715A - 필터링 수단에 의한 에코 제거 방법, 전자 디바이스 및 컴퓨터 판독가능 저장 매체 - Google Patents

필터링 수단에 의한 에코 제거 방법, 전자 디바이스 및 컴퓨터 판독가능 저장 매체 Download PDF

Info

Publication number
KR20230039715A
KR20230039715A KR1020237005525A KR20237005525A KR20230039715A KR 20230039715 A KR20230039715 A KR 20230039715A KR 1020237005525 A KR1020237005525 A KR 1020237005525A KR 20237005525 A KR20237005525 A KR 20237005525A KR 20230039715 A KR20230039715 A KR 20230039715A
Authority
KR
South Korea
Prior art keywords
signals
signal
speaker
filtering
echo
Prior art date
Application number
KR1020237005525A
Other languages
English (en)
Inventor
보 한
링 탕
판 판
다이후 스
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20230039715A publication Critical patent/KR20230039715A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17825Error signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • G10K11/17854Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17857Geometric disposition, e.g. placement of microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3023Estimation of noise, e.g. on error signals
    • G10K2210/30231Sources, e.g. identifying noisy processes or components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3026Feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3027Feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3028Filtering, e.g. Kalman filters or special analogue or digital filters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3035Models, e.g. of the acoustic system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3044Phase shift, e.g. complex envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3046Multiple acoustic inputs, multiple acoustic outputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3056Variable gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/50Miscellaneous
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/50Miscellaneous
    • G10K2210/505Echo cancellation, e.g. multipath-, ghost- or reverberation-cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

에코 필터링 방법, 전자 디바이스, 컴퓨터 판독가능 저장 매체, 및 에코 필터링 장치가 개시된다. 전자 디바이스는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 방법은: N개의 스피커에 대응하는 N개의 스피커 신호를 획득하는 단계(302); M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하는 단계(304); 및 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 적어도 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계(306)를 포함한다. 이 방법을 이용함으로써, 더 나은 에코 필터링 효과가 획득될 수 있다.

Description

필터링 수단에 의한 에코 제거 방법, 전자 디바이스 및 컴퓨터 판독가능 저장 매체
본 개시내용은 전자 디바이스에 관한 것으로, 특히, 에코 필터링 방법, 전자 디바이스, 및 컴퓨터 판독가능 저장 매체에 관한 것이다.
운용 경험 및 음성 상호작용에 대한 소비자들의 요구사항이 향상됨에 따라, 지능형 음성 어시스턴트 및 호출 기능을 포함하는 더 많은 전자 디바이스들, 예를 들어, 스마트 스크린, 스마트 음향 시스템, 스마트 로봇, 차량 내 음성 어시스턴트, 스마트폰, 및 태블릿 컴퓨터가 존재한다. 그러나, 전자 디바이스의 스피커에 의해 재생되는 사운드의 에코(echo)가 보통은 마이크로폰에 의해 캡처된다. 이는 웨이크업(wakeup) 엔진 및/또는 지능형 어시스턴트의 호출 품질에 영향을 미친다. 스피커에 의해 재생되는 사운드는 2가지 방식으로 전자 디바이스의 마이크로폰에 도달할 수 있다. 하나의 방식에서, 사운드는 벽과 같은 환경을 통해 반사되고, 형성되고 반사된 에코는 마이크로폰에 의해 캡처될 수 있다. 또 다른 방식에서, 복수의 스피커에 의해 재생되는 사운드는 어떠한 반사도 없이 전자 디바이스의 마이크로폰에 에코로서 직접적으로 전송된다.
전자 디바이스의 스피커가 음악 또는 텔레비전 프로그램을 재생할 때 음성 어시스턴트를 깨우거나(음성 상호작용 향상) 음성 호출을 수행하기 위해, 이들 전자 디바이스는 보통은 AEC(acoustic echo cancellation) 알고리즘을 사용하여 마이크로폰에 의해 캡처된 오디오 신호에 있고 또한 스피커에 의해 재생되는 사운드의 에코와 연관된 신호 성분을 제거한다. 그렇지만, 어떤 경우에, 스피커에 의해 재생되는 에코를 제거하기 위해 종래의 AEC 알고리즘을 사용하는 것은 여전히 만족스럽지 않으며, 추가의 개선이 필요하다.
전술한 문제를 고려하여, 본 개시내용의 실시예들은 에코 필터링 기술을 제공한다.
본 개시내용의 제1 양태에 따르면, 에코 필터링 방법이 제공된다. 방법은 전자 디바이스에 적용된다. 전자 디바이스는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 방법은: N개의 스피커에 대응하는 N개의 스피커 신호를 획득하는 단계; M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하는 단계; 및 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 적어도 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계를 포함한다. 직접 사운드 필터링은 환경에서의 반사 없이 N개의 스피커로부터 M개의 마이크로폰으로 직접적으로 출력되는 오디오 성분을 필터링하는 것을 나타낸다. 직접 사운드 필터링은 에코 필터링 효과를 더 개선할 수 있다.
일부 실시예들에서, 타깃 신호는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신된다. 일부 실시예들에서, 타깃 신호는 M개의 마이크로폰 신호보다 적은 수의 에코 성분을 포함한다. 에코 성분들은 N개의 스피커 신호의 것이고 또한 M개의 마이크로폰에 의해 캡처되는, 공간에서 전파되는 사운드의 에코를 표현하기 위해 사용된다. 직접 사운드 필터링을 통해 획득된 타깃 신호를 이용함으로써, 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는 성공률이 개선될 수 있고, 및/또는 음성 호출의 품질이 개선될 수 있다.
일부 실시예들에서, 방법은: 전자 디바이스의 디스플레이가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하는 단계; 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하는 단계; 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 N개의 스피커가 N개의 스피커 테스트 신호를 재생할 수 있게 하는 단계; M개의 마이크로폰에 대응하는 M개의 마이크로폰 테스트 신호를 획득하는 단계; 및 맞춤화된 직접 사운드 필터링 모델을 저장하는 단계를 포함한다. 맞춤화된 직접 사운드 필터링 모델은 N개의 스피커 테스트 신호 및 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 맞춤화된 직접 사운드 필터링 모델은 직접 사운드 필터링을 위해 사용된다. 일부 실시예들에서, 방법은 맞춤화된 직접 사운드 필터링 모델을 이용하여 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 맞춤화된 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계를 추가로 포함한다. 맞춤화된 직접 사운드 필터링을 이용함으로써, 직접 사운드 필터링이 고객의 환경에 기초하여 최적화될 수 있고, 고객의 환경에서의 에코 필터링이 더 개선될 수 있다.
일부 실시예들에서, 맞춤화된 직접 사운드 필터링 인터페이스가 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이한다. 맞춤화된 직접 사운드 필터링 인터페이스는 환경 잡음을 나타내는 데시벨 표시자 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 추가로 디스플레이할 수 있다. 환경을 조용하게 유지하는 것을 나타내기 위한 표시자, 데시벨 표시자, 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 디스플레이함으로써, 사용자는 조용하고 적합한 환경에서 맞춤화된 직접 사운드 필터링 모델을 확립할 수 있다. 이는 환경에 특정적인 후속적인 맞춤화된 직접 사운드 필터링에 대한 양호한 기초를 놓고, 환경에서의 양호한 에코 필터링 효과를 후속적으로 획득한다. 일부 실시예들에서, 직접 사운드 필터링은 디폴트 직접 사운드 필터링을 포함한다. 디폴트 직접 사운드 필터링은 N개의 스피커에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 M개의 마이크로폰에 의해 직접 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타낸다.
일부 실시예들에서, 방법은 N개의 스피커 신호에 기초하여 리버스 스피커 신호(reverse speaker signal)들을 생성하는 단계; 및 N개의 스피커 신호에 대응하는 N개의 스피커에 의해 재생되는 오디오 출력의 에코를 제거하기 위해 M개의 마이크로폰에 가까운 리버스 스피커가 리버스 스피커 신호들에 기초하여 리버스 오디오를 재생할 수 있게 하는 단계를 추가로 포함한다. 리버스 스피커는 N개의 스피커와 상이하다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다.
일부 실시예들에서, 방법은: N개의 스피커 신호에 기초하여 에코 추정 신호를 생성하는 단계; M개의 마이크로폰 신호로부터 에코 추정 신호를 필터링하여 잔차 신호(residual signal)를 생성하는 단계; 및 타깃 신호를 획득하는 단계를 추가로 포함한다. 타깃 신호를 획득하는 단계는 잔차 신호에 대해 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계를 포함한다. 에코 필터링 효과는 에코 추정 신호를 필터링하기 위해 직접 사운드 필터링 전에 마이크로폰 신호를 전처리함으로써 더 향상될 수 있다.
일부 실시예들에서, 에코 추정 신호를 생성하는 단계는 N개의 스피커 신호에 대해 비-인터리빙형 전처리(non-interleaved preprocessing)를 수행하여 적어도 하나의 전처리된 신호를 생성하는 단계; 및 적어도 하나의 전처리된 신호에 대해 적응적 필터링을 수행하여 에코 추정 신호를 생성하는 단계를 포함한다. 비-인터리빙형 방식으로 N개의 스피커 신호를 전처리함으로써, 시간의 관점에서 에코를 연속적으로 표현하는 전처리된 신호가 획득될 수 있다. 비-인터리빙형 전처리된 신호에 기초한 적응적 필터링 신호를 이용하여 M개의 마이크로폰 신호 내의 에코 성분을 추정함으로써 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 합산(linear summation)을 수행하여 합산 신호를 생성하는 단계를 포함한다. N개의 스피커 신호 중 적어도 2개의 스피커 신호를 단일 합산 신호가 되도록 조합함으로써, 후속하는 적응적 필터링의 계산 오버헤드가 감소될 수 있다. 이는 전체 계산 오버헤드들을 감소시킨다. 에코 필터링은 더 나은 에코 필터링 효과를 획득하기 위해 전체 주파수 대역에서 수행된다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 차이(linear difference)를 수행하여 차이 신호(difference signal)를 생성하는 단계를 추가로 포함한다. 일부 경우들에서, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 중점을 둔다. 이 경우, 차이 신호는 에코 필터링 효과를 더 개선하기 위해 프로세서에 개별적으로 제공되거나 또 다른 신호와 조합될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 합산 신호 및 차이 신호를 소팅하는 단계를 추가로 포함한다. 에코 추정 신호를 생성하는 단계는 소팅된 합산 신호 및 소팅된 차이 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 에코 추정 신호를 생성하는 단계를 추가로 포함한다. 잔차 신호를 생성하는 단계는 M개의 마이크로폰 신호로부터 대응하는 소팅된 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하는 단계를 포함한다. 합산 신호 및 차이 신호를 소팅하고 그에 따라 잔차 신호를 생성함으로써, 상이한 경우들에 대해 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호를 소팅함으로써 소팅된 N개의 전처리된 신호를 생성하는 단계를 포함한다. 에코 추정 신호를 생성하는 단계는 소팅된 N개의 전처리된 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 N개의 에코 추정 신호를 생성하는 단계를 포함한다. 잔차 신호를 생성하는 단계는 M개의 마이크로폰 신호로부터 대응하는 소팅된 N개의 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하는 단계를 포함한다. N개의 스피커 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, N개의 스피커 신호를 소팅하는 단계는 N개의 스피커 신호 중 각각의 스피커 신호의 저주파수 성분에 기초하여 N개의 스피커 신호를 소팅하는 단계를 포함한다. 에코 필터링 효과는 저주파수 성분의 스피커 신호를 우선적으로 필터링함으로써 개선될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하는 단계를 포함한다. M개의 마이크로폰 신호를 보조 기준 신호들로서 사용함으로써, 큰 에코를 갖는 주파수 대역이 제한되어, 에코 필터링을 개선하는 것을 도울 수 있다.
일부 실시예들에서, 방법은, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭되도록, N개의 스피커 신호, M개의 마이크로폰 신호, 및 적어도 하나의 전처리된 신호 중 적어도 하나의 것의 이득을 조정하는 단계를 추가로 포함한다. 이득을 조정함으로써, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭될 수 있고, 그에 의해 적응적 필터링 효과 및 에코 필터링 효과를 개선한다.
본 개시내용의 제2 양태에 따르면, 에코 필터링 방법이 제공된다. 방법은 전자 디바이스에 적용된다. 전자 디바이스는 M개의 마이크로폰, N개의 스피커, 및 적어도 하나의 리버스 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 방법은: N개의 스피커에 대응하는 N개의 스피커 신호를 획득하는 단계; N개의 스피커 신호에 기초하여 리버스 스피커 신호들을 생성하는 단계; 및 M개의 마이크로폰 중 적어도 하나의 것에 가까운 적어도 하나의 리버스 스피커가 리버스 스피커 신호들에 기초하여 리버스 오디오를 재생할 수 있게 하여 N개의 스피커 신호에 대응하는 N개의 스피커에 의해 재생되는 오디오 출력을 제거하는 단계를 포함한다. 적어도 하나의 리버스 스피커는 N개의 스피커와 상이하다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다. 일부 구현들에서, 적어도 하나의 리버스 스피커는 M개의 리버스 스피커일 수 있다. M은 M개의 마이크로폰의 수량을 나타낸다. 일부 다른 구현들에서, 적어도 하나의 리버스 스피커는 M개의 리버스 스피커보다 더 적거나 더 많은 리버스 스피커들일 수 있다.
일부 실시예들에서, 방법은 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하는 단계; 및 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 적어도 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계를 포함한다. 직접 사운드 필터링은 환경에서의 반사 없이 N개의 스피커로부터 M개의 마이크로폰으로 직접적으로 출력되는 오디오 성분을 필터링하는 것을 나타낸다. 직접 사운드 필터링은 에코 필터링 효과를 더 개선할 수 있다.
일부 실시예들에서, 타깃 신호는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신된다. 일부 실시예들에서, 타깃 신호는 M개의 마이크로폰 신호보다 적은 수의 에코 성분을 포함한다. 에코 성분들은 N개의 스피커 신호의 것이고 또한 M개의 마이크로폰에 의해 캡처되는, 공간에서 전파되는 오디오 출력의 에코를 나타내는데 이용된다. 직접 사운드 필터링을 통해 획득된 타깃 신호를 이용함으로써, 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는 성공률이 개선될 수 있고, 및/또는 음성 호출의 품질이 개선될 수 있다.
일부 실시예들에서, 직접 사운드 필터링은 디폴트 직접 사운드 필터링을 포함한다. 디폴트 직접 사운드 필터링은 N개의 스피커에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 M개의 마이크로폰에 의해 직접 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타낸다.
일부 실시예들에서, 방법은: 전자 디바이스의 디스플레이가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하는 단계; 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하는 단계; 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 N개의 스피커가 N개의 스피커 테스트 신호를 재생할 수 있게 하는 단계; M개의 마이크로폰에 대응하는 M개의 마이크로폰 테스트 신호를 획득하는 단계; 및 맞춤화된 직접 사운드 필터링 모델을 저장하는 단계를 포함한다. 맞춤화된 직접 사운드 필터링 모델은 N개의 스피커 테스트 신호 및 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 맞춤화된 직접 사운드 필터링 모델은 직접 사운드 필터링을 위해 사용된다. 일부 실시예들에서, 방법은 맞춤화된 직접 사운드 필터링 모델을 이용하여 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 맞춤화된 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계를 추가로 포함한다. 맞춤화된 직접 사운드 필터링을 이용함으로써, 직접 사운드 필터링이 고객의 환경에 기초하여 최적화될 수 있고, 고객의 환경에서의 에코 필터링이 더 개선될 수 있다.
일부 실시예들에서, 맞춤화된 직접 사운드 필터링 인터페이스가 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이한다. 맞춤화된 직접 사운드 필터링 인터페이스는 환경 잡음을 나타내는 데시벨 표시자 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 추가로 디스플레이할 수 있다. 환경을 조용하게 유지하는 것을 나타내기 위한 표시자, 데시벨 표시자, 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 디스플레이함으로써, 사용자는 조용하고 적합한 환경에서 맞춤화된 직접 사운드 필터링 모델을 확립할 수 있다. 이는 환경에 특정적인 후속적인 맞춤화된 직접 사운드 필터링에 대한 양호한 기초를 놓고, 환경에서의 양호한 에코 필터링 효과를 후속적으로 획득한다.
일부 실시예들에서, 방법은: N개의 스피커 신호에 기초하여 에코 추정 신호를 생성하는 단계; M개의 마이크로폰 신호로부터 에코 추정 신호를 필터링하여 잔차 신호(residual signal)를 생성하는 단계; 및 타깃 신호를 획득하는 단계를 추가로 포함한다. 타깃 신호를 획득하는 단계는 잔차 신호에 대해 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계를 포함한다. 에코 필터링 효과는 에코 추정 신호를 필터링하기 위해 직접 사운드 필터링 전에 마이크로폰 신호를 전처리함으로써 더 향상될 수 있다.
일부 실시예들에서, 에코 추정 신호를 생성하는 단계는 N개의 스피커 신호에 대해 비-인터리빙형 전처리(non-interleaved preprocessing)를 수행하여 적어도 하나의 전처리된 신호를 생성하는 단계; 및 적어도 하나의 전처리된 신호에 대해 적응적 필터링을 수행하여 에코 추정 신호를 생성하는 단계를 포함한다. 비-인터리빙형 방식으로 N개의 스피커 신호를 전처리함으로써, 시간의 관점에서 에코를 연속적으로 표현하는 전처리된 신호가 획득될 수 있다. 비-인터리빙형 전처리된 신호에 기초한 적응적 필터링 신호를 이용하여 M개의 마이크로폰 신호 내의 에코 성분을 추정함으로써 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 합산(linear summation)을 수행하여 합산 신호를 생성하는 단계를 포함한다. N개의 스피커 신호 중 적어도 2개의 스피커 신호를 단일 합산 신호가 되도록 조합함으로써, 후속하는 적응적 필터링의 계산 오버헤드가 감소될 수 있다. 이는 전체 계산 오버헤드들을 감소시킨다. 에코 필터링은 더 나은 에코 필터링 효과를 획득하기 위해 전체 주파수 대역에서 수행된다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 차이(linear difference)를 수행하여 차이 신호(difference signal)를 생성하는 단계를 추가로 포함한다. 일부 경우들에서, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 중점을 둔다. 이 경우, 차이 신호는 에코 필터링 효과를 더 개선하기 위해 프로세서에 개별적으로 제공되거나 또 다른 신호와 조합될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 합산 신호 및 차이 신호를 소팅하는 단계를 추가로 포함한다. 에코 추정 신호를 생성하는 단계는: 소팅된 합산 신호 및 소팅된 차이 신호에 대해 순차적으로 적응적 필터링을 수행하여 대응하는 소팅된 에코 추정 신호들을 생성하는 단계를 추가로 포함한다. 잔차 신호를 생성하는 단계는 M개의 마이크로폰 신호로부터 대응하는 소팅된 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하는 단계를 포함한다. 합산 신호 및 차이 신호를 소팅하고 그에 따라 잔차 신호를 생성함으로써, 상이한 경우들에 대해 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호를 소팅함으로써 소팅된 N개의 전처리된 신호를 생성하는 단계를 포함한다. 에코 추정 신호를 생성하는 단계는: 소팅된 N개의 전처리된 신호들에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 N개의 에코 추정 신호들을 생성하는 단계를 포함한다. 잔차 신호를 생성하는 단계는 M개의 마이크로폰 신호로부터 N개의 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하는 단계를 포함한다. N개의 스피커 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, N개의 스피커 신호를 소팅하는 단계는 N개의 스피커 신호 중 각각의 스피커 신호의 저주파수 성분에 기초하여 N개의 스피커 신호를 소팅하는 단계를 포함한다. 에코 필터링 효과는 저주파수 성분의 스피커 신호를 우선적으로 필터링함으로써 개선될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하는 단계를 포함한다. M개의 마이크로폰 신호를 보조 기준 신호들로서 사용함으로써, 큰 에코를 갖는 주파수 대역이 제한되어, 에코 필터링을 개선하는 것을 도울 수 있다.
일부 실시예들에서, 방법은, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭되도록, N개의 스피커 신호, M개의 마이크로폰 신호, 및 적어도 하나의 전처리된 신호 중 적어도 하나의 것의 이득을 조정하는 단계를 추가로 포함한다. 이득을 조정함으로써, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭될 수 있고, 그에 의해 적응적 필터링 효과 및 에코 필터링 효과를 개선한다.
본 개시내용의 제3 양태에 따르면, 에코 필터링 방법이 제공된다. 방법은 전자 디바이스에 적용된다. 전자 디바이스는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 방법은: N개의 스피커에 대응하는 N개의 스피커 신호를 획득하는 단계; M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하는 단계; N개의 스피커 신호에 대해 비-인터리빙형 전처리를 수행하여 M개의 전처리된 신호 그룹을 생성하는 단계; M개의 전처리된 신호 그룹에 적응적 필터링을 수행하여 M개의 에코 추정 신호들을 생성하는 단계; 및 M개의 마이크로폰 신호로부터 M개의 에코 추정 신호를 필터링하여 잔차 신호를 획득하는 단계를 포함한다. 비-인터리빙형 방식으로 N개의 스피커 신호를 전처리함으로써, 시간의 관점에서 에코를 연속적으로 표현하는 전처리된 신호가 획득될 수 있다. 비-인터리빙형 전처리된 신호에 기초한 적응적 필터링 신호를 이용하여 M개의 마이크로폰 신호 내의 에코 성분을 추정함으로써 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 잔차 신호는 타깃 신호이다. 타깃 신호는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 웨이크업하는데 이용되거나 음성 호출을 위해 또 다른 전자 디바이스에 전송된다. 일부 실시예들에서, 타깃 신호는 M개의 마이크로폰 신호보다 적은 수의 에코 성분을 포함한다. 에코 성분들은 N개의 스피커 신호의 것이고 또한 M개의 마이크로폰에 의해 캡처되는, 공간에서 전파되는 사운드의 에코를 표현하기 위해 사용된다. 비-인터리빙형 전처리를 통해 획득된 타깃 신호를 이용함으로써, 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는 성공률이 개선될 수 있고, 및/또는 음성 호출의 품질이 개선될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 합산(linear summation)을 수행하여 합산 신호를 생성하는 단계를 포함한다. N개의 스피커 신호 중 적어도 2개의 스피커 신호를 단일 합산 신호가 되도록 조합함으로써, 후속하는 적응적 필터링의 계산 오버헤드가 감소될 수 있다. 이는 전체 계산 오버헤드들을 감소시킨다. 에코 필터링은 더 나은 에코 필터링 효과를 획득하기 위해 전체 주파수 대역에서 수행된다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 차이를 수행하여 차이 신호를 생성하는 단계를 포함한다. 일부 경우들에서, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 중점을 둔다. 이 경우, 차이 신호는 에코 필터링 효과를 더 개선하기 위해 프로세서에 개별적으로 제공되거나 또 다른 신호와 조합될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 합산 신호 및 차이 신호를 소팅하는 단계를 추가로 포함한다. 적어도 하나의 에코 추정 신호를 생성하는 단계는 소팅된 합산 신호 및 소팅된 차이 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응적으로 소팅된 적응적 필터링 신호를 순차적으로 생성하는 단계를 포함한다. 잔차 신호를 생성하는 단계는 M개의 마이크로폰 신호로부터 대응하는 소팅된 적응적 필터링 신호를 순차적으로 필터링하여 잔차 신호를 생성하는 단계를 포함한다. 합산 신호 및 차이 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호를 소팅함으로써 소팅된 N개의 전처리된 신호를 생성하는 단계를 포함한다. 적어도 하나의 에코 추정 신호를 생성하는 단계는 소팅된 N개의 전처리된 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 에코 추정 신호들을 생성하는 단계를 포함한다. 타깃 신호를 생성하는 단계는 M개의 마이크로폰 신호로부터 대응적으로 소팅된 에코 추정 신호들을 순차적으로 필터링하여 타깃 신호를 생성하는 단계를 포함한다. N개의 스피커 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, N개의 스피커 신호를 소팅하는 단계는 N개의 스피커 신호 중 각각의 스피커 신호의 저주파수 성분에 기초하여 N개의 스피커 신호를 소팅하는 단계를 포함한다. 에코 필터링 효과는 저주파수 성분의 스피커 신호를 우선적으로 필터링함으로써 개선될 수 있다.
일부 실시예들에서, 적어도 하나의 전처리된 신호를 생성하는 단계는 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하는 단계를 포함한다. M개의 마이크로폰 신호를 보조 기준 신호들로서 사용함으로써, 큰 에코를 갖는 주파수 대역이 제한되어, 에코 필터링을 개선하는 것을 도울 수 있다.
일부 실시예들에서, 방법은 적어도 하나의 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭되도록, N개의 스피커 신호, M개의 마이크로폰 신호, 및 적어도 하나의 전처리된 신호 중 적어도 하나의 것의 이득을 조정하는 단계를 추가로 포함한다. 이득을 조정함으로써, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭될 수 있고, 그에 의해 적응적 필터링 효과 및 에코 필터링 효과를 개선한다.
일부 실시예들에서, 적어도 하나의 에코 추정 신호를 생성하는 단계는 복수의 전처리된 신호의 경우에 복수의 전처리된 신호에 대해 병렬 적응적 필터링을 수행하여 적어도 하나의 에코 추정 신호를 생성하는 단계를 포함한다. 낮은 유사성을 갖는 복수의 전처리된 신호에 대해, 병렬 전처리는 에코 필터링 효과를 개선할 수 있다.
일부 실시예들에서, 적어도 하나의 에코 추정 신호를 생성하는 단계는 적어도 하나의 전처리된 신호를 시간 도메인 신호로부터 주파수 도메인 신호로 변환하는 단계, 및 주파수 도메인 신호에 대해 적응적 필터링을 수행하여 적어도 하나의 에코 추정 신호를 획득하는 단계를 포함한다. 적응적 필터링의 계산 오버헤드들은 전처리된 신호를 시간 도메인으로부터 주파수 도메인으로 변환함으로써 감소될 수 있다.
일부 실시예들에서, 방법은 잔차 신호에 대해 직접 사운드 필터링을 수행하여 타깃 신호를 생성하는 단계를 포함한다. 직접 사운드 필터링은 환경에서의 반사 없이 N개의 스피커로부터 M개의 마이크로폰으로 직접적으로 출력되는 오디오 성분을 필터링하는 것을 나타낸다. 더 구체적으로, 직접 사운드 필터링은 제1 스피커 및 제2 스피커 중 적어도 하나에 의해 재생되는 사운드 소스 신호와 마이크로폰에 의해 직접 캡처되는 오디오 입력 신호 사이의 모델 관계에 기초한 필터링을 나타낸다. 직접 사운드 필터링은 에코 필터링 효과를 더 개선할 수 있다.
일부 실시예들에서, 타깃 신호를 생성하는 단계는 잔차 신호에 대해 디폴트 직접 사운드 필터링을 수행하여 타깃 신호를 생성하는 단계를 포함한다. 디폴트 직접 사운드 필터링은 완전히 뮤팅된 환경에서 N개의 스피커에 의해 재생되는 사운드 소스 신호와 M개의 마이크로폰에 의해 직접 캡처되는 오디오 입력 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타낸다.
일부 실시예들에서, 방법은: 전자 디바이스의 디스플레이가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하는 단계; 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하는 단계; 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 N개의 스피커가 N개의 스피커 테스트 신호를 재생할 수 있게 하는 단계; M개의 마이크로폰에 대응하는 M개의 마이크로폰 테스트 신호를 획득하는 단계; 및 맞춤화된 직접 사운드 필터링 모델을 저장하는 단계를 포함한다. 맞춤화된 직접 사운드 필터링 모델은 N개의 스피커 테스트 신호 및 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 맞춤화된 직접 사운드 필터링 모델은 직접 사운드 필터링을 위해 사용된다. 일부 실시예들에서, 방법은 맞춤화된 직접 사운드 필터링 모델을 이용하여 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 맞춤화된 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 단계를 추가로 포함한다. 맞춤화된 직접 사운드 필터링을 이용함으로써, 직접 사운드 필터링이 고객의 환경에 기초하여 최적화될 수 있고, 고객의 환경에서의 에코 필터링이 더 개선될 수 있다.
일부 실시예들에서, 방법은 N개의 스피커 신호에 기초하여 리버스 오디오 신호를 생성하는 단계; 및 마이크로폰에 가까운 리버스 스피커가 리버스 오디오 신호에 기초하여 리버스 오디오를 재생할 수 있게 하여 N개의 스피커 중 적어도 하나에 의해 재생되는 오디오 출력을 제거하는 단계를 추가로 포함한다. 리버스 스피커는 제1 스피커 및 제2 스피커와 상이하다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다.
본 개시내용의 제4 양태에 따르면, 전자 디바이스가 제공된다. 전자 디바이스는 N개의 스피커, M개의 마이크로폰, 하나 이상의 프로세서, 및 하나 이상의 프로그램을 저장하는 메모리를 포함한다. 하나 이상의 프로세서는 N개의 스피커에 대응하는 N개의 스피커 신호 및 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득한다. 하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행되도록 구성된다. 하나 이상의 프로그램은 제1 양태에 따른 방법을 실행하기 위해 사용되는 명령어들을 포함한다.
본 개시내용의 제5 양태에 따르면, 전자 디바이스가 제공된다. 전자 디바이스는 N개의 스피커, M개의 마이크로폰, 적어도 하나의 리버스 스피커, 하나 이상의 프로세서, 및 하나 이상의 프로그램을 저장하는 메모리를 포함한다. 하나 이상의 프로세서는 N개의 스피커에 대응하는 N개의 스피커 신호 및 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하고, 적어도 하나의 리버스 스피커가 리버스 오디오를 재생할 수 있게 한다. 하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행되도록 구성된다. 하나 이상의 프로그램은 제2 양태에 따른 방법을 실행하기 위해 사용되는 명령어들을 포함한다. 일부 구현들에서, 적어도 하나의 리버스 스피커는 M개의 리버스 스피커일 수 있다. M은 M개의 마이크로폰의 수량을 나타낸다. 일부 다른 구현들에서, 적어도 하나의 리버스 스피커는 M개의 리버스 스피커보다 더 적거나 더 많은 리버스 스피커들일 수 있다.
본 개시내용의 제6 양태에 따르면, 전자 디바이스가 제공된다. 전자 디바이스는 N개의 스피커, M개의 마이크로폰, 적어도 하나의 리버스 스피커, 하나 이상의 프로세서, 및 하나 이상의 프로그램을 저장하는 메모리를 포함한다. 하나 이상의 프로그램이 하나 이상의 프로세서에 의해 실행되도록 구성된다. 하나 이상의 프로그램은 제3 양태에 따른 방법을 실행하기 위해 사용되는 명령어들을 포함한다.
본 개시내용의 제7 양태에 따르면, 컴퓨터 판독가능 저장 매체가 제공된다. 컴퓨터 판독가능 저장 매체는 하나 이상의 프로그램을 저장한다. 하나 이상의 프로그램은 전자 디바이스의 하나 이상의 프로세서에 의해 실행되도록 구성된다. 하나 이상의 프로그램은 제1 양태에 따른 방법을 실행하기 위해 사용되는 명령어들을 포함한다.
본 개시내용의 제8 양태에 따르면, 컴퓨터 판독가능 저장 매체가 제공된다. 컴퓨터 판독가능 저장 매체는 하나 이상의 프로그램을 저장한다. 하나 이상의 프로그램은 전자 디바이스의 하나 이상의 프로세서에 의해 실행되도록 구성된다. 하나 이상의 프로그램은 제2 양태에 따른 방법을 실행하기 위해 사용되는 명령어를 포함한다.
본 개시내용의 제9 양태에 따르면, 컴퓨터 판독가능 저장 매체가 제공된다. 컴퓨터 판독가능 저장 매체는 하나 이상의 프로그램을 저장한다. 하나 이상의 프로그램은 전자 디바이스의 하나 이상의 프로세서에 의해 실행되도록 구성된다. 하나 이상의 프로그램은 제3 양태에 따른 방법을 실행하기 위해 사용되는 명령어들을 포함한다.
본 개시내용의 제10 양태에 따르면, 에코 필터링 장치가 제공된다. 장치는 전자 디바이스에서 사용된다. 전자 디바이스는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 장치는: N개의 스피커에 대응하는 N개의 스피커 신호를 획득하도록 구성된 제1 획득 모듈; M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하도록 구성된 제2 획득 모듈; 및 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 적어도 직접 사운드 필터링을 수행하여 타깃 신호를 획득하도록 구성된 직접 사운드 필터링 모듈을 추가로 포함한다. 직접 사운드 필터링은 환경에서의 반사 없이 N개의 스피커로부터 M개의 마이크로폰으로 직접적으로 출력되는 오디오 성분을 필터링하는 것을 나타낸다. 직접 사운드 필터링은 에코 필터링 효과를 더 개선할 수 있다.
일부 실시예들에서, 타깃 신호는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신된다. 일부 실시예들에서, 타깃 신호는 M개의 마이크로폰 신호보다 적은 수의 에코 성분을 포함한다. 에코 성분들은 N개의 스피커 신호의 것이고 또한 M개의 마이크로폰에 의해 캡처되는, 공간에서 전파되는 사운드의 에코를 표현하기 위해 사용된다. 직접 사운드 필터링을 통해 획득된 타깃 신호를 이용함으로써, 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는 성공률이 개선될 수 있고, 및/또는 음성 호출의 품질이 개선될 수 있다.
일부 실시예들에서, 장치는: 전자 디바이스의 디스플레이가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하도록 구성된 디스플레이 인에이블 모듈; 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하도록 구성된 입력 수신 모듈; 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 N개의 스피커가 N개의 스피커 테스트 신호를 재생할 수 있게 하도록 구성된 스피커 테스트 모듈; M개의 마이크로폰에 대응하는 M개의 마이크로폰 테스트 신호를 획득하도록 구성된 제3 획득 모듈; 및 맞춤화된 직접 사운드 필터링 모델을 저장하도록 구성된 저장 모듈을 추가로 포함한다. 맞춤화된 직접 사운드 필터링 모델은 N개의 스피커 테스트 신호 및 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 맞춤화된 직접 사운드 필터링 모델은 직접 사운드 필터링을 위해 사용된다. 일부 실시예들에서, 장치는 맞춤화된 직접 사운드 필터링 모델을 이용하여 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 맞춤화된 직접 사운드 필터링을 수행하여 타깃 신호를 획득하도록 구성된 맞춤화된 직접 사운드 필터링 모듈을 추가로 포함한다. 맞춤화된 직접 사운드 필터링을 이용함으로써, 직접 사운드 필터링이 고객의 환경에 기초하여 최적화될 수 있고, 고객의 환경에서의 에코 필터링이 더 개선될 수 있다.
일부 실시예들에서, 맞춤화된 직접 사운드 필터링 인터페이스가 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이한다. 맞춤화된 직접 사운드 필터링 인터페이스는 환경 잡음을 나타내는 데시벨 표시자 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 추가로 디스플레이할 수 있다. 환경을 조용하게 유지하는 것을 나타내기 위한 표시자, 데시벨 표시자, 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 디스플레이함으로써, 사용자는 조용하고 적합한 환경에서 맞춤화된 직접 사운드 필터링 모델을 확립할 수 있다. 이는 환경에 특정적인 후속적인 맞춤화된 직접 사운드 필터링에 대한 양호한 기초를 놓고, 환경에서의 양호한 에코 필터링 효과를 후속적으로 획득한다. 일부 실시예들에서, 직접 사운드 필터링은 디폴트 직접 사운드 필터링을 포함한다. 디폴트 직접 사운드 필터링은 N개의 스피커에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 M개의 마이크로폰에 의해 직접 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타낸다.
일부 실시예들에서, 장치는: N개의 스피커 신호에 기초하여 리버스 스피커 신호들을 생성하도록 구성된 리버스 스피커 신호 생성 모듈; 및 N개의 스피커 신호에 대응하는 N개의 스피커에 의해 재생되는 오디오 출력의 에코를 제거하기 위해 M개의 마이크로폰 중 적어도 하나의 것에 가까운 리버스 스피커가 리버스 스피커 신호들에 기초하여 리버스 오디오를 재생할 수 있게 하도록 구성된 재생 인에이블링 모듈을 추가로 포함한다. 리버스 스피커는 N개의 스피커와 상이하다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다.
일부 실시예들에서, 장치는: N개의 스피커 신호에 기초하여 에코 추정 신호를 생성하도록 구성된 에코 추정 모듈; M개의 마이크로폰 신호로부터 에코 추정 신호를 필터링하여 잔차 신호를 생성하도록 구성된 잔차 신호 생성 모듈; 및 잔차 신호에 대해 직접 사운드 필터링을 수행하여 타깃 신호를 획득하도록 구성된 타깃 신호 생성 모듈을 추가로 포함한다. 에코 필터링 효과는 에코 추정 신호를 필터링하기 위해 직접 사운드 필터링 전에 마이크로폰 신호를 전처리함으로써 더 향상될 수 있다.
일부 실시예들에서, 에코 추정 모듈은 N개의 스피커 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하도록 구성된 전처리된 신호 생성 모듈; 및 적어도 하나의 전처리된 신호에 대해 적응적 필터링을 수행하여 에코 추정 신호를 생성하도록 구성된 적응적 필터링 모듈을 포함한다. 비-인터리빙형 방식으로 N개의 스피커 신호를 전처리함으로써, 시간의 관점에서 에코를 연속적으로 표현하는 전처리된 신호가 획득될 수 있다. 비-인터리빙형 전처리된 신호에 기초한 적응적 필터링 신호를 이용하여 M개의 마이크로폰 신호 내의 에코 성분을 추정함으로써 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 합산을 수행하여 합산 신호를 생성하도록 구성된 합산 모듈을 포함한다. N개의 스피커 신호 중 적어도 2개의 스피커 신호를 단일 합산 신호가 되도록 조합함으로써, 후속하는 적응적 필터링의 계산 오버헤드가 감소될 수 있다. 이는 전체 계산 오버헤드들을 감소시킨다. 에코 필터링은 더 나은 에코 필터링 효과를 획득하기 위해 전체 주파수 대역에서 수행된다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 차이를 수행하여 차이 신호를 생성하도록 구성된 차이 모듈을 추가로 포함한다. 일부 경우들에서, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 중점을 둔다. 이 경우, 차이 신호는 에코 필터링 효과를 더 개선하기 위해 프로세서에 개별적으로 제공되거나 또 다른 신호와 조합될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 합산 신호 및 차이 신호를 소팅하도록 구성된 소팅 모듈을 추가로 포함한다. 에코 추정 모듈은, 소팅된 합산 신호 및 소팅된 차이 신호에 대해 적응적 필터링을 순차적으로 수행하여, 대응하는 소팅된 에코 추정 신호를 생성하도록 구성된 순차적 적응적 필터링 모듈을 추가로 포함한다. 잔차 신호 생성 모듈은, M개의 마이크로폰 신호로부터 대응하는 소팅된 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하도록 구성된 잔차 신호 순차적 생성 모듈을 포함한다. 합산 신호 및 차이 신호를 소팅하고 그에 따라 잔차 신호를 생성함으로써, 상이한 경우들에 대해 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호를 소팅함으로써 소팅된 N개의 전처리된 신호를 생성하도록 구성된 스피커 신호 소팅 모듈을 포함한다. 에코 추정 모듈은, 소팅된 N개의 전처리된 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 N개의 에코 추정 신호를 생성하도록 구성된 순차적 적응적 필터링 모듈을 포함한다. 잔차 신호 생성 모듈은 M개의 마이크로폰 신호로부터 대응하는 소팅된 N개의 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하도록 구성된 잔차 신호 순차적 생성 모듈을 포함한다. N개의 스피커 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, N개의 스피커 신호를 소팅하는 단계는 N개의 스피커 신호 중 각각의 스피커 신호의 저주파수 성분에 기초하여 N개의 스피커 신호를 소팅하는 단계를 포함한다. 에코 필터링 효과는 저주파수 성분의 스피커 신호를 우선적으로 필터링함으로써 개선될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하도록 추가로 구성된다. M개의 마이크로폰 신호를 보조 기준 신호들로서 사용함으로써, 큰 에코를 갖는 주파수 대역이 제한되어, 에코 필터링을 개선하는 것을 도울 수 있다.
일부 실시예들에서, 장치는, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭되도록, N개의 스피커 신호, M개의 마이크로폰 신호, 및 적어도 하나의 전처리된 신호 중 적어도 하나의 것의 이득을 조정하도록 구성된 이득 조정 모듈을 추가로 포함한다. 이득을 조정함으로써, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭될 수 있고, 그에 의해 적응적 필터링 효과 및 에코 필터링 효과를 개선한다.
본 개시내용의 제11 양태에 따르면, 에코 필터링 장치가 제공된다. 장치는 전자 디바이스에서 사용된다. 전자 디바이스는 M개의 마이크로폰, N개의 스피커, 및 적어도 하나의 리버스 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 장치는: N개의 스피커에 대응하는 N개의 스피커 신호를 획득하도록 구성된 제1 획득 모듈; N개의 스피커 신호에 기초하여 리버스 스피커 신호들을 생성하도록 구성된 리버스 스피커 신호 생성 모듈; 및 N개의 스피커 신호에 대응하는 N개의 스피커에 의해 재생되는 오디오 출력을 제거하기 위해 M개의 마이크로폰 중 적어도 하나의 것에 가까운 적어도 하나의 리버스 스피커가 리버스 스피커 신호들에 기초하여 리버스 오디오를 재생할 수 있게 하도록 구성된 재생 인에이블링 모듈을 포함한다. 적어도 하나의 리버스 스피커는 N개의 스피커와 상이하다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다. 일부 구현들에서, 적어도 하나의 리버스 스피커는 M개의 리버스 스피커일 수 있다. M은 M개의 마이크로폰의 수량을 나타낸다. 일부 다른 구현들에서, 적어도 하나의 리버스 스피커는 M개의 리버스 스피커보다 더 적거나 더 많은 리버스 스피커들일 수 있다.
일부 실시예들에서, 장치는 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하도록 구성된 제2 획득 모듈; 및 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 적어도 직접 사운드 필터링을 수행하여 타깃 신호를 획득하도록 구성된 직접 사운드 필터링 모듈을 추가로 포함한다. 직접 사운드 필터링은 환경에서의 반사 없이 N개의 스피커로부터 M개의 마이크로폰으로 직접적으로 출력되는 오디오 성분을 필터링하는 것을 나타낸다. 직접 사운드 필터링은 에코 필터링 효과를 더 개선할 수 있다.
일부 실시예들에서, 타깃 신호는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신된다. 일부 실시예들에서, 타깃 신호는 M개의 마이크로폰 신호보다 적은 수의 에코 성분을 포함한다. 에코 성분들은 N개의 스피커 신호의 것이고 또한 M개의 마이크로폰에 의해 캡처되는, 공간에서 전파되는 오디오 출력의 에코를 나타내는데 이용된다. 직접 사운드 필터링을 통해 획득된 타깃 신호를 이용함으로써, 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는 성공률이 개선될 수 있고, 및/또는 음성 호출의 품질이 개선될 수 있다.
일부 실시예들에서, 직접 사운드 필터링 모듈은 디폴트 직접 사운드 필터링 모듈을 포함한다. 디폴트 직접 사운드 필터링은 N개의 스피커에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 M개의 마이크로폰에 의해 직접 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타낸다.
일부 실시예들에서, 장치는: 전자 디바이스의 디스플레이가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하도록 구성된 디스플레이 인에이블 모듈; 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하도록 구성된 입력 수신 모듈; 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 N개의 스피커가 N개의 스피커 테스트 신호를 재생할 수 있게 하도록 구성된 스피커 테스트 모듈; M개의 마이크로폰에 대응하는 M개의 마이크로폰 테스트 신호를 획득하도록 구성된 제3 획득 모듈; 및 맞춤화된 직접 사운드 필터링 모델을 저장하도록 구성된 저장 모듈을 추가로 포함한다. 맞춤화된 직접 사운드 필터링 모델은 N개의 스피커 테스트 신호 및 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 맞춤화된 직접 사운드 필터링 모델은 직접 사운드 필터링을 위해 사용된다. 일부 실시예들에서, 이 장치는: 맞춤화된 직접 사운드 필터링 모델을 이용하여 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 맞춤화된 직접 사운드 필터링을 수행하여 타깃 신호를 획득하는 것을 추가로 포함한다. 맞춤화된 직접 사운드 필터링을 이용함으로써, 직접 사운드 필터링이 고객의 환경에 기초하여 최적화될 수 있고, 고객의 환경에서의 에코 필터링이 더 개선될 수 있다.
일부 실시예들에서, 맞춤화된 직접 사운드 필터링 인터페이스가 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이한다. 맞춤화된 직접 사운드 필터링 인터페이스는 환경 잡음을 나타내는 데시벨 표시자 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 추가로 디스플레이할 수 있다. 환경을 조용하게 유지하는 것을 나타내기 위한 표시자, 데시벨 표시자, 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 디스플레이함으로써, 사용자는 조용하고 적합한 환경에서 맞춤화된 직접 사운드 필터링 모델을 확립할 수 있다. 이는 환경에 특정적인 후속적인 맞춤화된 직접 사운드 필터링에 대한 양호한 기초를 놓고, 환경에서의 양호한 에코 필터링 효과를 후속적으로 획득한다.
일부 실시예들에서, 장치는: N개의 스피커 신호에 기초하여 에코 추정 신호를 생성하도록 구성된 에코 추정 모듈; M개의 마이크로폰 신호로부터 에코 추정 신호를 필터링하여 잔차 신호를 생성하도록 구성된 잔차 신호 생성 모듈; 및 잔차 신호에 대해 직접 사운드 필터링을 수행하여 타깃 신호를 획득하도록 구성된 타깃 신호 생성 모듈을 추가로 포함한다. 에코 필터링 효과는 에코 추정 신호를 필터링하기 위해 직접 사운드 필터링 전에 마이크로폰 신호를 전처리함으로써 더 향상될 수 있다.
일부 실시예들에서, 에코 추정 모듈은 N개의 스피커 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하도록 구성된 전처리된 신호 생성 모듈; 및 적어도 하나의 전처리된 신호에 대해 적응적 필터링을 수행하여 에코 추정 신호를 생성하도록 구성된 적응적 필터링 모듈을 포함한다. 비-인터리빙형 방식으로 N개의 스피커 신호를 전처리함으로써, 시간의 관점에서 에코를 연속적으로 표현하는 전처리된 신호가 획득될 수 있다. 비-인터리빙형 전처리된 신호에 기초한 적응적 필터링 신호를 이용하여 M개의 마이크로폰 신호 내의 에코 성분을 추정함으로써 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 합산을 수행하여 합산 신호를 생성하도록 구성된 합산 모듈을 포함한다. N개의 스피커 신호 중 적어도 2개의 스피커 신호를 단일 합산 신호가 되도록 조합함으로써, 후속하는 적응적 필터링의 계산 오버헤드가 감소될 수 있다. 이는 전체 계산 오버헤드들을 감소시킨다. 에코 필터링은 더 나은 에코 필터링 효과를 획득하기 위해 전체 주파수 대역에서 수행된다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 차이를 수행하여 차이 신호를 생성하도록 구성된 차이 모듈을 추가로 포함한다. 일부 경우들에서, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 중점을 둔다. 이 경우, 차이 신호는 에코 필터링 효과를 더 개선하기 위해 프로세서에 개별적으로 제공되거나 또 다른 신호와 조합될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 합산 신호 및 차이 신호를 소팅하도록 구성된 소팅 모듈을 추가로 포함한다. 에코 추정 모듈은, 소팅된 합산 신호 및 소팅된 차이 신호에 대해 적응적 필터링을 순차적으로 수행하여, 대응하는 소팅된 에코 추정 신호를 생성하도록 구성된 순차적 적응적 필터링 모듈을 추가로 포함한다. 잔차 신호 생성 모듈은, M개의 마이크로폰 신호로부터 대응하는 소팅된 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하도록 구성된 잔차 신호 순차적 생성 모듈을 포함한다. 합산 신호 및 차이 신호를 소팅하고 그에 따라 잔차 신호를 생성함으로써, 상이한 경우들에 대해 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호를 소팅함으로써 소팅된 N개의 전처리된 신호를 생성하도록 구성된 스피커 신호 소팅 모듈을 포함한다. 에코 추정 모듈은, 소팅된 N개의 전처리된 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 N개의 에코 추정 신호를 생성하도록 구성된 순차적 적응적 필터링 모듈을 포함한다. 잔차 신호 생성 모듈은 M개의 마이크로폰 신호로부터 대응하는 소팅된 N개의 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하도록 구성된 잔차 신호 순차적 생성 모듈을 포함한다. N개의 스피커 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, N개의 스피커 신호를 소팅하는 단계는 N개의 스피커 신호 중 각각의 스피커 신호의 저주파수 성분에 기초하여 N개의 스피커 신호를 소팅하는 단계를 포함한다. 에코 필터링 효과는 저주파수 성분의 스피커 신호를 우선적으로 필터링함으로써 개선될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하도록 추가로 구성된다. M개의 마이크로폰 신호를 보조 기준 신호들로서 사용함으로써, 큰 에코를 갖는 주파수 대역이 제한되어, 에코 필터링을 개선하는 것을 도울 수 있다.
일부 실시예들에서, 장치는, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭되도록, N개의 스피커 신호, M개의 마이크로폰 신호, 및 적어도 하나의 전처리된 신호 중 적어도 하나의 것의 이득을 조정하도록 구성된 이득 조정 모듈을 추가로 포함한다. 이득을 조정함으로써, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭될 수 있고, 그에 의해 적응적 필터링 효과 및 에코 필터링 효과를 개선한다.
본 개시내용의 제12 양태에 따르면, 에코 필터링 장치가 제공된다. 장치는 전자 디바이스에서 사용된다. 전자 디바이스는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 장치는 N개의 스피커에 대응하는 N개의 스피커 신호를 획득하도록 구성된 제1 획득 모듈; M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하도록 구성된 제2 획득 모듈; N개의 스피커 신호에 대해 비-인터리빙형 전처리를 수행하여 M개의 전처리된 신호 그룹을 생성하도록 구성되는 전처리된 신호 생성 모듈; M개의 전처리된 신호 그룹에 대해 적응적 필터링을 수행하여 M개의 에코 추정 신호를 생성하도록 구성된 에코 추정 모듈; 및 M개의 마이크로폰 신호로부터 M개의 에코 추정 신호를 필터링하여 잔차 신호를 획득하도록 구성된 잔차 신호 생성 모듈을 포함한다. 비-인터리빙형 방식으로 N개의 스피커 신호를 전처리함으로써, 시간의 관점에서 에코를 연속적으로 표현하는 전처리된 신호가 획득될 수 있다. 비-인터리빙형 전처리된 신호에 기초한 적응적 필터링 신호를 이용하여 M개의 마이크로폰 신호 내의 에코 성분을 추정함으로써 더 나은 에코 필터링 효과가 달성될 수 있다.
일부 실시예들에서, 잔차 신호는 타깃 신호이다. 타깃 신호는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 웨이크업하는데 이용되거나 음성 호출을 위해 또 다른 전자 디바이스에 전송된다. 일부 실시예들에서, 타깃 신호는 M개의 마이크로폰 신호보다 적은 수의 에코 성분을 포함한다. 에코 성분들은 N개의 스피커 신호의 것이고 또한 M개의 마이크로폰에 의해 캡처되는, 공간에서 전파되는 사운드의 에코를 표현하기 위해 사용된다. 비-인터리빙형 전처리를 통해 획득된 타깃 신호를 이용함으로써, 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는 성공률이 개선될 수 있고, 및/또는 음성 호출의 품질이 개선될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 합산을 수행하여 합산 신호를 생성하도록 구성된 합산 모듈을 포함한다. N개의 스피커 신호 중 적어도 2개의 스피커 신호를 단일 합산 신호가 되도록 조합함으로써, 후속하는 적응적 필터링의 계산 오버헤드가 감소될 수 있다. 이는 전체 계산 오버헤드들을 감소시킨다. 에코 필터링은 더 나은 에코 필터링 효과를 획득하기 위해 전체 주파수 대역에서 수행된다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 차이를 수행하여 차이 신호를 생성하도록 구성된 차이 모듈을 추가로 포함한다. 일부 경우들에서, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 중점을 둔다. 이 경우, 차이 신호는 에코 필터링 효과를 더 개선하기 위해 프로세서에 개별적으로 제공되거나 또 다른 신호와 조합될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 합산 신호 및 차이 신호를 소팅하도록 구성된 소팅 모듈을 추가로 포함한다. 에코 추정 모듈은, 소팅된 합산 신호 및 소팅된 차이 신호에 대해 적응적 필터링을 순차적으로 수행하여, 대응하는 소팅된 에코 추정 신호를 생성하도록 구성된 순차적 적응적 필터링 모듈을 추가로 포함한다. 잔차 신호 생성 모듈은, M개의 마이크로폰 신호로부터 대응하는 소팅된 에코 추정 신호를 순차적으로 필터링하여 잔차 신호를 생성하도록 구성된 잔차 신호 순차적 생성 모듈을 포함한다. 합산 신호 및 차이 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호를 소팅함으로써 소팅된 N개의 전처리된 신호를 생성하도록 구성된 스피커 신호 소팅 모듈을 포함한다. 에코 추정 모듈은 소팅된 N개의 전처리된 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 에코 추정 신호를 생성하도록 구성된 순차적 적응적 필터링 모듈을 포함한다. 타깃 신호 생성 모듈은 M개의 마이크로폰 신호로부터 대응하는 소팅된 에코 추정 신호들을 순차적으로 필터링하여 타깃 신호를 생성하도록 구성된 순차적 필터링 모듈을 포함한다. N개의 스피커 신호는 소팅되고 순차적으로 필터링되어, 큰 왜곡을 생성하는 신호가 우선적으로 필터링될 수 있도록 하여서, 에코 필터링 효과를 제공하게 된다.
일부 실시예들에서, N개의 스피커 신호를 소팅하는 단계는 N개의 스피커 신호 중 각각의 스피커 신호의 저주파수 성분에 기초하여 N개의 스피커 신호를 소팅하는 단계를 포함한다. 에코 필터링 효과는 저주파수 성분의 스피커 신호를 우선적으로 필터링함으로써 개선될 수 있다.
일부 실시예들에서, 전처리된 신호 생성 모듈은 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 비-인터리빙형 전처리를 수행하여 적어도 하나의 전처리된 신호를 생성하도록 추가로 구성된다. M개의 마이크로폰 신호를 보조 기준 신호들로서 사용함으로써, 큰 에코를 갖는 주파수 대역이 제한되어, 에코 필터링을 개선하는 것을 도울 수 있다.
일부 실시예들에서, 장치는, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭되도록, N개의 스피커 신호, M개의 마이크로폰 신호, 및 적어도 하나의 전처리된 신호 중 적어도 하나의 것의 이득을 조정하도록 구성된 이득 조정 모듈을 추가로 포함한다. 이득을 조정함으로써, 에코 추정 신호의 이득이 M개의 마이크로폰 신호의 이득과 매칭될 수 있고, 그에 의해 적응적 필터링 효과 및 에코 필터링 효과를 개선한다.
일부 실시예들에서, 에코 추정 모듈은, 복수의 전처리된 신호의 경우에, 적어도 하나의 에코 추정 신호를 생성하기 위해 복수의 전처리된 신호에 대해 병렬 적응적 필터링을 수행하도록 구성된 병렬 적응적 필터링 모듈을 포함한다. 낮은 유사성을 갖는 복수의 전처리된 신호에 대해, 병렬 전처리는 에코 필터링 효과를 개선할 수 있다.
일부 실시예들에서, 에코 추정 모듈은 적어도 하나의 전처리된 신호를 시간 도메인 신호로부터 주파수 도메인 신호로 변환하도록 구성된 변환 모듈; 및 주파수 도메인 신호에 대해 적응적 필터링을 수행하여 적어도 하나의 에코 추정 신호를 획득하도록 구성된 주파수 도메인 적응적 필터링 모듈을 포함한다. 적응적 필터링의 계산 오버헤드들은 전처리된 신호를 시간 도메인으로부터 주파수 도메인으로 변환함으로써 감소될 수 있다.
일부 실시예들에서, 장치는 타깃 신호를 생성하기 위해 잔차 신호에 대해 직접 사운드 필터링을 수행하도록 구성된 직접 사운드 필터링 모듈을 포함한다. 직접 사운드 필터링은 환경에서의 반사 없이 N개의 스피커로부터 M개의 마이크로폰으로 직접적으로 출력되는 오디오 성분을 필터링하는 것을 나타낸다. 더 구체적으로, 직접 사운드 필터링은 제1 스피커 및 제2 스피커 중 적어도 하나에 의해 재생되는 사운드 소스 신호와 마이크로폰에 의해 직접 캡처되는 오디오 입력 신호 사이의 모델 관계에 기초한 필터링을 나타낸다. 직접 사운드 필터링은 에코 필터링 효과를 더 개선할 수 있다.
일부 실시예들에서, 직접 사운드 필터링 모듈은 타깃 신호에 대해 디폴트 직접 사운드 필터링을 수행하여 적어도 하나의 에코 추정 신호를 생성하도록 구성된 디폴트 직접 사운드 필터링을 수행하는 것을 포함한다. 디폴트 직접 사운드 필터링은 완전히 뮤팅된 환경에서 N개의 스피커에 의해 재생되는 사운드 소스 신호와 M개의 마이크로폰에 의해 직접 캡처되는 오디오 입력 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타낸다.
일부 실시예들에서, 장치는: 전자 디바이스의 디스플레이가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하도록 구성된 디스플레이 인에이블 모듈; 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하도록 구성된 입력 수신 모듈; 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 N개의 스피커가 N개의 스피커 테스트 신호를 재생할 수 있게 하도록 구성된 스피커 테스트 모듈; M개의 마이크에 대응하는 M개의 마이크로폰 테스트 신호를 획득하도록 구성된 제4 획득 모듈; 및 맞춤화된 직접 사운드 필터링 모델을 저장하도록 구성된 저장 모듈을 추가로 포함한다. 맞춤화된 직접 사운드 필터링 모델은 N개의 스피커 테스트 신호 및 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 맞춤화된 직접 사운드 필터링 모델은 직접 사운드 필터링을 위해 사용된다. 일부 실시예들에서, 장치의 타깃 신호 생성 모듈은 맞춤화된 직접 사운드 필터링 모델을 이용하여 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 맞춤화된 직접 사운드 필터링을 수행하여 타깃 신호를 획득하도록 추가로 구성된다. 맞춤화된 직접 사운드 필터링을 이용함으로써, 직접 사운드 필터링이 고객의 환경에 기초하여 최적화될 수 있고, 고객의 환경에서의 에코 필터링이 더 개선될 수 있다.
일부 실시예들에서, 장치는 N개의 스피커 신호에 기초하여 리버스 오디오 신호를 생성하도록 구성된 리버스 오디오 신호 생성 모듈; 및 N개의 스피커 중 적어도 하나에 의해 재생되는 오디오 출력을 제거하기 위해 마이크로폰에 가까운 리버스 스피커가 리버스 오디오 신호에 기초하여 리버스 오디오를 재생할 수 있게 하도록 구성된 재생 인에이블링 모듈을 추가로 포함한다. 리버스 스피커는 제1 스피커 및 제2 스피커와 상이하다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다.
요약 부분에 설명되는 내용은 본 개시내용의 실시예들의 핵심적인 또는 중요한 특징을 제한하도록 의도되지 않으며, 본 개시내용의 범위를 제한하도록 의도되지 않는다는 점을 이해해야 한다. 다음의 설명들은 본 개시내용의 다른 특징들의 이해를 용이하게 한다.
본 개시내용의 실시예들의 전술한 그리고 다른 특징들, 이점들, 및 양태들은 첨부 도면들을 참조하여 그리고 다음의 상세한 설명들을 참조하여 더 명백해진다. 첨부 도면들에서, 동일하거나 유사한 참조 번호들은 동일하거나 유사한 요소들을 나타낸다.
도 1은 본 개시내용의 실시예들이 구현될 수 있는 환경의 개략도를 도시한다.
도 2는 본 개시내용의 실시예에 따른 전자 디바이스의 개략적인 블록도이다.
도 3은 본 개시내용의 실시예에 따른 에코 필터링 방법의 개략적인 흐름도이다.
도 4는 실시예에 따른 직접 사운드 필터링 프로세스의 개략도이다.
도 5는 본 개시내용의 또 다른 실시예에 따른 에코 필터링 방법의 개략적인 흐름도이다.
도 6은 실시예에 따른 리버스 에코 제거 프로세스의 개략도이다.
도 7은 본 개시내용의 또 다른 실시예에 따른 에코 필터링 방법의 개략적인 흐름도이다.
도 8은 실시예에 따른 비-인터리빙형 전처리 프로세스의 개략도이다.
도 9는 도 8의 비-인터리빙형 전처리의 실시예의 오디오 신호 처리의 개략도이다.
도 10은 도 8의 비-인터리빙형 전처리의 또 다른 실시예의 오디오 신호 처리의 개략도이다.
도 11은 도 8의 비-인터리빙형 전처리의 또 다른 실시예의 오디오 신호 처리의 개략도이다.
도 12는 본 개시내용의 실시예에 따른 에코 필터링을 위한 오디오 신호의 직렬 처리 프로세스의 개략도이다.
도 13은 본 개시내용의 실시예에 따른 에코 필터링을 위한 오디오 신호의 병렬 처리 프로세스의 개략도이다.
도 14는 본 개시내용의 실시예에 따른 에코 필터링을 위한 오디오 신호의 처리 프로세스의 개략도이다.
도 15는 본 개시내용의 실시예에 따른 에코 필터링 장치의 개략적 블록도이다.
도 16은 본 개시내용의 또 다른 실시예에 따른 에코 필터링 장치의 개략적 블록도이다.
이하에서는 첨부 도면들을 참조하여 본 개시내용의 실시예들을 상세히 설명한다. 본 개시내용의 일부 실시예들이 첨부 도면들에 도시되지만, 본 개시내용은 다양한 형태들로 구현될 수 있고, 본 명세서에 설명되는 실시예들에 제한되는 것으로서 해석하지 말아야 한다는 점을 이해해야 한다. 반대로, 이들 실시예들은 본 개시내용이 철저하고 완전하게 이해되도록 제공된다. 본 개시내용의 첨부 도면들 및 실시예들은 단지 예들로서 사용되고, 본 개시내용의 보호 범위를 제한하도록 의도되지 않는다는 점을 이해해야 한다.
본 개시내용의 실시예들의 설명들에서, 용어 "포함하다(include)" 및 그것의 유사한 용어들은 개방형 포함(open inclusion), 즉, "포함하지만 이에 제한되지는 않는다"로 이해해야 한다. 용어 "기반"은 "적어도 부분적으로 기반"으로 이해해야 한다. 용어들 "일 실시예" 또는 "실시예"는 "적어도 하나의 실시예"로서 이해해야 한다. 용어들 "제1", "제2", 및 그와 유사한 것은 상이하거나 동일한 객체들을 표시할 수 있다. 다른 명시적 및 암시적 정의들이 또한 아래에 포함될 수 있다.
전술된 바와 같이, AEC 기술은 통신 전자 디바이스에 널리 적용되어 왔다. 그러나, 종래의 AEC 기술의 에코 제거 효과는 일부 경우들에서 여전히 불만족스럽고, 따라서 추가의 개선이 요구된다.
전술한 문제 및 또 다른 잠재적인 문제에 대해, 본 개시내용의 실시예들은 에코 필터링 방법, 전자 디바이스, 및 컴퓨터 판독가능 저장 매체를 제공한다. 본 개시내용의 실시예에서, 직접 사운드 필터링이 타깃 신호를 획득하기 위해 복수의 마이크로폰 신호 및 복수의 스피커에 대해 수행된다. 이는 더 나은 에코 필터링 효과를 달성할 수 있다. 본 개시내용의 또 다른 실시예에서, 복수의 마이크로폰 중 적어도 하나의 마이크로폰에 인접한 리버스 스피커가 배치되고, 리버스 스피커는 복수의 스피커에 의해 재생되는 오디오 출력과 반대인 리버스 오디오를 재생하여, 복수의 스피커에 의해 재생되고 적어도 하나의 마이크로폰에 의해 캡처되는 오디오 출력의 에코의 에코 성분들을 제거할 수 있다. 본 개시내용의 또 다른 실시예에서, 비-인터리빙형 전처리가 복수의 사운드 소스 신호에 대응하는 마이크로폰 신호들에 대해 수행되어, 마이크로폰 신호들에서 복수의 스피커에 의해 재생되는 복수의 사운드의 복수의 에코에 대응하는 에코 성분들이 더 잘 추정될 수 있도록 한다. 에코 성분들을 필터링함으로써 더 나은 에코 필터링 효과가 획득된다. 적어도 하나의 추정된 신호를 이용함으로써 추정된 신호가 시간 관점에서 어느 정도까지 각각의 스피커의 연속 에코를 예측할 수 있기 때문에, 각각의 스피커에 의해 재생되는 사운드의 에코가 마이크로폰들에 의해 캡처되는 마이크로폰 신호들로부터 효과적으로 필터링될 수 있다. 본 개시내용에서, 앞서의 3개의 실시예는 개별적으로 사용될 수 있거나, 또는 더 나은 에코 필터링 효과를 획득하기 위해 임의의 조합으로 사용될 수 있다.
도 1은 본 개시내용의 실시예들이 구현될 수 있는 예시적인 환경(1)의 개략도이다. 실시예에서, 전자 디바이스(100)는, 예를 들어, 스마트 스피커일 수 있고, 오디오, 예를 들어, 음악 또는 언어 프로그램을 재생할 수 있다. 전자 디바이스(100)는 전자 디바이스 내부에 위치된 N개의 스피커를 포함할 수 있고, 여기서 N은 1보다 큰 정수이다. 실시예에서, 전자 디바이스(100)는 7개의 스피커를 포함한다. 7개의 스피커 중 제1 스피커 그룹(일반적으로 참조 번호 14로 도시됨)은 전자 디바이스(100)의 중간에 링으로 배치된 6개의 중간 및 고주파수 스피커들일 수 있다. 전자 디바이스(100)의 전면 상에 위치된 제1 스피커 그룹 중 3개의 스피커가 도시된다. 제1 스피커 그룹 중 다른 3개의 스피커는 전자 디바이스(100)의 후면 상에 위치되므로 도시되지 않는다. 7개의 스피커 중 제2 스피커 그룹(14-7)은 전자 디바이스(100)의 하부에 배치된 베이스 유닛일 수 있다. 일부 타입들의 오디오에 대해, 제1 스피커 그룹(14) 및 제2 스피커 그룹(14-7)에 의해 재생되는 사운드는 상이할 수 있다. 예를 들어, 제1 스피커 그룹(14)은 주로 중간 및 고주파수 사운드를 재생할 수 있고, 제2 스피커 그룹(14-7)은 주로 저주파수 사운드를 재생할 수 있다.
전자 디바이스(100)는 마이크로폰 그룹(12)을 추가로 포함할 수 있다. 마이크로폰 그룹(12)은 M개의 마이크로폰을 포함할 수 있고, 여기서 M은 1보다 큰 정수이다. 실시예에서, 전자 디바이스(100)는, 예를 들어, 상부에 위치된 6개의 마이크로폰(첨부 도면들에서 참조 번호 12로 공통적으로 도시됨)을 포함한다. 전자 디바이스(100)의 전면에 위치된 3개의 마이크로폰이 도시된다. 다른 3개의 마이크로폰은 전자 디바이스(100)의 후면 상에 위치되고 따라서 도시되지 않는다. 도 1에서는 설명을 위해 7개의 스피커 및 6개의 마이크로폰이 사용되지만, 이것은 단지 예일 뿐이고, 본 개시내용의 범위를 한정하는 것을 의도하지 않는다. 일부 다른 실시예들에서, 전자 디바이스(100)는 또 다른 수량의 마이크로폰들 및 스피커들을 포함할 수 있다. 또한, 비-인터리빙형 전처리 없이 직접 사운드 필터링 및/또는 리버스 스피커들만이 사용되는 일부 실시예들에서, 전자 디바이스(100)는 하나의 스피커 및 하나의 마이크로폰만을 포함할 수 있다.
전자 디바이스(100)의 원통형 구성이 도 1에 도시되지만, 전자 디바이스(100)는 다른 구성들도 가질 수 있다. 예를 들어, 실시예에서, 전자 디바이스(100)는 스트립 사운드 박스(Soundbar)의 형태일 수 있다. 4개의 마이크로폰은 전자 디바이스(100)의 상부에 선형 어레이를 형성하고, 복수의 스피커가 또한 수평으로 선형으로 배치된다. 예를 들어, 또 다른 실시예에서, 전자 디바이스(100)는 스마트 텔레비전일 수 있다. 6개의 마이크로폰이 스마트 텔레비전의 상부에 선형 어레이를 형성한다. 복수의 스피커가 스마트 텔레비전의 스크린의 하부 에지, 좌측 에지, 및 우측 에지, 및 스마트 텔레비전의 후면을 둘러싼다.
도 1에서, 제1 스피커 그룹(14) 및 제2 스피커 그룹(14-7)에 의해 재생되는 사운드가 벽(2)으로 전파된 후에 반사된 에코가 생성된다. 특히, 전자 디바이스(100)가 벽(2)에 가까이 배치될 때, 반사된 에코는 전자 디바이스(100)의 마이크로폰 그룹(12)에 의해 캡처된다. 한편, 제1 스피커 그룹(14) 및 제2 스피커 그룹(14-7)에 의해 재생되는 사운드가 또한 전자 디바이스(100)의 물리적 연속 표면을 통해 마이크로폰 그룹(12)에 전달될 수 있다. 따라서, 마이크로폰 그룹(12)에 의해 캡처된 에코 신호는, 환경에 의해 반사된 에코 성분뿐만 아니라, 제1 스피커 그룹(14) 및 제2 스피커 그룹(14-7)으로부터 마이크로폰 그룹(12)으로의 직접 경로를 나타내는 직접 사운드 성분을 포함한다. 본 명세서에서, "에코"라는 용어는 전자 디바이스의 스피커에 의해 재생되는 오디오의 환경에 의한 반사 후에 전자 디바이스의 마이크로폰에 의해 캡처되는 반사된 에코 및 마이크로폰에 의해 직접 캡처되고 전자 디바이스의 스피커에 의해 재생되는 직접 사운드를 포함한다. 용어 "반사된 에코"는, 오디오 신호가, 스피커로부터 출력된 후에, 벽과 같은 환경을 통해 마이크로폰에 되돌려 반사되어 마이크로폰에 의해 수신되는 오디오 성분을 나타낸다. 상대적으로 말하면, 용어 "직접 사운드"는 오디오 신호가 벽과 같은 환경에 의해 반사되지 않고서 스피커로부터 마이크로폰으로 직접 출력되고 마이크로폰에 의해 직접 수신되는 오디오 성분을 나타낸다.
전자 디바이스(100)가 오디오를 재생하고 사용자(20)가 말할 때, 마이크로폰 그룹(12)은 사용자의 음성을 추가로 캡처할 수 있다. 이 경우, 사운드를 캡처함으로써 마이크로폰 그룹(12)에 의해 생성되는 M개의 마이크로폰 신호 각각은 사용자의 음성, 스피커에 의해 재생되는 오디오 출력의 에코, 및 가능한 잡음을 포함한다.
일부 실시예들에서, 전자 디바이스(100)는 지능형 음성 어시스턴트 및 호출 기능을 가질 수 있다. 예를 들어, 사용자(20)는 "안녕, 지능형 어시스턴트"와 같은 웨이크업 커맨드를 말함으로써 웨이크업 엔진을 사용하여 전자 디바이스(100)의 지능형 음성 어시스턴트를 깨울 수 있다. 지능형 음성 어시스턴트를 깨운 후에, 사용자(20)는 또한 "어머니에게 전화하라"와 같은 음성을 말함으로써 음성 호출을 할 수 있다. 전자 디바이스(100)의 제1 스피커 그룹(14) 및 제2 스피커 그룹(14-7)이 사운드를 재생할 때, 전자 디바이스(100)가 웨이크업 커맨드를 정확하게 식별할 수 있게 하고 또한 호출을 받는 상대방 당사자가 에코에 의해 영향을 받지 않고서 명확하게 음성을 들을 수 있게 하기 위해, 전자 디바이스(100)는 본 개시내용의 실시예들에 따른 에코 제거 기술을 구현하여 깨우는 음성을 정확하게 식별하고 호출 정의를 개선할 수 있다. 따라서, 에코 필터링 효과가 본 개시내용의 실시예들을 사용함으로써 추가로 개선될 수 있다. 본 개시내용에서, 용어 "제거" 및 "필터링"은 상호교환가능하게 사용될 수 있고, 둘 다는 부분의 제거를 나타내는 한편, 용어 "완전한 제거" 및 "완전한 필터링"은 모든 부분의 제거를 나타낸다.
도 1에서는 본 개시내용의 실시예들의 응용 환경을 설명하기 위해 스마트 스피커가 사용되지만, 이는 본 개시내용의 범위에 대한 한정이 아니라 단지 예일 뿐이라는 것을 이해할 수 있다. 본 개시내용의 실시예들은 또한 스피커 및 마이크로폰을 갖는 또 다른 전자 디바이스에서 구현될 수 있다. 예를 들어, 본 개시내용의 실시예들을 구현할 수 있는 전자 디바이스는 다음 중 적어도 하나를 포함할 수 있다: 스마트 스피커, 셋톱 박스, 엔터테인먼트 유닛, 내비게이션 디바이스, 통신 디바이스, 고정 로케이션 데이터 유닛, 모바일 로케이션 데이터 유닛, 모바일 폰, 셀룰러 폰, 태블릿 컴퓨터, 컴퓨터, 휴대용 컴퓨터, 데스크톱 컴퓨터, PDA(personal digital assistant), 모니터, 텔레비전, 튜너, 라디오, 위성 라디오, 음악 플레이어, 디지털 음악 플레이어, 휴대용 음악 플레이어, 디지털 비디오 플레이어, 비디오 플레이어, DVD(digital video disc) 플레이어, 휴대용 디지털 비디오 플레이어, 및 그와 유사한 것.
도 2는 본 개시내용의 실시예에 따른 전자 디바이스(100)의 개략적인 블록도이다. 도 2에 도시된 전자 디바이스(100)는 단지 예일 뿐이고, 본 개시내용에 설명된 구현된 기능 및 범위에 대한 어떠한 제한도 구성하지 않는다는 것을 이해해야 한다. 실시예에서, 전자 디바이스(100)는 실선 박스 및 실선으로 도시된 프로세서(110), 무선 통신 모듈(160), 안테나(1), 오디오 모듈(170), 스피커 모듈(170A), 마이크로폰 모듈(170C), 키(190), 내부 메모리(121), 범용 직렬 버스(universal serial bus, USB) 인터페이스(130), 충전 관리 모듈(140), 및 전력 관리 모듈(141)을 포함할 수 있다. 마이크로폰 모듈(170C)은, 예를 들어, 전술한 M개의 마이크로폰을 포함할 수 있다. 스피커 모듈(170A)은 전술한 N개의 스피커, 예를 들어, 제1 스피커 그룹(14) 및 제2 스피커 그룹(14-7)을 포함할 수 있다. 일부 다른 실시예들에서, 스피커 모듈(170A)은 적어도 하나의 리버스 스피커를 갖는 리버스 스피커 그룹을 추가로 포함할 수 있다. 리버스 스피커는 마이크로폰에 의해 픽업될 에코 성분을 제거하기 위해 사용되는 리버스 오디오를 재생하도록 구성된다.
프로세서(110)는 하나 이상의 처리 유닛을 포함할 수 있다. 예를 들어, 프로세서(110)는 애플리케이션 프로세서(application processor, AP), 모뎀 프로세서, 그래픽 처리 유닛(graphics processing unit, GPU), 이미지 신호 프로세서(image signal processor, ISP), 제어기, 비디오 코덱, 디지털 신호 프로세서(digital signal processor, DSP), 기저대역 프로세서, 및/또는 신경망 처리 유닛(neural-network processing unit, NPU)을 포함할 수 있다. 일부 실시예들에서, 상이한 처리 유닛들은 독립적인 디바이스들일 수 있다. 일부 다른 실시예들에서, 상이한 처리 유닛들이 대안적으로 하나 이상의 프로세서에 통합될 수 있다. 제어기는 명령어 동작 코드 및 시간 시퀀스 신호에 기초하여 동작 제어 신호를 생성하여, 명령어 판독 및 명령어 실행의 제어를 완료할 수 있다.
메모리는 프로세서(110)에 추가로 배치될 수 있고, 명령어들 및 데이터를 저장하도록 구성된다. 일부 실시예들에서, 프로세서(110) 내의 메모리는 캐시 메모리이다. 메모리는 프로세서(110)에 의해 사용되었거나 주기적으로 사용되는 명령어들 또는 데이터를 저장할 수 있다. 프로세서(110)가 명령어들 또는 데이터를 다시 사용할 필요가 있는 경우, 프로세서는 메모리로부터 명령어들 또는 데이터를 직접 기동(invoke)할 수 있다. 이는 반복된 액세스를 회피하고, 프로세서(110)의 대기 시간을 감소시키고, 시스템 효율을 향상시킨다.
일부 실시예들에서, 프로세서(110)는 하나 이상의 인터페이스를 포함할 수 있다. 인터페이스는 인터-집적 회로(inter-integrated circuit, I2C) 인터페이스, 인터-집적 회로 사운드(inter-integrated circuit sound, I2S) 인터페이스, 펄스 코드 변조(pulse code modulation, PCM) 인터페이스, 범용 비동기 수신기/송신기(universal asynchronous receiver/transmitter, UART) 인터페이스, 모바일 산업 프로세서 인터페이스(mobile industry processor interface, MIPI), 범용 입력/출력(general-purpose input/output, GPIO) 인터페이스, 가입자 식별 모듈(subscriber identity module, SIM) 인터페이스, 범용 직렬 버스(universal serial bus, USB) 인터페이스, 및 그와 유사한 것을 포함할 수 있다.
I2C 인터페이스는 양방향 동기화 직렬 버스이고, 직렬 데이터 라인(serial data line, SDA) 및 직렬 클록 라인(serial clock line, SCL)을 포함한다. 일부 실시예들에서, 프로세서(110)는 복수의 I2C 버스 그룹을 포함할 수 있다. 프로세서(110)는 상이한 I2C 버스 인터페이스들을 통해 터치 센서(180K), 충전기, 플래시, 카메라(193), 및 그와 유사한 것에 개별적으로 결합될 수 있다. 예를 들어, 프로세서(110)는 I2C 인터페이스를 통해 터치 센서(180K)에 결합될 수 있어서, 프로세서(110)가 I2C 버스 인터페이스를 통해 터치 센서(180K)와 통신하도록 하여, 전자 디바이스(100)의 터치 기능을 구현한다.
I2S 인터페이스는 오디오 통신을 수행하도록 구성될 수 있다. 일부 실시예들에서, 프로세서(110)는 I2S 버스들의 복수의 그룹을 포함할 수 있다. 프로세서(110)는 프로세서(110)와 오디오 모듈(170) 사이의 통신을 구현하기 위해 I2S 버스를 통해 오디오 모듈(170)에 결합될 수 있다. 일부 실시예들에서, 오디오 모듈(170)은 블루투스 헤드셋을 통해 호출에 응답하는 기능을 구현하기 위해, I2S 인터페이스를 통해 무선 통신 모듈(160)에 오디오 신호를 송신할 수 있다.
PCM 인터페이스는 또한 오디오 통신을 수행하고, 아날로그 신호를 샘플링, 양자화, 및 코딩하기 위해 사용될 수 있다. 일부 실시예들에서, 오디오 모듈(170)은 PCM 버스 인터페이스를 통해 무선 통신 모듈(160)에 결합될 수 있다. 일부 실시예들에서, 오디오 모듈(170)은 또한 PCM 인터페이스를 통해 무선 통신 모듈(160)에 오디오 신호를 송신하여, 블루투스 헤드셋을 통해 호출에 응답하는 기능을 구현할 수 있다. I2S 인터페이스 및 PCM 인터페이스 둘 다는 오디오 통신을 위해 사용될 수 있다.
UART 인터페이스는 범용 직렬 데이터 버스이고, 비동기 통신을 수행하도록 구성된다. 버스는 양방향 통신 버스일 수 있다. 버스는 송신될 데이터를 직렬 통신과 병렬 통신 사이에서 변환한다. 일부 실시예들에서, UART 인터페이스는 보통은 프로세서(110)를 무선 통신 모듈(160)에 접속하도록 구성된다. 예를 들어, 프로세서(110)는 UART 인터페이스를 통해 무선 통신 모듈(160) 내의 블루투스 모듈과 통신하여, 블루투스 기능을 구현한다. 일부 실시예들에서, 블루투스 헤드셋을 통해 음악을 재생하는 기능을 구현하기 위해, 오디오 모듈(170)은 UART 인터페이스를 통해 무선 통신 모듈(160)에 오디오 신호를 송신할 수 있다.
MIPI 인터페이스는 프로세서(110)를 디스플레이(194) 또는 카메라(193)와 같은 주변 컴포넌트에 접속시키도록 구성될 수 있다. MIPI 인터페이스는 카메라 직렬 인터페이스(camera serial interface, CSI), 디스플레이 직렬 인터페이스(display serial interface, DSI), 및 그와 유사한 것을 포함한다. 일부 실시예들에서, 프로세서(110)는 CSI를 통해 카메라(193)와 통신하여, 전자 디바이스(100)의 사진촬영 기능을 구현한다. 프로세서(110)는 DSI 인터페이스를 통해 디스플레이(194)와 통신하여, 전자 디바이스(100)의 디스플레이 기능을 구현한다.
GPIO 인터페이스가 소프트웨어에 의해 구성될 수 있다. GPIO 인터페이스는 제어 신호 또는 데이터 신호로서 구성될 수 있다. 일부 실시예들에서, GPIO 인터페이스는 프로세서(110)를 카메라(193), 디스플레이(194), 무선 통신 모듈(160), 오디오 모듈(170), 센서 모듈(180), 및 그와 유사한 것에 접속시키도록 구성될 수 있다. GPIO 인터페이스는 대안적으로 I2C 인터페이스, I2S 인터페이스, UART 인터페이스, MIPI 인터페이스, 또는 그와 유사한 것으로서 구성될 수 있다.
USB 인터페이스(130)는 USB 표준 사양을 준수하는 인터페이스이고, 구체적으로 미니 USB 인터페이스, 마이크로 USB 인터페이스, USB 타입-C 인터페이스, 또는 그와 유사한 것일 수 있다. USB 인터페이스(130)는 전자 디바이스(100)를 충전하기 위해 충전기에 연결하도록 구성될 수 있거나, 또는 전자 디바이스(100)와 주변 디바이스 사이에서 데이터를 송신하도록 구성될 수 있거나, 또는 헤드셋을 통해 오디오를 재생하기 위해 헤드셋에 연결하도록 구성될 수 있다. 인터페이스는 AR 디바이스와 같은 또 다른 전자 디바이스에 연결하도록 추가로 구성될 수 있다.
내부 메모리(121)는 컴퓨터 실행가능 프로그램 코드를 저장하도록 구성될 수 있다. 실행가능 프로그램 코드는 명령어들을 포함한다. 내부 메모리(121)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능(예를 들어, 본 개시내용의 실시예들에서 에코 필터링 기능, 사운드 재생 기능, 또는 이미지 재생 기능)에 의해 요구되는 애플리케이션 프로그램, 및 그와 유사한 것을 저장할 수 있다. 데이터 저장 영역은 전자 디바이스(100)의 사용 동안 생성된 데이터(예를 들어, 오디오 데이터 또는 주소록), 및 그와 유사한 것을 저장할 수 있다. 또한, 내부 메모리(121)는 고속 랜덤 액세스 메모리를 포함할 수 있거나, 또는 비휘발성 메모리, 예를 들어, 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리, 또는 범용 플래시 저장소(universal flash storage, UFS)를 포함할 수 있다. 프로세서(110)는 내부 메모리(121)에 저장된 명령어들 및/또는 프로세서에 배치된 메모리에 저장된 명령어들을 실행하여, 전자 디바이스(100)의 다양한 기능 애플리케이션들 및 데이터 처리를 수행한다.
충전 관리 모듈(140)은 충전기로부터 충전 입력을 수신하도록 구성된다. 충전기는 무선 충전기 또는 유선 충전기일 수 있다. 유선 충전의 일부 실시예들에서, 충전 관리 모듈(140)은 USB 인터페이스(130)를 통해 유선 충전기의 충전 입력을 수신할 수 있다. 무선 충전의 일부 실시예들에서, 충전 관리 모듈(140)은 전자 디바이스(100)의 무선 충전 코일을 통해 무선 충전 입력을 수신할 수 있다. 충전 관리 모듈(140)은 배터리(142)를 충전하는 동안 전력 관리 모듈(141)을 통해 전자 디바이스에 전력을 공급한다.
전력 관리 모듈(141)은 충전 관리 모듈(140), 프로세서(110), 및 선택적으로 선택적 배터리(142)를 연결하도록 구성된다. 전력 관리 모듈(141)은 배터리(142) 및/또는 충전 관리 모듈(140)의 입력을 수신하고, 프로세서(110), 내부 메모리(121), 무선 통신 모듈(160), 및 그와 유사한 것에 전력을 공급한다. 배터리(142)를 갖는 실시예에서, 전력 관리 모듈(141)은 배터리 용량, 배터리 사이클들의 양, 및 배터리 건강 상태(전기 누설 또는 임피던스)와 같은 파라미터들을 모니터링하도록 추가로 구성될 수 있다. 일부 다른 실시예들에서, 전력 관리 모듈(141)은 대안적으로 프로세서(110)에 배치될 수 있다. 일부 다른 실시예들에서, 전력 관리 모듈(141) 및 충전 관리 모듈(140)은 대안적으로 동일한 디바이스에 배치될 수 있다.
전자 디바이스(100)는 오디오 모듈(170), 스피커 모듈(170A), 마이크로폰 모듈(170C), 애플리케이션 프로세서, 및 그와 유사한 것을 사용하여 오디오 기능을 구현할 수 있다. 예를 들어, 오디오 기능은 음악 재생, 레코딩, 및 그와 유사한 것을 포함한다. 오디오 모듈(170)은 디지털 오디오 정보를 출력을 위한 아날로그 오디오 신호로 변환하도록 구성되고, 또한 아날로그 오디오 입력을 디지털 오디오 신호로 변환하도록 구성된다. 오디오 모듈(170)은 오디오 신호를 코딩 및 디코딩하도록 추가로 구성될 수 있다. 일부 실시예들에서, 오디오 모듈(170)은 프로세서(110) 내에 배치될 수 있거나, 또는 오디오 모듈(170) 내의 일부 기능 모듈들이 프로세서(110) 내에 배치된다.
"라우드스피커"라고도 지칭되는 스피커 모듈(170A)은, 예를 들어, N개의 스피커 및 선택사항으로 리버스 스피커(예를 들어, M개의 리버스 스피커)를 포함하고, 오디오 전기 신호를 사운드 신호로 변환하도록 구성된다. 전자 디바이스(100)는 스피커 모듈(170A)을 통해 핸즈프리 모드(hands-free mode)에서 음악을 청취하거나 호출에 응답하기 위해 사용될 수 있다.
"마이크로폰" 또는 "마이크"로도 지칭되는 마이크로폰 모듈(170C)은, 예를 들어, M개의 마이크로폰을 포함하고, 사운드 신호를 전기 신호로 변환하도록 구성된다. 호출을 하거나 음성 메시지를 전송할 때, 사용자는 사용자의 입을 통해 마이크로폰 모듈(170C) 근처에서 사운드를 발하여, 사운드 신호를 마이크로폰 모듈(170C)에 입력할 수 있다. 개시된 실시예에서, 전자 디바이스(100)는 마이크로폰 모듈(170C)에 의해 픽업된 사운드에 있고 또한 스피커 모듈(170A)에 의해 재생되는 사운드와 관련되는 에코 성분을 감소시키기 위해 에코 필터링 기능을 사용하고, 그에 의해 지능형 어시스턴트를 깨우는 정확도를 개선하고, 및/또는 음성 호출 품질을 개선한다. 일부 다른 실시예들에서, 전자 디바이스(100)는 사운드 소스를 추가로 식별하고, 방향 레코딩 기능, 및 그와 유사한 것을 구현할 수 있다.
전자 디바이스(100)의 무선 통신 기능은 안테나(1), 무선 통신 모듈(160), 모뎀 프로세서, 기저대역 프로세서, 및 그와 유사한 것을 통해 구현될 수 있다. 안테나(1)는 전자기파 신호를 송신 및 수신하도록 구성된다. 전자 디바이스(100) 내의 각각의 안테나는 하나 이상의 통신 주파수 대역을 커버하도록 구성될 수 있다. 안테나 활용을 개선하기 위해, 상이한 안테나들이 더 다중화될 수 있다.
무선 통신 모듈(160)은 무선 로컬 영역 네트워크(wireless local area networks, WLAN)(예를 들어, 무선 충실도(wireless fidelity, Wi-Fi) 네트워크), 블루투스(Bluetooth, BT), 글로벌 내비게이션 위성 시스템(global navigation satellite system, GNSS), 주파수 변조(frequency modulation, FM), 근접장 통신(near field communication, NFC) 기술, 적외선(infrared, IR) 기술, 또는 그와 유사한 것을 포함하고 또한 전자 디바이스(100)에 적용되는 무선 통신 솔루션을 제공할 수 있다. 무선 통신 모듈(160)은 적어도 하나의 통신 프로세서 모듈을 통합하는 하나 이상의 컴포넌트일 수 있다. 무선 통신 모듈(160)은 안테나(1)에 의해 전자기파를 수신하고, 전자기파 신호에 대해 주파수 변조 및 필터링 처리를 수행하고, 처리된 신호를 프로세서(110)에 전송한다. 무선 통신 모듈(160)은 프로세서(110)로부터 송신된 신호를 추가로 수신하고, 신호에 대해 주파수 변조 및 증폭을 수행하고, 처리된 신호를 안테나(1)를 통한 방사를 위한 전자기파로 변환할 수 있다.
일부 다른 실시예들에서, 전자 디바이스(100)는 안테나(2) 및 모바일 통신 모듈(150)을 추가로 포함할 수 있다. 안테나(2)는 전자기파 신호를 송신 및 수신하도록 구성된다. 전자 디바이스(100) 내의 각각의 안테나는 하나 이상의 통신 주파수 대역을 커버하도록 구성될 수 있다. 안테나 활용을 개선하기 위해, 상이한 안테나들이 더 다중화될 수 있다. 예를 들어, 안테나(2)는 무선 로컬 영역 네트워크의 다이버시티 안테나로서 다중화될 수 있다. 일부 다른 실시예들에서, 안테나는 튜닝 스위치와 조합하여 사용될 수 있다.
모바일 통신 모듈(150)은 전자 디바이스(100)에 적용되는, 2G, 3G, 4G, 5G, 및 그와 유사한 것을 포함하는 무선 통신에 대한 솔루션을 제공할 수 있다. 모바일 통신 모듈(150)은 적어도 하나의 필터, 스위치, 전력 증폭기, 저잡음 증폭기(low noise amplifier, LNA), 및 그와 유사한 것을 포함할 수 있다. 모바일 통신 모듈(150)은 안테나(2)를 통해 전자기파를 수신하고, 수신된 전자기파에 대해 필터링 또는 증폭과 같은 처리를 수행하고, 복조를 위해 전자기파를 모뎀 프로세서에 송신할 수 있다. 모바일 통신 모듈(150)은 모뎀 프로세서에 의해 변조된 신호를 더 증폭하고, 신호를 안테나(2)를 통한 방사를 위해 전자기파로 변환할 수 있다. 일부 실시예들에서, 모바일 통신 모듈(150) 내의 적어도 일부 기능 모듈들은 프로세서(110) 내에 배치될 수 있다. 일부 실시예들에서, 모바일 통신 모듈(150)의 적어도 일부 기능 모듈들은 프로세서(110)의 적어도 일부 모듈들과 동일한 디바이스에 배치될 수 있다.
모뎀 프로세서는 변조기 및 복조기를 포함할 수 있다. 변조기는 전송될 저주파수 기저대역 신호를 중간 주파수 내지 고 주파수 신호로 변조하도록 구성된다. 복조기는 수신된 전자기파 신호를 저주파수 기저대역 신호로 복조하도록 구성된다. 그 후, 복조기는 복조를 통해 획득된 저주파수 기저대역 신호를 처리를 위해 기저대역 프로세서에 송신한다. 저주파수 기저대역 신호는 기저대역 프로세서에 의해 처리된 다음에 애플리케이션 프로세서에 송신된다. 애플리케이션 프로세서는 오디오 디바이스(스피커 모듈(170A), 수신기(170B), 또는 그와 유사한 것에 제한되지는 않음)를 사용하여 사운드 신호를 출력하거나, 또는 디스플레이(194)를 사용하여 이미지 또는 비디오를 디스플레이한다. 일부 실시예들에서, 모뎀 프로세서는 독립적인 컴포넌트일 수 있다. 일부 다른 실시예들에서, 모뎀 프로세서는 프로세서(110)와 독립적일 수 있고, 모바일 통신 모듈(150) 또는 또 다른 기능 모듈과 동일한 디바이스에 배치된다.
일부 실시예들에서, 전자 디바이스(100) 내의 안테나(2) 및 모바일 통신 모듈(150)이 결합되고, 안테나(1) 및 무선 통신 모듈(160)이 결합되어, 전자 디바이스(100)가 무선 통신 기술을 사용하여 네트워크 및 또 다른 디바이스와 통신할 수 있도록 한다. 무선 통신 기술은 모바일 통신을 위한 글로벌 시스템(global system for mobile communication, GSM), 일반 패킷 무선 서비스(general packet radio service, GPRS), 코드 분할 다중 액세스(code division multiple access, CDMA), 광대역 코드 분할 다중 액세스(wideband code division multiple access, WCDMA), 시분할 코드 분할 다중 액세스(time-division code division multiple access, TD-SCDMA), 롱 텀 에볼루션(long term evolution, LTE), BT, GNSS, WLAN, NFC, FM, IR 기술, 및/또는 유사한 것을 포함할 수 있다. GNSS는 글로벌 포지셔닝 시스템(global positioning system, GPS), 글로벌 내비게이션 위성 시스템(global navigation satellite system, GLONASS), 바이두 내비게이션 위성 시스템(Beidou navigation satellite system, BDS), 준-제니스 위성 시스템(quasi-zenith satellite system, QZSS), 및/또는 위성 기반 증강 시스템(satellite based augmentation systems, SBAS)을 포함할 수 있다.
키(190)는 전원 버튼, 볼륨 버튼, 및 그와 유사한 것을 포함한다. 키(190)는 기계적 버튼일 수 있거나 터치 버튼일 수 있다. 전자 디바이스(100)는 키 입력을 수신하고, 전자 디바이스(100)의 사용자 설정 및 기능 제어에 관련된 키 신호 입력을 생성할 수 있다.
일부 다른 실시예들에서, 앞서의 컴포넌트들에 더하여, 전자 디바이스(100)는 파선들 및 파선 박스들로 도시된 외부 메모리 인터페이스(120), 배터리(142), 수신기(170B), 헤드셋 잭(170D), 센서 모듈(180), 모터(191), 표시기(192), 카메라(193), 디스플레이(194), 및 가입자 식별 모듈(subscriber identification module, SIM) 카드 인터페이스(195) 중 하나 이상을 추가로 포함할 수 있다. 센서 모듈(180)은 압력 센서(180A), 자이로 센서(180B), 기압 센서(180C), 자기 센서(180D), 가속도 센서(180E), 거리 센서(180F), 광 근접도 센서(180G), 지문 센서(180H), 온도 센서(180J), 터치 센서(180K), 주변 광 센서(180L), 골 전도 센서(bone conduction sensor)(180M) 중 하나 이상을 포함할 수 있다. 센서 모듈(180)은 열거되지 않은 또 다른 타입의 센서를 추가로 포함할 수 있다.
전자 디바이스(100)는 GPU, 디스플레이(194), 애플리케이션 프로세서, 및 그와 유사한 것을 통해 디스플레이 기능을 구현할 수 있다. GPU는 이미지 처리를 위한 마이크로프로세서이고, 디스플레이(194) 및 애플리케이션 프로세서에 연결된다. GPU는 수학적 및 기하학적 계산을 수행하고, 이미지를 렌더링하도록 구성된다. 프로세서(110)는 디스플레이 정보를 생성하거나 변경하기 위해 프로그램 명령어들을 실행하는 하나 이상의 GPU를 포함할 수 있다.
디스플레이(194)는 이미지, 비디오, 및 그와 유사한 것을 디스플레이하도록 구성된다. 디스플레이(194)는 디스플레이 패널을 포함한다. 디스플레이 패널은 액정 디스플레이(liquid crystal display, LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 액티브-매트릭스 유기 발광 다이오드(active-matrix organic light-emitting diode, AMOLED), 플렉시블 발광 다이오드(flexible light-emitting diode, FLED), 미니-LED, 마이크로-LED, 마이크로-OLED, 양자점 발광 다이오드(quantum dot light-emitting diode, QLED), 또는 그와 유사한 것일 수 있다. 일부 실시예들에서, 전자 디바이스(100)는 하나 또는 N개의 디스플레이(194)를 포함할 수 있으며, 여기서 N은 1보다 큰 양의 정수이다.
일부 실시예들에서, 전자 디바이스(100)는 수신기(170B) 및 헤드셋 잭(170D)을 추가로 포함한다. "이어피스(earpiece)"라고도 지칭되는 수신기(170B)는 전기 오디오 신호를 사운드 신호로 변환하도록 구성된다. 호출이 응답되거나 스피치 정보(speech information)가 전자 디바이스(100)를 통해 수신될 때, 수신기(170B)는 음성을 청취하기 위해 인간의 귀에 가깝게 놓여질 수 있다. 헤드셋 잭(170D)은 유선 헤드셋에 연결되도록 구성된다. 헤드셋 잭(170D)은 USB 인터페이스(130)일 수 있거나, 또는 3.5mm 개방형 모바일 단말 플랫폼(open mobile terminal platform, OMTP) 표준 인터페이스 또는 미국의 셀룰러 통신 산업 협회(cellular telecommunication industry association of the USA, CTIA) 표준 인터페이스일 수 있다.
전자 디바이스(100)는 ISP, 카메라(193), 비디오 코덱, GPU, 디스플레이(194), 애플리케이션 프로세서, 및 그와 유사한 것을 사용함으로써 사진촬영 기능을 구현할 수 있다. ISP는 카메라(193)에 의해 피드백된 데이터를 처리하도록 구성된다. 예를 들어, 사진촬영 동안, 셔터가 눌리어지고, 광은 렌즈를 통해 카메라의 감광 소자에 투과된다. 광 신호는 전기 신호로 변환되고, 카메라의 감광 소자는 전기 신호를 가시적 이미지로 변환하기 위해, 처리를 위해 ISP에 전기 신호를 송신한다. ISP는 이미지의 잡음, 밝기, 및 피부색(complexion)에 대한 알고리즘 최적화를 더 수행할 수 있다. ISP는 사진촬영 시나리오의 노출 및 컬러 온도와 같은 파라미터들을 더 최적화할 수 있다. 일부 실시예들에서, ISP는 카메라(193)에 배치될 수 있다.
카메라(193)는 정적 이미지 또는 비디오를 캡처하도록 구성된다. 물체의 광학 이미지가 렌즈를 통해 생성되고, 감광 소자 상으로 투영된다. 감광 소자는 전하 결합 디바이스(charge coupled device, CCD) 또는 상보성 금속-산화물-반도체(complementary metal-oxide-semiconductor, CMOS) 포토트랜지스터일 수 있다. 감광 소자는 광 신호를 전기 신호로 변환하고, 그 후 전기 신호를 디지털 이미지 신호로 변환하기 위해 전기 신호를 ISP에 송신한다. ISP는 처리를 위해 DSP에 디지털 이미지 신호를 출력한다. DSP는 디지털 이미지 신호를 RGB 또는 YUV와 같은 표준 포맷의 이미지 신호로 변환한다. 일부 실시예들에서, 전자 디바이스(100)는 하나 또는 N개의 카메라(193)를 포함할 수 있고, 여기서 N은 1보다 큰 양의 정수이다.
디지털 신호 프로세서는 디지털 신호를 처리하도록 구성되고, 디지털 이미지 신호 외에 또 다른 디지털 신호를 처리할 수 있다. 예를 들어, 전자 디바이스(100)가 주파수를 선택할 때, 디지털 신호 프로세서는 주파수 에너지에 대해 푸리에 변환을 수행하도록 구성된다.
비디오 코덱은 디지털 비디오를 압축 또는 압축 해제하도록 구성된다. 전자 디바이스(100)는 하나 이상의 비디오 코덱을 지원할 수 있다. 이러한 방식으로, 전자 디바이스(100)는 복수의 코딩 포맷, 예를 들어, 동영상 전문가 그룹(moving picture experts group, MPEG) 1, MPEG2, MPEG3, 및 MPEG4로 비디오들을 재생 또는 레코딩할 수 있다.
NPU는 신경망(neural-network, NN) 컴퓨팅 프로세서이고, 생물학적 신경망의 구조를 참조함으로써, 예를 들어, 인간의 뇌 뉴런들 사이의 송신 모드를 참조함으로써 입력 정보를 신속하게 처리하고, 추가로 지속적으로 자가 학습을 수행할 수 있다. 전자 디바이스(100)의 지능형 인식과 같은 응용들, 예를 들어, 이미지 인식, 얼굴 인식, 스피치 인식, 및 텍스트 이해가 NPU를 통해 구현될 수 있다.
전자 디바이스(100)의 저장 능력을 확장하기 위해 외부 저장 카드, 예를 들어, 마이크로 SD 카드에 연결하기 위해 외부 메모리 인터페이스(120)가 사용될 수 있다. 외부 메모리 카드는 외부 메모리 인터페이스(120)를 통해 프로세서(110)와 통신하여, 데이터 저장 기능을 구현한다. 예를 들어, 음악 및 비디오와 같은 파일들이 외부 저장 카드에 저장된다.
압력 센서(180A)는 압력 신호를 감지하도록 구성되고, 압력 신호를 전기 신호로 변환할 수 있다. 일부 실시예들에서, 압력 센서(180A)는 디스플레이(194) 상에 배치될 수 있다. 저항성 압력 센서, 유도성 압력 센서, 및 용량성 압력 센서와 같은 복수 타입의 압력 센서(180A)가 있다. 용량성 압력 센서는 전도성 재료로 만들어진 적어도 2개의 평행 플레이트를 포함할 수 있다. 압력 센서(180A)에 힘이 가해질 때, 전극들 사이의 커패시턴스가 변한다. 전자 디바이스(100)는 커패시턴스의 변화에 기초하여 압력 강도를 결정한다. 터치 조작이 디스플레이(194) 상에서 수행될 때, 전자 디바이스(100)는 압력 센서(180A)를 통해 터치 조작의 강도를 검출한다. 전자 디바이스(100)는 또한 압력 센서(180A)의 검출 신호에 기초하여 터치 로케이션을 계산할 수 있다. 일부 실시예들에서, 동일한 터치 위치에서 수행되지만 상이한 터치 조작 강도를 갖는 터치 조작들은 상이한 조작 명령들에 대응할 수 있다. 예를 들어, 그 터치 조작 강도가 제1 압력 임계값보다 작은 터치 조작이 SMS 메시지 애플리케이션 아이콘에 대해 수행될 때, SMS 메시지를 보기 위한 명령이 수행된다. 터치 조작 강도가 제1 압력 임계값 이상인 터치 조작이 SMS 메시지 애플리케이션 아이콘에 대해 수행될 때, 새로운 SMS 메시지를 생성하기 위한 명령이 수행된다.
자이로 센서(180B)는 전자 디바이스(100)의 이동 자세를 결정하도록 구성될 수 있다. 일부 실시예들에서, 3개의 축(즉, x, y, 및 z 축들) 주위의 전자 디바이스(100)의 각속도는 자이로 센서(180B)를 사용함으로써 결정될 수 있다. 자이로 센서(180B)는 사진촬영 동안 이미지 안정화를 구현하도록 구성될 수 있다. 예를 들어, 셔터가 눌리어질 때, 자이로 센서(180B)는 전자 디바이스(100)가 지터링(jitterring)하는 각도를 검출하고, 그 각도에 기초하여, 그에 대해 렌즈 모듈이 보상할 필요가 있는 거리를 계산하고, 렌즈가 리버스 모션(reverse motion)을 통해 전자 디바이스(100)의 지터를 상쇄하여 이미지 안정화를 구현하는 것을 허용한다. 자이로 센서(180B)는 또한 내비게이션 시나리오 및 육체적(somatic) 게임 시나리오에서 사용될 수 있다.
기압 센서(180C)는 기압을 측정하도록 구성된다. 일부 실시예들에서, 전자 디바이스(100)는 위치결정 및 내비게이션을 보조하기 위해, 기압 센서(180C)에 의해 측정된 기압을 통해 고도를 계산한다.
자기 센서(180D)는 홀(Hall) 센서를 포함한다. 전자 디바이스(100)는 자기 센서(180D)를 사용하여 플립 커버(flip cover)의 개폐를 검출할 수 있다. 일부 실시예들에서, 전자 디바이스(100)가 클램쉘(clamshell) 폰일 때, 전자 디바이스(100)는 자기 센서(180D)에 기초하여 플립 커버의 개폐를 검출할 수 있다. 또한, 플립 커버의 자동 잠금해제와 같은 특징은 가죽 케이스의 검출된 개방 또는 폐쇄 상태 또는 플립 커버의 검출된 개방 또는 폐쇄 상태에 기초하여 설정된다.
가속도 센서(180E)는 다양한 방향들에서 (보통 3개의 축 상에서) 전자 디바이스(100)의 가속도들의 크기들을 검출할 수 있고, 전자 디바이스(100)가 정지 상태에 있을 때, 중력의 크기 및 방향이 검출될 수 있다. 가속도 센서(180E)는 전자 디바이스의 자세를 식별하도록 추가로 구성될 수 있고, 가로 모드와 세로 모드 사이의 전환 또는 보수계(pedometer)와 같은 애플리케이션에서 사용된다.
거리 센서(180F)는 거리를 측정하도록 구성된다. 전자 디바이스(100)는 적외선 방식 또는 레이저 방식으로 거리를 측정할 수 있다. 일부 실시예들에서, 사진촬영 시나리오에서, 전자 디바이스(100)는 빠른 포커싱을 구현하기 위해 거리 센서(180F)를 통해 거리를 측정할 수 있다.
광 근접도 센서(180G)는, 예를 들어, 발광 다이오드(LED), 및 광 검출기, 예를 들어, 포토다이오드를 포함할 수 있다. 발광 다이오드는 적외선 발광 다이오드일 수 있다. 전자 디바이스(100)는 발광 다이오드를 사용하여 적외선 광을 방출한다. 전자 디바이스(100)는 포토다이오드를 통해 인근 물체로부터의 적외선 반사광을 검출한다. 충분한 반사광이 검출될 때, 전자 디바이스(100) 부근에 물체가 있다고 결정될 수 있다. 불충분한 반사광이 검출될 때, 전자 디바이스(100)는 전자 디바이스(100) 부근에 물체가 없다고 결정할 수 있다. 전자 디바이스(100)는, 광 근접도 센서(180G)를 이용함으로써, 사용자가 호출을 위해 전자 디바이스(100)를 귀에 가깝게 쥐고 있는 것을 검출하여, 전력 절약을 위해 스크린을 자동으로 턴오프할 수 있다. 광 근접도 센서(180G)는 또한 스크린 잠금 해제 또는 잠금을 자동으로 수행하기 위해 스마트 커버 모드 또는 포켓 모드에서 사용될 수 있다.
주변 광 센서(180L)는 주변 광 밝기를 감지하도록 구성된다. 전자 디바이스(100)는 감지된 주변 광 밝기에 기초하여 디스플레이(194)의 밝기를 적응적으로 조정할 수 있다. 주변 광 센서(180L)는 또한 사진촬영 동안 화이트 밸런스를 자동으로 조정하도록 구성될 수 있다. 주변 광 센서(180L)는 또한 전자 디바이스(100)가 포켓에 있는지를 검출하여, 우발적인 터치를 회피하도록 광 근접도 센서(180G)와 협력할 수 있다.
지문 센서(180H)는 지문을 수집하도록 구성된다. 전자 디바이스(100)는 지문-기반 잠금해제, 애플리케이션 잠금 액세스, 지문-기반 사진촬영, 지문-기반 호출 응답, 및 그와 유사한 것을 구현하기 위해 캡처된 지문의 특징을 사용할 수 있다.
온도 센서(180J)는 온도를 검출하도록 구성된다. 일부 실시예들에서, 전자 디바이스(100)는 온도 센서(180J)에 의해 검출된 온도를 통해 온도 처리 정책을 실행한다. 예를 들어, 온도 센서(180J)에 의해 보고된 온도가 임계값을 초과할 때, 전자 디바이스(100)는 온도 센서(180J) 근처의 프로세서의 성능을 저하시켜, 열에서의 보호를 위해 전력 소비를 감소시킨다. 일부 다른 실시예들에서, 온도가 또 다른 임계값 미만인 경우, 전자 디바이스(100)는 배터리(142)를 가열하여 전자 디바이스(100)가 낮은 온도로 인해 비정상적으로 셧다운되는 것을 방지한다. 일부 다른 실시예들에서, 온도가 또 다른 임계값보다 낮을 때, 전자 디바이스(100)는 낮은 온도에 의해 야기되는 비정상적인 셧다운을 회피하기 위해 배터리(142)의 출력 전압을 부스팅한다.
터치 센서(180K)는 또한 "터치 컴포넌트"로서 지칭된다. 터치 센서(180K)는 디스플레이(194) 상에 배치될 수 있고, 터치 센서(180K) 및 디스플레이(194)는 "터치스크린"이라고도 지칭되는 터치스크린을 구성한다. 터치 센서(180K)는 터치 센서 상에서 또는 그 근처에서 수행되는 터치 조작을 검출하도록 구성된다. 터치 센서는 검출된 터치 조작을 애플리케이션 프로세서에 전달하여 터치 이벤트의 타입을 결정할 수 있다. 터치 조작에 관련된 시각적 출력이 디스플레이(194)를 통해 제공될 수 있다. 일부 다른 실시예들에서, 터치 센서(180K)는 또한 디스플레이(194)의 것과는 상이한 로케이션에서 전자 디바이스(100)의 표면 상에 배치될 수 있다.
골 전도 센서(180M)는 진동 신호를 획득할 수 있다. 일부 실시예들에서, 골 전도 센서(180M)는 인간 성대 부분의 진동 뼈의 진동 신호를 획득할 수 있다. 골 전도 센서(180M)는 또한, 혈압 박동 신호를 수신하기 위해 신체 펄스와 접촉 상태에 있을 수 있다. 일부 실시예들에서, 골 전도 센서(180M)는 또한, 골 전도 헤드셋을 획득하기 위해 헤드셋에 배치될 수 있다. 오디오 모듈(170)은 성대 부분의 진동 뼈의 것이고 또한 골 전도 센서(180M)에 의해 획득되는 진동 신호에 기초하여 파싱을 통해 스피치 신호를 획득하여 스피치 기능을 구현할 수 있다. 애플리케이션 프로세서는 골 전도 센서(180M)에 의해 획득된 혈압 박동 신호에 기초하여 심박수 정보를 파싱하여 심박수 검출 기능을 구현할 수 있다.
모터(191)는 진동 프롬프트(vibration prompt)를 생성할 수 있다. 모터(191)는 착신 호(incoming call) 진동 프롬프트 및 터치 진동 피드백을 제공하도록 구성될 수 있다. 예를 들어, 상이한 애플리케이션들(예를 들어, 사진 촬영 및 오디오 재생) 상에서 수행되는 터치 조작들은 상이한 진동 피드백 효과들에 대응할 수 있다. 모터(191)는 또한 디스플레이(194)의 상이한 영역들 상에서 수행되는 터치 조작들에 대한 상이한 진동 피드백 효과들에 대응할 수 있다. 상이한 응용 시나리오들(예를 들어, 시간 프롬프트, 정보 수신, 알람 시계, 및 게임)은 또한 상이한 진동 피드백 효과들에 대응할 수 있다. 터치 진동 피드백 효과는 더 맞춤화될 수 있다.
표시기(192)는 표시등일 수 있고, 충전 상태 및 전력 변화를 표시하도록 구성될 수 있거나, 또는 메시지, 부재중 호출, 통지, 및 그와 유사한 것을 표시하도록 구성될 수 있다.
SIM 카드 인터페이스(195)는 SIM 카드에 연결하도록 구성된다. SIM 카드는 SIM 카드 인터페이스(195) 내에 삽입되거나 SIM 카드 인터페이스(195)로부터 제거되어, 전자 디바이스(100)와의 접촉 또는 전자 디바이스로부터의 분리를 구현할 수 있다. 전자 디바이스(100)는 하나 또는 N개의 SIM 카드 인터페이스를 지원할 수 있으며, 여기서 N은 1보다 큰 양의 정수이다. SIM 카드 인터페이스(195)는 나노-SIM 카드, 마이크로-SIM 카드, SIM 카드, 및 그와 유사한 것을 지원할 수 있다. 복수의 카드가 동시에 동일한 SIM 카드 인터페이스(195) 내에 삽입될 수 있다. 복수의 카드는 동일한 타입 또는 상이한 타입들의 것일 수 있다. SIM 카드 인터페이스(195)는 상이한 타입들의 SIM 카드들과 호환가능할 수 있다. SIM 카드 인터페이스(195)는 또한 외부 저장 카드와 호환가능하다. 전자 디바이스(100)는 SIM 카드를 통해 네트워크와 상호작용하여, 대화 및 데이터 통신과 같은 기능들을 구현한다. 일부 실시예들에서, 전자 디바이스(100)는 eSIM, 즉 내장(embedded) SIM 카드를 사용한다. eSIM 카드는 전자 디바이스(100) 내에 내장될 수 있고, 전자 디바이스(100)로부터 분리될 수 없다.
본 출원의 이 실시예에 도시된 구조는 전자 디바이스(100)에 대한 특정 제한을 구성하지 않는다는 것을 이해할 수 있다. 본 출원의 일부 다른 실시예들에서, 전자 디바이스(100)는 도면에 도시된 것들보다 더 많거나 더 적은 컴포넌트들을 포함할 수 있거나, 또는 일부 컴포넌트들이 조합될 수 있거나, 또는 일부 컴포넌트들이 분할될 수 있거나, 또는 상이한 컴포넌트 배열들이 사용될 수 있다. 도면에 도시된 컴포넌트들은 하드웨어, 소프트웨어, 또는 소프트웨어와 하드웨어의 조합에 의해 구현될 수 있다.
또한, 본 개시내용의 이 실시예에 도시된 모듈들 사이의 인터페이스 연결 관계는 단지 설명을 위한 예일 뿐이고, 전자 디바이스(100)의 구조에 대한 제한을 구성하지 않는다는 것을 이해할 수 있다. 본 출원의 일부 다른 실시예들에서, 전자 디바이스(100)는 대안적으로 앞서의 실시예에서의 것과 상이한 인터페이스 연결 방식을 사용하거나, 또는 복수의 인터페이스 연결 방식의 조합을 사용할 수 있다.
도 3은 본 개시내용의 실시예에 따른 에코 필터링 방법(300)의 개략적인 흐름도이다. 일부 경우들에서, 가상 음장(virtual sound field), 업믹싱(upmixing), 및 음장 확장과 같은 사운드 효과 알고리즘들에 따라 복수의 마이크로폰 신호가 생성될 수 있다. 몇몇 사운드 효과 알고리즘들은 마이크로폰 신호들 사이의 강한 상관을 가능하게 하며, 이는 적응적 필터링에 큰 도전을 제기한다. 실시예에서, 직접 사운드 처리는 각각의 스피커로부터 각각의 마이크로폰으로의 음향 전달 함수 계수들을 미리 모델링할 수 있다. 필터링 프로세스에서, 이러한 사전 추정된 모델들이 필터링을 위해 사용되고, 사전 추정된 모델들은 적응적 필터링의 후속 처리로서 사용되어, 적응적 필터링의 필터링 효과가 개선될 수 있도록 한다.
실시예에서, 방법(300)은 전자 디바이스(100)의 프로세서(110)에 의해 수행될 수 있다. 전자 디바이스(100)는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 프로세서(110)가 방법(300)을 수행하는 것으로 도시되지만, 이는 단지 예일 뿐이고 본 개시내용의 범위를 제한하지 않는다. 방법(300)에서의 하나 이상의 동작은 프로세서(110) 이외의 DSP(digital signal processor)와 같은 또 다른 컴퓨팅 디바이스에 의해 수행될 수 있다.
(302)에서, 프로세서(110)는 N개의 스피커에 대응하는 N개의 스피커 신호를 획득한다. 실시예에서, N개의 스피커 신호는 N개의 스피커에 의해 재생되는 N개의 오디오 신호의 사본들이다. 본 개시내용에서, "사본"이라는 용어는 오디오 콘텐츠의 관점에서 소스 신호와 일대일 대응관계를 갖는 복사된 신호를 지칭한다. 실시예에서, N개의 스피커 신호는 스피커에 의해 재생되는 N개의 오디오 신호와 동일할 수 있다. 또 다른 실시예에서, N개의 스피커 신호는 스피커에 의해 재생되는 N개의 오디오 신호와 완전히 동일하지 않을 수 있지만, N개의 오디오 신호의 오디오 콘텐츠를 반영할 수 있다. 예를 들어, N개의 스피커 신호의 콘텐츠는 N개의 오디오 신호의 것과 실질적으로 동일하지만, N개의 스피커 신호의 이득은 N개의 오디오 신호의 이득과는 상이하다.
(304)에서, 프로세서(110)는 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득한다. 전술한 바와 같이, M개의 마이크로폰 신호 각각은, 사용자의 음성, N개의 스피커에 의해 재생되는 오디오 출력의 에코, 및 가능한 잡음을 포함한다. 실시예에서, 프로세서(110)는 M개의 마이크로폰 신호를 순차적으로 처리할 수 있다. 대안적으로, 프로세서(110)가 복수의 처리 코어를 포함하는 경우, 복수의 처리 코어는 M개의 마이크로폰 신호를 개별적으로 처리하여 처리 속도를 개선할 수 있다. 스피커가 오디오를 재생하는 경우, M개의 마이크로폰 신호 각각은 타깃 오디오 신호 성분, N개의 스피커의 N개의 에코 신호 성분, 및 잡음 신호 성분을 포함하는 것을 이해할 수 있다.
(306)에서, 프로세서(110)는 타깃 신호를 획득하기 위해 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 적어도 직접 사운드 필터링을 수행한다. 일부 실시예들에서, 타깃 신호는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신된다. 일부 실시예들에서, 타깃 신호는 M개의 마이크로폰 신호보다 적은 수의 에코 성분을 포함한다. 에코 성분들은 N개의 스피커 신호의 것이고 또한 M개의 마이크로폰에 의해 캡처되는, 공간에서 전파되는 사운드의 에코를 표현하기 위해 사용된다.
환경에서의 반사 없이 N개의 스피커 각각으로부터 M개의 마이크로폰 각각으로의 물리적 직접 사운드 전파 경로가 있다. 직접 사운드 필터링 모델의 필터링 계수는 고정되고 필터링 동안 업데이트될 필요가 없는데, 그 이유는 스피커로부터 마이크로폰으로의 직접 사운드 전파 경로가 보통은 고정되기 때문이다. 따라서, 직접 사운드 필터링 모델이 그에 따라 확립될 수 있다. 일부 실시예들에서, N개의 스피커로부터 M개의 마이크로폰으로의 N×M 직접 전파 경로 함수에 대한 직접 사운드 필터링 모델을 이용함으로써, N개의 스피커의 직접 사운드 컴포넌트가 M개의 마이크로폰 신호로부터 필터링될 수 있고, 그에 의해 더 나은 에코 필터링 효과를 달성하고, 따라서 웨이크업 엔진의 웨이크업의 성공률을 개선하고, 및/또는 음성 호출의 품질을 개선한다.
일부 실시예들에서, 직접 사운드 필터링은 디폴트 직접 사운드 필터링을 포함한다. 디폴트 직접 사운드 필터링은 N개의 스피커에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 M개의 마이크로폰에 의해 직접 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타낸다. 실시예에서, 어떠한 반사된 에코도 없는 완전한 무에코 챔버에서, 전자 디바이스(100)의 프로세서(110)는 제품의 N개의 스피커가 백색 잡음 또는 음악 사운드 소스들을 별도로 재생하도록 제어하고, 모든 M개의 마이크로폰을 사용하여 별도로 레코딩한다. M 및 N은 1보다 큰 양의 정수들을 나타내고, 동일하거나 상이할 수 있다. 전자 디바이스는 적응적 필터링을 사용함으로써 복수의 레코딩을 순차적으로 필터링하고, N개의 스피커로부터 M개의 마이크로폰으로의 전달 함수들을 제각기 표시하는 M x N개의 필터 계수 그룹을 디폴트 직접 사운드 필터링 모델로서 저장한다. 디폴트 직접 사운드 필터링 모델은 전달 전에 전자 디바이스에 저장되거나 또는 전자 디바이스의 펌웨어 업데이트 방식으로 전자 디바이스에 저장되어, 사용자가 직접 사운드 필터링을 수행할 때 디폴트 직접 사운드 필터링 모델을 사용할 수 있도록 한다.
또 다른 실시예에서, 직접 사운드 필터링은 맞춤화된 직접 사운드 필터링을 추가로 포함할 수 있다. 사용자는 보다 나은 직접 사운드 필터링 효과를 획득하기 위해 일일 환경에 기초하여 직접 사운드 제거 모델을 맞춤화할 수 있다. 예를 들어, 전자 디바이스(100)는 디스플레이(194) 상에 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있다. 사용자(20)는 맞춤화된 직접 사운드 필터링 인터페이스에서, 예를 들어, 터치 방식으로 맞춤화된 가상 키를 클릭하고 입력할 수 있다. 사용자 입력을 수신한 후에, 프로세서(110)는 내부 메모리(121)로부터 N개의 스피커에 대한 N개의 테스트 신호를 획득하고, N개의 스피커가 모든 M개의 마이크로폰을 사용하여 N개의 스피커 테스트 신호를 재생하고 레코딩을 수행할 수 있게 한다. 프로세서(110)는 추가로, M개의 마이크로폰에 대응하는 M개의 마이크로폰 테스트 신호를 획득하고, N개의 스피커 테스트 신호 및 M개의 마이크로폰 테스트 신호에 기초하여, 직접 사운드 필터링을 맞춤화하기 위한 맞춤화된 직접 사운드 필터링 모델을 생성하고, 맞춤화된 직접 사운드 필터링 모델을 내부 메모리(121)에 저장한다. 맞춤화된 직접 사운드 필터링 모델은 앞서의 직접 사운드 필터링을 위해 사용된다.
후속적으로 오디오를 재생할 때, 사용자(20)는 디스플레이(194) 상에 디스플레이된 직접 필터링 선택 인터페이스에서 디폴트 직접 사운드 필터링 또는 맞춤화된 직접 사운드 필터링을 선택할 수 있다. 사용자(20)가 맞춤화된 직접 사운드 필터링을 선택할 때, 전자 디바이스(100)는 저장된 맞춤화된 직접 사운드 필터링 모델을 사용하여 M개의 마이크로폰 신호를 필터링한다. 일부 실시예들에서, 직접 필터링 선택 인터페이스 및 맞춤화된 직접 사운드 필터링 인터페이스는 동일한 인터페이스의 상이한 디스플레이 영역들에 디스플레이되는 상이한 옵션들일 수 있다는 것이 이해될 수 있다.
일부 실시예들에서, 맞춤화된 직접 사운드 필터링 인터페이스가 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이한다. 맞춤화된 직접 사운드 필터링 인터페이스는 환경 잡음을 나타내는 데시벨 표시자 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 추가로 디스플레이할 수 있다. 예를 들어, 전자 디바이스(100)가 환경 잡음을 측정하도록 구성된 센서를 포함한다면, 현재의 환경 잡음은 맞춤화된 직접 필터링 인터페이스에서 실시간으로 디스플레이될 수 있고, 현재의 환경 잡음이 임계값보다 낮을 때에만 직접 사운드 테스트가 수행된다. 환경을 조용하게 유지하는 것을 나타내기 위한 표시자, 데시벨 표시자, 및/또는 맞춤화된 에코 필터링이 적합한지를 나타내는 표시자를 디스플레이함으로써, 사용자는 조용하고 적합한 환경에서 맞춤화된 직접 사운드 필터링 모델을 확립할 수 있다. 이는 환경에 특정적인 후속적인 맞춤화된 직접 사운드 필터링에 대한 양호한 기초를 놓고, 환경에서의 양호한 에코 필터링 효과를 후속적으로 획득한다.
전자 디바이스(100)가 디스플레이를 갖지 않는 일부 실시예들에서, 전자 디바이스(100)는 사용 환경에서 조용하게 유지되고 맞춤화를 시작하도록 사용자를 안내하기 위해 음성을 재생할 수 있다. 전자 디바이스(100)의 프로세서(110)는 N개의 스피커가 백색 잡음 또는 음악 사운드 소스들을 별도로 재생하는 것을 가능하게 하고, 모든 M개의 마이크로폰을 이용하여 레코딩을 수행한다.
덧붙여, 전자 디바이스(100)는 상이한 환경들에 대한 대응하는 직접 사운드 필터링을 맞춤화하기 위한 복수의 맞춤화된 직접 사운드 필터링 옵션을 가질 수 있다. 전자 디바이스(100)가 상이한 환경들에 있을 때, 사용자(20)는 직접 사운드 필터링 선택 인터페이스 상에서 환경에 대한 직접 사운드 필터링 모델을 선택할 수 있다. 덧붙여, 전자 디바이스(100)가 새로운 환경에 도달할 때, 새로운 환경에 대한 직접 사운드 필터링 모델은 재맞춤화될 수 있고, 새로운 환경에 대한 새로운 직접 사운드 필터링 모델은 후속 사용을 위해 내부 메모리(121)에 저장된다.
전자 디바이스(100)가 M개의 마이크로폰 및 N개의 스피커를 갖는 예가 도 3에서 설명을 위해 사용되지만, 이것은 단지 예일 뿐이고 본 개시내용의 범위를 제한하지 않는다. 방법(300)은 또한 또 다른 수량의 전자 디바이스에 적용될 수 있다. 예를 들어, 방법(300)은 또한 복수의 스피커 및 단일 마이크로폰, 복수의 마이크로폰 및 단일 스피커, 또는 단일 마이크로폰 및 단일 스피커를 갖는 전자 디바이스에 적용될 수 있다.
도 4는 실시예에 따른 직접 사운드 필터링의 프로세스(400)의 개략도이다. N개의 사운드 소스 신호 X1 ... XN은 제각기 N개의 스피커(14-1 ... 14-N)에 출력되는 한편, N개의 사운드 소스 신호 X1 ... XN의 사본으로서의 N개의 스피커 신호 X1C ... XNC는 적응적 필터링(440)을 위해 프로세서(110)에 제공된다. 사운드 소스 신호들 X1 ... XN의 또 다른 그룹의 사본들 X1D ... XND는 직접 사운드 필터링(450)을 위해 이용된다. 오디오 소스는, 예를 들어, 인터넷을 사용하여 통신하는 서버 내의 저장 디바이스에 저장된 오디오 데이터, 로컬 저장 디바이스에 저장된 오디오 데이터, 또는 또 다른 디바이스의 마이크로폰에 의해 캡처된 오디오 데이터이다.
N개의 스피커 신호 X1C ... XNC는 직접적으로 적응적으로 필터링되는 것으로 도시되지만, 이는 단지 예일 뿐이고 본 개시내용의 범위를 제한하려고 의도된 것은 아니다. N개의 스피커 신호 X1C ... XNC는 후술하는 바와 같은 이득 스케일링 및 비-인터리빙형 전처리와 같은 다양한 조정들 및 처리를 겪을 수 있다. 조정되고 전처리된 신호들은 적응적 필터링을 위해 제공된다. 일부 다른 실시예들에서, 스피커에 제공되는 신호 및 적응적 필터링을 위한 마이크로폰 신호는 상이할 수 있지만(예를 들어, 상이한 이득들), 마이크로폰 신호가 스피커에 의해 재생되는 사운드를 나타낼 수 있도록 상관을 가질 수 있다.
프로세서(110)는 N개의 스피커 신호 X1C ... XNC 에 대해 적응적 필터링(440)을 수행하여 M개의 에코 추정 신호 YE를 생성한다. 실시예에서, 적응적 필터링(440)은, 예를 들어, LMS(least mean square error) 필터링, RLS(recursive least squares) 필터링, 및 그와 유사한 것을 포함한다. 실시예에서, 적응적 필터링은 전처리된 신호를 시간 도메인 신호로부터 주파수 도메인 신호로 변환하고, 그 후 주파수 도메인 신호에 대해 적응적 필터링 처리를 수행한다. 예를 들어, 16kHz의 샘플링 레이트를 갖는 시간 도메인 신호에 대해, 75%의 오버랩 길이 및 1024개 포인트의 푸리에 변환을 이용하여 시간 도메인 신호를 주파수 도메인 신호가 되도록 변환할 수 있다. 물론, 다른 오버랩 길이들 및 다른 포인트들의 푸리에 변환이 또한 사용될 수 있다. 더 높은 비율의 오버랩 길이들이 사용될 때, 이전 및 다음 오디오 프레임들의 연속성이 개선될 수 있지만, 계산 오버헤드가 증가된다. 더 많은 수의 포인트를 갖는 푸리에 변환의 경우, 스펙트럼 해상도는 적응적 결과를 향상시키기 위해 개선될 수 있지만, 이는 또한 계산 오버헤드를 증가시킨다. 16kHz의 샘플링 레이트를 갖는 시간 도메인 신호에 대해, 75%의 오버랩 길이 및 1024개 포인트의 푸리에 변환은 필터링 효과와 계산 오버헤드 사이에서 더 나은 균형을 달성할 수 있다.
M개의 마이크로폰 12-1 ... 12-M은 제각기 사용자(20)의 음성, N개의 스피커 14-1 ... 14-N에 의해 재생되는 오디오의 오디오 에코, 및 가능한 잡음을 제각기 포함하는 다양한 사운드를 수집한다. 실시예에서, M개의 마이크로폰 12-1 ... 12-M 각각에 의해 캡처되는 마이크로폰 신호 D는 음성 신호 성분 S, 잡음 신호 성분 V, 및 에코 신호 성분 Y를 포함한다. 에코 신호 성분 Y는 반사된 에코 신호 성분 및 직접 사운드 신호 성분을 포함한다. 따라서, 마이크로폰 신호 D는 음성 신호 성분 S, 잡음 신호 성분 V, 및 에코 신호 성분 Y의 합성 신호이다. 도 4에 도시된 바와 같이, 제1 마이크로폰 신호는 공식 D1 = S1 + V1 + Y1로 표현될 수 있다. 제M 마이크로폰 신호는 공식 DM = SM + VM + YM으로 표현될 수 있다.
M개의 에코 추정 신호 YE는 M개의 마이크로폰에 의해 캡처되는 마이크로폰 신호들 D1 ... DM에 대응한다. 예를 들어, M개의 에코 추정 신호 YE 중 제1 에코 추정 신호는 제1 마이크로폰 신호 D1에 대응한다. M개의 에코 추정 신호 YE 중 제M 에코 추정 신호는 제M 마이크로폰 신호 DM에 대응한다.
프로세서(110)는 제각기 M개의 마이크로폰 신호로부터 M개의 에코 추정 신호를 필터링하여 M개의 잔차 신호 E를 생성한다. 예를 들어, 제1 에코 추정 신호는 제1 마이크로폰 신호 D1로부터 필터링되어 제1 잔차 신호를 획득하게 된다. 제M 에코 추정 신호는 제M 마이크로폰 신호 DM으로부터 필터링되어 제M 잔차 신호를 획득하게 된다. M개의 잔차 신호 E는 적응적 필터링(440)을 업데이트하여 에코 추정의 정확도를 향상시키는데 더 이용될 수 있다. 예를 들어, 제1 잔차 신호는 제1 에코 추정 신호에 대응하는 적응적 필터링을 업데이트하기 위해 사용된다. 제M 잔차 신호는 제M 에코 추정 신호에 대응하는 적응적 필터링을 업데이트하기 위해 사용된다.
프로세서(110)는 이후 전술한 디폴트 직접 사운드 필터링 모델 또는 맞춤화된 직접 사운드 필터링 모델을 사용함으로써 M개의 잔차 신호 E에 대해 별개로 직접 사운드 필터링(450)을 수행하여, M개의 타깃 신호 T를 생성할 수 있다. 예를 들어, 직접 사운드 필터링(450)은 제1 잔차 신호에 대해 수행되어 제1 타깃 신호를 생성하게 된다. 직접 사운드 필터링(450)은 제M 잔차 신호에 대해 수행되어 제M 타깃 신호를 생성하게 된다. 실시예에서, 그 후 M개의 타깃 신호 T는 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신된다. 또 다른 실시예에서, M개의 타깃 신호 T는 그 후 비선형 필터링 솔루션 또는 머신 러닝 솔루션과 같은 종래의 솔루션을 이용하여 더 필터링되어 더 나은 에코 필터링 효과를 획득할 수 있게 되고, 그 후 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신될 수 있다.
도 5는 본 개시내용의 또 다른 실시예에 따른 에코 필터링 방법(500)의 개략적인 흐름도이다. 전자 디바이스(100)는 N개의 스피커 14-1 ... 14-N, M개의 마이크로폰 12-1 ... 12-M, 및 프로세서(110)를 포함한다. 또한, 전자 디바이스(100)는 마이크로폰 그룹(12) 내의 적어도 하나의 마이크로폰 근처에 배치된 적어도 하나의 리버스 스피커를 가질 수 있다. 예를 들어, M개의 마이크로폰에 대해, 전자 디바이스(100)는 M개의 마이크로폰에 제각기 대응하는 M개의 리버스 스피커를 가질 수 있다. 또 다른 실시예에서, 마이크로폰들이 서로 가까울 때, 2개의 인접한 마이크로폰을 위한 한 리버스 스피커가 마이크로폰들 사이에 배치되어 공간 및 비용을 절약할 수 있게 된다. 다시 말해서, 전자 디바이스(100)는 M개의 마이크로폰보다 적은 수의 리버스 스피커를 가질 수 있다.
실시예에서, 리버스 스피커는 리버스 오디오를 재생하기 위해 마이크로폰 그룹(12)에 10cm, 5cm, 1cm, 또는 더 가깝게 설정될 수 있으며, 그것에 의해 N개의 스피커에 의해 재생되는 오디오의 에코를 제거한다. 본 명세서에서, "리버스 오디오(reverse audio)"라는 용어는 N개의 스피커에 의해 재생되는 오디오의 에코를 제거하기 위해 사용되는 오디오를 표현한다. 용어 "리버스 스피커(reverse speaker)"는 마이크로폰 근처에 배치되고 리버스 오디오를 재생하도록 구성된 스피커를 표현한다. 내부 에코 알고리즘 추정을 사용하여 에코 필터링을 수행하는, 이전에 기술된 방법(300) 및 후속하여 기술된 방법(700)과 비교하여, 방법(500)은 리버스 오디오를 외부적으로 재생함으로써 에코를 제거한다. 이는 마이크로폰 신호 내의 에코 성분을 감소시켜 에코 필터링 효과를 획득할 수 있다.
실시예에서, 방법(500)은 전자 디바이스(100)의 프로세서(110)에 의해 수행될 수 있다. 전자 디바이스(100)의 프로세서(110)는 통신 유닛을 사용하여, 복수의 스피커에 의해 재생될 오디오 신호들을 수신하고, 오디오 신호들을 재생을 위해 복수의 스피커에 송신할 수 있다. 대안적으로, 프로세서(110)는 저장 유닛, ROM, 또는 RAM으로부터, 복수의 스피커에 의해 재생될 오디오를 수신하고, 오디오를 재생을 위해 복수의 스피커에 송신할 수 있다. 프로세서(110)가 방법(500)을 수행하는 것으로 도시되지만, 이는 단지 예일 뿐이고 본 개시내용의 범위를 제한하지 않는다. 방법(500)에서의 하나 이상의 동작은 프로세서(110) 이외의 디지털 신호 프로세서(DSP)와 같은 또 다른 컴퓨팅 디바이스에 의해 수행될 수 있다.
(502)에서, 프로세서(110)는 N개의 스피커에 대응하는 N개의 스피커 신호를 획득한다. 실시예에서, N개의 스피커 신호는 N개의 스피커에 의해 재생되는 N개의 오디오 신호의 사본들이다.
(504)에서, 프로세서(110)는 N개의 스피커 신호에 기초하여 리버스 스피커 신호를 생성한다. 실시예에서, 각각의 스피커로부터 마이크로폰으로의 직접 사운드 임펄스 응답 모델이 완전히 뮤팅된 환경에서 테스트될 수 있고, 그 후 직접 사운드 임펄스 응답 모델에 기초하여 리버스 필터링 모델이 설계된다. 디폴트 직접 사운드 필터링 모델과 유사하게, 리버스 필터링 모델은 전자 디바이스가 공장으로부터 또는 전자 디바이스의 펌웨어 업데이트 방식으로 전달되기 전에 전자 디바이스에 저장되어, 리버스 에코 필터링을 후속적으로 수행할 수 있다. 유사하게, 사용자들은 그들 자신의 환경에서 리버스 필터링 모델을 맞춤화할 수 있다. 전자 디바이스는 리버스 스피커에 의해 재생되는 볼륨 및 사운드 생성 주파수 대역(sound-making frequency band)을 제어하여, 리버스 오디오가 마이크로폰 및 타깃 주파수 대역에서만 작동하고, 최종적으로 마이크로폰이 더 적은 에코를 수신함으로써, 에코 필터링 성능을 향상시키도록 한다.
(506)에서, 프로세서(110)는 N개의 스피커의 오디오 출력의 에코를 제거하기 위해 M개의 마이크로폰 중 적어도 하나의 것에 가까운 적어도 하나의 리버스 스피커가 리버스 오디오 신호에 기초하여 리버스 오디오를 재생할 수 있게 한다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다. 방법(500)은 에코 필터링을 수행하기 위해 독립적으로 이용될 수 있거나, 또는 더 나은 에코 필터링 효과를 획득하기 위해 방법(300) 및 방법(700) 중 적어도 하나와 조합될 수 있다는 것을 이해할 수 있다.
전자 디바이스(100)가 M개의 마이크로폰 및 N개의 스피커를 갖는 예가 도 5에서 설명을 위해 사용되지만, 이는 단지 예일 뿐이고 본 개시내용의 범위를 제한하지는 않는다. 방법(500)은 또한 또 다른 수량의 전자 디바이스에 적용될 수 있다. 예를 들어, 방법(500)은 또한 복수의 스피커 및 단일 마이크로폰, 복수의 마이크로폰 및 단일 스피커, 및 단일 마이크로폰 및 단일 스피커를 갖는 전자 디바이스에 적용될 수 있다.
도 6은 실시예에 따른 리버스 에코 제거 프로세스(600)의 개략도이다. M개의 리버스 스피커 15-1 ... 15-M 은 제각기 M개의 마이크로폰 12-1 ... 12-M 근처에 배치되어 마이크로폰들에 의해 캡처될 사운드에서 에코 성분들을 재생한다. 사운드 소스로부터의 N개의 사운드 소스 신호 X1 ... XN은 프로세서(110)에 의해 N개의 스피커 14-1 ... 14-N에 출력된다. 오디오 소스는, 예를 들어, 인터넷을 사용하여 통신하는 서버 내의 저장 디바이스에 저장된 오디오 데이터, 로컬 저장 디바이스에 저장된 오디오 데이터, 또는 또 다른 디바이스의 마이크로폰에 의해 캡처된 오디오 데이터이다.
N개의 사운드 소스 신호 X1 ... XN의 사본들로서, N개의 스피커 신호 X1C ... XNC가 프로세서(110)에 의해 역으로(reversely) 처리되어(620) M개의 리버스 오디오 신호 X1R ...XMR을 생성하게 된다. 프로세서(110)는 M개의 리버스 스피커 15-1, ... 15-M이 M개의 리버스 오디오 신호 X1R ... XMR을 제각기 재생하게 할 수 있다. 제1 리버스 오디오 신호 X1R는 제1 마이크로폰 12-1 외부의 N개의 스피커 14-1 ... 14-N에 의해 재생되는 오디오의 에코를 제거하여, 제1 마이크로폰 12-1에 의해 캡처되는 마이크로폰 신호 D1이 음성 신호 S1, 잡음 V1, 및 완전히 필터링되지 않은 나머지 에코 신호 성분 Y1R을 포함하도록 한다. 유추에 의해, 제M 리버스 오디오 신호 XMR은 제M 마이크로폰 12-M 외부의 N개의 스피커 14-1 ... 14-N에 의해 재생되는 오디오의 에코를 제거하여, 제M 마이크로폰 12-M에 의해 캡처되는 마이크로폰 신호 DM이 음성 신호 SM, 잡음 VM, 및 완전히 필터링되지 않은 나머지 에코 신호 성분 YMR을 포함하도록 한다. 실시예에서, 마이크로폰 신호는 방법(300) 및 방법(700) 중 적어도 하나에 의해 추가로 에코 필터링될 수 있다. 또 다른 실시예에서, 마이크로폰 신호는 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위한 타깃 신호로서 사용되거나 또는 네트워크를 사용하여 호출 수신기에 송신되거나, 또는 비선형 필터링 솔루션 또는 머신 러닝 솔루션과 같은 종래의 솔루션을 사용하여 더 필터링되어 더 나은 에코 필터링 효과를 획득한 다음, 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 사용하여 호출 수신기에 송신될 수 있다.
도 7은 본 개시내용의 또 다른 실시예에 따른 에코 필터링 방법(700)의 개략적인 흐름도이다. 전자 디바이스(100)는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 프로세서(110)가 방법(700)을 수행하는 것으로 도시되지만, 이는 단지 예일 뿐이고 본 개시내용의 범위를 제한하지 않는다. 방법(700)에서의 하나 이상의 동작은 프로세서(110) 이외의 DSP(digital signal processor)와 같은 또 다른 컴퓨팅 디바이스에 의해 수행될 수 있다.
(702)에서, 프로세서(110)는 N개의 스피커에 대응하는 N개의 스피커 신호를 획득한다. 실시예에서, N개의 스피커 신호는 N개의 스피커에 의해 재생되는 N개의 오디오 신호의 사본들이다.
(704)에서, 프로세서(110)는 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득한다. 전술한 바와 같이, M개의 마이크로폰 신호 각각은, 사용자의 음성, N개의 스피커에 의해 재생되는 오디오 출력의 에코, 및 가능한 잡음을 포함한다. 실시예에서, 프로세서(110)는 M개의 마이크로폰 신호를 순차적으로 처리할 수 있다. 대안적으로, 프로세서(110)가 복수의 처리 코어를 포함하는 경우, 복수의 처리 코어는 M개의 마이크로폰 신호를 개별적으로 처리하여 처리 속도를 개선할 수 있다. 스피커가 오디오를 재생하는 경우, M개의 마이크로폰 신호 각각은 타깃 오디오 신호 성분, N개의 스피커의 N개의 에코 신호 성분, 및 잡음 신호 성분을 포함하는 것을 이해할 수 있다.
(706)에서, 프로세서(110)는 N개의 스피커 신호에 대해 비-인터리빙형 전처리를 수행하여 M개의 전처리된 신호 그룹을 생성한다. 전처리된 신호들의 각각의 그룹은 적어도 하나의 비-인터리빙형 전처리된 신호를 포함한다. 본 명세서에서, "비-인터리빙형 전처리(non-interleaved preprocessing)"는 복수의 스피커 신호의 동일한 시간 슬롯에 대응하는 복수의 오디오 프레임이 조합된 방식으로 동시에 전처리되는 것 또는 복수의 스피커 신호가 순차적으로 전처리되고 단일 스피커 신호에 대응하는 타깃 신호를 사용하여 적응적 필터링이 업데이트되는 것을 나타낸다. 따라서, 시간 슬롯에 대응하는 전처리된 신호는 복수의 스피커 신호 중 각각의 스피커 신호의 오디오 특성들의 적어도 일부를 반영할 수 있다. 다시 말해서, "비-인터리빙형 전처리(non-interleaved preprocessing)"는, 인터리빙형 전처리 또는 스플라이싱(splicing)을 위해 복수의 스피커 신호로부터의 복수의 오디오 프레임을 교대로 이용하지 않고서, 시간상 동시에 복수의 스피커 신호의 상태를 연속적으로 표시하기 위해, 전술한 바와 같이 단위 시간 기간 또는 프레임에서 복수의 스피커 신호에 대해 인터리빙형 전처리를 수행하는 것과는 다른 방식으로 복수의 스피커 신호를 처리하는 것을 포함한다. 임의의 시간 슬롯에서, 비-인터리빙형 전처리를 겪은 전처리된 신호는 전처리된 오디오 스트림의 임의의 시간에서 복수의 스피커 신호 중 각각의 스피커 신호와 연관된다. 비-인터리빙형 전처리는, 예를 들어, 선형 합산, 선형 차이, 참조 오디오 신호 소팅, 직렬/병렬 필터링 방식 조정, 이득 조정, 마이크로폰 신호 기반 필터링, 및 그와 유사한 것을 포함한다.
실시예에서, 프로세서(110)는 N개의 스피커 신호 중 적어도 2개의 스피커 신호에 대한 선형 합산을 수행할 수 있다. 예를 들어, 프로세서는 N개의 스피커 신호에 대한 선형 합산을 시간별로 수행함으로써, N개의 스피커 신호를 단일 오디오 신호가 되도록 합성한다. 이러한 방식으로, 프로세서의 후속 필터링은 단일 조합된 오디오 신호에 대해서만 수행될 필요가 있고, 이에 의해 후속 계산 동작 오버헤드를 감소시킨다. 대조적으로, 종래의 인터리빙 방식은 미리 결정된 단위 시간 길이에 따라 상이한 참조 오디오 신호들로부터 단위 시간 길이의 오디오 세그먼트들을 순차적으로 선택하고, 오디오 세그먼트들을 단일 참조 오디오 신호가 되도록 인터리빙하는 것이다. 예를 들어, 단일 참조 오디오 신호는 제1 참조 오디오 신호의 제1 단위 시간 기간으로부터 선택되는 제1 오디오 세그먼트, 제2 참조 오디오 신호의 제1 단위 시간 기간으로부터 선택되는 제2 오디오 세그먼트, 제1 참조 오디오 신호의 제2 단위 시간 기간으로부터 선택되는 제3 오디오 세그먼트, 및 등등을 포함한다. 따라서, 종래의 인터리빙 방식의 계산 오버헤드는 선형 합산 연산 방식의 N배일 수 있다. N개의 스피커 신호를 단일 오디오 신호가 되도록 합성함으로써, 오디오 신호 처리의 계산량이 상당히 감소될 수 있다.
또 다른 실시예에서, 프로세서(110)는 N개의 스피커 신호 중 2개의 스피커 신호 중 적어도 2개의 스피커 신호에 대해 선형 차이(linear difference)를 수행할 수 있다. 예를 들어, 프로세서(110)는 제1 스피커 신호 및 제2 스피커 신호에 대해 시간별로 선형 차이를 수행하여, 2개의 오디오 신호를 단일 오디오 신호가 되도록 합성한다. 이러한 방식으로, 프로세서(110)의 후속 필터링은 2개의 스피커 신호에 대해서가 아니라, 단일 조합된 오디오 신호에 대해서만 수행될 필요가 있고, 이에 의해 후속 계산 동작 오버헤드를 감소시킨다. 또한, 일부 경우에, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 초점을 맞춘다. 이 경우, 차이 신호가 에코 필터링 효과를 더 개선하기 위해 프로세서(110)에 개별적으로 제공되거나 또는 또 다른 스피커 신호와 조합될 수 있다.
또 다른 실시예에서, 프로세서(110)는 일종의 에코 필터링을 조정하기 위해 N개의 스피커 신호를 소팅할 수 있다. 예를 들어, 프로세서는 마이크로폰 신호로부터 제2 스피커 신호에 대한 에코 성분을 우선적으로 필터링한 다음, 필터링된 오디오 신호로부터 제1 스피커 신호에 대한 에코 성분을 필터링할 수 있다. 일부 경우들에서, 상이한 스피커 신호들을 소팅하고 소팅 결과에 따라 에코 필터링을 수행하는 것이 유익하다. 예를 들어, 제2 스피커 신호가 서브우퍼(subwoofer) 스피커에 의해 출력된 저주파수 오디오인 경우, 저주파수 오디오 성분을 먼저 필터링하는 것은 에코 필터링 효과를 상당히 개선한다.
또 다른 실시예에서, 적어도 하나의 전처리된 신호가 합산 신호, 차이 신호, 및 스피커 신호 중에서 복수의 신호를 포함할 때, 복수의 신호는 에코 필터링 효과에 따라 소팅될 수 있다. 예를 들어, 큰 왜곡을 생성할 수 있는 신호가 후속 적응적 필터링을 우선적으로 수행하기 위한 우선순위 소팅 신호로서 사용될 수 있다. 실시예에서, 왜곡의 신호는 더 높은 저주파수 성분을 갖는 신호가 생성될 수 있다는 것을 포함한다. 연구는 저주파수 신호를 먼저 필터링함으로써 필터링 효과가 상당히 개선될 수 있다는 것을 보여준다. 따라서, 필터링 소팅을 변경함으로써, 음성 인식 및 호출 프로세스에서의 왜곡 정도가 감소될 수 있다.
복수의 전처리된 신호가 순차적으로 그리고 직렬로 적응적으로 처리된다는 전술한 설명에 부가하여, 적응적 처리를 병렬로 수행하기 위해 복수의 전처리된 신호가 행렬 신호가 되도록 추가로 조합될 수 있다. 예를 들어, L개의 전처리된 신호가 병렬 적응적 필터링을 위해 L차원 행렬이 되도록 조합될 수 있다. L은 1보다 큰 정수이다. 복수의 전처리된 신호에 대해 직렬 적응적 필터링 또는 병렬 적응적 필터링을 수행할지는 복수의 스피커 신호 또는 전처리된 신호 사이의 유사성에 기초하여 선택될 수 있다. 실시예에서, 복수의 스피커 신호 사이의 유사성이 높은데, 예를 들어, 전자 디바이스(100)가 모노 오디오를 재생한다. 다시 말해서, N개의 스피커가 동일한 오디오를 재생한다. 이 경우, 더 양호한 필터링 효과를 획득하고 마이크로폰 그룹(12)의 음성 입력을 더 양호하게 보호하기 위해 N개의 스피커와 연관된 N개의 스피커 신호에 기초하여 직렬 적응적 필터링이 수행될 수 있다. 또 다른 실시예에서, 복수의 스피커 신호 간의 유사성은 낮은데, 예를 들어, 전자 디바이스(100)는 스테레오 또는 5.1 서라운드 사운드 오디오를 재생한다. 이 경우, 각각의 채널을 나타내는 N개의 스피커 신호가 행렬이 되도록 조합되어 병렬 적응적 필터링을 수행함으로써 더 양호한 필터링 효과를 획득할 수 있다.
또 다른 실시예에서, 프로세서(110)는 N개의 스피커 신호의 이득을 조정하여, 에코 추정 신호의 이득이 마이크로폰 신호의 이득과 매칭되도록 함으로써, 에코를 더 양호하게 필터링할 수 있다. 마이크로폰에 의해 실제로 수신되는 마이크로폰 신호는 마이크로폰(12)의 아날로그-투-디지털 변환 이득을 포함하는 인자들에 의해 영향을 받는다. 따라서, 마이크로폰(12)에 의해 캡처된 마이크로폰 신호의 이득이 에코 추정 신호의 이득과 매칭되지 않는 경우, 예를 들어, 에코 추정 신호의 이득이 마이크로폰 신호의 이득보다 훨씬 낮은 경우, 필터는 더 양호한 상태로 수렴하지 못할 수 있다. 또한, 타깃 신호가 높은 에코 신호를 여전히 포함한다. 그에 대응하여, 전자 디바이스의 지능형 어시스턴트는 활성화되지 않을 수 있고, 및/또는 호출 동안의 다른 당사자는 여전히 대량의 에코를 들을 수 있다.
실시예에서, 이득은 전자 디바이스(100)의 음향 특성에 기초하여 조정될 수 있다. 예를 들어, 전자 디바이스(100)의 설계 및 제조 동안, 마이크로폰에 의해 픽업 또는 수신된 에코 이득을 테스트하고 및 에코만이 존재하는 경우에 최종 에코 필터링 효과에 기초하여 N개의 스피커 신호 또는 전처리된 신호의 이득을 조정함으로써 디폴트 이득 조정 설정이 획득된다. 따라서, N개의 스피커 신호 또는 전처리된 신호의 이득을 조정함으로써, 에코 추정 신호의 이득은 마이크로폰 신호의 이득과 매칭되거나 동등할 수 있고, 그에 의해 마이크로폰 신호로부터 에코를 더 효과적으로 필터링할 수 있다.
대안으로서, N개의 스피커 신호의 조합된 신호의 이득은 또한, 에코 추정 신호의 이득이 마이크로폰 신호의 이득과 매칭되도록 조정될 수 있다. 이득 매칭을 구현하기 위해 에코 필터링의 마지막 동작이 수행되기 전에 임의의 동작에서 이득 조정이 수행될 수 있고, 그에 의해 더 양호한 에코 필터링 효과를 획득하는 것이 이해될 수 있다. 또한, 각각의 스테이지에서 수행되는 이득 조정의 진폭은 특정 동작에 관련될 수 있고, 동일한 진폭의 조정은 수행될 필요가 없다는 점이 추가로 이해될 수 있다.
또 다른 실시예에서, 마이크로폰 그룹(12)에 의해 캡처된 M개의 마이크로폰 신호는 비-인터리빙형 전처리를 위한 참조 신호들로서 사용될 수 있다. 예를 들어, M개의 마이크로폰 신호 내의 각각의 마이크로폰은 N개의 스피커 신호로 합산, 차이, 소팅, 이득 조정, 및 그와 유사한 것을 수행할 수 있다. 또한, 마이크로폰 신호에 대해 대역 통과 필터링(예를 들어, 저역 통과 필터링)이 추가로 수행되어, 큰 잔차 에코를 가진 주파수 대역을 필터링하고 에코 필터링 효과를 개선할 수 있다.
본 개시내용의 일부 실시예들에서, 상이한 비-인터리빙형 전처리가 상이한 스피커 신호들에 대해 수행될 수 있다는 것이 이해될 수 있다. 예를 들어, N이 7인 경우, 제1 스피커 신호 및 제2 스피커 신호에 대해 합산이 수행될 수 있다. 차이는 제3 스피커 신호와 제4 스피커 신호에 대해 수행될 수 있다. 이득 조정은 제5 스피커 신호 및 제6 스피커 신호에 대해 수행될 수 있다. 합산 신호, 차이 신호, 이득 조정된 제5 스피커 신호, 제6 스피커 신호, 및 제7 스피커 신호가 소팅되어 5개의 소팅된 전처리된 신호를 생성한다.
(708)에서, 프로세서(110)는 M개의 전처리된 신호 그룹에 대해 적응적 필터링을 수행하여 M개의 에코 추정 신호를 생성한다. M개의 에코 추정 신호는 스피커 신호에 기초하여 추정된 M개의 마이크로폰 신호의 에코 신호 성분을 나타낸다. 적응적 필터링은, 예를 들어, LMS 필터링 및 RLS 필터링을 포함한다. 실시예에서, 적응적 필터링은 전처리된 신호를 시간 도메인 신호로부터 주파수 도메인 신호로 변환하고, 그 후 주파수 도메인 신호에 대해 적응적 필터링 처리를 수행한다. 예를 들어, 16kHz의 샘플링 레이트를 갖는 시간 도메인 신호에 대해, 75%의 오버랩 길이 및 1024개 포인트의 푸리에 변환을 이용하여 시간 도메인 신호를 주파수 도메인 신호가 되도록 변환할 수 있다. 물론, 다른 오버랩 길이들 및 다른 포인트들의 푸리에 변환이 또한 사용될 수 있다. 더 높은 비율의 오버랩 길이들이 사용될 때, 이전 및 다음 오디오 프레임들의 연속성이 개선될 수 있지만, 계산 오버헤드가 증가된다. 더 많은 수의 포인트를 갖는 푸리에 변환의 경우, 스펙트럼 해상도는 적응적 결과를 향상시키기 위해 개선될 수 있지만, 이는 또한 계산 오버헤드를 증가시킨다. 16kHz의 샘플링 레이트를 갖는 시간 도메인 신호에 대해, 75%의 오버랩 길이 및 1024개 포인트의 푸리에 변환은 필터링 효과와 계산 오버헤드 사이에서 더 나은 균형을 달성할 수 있다.
(710)에서, 프로세서(110)는 M개의 마이크로폰 신호로부터 M개의 에코 추정 신호를 제각기 필터링하여 M개의 타깃 신호를 생성한다. 이 실시예에서, 타깃 신호는 잔차 신호이다. 잔차 신호는 주로 음성 신호 성분을 포함하고, 완전히 필터링되지 않은 에코 성분 및 잡음 성분을 추가로 포함할 수 있다. 실시예에서, 타깃 신호가 그 후 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신된다. 또 다른 실시예에서, 타깃 신호는 그 후 더 양호한 에코 필터링 효과를 획득하기 위해 비선형 필터링 솔루션 또는 머신 러닝 솔루션과 같은 종래의 솔루션을 사용하여 더 필터링될 수 있고, 그 후 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우거나 또는 네트워크를 통해 호출 수신기에 송신되기 위해 사용될 수 있다. 또한, 타깃 신호는 또한 적응적 필터링을 업데이트하여 에코 추정 신호가 마이크로폰 신호 내의 에코 성분에 더 가깝도록 하는데 사용될 수 있다.
방법(700)의 동작이 도 7의 흐름도에 도시되지만, 이는 단지 예시적이며, 본 개시내용의 범위를 제한하도록 의도되지 않는다. 방법(700)은 다른 추가적인 또는 선택적인 동작들을 가질 수 있다. 예를 들어, (710) 이후, 위에서 구체적으로 설명된 바와 같은 직접 사운드 필터링이 잔차 신호에 대해 수행되어 타깃 신호를 생성할 수 있다. 다시 말해서, 방법(700)은 더 양호한 에코 필터링 효과를 획득하기 위해 방법(300)과 조합하여 이용될 수 있다. 게다가, 방법(700)은 또한, 도 14를 참조하여 후술하는 바와 같이, 방법(500)과 조합하여 또는 방법(300) 및 방법(500)과 조합하여 사용될 수 있다.
도 8은 실시예에 따른 비-인터리빙형 전처리 프로세스(800)의 개략도이다. 사운드 소스로부터의 N개의 사운드 소스 신호 X1 ... XN은 프로세서(110)에 의해 N개의 스피커에 제각기 출력된다. 오디오 소스는, 예를 들어, 인터넷을 사용하여 통신하는 서버 내의 저장 디바이스에 저장된 오디오 데이터, 로컬 저장 디바이스에 저장된 오디오 데이터, 또는 또 다른 디바이스의 마이크로폰에 의해 캡처된 오디오 데이터이다. 또한, N개의 사운드 소스 신호 X1 ... XN의 사본들인 N개의 스피커 신호 X1C ... XNC는 프로세서(110)에 의해 전술한 바와 같이 비-인터리빙형 전처리를 수행하여 M개의 마이크로폰에 의해 캡처된 마이크로폰 신호들 D1 ... DM 내의 에코 성분들 Y1 ... YM을 추정하도록 구성된다. N개의 사운드 소스 신호 X1 ... XN 및 N개의 스피커 신호 X1C ... XNC와 동일할 수 있다는 것이 이해될 수 있다. 대안적으로, N개의 스피커 신호 X1C ... XNC는 N개의 사운드 소스 신호 X1 ... XN과 상이할 수 있지만 N개의 사운드 소스 신호 X1 ... XN의 오디오 콘텐츠를 반영할 수 있어서, N개의 스피커 신호 X1C ... XNC가 스피커에 의해 재생되는 사운드를 나타낼 수 있도록 한다. 예를 들어, 사운드 소스로부터의 N개의 사운드 소스 신호 X1 ... XN은 이득 스케일링과 같은 다양한 조정 및 처리를 겪을 수 있다. 조정되고 처리된 신호들은 제각기 비-인터리빙형 전처리를 위한 N개의 스피커 신호 X1C ... XNC로서 이용된다.
프로세서(110)는 획득된 N개의 스피커 신호 X1C ... XNC에 대해 비-인터리빙형 전처리(810)를 수행하여 전처리된 신호들 XP의 M개의 그룹을 생성한다. 비-인터리빙형 전처리(810)는 선형 합산, 선형 차이, 참조 오디오 신호 소팅, 직렬/병렬 필터링 방식 조정, 이득 조정, 마이크로폰 신호 기반 필터링, 및 그와 유사한 것을 포함할 수 있다. 적어도 하나의 전처리된 신호 XP가 복수의 전처리된 신호를 포함하는 경우, 전처리된 신호의 속성들에 기초하여 직렬 적응적 필터링 또는 병렬 적응적 필터링이 선택될 수 있다. 예를 들어, 복수의 전처리된 신호가 모노를 나타내는 스피커 신호로부터 온 것이라면, 전처리된 신호들에 대해 직렬 방식으로 적응적 처리가 수행될 수 있다. 복수의 전처리된 신호가 5.1 서라운드 사운드를 나타내는 스피커 신호로부터 온 것이라면, 전처리된 신호들에 대해 병렬 방식으로 적응적 처리가 수행될 수 있다. 따라서, 프로세서는 또한, 비-인터리빙형 전처리 이전의 복수의 스피커 신호 사이의 상관을 판정하고, 판정 결과에 기초하여 대응하는 비-인터리빙형 전처리를 수행할 수 있다. M개의 전처리된 신호 그룹은 상이한 또는 동일한 스피커 신호들을 사용하여 상이한 또는 동일한 비-인터리빙형 전처리 방식으로 생성될 수 있다. 다시 말해서, M개의 전처리된 신호 그룹은 서로 독립적으로 생성될 수 있고, 각각의 전처리된 신호 그룹은 적어도 하나의 전처리된 신호를 포함할 수 있다. 적어도 하나의 전처리된 신호는 전처리된 신호들의 그룹에 대해 선택된 스피커 신호 및 비-인터리빙형 전처리 방식과 관련된다.
그 후, 프로세서(110)는 전처리된 신호들 XP의 M개 그룹에 대해 적응적 필터링을 수행하여 M개의 에코 추정 신호 YE를 생성한다. 실시예에서, 적응적 필터링은 전처리된 신호들 XP의 M개 그룹을 시간 도메인 신호들로부터 주파수 도메인 신호들로 변환하고, LMS 또는 RLS를 사용하여 필터링을 수행할 수 있다. 예를 들어, 16kHz의 샘플링 레이트를 갖는 시간 도메인 신호에 대해, 75%의 오버랩 길이 및 1024개 포인트의 푸리에 변환을 이용하여, 시간 도메인 신호를 주파수 도메인 신호로 변환함으로써, 필터링 효과와 계산 오버헤드들 사이의 더 나은 균형을 달성할 수 있다. 물론, 다른 오버랩 길이들 및 다른 포인트들의 푸리에 변환이 또한 사용될 수 있다.
M개의 마이크로폰 12-1 ... 12-M은 제각기, 스피커에 의해 재생되는 오디오의 오디오 에코, 음성, 및 잡음을 포함하는 다양한 사운드를 수집하고, 사운드를 M개의 마이크로폰 신호가 되도록 변환하며, M개의 마이크로폰 신호를 프로세서(110)에 제공한다. 실시예에서, 마이크로폰 12-1에 의해 캡처된 마이크로폰 신호 D1은 음성 신호 성분 S1, 잡음 신호 성분 V1 및 에코 신호 성분 Y1을 포함한다. 에코 신호 성분 Y1은 반사된 에코 신호 성분 및 직접 사운드 신호 성분을 포함한다. 마이크로폰 12-M에 의해 캡처된 마이크로폰 신호 DM은 음성 신호 성분 SM, 잡음 신호 성분 VM 및 에코 신호 성분 YM을 포함한다. 에코 신호 성분 YM은 반사된 에코 신호 성분 및 직접 사운드 신호 성분을 포함한다. 따라서, 마이크로폰 신호 D는 음성 신호 성분 S, 잡음 신호 성분 V, 및 에코 신호 성분 Y의 합성 신호이다. M개의 마이크로폰 신호 D1 ... DM은 M개의 에코 추정 신호 YE에 대응한다. 예를 들어, M개의 에코 추정 신호 YE 중 제1 에코 추정 신호는 제1 마이크로폰 신호 D1에 대응한다. M개의 에코 추정 신호 YE 중 제M 에코 추정 신호는 제M 마이크로폰 신호 DM에 대응한다.
프로세서(110)는 M개의 마이크로폰 신호로부터 M개의 에코 추정 신호를 제각기 필터링하여 M개의 타깃 신호 T를 생성한다. 예를 들어, 제1 에코 추정 신호는 제1 마이크로폰 신호 D1로부터 필터링되어 제1 타깃 신호를 획득한다. 제M 에코 추정 신호는 제M 마이크로폰 신호 DM으로부터 필터링되어 제M 타깃 신호를 획득하게 된다. M개의 타깃 신호 T는 또한 적응적 필터링(440)을 업데이트하여 에코 추정의 정확도를 개선하기 위해 사용될 수 있다. 예를 들어, 제1 타깃 신호는 제1 에코 추정 신호에 대응하는 적응적 필터링을 업데이트하기 위해 사용된다. 제M 타깃 신호는 제M 에코 추정 신호에 대응하는 적응적 필터링을 업데이트하기 위해 이용된다.
실시예에서, 타깃 신호 T는 그 후 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신된다. 또 다른 실시예에서, 타깃 신호들 T는 그 후 더 나은 에코 필터링 효과를 획득하기 위해 비선형 필터링 솔루션 또는 머신 러닝 솔루션과 같은 종래의 솔루션을 사용함으로써 추가로 필터링될 수 있고, 그 후 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신될 수 있다. 또한, 타깃 신호 T는 적응적 필터링을 업데이트하여 에코 추정의 정확도를 개선하는데 추가로 이용될 수 있다.
도 9는 도 8의 비-인터리빙형 전처리의 실시예의 합산(810-1)의 개략도이다. 프로세서(110)는 N개의 스피커 신호 중 제1 스피커 신호 X1C와 제2 스피커 신호 X2C에 대한 합산(812)을 수행하여 합산 신호 X12를 생성한다. 실시예에서, 합산 신호 X12는 적응적 필터링을 위한 전처리된 신호로서 사용될 수 있다. 선형 합산을 통해, 2개의 오디오 신호가 단일 오디오 신호가 되도록 합성될 수 있다. 이러한 방식으로, 프로세서(110)의 후속 적응적 필터링은 단일 조합된 오디오 신호에 대해서만 수행될 필요가 있고, 이에 의해 후속 계산 동작 오버헤드를 감소시킨다.
합산 신호 X12는 적응적으로 필터링되기 전에 다른 전처리를 겪을 수 있다. 또 다른 실시예에서, 프로세서(110)는 합산 신호 X12의 이득에 대해 조정(814)을 수행하여 이득 조정된 전처리된 신호 X12A를 생성할 수 있다. 이득에 대해 조정(814)을 수행함으로써, 최종 에코 추정 신호의 이득은 마이크로폰 신호 내의 에코 성분 Y의 이득과 매칭되거나 동등할 수 있고, 그에 의해 에코 성분을 더 효과적으로 필터링할 수 있다. 대안적으로, 제1 스피커 신호 X1C 및 제2 스피커 신호 X2C의 이득들은 합산(812) 전에 조정될 수 있다. 또한, 프로세서(110)는 제1 스피커 신호 X1C와 제2 스피커 신호 X2C를 더 평균하여 평균 신호를 생성할 수 있다. 평균화는 합산 후에 이득을 절반으로 하는 것과 동등하다는 것을 이해할 수 있다. 따라서, 평균화는 합산의 대안적인 특정 구현 방식일 수 있다.
N개의 스피커 신호 중 2개의 스피커 신호만이 본 명세서에 설명되지만, 본 개시내용의 범위는 이에 제한되지 않는다는 점이 이해될 수 있다. 일부 다른 실시예들에서, 더 많은 스피커 신호들이 합산을 위해 사용될 수 있거나, 또는 비-인터리빙형 전처리된 신호가 합산을 위해 사용될 수 있다.
도 10은 도 8의 비-인터리빙형 전처리의 또 다른 실시예의 차이(810-2)의 개략도이다. 프로세서(110)는 N개의 스피커 신호 중 제1 스피커 신호 X1C 및 제2 스피커 신호 X2C에 대해 차이(816)를 수행하여 차이 신호 X21을 생성한다. 실시예에서, 차이 신호 X21은 적응적 필터링을 위한 전처리된 신호로서 사용될 수 있다. 제1 스피커 신호 X1C 및 제2 스피커 신호 X2C를 단일 차이 신호 X21가 되도록 합성함으로써, 프로세서(110)의 후속 필터링은 차이 신호 X21에 대해서만 수행될 필요가 있고, 그에 의해 후속 계산 동작 오버헤드를 감소시킨다. 또한, 일부 경우에, 에코 필터링은 주파수 대역 또는 상이한 스피커들의 출력 사이의 차이에 초점을 맞춘다. 이 경우, 차이 신호 X21은 에코 필터링 효과를 더 개선하기 위해 프로세서(110)에 개별적으로 제공되거나 또는 또 다른 스피커 신호와 조합될 수 있다.
차이 신호 X21은 적응적으로 필터링되기 전에 다른 전처리를 겪을 수 있다. 또 다른 실시예에서, 프로세서(110)는 차이 신호 X21의 이득에 대해 조정(814)을 수행하여, 이득 조정된 전처리된 신호 X21A를 생성할 수 있다. 이득에 대한 조정을 수행함으로써, 최종 에코 추정 신호의 이득은 마이크로폰 신호의 이득과 매칭되거나 동등할 수 있고, 그에 의해 에코 성분을 더 효과적으로 필터링할 수 있다. 대안으로서, 제1 스피커 신호 X1C와 제2 스피커 신호 X2C의 이득들은 차이(816) 이전에 조정될 수 있다. N개의 스피커 신호 중 2개의 스피커 신호만이 본 명세서에 설명되지만, 본 개시내용의 범위는 이에 제한되지 않는다는 점이 이해될 수 있다. 일부 다른 실시예들에서, 더 많은 스피커 신호들이 차이를 위해 사용될 수 있다. 예를 들어, 제1 스피커 신호와 제2 스피커 신호 사이에 차이가 수행되고, 제3 스피커 신호와 제4 스피커 신호 사이에 차이가 수행된다. 또 다른 실시예에서, 차이는 또한 제3 스피커 신호를 이용하여 제3 스피커 신호와 차이 신호 X21 사이에 수행될 수 있다.
도 11은 도 8의 비-인터리빙형 전처리의 또 다른 실시예의 소팅 처리(810-3)의 개략도이다. 실시예에서, 프로세서(110)는 도 9의 이득 조정된 합산 신호 X12A, 도 10의 이득 조정된 차이 신호 X21A, 및 N개의 스피커 신호 중 제3 스피커 신호 X3C에 대해 소팅 처리(818)를 수행한다. 프로세서(110)는 차이 신호 X21A를 제1 전처리된 신호로서 소팅하고, 합산 신호 X12A를 제2 전처리된 신호로서 소팅하고, 제3 스피커 신호 X3C를 제3 전처리된 신호로서 소팅한다. 제1 전처리된 신호, 제2 전처리된 신호, 및 제3 전처리된 신호에 대해 적응적 필터링이 순차적으로 수행된다.
일부 경우에, 상이한 스피커 신호들 및/또는 전처리된 신호들을 소팅하고 소팅 결과에 따라 에코 필터링을 수행하는 것이 유익하다. 예를 들어, 왜곡의 신호는 더 높은 저주파수 성분을 갖는 신호가 발생될 수 있다는 것을 포함한다. 차이 신호 X21A가 저주파수 오디오를 나타내는 경우, 먼저 저주파수 오디오 성분이 필터링되어 에코 필터링 효과를 상당히 향상시킨다. 필터링 효과는 큰 왜곡들을 산출할 수 있는 신호들을 후속 적응적 필터링을 위한 우선순위화된 신호들로서 소팅함으로써 상당히 개선될 수 있다. 도 11에 도시된 소팅은 단지 예일 뿐이고, 스피커 신호들 및 전처리된 신호들의 또 다른 조합 및 소팅이 있을 수 있다는 점이 이해될 수 있다. N개의 스피커 신호는, 예를 들어, 각각의 스피커 신호 중 저주파수 성분에 기초하여 직접 소팅될 수 있고, 소팅된 스피커 신호들은 적응적 필터링을 위해 직렬로 이용된다.
도 12는 본 개시내용의 또 다른 실시예에 따른 에코 필터링의 직렬 필터링 프로세스(1200)의 개략도이다. 프로세서(110)는 N개의 사운드 소스 신호 X1 ... XN의 사본들인 N개의 스피커 신호 X1C ... XNC에 대해 비-인터리빙형 전처리(810)를 수행하여 N개의 전처리된 신호 XP1 ... XPN을 생성한다. 프로세서(110)는 그 후 N개의 전처리된 신호 XP1 ... XPN 중의 제1 전처리된 신호 XP1에 대해 적응적 처리(440-1)를 먼저 수행하여 제1 에코 추정 신호 YE1을 생성한다. 그 후 프로세서(110)는 마이크로폰 신호 D(예를 들어, 제1 마이크로폰 신호)로부터의 제1 에코 추정 신호 YE1에 대해 필터링(470-1)을 수행하여 제1 잔차 신호 E1을 생성한다.
프로세서(110)는 N개의 전처리된 신호 XP1 ... XPN 중의 제2 전처리된 신호에 대해 적응적 처리를 수행하여 제2 에코 추정 신호를 생성한다. 프로세서(110)는 그 후 제1 잔차 신호 E1로부터의 제2 에코 추정 신호에 대해 필터링을 수행하여 제2 잔차 신호를 생성한다. 유추에 의해, 최종 잔차 신호로서 제N 잔차 신호 EN이 생성될 때까지. 실시예에서, 잔차 신호 EN은 그 후 지능형 어시스턴트를 깨우기 위해 웨이크업 엔진에 의해 타깃 신호 T로서 사용되거나 또는 네트워크를 통해 호출 수신기에 송신된다. 또 다른 실시예에서, 잔차 신호 EN은 후속적으로 타깃 신호 T로서 사용되고, 타깃 신호 T는 더 나은 에코 필터링 효과를 획득하기 위해 비선형 필터링 솔루션 또는 머신 러닝 솔루션과 같은 종래의 솔루션을 사용하여 추가로 필터링될 수 있고, 그 후 지능형 어시스턴트를 깨우기 위해 웨이크업 엔진에 의해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신될 수 있다. N개의 잔차 신호 E1 ... EN은 제각기 대응하는 적응적 필터링(440-1 ... 440-N)을 업데이트하기 위해 사용될 수 있어서, 에코 추정 신호가 마이크로폰 신호 내의 에코 성분에 더 가깝게 되도록 한다.
복수의 스피커 신호 사이의 유사성이 높은 경우, 직렬 적응적 필터링 및 추정된 신호 필터링은 더 나은 필터링 효과를 획득하고 마이크로폰(112)의 음성 입력을 더 잘 보호할 수 있다. 직렬 필터링의 원리가 단일 마이크로폰 신호 D를 사용함으로써 도 12에 기술되지만, 이는 단지 예이며, 본 개시내용의 범위를 제한하도록 의도되지 않는다. 예를 들어, 앞서의 직렬 필터링은 M개의 마이크로폰 신호에 대해 개별적으로 수행될 수 있고, 대응하는 타깃 신호는 최종적으로 음성 신호가 되도록 합성된다.
도 13은 본 개시내용의 또 다른 실시예에 따른 에코 필터링의 병렬 필터링 프로세스(1300)의 개략도이다. 프로세서(110)는 N개의 사운드 소스 신호 X1 ... XN의 사본들인 N개의 스피커 신호 X1C ... XNC에 대해 비-인터리빙형 전처리(810)를 수행하여 N개의 전처리된 신호를 생성한다. N개의 전처리된 신호는 병렬 적응적 처리를 위해 행렬 신호 XPM가 되도록 조합된다. 예를 들어, N개의 전처리된 신호는 병렬 적응적 필터링을 위해 N차원 행렬이 되도록 조합될 수 있다. 복수의 전처리된 신호에 대해 직렬 적응적 필터링 또는 병렬 적응적 필터링을 수행할지는 복수의 스피커 신호 또는 전처리된 신호 사이의 유사성에 기초하여 선택될 수 있다. 실시예에서, 복수의 스피커 신호 사이의 유사성이 높은데, 예를 들어, 전자 디바이스(100)가 모노 오디오를 재생한다. 다시 말해서, N개의 스피커 14-1 ... 14-N가 동일한 오디오를 재생한다. 이 경우, N개의 사운드 소스 신호 X1 ... XN과 연관된 N개의 스피커 신호 X1C ... XNC는 더 나은 필터링 효과를 획득하고 마이크로폰 그룹(12)의 스피치 입력을 더 잘 보호하기 위해 직렬로 적응적 필터링될 수 있다. 또 다른 실시예에서, 복수의 스피커 신호 간의 유사성은 낮은데, 예를 들어, 전자 디바이스(100)는 스테레오 또는 5.1 서라운드 사운드 오디오를 재생한다. 이 경우, 각각의 채널을 나타내는 N개의 전처리된 신호가 행렬이 되도록 조합되어 병렬 적응적 필터링을 수행함으로써 더 나은 필터링 효과를 획득할 수 있다.
그 후 프로세서(110)는 행렬 신호 XPM에 대해 병렬 적응적 처리(440)를 수행하여 에코 추정 신호 YE를 생성한다. 그 다음, 프로세서(110)는 마이크로폰 신호 D로부터 에코 추정 신호 YE를 필터링하여(470) 잔차 신호 E를 생성한다. 실시예에서, 잔차 신호 E는 그 후 웨이크업 엔진에 의해 타깃 신호 T로서 사용되어 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신된다. 또 다른 실시예에서, 잔차 신호 E는 후속적으로 타깃 신호 T로서 사용되고, 타깃 신호 T는 더 나은 에코 필터링 효과를 획득하기 위해 비선형 필터링 솔루션 또는 머신 러닝 솔루션과 같은 종래의 솔루션을 사용하여 추가로 필터링될 수 있고, 그 후 지능형 어시스턴트를 깨우기 위해 웨이크업 엔진에 의해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신될 수 있다. 잔차 신호 E는 적응적 필터링(440)을 업데이트하는데 이용될 수 있어서, 에코 추정 신호가 마이크로폰 신호에서의 에코 성분에 더 가깝도록 한다.
복수의 스피커 신호 사이의 유사성이 낮은 경우, 병렬 적응적 필터링 및 추정된 신호 필터링은 더 나은 필터링 효과를 획득할 수 있다. 실시예에서, 프로세서(110)는 N개의 스피커 신호에 대해 비-인터리빙형 전처리를 수행하기 전에 N개의 스피커 신호 사이의 유사성을 결정하고, 결정 결과에 기초하여 직렬 필터링 또는 병렬 필터링을 선택할 수 있다. 직렬 필터링의 원리가 단일 마이크로폰 신호 D를 사용함으로써 도 13에서 기술되지만, 이는 단지 예이고 본 개시내용의 범위를 제한하도록 의도되지 않는다. 예를 들어, 전술한 병렬 필터링은 M개의 마이크로폰 신호에 대해 개별적으로 수행될 수 있고, 대응하는 타깃 신호는 최종적으로 음성 신호가 되도록 합성된다.
도 14는 본 개시내용의 실시예에 따른 에코 필터링을 위한 오디오 신호의 처리 프로세스(1400)의 개략도이다. 전자 디바이스(100)는 프로세서(110), M개의 마이크로폰 12-1 ... 12-M, M개의 리버스 스피커 15-1 ... 15-M, 및 N개의 스피커 14-1 ... 14-N을 가진다. M개의 리버스 스피커는 M개의 마이크로폰 근처에 제각기 배치된다. M 및 N은 1보다 큰 정수들이다. 사운드 소스로부터의 N개의 사운드 소스 신호 X1 ... XN은 프로세서(110)에 의해 N개의 스피커 14-1 ... 14-N에 제각기 출력된다. 프로세서(110)는 N개의 스피커 14-1 ... 14-N을 인에이블하여 대응하는 오디오를 개별적으로 재생하게 한다. 오디오 소스는, 예를 들어, 인터넷을 사용하여 통신하는 서버 내의 저장 디바이스에 저장된 오디오 데이터, 로컬 저장 디바이스에 저장된 오디오 데이터, 또는 또 다른 디바이스의 마이크로폰에 의해 캡처된 오디오 데이터이다.
M개의 마이크로폰 12-1 ... 12-M은 스피커에 의해 재생되는 오디오의 오디오 에코, 음성, 및 잡음을 제각기 포함하는 다양한 사운드를 수집한다. 실시예에서, 마이크로폰에 의해 캡처되는 마이크로폰 신호는 음성 신호 성분, 잡음 신호 성분, 및 리버스 오디오가 완전히 제거되지 않기 때문에 남아 있는 에코 신호 성분을 포함한다. 에코 신호 성분 YR은 반사된 에코 신호 성분 및 직접 사운드 신호 성분을 포함한다. 예를 들어, 제1 마이크로폰 12-1에 의해 캡처되는 마이크로폰 신호 D1은 음성 신호 성분 S1, 잡음 신호 성분 V1, 및 리버스 오디오가 완전히 제거되지 않기 때문에 남아 있는 에코 신호 성분 Y1R을 포함한다. 제M 마이크로폰(12-M)에 의해 캡처되는 마이크로폰 신호 DM은 음성 신호 성분 SM, 잡음 신호 성분 VM, 및 리버스 오디오가 완전히 제거되지 않기 때문에 남아 있는 에코 신호 성분 YMR을 포함한다. 따라서, 마이크로폰 신호는, 음성 신호 성분, 잡음 신호 성분, 및 에코 신호 성분의 합성된 신호이다.
N개의 사운드 소스 신호 X1 ... XN의 사본들인 N개의 스피커 신호 X1C ... XNC는 프로세서(110)에 의해 비-인터리빙형 방식으로 전처리되어(1410) M개의 전처리된 신호 그룹을 생성한다. M개의 전처리된 신호 그룹은 그 후 제각기 적응적으로 필터링되어 1420-1 ... 1420-M, M개의 리버스 오디오 신호를 생성하게 된다. 프로세서(110)는 리버스 스피커들 15-1 ... 15-M을 인에이블하여 리버스 오디오 신호를 재생한다. 실시예에서, 적응적 필터링은 M개의 전처리된 신호 그룹을 시간 도메인 신호들로부터 주파수 도메인 신호들로 변환하고, LMS 또는 RLS를 사용하여 필터링을 수행할 수 있다. 예를 들어, 16kHz의 샘플링 레이트를 갖는 시간 도메인 신호에 대해, 75%의 오버랩 길이 및 1024개 포인트의 푸리에 변환을 이용하여, 시간 도메인 신호를 주파수 도메인 신호로 변환함으로써, 필터링 효과와 계산 오버헤드들 사이의 더 나은 균형을 달성할 수 있다. 물론, 다른 오버랩 길이들 및 다른 포인트들의 푸리에 변환이 또한 사용될 수 있다. 또한, 마이크로폰들 12-1 ... 12-M에 의해 캡처되는 마이크로폰 신호 D의 사본들 DC1 ... DCM은 적응적 필터링 1420-1 ... 1420-M의 업데이트를 안내하기 위해 사용될 수 있다.
리버스 오디오는, M개의 마이크로폰 12-1 ... 12-M 외부에서, N개의 스피커 14-1 ... 14-N에 의해 재생되는 오디오의 에코를 제거하여, M개의 마이크로폰 12-1 ... 12-M에 의해 캡처되는 마이크로폰 신호들이 음성 신호, 잡음, 및 완전히 필터링되지 않는 나머지 에코 신호 성분들을 포함하도록 한다. 예를 들어, 마이크로폰 신호 D1은 음성 신호 S1, 잡음 V1, 및 완전히 필터링되지 않은 나머지 에코 신호 성분 Y1R을 포함한다. 마이크로폰 신호 DM은 음성 신호 SM, 잡음 VM, 및 완전히 필터링되지 않은 나머지 에코 신호 성분 YMR을 포함한다.
한편, N개의 스피커 신호 X1C ... XNC는 프로세서(110)에 의해 전술한 비-인터리빙형 전처리(810)를 수행하도록 구성되어, M개의 마이크로폰 12-1 ... 12-M에 의해 캡처되는 마이크로폰 신호들에서의 에코 성분들을 추정하게 된다. 사운드 소스로부터의 N개의 사운드 소스 신호 X1 ... XN이 N개의 스피커 14-1 ... 14-N에 직접 제공되는 것으로 도시되어 있고, 및 N개의 스피커 신호 X1C ... XNC가 비-인터리빙형 전처리를 위해 직접 사용되고 있지만, 이는 단지 예일 뿐이고 본 개시내용의 범위를 제한하려고 의도된 것은 아니다. N개의 사운드 소스 신호 X1 ... XN 및 사운드 소스로부터의 N개의 스피커 신호 X1C ... XNC는 이득 스케일링과 같은 다양한 조정 및 처리를 겪을 수 있다. 조정되고 처리된 신호들은 비-인터리빙형 전처리를 위해 N개의 스피커 14-1 ... 14-N에 제공된다. 일부 다른 실시예들에서, 스피커에 제공되는 사운드 소스 신호들 X1 ... XN 및 비-인터리빙형 전처리를 위한 스피커 신호들 X1C ... XNC가 상이할 수 있지만(예를 들어, 상이한 이득들), 스피커 신호 X1C ... XNC가 스피커 14-1 ... 14-N에 의해 재생되는 사운드를 나타낼 수 있도록 상관을 가진다.
프로세서(110)는 수신된 N개의 스피커 신호 X1C ... XNC 에 대해 비-인터리빙형 전처리(810)를 수행하여 전처리된 신호들 XP의 M개의 그룹을 생성한다. 비-인터리빙형 전처리(810)는 전술한 선형 합산, 선형 차이, 참조 오디오 신호 소팅, 직렬/병렬 필터링 방식 조정, 이득 조정, 마이크로폰 신호들 D1 ... DM에 기초한 사본 신호들 DC1 ... DCM의 필터링, 및 그와 유사한 것을 포함할 수 있다. 전처리된 신호들의 그룹이 복수의 전처리된 신호를 포함하는 경우, 전처리된 신호들의 속성들에 기초하여 직렬 적응적 필터링 또는 병렬 적응적 필터링이 선택될 수 있다. 예를 들어, 복수의 전처리된 신호가 모노를 표시하는 참조 신호로부터의 것이라면, 전처리된 신호들에 대해 직렬 방식으로 적응적 처리가 수행될 수 있다. 복수의 전처리된 신호가 5.1 서라운드 사운드를 표시하는 참조 신호로부터의 것이라면, 전처리된 신호들에 대해 병렬 방식으로 적응적 처리가 수행될 수 있다. M개의 전처리된 신호 그룹은 상이한 또는 동일한 스피커 신호들을 사용하여 상이한 또는 동일한 비-인터리빙형 전처리 방식으로 생성될 수 있다. 다시 말해서, M개의 전처리된 신호 그룹은 서로 독립적으로 생성될 수 있고, 각각의 전처리된 신호 그룹은 적어도 하나의 전처리된 신호를 포함할 수 있다. 적어도 하나의 전처리된 신호는 전처리된 신호들의 그룹에 대해 선택된 스피커 신호 및 비-인터리빙형 전처리 방식과 관련된다. 그 후, 프로세서(110)는 M개의 전처리된 신호에 대해 적응적 필터링(440)을 수행하여 M개의 에코 추정 신호를 생성한다. 프로세서(110)는 마이크로폰 신호로부터 M개의 에코 추정 신호 YE를 필터링하여 M개의 잔차 신호를 생성한다. 예를 들어, 프로세서(110)는 M개의 마이크로폰 신호로부터 M개의 에코 추정 신호를 필터링하여 M개의 잔차 신호 E를 생성한다. 예를 들어, 제1 에코 추정 신호는 제1 마이크로폰 신호 D1로부터 필터링되어 제1 잔차 신호를 획득하게 된다. 제M 에코 추정 신호는 제M 마이크로폰 신호 DM으로부터 필터링되어 제M 잔차 신호를 획득하게 된다.
또한, M개의 잔차 신호 E는 적응적 필터링(440)을 업데이트하여 에코 추정의 정확도를 개선하기 위해 추가로 제각기 이용될 수 있다. 예를 들어, 제1 잔차 신호는 제1 에코 추정 신호에 대응하는 적응적 필터링을 업데이트하기 위해 사용된다. 제M 잔차 신호는 제M 에코 추정 신호에 대응하는 적응적 필터링을 업데이트하기 위해 사용된다. 한편, 마이크로폰 신호들의 사본들 DC1 ... DCM은 적응적 필터링 1420-1 ... 1420-M을 업데이트하기 위해 사용될 수 있어서 에코 추정의 정확도를 개선하게 된다.
프로세서(110)는 그 후 전술한 디폴트 직접 사운드 필터링 모델 또는 맞춤화된 직접 사운드 필터링 모델에 기초하여 N개의 스피커 신호 X1C ... XNC를 사용하여 M개의 잔차 신호 E에 대해 직접 사운드 필터링을 수행하여 M개의 타깃 신호 T를 생성한다. 예를 들어, 직접 사운드 필터링(450)은 제1 잔차 신호에 대해 수행되어 제1 타깃 신호를 생성하게 된다. 직접 사운드 필터링(450)은 제M 잔차 신호에 대해 수행되어 제M 타깃 신호를 생성하게 된다. 실시예에서, 그 후 M개의 타깃 신호 T는 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신된다. 또 다른 실시예에서, M개의 타깃 신호 T는 그 후 비선형 필터링 솔루션 또는 머신 러닝 솔루션과 같은 종래의 솔루션을 이용하여 더 필터링되어 더 나은 에코 필터링 효과를 획득할 수 있게 되고, 그 후 웨이크업 엔진에 의해 지능형 어시스턴트를 깨우기 위해 사용되거나 또는 네트워크를 통해 호출 수신기에 송신될 수 있다.
도 15는 본 개시내용의 실시예에 따른 에코 필터링 장치(1500)의 개략적인 블록도이다. 장치(1500)는 전자 디바이스에서 사용된다. 전자 디바이스는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 장치(1500)는 N개의 스피커에 대응하는 N개의 스피커 신호를 획득하도록 구성된 제1 획득 모듈(1502)을 포함한다. 장치(1500)는 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하도록 구성된 제2 획득 모듈(1504)을 추가로 포함한다. 장치(1500)는 타깃 신호를 획득하기 위해 N개의 스피커 신호 및 M개의 마이크로폰 신호에 대해 적어도 직접 사운드 필터링을 수행하도록 구성되는 직접 사운드 필터링 모듈을 추가로 포함한다. 직접 사운드 필터링은 에코 필터링 효과를 더 개선할 수 있다.
도 15에는 3개의 모듈만이 도시되지만, 이것은 단지 예이고, 본 개시내용의 범위를 제한하지 않는다는 것을 이해할 수 있다. 장치(1500)는 방법(300), 방법(500), 및/또는 방법(700)의 단계들을 수행하도록 구성된 대응하는 모듈들, 예를 들어, 본 개시내용의 제10 양태에서 설명된 모듈들 중 적어도 하나를 추가로 포함할 수 있다.
도 16은 본 개시내용의 또 다른 실시예에 따른 에코 필터링 장치(1600)의 개략적 블록도이다. 장치(1600)는 전자 디바이스에서 사용된다. 전자 디바이스는 M개의 마이크로폰 및 N개의 스피커를 포함한다. M 및 N은 1보다 큰 정수들이다. 장치(1600)는: N개의 스피커에 대응하는 N개의 스피커 신호를 획득하도록 구성된 획득 모듈(1602); N개의 스피커 신호에 기초하여 리버스 스피커 신호들을 생성하도록 구성된 리버스 스피커 신호 생성 모듈(1604); 및 N개의 스피커 신호에 대응하는 N개의 스피커에 의해 재생되는 오디오 출력을 제거하기 위해, M개의 마이크로폰 중 적어도 하나의 것에 가까운 리버스 스피커가 리버스 스피커 신호들에 기초하여 리버스 오디오를 재생할 수 있게 하도록 구성된 재생 인에이블링 모듈(1606)을 포함한다. 리버스 스피커는 N개의 스피커와 상이하다. 리버스 스피커가 리버스 오디오를 재생할 수 있게 함으로써, 에코 성분들의 일부는 에코가 마이크로폰에 의해 캡처되기 전에 필터링될 수 있고, 그에 의해 에코 필터링 효과를 제공한다.
도 16에는 3개의 모듈만이 도시되지만, 이것은 단지 예이고, 본 개시내용의 범위를 제한하지 않는다는 것을 이해할 수 있다. 장치(1600)는 방법(300), 방법(500), 및/또는 방법(700)의 단계들을 수행하도록 구성된 대응하는 모듈들, 예를 들어, 본 개시내용의 제11 양태에서 설명된 모듈들 중 적어도 하나를 추가로 포함할 수 있다.
주제가 구조적 특징들 및/또는 방법론적 논리적 액션들에 특정적인 언어로 기술되어 있지만, 첨부된 청구항들에 정의된 주제가 반드시 전술한 특정 특징들 또는 액션들에만 제한되는 것은 아니라는 것을 이해해야 한다. 반대로, 전술한 특정 특징들 및 액트들은 청구항들을 구현하는 예들에 불과하다.

Claims (43)

  1. 에코 필터링 방법으로서, 상기 방법은 전자 디바이스(100)에 적용되고, 상기 전자 디바이스(100)는 M개의 마이크로폰(12-1 ... 12-M) 및 N개의 스피커(14-1 ... 14-N)를 포함하고, M 및 N 둘 다는 1보다 큰 정수들이고, 상기 방법은:
    N개의 스피커(14-1 ... 14-N)에 대응하는 N개의 스피커 신호(X1C ... XNC)를 획득하는 단계;
    M개의 마이크로폰(12-1 ... 12-M)에 대응하는 M개의 마이크로폰 신호(D1 ... DM)를 획득하는 단계; 및
    상기 N개의 스피커 신호(X1C ... XNC) 및 상기 M개의 마이크로폰 신호(D1 ... DM)에 대해 적어도 직접 사운드 필터링(450)을 수행하여 타깃 신호(T)를 획득하는 단계 - 상기 직접 사운드 필터링은 환경에서의 반사 없이 상기 N개의 스피커로부터 상기 M개의 마이크로폰으로 직접 출력되는 오디오 성분을 필터링하는 것을 나타냄 - 를 포함하는 방법.
  2. 제1항에 있어서, 상기 타깃 신호(T)는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신되는 방법.
  3. 제1항에 있어서, 상기 타깃 신호(T)는 상기 M개의 마이크로폰 신호(D1 ... DM)보다 적은 수의 에코 성분들을 포함하고, 상기 에코 성분들은 상기 N개의 스피커 신호(X1C ... XNC)의 것이고 또한 상기 M개의 마이크로폰(12-1 ... 12-M)에 의해 캡처되는, 공간에서 전파되는 사운드의 에코를 나타내는데 이용되는 방법.
  4. 제1항에 있어서,
    상기 전자 디바이스(100)의 디스플레이(194)가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하는 단계;
    상기 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하는 단계;
    상기 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 상기 N개의 스피커(14-1 ... 14-N)을 인에이블하여 상기 N개의 스피커 테스트 신호를 재생하는 단계;
    상기 M개의 마이크로폰(12-1 ... 12-M)에 대응하는 M개의 마이크로폰 테스트 신호를 획득하는 단계; 및
    맞춤화된 직접 사운드 필터링 모델을 저장하는 단계 - 상기 맞춤화된 직접 사운드 필터링 모델은 상기 N개의 스피커 테스트 신호 및 상기 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 상기 맞춤화된 직접 사운드 필터링 모델은 상기 직접 사운드 필터링을 위해 사용됨 - 를 추가로 포함하는 방법.
  5. 제4항에 있어서, 상기 맞춤화된 직접 사운드 필터링 인터페이스는 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이하는 방법.
  6. 제1항에 있어서, 상기 직접 사운드 필터링(450)은 디폴트 직접 사운드 필터링을 포함하고, 상기 디폴트 직접 사운드 필터링은 상기 N개의 스피커(14-1 ... 14-N)에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 상기 M개의 마이크로폰(12-1 ... 12-M)에 의해 직접 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타내는 방법.
  7. 제1항에 있어서,
    상기 N개의 스피커 신호(X1C ... XNC)에 기초하여 리버스 스피커 신호들(X1R ... XMR)을 생성하는 단계; 및
    상기 M개의 마이크로폰(12-1 ... 12-M)에 가까운 리버스 스피커가 상기 리버스 스피커 신호들(X1R ... XMR)에 기초하여 리버스 오디오를 재생할 수 있게 하여 상기 N개의 스피커 신호(X1C ... XNC)에 대응하는 상기 N개의 스피커(14-1 ... 14-N)에 의해 재생되는 오디오 출력의 에코를 제거하는 단계 - 상기 리버스 스피커는 상기 N개의 스피커(14-1 ... 14-N)와 상이함 - 를 추가로 포함하는 방법.
  8. 제1항에 있어서,
    상기 N개의 스피커 신호(X1C ... XNC)에 기초하여 에코 추정 신호(YE)를 생성하는 단계;
    M개의 마이크로폰 신호(D1 ... DM)로부터 상기 에코 추정 신호(YE)를 필터링하여 잔차 신호(E)를 생성하는 단계; 및
    상기 타깃 신호(T)를 획득하는 단계를 추가로 포함하고, 상기 타깃 신호(T)를 획득하는 단계는 상기 잔차 신호(E)에 대해 상기 직접 사운드 필터링(450)을 수행하여 상기 타깃 신호(T)를 획득하는 단계를 포함하는 방법.
  9. 제8항에 있어서, 상기 에코 추정 신호(YE)를 생성하는 단계는:
    상기 N개의 스피커 신호(X1C ... XNC)에 대해 비-인터리빙형 전처리(810)를 수행하여 적어도 하나의 전처리된 신호(XP)를 생성하는 단계; 및
    상기 적어도 하나의 전처리된 신호(XP)에 대해 적응적 필터링(440)을 수행하여 상기 에코 추정 신호(YE)를 생성하는 단계를 포함하는 방법.
  10. 제9항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는:
    상기 N개의 스피커 신호(X1C ... XNC) 중 적어도 2개의 스피커 신호(X1C, X2C)에 대해 선형 합산을 수행하여 합산 신호(X12)를 생성하는 단계를 포함하는 방법.
  11. 제10항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는:
    상기 N개의 스피커 신호 중 적어도 2개의 스피커 신호(X1C, X2C)에 대해 선형 차이를 수행하여 차이 신호(X21)를 생성하는 단계를 추가로 포함하는 방법.
  12. 제11항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는: 상기 합산 신호(X12) 및 상기 차이 신호(X21)를 소팅하는 단계를 추가로 포함하고;
    상기 에코 추정 신호(YE)를 생성하는 단계는: 상기 소팅된 합산 신호(X12) 및 상기 소팅된 차이 신호(X21)에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 에코 추정 신호를 생성하는 단계를 추가로 포함하고; 및
    상기 잔차 신호(E)를 생성하는 단계는: 상기 M개의 마이크로폰 신호(D1 ... DM)로부터 상기 대응하는 소팅된 에코 추정 신호를 순차적으로 필터링하여 상기 잔차 신호(E)를 생성하는 단계를 포함하는 방법.
  13. 제9항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는: 상기 N개의 스피커 신호(X1C ... XNC)를 소팅함으로써 소팅된 N개의 전처리된 신호(XP1 ... XPN)를 생성하는 단계를 포함하고;
    상기 에코 추정 신호(YE)를 생성하는 단계는: 상기 소팅된 N개의 전처리된 신호(XP1 ... XPN)에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 N개의 에코 추정 신호(YE1 ... YEN)를 생성하는 단계를 포함하고; 및
    상기 잔차 신호(E)를 생성하는 단계는: 상기 M개의 마이크로폰 신호(D1 ... DM)로부터 상기 대응하는 소팅된 N개의 에코 추정 신호를 순차적으로 필터링하여 상기 잔차 신호(E)를 생성하는 단계를 포함하는 방법.
  14. 제13항에 있어서, 상기 N개의 스피커 신호(X1C ... XNC)를 소팅하는 단계는:
    상기 N개의 스피커 신호(X1C ... XNC) 중 각각의 스피커 신호의 저주파수 성분에 기초하여 상기 N개의 스피커 신호(X1C ... XNC)를 소팅하는 단계를 포함하는 방법.
  15. 제9항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는: 상기 N개의 스피커 신호(X1C ... XNC) 및 상기 M개의 마이크로폰 신호(D1 ... DM)에 대해 상기 비-인터리빙형 전처리(810)를 수행하여 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계를 포함하는 방법.
  16. 제15항에 있어서,
    상기 N개의 스피커 신호(X1C ... XNC), 상기 M개의 마이크로폰 신호(D1 ... DM), 및 상기 적어도 하나의 전처리된 신호(XP) 중 적어도 하나의 것의 이득을 조정하여, 상기 에코 추정 신호(YE)의 이득이 상기 M개의 마이크로폰 신호(D1 ... DM)의 이득과 매칭되도록 하는 단계를 추가로 포함하는 방법.
  17. 에코 필터링 방법으로서, 상기 방법은 전자 디바이스(100)에 적용되고, 상기 전자 디바이스는 M개의 마이크로폰(12-1 ... 12-M), N개의 스피커(14-1 ... 14-N), 및 적어도 하나의 리버스 스피커를 포함하고, M 및 N 둘 다는 1보다 큰 정수들이고, 상기 방법은:
    상기 N개의 스피커(14-1 ... 14-N)에 대응하는 N개의 스피커 신호(X1C ... XNC)를 획득하는 단계;
    상기 N개의 스피커 신호(X1C ... XNC)에 기초하여 리버스 스피커 신호들(X1R ... XMR)을 생성하는 단계; 및
    상기 M개의 마이크로폰(12-1 ... 12-M) 중 적어도 하나의 것에 가까운 적어도 하나의 리버스 스피커가 상기 리버스 스피커 신호들(X1R ... XMR)에 기초하여 리버스 오디오를 재생할 수 있게 하여 상기 N개의 스피커 신호(X1C ... XNC)에 대응하는 N개의 스피커(14-1 ... 14-N)에 의해 재생되는 오디오 출력의 에코를 제거하는 단계 - 상기 적어도 하나의 리버스 스피커는 상기 N개의 스피커(14-1 ... 14-N)와 상이함 - 를 포함하는 방법.
  18. 제17항에 있어서,
    상기 M개의 마이크로폰(12-1 ... 12-M)에 대응하는 M개의 마이크로폰 신호(D1 ... DM)를 획득하는 단계; 및
    상기 N개의 스피커 신호(X1C ... XNC) 및 상기 M개의 마이크로폰 신호(D1 ... DM)에 대해 적어도 직접 사운드 필터링(450)을 수행하여 타깃 신호(T)를 획득하는 단계 - 상기 직접 사운드 필터링은 환경에서의 반사 없이 상기 N개의 스피커로부터 상기 M개의 마이크로폰으로 직접 출력되는 오디오 성분을 필터링하는 것을 나타냄 - 를 추가로 포함하는 방법.
  19. 제18항에 있어서, 상기 타깃 신호(T)는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신되는 방법.
  20. 제18항에 있어서, 상기 타깃 신호(T)는 상기 M개의 마이크로폰 신호(D1 ... DM)보다 적은 수의 에코 성분들을 포함하고, 상기 에코 성분들은 상기 N개의 스피커 신호(14-1 ... 14-N)의 것이고 또한 상기 M개의 마이크로폰(12-1 ... 12-M)에 의해 캡처되는, 공간에서 전파되는 오디오 출력의 에코를 나타내는데 이용되는 방법.
  21. 제18항에 있어서,
    상기 전자 디바이스(100)의 디스플레이(194)가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하는 단계;
    상기 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하는 단계;
    상기 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 상기 N개의 스피커(14-1 ... 14-N)을 인에이블하여 상기 N개의 스피커 테스트 신호를 재생하는 단계;
    상기 M개의 마이크로폰(12-1 ... 12-M)에 대응하는 M개의 마이크로폰 테스트 신호를 획득하는 단계; 및
    맞춤화된 직접 사운드 필터링 모델을 저장하는 단계 - 상기 맞춤화된 직접 사운드 필터링 모델은 상기 N개의 스피커 테스트 신호 및 상기 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 상기 맞춤화된 직접 사운드 필터링 모델은 상기 직접 사운드 필터링을 위해 사용됨 - 를 추가로 포함하는 방법.
  22. 제21항에 있어서, 상기 맞춤화된 직접 사운드 필터링 인터페이스는 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이하는 방법.
  23. 제18항에 있어서, 상기 직접 사운드 필터링은 디폴트 직접 사운드 필터링을 포함하고, 상기 디폴트 직접 사운드 필터링은 상기 N개의 스피커(14-1 ... 14-N)에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 상기 M개의 마이크로폰(12-1 ... 12-M)에 의해 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타내는 방법.
  24. 제18항에 있어서,
    상기 N개의 스피커 신호(X1C ... XNC)에 기초하여 에코 추정 신호(YE)를 생성하는 단계;
    M개의 마이크로폰 신호(D1 ... DM)로부터 상기 에코 추정 신호(YE)를 필터링하여 잔차 신호(E)를 생성하는 단계; 및
    상기 타깃 신호(T)를 획득하는 단계를 추가로 포함하고, 상기 타깃 신호(T)를 획득하는 단계는 상기 잔차 신호(E)에 대해 상기 직접 사운드 필터링(450)을 수행하여 상기 타깃 신호(T)를 획득하는 단계를 포함하는 방법.
  25. 제24항에 있어서, 상기 에코 추정 신호를 생성하는 단계는:
    상기 N개의 스피커 신호(X1C ... XNC)에 대해 비-인터리빙형 전처리(810)를 수행하여 적어도 하나의 전처리된 신호(XP)를 생성하는 단계; 및
    상기 적어도 하나의 전처리된 신호(XP)에 대해 적응적 필터링(440)을 수행하여 상기 에코 추정 신호(YE)를 생성하는 단계를 포함하는 방법.
  26. 제25항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는:
    상기 N개의 스피커 신호(X1C ... XNC) 중 적어도 2개의 스피커 신호에 대해 선형 합산(812)을 수행하여 합산 신호(X12)를 생성하는 단계를 포함하는 방법.
  27. 제26항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는:
    상기 N개의 스피커 신호(X1C ... XNC) 중 상기 적어도 2개의 스피커 신호에 대해 선형 차이(816)를 수행하여 차이 신호(X21)를 생성하는 단계를 추가로 포함하는 방법.
  28. 제27항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는 상기 합산 신호(X12) 및 상기 차이 신호(X21)를 소팅하는 단계를 추가로 포함하고;
    상기 에코 추정 신호(YE)를 생성하는 단계는 상기 소팅된 합산 신호 및 상기 소팅된 차이 신호에 대해 적응적 필터링을 순차적으로 수행하여 대응하는 소팅된 에코 추정 신호(YE)를 생성하는 단계를 추가로 포함하고, 및
    상기 잔차 신호(E)를 생성하는 단계는 상기 M개의 마이크로폰 신호(D1 ... DM)로부터 상기 대응하는 소팅된 에코 추정 신호를 순차적으로 필터링하여 상기 잔차 신호(E)를 생성하는 단계를 포함하는 방법.
  29. 제25항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는 상기 N개의 스피커 신호(X1C ... XNC)를 소팅함으로써 소팅된 N개의 전처리된 신호를 생성하는 단계를 포함하고;
    상기 에코 추정 신호(YE)를 생성하는 단계는 상기 소팅된 N개의 전처리된 신호에 대해 적응적 필터링(440)을 순차적으로 수행하여 대응하는 소팅된 N개의 에코 추정 신호를 생성하는 단계를 포함하고; 및
    상기 잔차 신호(E)를 생성하는 단계는 상기 M개의 마이크로폰 신호(D1 ... DM)로부터 상기 N개의 에코 추정 신호를 순차적으로 필터링하여 상기 잔차 신호(E)를 생성하는 단계를 포함하는 방법.
  30. 제29항에 있어서, 상기 N개의 스피커 신호(X1C ... XNC)를 소팅하는 단계는 상기 N개의 스피커 신호(X1C ... XNC) 중 각각의 스피커 신호의 저주파수 성분에 기초하여 상기 N개의 스피커 신호(X1C ... XNC)를 소팅하는 단계를 포함하는 방법.
  31. 제25항에 있어서, 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계는 상기 N개의 스피커 신호(X1C ... XNC) 및 상기 M개의 마이크로폰 신호(D1 ... DM)에 대해 상기 비-인터리빙형 전처리(810)를 수행하여 상기 적어도 하나의 전처리된 신호(XP)를 생성하는 단계를 포함하는 방법.
  32. 제31항에 있어서,
    상기 N개의 스피커 신호(X1C ... XNC), 상기 M개의 마이크로폰 신호(D1 ... DM), 및 상기 적어도 하나의 전처리된 신호(XP) 중 적어도 하나의 것의 이득을 조정하여, 상기 에코 추정 신호(YE)의 이득이 상기 M개의 마이크로폰 신호(D1 ... DM)의 이득과 매칭되도록 하는 단계를 추가로 포함하는 방법.
  33. 전자 디바이스(100)로서:
    N개의 스피커(14-1 ... 14-N) - N은 1보다 큰 정수임 -;
    M개의 마이크로폰(12-1 ... 12-M) - M은 1보다 큰 정수임 -;
    상기 N개의 스피커에 대응하는 N개의 스피커 신호와 상기 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하도록 구성된 하나 이상의 프로세서(110); 및
    하나 이상의 프로그램을 저장하는 메모리(121) - 상기 하나 이상의 프로그램은 상기 하나 이상의 프로세서(110)에 의해 실행되도록 구성되고, 상기 하나 이상의 프로그램은 제1항 내지 제16항 중 어느 한 항에 따른 방법을 수행하기 위해 사용되는 명령어들을 포함함 - 를 포함하는 전자 디바이스(100).
  34. 전자 디바이스(100)로서:
    N개의 스피커(14-1 ... 14-N) - N은 1보다 큰 정수임 -;
    M개의 마이크로폰(12-1 ... 12-M) - M은 1보다 큰 정수임 -;
    적어도 하나의 리버스 스피커;
    상기 N개의 스피커에 대응하는 N개의 스피커 신호와 상기 M개의 마이크로폰에 대응하는 M개의 마이크로폰 신호를 획득하고, 상기 적어도 하나의 리버스 스피커가 리버스 오디오를 재생할 수 있게 하도록 구성된 하나 이상의 프로세서(110); 및
    하나 이상의 프로그램을 저장하는 메모리(121) - 상기 하나 이상의 프로그램은 상기 하나 이상의 프로세서(110)에 의해 실행되도록 구성되고, 상기 하나 이상의 프로그램은 제17항 내지 제32항 중 어느 한 항에 따른 방법을 수행하기 위해 사용되는 명령어들을 포함함 - 를 포함하는 전자 디바이스(100).
  35. 하나 이상의 프로그램을 저장하는 컴퓨터 판독가능 저장 매체(121)로서, 상기 하나 이상의 프로그램은 전자 디바이스(100)의 하나 이상의 프로세서(110)에 의해 실행되도록 구성되고, 상기 하나 이상의 프로그램은 제1항 내지 제16항 중 어느 한 항에 따른 방법을 수행하기 위해 사용되는 명령어들을 포함하는 컴퓨터 판독가능 저장 매체(121).
  36. 하나 이상의 프로그램을 저장하는 컴퓨터 판독가능 저장 매체(121)로서, 상기 하나 이상의 프로그램은 전자 디바이스(100)의 하나 이상의 프로세서(110)에 의해 실행되도록 구성되고, 상기 하나 이상의 프로그램은 제17항 내지 제32항 중 어느 한 항에 따른 방법을 수행하기 위해 사용되는 명령어들을 포함하는 컴퓨터 판독가능 저장 매체(121).
  37. 에코 필터링 장치로서, 상기 장치는 전자 디바이스(100)에서 사용되고, 상기 전자 디바이스(100)는 M개의 마이크로폰(12-1 ... 12-M) 및 N개의 스피커(14-1 ... 14-N)를 포함하고, M과 N 둘 다는 1보다 큰 정수들이고, 상기 장치는:
    상기 N개의 스피커(14-1 ... 14-N)에 대응하는 N개의 스피커 신호(X1C ... XNC)를 획득하도록 구성된 제1 획득 모듈;
    상기 M개의 마이크로폰(12-1 ... 12-M)에 대응하는 M개의 마이크로폰 신호(D1 ... DM)를 획득하도록 구성된 제2 획득 모듈; 및
    상기 N개의 스피커 신호(X1C ... XNC) 및 M개의 마이크로폰 신호(D1 ... DM)에 대해 적어도 직접 사운드 필터링(450)을 수행하여 타깃 신호(T)를 획득하도록 구성된 직접 사운드 필터링 모듈 - 상기 직접 사운드 필터링은 환경에서의 반사 없이 상기 N개의 스피커로부터 상기 M개의 마이크로폰으로 직접 출력되는 오디오 성분을 필터링하는 것을 나타냄 - 을 포함하는 장치.
  38. 제37항에 있어서, 상기 타깃 신호(T)는 웨이크업 엔진에 의해 지능형 음성 어시스턴트를 깨우는데 이용되거나 또는 음성 호출을 위해 또 다른 전자 디바이스에 송신되는 장치.
  39. 제37항에 있어서, 상기 타깃 신호(T)는 상기 M개의 마이크로폰 신호(D1 ... DM)보다 적은 수의 에코 성분들을 포함하고, 상기 에코 성분들은 상기 N개의 스피커 신호(X1C ... XNC)의 것이고 또한 상기 M개의 마이크로폰(12-1 ... 12-M)에 의해 캡처되는, 공간에서 전파되는 사운드의 에코를 나타내는데 이용되는 장치.
  40. 제37항에 있어서,
    상기 전자 디바이스(100)의 디스플레이(194)가 맞춤화된 직접 사운드 필터링 인터페이스를 디스플레이할 수 있게 하도록 구성된 디스플레이 인에이블링 모듈;
    상기 맞춤화된 직접 사운드 필터링 인터페이스에서 사용자의 사용자 입력을 수신하도록 구성된 입력 수신 모듈;
    상기 사용자 입력에 응답하여, N개의 스피커 테스트 신호를 획득하고 상기 N개의 스피커(14-1 ... 14-N)를 인에이블시켜 상기 N개의 스피커 테스트 신호를 재생하도록 구성된 스피커 테스트 인에이블링 모듈;
    상기 M개의 마이크로폰(12-1 ... 12-M)에 대응하는 M개의 마이크로폰 테스트 신호를 획득하도록 구성된 제3 획득 모듈; 및
    맞춤화된 직접 사운드 필터링 모델을 저장하도록 구성된 저장 모듈 - 상기 맞춤화된 직접 사운드 필터링 모델은 상기 N개의 스피커 테스트 신호 및 상기 M개의 마이크로폰 테스트 신호에 기초하여 획득되고, 상기 맞춤화된 직접 사운드 필터링 모델은 상기 직접 사운드 필터링을 위해 사용됨 - 을 추가로 포함하는 장치.
  41. 제40항에 있어서, 상기 맞춤화된 직접 사운드 필터링 인터페이스는 환경을 조용하게 유지하는 것을 나타내기 위한 표시자를 디스플레이하는 장치.
  42. 제37항에 있어서, 상기 직접 사운드 필터링(450)은 디폴트 직접 사운드 필터링 모듈을 포함하고, 상기 디폴트 직접 사운드 필터링은 상기 N개의 스피커(14-1 ... 14-N)에 의해 재생되는 N개의 스피커 신호와 완전히 뮤팅된 환경에서 상기 M개의 마이크로폰(12-1 ... 12-M)에 의해 직접 캡처되는 M개의 마이크로폰 신호 사이의 모델 관계에 적어도 기초한 필터링을 나타내는 장치.
  43. 에코 필터링 장치로서, 상기 장치는 전자 디바이스(100)에서 사용되고, 상기 전자 디바이스(100)는 M개의 마이크로폰(12-1 ... 12-M), N개의 스피커(14-1 ... 14-N), 및 적어도 하나의 리버스 스피커를 포함하고, M 및 N 둘 다는 1보다 큰 정수들이고, 상기 장치는:
    상기 N개의 스피커(14-1 ... 14-N)에 대응하는 N개의 스피커 신호(X1C ... XNC)를 획득하도록 구성된 획득 모듈;
    상기 N개의 스피커 신호(X1C ... XNC)에 기초하여 리버스 스피커 신호들(X1R ... XMR)을 생성하도록 구성된 리버스 스피커 신호 생성 모듈; 및
    상기 M개의 마이크로폰(12-1 ... 12-M) 중 적어도 하나의 것에 가까운 적어도 하나의 리버스 스피커가 상기 리버스 스피커 신호들(X1R ... XMR)에 기초하여 리버스 오디오를 재생할 수 있게 하여 상기 N개의 스피커 신호(X1C ... XNC)에 대응하는 상기 N개의 스피커(14-1 ... 14-N)에 의해 재생되는 오디오 출력의 에코를 제거하도록 구성된 재생 인에이블링 모듈 - 상기 적어도 하나의 리버스 스피커는 상기 N개의 스피커(14-1 ... 14-N)와 상이함 - 을 포함하는 장치.
KR1020237005525A 2020-07-21 2021-06-30 필터링 수단에 의한 에코 제거 방법, 전자 디바이스 및 컴퓨터 판독가능 저장 매체 KR20230039715A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010707669.X 2020-07-21
CN202010707669.XA CN113963712A (zh) 2020-07-21 2020-07-21 滤除回声的方法、电子设备和计算机可读存储介质
PCT/CN2021/103350 WO2022017141A1 (zh) 2020-07-21 2021-06-30 滤除回声的方法、电子设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
KR20230039715A true KR20230039715A (ko) 2023-03-21

Family

ID=79460005

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237005525A KR20230039715A (ko) 2020-07-21 2021-06-30 필터링 수단에 의한 에코 제거 방법, 전자 디바이스 및 컴퓨터 판독가능 저장 매체

Country Status (4)

Country Link
US (1) US20230162718A1 (ko)
KR (1) KR20230039715A (ko)
CN (1) CN113963712A (ko)
WO (1) WO2022017141A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116723437A (zh) * 2023-08-08 2023-09-08 深圳市鑫正宇科技有限公司 一种用于骨传导耳机的回音消除方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9712915B2 (en) * 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
CN105810202B (zh) * 2014-12-31 2019-07-02 展讯通信(上海)有限公司 一种降低回声的方法、装置及通讯设备
CN106448691B (zh) * 2015-08-10 2020-12-11 深圳市潮流网络技术有限公司 一种用于扩音通信系统的语音增强方法
EP3652867B1 (en) * 2017-07-14 2021-05-26 Dolby Laboratories Licensing Corporation Mitigation of inaccurate echo prediction
CN111201712B (zh) * 2017-09-25 2023-04-21 全球硅片有限公司 自适应滤波器
CN107886965B (zh) * 2017-11-28 2021-04-20 游密科技(深圳)有限公司 游戏背景音的回声消除方法
WO2019112467A1 (en) * 2017-12-08 2019-06-13 Huawei Technologies Co., Ltd. Method and apparatus for acoustic echo cancellation

Also Published As

Publication number Publication date
US20230162718A1 (en) 2023-05-25
WO2022017141A1 (zh) 2022-01-27
CN113963712A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
EP4167590A1 (en) Earphone noise processing method and device, and earphone
CN113890936B (zh) 音量调整方法、装置及存储介质
CN113132863B (zh) 立体声拾音方法、装置、终端设备和计算机可读存储介质
US11956607B2 (en) Method and apparatus for improving sound quality of speaker
CN113496708B (zh) 拾音方法、装置和电子设备
CN113744750B (zh) 一种音频处理方法及电子设备
CN113571035B (zh) 降噪方法及降噪装置
CN113823314B (zh) 语音处理方法和电子设备
CN114697812A (zh) 声音采集方法、电子设备及系统
US20230162718A1 (en) Echo filtering method, electronic device, and computer-readable storage medium
CN113438364B (zh) 振动调节方法、电子设备、存储介质
CN113129916B (zh) 一种音频采集方法、系统及相关装置
CN114120950B (zh) 一种人声屏蔽方法和电子设备
CN113467747A (zh) 音量调节方法、电子设备、存储介质及计算机程序产品
CN114822525A (zh) 语音控制方法和电子设备
CN114390406B (zh) 一种控制扬声器振膜位移的方法及装置
CN115297269B (zh) 曝光参数的确定方法及电子设备
WO2024046416A1 (zh) 一种音量调节方法、电子设备及系统
WO2024027259A1 (zh) 信号处理方法及装置、设备控制方法及装置
CN115706755A (zh) 回声消除方法、电子设备及存储介质
CN115378303A (zh) 驱动波形的调整方法及装置、电子设备、可读存储介质
CN115691531A (zh) 一种音频信号的处理方法及装置
CN115206278A (zh) 一种声音降噪的方法和装置
CN117153181A (zh) 语音降噪方法、设备及存储介质
CN114786117A (zh) 一种音频播放方法以及相关设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal