KR102475989B1 - 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법 - Google Patents

오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법 Download PDF

Info

Publication number
KR102475989B1
KR102475989B1 KR1020180016752A KR20180016752A KR102475989B1 KR 102475989 B1 KR102475989 B1 KR 102475989B1 KR 1020180016752 A KR1020180016752 A KR 1020180016752A KR 20180016752 A KR20180016752 A KR 20180016752A KR 102475989 B1 KR102475989 B1 KR 102475989B1
Authority
KR
South Korea
Prior art keywords
signal
parameter
frequency band
input signals
processor
Prior art date
Application number
KR1020180016752A
Other languages
English (en)
Other versions
KR20190097391A (ko
Inventor
백순호
문한길
손백권
양재모
조기호
김준태
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020180016752A priority Critical patent/KR102475989B1/ko
Priority to PCT/KR2018/016121 priority patent/WO2019156339A1/ko
Priority to US16/769,675 priority patent/US11222646B2/en
Priority to EP18904994.3A priority patent/EP3745399B1/en
Publication of KR20190097391A publication Critical patent/KR20190097391A/ko
Application granted granted Critical
Publication of KR102475989B1 publication Critical patent/KR102475989B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

전자 장치가 개시된다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다. 전자 장치는, 음성 신호와 잡음 신호를 포함하는 복수의 입력 신호들을 수신하는 복수의 입력 장치들, 및 상기 입력 장치들과 전기적으로 연결되는 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 입력 신호들에 대한 신호 대 잡음 비(signal to ratio, SNR) 값을 주파수 대역 별로 결정하고, 상기 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제1 파라미터를 결정하고, 상기 제1 파라미터에 기반하여, 상기 SNR 값이 상기 임계 값 미만인 제2 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제2 파라미터를 결정하고, 상기 제1 파라미터 및 상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 빔포밍을 수행하도록 설정될 수 있다.

Description

오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법{APPARATUS AND METHOD FOR GENERATING AUDIO SIGNAL IN WHICH NOISE IS ATTENUATED BASED ON PHASE CHANGE IN ACCORDANCE WITH A FREQUENCY CHANGE OF AUDIO SIGNAL}
본 문서에서 개시되는 실시 예들은, 오디오 신호의 주파수 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법과 관련된다.
전자 장치는 마이크로폰과 같은 복수의 입력 장치들을 통해 음성 신호(speech signal)를 수신할 수 있다. 음성 신호와 함께 잡음 신호(noise signal)가 입력 장치로 유입되면, 전자 장치의 통화 품질 또는 음성 인식률이 감소될 수 있다. 전자 장치는 음성 신호와 잡음 신호가 섞인 입력 신호(또는 오디오 신호)로부터 잡음 신호를 제거하기 위하여 하드웨어 또는 소프트웨어 처리를 수반하는 빔포밍을 수행할 수 있다. 빔포밍은 입력 장치들로 수신되는 음성 신호들 간 시간 지연(time delay) 및/또는 위상 지연(phase delay)을 보상함으로써 입력 장치들이 음성 신호의 음원 위치에 대한 방향성을 가지도록 제어하는 동작을 포함할 수 있다. 전자 장치는 빔포밍을 통해 입력 장치들의 방향성을 제어함으로써 입력 장치들로 수신되는 입력 신호 중 음성 신호를 강화하고 잡음 신호를 제거하거나 감쇠시킬 수 있다.
빔포밍은 예를 들어, 신호독립(signal independent) 빔포밍과, 신호의존(signal dependent) 빔포밍을 포함할 수 있다. 전자 장치가 신호독립 빔포밍을 수행하면, 전자 장치는 입력 장치들 간 거리 정보와, 입력 장치들로 유입되는 음성 신호들의 방향 정보에 기반하여 음성 신호들 간 위상 지연을 보상할 수 있다. 신호독립 빔포밍을 통해, 전자 장치는 신호 대 잡음비(signal to noise ratio, SNR)로부터 영향을 받지 않고 빔포밍을 수행할 수 있다. 그러나, 음성 신호들의 방향 정보가 변경되면(예: 음성 신호를 발화하는 사용자의 위치가 변경되면), 빔포밍의 성능이 저하되는 문제가 발생할 수 있다. 또한, 전자 장치가 실내에서 신호독립 빔포밍을 수행하면, 신호의 반향(reverberation)으로 인하여 입력 장치들로 유입되는 입력 신호들 간 위상 차이의 선형성이 상실되어 빔포밍의 정확도가 감소할 수 있다.
전자 장치가 신호의존 빔포밍을 수행하면, 전자 장치는 입력 장치들로 유입되는 입력 신호들과 잡음 신호들의 공분산 정보(covariance information)에 기반하여 음성 신호들 간 위상 지연을 보상할 수 있다. 신호의존 빔포밍을 통해, 전자 장치는 음성 신호의 방향 정보와 반향으로부터 영향을 받지 않고 빔포밍을 수행할 수 있다. 그러나, SNR이 낮은 주파수 환경에서는 잡음 신호로 인하여 공분산 정보에 대한 정확도가 감소하므로 빔포밍의 성능이 감소하는 문제가 발생할 수 있다.
본 발명의 다양한 실시 예들은 SNR이 낮은 주파수 대역에서의 신호의존 빔포밍의 성능을 향상시키기 위한 장치 및 그에 관한 방법을 제안하고자 한다.
본 문서에 개시되는 일 실시 예에 따른 전자 장치는, 음성 신호와 잡음 신호를 포함하는 복수의 입력 신호들을 수신하는 복수의 입력 장치들, 및 상기 입력 장치들과 전기적으로 연결되는 프로세서를 포함하고, 상기 프로세서는, 상기 복수의 입력 신호들에 대한 신호 대 잡음 비(signal to ratio, SNR) 값을 주파수 대역 별로 결정하고, 상기 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제1 파라미터를 결정하고, 상기 제1 파라미터에 기반하여, 상기 SNR 값이 상기 임계 값 미만인 제2 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제2 파라미터를 결정하고, 상기 제1 파라미터 및 상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 빔포밍을 수행하도록 설정될 수 있다.
본 문서에 개시되는 일 실시 예에 따른 전자 장치는, 제1 마이크, 제2 마이크, 및 프로세서를 포함하고, 상기 프로세서는, 상기 제1 마이크를 이용하여 제1 오디오 신호, 및 상기 제2 마이크를 이용하여 제2 오디오 신호를 획득하고, 상기 제1 오디오 신호 및 상기 제2 오디오 신호와 관련하여 SNR이 지정된 범위에 속하는 지정된 주파수 대역을 확인하고, 상기 지정된 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호가 주파수의 변화에 따라 위상이 변화되는 제1 변화율을 결정하고, 상기 지정된 주파수 대역과 다른 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호가 주파수의 변화에 따라 위상이 변화되는 제2 변화율을 상기 제1 변화율에 적어도 기반하여 추정하고, 상기 제1 변화율 및 상기 제2 변화율에 적어도 기반하여, 상기 제1 오디오 신호에 대응하는 제1 가중치 및 상기 제2 오디오 신호에 대응하는 제2 가중치를 결정하고, 및 상기 제1 가중치 및 상기 제2 가중치에 적어도 기반하여, 상기 제1 오디오 신호 및 상기 제2 오디오 신호를 이용하여 잡음 신호가 감쇠된 제3 오디오 신호를 생성하도록 설정될 수 있다.
본 문서에 개시되는 일 실시 예에 따른 전자 장치의 방법은, 복수의 입력 신호들을 수신하는 동작, 상기 복수의 입력 신호들에 대한 SNR 값을 주파수 대역 별로 결정하는 동작, 상기 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상 변화를 나타내는 제1 파라미터를 결정하는 동작, 상기 제1 파라미터에 기반하여, 상기 SNR 값이 상기 임계 값 미만인 제2 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상 변화를 나타내는 제2 파라미터를 결정하는 동작, 및 상기 제1 파라미터 및 상기 제2 파라미터에 기반하여, 상기 복수의 입력 신호들에 대한 빔포밍을 수행하는 동작을 포함할 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 전자 장치는 입력 신호의 SNR 값에 기반하여 신호의존 빔포밍을 적응적으로 수행함으로써, SNR이 낮은 환경에서도 신호의존 빔포밍의 성능을 향상시킬 수 있다.
본 문서에 개시되는 실시 예들에 따르면, 전자 장치는 SNR이 낮은 환경에서도 신호의존 빔포밍의 성능을 향상시킴으로써 잡음 신호(예: 차량 노이즈(car noise))가 존재하는 환경에서 음성 신호를 효율적으로 인식할 수 있다.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.
도 1은 다양한 실시 예들에 따른 네트워크 환경에서 전자 장치의 블록도를 나타낸다.
도 2는 다양한 실시 예들에 따라 신호의존 빔포밍을 수행하는 전자 장치의 블록도를 도시한다.
도 3은 다양한 실시 예들에 따라 SNR 값에 기반하여 적응적으로 빔포밍을 수행하는 전자 장치의 동작 흐름도를 도시한다.
도 4는 다양한 실시 예들에 따라 SNR이 지정된 범위에 속하는 주파수 대역에서 빔포밍을 수행하는 전자 장치의 동작 흐름도를 도시한다.
도 5는 다양한 실시 예들에 따라 제2 주파수 대역에서 신호의존 빔포밍을 수행하는 전자 장치의 블록도를 도시한다.
도 6은 다양한 실시 예들에 따라 주파수 대역 별로 잡음 신호 및 음성 신호를 나타내는 그래프를 도시한다.
도 7은 다양한 실시 예들에 따라 주파수 대역 별로 음성 신호를 나타내는 그래프를 도시한다.
도 8은 다양한 실시 예들에 따라 제1 파라미터를 제2 주파수 대역에 적용하는 동작을 설명하는 예를 도시한다.
도 9는 다양한 실시 예들에 따라 영 공간(null space)를 이용하는 GSC(generalized sidelobe canceler) 빔포밍의 수행 결과를 나타내는 그래프를 도시한다.
도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다.
이하, 본 발명의 다양한 실시 예가 첨부된 도면을 참조하여 기재된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다.
도 1은 다양한 실시 예들에 따른 네트워크 환경에서 전자 장치의 블록도를 나타낸다.
도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101) 는 제1 네트워크(198)(예: 근거리 무선 통신)를 통하여 전자 장치(102)와 통신하거나, 또는 제2 네트워크(199)(예: 원거리 무선 통신)를 통하여 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 장치(150), 음향 출력 장치(155), 표시 장치(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 및 안테나 모듈(197)을 포함할 수 있다. 어떤 실시 예에서, 구성요소들 중 적어도 하나(예: 표시 장치(160) 또는 카메라 모듈(180))가 전자 장치(101)에서 생략되거나 다른 구성 요소가 전자 장치(101)에서 추가될 수 있다. 어떤 실시 예에서, 표시 장치(160)(예: 디스플레이)에 센서 모듈(176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)이 임베디드 되는 경우와 같이, 일부의 구성요소들이 통합되어 구현될 수 있다.
프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 구동하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 및 연산을 수행할 수 있다. 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 로드하여 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 애플리케이션 프로세서), 및 이와는 독립적으로 운영되고, 추가적으로 또는 대체적으로, 메인 프로세서(121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화된 보조 프로세서(123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로 또는 임베디드되어 운영될 수 있다.
이런 경우, 보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 애플리케이션 수행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시 예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부 구성 요소로서 구현될 수 있다. 메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서모듈(176))에 의해 사용되는 다양한 데이터, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 저장할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.
일 실시 예에 따르면, 프로그램(140)은 메모리(130)에 저장되는 소프트웨어로서, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 애플리케이션(146)을 포함할 수 있다.
일 실시 예에 따르면, 입력 장치(150)는, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신하기 위한 장치로서, 예를 들면, 마이크, 마우스, 또는 키보드를 포함할 수 있다.
일 실시 예에 따르면, 음향 출력 장치(155)는 음향 신호를 전자 장치(101)의 외부로 출력하기 위한 장치로서, 예를 들면, 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용되는 스피커와 전화 수신 전용으로 사용되는 리시버를 포함할 수 있다. 일 실시 예에 따르면, 리시버는 스피커와 일체 또는 별도로 형성될 수 있다.
일 실시 예에 따르면, 표시 장치(160)는 전자 장치(101)의 사용자에게 정보를 시각적으로 제공하기 위한 장치로서, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일 실시 예에 따르면, 표시 장치(160)는 터치 회로(touch circuitry) 또는 터치에 대한 압력의 세기를 측정할 수 있는 압력 센서를 포함할 수 있다.
일 실시 예에 따르면, 오디오 모듈(170)은 소리와 전기 신호를 쌍방향으로 변환시킬 수 있다. 일 실시 예에 따르면, 오디오 모듈(170)은, 입력 장치(150)를 통해 소리를 획득하거나, 음향 출력 장치(155), 또는 전자 장치(101)와 유선 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102)(예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.
일 실시 예에 따르면, 센서 모듈(176)은 전자 장치(101)의 내부의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.
일 실시 예에 따르면, 인터페이스(177)는 외부 전자 장치(예: 전자 장치(102))와 유선 또는 무선으로 연결할 수 있는 지정된 프로토콜을 지원할 수 있다. 일 실시 예에 따르면, 인터페이스(177)는 HDMI(high definition multimediainterface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.
일 실시 예에 따르면, 연결 단자(178)는 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102))를 물리적으로 연결시킬 수 있는 커넥터, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.
일 실시 예에 따르면, 햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.
일 실시 예에 따르면, 카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일 실시 예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈, 이미지 센서, 이미지 시그널 프로세서, 또는 플래시를 포함할 수 있다.
일 실시 예에 따르면, 전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리하기 위한 모듈로서, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구성될 수 있다.
일 실시 예에 따르면, 배터리(189)는 전자 장치(101)의 적어도 하나의 구성 요소에 전력을 공급하기 위한 장치로서, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.
일 실시 예에 따르면, 통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108))간의 유선 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 애플리케이션 프로세서)와 독립적으로 운영되는, 유선 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함하고, 그 중 해당하는 통신 모듈을 이용하여 제1 네트워크(198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제2 네트워크(199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 상술한 여러 종류의 통신 모듈(190)은 하나의 칩으로 구현되거나 또는 각각 별도의 칩으로 구현될 수 있다.
일 실시 예에 따르면, 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 사용자 정보를 이용하여 통신 네트워크 내에서 전자 장치(101)를 구별 및 인증할 수 있다.
일 실시 예에 따르면, 안테나 모듈(197)은 신호 또는 전력을 외부로 송신하거나 외부로부터 수신하기 위한 하나 이상의 안테나들을 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(190)(예: 무선 통신 모듈(192))은 통신 방식에 적합한 안테나를 통하여 신호를 외부 전자 장치로 송신하거나, 외부 전자 장치로부터 수신할 수 있다.
상기 구성요소들 중 일부 구성요소들은 주변 기기들간 통신 방식(예: 버스, GPIO(general purposeinput/output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되어 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.
일 실시 예에 따르면, 명령 또는 데이터는 제2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일 실시 예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 다른 하나 또는 복수의 외부 전자 장치에서 실행될 수 있다. 일 실시 예에 따르면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로 또는 요청에 의하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 그와 연관된 적어도 일부 기능을 외부 전자 장치에게 요청할 수 있다. 상기 요청을 수신한 외부 전자 장치는 요청된 기능 또는 추가 기능을 실행하고, 그 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 수신된 결과를 그대로 또는 추가적으로 처리하여 요청된 기능이나 서비스를 제공할 수 있다. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.
도 2는 다양한 실시 예들에 따라 신호의존 빔포밍을 수행하는 전자 장치의 블록도를 도시한다.
도 2를 참조하면, 전자 장치(101)는 복수의 입력 장치들(210-1, 210-2,…,210-M)(예: 도 1의 입력 장치(150)), 신호 처리 모듈(220), 및 공분산 정보 처리 모듈(230)을 포함할 수 있다. 전자 장치(101)에 포함되는 구성요소들은 도 2에 도시된 예로 한정되지 않을 수 있다. 예를 들어, 전자 장치(101)는 도 1에 도시된 구성요소들 중 적어도 하나를 더 포함하거나, 도 2에 도시된 구성요소들 중 적어도 하나를 생략할 수 있다.
일 실시 예에 따르면, 복수의 입력 장치들(210-1, 210-2,…,210-M)의 개수는 구현 방법에 따라 2부터 M(M은 3이상의 자연수)까지 다양할 수 있다. 복수의 입력 장치들(210-1, 210-2,…,210-M)은 예를 들어, 마이크로폰(또는 마이크)을 포함할 수 있다.
일 실시 예에 따르면, 복수의 입력 장치들(210-1, 210-2,…,210-M)은 사용자(10)로부터 발화되는 음성 신호들 s(t)를 수신할 수 있다. 복수의 입력 장치들(210-1, 210-2,…,210-M)은 서로 떨어진 채로 배치되므로, 하나의 음원 위치에서 발생하는 음성 신호들은 서로 다른 시간에 서로 다른 복수의 입력 장치들(210-1, 210-2,…,210-M)로 수신될 수 있다. 예를 들어, 음성 신호들 중 일부는 시간 t1에 입력 장치(210-1)로 수신되고, 다른 일부는 시간 t2에 입력 장치(210-2)로 수신되고, 다른 일부는 시간 tM에 입력 장치(210-M)로 수신될 수 있다. 사용자(10)의 위치가 복수의 입력 장치들(210-1, 210-2,…,210-M) 중 입력 장치(210-1)에 가깝다면, 시간 t1은 시간 t2,…,tM보다 작을 수 있다. 서로 다른 시간에 수신된 음성 신호들은 서로 다른 위상(phase)을 가질 수 있다.
일 실시 예에 따르면, 복수의 입력 장치들(210-1, 210-2,…,210-M)은 음성 신호들 s(t)와 함께 잡음 신호들 n(t)를 수신할 수 있다. 음성 신호들과 유사한 원리로, 잡음 신호들은 서로 다른 시간에 서로 다른 복수의 입력 장치들(210-1, 210-2,…,210-M)로 수신되므로, 잡음 신호들은 서로 다른 위상을 가질 수 있다.
일 실시 예에 따르면, 입력 신호들 x1(t), x2(t),…,xM(t)은 서로 다른 시간에 입력 장치들(210-1, 210-2,…,210-M)을 통해 수신된 음성 신호들 및 잡음 신호들을 포함할 수 있다. 본 문서에서 입력 신호는 오디오 신호로 지칭될 수 있다. 예를 들어, i번째 입력 장치(210-i)(i는 1부터 M 사이의 자연수)를 통해 수신되는 입력 신호 xi(t)는 하기의 수학식 1로 표현될 수 있다.
Figure 112018014913775-pat00001
수학식 1에서, si(t)는 i 번째(i는 1부터 M까지의 자연수) 입력 장치(210-i)로 수신되는 음성 신호를 나타내고, ni(t)는 i 번째 입력 장치 (210-i)로 수신되는 잡음 신호를 나타낼 수 있다. 서로 다른 입력 장치들로 수신되는 음성 신호들은 서로 다른 위상을 가지며, 서로 다른 입력 장치들로 수신되는 잡음 신호들은 서로 다른 위상을 가지므로, 수학식 1은 하기의 수학식 2로 표현될 수 있다.
Figure 112018014913775-pat00002
수학식 2에서, s1(t-ts,i)는 첫 번째 입력 장치(210-1)로 수신되는 음성 신호 s1(t)와 i번째 입력 장치(210-i)로 수신되는 음성 신호 si(t)의 위상 차이 ts,i를 반영한 것일 수 있다. 동일한 원리로, n1(t-tn,i)는 첫 번째 입력 장치(210-1)로 수신되는 잡음 신호 n1(t)와 i번째 입력 장치(210-i)로 수신되는 잡음 신호 ni(t)의 위상 차이 tn,i를 반영한 것일 수 있다.
일 실시 예에 따르면, 신호 처리 모듈(220)은 측정된 SNR 값이 임계 값 이상인 제1 주파수 대역에 대하여 제1 파라미터(parameter)에 기반하여 빔포밍을 수행하고, 측정된 SNR 값이 임계 값 미만인 제2 주파수 대역에 대하여 제2 파라미터에 기반하여 빔포밍을 수행할 수 있다. 본 문서에서, 빔포밍 동작은 전자 장치(101)가 입력 신호들의 방향성을 제어하기 위하여 가중치(weight)를 적용하는 동작을 의미할 수 있다. 본 문서에서, 파라미터는 입력 신호들에 대한 주파수 대비 위상 변화를 나타낼 수 있다. 전자 장치(101)는 파라미터에 기반하여 결정된 가중치(weight)를 입력 신호들에게 적용함으로써 입력 신호들에 포함되는 잡음 신호들을 감쇠시킬 수 있다. 파라미터는 변화율, 스티어링 벡터(steering vector) 또는 블로킹 매트릭스(blocking matrix)로 지칭될 수 있다.
일 실시 예에 따르면, 신호 처리 모듈(220)은 빔포밍을 수행하기 위한 일련의 동작을 수행하는 소프트웨어 모듈 또는 하드웨어 모듈을 포함할 수 있다. 예를 들어, 신호 처리 모듈(220)은 도 1의 오디오 모듈(170)에 내장되고 프로세서(예: 도 1의 프로세서(120))에 의해 제어될 수 있다. 다른 예를 들어, 프로세서(예: 도 1의 프로세서(120))는 신호 처리 모듈(220)의 적어도 일부를 포함할 수 있다. 다른 예를 들어, 신호 처리 모듈(220)은 도 1의 메모리(130)에 인스트럭션 형태로 저장되고, 프로세서에 의해 실행될 수 있다. 신호 처리 모듈(220)은 SNR 측정 모듈(222), 제1 파라미터 결정 모듈(224), 제2 파라미터 결정 모듈(226), 및 빔포밍 모듈(228)을 포함할 수 있다.
일 실시 예에 따르면, SNR 측정 모듈(222)은 입력 신호들에 대한 SNR 을 주파수 대역 별로 측정할 수 있다. SNR 측정 모듈(222)은 측정된 SNR 값이 지정된 임계 값 이상인지 여부를 확인할 수 있다. 본 문서에서, SNR 값이 지정된 임계 값 이상인 주파수 대역은 제1 주파수 대역으로, SNR 값이 지정된 임계 값 미만인 주파수 대역은 제2 주파수 대역으로 지칭될 수 있다. 예를 들어, 차량 노이즈(car noise)와 같이 저주파 대역의 잡음 신호가 많은 환경에서, 제2 주파수 대역은 제1 주파수 대역보다 낮은 주파수 대역을 포함할 수 있다. 다른 예를 들어, 고주파 대역의 잡음 신호가 많은 환경에서, 제2 주파수 대역은 제1 주파수 대역보다 높은 주파수 대역을 포함할 수 있다.
일 실시 예에 따르면, 제1 파라미터 결정 모듈(224)은 제1 주파수 대역에 대한 제1 파라미터를 결정할 수 있다. 제1 파라미터 결정 모듈(224)은 공분산 처리 모듈(230)로부터 수신된 공분산 정보에 기반하여 제1 파라미터를 결정할 수 있다. 본 문서에서, 공분산 정보는 복수의 음성 신호들 간 상관 관계를 의미하거나, 복수의 잡음 신호들 간 상관 관계를 의미할 수 있다. 전자 장치(101)는 음성 신호들 간 상관 관계에 기반하여 음성 신호의 음원 위치(예: 위상 또는 방향)를 결정할 수 있다. 공분산 정보는 예를 들어, 공분산 벡터 또는 공분산 행렬을 포함할 수 있다.
일 실시 예에 따르면, 제1 파라미터 결정 모듈(224)은 신호의존 빔포밍의 종류에 기반하여 다양한 방식으로 제1 파라미터를 결정할 수 있다. 신호의존 빔포밍의 종류는 예를 들어, 음성 신호에 대한 공분산 행렬과 잡음 신호에 대한 공분 산 행렬 간 차이를 이용함으로써 음성 신호의 왜곡을 최소화할 수 있는 MVDR(minimum variance distortionless response) 빔포밍, 잡음 신호에 대한 공분산 행렬의 역행렬과 음성 신호에 대한 공분산 행렬을 이용함으로써 입력 신호의 SNR을 향상시킬 수 있는 최대(max) SNR 빔포밍, 최대 SNR 빔포머에서 이용되는 고유벡터(eigenvector)의 영 공간(null space)을 이용함으로써 잡음 신호를 효율적으로 제거할 수 있는 GSC(generalized sidelobe canceler) 빔포밍을 포함할 수 있다.
일 실시 예에 따르면, 제2 파라미터 결정 모듈(226)은 제2 주파수 대역에 대한 제2 파라미터를 결정할 수 있다. SNR 값이 임계 값 미만인 제2 주파수 대역에서 측정된 공분산 정보의 결과 값은 SNR 값이 임계 값 이상인 제1 주파수 대역에서의 공분산 정보의 결과 값에 대비하여 정확도가 낮을 수 있으므로, 제2 파라미터 결정 모듈(226)은 제1 주파수 대역에서 결정된 제1 파라미터로부터 제2 파라미터를 추정할 수 있다. 제2 파라미터 결정 모듈(226)은 예를 들어, 제1 주파수 대역에서 채널(또는 주파수) 간 위상 차이가 가지는 선형성(linearity)을 이용하여 제1 파라미터로부터 제2 파라미터를 결정할 수 있다. 다른 예를 들어, 제2 파라미터 결정 모듈(226)은 DNN(deep neural networks) 모델에 기반하여 제1 파라미터로부터 제2 파라미터를 결정할 수 있다.
일 실시 예에 따르면, 빔포밍 모듈(228)은 제1 파라미터 및 제2 파라미터에 기반하여 빔포밍을 수행할 수 있다. 빔포밍 모듈(228)은 예를 들어, 제1 파라미터 및 제2 파라미터에 기반하여 결정된 가중치들을 입력 신호들에게 적용함으로써 음성 신호들 간 위상 차이(예: 수학식 2에서 ts,i)를 보상할 수 있다. 빔포밍이 수행되면, 입력 신호들 x1(t), x2(t),…,xM(t)은 잡음 신호가 제거(또는 감쇠)된 신호 y(t)로 출력될 수 있다.
일 실시 예에 따르면, 공분산 처리 모듈(230)은 제1 파라미터를 결정하기 위하여 이용되는 공분산 정보를 신호 처리 모듈(220)에게 전송하는 소프트웨어 모듈 또는 하드웨어 모듈을 포함할 수 있다. 예를 들어, 공분산 처리 모듈(230)은 도 1의 오디오 모듈(170)에 내장되고 프로세서에 의해 제어되거나, 도 1의 메모리(130)에 인스트럭션 형태로 저장되고, 프로세서에 의해 실행될 수 있다. 다른 예를 들어, 프로세서(예: 도 1의 프로세서(120))는 공분산 처리 모듈(230)의 적어도 일부를 포함할 수 있다. 공분산 처리 모듈(230)은 음성 신호 결정 모듈(232) 및 공분산 정보 결정 모듈(234)을 포함할 수 있다.
일 실시 예에 따르면, 음성 신호 결정 모듈(232)은 수신된 입력 신호에서 음성 신호의 존재 여부 또는 음성 신호의 존재 확률을 결정(또는 추정)할 수 있다. 예를 들어, 음성 신호 결정 모듈(232)은 하나의 채널에 대한 잡음 제거(noise suppression, NS)를 위하여 이용되는 SPP(speech presence probability) 추정 알고리즘 또는 복수의 채널에 대한 NS를 위하여 이용되는 CGMM 기반(complex Gaussian mixture model based) 추정 알고리즘을 이용하여 주파수 대역(예: 제1 주파수 대역)에서 음성 신호가 존재하는 구간을 결정할 수 있다.
일 실시 예에 따르면, 공분산 정보 결정 모듈(234)은 음성 신호 결정 모듈(232)에 의하여 결정된 음성 신호와 입력 장치들(210-1, 210-2,…,210-M)로 수신된 입력 신호에 기반하여 음성 신호에 대한 공분산 정보 또는 잡음 신호에 대한 공분산 정보를 결정할 수 있다. 공분산 정보는 예를 들어, 음성 신호에 대한 공분산 행렬 Cs(f)(f는 주파수를 나타낼 수 있다) 및 잡음 신호에 대한 공분산 행렬 Cn(f)을 포함할 수 있다.
도 3은 다양한 실시 예들에 따라 SNR 값에 기반하여 적응적으로 빔포밍을 수행하는 전자 장치의 동작 흐름도를 도시한다. 도 3에 도시되는 동작들은 전자 장치(101) 또는 전자 장치에 포함되는 구성요소들(예: 프로세서(120) 또는 오디오 모듈(170))에 의하여 구현될 수 있다.
도 3을 참조하면, 방법 300의 동작 305에서, 프로세서(120)는 복수의 입력 신호들에 대한 SNR을 주파수 대역 별로 측정할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 SNR을 측정하기 이전에 입력 신호들에 대한 고속 푸리에 변환(fast Fourier transform, FFT)을 수행함으로써 시간 영역(domain)의 입력 신호를 주파수 영역의 입력 신호로 변환할 수 있다.
동작 310에서, 프로세서(120)는 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에 대한 제1 파라미터를 결정할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 신호의존 빔포밍의 종류에 기반하여 다양한 방식으로 제1 파라미터를 결정할 수 있다.
동작 315에서, 프로세서(120)는 제1 파라미터에 기반하여 SNR 값이 임계 값 미만인 제2 주파수 대역에 대한 제2 파라미터를 결정할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 제1 파라미터의 선형성에 기반하거나, DNN 모델을 이용함으로써 제1 파라미터로부터 제2 파라미터를 결정할 수 있다.
동작 320에서, 프로세서(120)는 제1 파라미터 및 제2 파라미터에 기반하여 빔포밍을 수행함으로써 입력 신호로부터 잡음 신호를 감쇠시킬 수 있다.
일 실시 예에 따르면, 프로세서(120)는 빔포밍을 수행한 이후에 역 고속 푸리에 변환(inverse fast Fourier transform, IFFT)을 수행함으로써 주파수 영역의 신호를 시간 영역의 신호로 변환할 수 있다.
상술한 방법 300을 통하여, 전자 장치(101)는 SNR 값이 낮은 주파수 대역에서 신호의존 빔포밍의 성능 열화를 방지할 수 있다.
도 4는 다양한 실시 예들에 따라 SNR이 지정된 범위에 속하는 주파수 대역에서 빔포밍을 수행하는 전자 장치의 동작 흐름도를 도시한다. 도 4는 2개의 입력 장치들을 통해 음성 신호를 수신하는 예를 도시하였지만, 입력 장치의 개수 및 음성 신호의 개수는 도 4에 도시된 예로 제한되지 않는다.
도 4를 참조하면, 방법 400의 동작 405에서, 프로세서(120)는 제1 마이크(예: 첫 번째 입력 장치(210-1))를 통해 제1 오디오 신호를 획득하고, 제2 마이크(예: 두 번째 입력 장치(210-2))를 통해 제2 오디오 신호를 획득할 수 있다. 제1 오디오 신호 및 제2 오디오 신호 각각은 음성 신호와 잡음 신호를 포함할 수 있다.
동작 410에서, 프로세서(120)는 제1 오디오 신호 및 제2 오디오 신호에 대한 SNR이 지정된 범위에 속하는 지정된 주파수 대역을 확인할 수 있다. 예를 들어, SNR이 지정된 범위에 속하는 것은 SNR이 도 2의 지정된 임계 값 이상임을 의미할 수 있다. SNR이 지정된 임계 값 이상이면, 지정된 주파수 대역은 제1 주파수 대역을 의미할 수 있다.
동작 415에서, 프로세서(120)는 지정된 주파수 대역(예: 제1 주파수 대역)에서의 음성 신호들의 위상이 주파수 변화에 따라 변화되는 제1 변화율(예: 제 1 파라미터)을 결정할 수 있다. 일 실시 예에 따르면, 프로세서(120)는 MVDR 빔포밍, 최대 SNR 빔포밍, 또는 GSC 빔포밍을 통해 제1 변화율을 결정할 수 있다.
동작 420에서, 프로세서(120)는 지정된 주파수 대역과 다른 주파수 대역에서 음성 신호들의 위상이 주파수 변화에 따라 변화되는 제2 변화율(예: 제 2 파라미터)을 동작 415에서 결정된 제 1 변화율에 적어도 기반하여 추정할 수 있다. 다른 주파수 대역은 예를 들어, SNR이 지정된 임계 값 미만인 제2 주파수 대역을 의미할 수 있다.
일 실시 예에 따르면, 프로세서(120)는 지정된 주파수 대역(예: 제1 주파수 대역)에서 방향성을 가지는 음성 신호들의 위상 차이가 가지는 선형성(linearity)을 이용하여 제1 변화율로부터 제2 변화율을 추정할 수 있다. 다른 예를 들어, 프로세서(120)는 DNN(deep neural networks) 모델에 기반하여 제1 변화율로부터 제2 변화율를 추정할 수 있다.
동작 425에서, 프로세서(120)는 제1 변화율 및 제2 변화율에 적어도 기반하여 제1 오디오 신호에 대한 제1 가중치와 제2 오디오 신호에 대한 제2 가중치를 결정할 수 있다.
동작 430에서, 프로세서(120)는 제1 가중치 및 제2 가중치에 적어도 기반하여 제1 오디오 신호 및 제2 오디오 신호의 잡음 신호가 감쇠된 제3 오디오 신호를 생성할 수 있다.
도 5는 다양한 실시 예들에 따라 제2 주파수 대역에서 신호의존 빔포밍을 수행하는 전자 장치의 블록도를 도시한다. 도 5는 전자 장치(101)가 블록 505 내지 블록 540의 동작을 일련으로 실시하는 예를 도시하였지만, 도 5에 도시된 블록들 중 적어도 하나의 블록은 생략될 수 있다. 예를 들어, 전자 장치(101)는 블록 520의 동작을 생략할 수 있다.
도 5를 참조하면, 블록 505에서, 전자 장치(101)는 복수의 입력 신호들에 대한 FFT 변환을 수행함으로써, 시간 영역의 신호를 주파수 영역의 신호로 변환할 수 있다. 도 5에는 도시되지 않았지만, 전자 장치(101)는 FFT 변환을 수행하기 이전에 입력 신호들에 대한 A/D(analog to digital) 변환 또는 윈도우 필터링(window filtering)을 수행할 수 있다.
블록 510에서, 전자 장치(101)는 입력 신호들에 대한 SNR을 주파수 대역 별로 측정할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 하나의 입력 장치에 대한 NS 알고리즘 또는 복수의 입력 장치들에 대한 NS 알고리즘을 이용하여 SNR 값을 결정할 수 있다. 전자 장치(101)는 SNR 값이 지정된 임계 값 이상인지 여부에 기반하여 신호의존 빔포밍을 적응적으로 수행할 수 있다.
블록 515에서, 전자 장치(101)는 SNR 값이 임계 값 이상인 제1 주파수 대역에서 음성 신호를 결정할 수 있다. 예를 들어, 전자 장치(101)는 제1 주파수 대역에서 음성 신호의 존재 여부를 판단하거나, 제1 주파수 대역 중에서 음성 신호의 존재 확률을 추정할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 SPP 추정 알고리즘 또는 CGMM 기반 추정 알고리즘을 이용하여 음성 신호를 결정할 수 있다.
블록 520에서, 전자 장치(101)는 제1 주파수 대역에서 음성 신호 또는 잡음 신호의 공분산 정보를 결정할 수 있다. 예를 들어, 복수의 입력 장치들(210-1, 210-2,…,210-M)로 수신되는 입력 신호 x(t)가 시간 및 주파수에 대한 행렬(matrix)로 표현되면 하기의 수학식 3으로 나타날 수 있다.
Figure 112018014913775-pat00003
수학식 3에서, Xi(t,f)는 시간 t 및 주파수 f에서 i번째 입력 장치(210-i)로 수신되는 입력 신호의 행렬을 의미할 수 있다. []T는 행렬 []의 전치 행렬(transposed matrix)을 의미할 수 있다. 전자 장치(101)는 입력 신호에 관한 행렬 X(t,f)와 블록 515에서 결정된 음성 신호 값 m(t,f)(m(t,f)는 스칼라(scalar) 값을 의미할 수 있다)를 이용하여 하기의 수학식 4와 같이 공분산 행렬을 결정할 수 있다.
Figure 112018014913775-pat00004
Figure 112018014913775-pat00005
수학식 4에서, Cs(f)는 시간 t 및 주파수 f에서 음성 신호의 공분산 행렬을 의미할 수 있다. Cn(f)는 시간 t 및 주파수 f에서 잡음 신호의 공분산 행렬을 의미할 수 있다. E{}는 {}의 시간에 대한 평균을 의미하고, []H는 행렬 []의 에르미트 행렬(Hermitian matrix)을 의미할 수 있다. 결정된 공분산 행렬에서, 대각 행렬(diagonal matrix) 성분은 음성 신호 또는 잡음 신호의 크기에 관한 정보를 포함하고, 대각 행렬 성분 이외의 성분은 음성 신호 또는 잡음 신호의 공간(spatial)에 대한 정보를 포함할 수 있다. 수학식 3 및 수학식 4는 음성 신호 또는 잡음 신호의 공분산 행렬을 결정하기 위한 일 예를 나타내는 것이며, 전자 장치(101)는 수학식 3 및 수학식 4이외에 다른 방법을 이용하여 공분산 행렬 또는 공분산 벡터를 결정할 수 있다.
블록 525에서, 전자 장치(101)는 결정된 공분산 행렬에 기반하여 제1 주파수 대역에 대한 제1 파라미터를 결정할 수 있다. 일 실시 예에 따르면, 전자 장치(101)는 음성 신호에 대한 SNR을 향상시키기 위해 MVDR 빔포밍, 최대 SNR빔포밍, 또는 GSC 빔포밍 등을 이용할 수 있다. 예를 들어, 전자 장치(101)는 하기의 수학식 5에 기재된 바와 같이 MVDR 빔포밍을 이용하여 제1 파라미터를 결정할 수 있다.
Figure 112018014913775-pat00006
수학식 5에서, FMVDR(f)는 (Cs(f)-Cn(f))의 고유값(eigenvalue) λmax,M가 최대가 되는 고유벡터를 의미할 수 있다. 전자 장치(101)는 고유벡터 FMVDR(f)를 제1 주파수 대역에 대한 제1 파라미터로 결정할 수 있다.
다른 예를 들어, 전자 장치(101)는 하기의 수학식 6에 기재된 바와 같이 최대 SNR 빔포밍을 이용하여 제1 파라미터를 결정할 수 있다.
Figure 112018014913775-pat00007
수학식 6에서, FSNR(f)는 Cn(f)- 1Cs(f)의 고유값 λmax,S가 최대가 되는 고유벡터를 의미할 수 있다. 전자 장치(101)는 고유벡터 FSNR(f)를 제1 주파수 대역에 대한 제1 파라미터로 결정할 수 있다.
다른 예를 들어, 전자 장치(101)는 하기의 수학식 7에 기재된 바와 같이 GSC 빔포밍을 이용하여 제1 파라미터를 결정할 수 있다.
Figure 112018014913775-pat00008
수학식 7에서, FSNR(f)는 수학식 6의 최대 SNR 빔포밍을 이용하여 결정된 고유벡터 FSNR(f)를 의미할 수 있다. 전자 장치(101)는 FSNR(f)의 영 공간(null space) 및 수학식 7을 이용하여 결정된 FBM,SNR(f)을 제1 주파수 대역에 대한 제1 파라미터로 결정할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 MVDR 빔포밍, 최대 SNR 빔포밍, 및 GSC 빔포밍 이외에도 다른 빔포밍을 이용하여 제1 파라미터를 결정할 있다.
블록 530에서, 전자 장치(101)는 제1 파라미터에 기반하여 제2 주파수 대역에 대한 제2 파라미터를 결정할 있다. 일 실시 예에 따르면, 전자 장치(101)는 제1 주파수 대역에서 음성신호에 대한 채널 간 위상 차이가 가지는 선형성 또는 DNN 모델에 기반하여 제1 파라미터로부터 제2 파라미터를 추정할 수 있다. 선형성에 기반하여 제2 파라미터를 결정하는 동작은 도 7에서 서술될 수 있다.
블록 535에서, 전자 장치(101)는 제2 파라미터에 기반하여 제2 주파수 대역에 대한 빔포밍을 수행할 수 있다. 예를 들어, 전자 장치(101)는 제2 파라미터에 기반하여 입력 신호들 각각에 대한 가중치를 결정하고, 결정된 가중치를 입력 신호들에게 적용함으로써 입력 장치들이 음성 신호의 음원 위치에 따라 방향성을 가지도록 제어할 수 있다.
블록 540에서, 전자 장치(101)는 빔포밍이 수행된 신호에 대한 IFFT 변환을 수행함으로써 시간 영역의 신호 y(t)를 출력할 수 있다.
도 6은 다양한 실시 예들에 따라 주파수 대역 별로 잡음 신호 및 음성 신호를 나타내는 그래프를 도시한다.
도 6은 다양한 실시 예들에 따라 주파수 대역 별로 잡음 신호 및 음성 신호를 나타내는 그래프를 도시한다. 그래프(600)은 단지 특정 주파수 대역에 따른 잡음 음성 신호를 나타내는 일 예를 도시하는 것이고, 본 문서에서 개시되는 제1 주파수 대역 및 제2 주파수 대역의 구간은 그래프(600)에 도시된 예로 한정되는 것은 아닐 수 있다.
도 6을 참조하면, 그래프(600)는 시간 및 주파수 대역에 따른 잡음 음성(noisy speech) 신호의 에너지를 나타내는 스펙트로그램(spectrogram)을 의미할 수 있다. 잡음 음성 신호는 음성 신호와 잡음 신호를 포함할 수 있다. 잡음 음성 신호는 예를 들어, 전자 장치(101)의 입력 장치들(예: 도 2의 입력 장치들(210-1, 210-2,…,210-M))로 수신되는 입력 신호를 의미할 수 있다. 그래프(600)에서, 가로 축은 시간을 나타내는 프레임 인덱스(frame index)를 의미하고, 세로 축은 주파수(단위: 헤르츠(Hz))를 의미할 수 있다.
일 실시 예에 따르면, 제1 주파수 대역(610)(예: 1000Hz에서 8000 Hz 사이 구간)에서, 잡음 음성 신호는 잡음 신호를 많이 포함하지 않으므로(즉, 에너지가 높은 잡음 음성 신호와 에너지가 낮은 잡음 음성 신호의 구분이 명확하므로), 잡음 음성 신호는 높은 SNR 값을 가질 수 있다. 제2 주파수 대역(620)(예: 1000Hz 미만)에서, 잡음 신호로 인하여 에너지가 높은 잡음 음성 신호와 에너지가 낮은 잡음 음성 신호의 구분이 명확하지 않을 수 있다. 이 경우, 제2 주파수 대역의 잡음 음성 신호는 제1 주파수 대역(610)의 잡음 음성 신호의 SNR 값보다 낮은 SNR 값을 가질 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 그래프(600)가 나타내는 결과에 기반하여 빔포밍에 대한 파라미터를 적응적으로 결정하는 주파수 대역을 구분할 수 있다. 예를 들어, 전자 장치(101)는 SNR 값의 차이가 명확히 드러나는 구간(예: 그래프(600)에서 제1 주파수 대역(610) 및 제2 주파수 대역(620)의 경계 구간)의 SNR 값을 임계 값으로 결정할 수 있다. 전자 장치(101)는 결정된 임계 값을 전자 장치(101)의 메모리(예: 도 1의 메모리(130))에 미리 저장하고, 복수의 입력 신호들이 수신되면 SNR이 미리 저장된 임계 값 이상인 주파수 대역과 SNR이 미리 저장된 임계 값 미만인 주파수 대역을 구분할 수 있다. 다른 예를 들어, 전자 장치(101)는 복수의 주파수 대역들의 SNR을 측정하고, SNR이 가장 높은 하나의 주파수 대역(예: 그래프(600)에서 제1 주파수 대역(610))을 결정할 수 있다. 전자 장치(101)는 SNR이 가장 높은 주파수 대역에 대한 제1 파라미터를 결정하고, 제1 파라미터에 기반하여 나머지 주파수 대역에 대한 제2 파라미터를 결정할 수 있다.
도 7은 다양한 실시 예들에 따라 주파수 대역 별로 음성 신호를 나타내는 그래프를 도시한다.
도 7은 다양한 실시 예들에 따라 주파수 대역 별로 음성 신호를 나타내는 그래프를 도시한다. 그래프(700)은 단지 특정 주파수 대역에 따른 음성 신호를 나타내는 일 예를 도시하는 것이고, 본 문서에서 개시되는 제1 주파수 대역 및 제2 주파수 대역의 구간은 그래프(700)에 도시된 예로 한정되는 것은 아닐 수 있다.
도 7을 참조하면, 그래프(700)는 SPP 추정 알고리즘 또는 CGMM 기반 추정 알고리즘에 기반하여 결정된 음성 신호를 시간 및 주파수 대역에 따라 나타낼 수 있다. 그래프(700)에서, 가로 축은 시간을 나타내는 프레임 인덱스를 의미하고, 세로 축은 주파수(단위: 헤르츠(Hz))를 의미할 수 있다.
일 실시 예에 따르면, 전자 장치(101)는 제1 주파수 대역(710)에 대한 음성 신호의 존재 여부 또는 존재 확률을 결정할 수 있다. 예를 들어, 그래프(700)을 참조하면, 음성 신호의 분포(distribution)는 제1 주파수 대역(710)에서 참조 번호 715와 같은 형태로 표현될 수 있다. 전자 장치(101)는 그래프(700)에 도시된 음성 신호의 분포에 기반하여 입력 신호에 관한 행렬 X(t,f)를 결정할 수 있다.
도 8은 다양한 실시 예들에 따라 제1 파라미터를 제2 주파수 대역에 적용하는 동작을 설명하는 예를 도시한다.
도 8을 참조하면, 그래프(801)은 제1 주파수 대역(810)(예: 도 6의 제1 주파수 대역(610)) 및 제2 주파수 대역(820)(예: 도 6의 제2 주파수 대역(620))에서 음성 신호들 간 위상 차이를 나타낼 수 있다. 그래프(801)에서 가로 축은 주파수 빈(frequency bin)(단위: 16000/512Hz)을 의미하고, 세로 축은 각도(angle)(단위: 라디안)를 의미할 수 있다.
일 실시 예에 따르면, 그래프(801)에서 그래프의 기울기(각도/주파수)는 주파수 변화에 따른 음성 신호들 간 위상 차이(즉, 변화율)를 의미할 수 있다. 제1 주파수 대역(810)에서 입력 신호의 SNR 값이 임계 값 이상이므로, 음성 신호들 간 위상 차이가 없는 제3 주파수 대역(830)을 제외하고는 그래프의 기울기가 선형성을 가지는 반면에, 제2 주파수 대역(820)에서 입력 신호의 SNR 값은 임계 값 미만이므로, 그래프의 기울기는 일정하지 않을 수 있다.
도 8의 그래프(802)를 참조하면, 전자 장치(101)는 제1 파라미터에 기반하여 결정된 음성 신호들 간 위상 차이(즉, 제1 주파수 대역(810)의 그래프 기울기)를 제2 주파수 대역(820)의 음성 신호들 간 위상 차이에 적용함으로써, 제2 파라미터를 결정할 수 있다. 예를 들어, 제1 파라미터가 주파수 대역에 따른 행렬로 표현되면 하기의 수학식 8로 표현될 수 있다.
Figure 112018014913775-pat00009
수학식 8에서, Fi(f)(i는 1부터 M까지의 자연수)는 주파수 f에서 i번째 입력 장치로 수신되는 입력 신호에 대한 제1 파라미터를 의미할 수 있다. []T는 []의 전치 행렬을 의미할 수 있다. 수학식 8로 표현되는 제1 파라미터는 채널 간 위상 차이를 나타내기 위하여 하기의 수학식 9와 같이 표현될 수 있다.
Figure 112018014913775-pat00010
수학식 9에서, Δ∠F(f)는 제1 파라미터 성분의 채널 간 위성 차이를 의미하고, ∠Fi(f)는(i는 1부터 M까지의 자연수)는 주파수 f에서 i번째 입력 장치로 수신되는 입력 신호에 대한 위상을 의미할 수 있다. E{}는 {}의 평균을 의미할 수 있다.
다른 실시 예에 따르면, 전자 장치(101)는 DNN 모델을 이용하여 제2 파라미터를 결정할 수 있다. 전자 장치(101)는 잡음 신호가 존재하지 않는 환경 또는 제1 주파수 대역과 같이 SNR이 높은 환경에서 채널 간 위상 차이를 나타내는 Δ∠F(f)(이하, 제1 위상 차이)를 결정하고, SNR이 낮은 제2 주파수 대역의 Δ∠F(f)(이하, 제2 위상 차이)를 제1 위상 차이로부터 추정할 수 있다.
도 9는 다양한 실시 예들에 따라 영 공간을 이용하는 GSC 빔포밍의 블로킹 매트릭스 수행 결과를 나타내는 그래프를 도시한다. 도 9는 단지 GSC 빔포밍의 블로킹 매트릭스 수행 결과를 나타내는 그래프를 도시하였지만, MVDR 빔포밍 및 최대 SNR 빔포밍의 수행 결과도 도 9와 유사하게 나타날 수 있다.
도 9를 참조하면, 그래프(901)는 기존 빔포밍의 수행 결과를 나타내고, 그래프(902)는 SNR에 따라 적응적으로 빔포밍을 수행한 결과를 나타낼 수 있다. 그래프(901) 및 그래프(902)에서 가로축은 각도(단위: 라디안)를 의미하고, 세로 축은 주파수(단위: Hz)를 의미할 수 있다.
그래프(901)를 참조하면, SNR이 높은 제1 주파수 대역(910)(예: 도 6의 제1 주파수 대역(610))에서, 음성 신호의 영(null) 공간을 나타내는 영역과 그렇지 않은 영역의 구분이 명확한 반면에, SNR이 낮은 제2 주파수 대역(920)(예: 도 6의 제2 주파수 대역(620))에서, 음성 신호의 영 공간을 나타내는 영역과 그렇지 않은 영역의 구분이 명확하지 않다. 그래프(902)를 참조하면, 전자 장치(101)는 제1 주파수 대역(910)의 파라미터를 제2 주파수 대역(920)에 적용하였으므로, 음성 신호의 영 공간을 나타내는 영역과 그렇지 않은 영역의 구분이 명확할 수 있다.
상술한 바와 같이, 전자 장치(예: 도 1의 전자 장치(101))는, 음성 신호와 잡음 신호를 포함하는 복수의 입력 신호들을 수신하는 복수의 입력 장치들(예: 도 2의 복수의 입력 장치들(210-1, 210-2,…,210-M)), 상기 입력 장치들과 전기적으로 연결되는 프로세서(예: 도 1의 프로세서(120))를 포함하고, 상기 프로세서는, 상기 복수의 입력 신호들에 대한 신호 대 잡음 비(signal to ratio, SNR) 값을 주파수 대역 별로 결정하고, 상기 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제1 파라미터를 결정하고, 상기 제1 파라미터에 기반하여, 상기 SNR 값이 상기 임계 값 미만인 제2 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제2 파라미터를 결정하고, 상기 제1 파라미터 및 상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 빔포밍을 수행하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 빔포밍을 수행하는 동작의 적어도 일부로, 상기 제1 파라미터 및 상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 가중치들을 결정하고, 상기 가중치들을 상기 복수의 입력 신호들에 적용함으로써, 상기 복수의 입력 신호들에 포함된 상기 잡음 신호의 적어도 일부가 감쇠된 출력 신호를 생성하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 복수의 입력 신호들의 상기 제1 주파수 대역에서의 각각의 음성 신호에 대한 공분산 행렬 또는 잡음 신호에 대한 공분산 행렬에 기반하여 상기 제1 파라미터를 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 제1 주파수 대역에서 상기 복수의 입력 신호들 각각의 음성 신호에 대한 존재 확률을 결정하고, 상기 제1 주파수 대역에서 상기 복수의 입력 신호들에 대한 공간 행렬을 결정하고, 상기 공간 행렬 및 상기 존재 확률에 기반하여, 상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬을 결정하고, 및 상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 음성 신호에 대한 공분산 행렬, 상기 음성 신호에 대한 공분산 행렬과 상기 잡음 신호에 대한 공분산 행렬 간 차이, 또는 상기 잡음 신호에 대한 공분산 행렬의 역행렬 및 상기 음성 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, DNN 모델을 이용함으로써 상기 제1 파라미터로부터 상기 제2 파라미터를 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 제1 주파수 대역에서, 단일 채널에 대한 상기 존재 확률을 결정하거나, 상기 제1 주파수 대역에서 복수의 채널에 대한 상기 존재 확률을 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 복수의 입력 신호들에 대한 고속 푸리에 변환을 수행하도록 설정될 수 있다.
상술한 바와 같이, 전자 장치(예: 도 1의 전자 장치(101))는, 제1 마이크(예: 도 2의 입력 장치(210-1)), 제2 마이크(예: 도 2의 입력 장치(210-2), 및 프로세서(예: 도 1의 프로세서(120))를 포함하고, 상기 프로세서는, 상기 제1 마이크를 이용하여 제1 오디오 신호, 및 상기 제2 마이크를 이용하여 제2 오디오 신호를 획득하고, 상기 제1 오디오 신호 및 상기 제2 오디오 신호와 관련하여 SNR이 지정된 범위에 속하는 지정된 주파수 대역을 확인하고, 상기 지정된 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호가 주파수의 변화에 따라 위상이 변화되는 제1 변화율을 결정하고, 상기 지정된 주파수 대역과 다른 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호가 주파수의 변화에 따라 위상이 변화되는 제2 변화율을 상기 제1 변화율에 적어도 기반하여 추정하고, 상기 제1 변화율 및 상기 제2 변화율에 적어도 기반하여, 상기 제1 오디오 신호에 대응하는 제1 가중치 및 상기 제2 오디오 신호에 대응하는 제2 가중치를 결정하고, 및 상기 제1 가중치 및 상기 제2 가중치에 적어도 기반하여, 상기 제1 오디오 신호 및 상기 제2 오디오 신호를 이용하여 잡음 신호가 감쇠된 제3 오디오 신호를 생성하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 지정된 주파수 대역에서, 상기 제1 오디오 신호 및 상기 제2 오디오 신호에 대한 공분산 행렬에 적어도 기반하여 상기 제1 변화율을 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 지정된 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나에 포함된 음성 신호에 대한 존재 확률 값을 결정하고, 상기 존재 확률 값에 기반하여, 상기 공분산 행렬을 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 제1 오디오 신호 및 상기 제2 오디오 신호에서 음성 신호에 대한 공분산 행렬과 잡음 신호에 대한 공분산 행렬 간 차이에 기반하여, 상기 제1 변화율을 결정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, DNN 모델을 이용함으로써 상기 제1 변화율부터 상기 제2 변화율을 추정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 제1 변화율의 선형성에 적어도 기반하여 상기 제2 변화율을 추정하도록 설정될 수 있다.
일 실시 예에 따르면, 상기 프로세서는, 상기 제1 오디오 신호 및 상기 제2 오디오 신호에 대한 FFT 변환을 수행하도록 설정될 수 있다.
상술한 바와 같이, 전자 장치의 방법은, 복수의 입력 신호들을 수신하는 동작, 상기 복수의 입력 신호들에 대한 SNR 값을 주파수 대역 별로 결정하는 동작, 상기 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상 변화를 나타내는 제1 파라미터를 결정하는 동작, 상기 제1 파라미터에 기반하여, 상기 SNR 값이 상기 임계 값 미만인 제2 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상 변화를 나타내는 제2 파라미터를 결정하는 동작, 및 상기 제1 파라미터 및 상기 제2 파라미터에 기반하여, 상기 복수의 입력 신호들에 대한 빔포밍을 수행하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 제1 파라미터를 결정하는 동작은, 복수의 입력 신호들의 상기 제1 주파수 대역에서의 각각의 음성 신호에 대한 공분산 행렬 또는 잡음 신호에 대한 공분산 행렬에 기반하여 상기 제1 파라미터를 결정하는 동작을 포함하고, 상기 빔포밍을 수행하는 동작은, 상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 가중치들을 결정하는 동작, 및 상기 가중치들을 상기 복수의 입력 신호들에 적용함으로써, 상기 복수의 입력 신호들의 잡음 신호들이 감쇠된 출력 신호를 생성하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 제1 파라미터를 결정하는 동작은, 상기 제1 주파수 대역에서 상기 복수의 입력 신호들 각각의 음성 신호에 대한 존재 확률을 결정하는 동작, 상기 제1 주파수 대역에서 상기 복수의 입력 신호들에 대한 공간 행렬을 결정하는 동작, 상기 공간 행렬 및 상기 존재 확률에 기반하여, 상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬을 결정하는 동작, 및 상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 제1 파라미터를 결정하는 동작은, 상기 음성 신호에 대한 공분산 행렬, 상기 음성 신호에 대한 공분산 행렬과 상기 잡음 신호에 대한 공분산 행렬 간 차이, 또는 상기 잡음 신호에 대한 공분산 행렬의 역행렬 및 상기 음성 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하는 동작을 포함할 수 있다.
일 실시 예에 따르면, 상기 제2 파라미터를 결정하는 동작은, DNN 모델을 이용함으로써 상기 제1 파라미터로부터 상기 제2 파라미터를 결정하는 동작을 포함할 수 있다.
본 문서에 개시된 다양한 실시 예들에 따른 전자 장치는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치 중 적어도 하나를 포함할 수 있다. 본 문서의 실시 예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.
본 문서의 다양한 실시 예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제 3 구성요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
본 문서의 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램(140))로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치(예: 전자 장치(101))를 포함할 수 있다. 상기 명령이 프로세서(예: 프로세서(120))에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 애플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 애플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

Claims (20)

  1. 전자 장치에 있어서,
    음성 신호와 잡음 신호를 포함하는 복수의 입력 신호들을 수신하는 복수의 입력 장치들; 및
    상기 입력 장치들과 전기적으로 연결되는 프로세서를 포함하고, 상기 프로세서는,
    상기 복수의 입력 신호들에 대한 신호 대 잡음 비(signal to ratio, SNR) 값을 주파수 대역 별로 결정하고,
    상기 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제1 파라미터를 결정하고,
    상기 제1 파라미터에 기반하여, 상기 SNR 값이 상기 임계 값 미만인 제2 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상의 변화를 나타내는 제2 파라미터를 결정하고,
    상기 제1 파라미터 및 상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 빔포밍을 수행하도록 설정되는, 전자 장치.
  2. 청구항 1에 있어서, 상기 프로세서는, 상기 빔포밍을 수행하는 동작의 적어도 일부로,
    상기 제1 파라미터 및 상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 가중치들을 결정하고,
    상기 가중치들을 상기 복수의 입력 신호들에 적용함으로써, 상기 복수의 입력 신호들에 포함된 상기 잡음 신호의 적어도 일부가 감쇠된 출력 신호를 생성하도록 설정되는, 전자 장치.
  3. 청구항 1에 있어서, 상기 프로세서는,
    상기 복수의 입력 신호들의 상기 제1 주파수 대역에서의 각각의 상기 음성 신호에 대한 공분산 행렬(covariance matrix) 또는 상기 잡음 신호에 대한 공분산 행렬에 기반하여 상기 제1 파라미터를 결정하도록 설정되는, 전자 장치.
  4. 청구항 1에 있어서, 상기 프로세서는,
    상기 제1 주파수 대역에서 상기 복수의 입력 신호들 각각의 상기 음성 신호에 대한 존재 확률을 결정하고,
    상기 제1 주파수 대역에서 상기 복수의 입력 신호들에 대한 제1 행렬을 결정하고,
    상기 제1 행렬 및 상기 존재 확률에 기반하여, 상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬을 결정하고, 및
    상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하도록 설정되는, 전자 장치.
  5. 청구항 4에 있어서, 상기 프로세서는,
    상기 음성 신호에 대한 공분산 행렬, 상기 음성 신호에 대한 공분산 행렬과 상기 잡음 신호에 대한 공분산 행렬 간 차이, 또는 상기 잡음 신호에 대한 공분산 행렬의 역행렬 및 상기 음성 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하도록 설정되는, 전자 장치.
  6. ◈청구항 6은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 1에 있어서, 상기 프로세서는,
    DNN(deep neural networks) 모델을 이용함으로써 상기 제1 파라미터로부터 상기 제2 파라미터를 결정하도록 설정되는, 전자 장치.
  7. 청구항 4에 있어서, 상기 프로세서는,
    상기 제1 주파수 대역에서, 단일 채널에 대한 상기 복수의 입력 신호들 내 상기 음성 신호의 상기 존재 확률을 결정하거나, 상기 제1 주파수 대역에서 복수의 채널에 대한 상기 복수의 입력 신호들 내 상기 음성 신호의 상기 존재 확률을 결정하도록 설정되는, 전자 장치.
  8. ◈청구항 8은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 1에 있어서, 상기 프로세서는,
    상기 복수의 입력 신호들에 대한 고속 푸리에 변환(fast Fourier transform)을 수행하도록 설정되는, 전자 장치.
  9. 전자 장치에 있어서,
    제1 마이크;
    제2 마이크; 및
    프로세서를 포함하고, 상기 프로세서는,
    상기 제1 마이크를 이용하여 제1 오디오 신호, 및 상기 제2 마이크를 이용하여 제2 오디오 신호를 획득하고,
    상기 제1 오디오 신호 및 상기 제2 오디오 신호와 관련하여 SNR이 지정된 범위에 속하는 지정된 주파수 대역을 확인하고,
    상기 지정된 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호가 주파수의 변화에 따라 위상이 변화되는 제1 변화율을 결정하고,
    상기 지정된 주파수 대역과 다른 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호가 주파수의 변화에 따라 위상이 변화되는 제2 변화율을 상기 제1 변화율에 적어도 기반하여 추정하고,
    상기 제1 변화율 및 상기 제2 변화율에 적어도 기반하여, 상기 제1 오디오 신호에 대응하는 제1 가중치 및 상기 제2 오디오 신호에 대응하는 제2 가중치를 결정하고, 및
    상기 제1 가중치 및 상기 제2 가중치에 적어도 기반하여, 상기 제1 오디오 신호 및 상기 제2 오디오 신호를 이용하여 잡음 신호가 감쇠된 제3 오디오 신호를 생성하도록 설정되는, 전자 장치.
  10. ◈청구항 10은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 9에 있어서, 상기 프로세서는,
    상기 지정된 주파수 대역에서, 상기 제1 오디오 신호 및 상기 제2 오디오 신호에 대한 공분산 행렬에 적어도 기반하여 상기 제1 변화율을 결정하도록 설정되는, 전자 장치.
  11. ◈청구항 11은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 10에 있어서, 상기 프로세서는,
    상기 지정된 주파수 대역에서 상기 제1 오디오 신호 및 상기 제2 오디오 신호 중 적어도 하나에 포함된 음성 신호에 대한 존재 확률 값을 결정하고,
    상기 존재 확률 값에 기반하여, 상기 공분산 행렬을 결정하도록 설정되는, 전자 장치.
  12. ◈청구항 12은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 9에 있어서, 상기 프로세서는,
    상기 제1 오디오 신호 및 상기 제2 오디오 신호에서 음성 신호에 대한 공분산 행렬과 잡음 신호에 대한 공분산 행렬 간 차이에 기반하여, 상기 제1 변화율을 결정하도록 설정되는, 전자 장치.
  13. ◈청구항 13은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 9에 있어서, 상기 프로세서는,
    DNN 모델을 이용함으로써 상기 제1 변화율부터 상기 제2 변화율을 추정하도록 설정되는, 전자 장치.
  14. ◈청구항 14은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 9에 있어서, 상기 프로세서는,
    상기 제 1 변화율의 선형성에 적어도 기반하여 상기 제 2 변화율을 추정하도록 설정되는, 전자 장치.
  15. ◈청구항 15은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 11에 있어서, 상기 프로세서는,
    상기 제1 오디오 신호 및 상기 제2 오디오 신호에 대한 FFT 변환을 수행하도록 설정되는, 전자 장치.
  16. 전자 장치의 방법에 있어서,
    음성 신호와 잡음 신호를 포함하는 복수의 입력 신호들을 수신하는 동작;
    상기 복수의 입력 신호들에 대한 SNR 값을 주파수 대역 별로 결정하는 동작;
    상기 SNR 값이 지정된 임계 값 이상인 제1 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상 변화를 나타내는 제1 파라미터를 결정하는 동작;
    상기 제1 파라미터에 기반하여, 상기 SNR 값이 상기 임계 값 미만인 제2 주파수 대역에서 상기 복수의 입력 신호들의 주파수 대비 위상 변화를 나타내는 제2 파라미터를 결정하는 동작; 및
    상기 제1 파라미터 및 상기 제2 파라미터에 기반하여, 상기 복수의 입력 신호들에 대한 빔포밍을 수행하는 동작을 포함하는, 방법.
  17. 청구항 16에 있어서,
    상기 제1 파라미터를 결정하는 동작은,
    상기 복수의 입력 신호들의 상기 제1 주파수 대역에서의 각각의 상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬에 기반하여 상기 제1 파라미터를 결정하는 동작을 포함하고,
    상기 빔포밍을 수행하는 동작은,
    상기 제2 파라미터에 기반하여 상기 복수의 입력 신호들에 대한 가중치들을 결정하는 동작; 및
    상기 가중치들을 상기 복수의 입력 신호들에 적용함으로써, 상기 복수의 입력 신호들에 포함된 상기 잡음 신호의 적어도 일부가 감쇠된 출력 신호를 생성하는 동작을 포함하는, 방법.
  18. 청구항 16에 있어서, 상기 제1 파라미터를 결정하는 동작은,
    상기 제1 주파수 대역에서 상기 복수의 입력 신호들 각각의 상기 음성 신호에 대한 존재 확률을 결정하는 동작;
    상기 제1 주파수 대역에서 상기 복수의 입력 신호들에 대한 제1 행렬을 결정하는 동작;
    상기 제1 행렬 및 상기 존재 확률에 기반하여, 상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬을 결정하는 동작; 및
    상기 음성 신호에 대한 공분산 행렬 또는 상기 잡음 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하는 동작을 포함하는, 방법.
  19. ◈청구항 19은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 18에 있어서, 상기 제1 파라미터를 결정하는 동작은,
    상기 음성 신호에 대한 공분산 행렬, 상기 음성 신호에 대한 공분산 행렬과 상기 잡음 신호에 대한 공분산 행렬 간 차이, 또는 상기 잡음 신호에 대한 공분산 행렬의 역행렬 및 상기 음성 신호에 대한 공분산 행렬에 기반하여, 상기 제1 파라미터를 결정하는 동작을 포함하는, 방법.
  20. ◈청구항 20은(는) 설정등록료 납부시 포기되었습니다.◈
    청구항 16에 있어서, 상기 제2 파라미터를 결정하는 동작은,
    DNN 모델을 이용함으로써 상기 제1 파라미터로부터 상기 제2 파라미터를 결정하는 동작을 포함하는, 방법.
KR1020180016752A 2018-02-12 2018-02-12 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법 KR102475989B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020180016752A KR102475989B1 (ko) 2018-02-12 2018-02-12 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
PCT/KR2018/016121 WO2019156339A1 (ko) 2018-02-12 2018-12-18 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
US16/769,675 US11222646B2 (en) 2018-02-12 2018-12-18 Apparatus and method for generating audio signal with noise attenuated based on phase change rate
EP18904994.3A EP3745399B1 (en) 2018-02-12 2018-12-18 Electronic devices for generating an audio signal with noise attenuated on the basis of a phase change rate according to change in frequency of an audio signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180016752A KR102475989B1 (ko) 2018-02-12 2018-02-12 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190097391A KR20190097391A (ko) 2019-08-21
KR102475989B1 true KR102475989B1 (ko) 2022-12-12

Family

ID=67548474

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180016752A KR102475989B1 (ko) 2018-02-12 2018-02-12 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법

Country Status (4)

Country Link
US (1) US11222646B2 (ko)
EP (1) EP3745399B1 (ko)
KR (1) KR102475989B1 (ko)
WO (1) WO2019156339A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102321422B1 (ko) * 2020-01-29 2021-11-04 울산과학기술원 레이더-통신 결합 시스템의 신호 생성 방법
CN112120730B (zh) * 2020-10-21 2024-04-02 重庆大学 一种基于混合子空间投影的广义旁瓣相消超声成像方法
CN117037830A (zh) * 2021-05-21 2023-11-10 中科上声(苏州)电子有限公司 一种麦克风阵列的拾音方法、电子设备及存储介质
CN113707136B (zh) * 2021-10-28 2021-12-31 南京南大电子智慧型服务机器人研究院有限公司 服务型机器人语音交互的音视频混合语音前端处理方法
WO2023167511A1 (ko) * 2022-03-02 2023-09-07 삼성전자 주식회사 소리를 출력하기 위한 전자 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101340757B1 (ko) * 2007-03-09 2014-01-02 삼성전자주식회사 위상차이와 스펙트럼의 에너지를 이용한 잡음제거 방법 및장치
US8954324B2 (en) 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
US9521486B1 (en) 2013-02-04 2016-12-13 Amazon Technologies, Inc. Frequency based beamforming
WO2014136628A1 (ja) * 2013-03-05 2014-09-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP6401521B2 (ja) * 2014-07-04 2018-10-10 クラリオン株式会社 信号処理装置及び信号処理方法
EP3440671B1 (en) * 2016-04-08 2020-02-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10482899B2 (en) * 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing

Also Published As

Publication number Publication date
EP3745399A1 (en) 2020-12-02
WO2019156339A1 (ko) 2019-08-15
EP3745399B1 (en) 2023-02-01
EP3745399A4 (en) 2021-03-03
US11222646B2 (en) 2022-01-11
US20210174819A1 (en) 2021-06-10
KR20190097391A (ko) 2019-08-21

Similar Documents

Publication Publication Date Title
KR102475989B1 (ko) 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
US10779427B2 (en) Method for measuring electromagnetic signal radiated from device and electronic device thereof
KR102570480B1 (ko) 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
US11340281B2 (en) Method of measuring electromagnetic signal and electronic device therefor
KR102478393B1 (ko) 노이즈가 정제된 음성 신호를 획득하는 방법 및 이를 수행하는 전자 장치
KR102565447B1 (ko) 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법
US11290800B2 (en) Wearable electronic device with water repellent structure using speaker module and method for sensing moisture penetration thereof
KR102512614B1 (ko) 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법
US11308973B2 (en) Method for processing multi-channel audio signal on basis of neural network and electronic device
US10795442B2 (en) Method of providing vibration and electronic device for supporting same
US11398242B2 (en) Electronic device for determining noise control parameter on basis of network connection information and operating method thereof
US11190891B2 (en) Method for determining whether error has occurred in microphone on basis of magnitude of audio signal acquired through microphone, and electronic device thereof
US10388301B2 (en) Method for processing audio signal and electronic device for supporting the same
US20230215453A1 (en) Electronic device for controlling beamforming and operating method thereof
KR102461608B1 (ko) 스피커에 포함된 진동판을 이용하여 하우징 내부 공간의 액체를 외부로 배출하는 전자 장치, 및 그 전자 장치의 제어 방법
EP4262181A1 (en) Method and electronic device for removing echo flowing in due to external device
KR102386773B1 (ko) 다수 개의 스피커 및 마이크를 이용하여 오디오 신호를 생성하는 방법 및 그 전자 장치
US20210249030A1 (en) Method for improving sound quality and electronic device using same
KR20210125846A (ko) 복수의 마이크로폰들을 사용한 음성 처리 장치 및 방법
US20230140204A1 (en) Method and device for recording sound of electronic device using earphones
KR20220017080A (ko) 음성 신호를 처리하는 방법 및 이를 이용한 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant