KR20170065488A - 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치 - Google Patents

잡음이 포함된 오디오 신호를 처리하는 방법 및 장치 Download PDF

Info

Publication number
KR20170065488A
KR20170065488A KR1020177003323A KR20177003323A KR20170065488A KR 20170065488 A KR20170065488 A KR 20170065488A KR 1020177003323 A KR1020177003323 A KR 1020177003323A KR 20177003323 A KR20177003323 A KR 20177003323A KR 20170065488 A KR20170065488 A KR 20170065488A
Authority
KR
South Korea
Prior art keywords
signal
audio signal
energy
frequency
noise
Prior art date
Application number
KR1020177003323A
Other languages
English (en)
Other versions
KR102475869B1 (ko
Inventor
이영우
하루유키 모리
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20170065488A publication Critical patent/KR20170065488A/ko
Application granted granted Critical
Publication of KR102475869B1 publication Critical patent/KR102475869B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Abstract

복수의 프레임에 대한 주파수 도메인의 오디오 신호를 획득하고, 파수 대역을 복수 개의 구간으로 분할하고, 복수 개의 구간에 대한 에너지를 구하고, 복수 개의 구간들 간 에너지 차이에 기초하여, 잡음이 포함된 오디오 신호를 검출하고, 검출된 오디오 신호에 서프레션 게인을 적용하는, 오디오 신호를 처리하는 방법이 개시된다.

Description

잡음이 포함된 오디오 신호를 처리하는 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL INCLUDING NOISE}
본 발명은 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치에 대한 것이다.
보청기(hearing device)는 사용자에게 외부 소리를 증폭시켜 전달해 줄 수 있다. 사용자는 보청기를 통해 소리를 더 잘 인식할 수 있다. 그러나, 사용자는 일상 생활에서 다양한 소음 환경에 노출될 수 있으므로, 보청기가 오디오 신호에 포함된 잡음을 적절히 제거하여 출력하지 않으면, 사용자는 불편함을 느낄 수 있다.
따라서, 음질 왜곡을 최소화하면서 잡음을 제거하기 위한 오디오 신호 처리 방법이 중요시되고 있다.
잡음이 포함된 오디오 신호를 처리하는 방법 및 장치에 관한 것으로, 음질 왜곡을 최소화하면서 잡음을 제거하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
일 실시 예에 의한 오디오 신호 처리 방법에 의하면, 오디오 신호의 음질 왜곡을 최소화하면서 오디오 신호에 포함된 잡음을 효과적으로 제거할 수 있다.
도 1은 일 실시 예에 의한 오디오 신호를 처리하는 단말 장치의 내부 구조를 나타낸 도면이다.
도 2는 일 실시 예에 의한 오디오 신호를 처리하는 방법을 나타낸 순서도이다.
도 3은 일 실시 예에 의한 충격음과 타겟 신호의 일 예를 나타낸 예시 도면이다.
도 4는 일 실시 예에 의해 처리된 오디오 신호의 일 예를 나타낸 도면이다.
도 5는 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 방법을 나타낸 블록도이다.
도 6은 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 방법을 나타낸 블록도이다.
도 7은 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 방법을 나타낸 순서도이다.
도 8은 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 일 예를 나타낸 예시 도면이다.
도 9는 일 실시 예에 의한 오디오 신호를 처리하는 장치의 내부 구조를 나타낸 블록도이다.
발명의 실시를 위한 최선의 형태
일 실시 예에 의한 오디오 신호를 처리하는 방법에 있어서, 복수의 프레임에 대한 주파수 도메인의 오디오 신호를 획득하는 단계; 주파수 대역을 복수 개의 구간으로 분할하는 단계; 상기 복수 개의 구간에 대한 에너지를 구하는 단계; 상기 복수 개의 구간들 간 에너지 차이에 기초하여, 잡음이 포함된 오디오 신호를 검출하는 단계; 및 상기 검출된 오디오 신호에 서프레션 게인을 적용하는 단계를 포함한다.
상기 잡음이 포함된 오디오 신호를 검출하는 단계는 상기 복수의 프레임에 대한 에너지를 구하는 단계; 상기 복수 개의 프레임들 간 에너지 차이 및 소정 프레임의 에너지 값 중 적어도 하나에 기초하여, 잡음이 포함된 오디오 신호를 검출하는 단계를 포함한다.
상기 서프레션 게인을 적용하는 단계는 상기 잡음이 검출된 오디오 신호의 에너지에 기초하여 상기 서프레션 게인을 결정하는 단계를 포함한다.
상기 주파수 대역 간 에너지 차이는 제1 주파수 구간의 에너지와 제2 주파수 구간의 에너지 간 차이이고, 상기 제2 주파수 구간은 상기 제1 주파수 구간보다 높은 주파수 대역의 구간이다.
일 실시 예에 의한 오디오 신호를 처리하는 방법에 있어서, 전방 신호 및 후방 신호를 획득하는 단계; 딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 코히어런스를 획득하는 단계; 상기 코히어런스에 기초하여, 게인 값을 결정하는 단계; 및 딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 차이를 구하여 고정된 빔포밍 신호를 획득하는 단계; 상기 고정된 빔포밍 신호에 상기 게인 값을 적용시켜 출력하는 단계를 더 포함한다.
상기 코히어런스를 획득하는 단계는 주파수 대역을 적어도 두 개의 구간으로 분할하는 단계; 상기 분할된 구간 중 고주파수 구간에 대한 상기 코히어런스를 획득하는 단계를 포함하고, 상기 게인 값을 결정하는 단계는 상기 고주파수 구간에 대한 코히어런스에 기초하여, 상기 오디오 신호의 타겟 신호에 대한 방향성을 결정하는 단계; 상기 방향성에 기초하여, 상기 분할된 구간 중 저주파수 구간에 대한 게인 값을 결정하는 단계를 포함한다.
상기 게인 값을 결정하는 단계는 상기 전방 신호의 잡음을 추정하는 단계; 상기 추정된 잡음에 기초하여, 상기 저주파수 구간에 대한 게인 값을 결정하는 단계를 포함한다.
일 실시 예에 의한 오디오 신호를 처리하는 단말 장치에 있어서, 복수의 프레임에 대한 주파수 도메인의 오디오 신호를 획득하는 수신부; 주파수 대역을 복수 개의 구간으로 분할하고, 상기 복수 개의 구간에 대한 에너지를 구하고, 상기 복수 개의 구간들 간 에너지 차이에 기초하여, 잡음이 포함된 오디오 신호를 검출하고, 상기 검출된 오디오 신호에 서프레션 게인을 적용하는 제어부; 및 상기 제어부에 의해 처리된 오디오 신호를 시간 도메인의 신호로 변환하여 출력하는 출력부를 포함한다.
일 실시 예에 의한 오디오 신호를 처리하는 단말 장치에 있어서, 전방 신호 및 후방 신호를 획득하는 수신부; 딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 코히어런스를 획득하고, 상기 코히어런스에 기초하여, 게인 값을 결정하고, 딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 차이를 구하여 고정된 빔포밍 신호를 획득하고, 상기 고정된 빔포밍 신호에 상기 게인 값을 적용시키는 제어부; 및 상기 게인값이 적용된 고정된 빔포밍 신호를 시간 도메인의 신호로 변환하여 출력하는 출력부를 포함한다.
발명의 실시를 위한 형태
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.
도 1은 일 실시 예에 의한 오디오 신호를 처리하는 단말 장치의 내부 구조를 나타낸 도면이다.
도 1을 참조하면, 단말 장치(100)는 변환부(110, 160), 밴드 에너지 획득부(120), 잡음 검출부(130) 및 게인 결정부(140)를 포함할 수 있다.
단말 장치(100)는 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 단말 장치(100)는 보청기(hearing device), 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다. 상술된 예에 한하지 않고, 단말 장치(100)는 다양한 종류의 장치를 포함할 수 있다.
단말 장치(100)는 외부에서 발생된 소리를 수신할 수 있는 마이크를 구비하여, 마이크를 통해 오디오 신호를 수신하거나, 외부 장치로부터 오디오 신호를 수신할 수 있다. 단말 장치(100)는 수신된 오디오 신호로부터 잡음을 검출하고, 잡음이 검출된 구간에 대하여 서프레션 게인(suppression gain)을 적용함으로써, 오디오 신호에 포함된 잡음을 제거할 수 있다. 서프레션 게인이 오디오 신호에 적용됨으로써, 오디오 신호의 크기가 작아질 수 있다.
오디오 신호에 포함될 수 있는 잡음은 타겟 신호를 제외한 신호를 의미할 수 있다. 타겟 신호는 예를 들면, 사용자가 청취하고자 하는 스피치(speech) 신호일 수 있다. 잡음은 예를 들면, 타겟 신호 이외의 생활 소음 또는 충격음을 포함할 수 있다. 오디오 신호에 짧은 시간 구간 동안 큰 에너지를 가지는 충격음이 포함되어 있는 경우, 충격음으로 인하여 사용자가 타겟 신호를 제대로 인지하기 어려우므로, 단말 장치(100)는 오디오 신호의 충격음을 제거하여 출력할 수 있다. 단말 장치(100)는 타겟 신호를 제외한 잡음을 포함하는 구간을 오디오 신호로부터 검출하여, 잡음을 제거하기 위한 서프레션 게인을 오디오 신호에 적용시킬 수 있다.
변환부(110)는 수신된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다. 예를 들면, 변환부(110)는 시간 도메인의 오디오 신호에 대하여, 이산 푸리에 변환(discrete fourier transform)을 수행하여 복수의 프레임으로 구성된 주파수 도메인의 오디오 신호를 획득할 수 있다. 시간 도메인에서 잡음을 검출하는 방법에 의하면, 초기에 발생된 충격음이 제거되지 못함에 따라 딜레이 시간이 발생될 수 있다. 그러나, 단말 장치(100)는 프레임 단위로 주파수 도메인에서 오디오 신호를 처리함으로써, 시간 도메인에서 잡음을 처리하는 방법에 비해, 딜레이 시간 없이 실시간으로 오디오 신호의 잡음을 제거하여 출력할 수 있다.
밴드 에너지 획득부(120)는 주파수 도메인의 오디오 신호를 이용하여 소정 주파수 구간에 대한 에너지를 획득할 수 있다. 밴드 에너지 획득부(120)는 주파수 대역을 2개 이상의 주파수 구간으로 분할하고, 각 주파수 구간에 대한 에너지를 획득할 수 있다. 에너지는 파워, 놈(norm) 값, 강도, 진폭, 데시벨 값 등으로 나타날 수 있다. 예를 들면, 각 주파수 구간에 대한 에너지는 이하 수학식 1과 같이 획득될 수 있다.
Figure pct00001
수학식 1을 참조하면, Y(w,n)은 프레임 n에서 주파수 w 의 에너지 값을 나타낸다. 소정 주파수 구간에 포함된 에너지 값들의 평균값에 대해 log 변환이 수행됨으로써, Ych.N(n)은 데시벨(dB) 단위의 에너지 값을 가질 수 있다. 소정 주파수 구간에 대한 에너지는 소정 주파수 구간에 포함된 주파수별 에너지 값들의 평균값, 중간값 등의 대표값으로 정해질 수 있다. 상술된 예에 한하지 않고, 소정 주파수 구간에 대한 에너지는 다양한 방법으로 결정될 수 있다.
잡음 검출부(130)는 밴드 에너지 획득부(120)에 의해 획득된 각 주파수 구간에 대한 에너지에 기초하여 잡음이 존재하는 구간을 검출할 수 있다. 잡음 검출부(130)는 주파수 구간들 간 에너지 차이에 기초하여, 잡음을 포함하는 오디오 신호를 검출할 수 있다. 잡음 검출부(130)는 잡음이 오디오 신호에 포함되어 있는지 여부를 프레임 단위로 판단할 수 있다.
잡음 중에서도 충격음을 포함한 오디오 신호는, 짧은 시간 동안 매우 큰 에너지를 가지므로, 충격음이 포함된 오디오 신호가 사용자에게 전달되는 경우, 매우 큰 소리로 인해 사용자는 불편함을 느낄 수 있다. 충격음은 짧은 시간 동안 매우 큰 에너지를 가지며, 충격음의 에너지는 고주파수 대역에 집중될 수 있다. 따라서, 오디오 신호에 충격음이 포함된 경우, 고주파수 대역의 에너지가 저주파수 구간의 에너지에 비해 더욱 클 수 있다.
잡음 검출부(130)는 상술된 충격음을 포함한 오디오 신호의 특징을 이용하여 충격음을 포함한 오디오 신호를 검출할 수 있다. 잡음 검출부(130)는 밴드 에너지 획득부(120)에 의해 획득된 각 주파수 구간에 대한 에너지를 이용하여 충격음을 포함한 오디오 신호를 검출할 수 있다. 잡음 검출부(130)는 저주파수 구간에 대한 에너지와 고주파수 구간에 대한 에너지 간 차이 또는 비율에 기초하여, 충격음을 포함한 오디오 신호를 검출할 수 있다. 예를 들면, 이하 수학식 2와 같이 주파수 구간들 간 에너지 차이가 획득될 수 있다.
Figure pct00002
수학식 2에서, Ych.L(n) 및 Ych.H(n)은 각각 저주파수 구간의 에너지와 고주파수 구간의 에너지를 의미한다. 수학식 2에 의하면, 저주파수 구간의 에너지와 고주파수 구간의 에너지의 차이값이 충격음 검출에 이용될 수 있으나, 차이값 대신 저주파수 구간의 에너지와 고주파수 구간의 에너지의 비율이 충격음 검출에 이용될 수도 있다. 저주파수 또는 고주파수 구간의 에너지는 상술된 수학식 1에 따라서 획득된 각 구간에 포함된 주파수별 에너지들의 대표값으로 결정될 수 있다.
고주파수 구간에 대한 에너지가 저주파수 구간에 대한 에너지보다 기준값 이상 큰 경우, 잡음 검출부(130)는 해당 오디오 신호가 충격음을 포함하는 것으로 판단할 수 있다.
따라서, 일 실시 예에 의하면, 주파수 구간들 간 에너지의 차이 또는 비율에 기초하여 충격음이 검출될 수 있으므로, 타겟 신호가 갑자기 커지더라도 충격음으로 잘못 판단하여 음질이 왜곡되는 경우가 최소화될 수 있다. 예를 들면, 화자의 목소리가 갑자기 커지더라도 주파수 구간들 간 에너지의 차이 또는 비율이 유지될 가능성이 높으므로, 충격음으로 잘못 판단될 가능성이 낮아질 수 있다.
더하여, 잡음 검출부(130)는 충격음을 포함한 오디오 신호의 에너지가 짧은 시간 동안 급격히 증가하는 점을 더 고려하여 충격음을 포함한 오디오 신호를 검출할 수 있다. 잡음 검출부(130)는 프레임 간 오디오 신호의 에너지 차이가 기준값 이상인지를 더 판단하여, 해당 오디오 신호가 충격음을 포함하는지 여부를 결정할 수 있다. 소정 프레임에 대한 에너지는 밴드 에너지 획득부(120)에 의해 획득된 주파수 구간별 에너지를 합한 값으로부터 획득될 수 있다. 예를 들면, 이하 수학식 3과 같이 프레임 간 에너지 차이가 획득될 수 있다.
Figure pct00003
수학식 3에서, Ych.N(n) 및 Ych.N(n-1)은 각각 프레임 n에 대한 에너지, 프레임 n-1에 대한 에너지를 의미한다. 소정 프레임에 대한 에너지는 상술된 수학식 1에 따라 획득될 수 있다.
한편, 오디오 신호가 절대적으로 큰 에너지를 가지고 있지 않은 경우, 사용자에게 큰 충격을 주지 않을 수 있으므로, 해당 오디오 신호는 충격음 제거를 위한 처리가 불필요할 수 있다. 따라서, 잡음 검출부(130)는 충격음을 포함한 오디오 신호는 절대적으로 큰 에너지를 가지고 있는 점을 고려하여, 현재 프레임의 에너지가 소정 기준값 이상인지 여부를 판단할 수 있다.
이하 수학식 4와 같이 잡음 검출부(130)는 프레임 간 에너지 차이, 주파수 구간들 간 에너지 차이 및 현재 프레임의 에너지 크기에 기초하여, 현재 프레임의 오디오 신호가 충격음을 포함하는지 여부를 판단할 수 있다.
Figure pct00004
수학식 4에서, Yth, fdth, bdth는 각각 현재 프레임의 에너지 크기, 프레임 간 에너지 차이 및 주파수 구간들 간 에너지 차이에 대한 기준값을 나타낸다. 수학식 4에 의하면, 프레임 간 에너지 차이, 주파수 구간들 간 에너지 차이 및 현재 프레임의 에너지 크기에 기초하여, 충격음이 검출될 수 있으나, 이에 한하지 않고 상술된 세가지 값 중 하나 이상에 기초하여 충격음이 검출될 수 있다.
게인 결정부(140)는 서프레션 게인 값을 결정할 수 있다. 서프레션 게인 값은 잡음 검출부(130)에 의해 충격음을 포함하는 것으로 판단된 오디오 신호에 적용될 수 있다. 서프레션 게인 값이 오디오 신호에 적용됨으로써, 충격음이 포함된 오디오 신호의 크기가 작아질 수 있다.
서프레션 게인 값은 예를 들면, 이하 수학식 5와 같이 결정될 수 있다.
Figure pct00005
수학식 5에서, G(w, n)은 프레임 n의 오디오 신호 중 주파수 w에 대해 적용될 수 있는 서프레션 게인 값을 나타낸다. Ych.N(wN, n)은 서프레션 게인이 적용되는 오디오 신호를 나타낸다. 서프레션 게인은 수학식 5와 같이 서프레션 게인이 적용되는 오디오 신호의 에너지 크기에 따라 결정될 수 있다. 또한, 서프레션 게인은 최대값인 MaXGain 값 이하로 결정될 수 있다. 그러나, 상술된 예에 한하지 않고 서프레션 게인은 다양한 방법으로 결정될 수 있다.
게인 결정부(140)에 의해 결정된 서프레션 게인은 연산부(150)에 의해 주파수 도메인의 오디오 신호에 적용될 수 있다. 서프레션 게인이 적용된 오디오 신호는 변환부(160)에 의하여 시간 도메인의 오디오 신호로 변환되어 출력될 수 있다.
도 2는 일 실시 예에 의한 오디오 신호를 처리하는 방법을 나타낸 순서도이다.
도 2를 참조하면, 단계 S210에서, 단말 장치(100)는 복수의 프레임에 대한 주파수 도메인의 오디오 신호를 획득할 수 있다. 단말 장치(100)는 수신된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다.
단계 S220에서, 단말 장치(100)는 주파수 대역을 복수 개의 구간으로 분할하여, 단계 S230에서, 복수 개의 구간에 대한 에너지를 구할 수 있다. 각 구간에 대한 에너지는 각 주파수에 대한 에너지 값들의 평균값, 중간값 등의 대표값으로 결정될 수 있다.
단계 S240에서, 단말 장치(100)는 복수 개의 구간들 간 에너지 차이에 기초하여, 잡음이 포함된 오디오 신호를 검출할 수 있다. 예를 들면, 단말 장치(100)는 저주파수 구간에 대한 에너지와 고주파수 구간에 대한 에너지 간 차이 또는 비율에 기초하여, 충격음을 포함한 오디오 신호를 검출할 수 있다. 단말 장치(100)는 프레임 단위로 충격음이 포함된 오디오 신호를 검출할 수 있다.
단계 S250에서, 단말 장치(100)는 단계 S240에서 검출된 오디오 신호에 서프레션 게인을 적용할 수 있다. 서프레션 게인이 오디오 신호에 적용됨에 따라 오디오 신호의 에너지 크기가 작아질 수 있다. 충격음을 포함한 오디오 신호의 크기가 작아짐으로써, 충격음이 제거된 오디오 신호가 출력될 수 있다.
도 3은 일 실시 예에 의한 충격음과 타겟 신호의 일 예를 나타낸 예시 도면이다.
310은 시간 도메인에서의 충격음, 320은 시간 도메인에서의 타겟 신호인 음성 신호를 나타낸 도면이다. 310 및 320을 참조하면, 모두 짧은 시간 동안 크기가 급격히 증가하는 특징을 가지고 있다.
330은, 310 및 320의 충격음과 음성 신호와 대응되는 주파수 도메인의 신호를 도시한 것이다. 주파수 도메인에서 음성 신호는 고주파수 영역의 에너지가 저주파수 영역의 에너지에 비해 크지 않고, 소정 주파수 구간에서 에너지가 고루 퍼져 있다. 그러나, 충격음의 경우, 고주파수 영역의 에너지가 저주파수 영역의 에너지에 비해 크고, 음성 신호에 비하여 높은 주파수 구간에 에너지가 몰려 있다.
단말 장치(100)는 충격음이 음성 신호에 비해 높은 주파수 구간에 에너지가 몰려 있는 점을 이용하여 충격음을 포함하는 오디오 신호를 검출할 수 있다. 예를 들면, 단말 장치(100)는 고주파수 영역의 에너지와 저주파수 영역의 에너지 간 차이 또는 비율에 기초하여, 충격음을 포함하는 오디오 신호를 검출할 수 있다.
도 4는 일 실시 예에 의해 처리된 오디오 신호의 일 예를 나타낸 도면이다.
410은 처리되기 전 오디오 신호이고, 420은 서프레션 게인이 적용됨으로써 충격음이 제거된 오디오 신호를 나타낸 도면이다. 일 실시 예에 의하면, 고주파수 영역의 에너지와 저주파수 영역의 에너지 간 차이 또는 비율에 기초하여, 충격음을 포함하는 오디오 신호가 검출될 수 있다. 따라서, 충격음에 해당되지 않으나, 411, 412와 같이 에너지 크기가 급격히 증가하는 구간에 대하여 서프레션 게인이 적용되지 않을 수 있다.
이하 도 5 내지 도 8을 참조하여, 다른 실시예에 따라 잡음을 제거하기 위한 오디오 신호를 처리하는 방법에 대해 더 자세히 설명하기로 한다.
도 5는 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 방법을 나타낸 블록도이다.
도 5에 도시된 오디오 신호를 처리하는 방법은 상술된 단말 장치(100)에 의해 수행될 수 있다. 단말 장치(100)는 외부에서 발생된 소리를 수신할 수 있는 마이크를 구비하여, 마이크를 통해 오디오 신호를 수신하거나, 외부 장치로부터 오디오 신호를 수신할 수 있다.
단말 장치(100)는 도 1 내지 도 2에 도시된 방법에 따라 오디오 신호의 충격음을 제거한 후, 도 5에 도시된 방법에 따라 오디오 신호를 처리할 수 있다. 도 1 내지 도 2에 도시된 방법에 따라 충격음이 제거된 오디오 신호는 전방 신호 및 후방 신호로 나뉘어 획득될 수 있다. 또는, 단말 장치(100)는 도 5에 도시된 방법에 따라 오디오 신호를 처리한 후, 도 1 내지 도 2에 도시된 방법에 따라 오디오 신호의 충격음을 제거할 수 있다.
단말 장치(100)는 전방 신호를 수신할 수 있는 전방 마이크와 후방 신호를 수신할 수 있는 후방 마이크를 포함할 수 있다. 전방 마이크와 후방 마이크는 서로 소정 거리만큼 떨어진 곳에 위치하며, 오디오 신호의 방향성에 따라 서로 다른 오디오 신호를 수신할 수 있다. 단말 장치(100)는 오디오 신호의 방향성을 이용하여 오디오 신호의 잡음을 제거할 수 있다.
단말 장치(100)가 보청기와 같이 사용자의 귀에 부착되어 사용되는 경우, 단말 장치(100)의 전후방 마이크는 다양한 방향으로 오는 소리들을 수집할 수 있다. 예를 들면, 사용자가 다른 화자와 마주 보고 이야기하는 상황인 경우, 단말 장치(100)는 사용자 전방에서 오는 소리를 타겟 신호로 두고, 방향성이 없는 소리는 잡음으로 처리할 수 있다. 단말 장치(100)는 전후방 마이크를 통해 수집된 오디오 신호의 차이에 기초하여, 잡음을 제거하기 위한 오디오 신호 처리를 수행할 수 있다.
예를 들면, 단말 장치(100)는 전후방 신호가 일치하는 정도를 나타내는 코히어런스(coherence)에 기초하여, 잡음 제거를 위한 오디오 신호 처리를 수행할 수 있다. 전후방 신호가 일치할수록 방향성이 없는 잡음으로 판단될 수 있다. 따라서, 단말 장치(100)는 코히어런스 값이 클수록 해당 오디오 신호가 잡음을 포함하는 것으로 판단하고, 1보다 작은 게인 값을 오디오 신호에 적용시킬 수 있다.
한편, 보청기와 같이 단말 장치(100)가 사용자의 몸에 부착되어 사용되는 경우, 소형화를 위해 전후방 마이크 간 간격이 0.7~1cm 정도로 디자인될 수 있다. 그러나, 전후방 마이크 간 간격이 좁아질수록, 두 마이크를 통해 수신된 오디오 신호 간 상관성이 높아지므로, 신호의 방향성을 이용한 잡음 제거 성능이 낮아질 수 있다.
일 실시 예에 의한 단말 장치(100)는 후방 신호에 딜레이를 인가하고, 딜레이가 인가된 후방 신호와 전방 신호간 코히어런스에 기초하여 잡음 제거를 수행할 수 있다. 후방 신호에 딜레이가 인가됨에 따라, 전방향의 오디오 신호의 경우, 코히어런스 값이 더 작아지고, 후방향의 오디오 신호의 경우, 코히어런스 값이 더 커질 수 있다. 따라서, 전후방 마이크 간 간격이 좁아져 오디오 신호간 상관성이 높아지더라도, 타겟 신호를 포함하는 전방향의 오디오 신호의 코히어런스 값은 더 작은 값으로 결정되므로, 잡음 제거 성능이 좋아질 수 있다.
도 5를 참조하면, 전방 신호 및 딜레이가 적용(515)된 후방 신호에 대하여 주파수 도메인의 신호로 변환하기 위해 FFT(fast fourier transform) 변환(510, 520)이 수행될 수 있다. 상술된 FFT에 한하지 않고 주파수 도메인의 신호로 오디오 신호를 변환하기 위한 다양한 방법이 이용될 수 있다. 후방 신호에 대한 딜레이 적용(515) 및 FFT 변환(520)은 도시된 순서에 한하지 않고 반대로 수행될 수 있다.
저주파수 대역의 경우, 오디오 신호의 방향성이 낮으므로 전방향의 오디오 신호의 코히어런스 값도 1에 가까운 값으로 결정될 수 있다. 따라서, 단말 장치(100)는 저주파수 대역의 코히어런스 값을 구하는 대신 고주파수 대역의 코히어런스 값에 기초하여 저주파수 대역에 대한 게인 값을 구할 수 있다.
단말 장치(100)는 525 및 530에서, 주파수 대역을 적어도 두 개의 구간으로 분할하고, 고주파수 구간에서, 전방 신호 및 딜레이가 적용된 후방 신호 간 코히어런스 값을 구할 수 있다. 525에서, 단말 장치(100)는 좁은 전후방 마이크의 간격으로 인해 높은 상관성을 가지는 주파수 대역을 기준으로 주파수 대역을 복수 개의 구간으로 분할할 수 있다.
예를 들면, 이하 수학식 6과 같이 코히어런스 값(Гfb)이 0에서 1 사이의 값으로 결정될 수 있다. 전후방 신호가 높은 상관성을 가질수록 코히어런스 값은 1에 가까운 값으로 결정될 수 있다.
Figure pct00006
수학식 6에서, φff 및 φbb 는 각각 전방 신호 및 딜레이(δ)가 적용된 후방 신호에 대한 에너지 밀도(PSD; power spectral density)를 의미하고, φfb 는 크로스 에너지 밀도(CSD; cross power spectral density)를 의미한다. α는 0과 1사이의 값으로 결정될 수 있다. 전방 신호 및 딜레이(δ)가 적용된 후방 신호의 에너지 밀도 값에 기초하여, 두 신호의 상관성을 나타내는 코히어런스 값이 결정될 수 있다. 상술된 예에 한하지 않고, 코히어런스 값은 다양한 방법으로 결정될 수 있다.
딜레이가 적용된 후방 신호를 이용하여 코히어런스 값이 결정됨으로써, 전방향의 오디오 신호에 대한 코히어런스 값은 더 작은 값으로 결정되고, 후방향의 오디오 신호에 대한 코히어런스 값은 더 큰 값으로 결정될 수 있다. 따라서, 전후방 마이크 간 간격이 좁아져 오디오 신호간 상관성이 높아지더라도, 타겟 신호를 포함하는 전방향의 오디오 신호의 코히어런스 값은 더 작은 값으로 결정될 수 있어, 잡음 제거 성능이 좋아질 수 있다.
단말 장치(100)는 545에서, 고주파수 대역에서 적용될 수 있는 게인 값을 코히어런스 값에 기초하여 결정할 수 있다. 예를 들면 이하 수학식 7과 같이 게인 Gh을 결정할 수 있다.
Figure pct00007
Gh 값은 주파수 wh 값에 따라 서로 다른 값으로 결정될 수 있다. 전방향의 오디오 신호가 포함된 주파수 성분에 대한 코히어런스 값은 0에 가까운 값을 가질 수 있으므로, 게인은 1에 가까운 값으로 결정될 수 있다. 따라서, 전방향의 오디오 신호가 포함된 주파수 성분은 그 크기가 그대로 보존될 수 있다. 반면, 후방향의 오디오 신호가 포함된 주파수 성분에 대한 코히어런스 값은 1에 가까운 값을 가질 수 있으므로, 게인은 0에 가까운 값으로 결정될 수 있다. 따라서, 후방향의 오디오 신호가 포함된 주파수 성분은 그 크기가 작아질 수 있다.
Gh 값은 코히어런스 값의 실수 부분, 허수 부분 또는 크기(magnitude coherence)에 기초하여 결정될 수 있다. 상술된 예에 한하지 않고 게인 Gh 값은 코히어런스 값에 기초하여, 다양한 방법으로 결정될 수 있다.
550에서 결정될 수 있는 저주파수 대역에 대한 게인 값은 상술한 바와 같이 고주파수 대역의 코히어런스 값에 기초하여 결정될 수 있다. 예를 들면 이하 수학식 8에 따라 저주파수 대역에 대한 게인 G'l값이 결정될 수 있다.
Figure pct00008
게인 Gl 값은 535에서, 전방 신호 Yf에 포함된 잡음 신호 Nf를 추정하여 결정할 수 있다. 전방의 오디오 신호에 포함된 잡음은 다양한 방법으로 추정될 수 있다. 예를 들면, 단말 장치(100)는 잡음 신호의 특성에 기초하여, 전방의 오디오 신호에 포함된 잡음을 검출할 수 있다. 잡음 신호가 클수록 해당 주파수 성분의 크기가 작아지도록, 게인 Gl 값은 작은 값으로 결정될 수 있다.
또한, 게인 G'l값은 550에서, 게인 Gl 값과 고주파수 대역의 코히어런스 Гfb 값에 기초하여 결정될 수 있다. 단말 장치(100)는 540에서 코히어런스 Гfb 값의 변화량에 따라 타겟 신호의 방향성을 추정하고, 타겟 신호의 방향성에 기초하여 저주파수 대역의 게인 G'l값을 결정할 수 있다. 예를 들어, 타겟 신호가 전방향(front)인 경우, 소정 주파수 성분에서 코히어런스 값이 0에 가까운 값일 수 있다. 소정 주파수 성분은 타겟 신호의 특성에 따라 결정될 수 있다. 타겟 신호가 스피치 신호인 경우, 소정 주파수 성분은 음성의 주파수 구간인 200~3500Hz 구간 중에서 결정될 수 있다. 반면, 스피치 신호의 방향이 후방향(back)인 경우, 소정 주파수 구간에서 코히어런스 값이 1에 가까운 값일 수 있다.
단말 장치(100)는 타겟 신호가 전방향인 경우, 추정된 잡음 신호에 따라 잡음 성분이 서프레션되도록 저주파수 대역의 게인 G'l값을 게인 Gl 으로 결정할 수 있다. 또한, 타겟 신호가 후방향인 경우, 후방향의 타겟 신호 및 잡음 성분이 같이 서프레션되도록 단말 장치(100)는 저주파수 대역의 게인 G'l값을 게인 Gl 값보다 더 작은 값으로 결정할 수 있다.
555에서, 단말 장치(100)는 전방 신호와 딜레이가 적용된 후방 신호의 차이를 구함으로써 고정된 빔포밍 신호(fixed beamforming)를 구할 수 있다. 고정된 빔포밍 신호는 후방향의 오디오 신호는 제거되고 전방향의 오디오 신호는 강화된 오디오 신호를 포함할 수 있다. 예를 들면, 고정된 빔포밍 신호는 이하 수학식 9에 따라 획득될 수 있다.
Figure pct00009
단말 장치(100)는 560에서, 고정된 빔포밍 신호에 540 및 550에서 획득된 게인을 적용하여 후방향의 잡음 신호를 제거할 수 있다. 예를 들면, 이하 수학식 10에 따라서 고정된 빔포밍 신호에 게인이 적용될 수 있다.
Figure pct00010
그리고, 단말 장치(100)는 565에서, FFT 역변환을 수행함으로써 주파수 도메인의 신호를 시간 도메인의 신호로 변환하여 출력할 수 있다.
도 6은 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 방법을 나타낸 블록도이다. 도 5와는 달리 타겟 신호의 방향성을 추정(540)하는 단계 없이 저주파수 대역의 게인이 결정될 수 있다. 도 6에 도시된 바에 따르면, 저주파수 대역의 게인은 전방 신호의 추정된 잡음에 기초하여 결정된 게인 Gl 으로 결정될 수 있다.
도 7은 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 방법을 나타낸 순서도이다.
도 7을 참조하면, 단계 S710에서, 단말 장치(100)는 오디오 신호의 전방 신호 및 후방 신호를 획득할 수 있다. 단말 장치(100)는 전후방 마이크를 통해 전방 신호 및 후방 신호를 획득할 수 있다.
단계 S720에서, 단말 장치(100)는 딜레이가 적용된 후방 신호 및 전방 신호에 대한 코히어런스 값을 획득할 수 있다. 단말 장치(100)는 후방 신호에 대해 딜레이를 적용한 후, 딜레이가 적용된 후방 신호와 전방 신호 간 코히어런스 값을 구할 수 있다. 따라서, 단말 장치(100)는 전후방 마이크의 좁은 간격으로 인해 오디오 신호간 상관성이 높아지더라도, 타겟 신호를 포함하는 전방향의 오디오 신호의 코히어런스 값은 더 작은 값으로 결정될 수 있어, 잡음 제거 성능이 좋아질 수 있다.
단계 S730에서, 단말 장치(100)는 코히어런스에 기초하여 게인 값을 결정할 수 있다. 코히어런스 값이 1에 가까울수록 후방향의 신호에 해당되므로, 후방향의 신호가 제거되도록 게인값이 결정될 수 있다. 반면, 코히어런스 값이 0에 가까울수록 전방향의 신호에 해당되므로, 전방향의 신호가 유지되도록 게인 값이 결정될 수 있다.
단계 S740에서, 단말 장치(100)는 딜레이가 적용된 후방 신호와 전방 신호 간 차이를 구하여 고정된 빔포밍 신호를 획득할 수 있다. 고정된 빔포밍 신호는 후방향의 오디오 신호는 제거되고 전방향의 오디오 신호는 강화된 오디오 신호를 포함할 수 있다.
단계 S750에서, 단말 장치(100)는 고정된 빔포밍 신호에 단계 S730에서 결정된 게인 값을 적용시켜 출력할 수 있다. 단말 장치(100)는 게인 값이 적용된 고정된 빔포밍 신호를 시간 도메인의 신호로 변환하여 출력할 수 있다.
더하여, 저주파수 대역의 경우, 오디오 신호의 방향성이 낮으므로 전방향의 오디오 신호의 코히어런스 값도 1에 가까운 값으로 결정될 수 있다. 따라서, 단말 장치(100)는 저주파수 대역에서 전방 신호의 잡음 신호를 추정하고, 추정된 잡음 신호에 기초하여, 저주파수 대역의 잡음 제거를 위한 게인 값을 구할 수 있다. 또한, 단말 장치(100)는 고주파수 대역의 코히어런스 값에 기초하여 타겟 신호의 방향성을 결정하고, 타겟 신호의 방향성에 기초하여 저주파수 대역에 대한 게인 값을 구할 수 있다.
도 8은 일 실시 예에 의한 잡음을 제거하기 위한 오디오 신호를 처리하는 일 예를 나타낸 예시 도면이다.
810은, 도 5 내지 도 7에 도시된 실시 예에 따라 잡음을 제거하기 전 오디오 신호를 나타낸 것이다. 또한, 820은 도 5 내지 도 7에 도시된 실시 예에 따라 잡음을 제거한 후의 오디오 신호를 나타낸 것이다. 일 실시 예에 의한 오디오 신호 처리 방법에 의하면, 후방 신호에 딜레이를 인가함으로써, 후방향 신호를 효과적으로 제거할 수 있다.
도 9는 일 실시 예에 의한 오디오 신호를 처리하는 장치의 내부 구조를 나타낸 블록도이다.
도 9를 참조하면, 오디오 신호를 처리하는 단말 장치(900)는 수신부(910), 제어부(920) 및 출력부(930)를 포함할 수 있다.
수신부(910)는 마이크를 통해 오디오 신호를 수신할 수 있다. 또는 수신부(910)는 외부 장치로부터 오디오 신호를 수신할 수 있다. 수신부(910)는 전후방 마이크를 통하여, 전방 신호 및 후방 신호를 수신할 수 있다.
제어부(920)는 수신부(910)에 의해 수신된 오디오 신호로부터 잡음을 검출하고, 잡음이 검출된 영역의 오디오 신호에 대하여 서프레션 게인을 적용시킴으로써, 잡음 제거를 수행할 수 있다. 제어부(920)는 주파수 대역들간 에너지의 차이에 기초하여, 충격음이 포함된 영역을 검출하고, 검출된 영역에 대하여 서프레션 게인을 적용시킬 수 있다. 또한, 제어부(920)는 딜레이가 적용된 후방 신호와 전방 신호간 코히어런스에 기초하여 오디오 신호에 적용될 게인 값을 결정함으로써, 후방향의 신호를 오디오 신호로부터 제거시킬 수 있다.
출력부(930)는 제어부(920)에 의해 처리된 오디오 신호를 시간 도메인의 신호로 변환한 후, 출력할 수 있다. 출력부(930)는 제어부(920)에 의해 일부 구간의 오디오 신호에 대하여 게인 값이 적용된 오디오 신호를 시간 도메인의 신호로 변환한 후, 출력할 수 있다. 또한, 출력부(930)는 코히어런스에 기초하여 결정된 게인 값을 오디오 신호의 고정된 빔포밍 신호에 적용시켜 출력할 수 있다.
예를 들면, 출력부(930)는 시간 도메인의 오디오 신호를 스피커를 통해 출력시킬 수 있다.
일 실시 예에 의한 오디오 신호 처리 방법에 의하면, 오디오 신호의 음질 왜곡을 최소화하면서 오디오 신호에 포함된 잡음을 효과적으로 제거할 수 있다.
일부 실시 예에 의한 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.

Claims (15)

  1. 오디오 신호를 처리하는 방법에 있어서,
    복수의 프레임에 대한 주파수 도메인의 오디오 신호를 획득하는 단계;
    주파수 대역을 복수 개의 구간으로 분할하는 단계;
    상기 복수 개의 구간에 대한 에너지를 구하는 단계;
    상기 복수 개의 구간들 간 에너지 차이에 기초하여, 잡음이 포함된 오디오 신호를 검출하는 단계; 및
    상기 검출된 오디오 신호에 서프레션(suppression) 게인을 적용하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 잡음이 포함된 오디오 신호를 검출하는 단계는
    상기 복수의 프레임에 대한 에너지를 구하는 단계;
    상기 복수 개의 프레임들 간 에너지 차이 및 소정 프레임의 에너지 값 중 적어도 하나에 기초하여, 잡음이 포함된 오디오 신호를 검출하는 단계를 포함하는, 방법.
  3. 제1항에 있어서, 상기 서프레션 게인을 적용하는 단계는
    상기 잡음이 검출된 오디오 신호의 에너지에 기초하여 상기 서프레션 게인을 결정하는 단계를 포함하는, 방법.
  4. 제1항에 있어서, 상기 주파수 대역 간 에너지 차이는
    제1 주파수 구간의 에너지와 제2 주파수 구간의 에너지 간 차이이고,
    상기 제2 주파수 구간은 상기 제1 주파수 구간보다 높은 주파수 대역의 구간인, 방법.
  5. 오디오 신호를 처리하는 방법에 있어서,
    전방(front) 신호 및 후방(back) 신호를 획득하는 단계;
    딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 코히어런스(coherence)를 획득하는 단계;
    상기 코히어런스에 기초하여, 게인 값을 결정하는 단계; 및
    딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 차이를 구하여 고정된 빔포밍(fixed beamforming) 신호를 획득하는 단계;
    상기 고정된 빔포밍 신호에 상기 게인 값을 적용시켜 출력하는 단계를 더 포함하는, 방법.
  6. 제5항에 있어서, 상기 코히어런스를 획득하는 단계는
    주파수 대역을 적어도 두 개의 구간으로 분할하는 단계;
    상기 분할된 구간 중 고주파수 구간에 대한 상기 코히어런스를 획득하는 단계를 포함하고,
    상기 게인 값을 결정하는 단계는
    상기 고주파수 구간에 대한 코히어런스에 기초하여, 상기 오디오 신호의 타겟 신호에 대한 방향성을 결정하는 단계;
    상기 방향성에 기초하여, 상기 분할된 구간 중 저주파수 구간에 대한 게인 값을 결정하는 단계를 포함하는, 방법.
  7. 제6항에 있어서, 상기 게인 값을 결정하는 단계는
    상기 전방 신호의 잡음을 추정하는 단계;
    상기 추정된 잡음에 기초하여, 상기 저주파수 구간에 대한 게인 값을 결정하는 단계를 포함하는, 방법.
  8. 오디오 신호를 처리하는 단말 장치에 있어서,
    복수의 프레임에 대한 주파수 도메인의 오디오 신호를 획득하는 수신부;
    주파수 대역을 복수 개의 구간으로 분할하고, 상기 복수 개의 구간에 대한 에너지를 구하고, 상기 복수 개의 구간들 간 에너지 차이에 기초하여, 잡음이 포함된 오디오 신호를 검출하고, 상기 검출된 오디오 신호에 서프레션 게인을 적용하는 제어부; 및
    상기 제어부에 의해 처리된 오디오 신호를 시간 도메인의 신호로 변환하여 출력하는 출력부를 포함하는, 단말 장치.
  9. 제8항에 있어서, 상기 제어부는
    상기 복수의 프레임에 대한 에너지를 구하고, 상기 복수 개의 프레임들 간 에너지 차이 및 소정 프레임의 에너지 값 중 적어도 하나에 기초하여, 잡음이 포함된 오디오 신호를 검출하는, 단말 장치.
  10. 제8항에 있어서, 상기 제어부는
    상기 잡음이 검출된 오디오 신호의 에너지에 기초하여 상기 서프레션 게인을 결정하는, 단말 장치.
  11. 제8항에 있어서, 상기 주파수 대역 간 에너지 차이는
    제1 주파수 구간의 에너지와 제2 주파수 구간의 에너지 간 차이이고,
    상기 제2 주파수 구간은 상기 제1 주파수 구간보다 높은 주파수 대역의 구간인, 단말 장치.
  12. 오디오 신호를 처리하는 단말 장치에 있어서,
    전방 신호 및 후방 신호를 획득하는 수신부;
    딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 코히어런스를 획득하고, 상기 코히어런스에 기초하여, 게인 값을 결정하고, 딜레이가 적용된 상기 후방 신호와 상기 전방 신호 간 차이를 구하여 고정된 빔포밍 신호를 획득하고, 상기 고정된 빔포밍 신호에 상기 게인 값을 적용시키는 제어부; 및
    상기 게인값이 적용된 고정된 빔포밍 신호를 시간 도메인의 신호로 변환하여 출력하는 출력부를 포함하는, 단말 장치.
  13. 제12항에 있어서, 상기 제어부는
    주파수 대역을 적어도 두 개의 구간으로 분할하고, 상기 분할된 구간 중 고주파수 구간에 대한 상기 코히어런스를 획득하고,
    상기 고주파수 구간에 대한 코히어런스에 기초하여, 상기 오디오 신호의 타겟 신호에 대한 방향성을 결정하고, 상기 방향성에 기초하여, 상기 분할된 구간 중 저주파수 구간에 대한 게인 값을 결정하는, 단말 장치.
  14. 제13항에 있어서, 상기 제어부는
    상기 전방 신호의 잡음을 추정하고, 상기 추정된 잡음에 기초하여, 상기 저주파수 구간에 대한 게인 값을 결정하는, 단말 장치.
  15. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020177003323A 2014-10-01 2015-10-01 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치 KR102475869B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462058252P 2014-10-01 2014-10-01
US201462058267P 2014-10-01 2014-10-01
US62/058,267 2014-10-01
US62/058,252 2014-10-01
PCT/KR2015/010370 WO2016053019A1 (ko) 2014-10-01 2015-10-01 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20170065488A true KR20170065488A (ko) 2017-06-13
KR102475869B1 KR102475869B1 (ko) 2022-12-08

Family

ID=55630968

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177003323A KR102475869B1 (ko) 2014-10-01 2015-10-01 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치

Country Status (3)

Country Link
US (1) US10366703B2 (ko)
KR (1) KR102475869B1 (ko)
WO (1) WO2016053019A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205628B (zh) * 2015-05-06 2018-11-02 小米科技有限责任公司 声音信号优化方法及装置
EP3340642B1 (en) 2016-12-23 2021-06-02 GN Hearing A/S Hearing device with sound impulse suppression and related method
US10629226B1 (en) * 2018-10-29 2020-04-21 Bestechnic (Shanghai) Co., Ltd. Acoustic signal processing with voice activity detector having processor in an idle state
CN109643554B (zh) * 2018-11-28 2023-07-21 深圳市汇顶科技股份有限公司 自适应语音增强方法和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060036723A (ko) * 2004-10-26 2006-05-02 삼성전자주식회사 복수 채널 오디오 신호의 잡음 제거 방법 및 장치
US20100020986A1 (en) * 2008-07-25 2010-01-28 Broadcom Corporation Single-microphone wind noise suppression
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030007657A1 (en) 2001-07-09 2003-01-09 Topholm & Westermann Aps Hearing aid with sudden sound alert
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
EP1875466B1 (en) 2005-04-21 2016-06-29 Dts Llc Systems and methods for reducing audio noise
US7983425B2 (en) 2006-06-13 2011-07-19 Phonak Ag Method and system for acoustic shock detection and application of said method in hearing devices
JP5093108B2 (ja) * 2006-07-21 2012-12-05 日本電気株式会社 音声合成装置、方法、およびプログラム
CN102804260B (zh) 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法
KR101624652B1 (ko) 2009-11-24 2016-05-26 삼성전자주식회사 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치, 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
KR101420960B1 (ko) 2010-07-15 2014-07-18 비덱스 에이/에스 보청기 시스템에서의 신호 처리 방법 및 보청기 시스템
WO2012078670A1 (en) 2010-12-06 2012-06-14 The Board Of Regents Of The University Of Texas System Method and system for enhancing the intelligibility of sounds relative to background noise
KR101254989B1 (ko) 2011-10-14 2013-04-16 한양대학교 산학협력단 2채널 디지털 보청기 및 2채널 디지털 보청기의 빔포밍 방법
JP6069830B2 (ja) * 2011-12-08 2017-02-01 ソニー株式会社 耳孔装着型収音装置、信号処理装置、収音方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060036723A (ko) * 2004-10-26 2006-05-02 삼성전자주식회사 복수 채널 오디오 신호의 잡음 제거 방법 및 장치
US20100020986A1 (en) * 2008-07-25 2010-01-28 Broadcom Corporation Single-microphone wind noise suppression
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器

Also Published As

Publication number Publication date
KR102475869B1 (ko) 2022-12-08
US20170309293A1 (en) 2017-10-26
US10366703B2 (en) 2019-07-30
WO2016053019A1 (ko) 2016-04-07

Similar Documents

Publication Publication Date Title
US10972837B2 (en) Robust estimation of sound source localization
KR101184806B1 (ko) 강인한 두 마이크로폰 잡음 억제 시스템
US8345890B2 (en) System and method for utilizing inter-microphone level differences for speech enhancement
JP6215488B2 (ja) 能動騒音低減イヤホン、該イヤホンに適用する騒音低減制御方法及びシステム
US9792927B2 (en) Apparatuses and methods for multi-channel signal compression during desired voice activity detection
US9363596B2 (en) System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
KR102352927B1 (ko) 상관 기반 근접장 검출기
JP5446745B2 (ja) 音信号処理方法および音信号処理装置
KR102475869B1 (ko) 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치
KR20180021368A (ko) 상황 인식력을 갖는 스포츠 헤드폰
KR101757461B1 (ko) 배경잡음의 스펙트럼 밀도를 추정하는 방법 및 이를 수행하는 프로세서
US20180242078A1 (en) Sound pick-up device, program, and method
KR101702561B1 (ko) 음원출력장치 및 이를 제어하는 방법
JP6314475B2 (ja) 音声信号処理装置及びプログラム
US11095979B2 (en) Sound pick-up apparatus, recording medium, and sound pick-up method
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
Fu et al. Dual-microphone noise reduction based on semi-blind DUET

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant