KR102238429B1 - 돌발성 잡음 검출 장치 - Google Patents

돌발성 잡음 검출 장치 Download PDF

Info

Publication number
KR102238429B1
KR102238429B1 KR1020190047948A KR20190047948A KR102238429B1 KR 102238429 B1 KR102238429 B1 KR 102238429B1 KR 1020190047948 A KR1020190047948 A KR 1020190047948A KR 20190047948 A KR20190047948 A KR 20190047948A KR 102238429 B1 KR102238429 B1 KR 102238429B1
Authority
KR
South Korea
Prior art keywords
frequency bin
frequency
energy
section
bin section
Prior art date
Application number
KR1020190047948A
Other languages
English (en)
Other versions
KR20200124526A (ko
Inventor
이만희
Original Assignee
주식회사 이엠텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이엠텍 filed Critical 주식회사 이엠텍
Priority to KR1020190047948A priority Critical patent/KR102238429B1/ko
Publication of KR20200124526A publication Critical patent/KR20200124526A/ko
Application granted granted Critical
Publication of KR102238429B1 publication Critical patent/KR102238429B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

본 발명은 음향 신호를 주파수 영역으로 전환하여 생성된 디지털 데이터(FFT bin)로부터 주파수 빈 구간의 에너지를 산정하여 음향 신호에서 돌발성 잡음을 검출함으로써 보다 연산량을 감소시킨 돌발성 잡음 검출 장치에 관한 것이다.
본 발명인 돌발성 잡음 검출 장치는 음향을 획득하여 음향 신호를 인가하는 마이크와, 마이크로부터 인가된 음향 신호의 기설정된 크기의 프레임 각각을 고속 푸리에 변환을 수행하여, 서로 중첩되지 않는 제 1 내지 제 4 주파수 빈 구간의 합산 에너지들을 산정하고, 산정된 제 1 내지 제 4 주파수 빈 구간의 합산 에너지들을 기준으로 하여 현재 프레임에 돌발성 잡음이 발생되었는지를 판단하는 프로세서로 구성되고, 제 4 주파수 빈 구간은 음성 영역의 주파수 영역을 포함하고, 제 3 주파수 빈 구간의 주파수 영역은 제 4 주파수 빈 구간의 주파수 영역보다 크고, 제 2 주파수 빈 구간의 주파수 영역은 제 3 주파수 빈 구간의 주파수 영역보다 크고, 제 1 주파수 빈 구간의 주파수 영역은 제 2 주파수 빈 구간의 주파수 영역보다 크다.

Description

돌발성 잡음 검출 장치{SPORADIC NOISE DETECTING APPARATUS}
본 발명은 돌발성 잡음 검출 장치에 관한 것으로서, 특히 음향 신호를 주파수 영역으로 전환하여 생성된 디지털 데이터(FFT bin)로부터 주파수 빈 구간의 에너지를 산정하여 음향 신호에서 돌발성 잡음을 검출함으로써 보다 연산량을 감소시킨 돌발성 잡음 검출 장치에 관한 것이다.
음성 인식 및 음성 데이터의 신호처리에서 가장 문제가 되는 것은 해당 신호에 포함된 잡음의 제거인데, 그 잡음은 신호의 전체구간에 골고루 분포하는 잡음과 특정 구간에 일시적으로 존재하는 산발적 잡음으로 나눌 수 있다.
그 중 산발적 잡음은 임펄스성 잡음, 즉 짧은 시간동안 존재하며 그 진폭이 매우 크고 단순한 파형을 갖는 잡음과 돌발성 잡음 즉, 임펄스 잡음에 비해 비교적 긴 시간 동안 존재하며 음성과 비슷한 진폭과 신호성분이 복잡한 돌발성 잡음으로 대별된다. 돌발성 잡음의 예를 들면 책상서랍 닫는 소리, 문 닫는 소리, 손뼉 치는 소리 등이 이러한 잡음에 속한다.
종래에는, 신호 전구간에 걸쳐 존재하는 잡음을 제거하는 방법이 사용된 바, 이러한 방법은 고전적인 필터나 적응 필터 등의 방법과 평균잡음 제거법 등의 방법이 있으며, 산발적 잡음의 하나인 임펄스성 잡음을 제거하기 위한 방법들은 가변역을 이용하거나 앞뒤 신호의 상관관계를 이용하는 방법 등이 있다. 그러나 시스템의 성능에 큰 영향을 미치는 돌발성 잡음을 제거하기 위한 유용한 방법은 제시된 것이 없다.
통상, 음성인식은 기본적으로 인식하고자 하는 음성 패턴과 기준 패턴과의 주사도 판별에 의해 이루어지는 바, 이때 인식할 음성 데이터에서 음성구간을 가능한 한 정확히 검출하여야 음성인식의 성능을 높일 수 있다.
기존의 잡음제거 방법들을 사용하여 잡음을 축약 시키거나 제거 할 경우, 필요한 신호성분도 왜곡되거나 제거하는 경우가 발생되는 부작용이 있다. 또한 기존의 어떠한 방법도 돌발성 잡음을 효과적으로 제거하지 못하고 있다. 왜냐하면, 돌발성 잡음의 특성이 여타 잡음의 특성과는 기본적으로 틀리므로 기존의 방법을 적용할 경우 잡음이 제거되지 않을 뿐만 아니라 설사 일부 잡음이 제거된다 하더라도 신호성분의 왜곡이나 제거가 심하게 이루어 지므로 이러한 방법으로 돌발성 잡음을 제거할 수는 없다는 문제점이 있다. 즉, 입력된 신호에서 잡음성분을 제거하고 필요한 음성 신호만을 검출하는 것은 음성 신호처리, 음성코딩 및 각종 데이터 통신분야에서 시스템의 성능과 음성코딩의 압축률 향상, 통신대역폭의 효율적 사용을 가능토록 할 수 있는 매우 중요한 문제이다. 특히 시스템의 오동작의 가장 큰 원인이 되는 각종 돌발 잡음은 특정한 확률적 특성이나 상관함수를 가지고 있지 않으며, 그 중 일부는 파형과 주파수 스펙트럼의 분포 형태가 음성과 유사하여 제거하기가 매우 까다로우며 기존의 방법으로는 완벽한 제거는 불가능하다는 문제가 있다.
본 발명은 음향 신호를 주파수 영역으로 전환하여 생성된 디지털 데이터(FFT bin)로부터 주파수 빈 구간의 에너지를 산정하여 음향 신호에서 돌발성 잡음을 검출하는 돌발성 잡음 검출 장치를 제공하는 것을 목적으로 한다.
본 발명인 돌발성 잡음 검출 장치는 음향을 획득하여 음향 신호를 인가하는 마이크와, 마이크로부터 인가된 음향 신호의 기설정된 크기의 프레임 각각을 고속 푸리에 변환을 수행하여, 서로 중첩되지 않는 제 1 내지 제 4 주파수 빈 구간의 합산 에너지들을 산정하고, 산정된 제 1 내지 제 4 주파수 빈 구간의 합산 에너지들을 기준으로 하여 현재 프레임에 돌발성 잡음이 발생되었는지를 판단하는 프로세서로 구성되고, 제 4 주파수 빈 구간은 음성 영역의 주파수 영역을 포함하고, 제 3 주파수 빈 구간의 주파수 영역은 제 4 주파수 빈 구간의 주파수 영역보다 크고, 제 2 주파수 빈 구간의 주파수 영역은 제 3 주파수 빈 구간의 주파수 영역보다 크고, 제 1 주파수 빈 구간의 주파수 영역은 제 2 주파수 빈 구간의 주파수 영역보다 크다.
또한, 상기 프로세서는 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 이전 프레임의 제 1 주파수 빈 구간의 합산 에너지보다 작거나 같은 경우 또는 제 4 주파수 빈 구간의 합산 에너지가 제 1 기준 에너지보다 크거나 같은 경우 또는 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 제 2 기준 에너지보다 작거나 같은 경우 또는 제 3 주파수 빈 구간의 합산 에너지가 제 3 기준 에너지보다 작거나 같은 경우 또는 제 3 주파수 빈 구간의 합산 에너지가 제 2 주파수 빈 구간의 합산 에너지보다 큰 경우, 현재 프레임에 돌발성 잡음이 발생되지 않은 것으로 판단하는 것이 바람직하다.
또한, 상기 프로세서는 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 이전 프레임의 제 1 주파수 빈 구간의 합산 에너지보다 크고, 제 4 주파수 빈 구간의 합산 에너지가 제 1 기준 에너지보다 작고, 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 제 2 기준 에너지보다 크고, 제 3 주파수 빈 구간의 합산 에너지가 제 3 기준 에너지보다 크고, 제 3 주파수 빈 구간의 합산 에너지가 제 2 주파수 빈 구간의 합산 에너지보다 작거나 같은 경우, 현재 프레임에 돌발성 잡음이 발생된 것으로 판단하는 것이 바람직하다.
본 발명은 에너지 차이가 적거나 비슷할 수 있는 주파수 빈들을 구간별로 합산한 에너지를 이용하여 단계적으로 돌발성 잡음이 현재 프레임에 발생되었는지를 판단함으로써, 돌발성 잡음이 발생되지 않는 것으로도 보다 신속하게 판단함으로써, 전체적인 연산량을 감소시키는 효과가 있다.
도 1은 돌발성 잡음 검출 장치의 구성도이다.
도 2는 도 1의 돌발성 잡음 검출 장치의 제어 순서도이다.
이하에서, 본 발명은 실시예와 도면을 통하여 상세하게 설명된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
도 1은 돌발성 잡음 검출 장치의 구성도이다. 본 발명인 음향 처리 장치는 음향을 처리할 수 있는 장치로 예를 들면, 음향 기기, 스마트폰, 보청기, 청음 보조 장치 등에 적용될 수 있다.
본 발명인 음향 처리 장치는 외부 음향을 획득하여 아날로그 신호인 음향 신호를 프로세서(10)에 인가하는 마이크(1)와, 사용자로부터의 명령을 입력 받는 입력부(3)와, 아날로그 신호를 인가 받아 음향으로 출력하는 스피커(5)와, 주파수 빈(bin) 구간의 합산 에너지 데이터, 주파수 빈 구간의 합산 기준 에너지, 기준 이득 데이터 및 감쇄 이득 데이터 등을 저장하는 저장부(7)와, 음향 신호에 대해서는 기준 이득에 따른 증폭 동작을 수행하되, 주파수 빈(bin) 구간의 합산 에너지들을 기준으로 하여 음향 신호에 돌발성 잡음이 존재하는지 또는 발생했는지를 판단하고, 음향 신호에 돌발성 잡음(또는 잡음 신호)이 존재하는 경우, 감쇄 이득에 따른 감쇄 동작을 수행하는 프로세서(10)를 포함한다. 다만, 전원부(미도시), 마이크(1), 스피커(5)는 본 발명이 속하는 기술분야에 통상의 지식을 가진 자에게 당연히 인식되는 정도에 불과한 기술에 해당되어, 그 상세한 설명이 생략된다.
입력부(3)는 사용자로부터의 명령(예를 들면, 전원 온/오프, 스피커의 볼륨 조절 등)을 획득하여 프로세서(10)에 인가한다.
저장부(7)는 잡음(돌발성 잡음)이 부존재하는 음향 신호를 보상 처리(기준 이득에 따른 처리 또는 증폭 또는 감쇄)하기 위한 기준 이득 데이터와, 잡음(돌발성 잡음)이 존재하거나 발생된 음향 신호를 감쇄 처리하기 위한 감쇄 이득 데이터 등을 저장한다.
또한, 저장부(7)는 주파수 빈 구간의 합산 에너지 데이터를 저장한다. 프로세서(10)가 예를 들면, 64 FFT에 의해 에너지를 산정할 때, 반으로 나누어 허수부 부분이 완전 대칭이기 때문에 실제 사용하는 주파수 빈은 32개가 된다. 주파수 빈은 기설정된 주파수 간격으로 구분되며, 예를 들면 250Hz의 간격으로 구분되며, bin 0(0~250Hz), bin 1(251-500Hz), bin 2(501~750), ..., bin 31(7751~8000Hz)로 형성된다.
주파수 빈 구간의 합산 에너지는 제 1 주파수 빈 구간, 제 2 주파수 빈 구간 및 제 3 주파수 빈 구간 각각의 합산 에너지를 포함한다. 제 1 주파수 빈 구간은 비음성 영역에 해당되나 돌발성 잡음의 특징에 따라 제 1 주파수 빈 구간의 합산 에너지(Fb1E)도 돌발성 잡음에 의해 전체적으로 변화할 수 있기에, 데이터 연산량의 감소를 위해 1차적인 돌발성 잡음의 검출을 위해 사용되는 구간이며, bin 10~31의 빈 구간을 포함한다. 제 1 주파수 빈 구간의 합산 에너지(Fb1E)는 bin 10~31 각각의 에너지를 합산한 값이 된다.
다음으로, 제 2 주파수 빈 구간은 돌발성 잡음의 특징과 유사한 소리를 포함하는 주파수 구간에 해당되며, 즉, 비음성 영역에 해당되나, 돌발성 잡음의 특징에 따라 전반적으로 에너지가 같이 올라가는 영역으로 무성음이나 의성어와 같은 소리가 일어나는 영역에 해당되며, bin 7~9의 빈 구간을 포함한다. 제 2 주파수 빈 구간의 합산 에너지(Fb2E)는 bin 7~9 각각의 에너지를 합산한 값이 된다.
다음으로, 제 3 주파수 빈 구간은 돌발성 잡음의 특징이 포함되거나 노출되는 영역이며, 비음성 영역(예를 들면, 박수 소리, 책상치는 소리 등)으로 돌발성 잡음이 포함된 경우 전반적으로 에너지가 같이 올라가는 영역에 해당되며, bin 4~6의 빈 구간을 포함한다. 제 3 주파수 빈 구간의 합산 에너지(Fb3E)는 bin 4~6 각각의 에너지를 합산한 값이 된다. 본 실시예에서, 제 1 내지 제 3 주파수 빈 구간은 서로 중첩되기 않도록 한다.
또한, 저장부(7)는 음성 영역에서의 음성 활성 검출(VAD: voice activity detection)을 위한 제 4 주파수 빈 구간의 합산 에너지를 저장한다. 제 4 주파수 빈 구간은 음성 영역(예를 들면, 300-3,400Hz 범위의 주파수 영역)에 해당되며, bin 1~3의 빈 구간을 포함한다. 제 4 주파수 빈 구간의 합산 에너지(Fb4E)는 bin 1~3 각각의 에너지를 합산한 값이 된다.
상술된 제 4 주파수 빈 구간도 상술된 제 1 내지 제 3 주파수 빈 구간과 중첩되지 않으며, 상술된 주파수 빈 구간의 주파수 영역 면에서, 제 1 주파수 빈 구간의 주파수 영역>제 2 주파수 빈 구간의 주파수 영역>제 3 주파수 빈 구간의 주파수 영역>제 4 주파수 빈 구간의 주파수 영역의 관계가 있다.
또한, 제 1 주파수 빈 구간의 합산 에너지(Fb1E)는 프레임 단위로 프로세서(10)에 의해 산정되어 저장부(7)에 저장되며, 본 실시예에서는 프로세서(10)가 최초로 현재 프레임에서 제 1 주파수 빈 구간의 합산 에너지를 산정할 때는 제 1 주파수 빈 구간의 이전 합산 에너지(Prev_Fb1E)는 초기값("0")이 되고, 제 1 주파수 빈 구간의 현재 합산 에너지(Cur_Fb1E)을 저장부(7)에 저장한다.
또한, 주파수 빈 구간의 합산 기준 에너지는 제 1 주파수 빈의 합산 에너지(9Fb1E)를 이용한 돌발성 잡음의 검출을 위한 제 1 기준 에너지(Re1)와, 제 3 주파수 빈의 합산 에너지(Fb3E)를 이용하여 돌발성 잡음의 검출을 위한 제 2 기준 에너지(Re2)와, 제 4 주파수 빈의 합산 에너지(Fb4E)를 이용하여 음성 활성 검출을 위한 제 3 기준 에너지(Re3)를 포함한다.
프로세서(10)는 음향 신호를 기설정된 크기의 프레임 단위로 처리하되, 아날로그 디지털 변환(ADC)과, 고속 푸리에 변환(FFT: Fast Fourier Transform)과 역 고속 푸리에 변환(IFFT: Inverse Fast Fourier Transform) 및 디지털 아날로그 변환(DAC)을 수행하는 기능을 포함하며, 기준 이득 데이터 및 감쇄 이득 데이터를 이용한 음향 처리 기능과, 돌발성 잡음 검출 기능 등을 수행하는 데이터 프로세서(예를 들면, CPU 등)이다. 프로세서(10)가 수행하는 기능들에 대해서는 하기에서 상세하게 기재된다.
도 2는 도 1의 돌발성 잡음 검출 장치의 제어 순서도이다. 프로세서(10)는 저장부(7)에 저장된 음향 신호 또는 마이크(1)로부터 인가된 음향 신호를 프레임 단위로 돌발성 잡음이 발생되었는지를 판단하기 위해 하기의 단계들을 수행한다.
단계(S1)에서, 프로세서(10)는 음향 신호를 프레임 단위로 고속 푸리에 변환을 수행하여, 현재 프레임에서의 제 1 내지 제 4 주파수 빈의 합산 에너지(Cur_Fb1E, Fb2E, Fb3E, Fb4E) 각각을 산정한다.
단계(S3)에서, 프로세서(10)는 저장부(7)에 저장된 제 1 주파수 빈 구간의 이전 합산 에너지(Prev_Fb1E)와, 현재 프레임에서 산정된 제 1 주파수 빈 구간의 현재 합산 에너지(Cur_Fb1E)를 비교하여, 돌발성 잡음의 발생 여부를 판단한다. 프로세서(10)는 최초로 프레임에 대한 처리를 수행하는 경우, 제 1 주파수 빈 구간의 이전 합산 에너지(Prev_Fb1E)을 0(초기값)으로 설정하여 단계(S3)를 수행한다. 만약 현재 프레임에서 산정된 제 1 주파수 빈 구간의 현재 합산 에너지(Cur_Fb1E)가 제 1 주파수 빈 구간의 이전 합산 에너지(Prev_Fb1E)보다 크면, 프로세서(10)는 돌발성 잡음이 발생 가능한 것으로 판단하여 단계(S5)로 진행하고, 그렇지 않으면 돌발성 잡음이 발생 가능하지 않은 것으로 판단하여 단계(S13)로 진행한다.
단계(S5)에서, 프로세서(10)는 현재 프레임의 제 4 주파수 빈 구간의 합산 에너지(Fb4E)와 제 3 기준 에너지(Re3)를 비교하여, 현재 프레임에 음성이 포함되어 있는지를 판단한다. 만약 현재 프레임의 제 4 주파수 빈 구간의 합산 에너지(Fb4E)가 제 3 기준 에너지(Re3)보다 작으면, 현재 프레임에 음성이 포함되지 않은 것으로 판단하여 단계(S7)로 진행하고, 그렇지 않으면 현재 프레임에 음성이 포함된 것으로 판단하여 단계(S13)로 진행한다.
단계(S7)에서, 프로세서(10)는 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지(Cur_Fb1E)와, 제 1 기준 에너지(Re1)를 비교하여 현재 프레임에서 돌발성 잡음의 발생 가능성이 있는지를 판단한다. 제 1 기준 에너지(Re1)는 프레임에 아무런 음성도 없거나 돌발성 잡음이 발생하지 않은 경우의 평균적인 에너지로 설정되며, 음향 신호에 기본적으로 포함되는 잡음을 배제하기 위한 것이다. 만약 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지(Cur_Fb1E)가 제 1 기준 에너지(Re1)보다 크면, 프로세서(10)는 현재 프레임에 돌발성 잡음이 발생할 가능성이 있는 것으로 판단하여 단계(S9)로 진행하고, 그렇지 않으면 현재 프레임에 돌발성 잡음이 발생할 가능성이 없는 것으로 판단하여 단계(S13)로 진행한다.
단계(S9)에서, 프로세서(10)는 현재 프레임의 제 3 주파수 빈의 합산 에너지(Fb3E)와, 제 2 기준 에너지(Re2)를 비교하여 현재 프레임에 돌발성 잡음이 발생될 가능성을 판단한다. 제 2 기준 에너지(Re2)는 프레임에 아무런 음성도 없거나 돌발성 잡음이 발생하지 않은 경우의 평균적인 에너지로 설정되며, 음향 신호에 기본적으로 포함되는 잡음을 배제하기 위한 것이다. 만약 현재 프레임의 제 3 주파수 빈의 합산 에너지(Fb3E)가 제 2 기준 에너지(Re2)보다 크면, 프로세서(10)는 현재 프레임에 돌발성 잡음이 발생될 가능성이 있는 것으로 판단하여 단계(S11)로 진행하고, 그렇지 않으면 현재 프레임에 돌발성 잡음이 발생될 가능성이 없는 것으로 판단하여 단계(S13)로 진행한다.
단계(S11)에서, 프로세서(10)는 현재 프레임의 제 3 주파수 빈의 합산 에너지(Fb3E)와, 현재 프레임의 제 2 주파수 빈의 합산 에너지(Fb2E)를 비교하여 돌발성 잡음과 유사한 잡음(무성음이나 의성어)을 배제하고, 돌발성 잡음만의 발생 가능성을 판단한다. 만약 현재 프레임의 제 3 주파수 빈의 합산 에너지(Fb3E)가 현재 프레임의 제 2 주파수 빈의 합산 에너지(Fb2E)보다 크면, 프로세서(10)는 현재 프레임에 돌발성 잡음이 발생된 것으로 판단하여 단계(S15)로 진행하고, 그렇지 않으면 현재 프레임에 돌발성 잡음이 발생되지 않은 것으로 판단하여 단계(S13)로 진행한다.
단계(S13)에서, 프로세서(10)는 현재 프레임의 주파수 에너지를 기준 이득 데이터에 따라 처리하거나 현재 프레임을 별도의 처리 없이 그대로 역고속 푸리에 변환을 수행하고 디지털-아날로그 변환시켜 스피커(5)에 인가하거나 저장부(7)에 저장한다. 프로세서(10)는 단계(S13)를 수행하고 단계(S17)로 진행한다.
단계(S15)에서, 프로세서(10)는 현재 프레임에 돌발성 잡음이 발생된 것으로 판단하여 저장부(7)로부터 감쇄 이득 데이터를 판독하여 감쇄 처리를 수행하여, 하여, 역고속 푸리에 변환을 수행하고 디지털-아날로그 변환시켜 스피커(5)에 인가하거나 저장부(7)에 저장한다. 또는 프로세서(10)는 현재 프레임에 대해서 에너지를 감소시키는 방식(예를 들면, 페이딩인 방식)과, 에너지를 다시 원상 복귀 시키는 방식(예를 들면, 페이딩아웃)을 수행할 수도 있다. 프로세서(10)는 단계(S15)를 수행하고 단계(S17)로 진행한다.
단계(S17)에서, 프로세서(10)는 음향 신호에 다음 프레임이 있는지를 판단한다. 만약 다음 프레임이 있다면, 프로세서(10)는 단계(S1)로 진행하여 다음 프레임에 돌발성 잡음이 발생되었는지를 판단하고, 그렇지 않으면 음향 처리를 종료한다.
상술된 단계(S3) 내지 (S11)에서와 같이, 주파수 빈 구간의 합산 에너지들을 이용하여 단계적으로 돌발성 잡음이 현재 프레임에 발생되었는지를 판단함으로써, 돌발성 잡음이 발생되지 않는 것으로도 보다 신속하게 판단함으로써, 전체적인 연산량을 감소시킨다.
또한, 상술된 단계(S3), (S5), (S7), (S9), (S11)의 순서는 변경될 수 있으며, 상술된 단계(S3), (S5), (S7), (S9), (S11)에서의 판단 단계들 중에서 어느 하나라도 돌발성 잡음이 발생되지 않은 것으로 판단될 경우, 단계(S13)로 진행되는 것으로 이해되어야 한다.
다양한 실시 예에 따른 장치(예: 프로세서 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리가 될 수 있다.
컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예:자기테이프), 광기록 매체(optical media)(예: CD-ROM, DVD(Digital Versatile Disc), 자기-광 매체(magnetoopticalmedia)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM, RAM, 또는 플래시 메모리 등)등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
다양한 실시 예에 따른 프로세서 또는 프로세서에 의한 기능들은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상 설명한 바와 같이, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형의 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
1: 마이크 3: 입력부
5: 스피커 7: 저장부
10: 프로세서

Claims (3)

  1. 음향을 획득하여 음향 신호를 인가하는 마이크와;
    마이크로부터 인가된 음향 신호의 기설정된 크기의 프레임 각각을 고속 푸리에 변환을 수행하여, 서로 중첩되지 않는 제 1 내지 제 4 주파수 빈 구간의 합산 에너지들을 산정하고, 산정된 제 1 내지 제 4 주파수 빈 구간의 합산 에너지들을 기준으로 하여 현재 프레임에 돌발성 잡음이 발생되었는지를 판단하는 프로세서로 구성되고,
    제 4 주파수 빈 구간은 음성 영역의 주파수 영역을 포함하고, 제 3 주파수 빈 구간의 주파수 영역은 제 4 주파수 빈 구간의 주파수 영역보다 크고, 제 2 주파수 빈 구간의 주파수 영역은 제 3 주파수 빈 구간의 주파수 영역보다 크고, 제 1 주파수 빈 구간의 주파수 영역은 제 2 주파수 빈 구간의 주파수 영역보다 크고,
    상기 프로세서는 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 이전 프레임의 제 1 주파수 빈 구간의 합산 에너지보다 크고, 제 4 주파수 빈 구간의 합산 에너지가 제 1 기준 에너지보다 작고, 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 제 2 기준 에너지보다 크고, 제 3 주파수 빈 구간의 합산 에너지가 제 3 기준 에너지보다 크고, 제 3 주파수 빈 구간의 합산 에너지가 제 2 주파수 빈 구간의 합산 에너지보다 작거나 같은 경우, 현재 프레임에 돌발성 잡음이 발생된 것으로 판단하는 것을 특징으로 하는 돌발성 잡음 검출 장치.
  2. 제 1 항에 있어서,
    상기 프로세서는 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 이전 프레임의 제 1 주파수 빈 구간의 합산 에너지보다 작거나 같은 경우 또는 제 4 주파수 빈 구간의 합산 에너지가 제 1 기준 에너지보다 크거나 같은 경우 또는 현재 프레임의 제 1 주파수 빈 구간의 합산 에너지가 제 2 기준 에너지보다 작거나 같은 경우 또는 제 3 주파수 빈 구간의 합산 에너지가 제 3 기준 에너지보다 작거나 같은 경우 또는 제 3 주파수 빈 구간의 합산 에너지가 제 2 주파수 빈 구간의 합산 에너지보다 큰 경우, 현재 프레임에 돌발성 잡음이 발생되지 않은 것으로 판단하는 것을 특징으로 하는 돌발성 잡음 검출 장치.
  3. 삭제
KR1020190047948A 2019-04-24 2019-04-24 돌발성 잡음 검출 장치 KR102238429B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190047948A KR102238429B1 (ko) 2019-04-24 2019-04-24 돌발성 잡음 검출 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190047948A KR102238429B1 (ko) 2019-04-24 2019-04-24 돌발성 잡음 검출 장치

Publications (2)

Publication Number Publication Date
KR20200124526A KR20200124526A (ko) 2020-11-03
KR102238429B1 true KR102238429B1 (ko) 2021-04-09

Family

ID=73197733

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190047948A KR102238429B1 (ko) 2019-04-24 2019-04-24 돌발성 잡음 검출 장치

Country Status (1)

Country Link
KR (1) KR102238429B1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100580643B1 (ko) * 2004-02-10 2006-05-16 삼성전자주식회사 충격음 감지 장치, 방법 그리고 이를 이용한 충격음 식별장치 및 방법
KR101615766B1 (ko) * 2008-12-19 2016-05-12 엘지전자 주식회사 돌발 잡음 검출기, 돌발 잡음 검출 방법 및 돌발 잡음 제거 시스템

Also Published As

Publication number Publication date
KR20200124526A (ko) 2020-11-03

Similar Documents

Publication Publication Date Title
US10622009B1 (en) Methods for detecting double-talk
US8170879B2 (en) Periodic signal enhancement system
US7610196B2 (en) Periodic signal enhancement system
US9305567B2 (en) Systems and methods for audio signal processing
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
US11404073B1 (en) Methods for detecting double-talk
US9384756B2 (en) Cyclic noise reduction for targeted frequency bands
US10755728B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
JP5927558B2 (ja) ハウリング検出装置、ハウリング抑制装置、およびハウリング検出方法
US11756564B2 (en) Deep neural network based speech enhancement
JP5752324B2 (ja) 雑音の入った音声信号中のインパルス性干渉の単一チャネル抑制
US10937418B1 (en) Echo cancellation by acoustic playback estimation
US8223979B2 (en) Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise
US10937441B1 (en) Beam level based adaptive target selection
CN112086093A (zh) 解决基于感知的对抗音频攻击的自动语音识别系统
KR20150032390A (ko) 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US11380312B1 (en) Residual echo suppression for keyword detection
KR102141889B1 (ko) 적응적 햅틱 신호 발생 장치 및 방법
JPWO2013054459A1 (ja) ハウリング抑圧装置、補聴器、ハウリング抑圧方法、及び集積回路
KR102238429B1 (ko) 돌발성 잡음 검출 장치
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
Khoubrouy et al. A method of howling detection in presence of speech signal
KR102063824B1 (ko) 보청기를 위한 음향 피드백 제거 장치 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant