KR101060183B1 - 임베디드 청각 시스템 및 음성 신호 처리 방법 - Google Patents

임베디드 청각 시스템 및 음성 신호 처리 방법 Download PDF

Info

Publication number
KR101060183B1
KR101060183B1 KR1020090123077A KR20090123077A KR101060183B1 KR 101060183 B1 KR101060183 B1 KR 101060183B1 KR 1020090123077 A KR1020090123077 A KR 1020090123077A KR 20090123077 A KR20090123077 A KR 20090123077A KR 101060183 B1 KR101060183 B1 KR 101060183B1
Authority
KR
South Korea
Prior art keywords
voice
noise
signal
section
speech
Prior art date
Application number
KR1020090123077A
Other languages
English (en)
Other versions
KR20110066429A (ko
Inventor
최종석
김문상
이병기
김형순
조남익
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020090123077A priority Critical patent/KR101060183B1/ko
Priority to US12/857,059 priority patent/US20110144988A1/en
Publication of KR20110066429A publication Critical patent/KR20110066429A/ko
Application granted granted Critical
Publication of KR101060183B1 publication Critical patent/KR101060183B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

임베디드 청각 시스템은 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 음성 검출부와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 잡음 제거부 및 상기 잡음 제거부에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 핵심어 검출부를 포함하여 구성된다. 음성 신호 처리 방법은 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 단계와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 단계 및 상기 잡음을 제거하는 단계에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 단계를 포함하여 구성된다.
Figure R1020090123077
임베디드, 청각 시스템, 음성 검출, 음원 방향 검지, 위너 필터, 잡음 제거, 핵심어 검출, 음성 신호 처리

Description

임베디드 청각 시스템 및 음성 신호 처리 방법{Embedded auditory system and method for processing voice signal}
본 발명은 임베디드 청각 시스템 및 음성 신호 처리 방법에 관한 것이다.
청각 시스템은 지능 로봇이 효과적으로 사용자와 상호 작용할 수 있도록 사용자가 부르는 소리를 인식하고, 그 방향을 감지해 준다.
일반적으로 청각 시스템에 사용되는 기술은 음원 방향 검지 기술, 잡음 제거 기술 및 음성 인식 기술 등이 있다.
음원 방향 검지 기술은 다채널 마이크로폰에서 마이크로폰 사이의 신호 차이를 분석하여 음원의 방향을 검지하는 기술이다. 음원 방향 검지 기술을 이용하면, 로봇이 비전 카메라로 볼 수 없는 곳에 위치한 사용자에게도 효과적으로 반응할 수 있다.
음성 인식 기술은 음성 인식에 사용하는 마이크로폰과 사용자 간의 거리에 따라 근거리 음성 인식 기술과 원거리 음성 인식 기술로 나뉠 수 있다. 현재의 음성 인식 기술은 신호 대 잡음비(SNR: Signal to Noise Ratio)의 영향을 많이 받는다. 따라서, SNR이 높은 원거리 음성 인식 기술의 경우 효과적인 잡음제거 기술이 요구된다. 음성 인식 성능을 높이기 위한 빔포머 필터링, 적응형 필터링, 위너(Wiener) 필터링 등 다양한 종류의 잡음제거 기술이 현재까지 연구 개발 되고 있으며, 그 중 다채널 위너 필터링 기술이 우수한 성능을 보이는 것으로 알려지고 있다.
핵심어 검출 기술은 음성 인식 기술 중의 하나로, 자연스러운 연속 음성으로부터 핵심어를 추출해 내어 인식하는 기술이다. 기존의 고립 단어 인식 기술은 인식되고자 하는 단어를 끊어서 읽어 주어야 하는 발음상의 불편함이 있었고, 기존의 연속 음성 인식 기술은 성능이 상대적으로 떨어진다는 문제점이 있었다. 핵심어 검출 기술은 이러한 기존의 음성 인식 기술의 문제점을 해결하기 위한 기술로서 제시되었다.
한편, 기존의 청각 시스템은 PC 기반으로 구현되어 로봇의 메인 시스템에서 운영되거나, 아예 별개의 PC를 구성하여 동작되는 경우가 많다. 로봇의 메인 시스템에서 운영되는 경우, 청각 시스템 부분의 연산량이 메인 시스템에 큰 부담을 줄 수 있고, 효율적으로 메인 시스템과 연동시키기 위한 프로그램간 조율 과정이 필수적이어서 다양한 플랫폼의 로봇에 활용하기 어려운 문제점이 있었다. 별개의 PC를 구성한 청각 시스템의 경우 별개의 PC를 구성하기 위한 비용이 증가되고 로봇의 피가 커지는 문제점이 있었다.
상술한 바와 같은 종래의 기술의 문제점을 해결하기 위한 본 발명은, 지능 로봇에서 필요로 하는 청각 기능들을 메인 시스템에 의존함 없이 완전히 독립된 단일 임베디드 시스템으로 모듈화함으로써, 에너지 효율적이고 저렴하며 다양한 로봇에 활용할 수 있는 임베디드 청각 시스템 및 음성 신호 처리 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 임베디드 청각 시스템은, 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 음성 검출부와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 잡음 제거부 및 상기 잡음 제거부에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 핵심어 검출부를 포함하여 구성된다.
상기 임베디드 청각 시스템은 상기 음성 검출부에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 음원 방향 검지부를 더 포함하여 구성될 수 있다.
또한, 본 발명의 다른 일 측면에 따른 음성 신호 처리 방법은, 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 단계와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 단계 및 상기 잡음을 제거하는 단계에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 단계를 포함하여 구성된다.
상기 음성 신호 처리 방법은 상기 음성 구간 및 비음성 구간으로 구분하는 단계에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 단계를 더 포함하여 구성될 수 있다.
본 발명에 따른 임베디드 청각 시스템 및 음성 신호 처리 방법은, 지능 로봇에 필요한 음원 방향 검지, 잡음 제거, 핵심어 검출 기능 등의 다양한 청각 기능을 동시에 단일 모듈에서 제공할 수 있고, 임베디스 시스템화되어 에너지 효율적이고 저렴하며 다양한 로봇에 활용할 수 있다.
이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 살펴본다.
도 1은 본 발명의 일 실시예에 따른 임베디드 청각 시스템을 개략적으로 도시한 도면이다. 도 1을 참조하면, 본 발명에 따른 임베디드 청각 시스템은 SLP 보드(SLP: Sound Localization Process board)(130)로 구성될 수 있다. SLP 보드는 원거리 음성 신호를 취득하기 위한 마이크로폰(110)과 아날로그 신호 처리를 위한 비선형 증폭 보드(NAB: Non-linear Amplifier Board)(120)와 연결될 수 있다.
SLP 보드(130)는 음성 검출부(131), 음원 방향 검지부(132), 잡음 제거부(133), 핵심어 검출부(134)를 포함하여 구성될 수 있다. 상기 SLP 보드(130)의 구성은 예시적인 것이며, SLP 보드(130)를 구성하는 각 부 중 어느 하나가 생략되어 구성될 수도 있다. 예컨대, SLP 보드(130)는 상기 음원 방향 검지부(132)가 생략되고 음성 검출부(131), 잡음 제거부(133) 및 핵심어 검출부(134)를 포함하여 구성될 수 있다.
마이크로폰(110)은 도 2에 도시한 바와 같이 3채널 마이크로폰으로 구성될 수 있다. 3채널 마이크로폰은 마이크0(210), 마이크1(211), 마이크2(212)가 반경 7.5cm의 원을 그리며 120도 간격으로 균등하게 배치될 수 있다. 도 2에 도시한 마이크로폰의 배치는 예시적인 것이며, 마이크로폰의 개수 및 배치는 사용자의 필요에 따라 다양하게 선택될 수 있다. 이러한 마이크로폰을 통해 원거리 음성 신호를 취득할 수 있다.
다시 도 1로 돌아와서, 마이크로폰(110)을 통해 취득된 아날로그 신호는 NAB(120)에 의해 처리된다. NAB(120)는 신호 증폭부(121), A/D 변환부(122) 및 D/A 변환부(123)를 포함하여 구성될 수 있다. 일반적으로 마이크로폰(110)을 통해 취득된 아날로그 신호는 처리하기에는 미세하여 증폭이 필요하게 된다. 신호 증폭부(121)는 마이크로폰(110)을 통해 취득된 아날로그 신호를 증폭시켜 준다. 또한, SLP 보드(130)는 디지털 신호를 처리하게 되므로, A/D 변환부(122)는 신호 증폭 부(121)에 의해 증폭된 신호를 디지털 신호로 변환시킨다. 그리고, D/A 변환부(123)는 SLP 보드(130)에 의해 처리된 신호를 받게 되는데, 특히 음성 인식을 위해서 잡음 제거부(133)에서 잡음이 제거된 음성 신호를 받을 수 있다.
A/D 변환부(122)에 의해 디지털 신호로 변환된 신호는 SLP 보드(130)로 보내지고, 음성 검출부(131)로 들어간다. 음성 검출부(131)는 디지털 신호로 변환된 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분한다. 음성 구간 및 비음성 구간으로 구분된 신호는 전체 청각 시스템에 공유되어 음원 방향 검지부(132) 등 다른 부가 동작하는 기준 신호 역할을 한다. 즉, 음원 방향 검지부(132)는 음성 구간에서만 방향 검지를 수행하고, 잡음 제거부(133)는 비음성 구간의 잡음 정보를 이용하여 음성 구간에서 잡음을 제거하게 된다.
도 3은 본 발명의 일 실시예에 따른 음원 방향 검지부의 데이터 처리 과정을 설명하기 위한 순서도이다. 도 3에서는 음성 구간 및 비음성 구간의 흐름을 설명하기 위해 음성 검출부의 동작도 포함하여 도시한다. 도 3에 도시된 음원 방향 검지부의 동작은 예시적인 것이며, 상이한 동작으로 수행되거나 다른 순서로 수행될 수도 있다.
음원 방향 검지부의 데이터 처리 과정에서는, 먼저 원시(raw) 데이터 즉, 디지털 신호로 변환된 음성 신호가 음성 검출부로 입력된다(S301). 입력된 원시 데이터는 음성 검출부에 의해 음성 구간 및 비음성 구간으로 나뉘어 지고, 음성 구간만이 음원 방향 검지부로 입력된다(S302). 음원 방향 검지부는 음성 구간에 대해 마 이크로폰 채널간 교차 상관도(cross- correlation)을 계산하고(S303) 채널간 교차 상관도를 이용하여 음원으로부터 각각의 마이크로폰에 도착하는데 걸리는 음성 신호의 지연시간을 구할 수 있게 된다. 이로부터 음원 방향 검지부는 가장 개연성이 높은 음원 방향을 추정하고 축적한다(S304). 그 다음은 음성 구간 계속 여부를 확인한다(S305). 음성 구간이 계속되면, 다시 단계(S301)로 돌아가서 음성 검출부로 다시 입력되어 음성 검출 후 다시 방향 검지를 수행한다. 음성 구간이 끝나게 되면, 음원 방향 축적 결과를 후처리하고(S306) 음원 방향을 출력한다(S307).
도 4는 본 발명의 일 실시예에 따른 잡음 제거부의 데이터 처리 과정을 설명하기 위한 순서도이다. 도 4에서는 음성 구간 및 비음성 구간의 흐름을 설명하기 위해 음성 검출부의 동작도 포함하여 도시한다. 도 4에 도시된 잡음 제거부의 동작은 예시적인 것이며, 상이한 동작으로 수행되거나 다른 순서로 수행될 수도 있다.
잡음 제거부는 다채널 위너(Wiener) 필터일 수 있다. 위너 필터는 신호와 잡음이 섞여 있는 정상 입력에 대한 필터 출력과 평활(平滑), 또는 예측된 희망 출력과의 평균 제곱 오차를 최소로 하는 기준으로 설계된다. 다채널 위너 필터의 데이터 처리 과정에서는, 먼저 원시 데이터 즉, 디지털 신호로 변환된 음성 신호가 음성 검출부로 입력된다(S401). 입력된 원시 데이터는 음성 검출부에 의해 음성 구간 및 비음성 구간으로 나뉘어 지고, 음성 구간 및 비음성 구간이 다채널 위너 필터로 입력된다(S302). 다채널 위너 필터는 음성 신호 처리를 위해 음성 신호에 대해 패스트 푸리에 변환(FFT: Fast Fourier Transform)을 수행한다. FFT의 결과 음성 신 호는 시간 영역에서 주파수 영역으로 변환된다. 비음성 구간에 대해 FFT를 수행한 결과, 잡음 정보를 수집할 수 있게 되고, 음성 구간에 대해서는 FFT를 수행하여 위너 필터를 추정한다(S405). 그리고 음성 구간에 대해 상기 비음성 구간으로부터 수집된 잡음 정보를 이용하여 잡음 제거 필터링을 수행하고(S406), 잡음이 제거된 신호를 출력한다(S407).
도 5는 본 발명의 일 실시예에 따른 핵심어 검출부의 데이터 처리 과정을 설명하기 위한 순서도이다. 도 5에서는 음성 구간 및 비음성 구간의 흐름을 설명하기 위해 음성 검출부 및 잡음 제거부의 동작의 일부도 포함하여 도시한다. 도 5에 도시된 핵심어 검출부의 동작은 예시적인 것이며, 상이한 동작으로 수행되거나 다른 순서로 수행될 수도 있다.
핵심어 검출부의 데이터 처리 과정에서는, 먼저 원시 데이터 즉, 디지털 신호로 변환된 음성 신호가 음성 검출부로 입력된다(S501). 입력된 원시 데이터는 음성 검출부에 의해 음성 구간 및 비음성 구간으로 나뉘어 지고, 음성 구간만이 잡음 제거부로 입력된다(S502). 잡음 제거부는 음성 구간에 대해 잡음 제거 필터링을 수행한다(S503). 핵심어 검출부는 잡음이 제거된 음성 구간을 입력으로 받아 특징 벡터를 추출하고 축적한다(S504). 그 다음은 음성 구간 계속 여부를 확인한다(S505). 음성 구간이 계속되면, 다시 단계(S501)로 돌아가서 음성 검출부로 다시 입력되어 음성 검출 후 다시 잡음 제거 및 핵심어 검출을 수행한다. 음성 구간이 끝나게 되면, 핵심어를 검출하고(S506) 검출 여부를 출력한다(S507).
다시 도 1로 돌아와서, UART(Universal Asynchronous Receiver/Transmitter)(135)는 시리얼 통신을 지원하기 위해 컴퓨터의 서브시스템으로서 사용될 수 있다. 컴퓨터는 데이터를 바이트(byte) 단위로 다룬다. 그렇지만 외부로 보낼 때는 이를 비트(bit) 단위로 변환 시켜야 할 필요가 있다. UART는 전송되는 바이트 데이터를 일련의 비트 데이터로 변경시키며, 반대로 입력되는 비트 데이터를 조합해서 바이트 데이터로 변경하는 일을 한다. 본 실시예에서, UART(135)는 음성 구간이 끝났을 때 출력되는 음원 방향 검지부(132)의 결과와 핵심어 검출부(134)의 결과를 받아서 외부 로봇 시스템에 시리얼 통신을 통해 송신할 수 있다. UART(135)는 시리얼 통신을 위한 부가적인 요소이며, 필요에 따라 부가되거나 대체 또는 삭제될 수 있다.
본 발명의 일 실시예에 따른 청각 시스템의 임베디드화에 있어서 핵심적인 기술은 상기 각각의 부의 기능들이 임베디드 시스템 내에서도 제 성능을 낼 수 있도록 임베디드 프로그래밍 코드로 변환하고 최적화 시키는 과정이다. 이 중에서도 특히, FFT(Fast Fourier Transform)의 확장 기법과 다채널 위너 필터의 멜-주파수(Mel-frequency) 기준 필터 공유 기법은 본 발명의 일 실시예에 따른 청각 시스템의 임베디드화에 중요한 역할을 한다.
FFT는 음성 신호 처리에 있어서 가장 많이 활용되는 함수이다. 기존의 임베 디드 프로그래밍 라이브러리에서는 FFT 함수를 제공하고 있는데 이러한 기존의 라이브러리 제공 FFT 함수에서는 에러가 입력 데이터의 길이가 길어질수록 커지는 현상이 발생한다. 일반적인 임베디드 시스템에서는 부동 소수점 연산기(FPU: Float Point Unit)가 없으므로, 고정 소수점 연산을 수행하게 되는데, 이는 표현 범위가 작아 오버플로우(Overflow) 에러가 많이 난다. 이를 피하기 위해 라이브러리 제공 FFT 함수는 입력된 수치의 하위 비트를 강제적으로 버리는데, 이때 버리는 비트 수가 입력 데이터 길이의 밑수 2의 로그 값에 비례한다. 그 결과 사용하는 데이터의 길이가 길어질수록 FFT의 에러는 점점 증가하는 양상을 보인다.
도 6a 내지 도 6c는 라이브러리 제공 FFT 함수를 사용하여 사각파 신호를 FFT한 후, 역변환하여 다시 복원한 결과를 도시한 도면이다. 도 6a는 한 프레임 데이터 길이가 64일 때, 도 6b는 한 프레임 데이터 길이가 128일 때, 도 6c는 한 프레임 데이터 길이가 512일 때의 결과이다. 도 6a 내지 도 6c를 참조하면 복원된 신호가 데이터 길이에 따라 얼마나 원래 신호와 달라지는지를 알 수 있다. 이에 따르면 데이터 길이가 64보다 길어질 경우는 FFT 에러가 심각해지며, 데이터의 길이가 길어질수록 에러가 더욱 증가함을 알 수 있다.
본 발명에서는 길이가 64 이상인 데이터를 처리하게 되므로 상대적으로 긴 길이의 데이터를 에러를 줄이면서 효과적으로 FFT 해 줄 수 있는 방법이 필요하다. 따라서, 이를 위해 본 발명에서 FFT 확장 기법을 제안한다. FFT 확장 기법은 짧은 길이의 제1 FFT 결과를 결합하여 긴 길이의 제2 FFT 결과를 얻어내는 방법이다. 즉, FFT의 수행시 음성 신호를 복수 개의 구간으로 나눈 다음 나누어진 복수 개의 구간에 대해 FFT를 수행하여 복수 개의 제1 FFT 결과를 얻고, 상기 복수 개의 제1 FFT 결과를 합산하여 제2 FFT 결과를 얻는 방법으로 다음의 수학식과 같이 유도된다.
Figure 112009076615536-pat00001
단,
Figure 112009076615536-pat00002
이다.
수학식 1에 따르면, 데이터의 길이가 M x N 일 경우, N길이 FFT 결과를 M개 결합하여 M x N길이 FFT 결과를 얻을 수 있다. 예컨대, 320 길이의 FFT가 필요하다고 하면, 64길이 FFT를 5개 묶어 320길이 FFT를 수행할 수 있다. 도 6d는 FFT 확장 기법을 이용하여 FFT를 5개 묶어 320길이 FFT를 수행한 결과이다. 도 6d를 참조하면 320 길이의 FFT가 에러가 거의 없이 효과적으로 수행되었음을 알 수 있다.
한편, 다채널 위너 필터의 멜-주파수 기준 필터 공유 기법은 위너 필터의 연산량을 줄이기 위한 방안으로 제안된다. 다채널 위너 필터는 주파수 도메인에서 수행되는 적응형 필터이다. 즉, 매 프레임마다 FFT의 주파수별로 잡음 제거 효과를 최대화해 주는 필터 계수를 추정하여 필터링이 이루어 진다. 사용된 FFT의 길이가 320 이라고 하면, 양의 주파수와 음의 주파수를 동일하게 볼 때, 총 161개의 FFT 주파수가 존재하고, 이들 각각에 대해 총 161개의 필터 계수를 추정하는 과정은 많은 연산량을 요구한다. 이러한 많은 연산량은 PC보다 연산 능력이 떨어지는 임베디드 시스템에 큰 부담이 되고 속도의 저하를 낳을 수 있어서 임베디드 시스템의 실시간성을 보장하기 어렵게 한다.
이러한 문제를 해결하기 위한 멜-주파수 기준 필터 공유 기법은 필터를 모든 주파수에서 추정하는 것이 아니라, 일부에서만 추정하고 추정하지 않는 주파수에서는 이웃 주파수의 필터 추정 결과를 공유하는 방식으로 연산량을 줄이는 방안이다. 이 때, 일부에 대해서 필터를 추정하지 않음에 따른 성능 저하를 최소화 하기 위해, 필터를 공유하는 주파수 선정에 있어 멜-주파수를 기준으로 하는 방법을 사용한다. 멜-주파수란 일반적인 Hz-주파수와 달리 인간이 느끼는 음높이를 기준으로 주파수를 재는 방식을 말하며, 이러한 특성으로 인해 멜-주파수는 음성인식의 특징벡터를 추출하는데 많이 응용되는 개념이다. Hz-주파수와 멜-주파수의 변환식은 수학식 2와 같이 나타난다.
Figure 112009076615536-pat00003
f는 Hz-주파수를 나타내고, m은 멜-주파수를 나타낸다.
도 7은 등간격 Hz-주파수의 멜-주파수로의 변환 양상을 도시한 도면이다. 도 7를 참조하면 수학식 2에 따른 변환의 양상을 살펴볼 수 있다. 이에 따르면, 등간격인 Hz-주파수에 대해, 멜-주파수는 등간격으로 대응되지 않는다. 저주파 영역에 서는 드문드문 대응되다가 고주파 영역에서는 조밀하게 대응된다. 멜-주파수 관점에서는 저주파 영역의 정보가 고주파 영역의 정보보다 빈약한 것이다. 이 때문에 필터 공유 주파수가 저주파 영역보다 고주파 영역에서 많이 선정 되는 것이 훨씬 유리하다. 이러한 관점에서 본 실시예에서는 40개의 필터 공유 주파수를 선정하였고, 다채널 위너 필터의 연산량을 줄이면서 성능 저하를 최소화 할 수 있다.
이상 본 발명의 특정 실시예를 도시하고 설명하였으나, 본 발명의 기술사상은 첨부된 도면과 상기한 설명내용에 한정하지 않으며 본 발명의 사상을 벗어나지 않는 범위 내에서 다양한 형태의 변형이 가능함은 이 분야의 통상의 지식을 가진 자에게는 자명한 사실이며, 이러한 형태의 변형은, 본 발명의 정신에 위배되지 않는 범위 내에서 본 발명의 특허청구범위에 속한다고 볼 것이다.
도 1은 본 발명의 일 실시예에 따른 임베디드 청각 시스템을 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 3채널 마이크로폰 배치를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 음원 방향 검지부의 데이터 처리 과정을 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 잡음 제거부의 데이터 처리 과정을 설명하기 위한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 핵심어 검출부의 데이터 처리 과정을 설명하기 위한 순서도이다.
도 6a 내지 도 6c는 라이브러리 제공 FFT 함수를 사용하여 사각파 신호를 FFT한 후, 역변환하여 다시 복원한 결과를 도시한 도면이다.
도 6d는 FFT 확장 기법을 이용하여 FFT를 수행한 결과를 도시한 도면이다.
도 7은 등간격 Hz-주파수의 멜-주파수로의 변환 양상을 도시한 도면이다.

Claims (10)

  1. 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 음성 검출부;
    음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 잡음 제거부; 및
    상기 잡음 제거부에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 핵심어 검출부를 포함하고,
    상기 잡음 제거부는,
    음성 신호를 시간 영역에서 주파수 영역으로 변환하는 FFT의 수행시 음성 신호를 복수 개의 구간으로 나눈 다음 나누어진 복수 개의 구간에 대해 FFT를 수행하여 복수 개의 제1 FFT 결과를 얻고, 상기 복수 개의 제1 FFT 결과를 합산하여 제2 FFT 결과를 얻는 것을 특징으로 하는 임베디드 청각 시스템.
  2. 제1항에 있어서,
    상기 음성 검출부에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 음원 방향 검지부를 더 포함하는 것을 특징으로 하는 임베디드 청각 시스템.
  3. 삭제
  4. 제1항에 있어서,
    상기 잡음 제거부는, 다채널 위너 필터인 것을 특징으로 하는 임베디드 청각 시스템.
  5. 제4항에 있어서,
    상기 다채널 위너 필터는, 멜-주파수를 이용하며 주파수의 일부에 대해서만 필터 계수를 추정하고 추정하지 않는 주파수에서는 이웃한 주파수의 필터 계수의 추정 결과를 공유하는 멜-주파수 기준 필터 공유 기법을 이용하여 잡음을 제거하는 것을 특징으로 하는 임베디드 청각 시스템.
  6. 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 단계;
    음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 단계; 및
    상기 잡음을 제거하는 단계에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 단계를 포함하고,
    상기 잡음을 제거하는 단계는, 음성 신호를 시간 영역에서 주파수 영역으로 변환하는 FFT의 수행시,
    음성 신호를 복수 개의 구간으로 나누는 단계;
    나누어진 복수 개의 구간에 대해 FFT를 수행하여 복수 개의 제1 FFT 결과를 얻는 단계; 및
    상기 복수 개의 제1 FFT 결과를 합산하여 제2 FFT 결과를 얻는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  7. 제6항에 있어서,
    상기 음성 구간 및 비음성 구간으로 구분하는 단계에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
  8. 삭제
  9. 제6항에 있어서,
    상기 잡음을 제거하는 단계는, 다채널 위너 필터링으로 수행되는 것을 특징으로 하는 음성 신호 처리 방법.
  10. 제9항에 있어서,
    상기 다채널 위너 필터링은 멜-주파수를 이용하며 주파수의 일부에 대해서만 필터 계수를 추정하고 추정하지 않는 주파수에서는 이웃한 주파수의 필터 계수의 추정 결과를 공유하는 멜-주파수 기준 필터 공유 기법을 이용하여 잡음을 제거하는 것을 특징으로 하는 음성 신호 처리 방법.
KR1020090123077A 2009-12-11 2009-12-11 임베디드 청각 시스템 및 음성 신호 처리 방법 KR101060183B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090123077A KR101060183B1 (ko) 2009-12-11 2009-12-11 임베디드 청각 시스템 및 음성 신호 처리 방법
US12/857,059 US20110144988A1 (en) 2009-12-11 2010-08-16 Embedded auditory system and method for processing voice signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090123077A KR101060183B1 (ko) 2009-12-11 2009-12-11 임베디드 청각 시스템 및 음성 신호 처리 방법

Publications (2)

Publication Number Publication Date
KR20110066429A KR20110066429A (ko) 2011-06-17
KR101060183B1 true KR101060183B1 (ko) 2011-08-30

Family

ID=44143900

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090123077A KR101060183B1 (ko) 2009-12-11 2009-12-11 임베디드 청각 시스템 및 음성 신호 처리 방법

Country Status (2)

Country Link
US (1) US20110144988A1 (ko)
KR (1) KR101060183B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142149A (ko) * 2013-06-03 2014-12-11 삼성전자주식회사 음성 향상 방법 및 그 장치

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055493B2 (en) * 2011-05-09 2018-08-21 Google Llc Generating a playlist
EP2528358A1 (en) * 2011-05-23 2012-11-28 Oticon A/S A method of identifying a wireless communication channel in a sound system
US20140142928A1 (en) * 2012-11-21 2014-05-22 Harman International Industries Canada Ltd. System to selectively modify audio effect parameters of vocal signals
US9542933B2 (en) * 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
KR102323393B1 (ko) 2015-01-12 2021-11-09 삼성전자주식회사 디바이스 및 상기 디바이스의 제어 방법
CN106326208B (zh) * 2015-06-30 2019-06-07 芋头科技(杭州)有限公司 一种通过语音对机器人进行训练的系统及方法
KR102276964B1 (ko) * 2019-10-14 2021-07-14 고려대학교 산학협력단 잡음 환경에 강인한 동물 종 식별 장치 및 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US20030018471A1 (en) * 1999-10-26 2003-01-23 Yan Ming Cheng Mel-frequency domain based audible noise filter and method
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
GB2398913B (en) * 2003-02-27 2005-08-17 Motorola Inc Noise estimation in speech recognition
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
EP1931169A4 (en) * 2005-09-02 2009-12-16 Japan Adv Inst Science & Tech POST-FILTER FOR A MICROPHONE MATRIX
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
US20090012786A1 (en) * 2007-07-06 2009-01-08 Texas Instruments Incorporated Adaptive Noise Cancellation
EP2031583B1 (en) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Fast estimation of spectral noise power density for speech signal enhancement
JP2009229899A (ja) * 2008-03-24 2009-10-08 Toshiba Corp 音声認識装置および音声認識方法
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Seung Seob Yeom et al., 'An application system of probabilistic sound source localization', International Conference on Control, Automation and Systems 2008, pp.2043-2048, October 2008*
이호웅, 정희석, '지능형 홈네트워크 시스템을 위한 화자독립 음성인식시스템 개발에 관한 연구', 한국통신학회논문지, 제33권 제2호, 2008년2월*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140142149A (ko) * 2013-06-03 2014-12-11 삼성전자주식회사 음성 향상 방법 및 그 장치
US11043231B2 (en) 2013-06-03 2021-06-22 Samsung Electronics Co., Ltd. Speech enhancement method and apparatus for same
KR102282366B1 (ko) * 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치

Also Published As

Publication number Publication date
KR20110066429A (ko) 2011-06-17
US20110144988A1 (en) 2011-06-16

Similar Documents

Publication Publication Date Title
KR101060183B1 (ko) 임베디드 청각 시스템 및 음성 신호 처리 방법
TW201248613A (en) System and method for monaural audio processing based preserving speech information
JP4986393B2 (ja) 雑音低減値に対する推定値を決定する方法
Grais et al. Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders
US8744842B2 (en) Method and apparatus for detecting voice activity by using signal and noise power prediction values
CN101770779B (zh) 嘈杂的声学信号中的噪声频谱跟踪
KR100930060B1 (ko) 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
CN105830463A (zh) Vad检测设备和操作该vad检测设备的方法
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
WO2016112113A1 (en) Utilizing digital microphones for low power keyword detection and noise suppression
US20180277140A1 (en) Signal processing system, signal processing method and storage medium
CN102612711A (zh) 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质
KR101581885B1 (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
CN113077806B (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
WO2014168022A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
KR100735343B1 (ko) 음성신호의 피치 정보 추출장치 및 방법
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP4965891B2 (ja) 信号処理装置およびその方法
KR100930061B1 (ko) 신호 검출 방법 및 장치
TWI356399B (en) Speech recognition system and method with cepstral
JP2008185845A (ja) 1次元信号の変換値からのhlac特徴抽出方法および装置
US20070076899A1 (en) Audio collecting device by audio input matrix
JP2008209445A (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP4051325B2 (ja) 話者位置検出方法、装置、プログラム、および記録媒体
CN115910037A (zh) 语音信号的提取方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140729

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160804

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180806

Year of fee payment: 8