KR20110066429A - 임베디드 청각 시스템 및 음성 신호 처리 방법 - Google Patents
임베디드 청각 시스템 및 음성 신호 처리 방법 Download PDFInfo
- Publication number
- KR20110066429A KR20110066429A KR1020090123077A KR20090123077A KR20110066429A KR 20110066429 A KR20110066429 A KR 20110066429A KR 1020090123077 A KR1020090123077 A KR 1020090123077A KR 20090123077 A KR20090123077 A KR 20090123077A KR 20110066429 A KR20110066429 A KR 20110066429A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- noise
- signal
- fft
- voice signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 43
- 239000013598 vector Substances 0.000 claims abstract description 11
- 238000003672 processing method Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 28
- 238000001914 filtration Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 230000001953 sensory effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
임베디드 청각 시스템은 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 음성 검출부와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 잡음 제거부 및 상기 잡음 제거부에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 핵심어 검출부를 포함하여 구성된다. 음성 신호 처리 방법은 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 단계와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 단계 및 상기 잡음을 제거하는 단계에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 단계를 포함하여 구성된다.
임베디드, 청각 시스템, 음성 검출, 음원 방향 검지, 위너 필터, 잡음 제거, 핵심어 검출, 음성 신호 처리
Description
본 발명은 임베디드 청각 시스템 및 음성 신호 처리 방법에 관한 것이다.
청각 시스템은 지능 로봇이 효과적으로 사용자와 상호 작용할 수 있도록 사용자가 부르는 소리를 인식하고, 그 방향을 감지해 준다.
일반적으로 청각 시스템에 사용되는 기술은 음원 방향 검지 기술, 잡음 제거 기술 및 음성 인식 기술 등이 있다.
음원 방향 검지 기술은 다채널 마이크로폰에서 마이크로폰 사이의 신호 차이를 분석하여 음원의 방향을 검지하는 기술이다. 음원 방향 검지 기술을 이용하면, 로봇이 비전 카메라로 볼 수 없는 곳에 위치한 사용자에게도 효과적으로 반응할 수 있다.
음성 인식 기술은 음성 인식에 사용하는 마이크로폰과 사용자 간의 거리에 따라 근거리 음성 인식 기술과 원거리 음성 인식 기술로 나뉠 수 있다. 현재의 음성 인식 기술은 신호 대 잡음비(SNR: Signal to Noise Ratio)의 영향을 많이 받는다. 따라서, SNR이 높은 원거리 음성 인식 기술의 경우 효과적인 잡음제거 기술이 요구된다. 음성 인식 성능을 높이기 위한 빔포머 필터링, 적응형 필터링, 위너(Wiener) 필터링 등 다양한 종류의 잡음제거 기술이 현재까지 연구 개발 되고 있으며, 그 중 다채널 위너 필터링 기술이 우수한 성능을 보이는 것으로 알려지고 있다.
핵심어 검출 기술은 음성 인식 기술 중의 하나로, 자연스러운 연속 음성으로부터 핵심어를 추출해 내어 인식하는 기술이다. 기존의 고립 단어 인식 기술은 인식되고자 하는 단어를 끊어서 읽어 주어야 하는 발음상의 불편함이 있었고, 기존의 연속 음성 인식 기술은 성능이 상대적으로 떨어진다는 문제점이 있었다. 핵심어 검출 기술은 이러한 기존의 음성 인식 기술의 문제점을 해결하기 위한 기술로서 제시되었다.
한편, 기존의 청각 시스템은 PC 기반으로 구현되어 로봇의 메인 시스템에서 운영되거나, 아예 별개의 PC를 구성하여 동작되는 경우가 많다. 로봇의 메인 시스템에서 운영되는 경우, 청각 시스템 부분의 연산량이 메인 시스템에 큰 부담을 줄 수 있고, 효율적으로 메인 시스템과 연동시키기 위한 프로그램간 조율 과정이 필수적이어서 다양한 플랫폼의 로봇에 활용하기 어려운 문제점이 있었다. 별개의 PC를 구성한 청각 시스템의 경우 별개의 PC를 구성하기 위한 비용이 증가되고 로봇의 피가 커지는 문제점이 있었다.
상술한 바와 같은 종래의 기술의 문제점을 해결하기 위한 본 발명은, 지능 로봇에서 필요로 하는 청각 기능들을 메인 시스템에 의존함 없이 완전히 독립된 단일 임베디드 시스템으로 모듈화함으로써, 에너지 효율적이고 저렴하며 다양한 로봇에 활용할 수 있는 임베디드 청각 시스템 및 음성 신호 처리 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 임베디드 청각 시스템은, 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 음성 검출부와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 잡음 제거부 및 상기 잡음 제거부에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 핵심어 검출부를 포함하여 구성된다.
상기 임베디드 청각 시스템은 상기 음성 검출부에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 음원 방향 검지부를 더 포함하여 구성될 수 있다.
또한, 본 발명의 다른 일 측면에 따른 음성 신호 처리 방법은, 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 단계와, 음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 단계 및 상기 잡음을 제거하는 단계에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 단계를 포함하여 구성된다.
상기 음성 신호 처리 방법은 상기 음성 구간 및 비음성 구간으로 구분하는 단계에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 단계를 더 포함하여 구성될 수 있다.
본 발명에 따른 임베디드 청각 시스템 및 음성 신호 처리 방법은, 지능 로봇에 필요한 음원 방향 검지, 잡음 제거, 핵심어 검출 기능 등의 다양한 청각 기능을 동시에 단일 모듈에서 제공할 수 있고, 임베디스 시스템화되어 에너지 효율적이고 저렴하며 다양한 로봇에 활용할 수 있다.
이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 살펴본다.
도 1은 본 발명의 일 실시예에 따른 임베디드 청각 시스템을 개략적으로 도시한 도면이다. 도 1을 참조하면, 본 발명에 따른 임베디드 청각 시스템은 SLP 보드(SLP: Sound Localization Process board)(130)로 구성될 수 있다. SLP 보드는 원거리 음성 신호를 취득하기 위한 마이크로폰(110)과 아날로그 신호 처리를 위한 비선형 증폭 보드(NAB: Non-linear Amplifier Board)(120)와 연결될 수 있다.
SLP 보드(130)는 음성 검출부(131), 음원 방향 검지부(132), 잡음 제거부(133), 핵심어 검출부(134)를 포함하여 구성될 수 있다. 상기 SLP 보드(130)의 구성은 예시적인 것이며, SLP 보드(130)를 구성하는 각 부 중 어느 하나가 생략되어 구성될 수도 있다. 예컨대, SLP 보드(130)는 상기 음원 방향 검지부(132)가 생략되고 음성 검출부(131), 잡음 제거부(133) 및 핵심어 검출부(134)를 포함하여 구성될 수 있다.
마이크로폰(110)은 도 2에 도시한 바와 같이 3채널 마이크로폰으로 구성될 수 있다. 3채널 마이크로폰은 마이크0(210), 마이크1(211), 마이크2(212)가 반경 7.5cm의 원을 그리며 120도 간격으로 균등하게 배치될 수 있다. 도 2에 도시한 마이크로폰의 배치는 예시적인 것이며, 마이크로폰의 개수 및 배치는 사용자의 필요에 따라 다양하게 선택될 수 있다. 이러한 마이크로폰을 통해 원거리 음성 신호를 취득할 수 있다.
다시 도 1로 돌아와서, 마이크로폰(110)을 통해 취득된 아날로그 신호는 NAB(120)에 의해 처리된다. NAB(120)는 신호 증폭부(121), A/D 변환부(122) 및 D/A 변환부(123)를 포함하여 구성될 수 있다. 일반적으로 마이크로폰(110)을 통해 취득된 아날로그 신호는 처리하기에는 미세하여 증폭이 필요하게 된다. 신호 증폭부(121)는 마이크로폰(110)을 통해 취득된 아날로그 신호를 증폭시켜 준다. 또한, SLP 보드(130)는 디지털 신호를 처리하게 되므로, A/D 변환부(122)는 신호 증폭 부(121)에 의해 증폭된 신호를 디지털 신호로 변환시킨다. 그리고, D/A 변환부(123)는 SLP 보드(130)에 의해 처리된 신호를 받게 되는데, 특히 음성 인식을 위해서 잡음 제거부(133)에서 잡음이 제거된 음성 신호를 받을 수 있다.
A/D 변환부(122)에 의해 디지털 신호로 변환된 신호는 SLP 보드(130)로 보내지고, 음성 검출부(131)로 들어간다. 음성 검출부(131)는 디지털 신호로 변환된 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분한다. 음성 구간 및 비음성 구간으로 구분된 신호는 전체 청각 시스템에 공유되어 음원 방향 검지부(132) 등 다른 부가 동작하는 기준 신호 역할을 한다. 즉, 음원 방향 검지부(132)는 음성 구간에서만 방향 검지를 수행하고, 잡음 제거부(133)는 비음성 구간의 잡음 정보를 이용하여 음성 구간에서 잡음을 제거하게 된다.
도 3은 본 발명의 일 실시예에 따른 음원 방향 검지부의 데이터 처리 과정을 설명하기 위한 순서도이다. 도 3에서는 음성 구간 및 비음성 구간의 흐름을 설명하기 위해 음성 검출부의 동작도 포함하여 도시한다. 도 3에 도시된 음원 방향 검지부의 동작은 예시적인 것이며, 상이한 동작으로 수행되거나 다른 순서로 수행될 수도 있다.
음원 방향 검지부의 데이터 처리 과정에서는, 먼저 원시(raw) 데이터 즉, 디지털 신호로 변환된 음성 신호가 음성 검출부로 입력된다(S301). 입력된 원시 데이터는 음성 검출부에 의해 음성 구간 및 비음성 구간으로 나뉘어 지고, 음성 구간만이 음원 방향 검지부로 입력된다(S302). 음원 방향 검지부는 음성 구간에 대해 마 이크로폰 채널간 교차 상관도(cross- correlation)을 계산하고(S303) 채널간 교차 상관도를 이용하여 음원으로부터 각각의 마이크로폰에 도착하는데 걸리는 음성 신호의 지연시간을 구할 수 있게 된다. 이로부터 음원 방향 검지부는 가장 개연성이 높은 음원 방향을 추정하고 축적한다(S304). 그 다음은 음성 구간 계속 여부를 확인한다(S305). 음성 구간이 계속되면, 다시 단계(S301)로 돌아가서 음성 검출부로 다시 입력되어 음성 검출 후 다시 방향 검지를 수행한다. 음성 구간이 끝나게 되면, 음원 방향 축적 결과를 후처리하고(S306) 음원 방향을 출력한다(S307).
도 4는 본 발명의 일 실시예에 따른 잡음 제거부의 데이터 처리 과정을 설명하기 위한 순서도이다. 도 4에서는 음성 구간 및 비음성 구간의 흐름을 설명하기 위해 음성 검출부의 동작도 포함하여 도시한다. 도 4에 도시된 잡음 제거부의 동작은 예시적인 것이며, 상이한 동작으로 수행되거나 다른 순서로 수행될 수도 있다.
잡음 제거부는 다채널 위너(Wiener) 필터일 수 있다. 위너 필터는 신호와 잡음이 섞여 있는 정상 입력에 대한 필터 출력과 평활(平滑), 또는 예측된 희망 출력과의 평균 제곱 오차를 최소로 하는 기준으로 설계된다. 다채널 위너 필터의 데이터 처리 과정에서는, 먼저 원시 데이터 즉, 디지털 신호로 변환된 음성 신호가 음성 검출부로 입력된다(S401). 입력된 원시 데이터는 음성 검출부에 의해 음성 구간 및 비음성 구간으로 나뉘어 지고, 음성 구간 및 비음성 구간이 다채널 위너 필터로 입력된다(S302). 다채널 위너 필터는 음성 신호 처리를 위해 음성 신호에 대해 패스트 푸리에 변환(FFT: Fast Fourier Transform)을 수행한다. FFT의 결과 음성 신 호는 시간 영역에서 주파수 영역으로 변환된다. 비음성 구간에 대해 FFT를 수행한 결과, 잡음 정보를 수집할 수 있게 되고, 음성 구간에 대해서는 FFT를 수행하여 위너 필터를 추정한다(S405). 그리고 음성 구간에 대해 상기 비음성 구간으로부터 수집된 잡음 정보를 이용하여 잡음 제거 필터링을 수행하고(S406), 잡음이 제거된 신호를 출력한다(S407).
도 5는 본 발명의 일 실시예에 따른 핵심어 검출부의 데이터 처리 과정을 설명하기 위한 순서도이다. 도 5에서는 음성 구간 및 비음성 구간의 흐름을 설명하기 위해 음성 검출부 및 잡음 제거부의 동작의 일부도 포함하여 도시한다. 도 5에 도시된 핵심어 검출부의 동작은 예시적인 것이며, 상이한 동작으로 수행되거나 다른 순서로 수행될 수도 있다.
핵심어 검출부의 데이터 처리 과정에서는, 먼저 원시 데이터 즉, 디지털 신호로 변환된 음성 신호가 음성 검출부로 입력된다(S501). 입력된 원시 데이터는 음성 검출부에 의해 음성 구간 및 비음성 구간으로 나뉘어 지고, 음성 구간만이 잡음 제거부로 입력된다(S502). 잡음 제거부는 음성 구간에 대해 잡음 제거 필터링을 수행한다(S503). 핵심어 검출부는 잡음이 제거된 음성 구간을 입력으로 받아 특징 벡터를 추출하고 축적한다(S504). 그 다음은 음성 구간 계속 여부를 확인한다(S505). 음성 구간이 계속되면, 다시 단계(S501)로 돌아가서 음성 검출부로 다시 입력되어 음성 검출 후 다시 잡음 제거 및 핵심어 검출을 수행한다. 음성 구간이 끝나게 되면, 핵심어를 검출하고(S506) 검출 여부를 출력한다(S507).
다시 도 1로 돌아와서, UART(Universal Asynchronous Receiver/Transmitter)(135)는 시리얼 통신을 지원하기 위해 컴퓨터의 서브시스템으로서 사용될 수 있다. 컴퓨터는 데이터를 바이트(byte) 단위로 다룬다. 그렇지만 외부로 보낼 때는 이를 비트(bit) 단위로 변환 시켜야 할 필요가 있다. UART는 전송되는 바이트 데이터를 일련의 비트 데이터로 변경시키며, 반대로 입력되는 비트 데이터를 조합해서 바이트 데이터로 변경하는 일을 한다. 본 실시예에서, UART(135)는 음성 구간이 끝났을 때 출력되는 음원 방향 검지부(132)의 결과와 핵심어 검출부(134)의 결과를 받아서 외부 로봇 시스템에 시리얼 통신을 통해 송신할 수 있다. UART(135)는 시리얼 통신을 위한 부가적인 요소이며, 필요에 따라 부가되거나 대체 또는 삭제될 수 있다.
본 발명의 일 실시예에 따른 청각 시스템의 임베디드화에 있어서 핵심적인 기술은 상기 각각의 부의 기능들이 임베디드 시스템 내에서도 제 성능을 낼 수 있도록 임베디드 프로그래밍 코드로 변환하고 최적화 시키는 과정이다. 이 중에서도 특히, FFT(Fast Fourier Transform)의 확장 기법과 다채널 위너 필터의 멜-주파수(Mel-frequency) 기준 필터 공유 기법은 본 발명의 일 실시예에 따른 청각 시스템의 임베디드화에 중요한 역할을 한다.
FFT는 음성 신호 처리에 있어서 가장 많이 활용되는 함수이다. 기존의 임베 디드 프로그래밍 라이브러리에서는 FFT 함수를 제공하고 있는데 이러한 기존의 라이브러리 제공 FFT 함수에서는 에러가 입력 데이터의 길이가 길어질수록 커지는 현상이 발생한다. 일반적인 임베디드 시스템에서는 부동 소수점 연산기(FPU: Float Point Unit)가 없으므로, 고정 소수점 연산을 수행하게 되는데, 이는 표현 범위가 작아 오버플로우(Overflow) 에러가 많이 난다. 이를 피하기 위해 라이브러리 제공 FFT 함수는 입력된 수치의 하위 비트를 강제적으로 버리는데, 이때 버리는 비트 수가 입력 데이터 길이의 밑수 2의 로그 값에 비례한다. 그 결과 사용하는 데이터의 길이가 길어질수록 FFT의 에러는 점점 증가하는 양상을 보인다.
도 6a 내지 도 6c는 라이브러리 제공 FFT 함수를 사용하여 사각파 신호를 FFT한 후, 역변환하여 다시 복원한 결과를 도시한 도면이다. 도 6a는 한 프레임 데이터 길이가 64일 때, 도 6b는 한 프레임 데이터 길이가 128일 때, 도 6c는 한 프레임 데이터 길이가 512일 때의 결과이다. 도 6a 내지 도 6c를 참조하면 복원된 신호가 데이터 길이에 따라 얼마나 원래 신호와 달라지는지를 알 수 있다. 이에 따르면 데이터 길이가 64보다 길어질 경우는 FFT 에러가 심각해지며, 데이터의 길이가 길어질수록 에러가 더욱 증가함을 알 수 있다.
본 발명에서는 길이가 64 이상인 데이터를 처리하게 되므로 상대적으로 긴 길이의 데이터를 에러를 줄이면서 효과적으로 FFT 해 줄 수 있는 방법이 필요하다. 따라서, 이를 위해 본 발명에서 FFT 확장 기법을 제안한다. FFT 확장 기법은 짧은 길이의 제1 FFT 결과를 결합하여 긴 길이의 제2 FFT 결과를 얻어내는 방법이다. 즉, FFT의 수행시 음성 신호를 복수 개의 구간으로 나눈 다음 나누어진 복수 개의 구간에 대해 FFT를 수행하여 복수 개의 제1 FFT 결과를 얻고, 상기 복수 개의 제1 FFT 결과를 합산하여 제2 FFT 결과를 얻는 방법으로 다음의 수학식과 같이 유도된다.
수학식 1에 따르면, 데이터의 길이가 M x N 일 경우, N길이 FFT 결과를 M개 결합하여 M x N길이 FFT 결과를 얻을 수 있다. 예컨대, 320 길이의 FFT가 필요하다고 하면, 64길이 FFT를 5개 묶어 320길이 FFT를 수행할 수 있다. 도 6d는 FFT 확장 기법을 이용하여 FFT를 5개 묶어 320길이 FFT를 수행한 결과이다. 도 6d를 참조하면 320 길이의 FFT가 에러가 거의 없이 효과적으로 수행되었음을 알 수 있다.
한편, 다채널 위너 필터의 멜-주파수 기준 필터 공유 기법은 위너 필터의 연산량을 줄이기 위한 방안으로 제안된다. 다채널 위너 필터는 주파수 도메인에서 수행되는 적응형 필터이다. 즉, 매 프레임마다 FFT의 주파수별로 잡음 제거 효과를 최대화해 주는 필터 계수를 추정하여 필터링이 이루어 진다. 사용된 FFT의 길이가 320 이라고 하면, 양의 주파수와 음의 주파수를 동일하게 볼 때, 총 161개의 FFT 주파수가 존재하고, 이들 각각에 대해 총 161개의 필터 계수를 추정하는 과정은 많은 연산량을 요구한다. 이러한 많은 연산량은 PC보다 연산 능력이 떨어지는 임베디드 시스템에 큰 부담이 되고 속도의 저하를 낳을 수 있어서 임베디드 시스템의 실시간성을 보장하기 어렵게 한다.
이러한 문제를 해결하기 위한 멜-주파수 기준 필터 공유 기법은 필터를 모든 주파수에서 추정하는 것이 아니라, 일부에서만 추정하고 추정하지 않는 주파수에서는 이웃 주파수의 필터 추정 결과를 공유하는 방식으로 연산량을 줄이는 방안이다. 이 때, 일부에 대해서 필터를 추정하지 않음에 따른 성능 저하를 최소화 하기 위해, 필터를 공유하는 주파수 선정에 있어 멜-주파수를 기준으로 하는 방법을 사용한다. 멜-주파수란 일반적인 Hz-주파수와 달리 인간이 느끼는 음높이를 기준으로 주파수를 재는 방식을 말하며, 이러한 특성으로 인해 멜-주파수는 음성인식의 특징벡터를 추출하는데 많이 응용되는 개념이다. Hz-주파수와 멜-주파수의 변환식은 수학식 2와 같이 나타난다.
f는 Hz-주파수를 나타내고, m은 멜-주파수를 나타낸다.
도 7은 등간격 Hz-주파수의 멜-주파수로의 변환 양상을 도시한 도면이다. 도 7를 참조하면 수학식 2에 따른 변환의 양상을 살펴볼 수 있다. 이에 따르면, 등간격인 Hz-주파수에 대해, 멜-주파수는 등간격으로 대응되지 않는다. 저주파 영역에 서는 드문드문 대응되다가 고주파 영역에서는 조밀하게 대응된다. 멜-주파수 관점에서는 저주파 영역의 정보가 고주파 영역의 정보보다 빈약한 것이다. 이 때문에 필터 공유 주파수가 저주파 영역보다 고주파 영역에서 많이 선정 되는 것이 훨씬 유리하다. 이러한 관점에서 본 실시예에서는 40개의 필터 공유 주파수를 선정하였고, 다채널 위너 필터의 연산량을 줄이면서 성능 저하를 최소화 할 수 있다.
이상 본 발명의 특정 실시예를 도시하고 설명하였으나, 본 발명의 기술사상은 첨부된 도면과 상기한 설명내용에 한정하지 않으며 본 발명의 사상을 벗어나지 않는 범위 내에서 다양한 형태의 변형이 가능함은 이 분야의 통상의 지식을 가진 자에게는 자명한 사실이며, 이러한 형태의 변형은, 본 발명의 정신에 위배되지 않는 범위 내에서 본 발명의 특허청구범위에 속한다고 볼 것이다.
도 1은 본 발명의 일 실시예에 따른 임베디드 청각 시스템을 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 3채널 마이크로폰 배치를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 음원 방향 검지부의 데이터 처리 과정을 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 잡음 제거부의 데이터 처리 과정을 설명하기 위한 순서도이다.
도 5는 본 발명의 일 실시예에 따른 핵심어 검출부의 데이터 처리 과정을 설명하기 위한 순서도이다.
도 6a 내지 도 6c는 라이브러리 제공 FFT 함수를 사용하여 사각파 신호를 FFT한 후, 역변환하여 다시 복원한 결과를 도시한 도면이다.
도 6d는 FFT 확장 기법을 이용하여 FFT를 수행한 결과를 도시한 도면이다.
도 7은 등간격 Hz-주파수의 멜-주파수로의 변환 양상을 도시한 도면이다.
Claims (10)
- 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 음성 검출부;음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 잡음 제거부; 및상기 잡음 제거부에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 핵심어 검출부를 포함하는 것을 특징으로 하는 임베디드 청각 시스템.
- 제1항에 있어서,상기 음성 검출부에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 음원 방향 검지부를 더 포함하는 것을 특징으로 하는 임베디드 청각 시스템.
- 제1항에 있어서,상기 잡음 제거부는,음성 신호를 시간 영역에서 주파수 영역으로 변환하는 FFT의 수행시 음성 신호를 복수 개의 구간으로 나눈 다음 나누어진 복수 개의 구간에 대해 FFT를 수행하여 복수 개의 제1 FFT 결과를 얻고, 상기 복수 개의 제1 FFT 결과를 합산하여 제2 FFT 결과를 얻는 것을 특징으로 하는 임베디드 청각 시스템.
- 제1항에 있어서,상기 잡음 제거부는, 다채널 위너 필터인 것을 특징으로 하는 임베디드 청각 시스템.
- 제4항에 있어서,상기 다채널 위너 필터는, 멜-주파수를 이용하며 주파수의 일부에 대해서만 필터 계수를 추정하고 추정하지 않는 주파수에서는 이웃한 주파수의 필터 계수의 추정 결과를 공유하는 멜-주파수 기준 필터 공유 기법을 이용하여 잡음을 제거하는 것을 특징으로 하는 임베디드 청각 시스템.
- 음성 신호를 입력으로 받아 음성 구간 및 비음성 구간으로 구분하는 단계;음성 신호의 비음성 구간의 잡음 정보를 이용하여 음성 신호의 음성 구간의 잡음을 제거하는 단계; 및상기 잡음을 제거하는 단계에 의해 잡음이 제거된 음성 신호로부터 특징 벡터를 추출하고 상기 특징 벡터를 이용하여 음성 신호의 음성 구간으로부터 핵심어를 검출하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
- 제6항에 있어서,상기 음성 구간 및 비음성 구간으로 구분하는 단계에 의해 구분된 음성 구간에서 음성 신호의 방향 검지를 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
- 제6항에 있어서,상기 잡음을 제거하는 단계는, 음성 신호를 시간 영역에서 주파수 영역으로 변환하는 FFT의 수행시,음성 신호를 복수 개의 구간으로 나누는 단계;나누어진 복수 개의 구간에 대해 FFT를 수행하여 복수 개의 제1 FFT 결과를 얻는 단계; 및상기 복수 개의 제1 FFT 결과를 합산하여 제2 FFT 결과를 얻는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
- 제6항에 있어서,상기 잡음을 제거하는 단계는, 다채널 위너 필터링으로 수행되는 것을 특징으로 하는 음성 신호 처리 방법.
- 제9항에 있어서,상기 다채널 위너 필터링은 멜-주파수를 이용하며 주파수의 일부에 대해서만 필터 계수를 추정하고 추정하지 않는 주파수에서는 이웃한 주파수의 필터 계수의 추정 결과를 공유하는 멜-주파수 기준 필터 공유 기법을 이용하여 잡음을 제거하는 것을 특징으로 하는 음성 신호 처리 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090123077A KR101060183B1 (ko) | 2009-12-11 | 2009-12-11 | 임베디드 청각 시스템 및 음성 신호 처리 방법 |
US12/857,059 US20110144988A1 (en) | 2009-12-11 | 2010-08-16 | Embedded auditory system and method for processing voice signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090123077A KR101060183B1 (ko) | 2009-12-11 | 2009-12-11 | 임베디드 청각 시스템 및 음성 신호 처리 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110066429A true KR20110066429A (ko) | 2011-06-17 |
KR101060183B1 KR101060183B1 (ko) | 2011-08-30 |
Family
ID=44143900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090123077A KR101060183B1 (ko) | 2009-12-11 | 2009-12-11 | 임베디드 청각 시스템 및 음성 신호 처리 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20110144988A1 (ko) |
KR (1) | KR101060183B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210043833A (ko) * | 2019-10-14 | 2021-04-22 | 고려대학교 산학협력단 | 잡음 환경에 강인한 동물 종 식별 장치 및 방법 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10055493B2 (en) * | 2011-05-09 | 2018-08-21 | Google Llc | Generating a playlist |
EP2528358A1 (en) * | 2011-05-23 | 2012-11-28 | Oticon A/S | A method of identifying a wireless communication channel in a sound system |
US20140142928A1 (en) * | 2012-11-21 | 2014-05-22 | Harman International Industries Canada Ltd. | System to selectively modify audio effect parameters of vocal signals |
US9542933B2 (en) * | 2013-03-08 | 2017-01-10 | Analog Devices Global | Microphone circuit assembly and system with speech recognition |
KR102282366B1 (ko) | 2013-06-03 | 2021-07-27 | 삼성전자주식회사 | 음성 향상 방법 및 그 장치 |
KR102323393B1 (ko) | 2015-01-12 | 2021-11-09 | 삼성전자주식회사 | 디바이스 및 상기 디바이스의 제어 방법 |
CN106326208B (zh) * | 2015-06-30 | 2019-06-07 | 芋头科技(杭州)有限公司 | 一种通过语音对机器人进行训练的系统及方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020116196A1 (en) * | 1998-11-12 | 2002-08-22 | Tran Bao Q. | Speech recognizer |
US20030018471A1 (en) * | 1999-10-26 | 2003-01-23 | Yan Ming Cheng | Mel-frequency domain based audible noise filter and method |
JP4169921B2 (ja) * | 2000-09-29 | 2008-10-22 | パイオニア株式会社 | 音声認識システム |
GB2398913B (en) * | 2003-02-27 | 2005-08-17 | Motorola Inc | Noise estimation in speech recognition |
US20060206320A1 (en) * | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
WO2007026827A1 (ja) * | 2005-09-02 | 2007-03-08 | Japan Advanced Institute Of Science And Technology | マイクロホンアレイ用ポストフィルタ |
US8275611B2 (en) * | 2007-01-18 | 2012-09-25 | Stmicroelectronics Asia Pacific Pte., Ltd. | Adaptive noise suppression for digital speech signals |
US20090012786A1 (en) * | 2007-07-06 | 2009-01-08 | Texas Instruments Incorporated | Adaptive Noise Cancellation |
DE602007004217D1 (de) * | 2007-08-31 | 2010-02-25 | Harman Becker Automotive Sys | Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung |
JP2009229899A (ja) * | 2008-03-24 | 2009-10-08 | Toshiba Corp | 音声認識装置および音声認識方法 |
JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
-
2009
- 2009-12-11 KR KR1020090123077A patent/KR101060183B1/ko active IP Right Grant
-
2010
- 2010-08-16 US US12/857,059 patent/US20110144988A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210043833A (ko) * | 2019-10-14 | 2021-04-22 | 고려대학교 산학협력단 | 잡음 환경에 강인한 동물 종 식별 장치 및 방법 |
WO2021075709A1 (ko) * | 2019-10-14 | 2021-04-22 | 고려대학교 산학협력단 | 잡음 환경에 강인한 동물 종 식별 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20110144988A1 (en) | 2011-06-16 |
KR101060183B1 (ko) | 2011-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101060183B1 (ko) | 임베디드 청각 시스템 및 음성 신호 처리 방법 | |
JP4986393B2 (ja) | 雑音低減値に対する推定値を決定する方法 | |
CN105830463A (zh) | Vad检测设备和操作该vad检测设备的方法 | |
KR100930060B1 (ko) | 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 | |
US10262678B2 (en) | Signal processing system, signal processing method and storage medium | |
CN101751918B (zh) | 新型消音装置及消音方法 | |
WO2016112113A1 (en) | Utilizing digital microphones for low power keyword detection and noise suppression | |
KR20030076560A (ko) | 전자 신호로부터의 잡음 제거 방법 및 장치 | |
CN102404671A (zh) | 噪音去除装置与噪音去除方法 | |
JP2010505283A (ja) | 風雑音を検出するための方法およびシステム | |
JP5123595B2 (ja) | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN102612711A (zh) | 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质 | |
JP5605574B2 (ja) | 多チャンネル音響信号処理方法、そのシステム及びプログラム | |
JP2010055024A (ja) | 信号補正装置 | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
KR101581885B1 (ko) | 복소 스펙트럼 잡음 제거 장치 및 방법 | |
CN112309414B (zh) | 基于音频编解码的主动降噪方法、耳机及电子设备 | |
WO2017000772A1 (zh) | 一种前端音频处理系统 | |
JP4965891B2 (ja) | 信号処理装置およびその方法 | |
KR100930061B1 (ko) | 신호 검출 방법 및 장치 | |
US20120134509A1 (en) | Noise suppression apparatus, method, and a storage medium storing a noise suppression program | |
TWI356399B (en) | Speech recognition system and method with cepstral | |
US20070076899A1 (en) | Audio collecting device by audio input matrix | |
CN111028857A (zh) | 基于深度学习的多通道音视频会议降噪的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140729 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160804 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180806 Year of fee payment: 8 |