KR20180130367A - 음성전처리장치 및 그 동작방법 - Google Patents

음성전처리장치 및 그 동작방법 Download PDF

Info

Publication number
KR20180130367A
KR20180130367A KR1020170066371A KR20170066371A KR20180130367A KR 20180130367 A KR20180130367 A KR 20180130367A KR 1020170066371 A KR1020170066371 A KR 1020170066371A KR 20170066371 A KR20170066371 A KR 20170066371A KR 20180130367 A KR20180130367 A KR 20180130367A
Authority
KR
South Korea
Prior art keywords
information
keyword
speech
specific
preprocessing
Prior art date
Application number
KR1020170066371A
Other languages
English (en)
Inventor
진유광
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020170066371A priority Critical patent/KR20180130367A/ko
Publication of KR20180130367A publication Critical patent/KR20180130367A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은, 특정키워드가 발화된 시점의 환경정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안하여, 음성인식의 성능을 향상시키는 기술을 개시한다.

Description

음성전처리장치 및 그 동작방법{APPARATUS AND METHOD FOR PREPROCESSING OF SPEECH SIGNAL}
본 발명은, 음성인식 기술과 관련된 것으로, 더욱 상세하게는 특정키워드(wake-up 키워드)가 발화된 시점의 환경정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 실현하는 기술에 관한 것이다.
최근 사용자의 목소리 명령을 기반으로 생활(예: 가정, 차량 등) 속의 각종 디바이스(이하, 단말장치)을 제어하고자 하는 시도가 늘어나면서 음성인식을 위한 원거리 음성 전처리 기술의 중요성이 점차 커지고 있다.
이러한 원거리 음성 전처리 기술을 기반으로 음성인식을 수행하여 음성인식 서비스가 제공되는 과정을 간단히 설명하면 다음과 같다.
사용자가 대기상태의 단말장치를 활성화시키기 위해 특정키워드(wake-up 키워드)를 발화한 후, 단말장치를 제어하기 위한 실제 명령어를 발화하면, 단말장치에서는 명령어에 해당하는 음향 신호를 수신하여 음성 전처리를 수행한다. 이후, 단말장치는 음성인식 작업이 수행될 수 있도록 음성 전처리를 수행한 결과를 서버로 전달한다.
즉, 음성인식 서비스를 제공하기 위해 단말장치에서는 원거리 음성 전처리를 수행하며, 서버에서는 음성 전처리를 수행한 결과를 기반으로 음성인식을 수행한다. 이러한 음성인식 환경에서는, 서버의 음성인식 성능뿐만 아니라 단말장치에서의 효과적인 원거리 음성 전처리 성능의 확보가 중요하다.
특히, 효과적인 원거리 음성 전처리 성능의 확보를 위해서는 사용자의 발화가 이루어지는 방향, 거리, 공간의 반향 특성, 발화의 크기, 주변 잡음특성 등과 같이 발화된 시점의 다양한 주변환경과 관련되는 음향공간특성정보가 획득되어야 한다. 즉, 사용자의 발성이 단말장치의 마이크로폰 어레이에 도달하기까지의 과정에 대한 음향 특성이 정확하게 추정해야 한다.
그러나, 현실적으로는 사용자가 명령어를 발화한 이후에 명령어에 대한 실시간 분석을 통해 음향공간특성정보를 추정하므로, 명령어의 발화 후반부에 비해 발화 전반부의 복원 음성이 상대적으로 정확하지 않아 음성인식의 성능이 저하되는 한계점이 존재한다.
즉, 음향공간특성정보의 실시간 추정을 위해서는 충분한 시스템 수렴시간이 필요하나, 실제 명령어의 발화 초반부에는 실시간 추정을 위한 수렴시간이 부족하므로 음향공간특성정보의 파라미터가 변화되어 음성 전처리 성능이 저하되는 문제가 발생한다.
이에, 본 발명에서는, 사용자가 명령어의 발화 전반부부터 발화 후반부까지 동일한 음향공간특성정보의 파라미터를 기반으로 원거리 전처리가 수행되도록 하기 위한 새로운 음성 전처리 성능 개선 방안을 제안하고자 한다.
본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 상세하게는 특정키워드가 발화된 시점의 환경정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 실현하여, 음성인식의 성능을 향상시키는 기술에 관한 것이다.
상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 음성전처리장치는, 특정키워드가 발화된 시점에 녹음된 특정녹음정보를 확인하는 확인부; 상기 특정녹음정보를 분석한 결과를 기반으로 상기 특정키워드가 발화된 시점의 주변환경과 관련되는 음향공간특성정보를 결정하는 결정부; 및 상기 음향공간특성정보를 기반으로 상기 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리를 수행하는 전처리부를 포함하는 것을 특징으로 한다.
상기 결정부는, 상기 특정녹음정보로부터 상기 특정키워드에 해당하는 키워드음성정보와 주변잡음에 해당하는 키워드주변잡음정보를 구분하고, 상기 키워드음성정보 및 상기 키워드주변잡음정보 중 적어도 하나와 관련된 환경변수를 추정하여 상기 음향공간특성정보를 결정하는 것을 특징으로 한다.
상기 음향공간특성정보는, 상기 키워드음성정보와 관련된 발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보 중 적어도 하나를 포함하는 음성관련환경변수와, 상기 키워드주변잡음정보와 관련된 잡음특성정보를 포함하는 잡음관련환경변수 중 적어도 하나를 포함하는 것을 특징으로 한다.
상기 전처리부는, 상기 발화방향정보에 해당하는 음원방향을 상기 특정명령어의 음원방향으로 확인하는 방향관련전처리와, 상기 발화거리정보를 기반으로 주파수의 이득을 제어하여 상기 특정명령어의 원거리 음성을 근거리 음성으로 보정하는 거리관련전처리와, 상기 반향특성정보를 기반으로 반향파를 제거하여 상기 특정명령어에 대한 반향음을 제거하는 반향관련전처리와, 상기 음성크기정보를 기반으로 상기 특정명령어의 음성크기를 증폭시키기 위한 증폭값을 결정하는 크기관련전처리와, 상기 잡음특성정보를 기반으로 잡음 제거 필터링을 수행하는 잡음관련전처리 중 적어도 하나를 수행하는 것을 특징으로 한다.
상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 음성전처리장치의 동작방법은, 특정키워드가 발화된 시점에 녹음된 특정녹음정보를 확인하는 확인단계; 상기 특정녹음정보를 분석한 결과를 기반으로 상기 특정키워드가 발화된 시점의 주변환경과 관련되는 음향공간특성정보를 결정하는 결정단계; 및 상기 음향공간특성정보를 기반으로 상기 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리를 수행하는 전처리단계를 포함하는 것을 특징으로 한다.
상기 결정단계는, 상기 특정녹음정보로부터 상기 특정키워드에 해당하는 키워드음성정보와 주변잡음에 해당하는 키워드주변잡음정보를 구분하고, 상기 키워드음성정보 및 상기 키워드주변잡음정보 중 적어도 하나와 관련된 환경변수를 추정하여 상기 음향공간특성정보를 결정하는 것을 특징으로 한다.
상기 음향공간특성정보는, 상기 키워드음성정보와 관련된 발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보 중 적어도 하나를 포함하는 음성관련환경변수와, 상기 키워드주변잡음정보와 관련된 잡음특성정보를 포함하는 잡음관련환경변수 중 적어도 하나를 포함하는 것을 특징으로 한다.
상기 전처리단계는, 상기 발화방향정보에 해당하는 음원방향을 상기 특정명령어의 음원방향으로 확인하는 방향관련전처리를 수행하는 단계; 상기 발화거리정보를 기반으로 주파수의 이득을 제어하여 상기 특정명령어의 원거리 음성을 근거리 음성으로 보정하는 거리관련전처리를 수행하는 단계; 상기 반향특성정보를 기반으로 반향파를 제거하여 상기 특정명령어에 대한 반향음을 제거하는 반향관련전처리를 수행하는 단계; 상기 음성크기정보를 기반으로 상기 특정명령어의 음성크기를 증폭시키기 위한 증폭값을 결정하는 크기관련전처리를 수행하는 단계; 및 상기 잡음특성정보를 기반으로 잡음 제거 필터링을 수행하여 잡음관련전처리를 수행하는 단계 중 적어도 하나를 포함하는 것을 특징으로 한다.
이에, 본 발명의 음성전처리장치 및 그 동작방법에 따르면, 특정키워드가 발화된 시점의 환경정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안함으로써, 음성인식 서비스의 성능을 향상시키는 효과를 도출할 수 있다.
도 1은 본 발명이 적용되는 음성인식 환경을 보여주는 예시도이다.
도 2는 본 발명의 실시예에 따른 음성전처리장치의 구성을 보여주는 블록도이다.
도 3은 본 발명의 실시예에 따른 특정키워드(wake-up 키워드)와 특정명령어가 연이어 발화된 일례를 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 키워드음성정보와 관련된 환경변수 파라미터의 일례를 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 음성전처리장치의 동작 방법을 보여주는 동작 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 설명한다.
도 1은 은 본 발명이 적용되는 음성인식 환경을 보여주고 있다.
도 1에 도시된 바와 같이, 본 발명이 적용될 음성인식 환경은, 사용자로부터 발화된 특정키워드(wake-up 키워드)에 따라 활성화된 후 실제 명령어에 해당하는 음향 신호가 수신되면 음성 전처리를 수행하는 원격지의 단말장치(100)와, 실제 명령어에 대응하는 음성인식 서비스가 제공될 수 있도록 단말장치(100)로부터 수신된 음성 전처리 수행결과를 기반으로 음성인식을 수행하는 서버(200)를 포함하는 구성을 가질 수 있다.
여기서, 단말장치(100)는, 본 발명의 음성인식 서비스를 제공을 위해 서버(200)와 연동하여 동작하는 음성인식기기일 수 있다. 이러한 단말장치(100)는, 예를 들어, 음성인식전용단말(예: nugu), 스마트폰, 데스크톱 PC, 태블릿 PC, 내비게이션 등일 수 있으며, 이에 제한되지 않고, 마이크로폰 어레이(microphone array, MA)를 구비하며 서버(200)와 연동하여 동작할 수 있는 형태의 디바이스라면 모두 포함될 수 있다.
이러한 음성인식 환경에서 음성인식 서비스가 제공되는 과정을 간단히 설명하면 다음과 같다.
음성인식 서비스를 이용하기 위해 사용자는, 대기상태의 단말장치(100)를 활성화시키기 위한 특정키워드(wake-up 키워드)를 먼저 발화한 다음, 단말장치(100)를 제어하기 위한 명령어를 발화한다.
그러면, 단말장치(100)는, 특정키워드(wake-up 키워드)에 의해 활성화 상태가 된 후 명령어에 해당하는 음향 신호를 수신하여 음성 전처리를 수행한다. 이후, 단말장치(100)는, 음성 전처리를 수행한 결과(이하, 음성전처리 수행결과)를 서버(200)로 전달한다.
서버(200)는, 단말장치(100)로부터 수신되는 음성전처리 수행결과를 기반으로 명령어에 대한 음성인식을 수행한다. 이후, 서버(200)는, 음성인식을 수행한 결과(이하, 음성인식 수행결과)를 기반으로 명령어에 해당하는 서비스가 단말장치(100)를 통해 제공되도록 제어한다.
이러한 음성인식 환경에서는, 서버(200)의 음성인식 성능뿐만 아니라 단말장치(100)에서의 효과적인 원거리 음성 전처리 성능의 확보가 중요하다. 특히, 효과적인 원거리 음성 전처리 성능의 확보를 위해서는 사용자의 발화가 이루어지는 방향, 거리, 공간의 반향 특성, 발화의 크기, 주변 잡음특성 등과 같이 발화된 시점의 다양한 주변환경과 관련되는 음향공간특성정보가 획득되어야 한다.
즉, 사용자의 발성이 단말장치(100)의 마이크로폰 어레이(MA)에 도달하기까지의 과정에 대한 음향 특성이 정확하게 추정해야 한다.
그러나, 현실적으로는 사용자가 명령어를 발화한 순간 단말장치(100)가 실시간으로 명령어에 대한 분석을 수행하여 음향공간특성정보를 추정하므로, 명령어의 발화 후반부에 비해 발화 전반부의 복원 음성이 상대적으로 정확하지 않아 음성인식의 성능이 저하되는 한계점이 존재한다.
즉, 음향공간특성정보의 실시간 추정을 위해서는 충분한 시스템 수렴시간이 필요하나, 명령어의 발화 초반부에는 실시간 추정을 위한 수렴시간이 부족하므로 음향공간특성정보의 파라미터가 변화뿐만 아니라 시스템에 음향공간특성정보의 수렴이 덜된 상태에서 음성 전처리가 수행되어 음성 전처리 성능이 저하되는 문제가 발생한다.
이에, 본 발명에서는, 사용자가 명령어의 발화 전반부부터 발화 후반부까지 동일한 음향공간특성정보의 파라미터를 기반으로 원거리 전처리가 수행되도록 하기 위한, 새로운 음성 전처리 성능 개선 방안을 제안하고자 한다.
이러한 본 발명의 음성 전처리 성능 개선 기능은, 단말장치(100)에서 모두 수행되는 형태일 수도 있고, 이 경우 후술할 본 발명의 음성전처리장치(도 2의 300)는 단말장치(100)와 동일한 디바이스일 것이다.
한편, 본 발명의 음성 전처리 성능 개선 기능은, 단말장치(100)와 서버(200) 사이에서 신호를 중계하는 중계장치(미도시)에서 모두 수행되고 단말장치(100)는 단순히 사용자로부터 발화되는 음향 신호를 수집하여 중계장치(미도시)로 전달한 후 서버(200)로부터 중계장치(미도시)를 통해 제공되는 음성인식 서비스를 출력하는 기능을 수행하는 형태일 수도 있고, 이 경우 후술할 본 발명의 음성전처리장치(도 2의 300)는 중계장치(미도시)와 동일한 디바이스일 것이다.
이하의 설명에서는, 설명의 편의를 위해 본 발명의 음성전처리장치(300)가 도 1의 단말장치(100)와 동일한 디바이스인 것으로 가정하여, 본 발명의 음성전처리장치의 구성을 구체적으로 설명하겠다.
도 2에 도시된 바와 같이, 본 발명에 따른 음성전처리장치(300)는, 특정키워드(wake-up 키워드)가 발화된 시점에 녹음된 특정녹음정보를 확인하는 확인부(310), 특정녹음정보를 분석한 결과를 기반으로 특정키워드가 발화된 시점의 주변환경과 관련되는 음향공간특성정보를 결정하는 결정부(320), 및 음향공간특성정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리를 수행하는 전처리부(330)를 포함하는 것을 특징으로 한다.
또한, 본 발명의 음성전처리장치(300)는, 음성인식 서비스를 제공을 위해 음성 전처리를 수행하는 과정에서 생성 및 송수신되는 모든 정보(예: 특정녹음정보, 음향공간특성정보 등)을 저장하는 저장부(340)를 더 포함하는 구성을 가질 수 있다.
이상의 확인부(310), 결정부(320), 전처리부(330) 및 저장부(340)를 포함하는 음성전처리장치(300)의 구성 전체 내지는 적어도 일부는, 프로세서에 의해 실행되는 소프트웨어 모듈 형태 또는 하드웨어 모듈 형태로 구현되거나, 소프트웨어 모듈과 하드웨어 모듈이 조합된 형태로도 구현될 수 있다.
결국, 본 발명의 실시예에 따른 음성전처리장치(300)는, 특정키워드가 발화된 시점의 환경정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 실현할 수 있게 되는 데, 이하에서는 이를 위한 음성전처리장치(300) 내 각 구성에 대해 구체적으로 설명하기로 한다.
확인부(310)는, 특정키워드가 발화된 시점에 녹음된 특정녹음정보를 확인한다.
보다 구체적으로 설명하면, 도 1에 도시된 바와 같이, 사용자가 음성인식 서비스를 이용하기 위해 특정키워드(wake-up 키워드)를 발화하는 경우, 음성전처리장치(300)가 활성화되며, 이와 동시에 마이크로폰 어레이(MA)가 특정키워드(wake-up 키워드)의 발화 시점부터 소정의 시간 동안 녹음을 수행하여 특정녹음정보를 생성하고, 저장부(340)에 저장한다.
이후, 사용자가 특정키워드 다음으로 특정명령어를 발화하여 음성인식 서비스를 요청하게 될 것인 데, 이때 특정키워드(wake-up 키워드)의 발화에 따라 음성전처리장치(300)가 활성화된 후 연이어 발화되는 특정명령어가 수신되기까지의 간격(D1)은 도 3과 같이 수백 msec 정도에 불과하므로, 사용자의 위치나 목소리 크기, 주변 잡음의 특성, 공간의 반향 특성 등이 거의 변하지 않고 유사하다고 가정할 수 있다.
즉, 특정키워드(wake-up 키워드)의 발화 음성과 특정명령어의 발화 음성이 유사한 위치에서 유사한 목소리 크기를 통해 연속적으로 이루어지게 됨에 따라, 사용자가 특정키워드(wake-up 키워드)를 발화한 시점의 주변환경과 특정명령어를 발화한 시점의 주변환경이 유사한 것을 확인할 수 있다. 이에, 사용자가 특정키워드(wake-up 키워드)를 발화한 시점의 음향공간특성과, 특정명령어를 발화한 시점의 음향공간특성이 유사한 것으로 가정할 수 있게 되는 것이다.
결국, 특정키워드(wake-up 키워드)의 발화 시점에 녹음된 특정녹음정보를 분석하여, 사용자의 발화가 이루어지는 방향, 거리, 공간의 반향 특성, 발화의 크기, 주변 잡음특성 등과 같이 다양한 주변환경과 관련되는 음향공간특성정보가 추출 된다면, 특정키워드(wake-up 키워드) 다음에 발화되는 특정명령어에 대한 음성 전처리 수행 시 추출된 음향공간특성정보를 적용할 수 있다.
이에, 확인부(310)는, 저장부(340) 내 메모리 버퍼의 매시간 갱신을 모니터링하다가 특정키워드가 발화된 시점에 녹음된 수 초 분량의 특정녹음정보를 확인하고, 이를 결정부(320)로 제공할 수 있게 된다.
결정부(320)는, 특정녹음정보를 분석하여 음향공간특성정보를 결정한다.
보다 구체적으로, 결정부(320)는, 특정녹음정보를 분석한 결과를 기반으로 특정키워드가 발화된 시점의 주변환경과 관련되는 음향공간특성정보를 결정한다.
이때, 특정녹음정보에는, 특정키워드에 해당하는 키워드음성정보와, 주변잡음에 해당하는 키워드주변잡음정보가 함께 혼합되어 있을 것이다.
이에, 결정부(320)는, 확인부(310)로부터 특정녹음정보가 수신되면, 특정녹음정보로부터 특정키워드에 해당하는 키워드음성정보와 주변잡음에 해당하는 키워드주변잡음정보를 구분할 수 있게 된다.
이후, 결정부(320)는, 키워드음성정보 및 키워드주변잡음정보 중 적어도 하나와 관련된 환경변수를 추정하여 음향공간특성정보를 결정한다.
이하에서는, 키워드음성정보와 관련된 환경변수의 일례를 보다 구체적으로 설명하도록 하겠다.
키워드음성정보는, 특정녹음정보의 특정키워드에 해당하는 주파수를 기반으로 확인되는 정보일 수 있다. 이러한 키워드음성정보와 관련되어 추정 가능한 음성관련환경변수로는, 사용자로부터 특정키워드가 발화된 방향(이하, 발화방향정보), 거리(이하, 발화거리정보), 공간의 반향 특성(이하, 반향특성정보), 발화의 크기(이하, 음성크기정보) 중 적어도 하나의 환경변수 파라미터가 포함될 수 있다.
먼저, 키워드음성정보와 관련된 환경변수 파라미터로서, 발화방향정보에 대해 살펴보도록 하겠다.
일반적으로 마이크로폰 어레이(MA)를 이용하여 음원의 방향 또는 위치를 추정하는 기법은, 도착 지연 시간(time difference of arrival, TDOA) 기반 기법, 조향된 빔형성기를 이용한 SRP(steered response power) 기반 기법 등으로 다양할 수 있다. 이하에서는 설명의 편의상, 도 4에 도시된 TDOA 기법 기반으로 발화방향정보를 추정하는 과정을 설명하도록 하겠다.
도 4에 도시된 바와 같이, 2개의 마이크1,2 간 거리가 "d"이고, 음파진행속도가 "v"이고, 2개의 마이크1,2로 녹음된 신호의 도착지연시간이 "τ"인 경우, 공간 상의 특정위치의 사용자, 즉 음원(source)으로부터 발화된 특정키워드는 마이크1,2로 평면적으로 입력될 것이다.
이때, 음원(source)과의 거리가 상대적으로 더 가까운 마이크2에는 특정키워드에 해당하는 음파가 먼저 도달하게 되며, 마이크1에는 도착지연시간(τ)만큼 늦게 음파가 도달하게 된다.
이에, 음원(source)으로부터 마이크1까지 음파진행거리와 음원(source)으로부터 마이크2까지의 음파진행거리의 차이값을 기반으로 도착지연시간 "τ"를 산출하게 된다면, 2개의 마이크와 음원(source) 간의 각도 "θ"에 해당하는 음원(source)의 방향을 추정할 수 있게 된다.
결국, 음파가 음파진행거리 "d·sinθ"를 음파진행속도 "v"로 진행하는데 도착지연시간 "τ"가 걸리게 되므로, 음원(source)이 위치한 방향 "
Figure pat00001
"을 추정할 수 있게 된다.
다음으로, 키워드음성정보와 관련된 환경변수 파라미터로서, 발화거리정보에 대해 살펴보도록 하겠다.
사용자가 발화하는 목소리에는 다양한 주파수 성분이 복합적으로 더해져 있으며, 이러한 각 주파수 성분에 해당하는 음파는 진행속도와 패턴이 미세하게 다르다. 즉, 발화거리에 따라 저주파수 성분과 고주파수 성분의 전달 특성이 상이하다.
이러한 주파수 성분의 전달 특성에 의해 발화거리가 멀어질수록 고주파수 성분이 제대로 도달하지 못하게 되므로, 특정키워드의 발화거리에 따라 저주파 및 고주파의 구성비율이 달라지게 된다.
이에, 표 1과 같이, 임의의 마이크의 위치를 기준으로 발화거리를 일정 단위간격으로 점차 증가시켜가면서 해당 발화거리에서 일반적으로 사람이 발화하는 목소리를 녹음하게 되면, 발화거리 별로 저주파 및 고주파의 구성비율이 상이하게 된다. 이에, 발화거리 별 저주파 및 고주파의 구성비율을 거리추정기준정보로 활용하여 특정키워드의 발화거리를 추정할 수 있게 되는 것이다.
Figure pat00002
결국, 사용자로부터 음성인식 서비스를 요청하는 특정명령어가 발화되었을 때, 특정명령어와 거리추정기준정보를 비교한 결과를 기반으로 사용자의 발화거리를 추정할 수 있게 된다.
다음으로, 키워드음성정보와 관련된 환경변수 파라미터로서, 반향특성정보에 대해 살펴보도록 하겠다.
특정공간에 위치하는 사용자로부터 목소리가 발화되면, 목소리의 각 주파수 성분에 해당하는 음파는 특정공간의 크기, 벽과 천장 및 바닥의 재질, 가구와 같은 장애물의 배치 등에 따라 공간의 반향특성이 달라지게 된다.
일반적인 반향특성은 직접음 대비 반향음이 60dB 줄어들기까지 걸리는 시간을 의미하는 RT60(reverberation time 60)으로 대표된다. 이때, 반향음은, 시간에 따라 지수적(exponential)으로 감소한다고 가정할 수 있다.
이에, 특정녹음정보에 포함되는 음성의 현재 프레임 성분과 다음 프레임 성분 간의 감소 비율로부터 지수감소이율(exponential decay rate)을 근사하여 반향특성을 추정할 수 있다.
다음으로, 키워드음성정보와 관련된 환경변수 파라미터로서, 음성크기정보에 대해 살펴보도록 하겠다.
사용자로부터 특정키워드가 발화되면, 특정키워드의 각 주파수 성분에 해당하는 음파의 크기를 소정의 시간 동안 측정한 후 평균 크기를 산출하는 방식으로 특정키워드에 대한 음성크기정보를 추정할 수 있다. 또한, 음파의 크기에 대한 순간적인 최대값을 산출하는 방식으로 특정키워드에 대한 음성크기정보를 추정할 수 있다.
이하에서는, 키워드주변잡음정보와 관련된 환경변수의 일례를 보다 구체적으로 설명하도록 하겠다.
키워드주변잡음정보는, 특정키워드가 발화되는 시점의 주변환경에서 발생된 잡음에 해당하는 주파수를 기반으로 확인되는 정보일 수 있다. 이러한 키워드주변잡음정보와 관련되어 추정 가능한 잡음관련환경변수로는, 잡음특성정보가 포함될 수 있다. 여기서, 잡음특성정보는, 특정키워드가 발화되는 시점의 주변에서 발생하는 잡음 크기, 잡음의 주파수 특성, 시간에 따른 변화 특성 등과 같은 정보일 수 있다.
이러한 잡음특성정보를 추정하기 위해 일반적으로 사용되는 잡음추정기법으로는, 특정 길이 윈도우 내에서 입력신호 파워 스펙트럼의 최소값을 추적하는 방식인 MS(minimum statistics) 잡음 추정기법, 각 주파수 별 음성 존재 확률을 기반으로 잡음 정보를 갱신하는 MCRA(minima controlled recursive averaging) 잡음 추정기법 등이 포함될 수 있다.
전술에 따라 키워드음성정보로부터 발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보 중 적어도 하나가 음성관련환경변수로서 추정되고, 키워드주변잡음정보로부터 잡음특성정보가 잡음관련환경변수로서 추정되면, 결정부(320)는, 특정키워드가 발화된 시점의 주변환경과 관련되는 음성관련환경변수(발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보) 및 잡음관련환경변수(잡음특성정보) 중 적어도 하나를 음향공간특성정보로 결정하게 된다.
본 발명의 실시예에서는 음성관련환경변수(발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보) 및 잡음관련환경변수(잡음특성정보)가 환경변수 파라미터로서 음향공간특성정보에 포함되는 것으로 언급하였으나, 이에 한정되지 않으며, 향상된 음성신호가 서버(200)로 전달되도록 하는 것과 관련되는 모든 파라미터들이 음향공간특성정보에 포함될 수 있음은 물론이다.
전처리부(330)는, 특정명령어에 대한 음성 전처리를 수행한다.
보다 구체적으로, 전처리부(330)는, 결정부(320)로부터 음향공간특성정보의 결정이 완료되면, 음향공간특성정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리를 수행한다.
즉, 전술에서도 언급하였듯이, 사용자가 음성인식 서비스를 이용하기 위해 특정키워드(wake-up 키워드)를 발화한 후 연이어 특정명령어를 발화하게 되면, 사용자가 특정키워드(wake-up 키워드)를 발화한 시점의 음향공간특성과, 특정명령어를 발화한 시점의 음향공간특성이 유사한 것으로 가정할 수 있다.
이에, 전처리부(330)는, 특정명령어가 발화되었을 때 특정명령어가 발화된 시점의 음향공간특성을 새롭게 추정하는 대신, 특정명령어가 발화되기 직전에 특정키워드(wake-up 키워드)의 발화 시점에 녹음된 특정녹음정보를 기반으로 추출된 음향공간특성정보를 활용하여 특정명령어에 대한 음성 전처리를 수행할 수 있게 된다.
이하에서는, 음향공간특성정보의 음성관련환경변수(발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보) 및 잡음관련환경변수(잡음특성정보)를 기반으로 수행되는 음성 전처리에 대하여 보다 구체적으로 설명하도록 하겠다.
먼저, 음향공간특성정보의 발화방향정보를 기반으로 수행되는 방향관련전처리의 일례에 대하여 살펴보도록 하겠다.
일반적으로 마이크로폰 어레이(MA)를 활용하는 원거리 음성 전처리에서는, 음원(source)의 방향이 추정되면, 음원(source)의 방향에서 확인되는 사용자의 음성을 복원하고 나머지 다른 방향에서 확인되는 잡음을 억제하는 빔포밍(beamforming) 기법을 사용한다.
이처럼 빔포밍 기법을 기반으로 특정명령어에 대한 방향관련전처리를 수행할 때 특정키워드의 발화방향정보에 해당하는 음원방향을 특정명령어의 음원방향으로써 미리 알고 있게 된다면, 특정명령어에 해당하는 음성의 발화 초반부터 즉시 해당 방향에 대한 빔포밍을 수행할 수 있게 된다.
이에, 방향관련전처리의 성능이 향상될 뿐만 아니라, 향후 서버(200)단에서 수행되는 음성인식 시에도 사용자의 음성 손실 없이 정확한 인식을 수행할 수 있게 된다.
다음으로, 음향공간특성정보의 발화거리정보를 기반으로 수행되는 거리관련전처리의 일례에 대하여 살펴보도록 하겠다.
사용자에 의해 발화되는 음성은 발화거리에 따라 저주파수 성분과 고주파수 성분의 전달 특성이 상이해진다. 이에, 일반적으로는 발화거리가 멀어질수록 고주파수 성분이 제대로 도달하지 못하게 되어, 근거리 음성에 비해 원거리 음성을 정확하게 인식하지 못하게 된다. 이러한 점을 고려해볼 때, 원거리 음성의 주파수 성분을 본래의 근거리 음성에 가깝도록 보정하는 거리관련전처리를 수행하는 것이 음성인식의 성능을 향상시키는 데 도움이 된다.
이에, 발화거리를 추정하기 위한 거리추정기준정보가 미리 설정되어 있다면, 사용자로부터 음성인식 서비스를 요청하는 특정명령어가 발화되는 즉시 특정명령어와 거리추정기준정보를 비교한 결과를 기반으로 사용자의 발화거리를 추정하여 거리관련전처리를 수행할 수 있게 된다.
예를 들어, 앞서 언급한 표 1을 참고하면, 거리추정기준정보에 발화거리 별 저주파 및 고주파의 구성비율1,2,3,4,5(이하, 구성비율1,2,3,4,5)가 포함된 경우, 구성비율1,2,3,4,5로부터 특정명령어의 저주파 및 고주파의 구성비율과 동일한 구성비율을 검출하게 되면, 검출된 구성비율(예: 구성비율5)에 해당하는 발화거리를 확인할 수 있다.
즉, 검출된 구성비율(예: 구성비율5)에 해당하는 발화거리에서 특정명령어를 발화한 것이므로, 특정명령어의 원거리 음성은 구성비율5를 갖게 된다. 이하에서는, 설명의 편의상, 본래 사용자의 특정명령어에 대한 근거리 음성은 구성비율1에 해당하는 발화거리에서 발화된 것으로 가정하여 설명하도록 하겠다.
이후, 특정명령어의 원거리 음성이 갖는 구성비율5에 서로 다른 크기의 저주파 및 고주파 이득을 반영하여 고주파가 감소되도록 보정하면, 특정명령어의 원거리 음성이 본래의 특정명령어의 근거리 음성이 갖는 구성비율1에 가깝게 되도록 보정된다.
결국, 사용자의 발화거리가 멀면 일반적으로 특정키워드가 발화된 시점에 녹음된 특정녹음정보의 신호 크기가 작고, 반향 정도가 심하며, 신호대잡음비가 낮은 경향을 보인다. 이에, 사용자의 발화거리 추정을 위한 거리추정기준정보가 미리 확보되어 있다면, 거리추정기준정보를 기반으로 특정명령어의 원거리 음성을 근거리 음성으로 용이하게 보정하는 거리관련전처리를 수행할 수 있게 된다.
다음으로, 음향공간특성정보의 반향특성정보를 기반으로 수행되는 반향관련전처리의 일례에 대하여 살펴보도록 하겠다.
특정공간에 위치하는 사용자로부터 목소리가 발화되는 경우, 주변의 반향특성이 심하게 되면 반향음이 직접음에 섞여 정확한 음성 인식이 어려운 문제가 발생하게 된다.
이에, 음성 전처리 시 반향파를 제거하는 탈반향(dereverberation)을 수행하여 입력신호의 반향음을 줄이기 위한 다양한 기법이 존재한다. 이러한 대부분의 탈반향(dereverberation) 기법은, 앞서도 언급한 RT60(reverberation time 60)를 기반으로 반향파를 제거하므로, RT60 환경변수, 즉 반향특성정보를 정확하게 추정하는 것이 반향관련전처리 성능과 직결된다.
결국, 특정키워드의 반향특성정보를 기반으로 특정명령어에 대한 반향음이 제거되도록 하는 반향관련전처리를 수행함으로써, 직접음에 대한 인식성능이 향상되도록 할 수 있게 된다.
다음으로, 음향공간특성정보의 음성크기정보를 기반으로 수행되는 크기관련전처리의 일례에 대하여 살펴보도록 하겠다.
음파의 공간 전달 특성을 고려할 때 음압은 전달되는 거리의 제곱에 반비례한다. 이에, 원거리에서 발화된 음성은 매우 작은 크기로 마이크로 입력될 것이므로, 강인한 음성인식을 위해서는 음성 전처리 단계에서 특정명령어의 신호크기를 크게 키워주는 것이 필요하다.
이처럼 크기관련전처리를 수행할 때, 사용자로부터 발화된 특정키워드에 대한 음성크기정보의 크기를 미리 알 수 있다면 최적의 음성인식을 위해 특정명령어의 신호크기를 얼마나 증폭시킬지를 사전에 확정할 수 있게 된다.
즉, 크기관련전처리를 통해 특정명령어의 음성크기를 증폭시키기 위한 증폭값이 미리 결정되도록 함으로써, 기존 시간에 따라 특정명령어의 음성크기를 증폭시키기 위한 증폭정도가 변할 경우 발생하던 음성인식 성능이 저하되는 문제를 미연에 방지할 수 있게 된다.
다음으로, 음향공간특성정보의 잡음특성정보를 기반으로 수행되는 잡음관련전처리의 일례에 대하여 살펴보도록 하겠다.
일반적으로 음성 전처리 수행 시 주변잡음을 제거하고 사용자의 음성을 향상시키기 위해 다양한 잡음 제거 필터링 기법을 이용한다. 이러한 잡음 제거 필터링 기법은, 마이크로폰 어레이(MA)를 활용하여 잡음을 억제하는 빔포밍 (beamforming) 기법, 마이크 신호 각각에 대해 단채널 음성 향상을 수행하는 기법 등이 포함될 수 있다.
이러한 잡음 제거 필터링 기법을 이용하기 위해서는, 특정키워드가 발화된 시점의 주변에서 발생하는 잡음특성정보(잡음 크기, 잡음의 주파수 특성, 시간에 따른 변화 특성 등)가 추정되어야 한다. 이에, 잡음특성정보가 미리 추정되어 있다면, 특정명령어의 발화 초반부부터 정확하게 잡음을 제거하여 인식성능을 향상시킬 수 있게 된다.
전술에 따라 특정명령어에 대한 음성 전처리를 수행이 완료되면, 전처리부(330)는, 음성 전처리 수행결과를 서버(200)로 전달한다. 이에, 서버(200)에서는 음성전처리장치(300)로부터 수신되는 향상된 특정명령어의 음성신호를 기반으로 음성인식을 수행할 수 있게 된다.
이하에서는, 도 5를 참조하여, 본 발명의 실시예에 따른 음성전처리장치의 동작 방법을 구체적으로 설명하겠다.
도 5에 도시된 바와 같이, 대기상태에 있던 음성전처리장치(300)는, 사용자가 음성인식 서비스를 이용하기 위해 특정키워드(wake-up 키워드)를 발화하게 되면 활성화 상태가 된다(S100-S102).
이처럼 특정키워드(wake-up 키워드)에 의해 활성화된 음성전처리장치(300)는, 특정키워드(wake-up 키워드)의 발화 시점부터 소정의 시간 동안 마이크로폰 어레이(MA)를 통해 녹음된 특정녹음정보를 확인한다(S103).
전술에 따라 특정녹음정보가 확인되면, 음성전처리장치(300)는, 특정녹음정보를 분석한 결과를 기반으로 특정키워드가 발화된 시점의 주변환경과 관련되는 음향공간특성정보를 결정한다.
이때, 특정녹음정보에는, 특정키워드에 해당하는 키워드음성정보와, 주변잡음에 해당하는 키워드주변잡음정보가 함께 혼합되어 있을 것이다.
이에, 음성전처리장치(300)는, 특정녹음정보로부터 특정키워드에 해당하는 키워드음성정보와 주변잡음에 해당하는 키워드주변잡음정보를 구분한 후 키워드음성정보 및 키워드주변잡음정보 중 적어도 하나와 관련된 환경변수를 추정하여 음향공간특성정보를 결정한다(S104).
여기서, 키워드음성정보는, 특정녹음정보의 특정키워드에 해당하는 주파수를 기반으로 확인되는 정보일 수 있다. 이러한 키워드음성정보와 관련되어 추정 가능한 음성관련환경변수로는, 사용자로부터 특정키워드가 발화된 방향(이하, 발화방향정보), 거리(이하, 발화거리정보), 공간의 반향 특성(이하, 반향특성정보), 발화의 크기(이하, 음성크기정보) 중 적어도 하나의 환경변수 파라미터가 포함될 수 있다.
한편, 키워드주변잡음정보는, 특정키워드가 발화되는 시점의 주변환경에서 발생된 잡음에 해당하는 주파수를 기반으로 확인되는 정보일 수 있다. 이러한 키워드주변잡음정보와 관련되어 추정 가능한 잡음관련환경변수로는, 잡음특성정보가 포함될 수 있다. 여기서, 잡음특성정보는, 특정키워드가 발화되는 시점의 주변에서 발생하는 잡음 크기, 잡음의 주파수 특성, 시간에 따른 변화 특성 등과 같은 정보일 수 있다.
전술에 따라 키워드음성정보로부터 음성관련환경변수(발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보)가 추정되고, 키워드주변잡음정보로부터 잡음관련환경변수(잡음특성정보)가 추정되면, 음성전처리장치(300)는, 특정키워드가 발화된 시점의 주변환경과 관련되는 음성관련환경변수(발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보) 및 잡음관련환경변수(잡음특성정보) 중 적어도 하나를 음향공간특성정보로 결정하게 된다.
이후, 음성전처리장치(300)는, 사용자가 음성인식 서비스를 이용하기 위해 특정키워드(wake-up 키워드)를 발화한 후 연이어 특정명령어를 발화하게 되면(S105의 YES), 특정명령어가 발화되었을 때 특정명령어가 발화된 시점의 음향공간특성을 새롭게 추정하는 대신, 특정명령어가 발화되기 직전에 특정키워드(wake-up 키워드)의 발화 시점에 녹음된 특정녹음정보를 기반으로 추출된 음향공간특성정보를 활용하여 특정명령어에 대한 음성 전처리를 수행한다(S105).
먼저, 음향공간특성정보에 발화방향정보가 포함된 경우일 때 방향관련전처리의 일례를 살펴보면, 일반적으로 마이크로폰 어레이(MA)를 활용하는 원거리 음성 전처리에서는, 음원(source)의 방향이 추정되면, 음원(source)의 방향에서 확인되는 사용자의 음성을 복원하고 나머지 다른 방향에서 확인되는 잡음을 억제하는 빔포밍(beamforming) 기법을 사용한다.
이처럼 빔포밍 기법을 기반으로 특정명령어에 대한 방향관련전처리를 수행하는 경우, 음성전처리장치(300)는, 특정키워드(wake-up 키워드)가 발화된 시점의 음향공간특성정보를 기반으로 특정키워드의 발화방향정보에 해당하는 음원방향을 특정명령어의 음원방향으로써 미리 확인하여, 특정명령어에 해당하는 음성의 발화 초반부터 즉시 해당 방향에 대한 빔포밍을 수행하게 된다.
이에, 방향관련전처리의 성능이 향상될 뿐만 아니라, 향후 서버(200)단에서 수행되는 음성인식 시에도 사용자의 음성 손실 없이 정확한 인식을 수행할 수 있게 된다.
다음으로, 음향공간특성정보에 발화거리정보가 포함된 경우일 때 거리관련전처리의 일례를 살펴보면, 사용자에 의해 발화되는 음성은 발화거리에 따라 저주파수 성분과 고주파수 성분의 전달 특성이 상이해진다. 이에, 일반적으로는 발화거리가 멀어질수록 고주파수 성분이 제대로 도달하지 못하게 되어, 근거리 음성에 비해 원거리 음성을 정확하게 인식하지 못하게 된다.
이러한 점을 고려해볼 때, 원거리 음성의 주파수 성분을 본래의 근거리 음성에 가깝도록 보정하는 거리관련전처리를 수행하는 것이 음성인식의 성능을 향상시키는 데 도움이 된다.
이에, 음성전처리장치(300)는, 특정키워드(wake-up 키워드)가 발화된 시점의 음향공간특성정보를 기반으로 발화거리를 추정하기 위한 거리추정기준정보를 미리 확인하여, 사용자로부터 음성인식 서비스를 요청하는 특정명령어가 발화되는 즉시 특정명령어와 거리추정기준정보를 비교한 결과를 기반으로 사용자의 발화거리를 추정하여 거리관련전처리를 수행한다.
예를 들어, 앞서 언급한 표 1을 참고하면, 거리추정기준정보에 발화거리 별 저주파 및 고주파의 구성비율1,2,3,4,5(이하, 구성비율1,2,3,4,5)가 포함된 경우, 구성비율1,2,3,4,5로부터 특정명령어의 저주파 및 고주파의 구성비율과 동일한 구성비율을 검출하게 되면, 음성전처리장치(300)는, 검출된 구성비율(예: 구성비율5)에 해당하는 발화거리를 확인할 수 있다.
즉, 검출된 구성비율(예: 구성비율5)에 해당하는 발화거리에서 특정명령어를 발화한 것이므로, 특정명령어의 원거리 음성은 구성비율5를 갖게 된다. 이하에서는, 설명의 편의상, 본래 사용자의 특정명령어에 대한 근거리 음성은 구성비율1에 해당하는 발화거리에서 발화된 것으로 가정하여 설명하도록 하겠다.
이후, 음성전처리장치(300)는, 특정명령어의 원거리 음성이 갖는 구성비율5에 서로 다른 크기의 저주파 및 고주파 이득이 반영되도록 이득을 제어하는 보정을 수행하여, 특정명령어의 원거리 음성이 본래의 특정명령어의 근거리 음성이 갖는 구성비율1에 가깝게 되도록 제어하는 거리관련전처리를 수행한다.
결국, 사용자의 발화거리가 멀면 일반적으로 특정키워드가 발화된 시점에 녹음된 특정녹음정보의 신호 크기가 작고, 반향 정도가 심하며, 신호대잡음비가 낮은 경향을 보인다. 이에, 음성전처리장치(300)는, 특정키워드(wake-up 키워드)가 발화된 시점의 음향공간특성정보를 기반으로 사용자의 발화거리 추정을 위한 거리추정기준정보를 미리 확보하여, 거리추정기준정보를 기반으로 특정명령어의 원거리 음성을 근거리 음성으로 용이하게 보정하는 거리관련전처리를 수행할 수 있게 된다.
다음으로, 음향공간특성정보에 반향특성정보가 포함된 경우일 때 반향관련전처리의 일례를 살펴보면, 특정공간에 위치하는 사용자로부터 목소리가 발화되는 경우, 주변의 반향특성이 심하게 되면 반향음이 직접음에 섞여 정확한 음성 인식이 어려운 문제가 발생하게 된다.
이에, 음성전처리장치(300)는, 특정키워드(wake-up 키워드)가 발화된 시점의 음향공간특성정보를 기반으로 특정명령어에 대한 반향음이 제거되도록 하는 반향관련전처리를 수행하여, 직접음에 대한 인식성능이 향상되도록 한다.
다음으로, 음향공간특성정보에 음성크기정보가 포함된 경우일 때 크기관련전처리의 일례를 살펴보면, 원거리에서 발화되는 음성의 경우 매우 작은 크기로 마이크로 입력되므로, 강인한 음성인식을 위해서는 음성 전처리 단계에서 특정명령어의 신호크기를 크게 키워주는 것이 필요하다.
이에, 음성전처리장치(300)는, 특정키워드(wake-up 키워드)가 발화된 시점의 음향공간특성정보를 기반으로 사용자로부터 발화된 특정키워드에 대한 음성크기정보의 크기를 미리 확인하여, 최적의 음성인식을 위해 특정명령어의 신호크기를 얼마나 증폭시킬지를 사전에 확정하는 크기관련전처리를 수행한다.
즉, 특정명령어의 음성크기를 증폭시키기 위한 증폭값이 미리 결정되도록 함으로써, 기존 시간에 따라 특정명령어의 음성크기를 증폭시키기 위한 증폭정도가 변할 경우 발생하던 음성인식 성능이 저하되는 문제를 미연에 방지할 수 있게 된다.
다음으로, 음향공간특성정보에 잡음특성정보가 포함된 경우일 때 잡음관련전처리의 일례를 살펴보면, 일반적으로 음성 전처리 수행 시 주변잡음을 제거하고 사용자의 음성을 향상시키기 위해 다양한 잡음 제거 필터링 기법을 이용한다. 이러한 잡음 제거 필터링 기법은, 마이크로폰 어레이(MA)를 활용하여 잡음을 억제하는 빔포밍 (beamforming) 기법, 마이크 신호 각각에 대해 단채널 음성 향상을 수행하는 기법 등이 포함될 수 있다.
이러한 잡음 제거 필터링 기법을 이용하기 위해서는, 특정키워드가 발화된 시점의 주변에서 발생하는 잡음특성정보(잡음 크기, 잡음의 주파수 특성, 시간에 따른 변화 특성 등)가 추정되어야 한다.
이에, 음성전처리장치(300)는, 특정키워드(wake-up 키워드)가 발화된 시점의 음향공간특성정보를 기반으로 잡음특성정보를 미리 추정하여, 특정명령어의 발화 초반부부터 정확하게 잡음을 제거하는 잡음관련전처리를 수행할 수 있게 된다.
한편, 전술에 따라 특정명령어에 대한 음성 전처리(방향관련전처리, 거리관련전처리, 반향관련전처리, 크기관련전처리, 잡음관련전처리 등)를 수행이 완료되면, 음성전처리장치(300)는, 음성 전처리 수행결과를 서버(200)로 전달한다. 이에, 서버(200)에서는 음성전처리장치(300)로부터 수신되는 향상된 특정명령어의 음성신호를 기반으로 음성인식을 수행할 수 있게 된다.
이상에서 설명한 바와 같이, 본 발명의 음성전처리장치 및 그 동작방법에 따르면, 특정키워드(wake-up 키워드)가 발화된 시점에 결정된 음향공간특성정보를 기반으로 특정키워드(wake-up 키워드)에 연이어 발화될 특정명령어에 대한 음성 전처리를 수행하게 되므로, 기존 특정명령어가 발화되었을 때 특정명령어가 발화된 시점의 음향공간특성을 새롭게 추정함에 따라 실시간 추정을 위한 수렴시간이 부족하여 발생하던 음성 전처리 성능이 저하되는 문제를 해소할 수 있다.
또한, 본 발명의 음성전처리장치 및 그 동작방법에 따르면, 특정명령어가 발화되기 직전에 발화된 특정키워드(wake-up 키워드)의 음향공간특성정보를 활용하여 음성 전처리를 수행하게 됨에 따라, 특정명령어의 발화 전반부부터 발화 후반부까지 동일한 음향공간특성정보의 파라미터를 기반으로 안정된 원거리 전처리를 수행할 수 있어, 사용자가 장소를 이동하거나 공간특성이 변경되는 등과 같이 음성인식 환경이 다양하게 변화하는 경우에도 음성인식 성능을 향상시킬 수 있어 보다 안정적으로 음성인식 서비스를 제공할 수 있다.
이에, 본 발명에 따르면, 특정키워드가 발화된 시점의 환경정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안함으로써, 음성인식 서비스의 성능을 향상시키는 효과를 도출한다.
본 발명의 일 실시예에 따른 음성전처리장치 및 그 동작방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 의사 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.
본 발명의 음성전처리장치 및 그 동작방법에 따르면, 특정키워드가 발화된 시점의 환경정보를 기반으로 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안한다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.
100: 단말장치
200: 서버
300: 음성전처리장치
310: 확인부 320: 결정부
330: 전처리부 340: 저장부

Claims (8)

  1. 특정키워드가 발화된 시점에 녹음된 특정녹음정보를 확인하는 확인부;
    상기 특정녹음정보를 분석한 결과를 기반으로 상기 특정키워드가 발화된 시점의 주변환경과 관련되는 음향공간특성정보를 결정하는 결정부; 및
    상기 음향공간특성정보를 기반으로 상기 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리를 수행하는 전처리부
    를 포함하는 것을 특징으로 하는 음성전처리장치.
  2. 제 1 항에 있어서,
    상기 결정부는,
    상기 특정녹음정보로부터 상기 특정키워드에 해당하는 키워드음성정보와 주변잡음에 해당하는 키워드주변잡음정보를 구분하고, 상기 키워드음성정보 및 상기 키워드주변잡음정보 중 적어도 하나와 관련된 환경변수를 추정하여 상기 음향공간특성정보를 결정하는 것을 특징으로 하는 음성전처리장치.
  3. 제 2 항에 있어서,
    상기 음향공간특성정보는,
    상기 키워드음성정보와 관련된 발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보 중 적어도 하나를 포함하는 음성관련환경변수와, 상기 키워드주변잡음정보와 관련된 잡음특성정보를 포함하는 잡음관련환경변수 중 적어도 하나를 포함하는 것을 특징으로 하는 음성전처리장치.
  4. 제 3 항에 있어서,
    상기 전처리부는,
    상기 발화방향정보에 해당하는 음원방향을 상기 특정명령어의 음원방향으로 확인하는 방향관련전처리와,
    상기 발화거리정보를 기반으로 주파수의 이득을 제어하여 상기 특정명령어의 원거리 음성을 근거리 음성으로 보정하는 거리관련전처리와,
    상기 반향특성정보를 기반으로 반향파를 제거하여 상기 특정명령어에 대한 반향음을 제거하는 반향관련전처리와,
    상기 음성크기정보를 기반으로 상기 특정명령어의 음성크기를 증폭시키기 위한 증폭값을 결정하는 크기관련전처리와,
    상기 잡음특성정보를 기반으로 잡음 제거 필터링을 수행하는 잡음관련전처리 중 적어도 하나를 수행하는 것을 특징으로 하는 음성전처리장치.
  5. 특정키워드가 발화된 시점에 녹음된 특정녹음정보를 확인하는 확인단계;
    상기 특정녹음정보를 분석한 결과를 기반으로 상기 특정키워드가 발화된 시점의 주변환경과 관련되는 음향공간특성정보를 결정하는 결정단계; 및
    상기 음향공간특성정보를 기반으로 상기 특정키워드 다음에 발화되는 특정명령어에 대한 음성 전처리를 수행하는 전처리단계
    를 포함하는 것을 특징으로 하는 음성전처리장치의 동작방법.
  6. 제 5 항에 있어서,
    상기 결정단계는,
    상기 특정녹음정보로부터 상기 특정키워드에 해당하는 키워드음성정보와 주변잡음에 해당하는 키워드주변잡음정보를 구분하고, 상기 키워드음성정보 및 상기 키워드주변잡음정보 중 적어도 하나와 관련된 환경변수를 추정하여 상기 음향공간특성정보를 결정하는 것을 특징으로 하는 음성전처리장치의 동작방법.
  7. 제 6 항에 있어서,
    상기 음향공간특성정보는,
    상기 키워드음성정보와 관련된 발화방향정보, 발화거리정보, 반향특성정보, 음성크기정보 중 적어도 하나를 포함하는 음성관련환경변수와, 상기 키워드주변잡음정보와 관련된 잡음특성정보를 포함하는 잡음관련환경변수 중 적어도 하나를 포함하는 것을 특징으로 하는 음성전처리장치의 동작방법.
  8. 제 7 항에 있어서,
    상기 전처리단계는,
    상기 발화방향정보에 해당하는 음원방향을 상기 특정명령어의 음원방향으로 확인하는 방향관련전처리를 수행하는 단계;
    상기 발화거리정보를 기반으로 주파수의 이득을 제어하여 상기 특정명령어의 원거리 음성을 근거리 음성으로 보정하는 거리관련전처리를 수행하는 단계;
    상기 반향특성정보를 기반으로 반향파를 제거하여 상기 특정명령어에 대한 반향음을 제거하는 반향관련전처리를 수행하는 단계;
    상기 음성크기정보를 기반으로 상기 특정명령어의 음성크기를 증폭시키기 위한 증폭값을 결정하는 크기관련전처리를 수행하는 단계; 및
    상기 잡음특성정보를 기반으로 잡음 제거 필터링을 수행하여 잡음관련전처리를 수행하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는 음성전처리장치의 동작방법.
KR1020170066371A 2017-05-29 2017-05-29 음성전처리장치 및 그 동작방법 KR20180130367A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170066371A KR20180130367A (ko) 2017-05-29 2017-05-29 음성전처리장치 및 그 동작방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170066371A KR20180130367A (ko) 2017-05-29 2017-05-29 음성전처리장치 및 그 동작방법

Publications (1)

Publication Number Publication Date
KR20180130367A true KR20180130367A (ko) 2018-12-07

Family

ID=64669755

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170066371A KR20180130367A (ko) 2017-05-29 2017-05-29 음성전처리장치 및 그 동작방법

Country Status (1)

Country Link
KR (1) KR20180130367A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200116617A (ko) * 2019-04-02 2020-10-13 주식회사 엘지유플러스 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200116617A (ko) * 2019-04-02 2020-10-13 주식회사 엘지유플러스 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
CN107577449B (zh) 唤醒语音的拾取方法、装置、设备及存储介质
US9615171B1 (en) Transformation inversion to reduce the effect of room acoustics
US9984702B2 (en) Extraction of reverberant sound using microphone arrays
JP6129316B2 (ja) 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
US8204248B2 (en) Acoustic localization of a speaker
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US9002024B2 (en) Reverberation suppressing apparatus and reverberation suppressing method
US9595997B1 (en) Adaption-based reduction of echo and noise
RU2758192C2 (ru) Звукозапись с использованием формирования диаграммы направленности
JP2016080750A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2003514412A (ja) 音源が一対のマイクロフォンから近いか遠いかを判断する方法
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
US11308973B2 (en) Method for processing multi-channel audio signal on basis of neural network and electronic device
KR20180130367A (ko) 음성전처리장치 및 그 동작방법
JP2010206365A (ja) 対話装置
US9875755B2 (en) Voice enhancement device and voice enhancement method
JP2913105B2 (ja) 音響信号検出方法
US11039242B2 (en) Audio capture using beamforming
Even et al. Blind signal extraction based joint suppression of diffuse background noise and late reverberation
JP6361360B2 (ja) 残響判定装置及びプログラム
Potamitis et al. Speech activity detection and enhancement of a moving speaker based on the wideband generalized likelihood ratio and microphone arrays
KR102081295B1 (ko) 음성전처리장치 및 그 동작방법
KR102012522B1 (ko) 방향성 음향 신호 처리 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application