KR20180129473A

KR20180129473A - 음성전처리장치 및 그 동작방법

Info

Publication number: KR20180129473A
Application number: KR1020170065575A
Authority: KR
Inventors: 진유광
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2018-12-05
Also published as: KR102081295B1

Abstract

본 발명은, 특정장소에서 지속적으로 발생되는 특정음향신호를 미리 확인한 결과를 기반으로 명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안함으로써, 음성인식 서비스의 성능을 향상시키는 기술을 개시한다.

Description

음성전처리장치 및 그 동작방법{APPARATUS AND METHOD FOR PREPROCESSING OF SPEECH SIGNAL}

본 발명은, 음성인식 기술과 관련된 것으로, 더욱 상세하게는 명령어가 발화되는 것과 무관하게, 특정장소에서 지속적으로 발생되는 특정음향신호(예: 잡음원)를 미리 확인한 결과를 기반으로 명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 실현하는 기술에 관한 것이다.

최근 사용자의 목소리 명령을 기반으로 생활(예: 가정, 차량 등) 속의 각종 디바이스(이하, 단말장치)을 제어하고자 하는 시도가 늘어나면서 음성인식을 위한 원거리 음성 전처리 기술의 중요성이 점차 커지고 있다.

이러한 원거리 음성 전처리 기술을 기반으로 음성인식을 수행하여 음성인식 서비스가 제공되는 과정을 간단히 설명하면 다음과 같다.

특정공간(예: 거실, 방, 차량 등) 내에 존재하는 사용자가 단말장치를 제어하기 위한 명령어를 발화하는 경우, 단말장치는 명령어가 발화된 방향을 추정한 후 주변잡음을 제거하여 명령어에 해당하는 음향신호에 대한 음성 전처리를 수행한다. 이후, 단말장치는, 음성인식 작업이 수행될 수 있도록 음성 전처리를 수행한 결과를 서버로 전달한다.

즉, 이러한 음성인식 환경에서는, 명령어의 발화 방향을 기준으로 상대적인 잡음원 방향 성분을 억제하여 주변잡음을 제거하므로, 주변잡음을 제거하기 위한 충분한 시스템 수렴시간이 확보되지 못해 전반적인 음성 전처리 성능이 저하되는 문제가 발생한다.

또한, 명령어의 발화 방향이 새롭게 추가/변경되는 경우에는, 명령어의 발화 방향을 기준으로 상대적인 잡음원의 방향을 재추정하는 과정을 반복하게 되므로, 시스템 부하로부터 자유로울 수 없는 문제가 있다.

나아가, 사람의 목소리가 재생되는 음원(예: TV, 라디오 등)이나 기준 이상의 심한 잡음을 발생시키는 음원(예: 냉장고, 에어컨 등)이 존재하는 경우에는, 음성 전처리 시 잡음을 충분히 제거하지 못하는 한계점 역시 존재하게 된다.

이에, 본 발명에서는, 명령어가 발화되는 것과 무관하게, 특정장소에서 지속적으로 발생되는 잡음원을 미리 확인하여 음성 전처리 시 활용하도록 하는 새로운 음성 전처리 성능 개선 방안을 제안하고자 한다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 상세하게는 특정장소에서 지속적으로 발생되는 특정음향신호를 미리 확인한 결과를 기반으로 명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 실현하여, 음성인식의 성능을 향상시키는 기술에 관한 것이다.

상기 목적을 달성하기 위한 본 발명의 제 1 관점에 따른 음성전처리장치는, 음성인식 전처리 수행을 위해, 수신되는 적어도 하나의 음원 중 지속적으로 수신되는 특정음원을 제거 대상으로 미리 추정하는 추정부; 및 명령어가 수신된 경우, 상기 추정된 특정음원으로부터 수신되는 특정음향신호를 이용하여 상기 명령어에 대한 음성 전처리를 수행하는 전처리부를 포함하는 것을 특징으로 한다.

특정공간에서 녹음된 특정녹음정보를 기반으로 상기 음원의 방향을 확인하는 확인부를 더 포함하며, 상기 추정부는, 각 방향 별로 수신되는 음향신호의 전체패턴과 기 결정된 표준음성신호의 전체패턴을 비교한 결과를 기반으로 상기 특정음원이 위치하는 특정방향을 추정하는 것을 특징으로 한다.

상기 추정부는, 상기 음향신호의 시간변화에 따른 지속패턴과 기 설정된 표준음성신호의 시간변화에 따른 표준발화지속패턴이 상이하면, 해당 음향신호가 수신되는 해당 방향을 상기 특정방향으로 결정하는 것을 특징으로 한다.

상기 전처리부는, 상기 특정음향신호가 기준시간 이상 지속적으로 수신되는지의 여부를 판단한 결과를 기반으로 상기 특정음향신호의 제거여부를 결정하여 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 한다.

상기 전처리부는, 상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되는 경우, 상기 특정음향신호의 제거와 관련되는 제1 가중치를 기반으로 상기 특정음향신호를 제거한 후 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 한다.

상기 전처리부는, 상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되지 않는 경우, 상기 특정음향신호의 복원과 관련되는 제2 가중치를 기반으로 상기 특정음향신호를 복원한 후 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 제 2 관점에 따른 음성전처리장치의 동작방법은, 음성인식 전처리 수행을 위해, 수신되는 적어도 하나의 음원 중 지속적으로 수신되는 특정음원을 제거 대상으로 미리 추정하는 추정단계; 및 명령어가 수신된 경우, 상기 추정된 특정음원으로부터 수신되는 특정음향신호를 이용하여 상기 명령어에 대한 음성 전처리를 수행하는 전처리단계를 포함하는 것을 특징으로 한다.

상기 추정단계는, 특정공간에서 녹음된 특정녹음정보를 기반으로 상기 음원의 방향이 확인되면, 각 방향 별로 수신되는 음향신호의 전체패턴과 기 결정된 표준음성신호의 전체패턴을 비교한 결과를 기반으로 상기 특정음원이 위치하는 특정방향을 추정하는 단계를 포함하는 것을 특징으로 한다.

상기 추정단계는, 상기 음향신호의 시간변화에 따른 지속패턴과 기 설정된 표준음성신호의 시간변화에 따른 표준발화지속패턴이 상이하면, 해당 음향신호가 수신되는 해당 방향을 상기 특정방향으로 결정하는 것을 특징으로 한다.

상기 전처리단계는, 상기 특정음향신호가 기준시간 이상 지속적으로 수신되는지의 여부를 판단한 결과를 기반으로 상기 특정음향신호의 제거여부를 결정하여 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 한다.

상기 전처리단계는, 상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되는 경우, 상기 특정음향신호의 제거와 관련되는 제1 가중치를 기반으로 상기 특정음향신호를 제거한 후 상기 명령어에 대한 음성 전처리를 수행하는 단계; 및 상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되지 않는 경우, 상기 특정음향신호의 복원과 관련되는 제2 가중치를 기반으로 상기 특정음향신호를 복원한 후 상기 명령어에 대한 음성 전처리를 수행하는 단계를 포함하는 것을 특징으로 한다.

이에, 본 발명의 음성전처리장치 및 그 동작방법에 따르면, 특정장소에서 지속적으로 발생되는 특정음향신호를 미리 확인한 결과를 기반으로 명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안함으로써, 음성인식 서비스의 성능을 향상시키는 효과를 도출할 수 있다.

도 1은 본 발명이 적용되는 음성인식 환경을 보여주는 예시도이다.
도 2는 본 발명의 실시예에 따른 음성전처리장치의 구성을 보여주는 블록도이다.
도 3은 본 발명의 실시예에 따른 마이크로폰 어레이(MA)를 이용하여 음원의 방향/위치를 추정하는 일례를 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 음성전처리장치의 동작 방법을 보여주는 동작 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 설명한다.

도 1은 은 본 발명이 적용되는 음성인식 환경을 보여주고 있다.

도 1에 도시된 바와 같이, 본 발명이 적용될 음성인식 환경은, 사용자로부터 발화된 실제 명령어에 해당하는 음향신호가 수신되면 음성 전처리를 수행하는 원격지의 단말장치(100)와, 실제 명령어에 대응하는 음성인식 서비스가 제공될 수 있도록 단말장치(100)로부터 수신된 음성 전처리 수행결과를 기반으로 음성인식을 수행하는 서버(200)를 포함하는 구성을 가질 수 있다.

여기서, 단말장치(100)는, 마이크로폰 어레이(microphone array, MA)를 구비하며, 특정공간(예: 거실, 차량 등)(10)에 배치된다. 이러한, 단말장치(100)는, 본 발명의 음성인식 서비스를 제공을 위해 서버(200)와 연동하여 동작하는 음성인식기기일 수 있다.

예를 들어, 단말장치(100)는, 음성인식전용단말(예: nugu), 스마트폰, 데스크톱 PC, 태블릿 PC, 내비게이션 등일 수 있으며, 이에 제한되지 않고, 마이크로폰 어레이(microphone array, MA)를 구비하며 서버(200)와 연동하여 동작할 수 있는 형태의 디바이스라면 모두 포함될 수 있다.

이러한 음성인식 환경에서 음성인식 서비스가 제공되는 과정을 간단히 설명하면 다음과 같다.

특정공간(10) 내에 존재하는 사용자가 단말장치(100)를 제어하기 위한 명령어를 발화하는 경우, 단말장치(100)는 명령어가 발화된 방향을 추정한 후 주변잡음을 제거하여 명령어에 해당하는 음향신호에 대한 음성 전처리를 수행한다. 이후, 단말장치(100)는, 음성인식 작업이 수행될 수 있도록 음성 전처리를 수행한 결과를 서버(200)로 전달한다.

나아가, 특정공간(10) 내에서 사람의 목소리가 재생되는 음원(예: TV, 라디오 등)이나 기준 이상의 심한 잡음을 발생시키는 음원(예: 냉장고, 에어컨 등) 등이 다수 존재하는 경우에는, 음성 전처리 시 충분히 잡음을 제거하지 못하는 한계점 역시 존재하게 된다.

이러한 본 발명의 음성 전처리 성능 개선 기능은, 단말장치(100)에서 모두 수행되는 형태일 수도 있고, 이 경우 후술할 본 발명의 음성전처리장치(도 3의 300)는 단말장치(100)와 동일한 디바이스일 것이다.

한편, 특정공간이 다수이고 다수의 특정공간에 각각 단말장치가 존재하는 경우일 때, 본 발명의 음성 전처리 성능 개선 기능은, 다수의 단말장치와 서버(200) 사이에서 신호를 중계하는 중계장치(미도시)에서 모두 수행되고 다수의 단말장치는 단순히 사용자로부터 발화되는 음향신호를 수집하여 중계장치(미도시)로 전달한 후 서버(200)로부터 중계장치(미도시)를 통해 제공되는 음성인식 서비스를 출력하는 기능을 수행하는 형태일 수도 있다. 이 경우 후술할 본 발명의 음성전처리장치(도 2의 300)는 중계장치(미도시)와 동일한 디바이스일 것이다.

이하의 설명에서는, 설명의 편의를 위해 본 발명의 음성전처리장치(300)가 도 1의 단말장치(100)와 동일한 디바이스인 것으로 가정하여, 본 발명의 음성전처리장치의 구성을 구체적으로 설명하겠다.

도 2에 도시된 바와 같이, 본 발명에 따른 음성전처리장치(300)는, 음성인식 전처리 수행을 위해, 수신되는 적어도 하나의 음원 중 지속적으로 수신되는 특정음원을 제거 대상으로 미리 추정하는 추정부(320), 및 명령어가 수신된 경우, 상기 추정된 특정음원으로부터 수신되는 특정음향신호를 이용하여 명령어에 대한 음성 전처리를 수행하는 전처리부(330)를 포함하는 것을 특징으로 한다.

또한, 본 발명의 음성전처리장치(300)는, 특정공간(10)에서 녹음된 특정녹음정보를 기반으로 적어도 하나의 음원의 방향을 확인하는 확인부(310)를 더 포함하는 구성을 가질 수 있다.

또한, 본 발명의 음성전처리장치(300)는, 음성인식 서비스를 제공을 위해 음성 전처리를 수행하는 과정에서 생성 및 송수신되는 모든 정보(예: 특정녹음정보, 특정방향, 명령어 등)을 저장하는 저장부(340)를 더 포함하는 구성을 가질 수 있다.

이상의 확인부(310), 추정부(320), 전처리부(330) 및 저장부(340)를 포함하는 음성전처리장치(300)의 구성 전체 내지는 적어도 일부는, 프로세서에 의해 실행되는 소프트웨어 모듈 형태 또는 하드웨어 모듈 형태로 구현되거나, 소프트웨어 모듈과 하드웨어 모듈이 조합된 형태로도 구현될 수 있다.

결국, 본 발명의 실시예에 따른 음성전처리장치(300)는, 명령어가 발화되는 것과 무관하게, 특정장소에서 지속적으로 발생되는 잡음원을 미리 확인하여 음성 전처리 시 활용하도록 하는, 새로운 음성 전처리 성능 개선 방안을 실현할 수 있게 되는 데, 이하에서는 이를 위한 음성전처리장치(300) 내 각 구성에 대해 구체적으로 설명하기로 한다.

확인부(310)는, 특정공간에 존재하는 적어도 하나의 음원의 방향을 확인한다.

보다 구체적으로 설명하면, 도 1과 같이, 특정공간(10) 내 적어도 하나의 음원으로부터 발생된 음향신호가 마이크로폰 어레이(MA)로 전달되면, 마이크로폰 어레이(MA)는, 실시간으로 도달되는 음향신호를 녹음하여 특정녹음정보를 생성한다.

즉, 확인부(310)는, 마이크로폰 어레이(MA)를 통해 전달되는 특정녹음정보를 기반으로 음향의 방향을 확인한다.

이와 관련하여, 도 3에는 일반적으로 마이크로폰 어레이(MA)를 이용하여 음원의 방향/위치를 추정하는 일례가 도시되어 있다. 일반적으로 마이크로폰 어레이(MA)를 이용하여 음원의 방향 또는 위치를 추정하는 기법은, 도착 지연 시간(time difference of arrival, TDOA) 기반 기법, 조향된 빔형성기를 이용한 SRP(steered response power) 기반 기법 등으로 다양할 수 있다.

먼저, 도 3의 (a)를 참고하여, 각 마이크에 도달하는 음향신호의 시간차를 이용하는 도착지연시간(TDOA) 기반 기법을 이용하여 음향의 방향을 확인하는 과정을 설명하도록 하겠다.

도 3의 (a)에 도시된 바와 같이, 2개의 마이크11,12 간 거리가 "d"이고, 음파진행속도가 "v"이고, 2개의 마이크11,12로 녹음된 신호의 도착지연시간이 "τ"인 경우, 특정공간(10) 상의 특정위치의 음원(20)으로부터 발생된 음향신호는 마이크11,12로 평면적으로 입력될 것이다.

이때, 음원(20)과의 거리가 상대적으로 더 가까운 마이크12에는 음향신호에 해당하는 음파가 먼저 도달하게 되며, 마이크11에는 도착지연시간(τ)만큼 늦게 음파가 도달하게 된다.

이에, 음원(20)으로부터 마이크11까지의 음파진행거리와 음원(20)으로부터 마이크12까지의 음파진행거리의 차이값을 기반으로 도착지연시간 "τ"를 산출하게 된다면, 2개의 마이크와 음원(20) 간의 각도 "θ"에 해당하는 음원(20)의 방향을 확인할 수 있게 된다.

결국, 음파가 음파진행거리 "d·sinθ"를 음파진행속도 "v"로 진행하는데 도착지연시간 "τ"가 걸리게 되므로, 음원(source)이 위치한 방향 "

"을 확인할 수 있게 된다.

다음으로, 도 3의 (b)를 참고하여, 조향된 빔형성기를 이용한 SRP(steered response power) 기반 기법을 이용하여 음향의 방향을 확인하는 과정을 설명하도록 하겠다.

도 3의 (b)에 도시된 바와 같이, 특정공간(10) 상의 임의의 음원으로부터 음향신호가 발생된 경우, 다수개의 마이크로폰 어레이(이하, 마이크)로 도달되는 음향신호를 더하여 음원(20)의 위치를 추정하게 된다.

보다 구체적으로, 특정한 방향 "θ"에 음원(20)이 위치하고 있다고 가정하면, 각 마이크21,22,23,24로 도달된 음향신호는 각각 고유한 도착지연시간 "

"을 갖게 된다.

이에, 각 마이크21,22,23,24로 도달된 음향신호에 도착지연시간 "τ"를 보상한 후 각 마이크21,22,23,24의 음향신호들을 더하면 특정한 방향 "θ"에 대한 SRP를 산출할 수 있게 된다.

이후, 각 방향 "θ"에 대한 SRP를 산출한 후 가장 큰 SRP를 갖는 방향을 검출하고, 검출된 방향 "θ"를 음원(20)의 방향으로 확인한다.

추정부(320)는, 잡음원이 위치하는 특정방향을 추정한다.

보다 구체적으로, 추정부(320)는, 확인부(310)로부터 특정공간(10) 상에 존재하는 적어도 하나의 음원의 방향이 확인되면, 각 방향 별로 발생되는 음향신호를 기반으로 상기 음원 중 지속적으로 발생되어 제거대상이 되는, 특정음원(이하, 제거대상음원)이 위치하는 특정방향을 추정한다.

즉, 추정부(320)는, 각 방향 별로 발생되는 음향신호와 기 결정된 표준음성신호를 일정시간 동안 비교한 결과를 기반으로 제거대상음원이 위치하는 특정방향을 결정한다.

이를 위해서는, 먼저 특정공간(10) 내 각 방향 별로 발생되는 음향신호에 대한 분리가 이루어져야 한다. 이처럼 각 방향 별로 발생되는 음향신호만을 분리하는 것은, 앞서 언급한 SRP(steered response power) 기반 기법을 이용하는 과정에서 각 마이크로 도달된 음향신호에 도착지연시간을 보상한 후 이들을 모두 더할 때 다양한 기법을 적용함으로써 수행될 수 있다.

이러한 기법으로는, N개의 마이크 신호에 음원 방향에 의한 도착지연시간을 보상한 후 모두 더하는 방식인 delay-and-sum beamforming 기법, 및 각 마이크에 서로 다른 가중치값을 부여하여 더하는 방식인 Filter-and-sum beamforming 기법 등이 포함될 수 있다.

이에, 전술에 따라 각 방향 별로 발생되는 음향신호가 분리되면, 추정부(320)는, 각 방향 별로 발생되는 음향신호와 표준음성신호를 일정시간 동안 비교할 수 있는 것이다.

여기서, 일정시간 동안 비교하는 것은, 단순하게 순간적인 패턴의 차이를 비교하는 것이 아니라, 시간변화에 따른 패턴 특성을 고려하여 지속적으로 발생되는 패턴의 변화를 비교한 결과를 기반으로 제거대상음원이 위치하는 특정방향을 추정하기 위함이다.

이하에서는, 패턴비교를 통해 제거대상음원이 위치하는 특정방향을 결정하는 다양한 예를 설명하도록 하겠다.

먼저, 시간변화에 따른 전체적인 패턴특징에 대한 확인을 통해 잡음원을 추정하는 일례를 설명하도록 하겠다.

추정부(320)는, 각 방향 별로 발생되는 음향신호가 수신되는 경우, 기본적으로 음향신호의 전체패턴이 표준음성신호의 전체패턴과 기준이상의 차이가 발생하는 지의 여부를 확인한다.

여기서, 표준음성신호는, 일반적인 사람들이 자연스럽게 발화하는 음성에 해당하는 표준화된 주파수를 갖는 신호일 수 있으며, 다양한 실험에 의해 산출되는 결과값일 수 있다.

이에, 추정부(320)는, 음향신호의 전체패턴이 표준음성신호의 전체패턴과 기준이상 차이가 나게 된다면, 음향신호의 전체적인 패턴을 확인하는 것만으로도 잡음원을 추정할 수 있게 된다.

다음으로, 시간변화에 따른 세부적인 패턴특징에 대한 확인을 통해 잡음원을 추정하는 일례를 설명하도록 하겠다.

제1 시점에서 각 방향 별로 발생되는 음향신호가 순간적으로 수신된 이후 소정의 시간이 경과하는 제2 시점이 될 때까지 지속적으로 수신되어, 음향신호의 지속패턴이 확인되는 경우, 추정부(320)는, 음향신호의 시간변화에 따른 지속패턴과 표준음성신호의 표준발화지속패턴을 비교한다.

즉, 추정부(320)는, 제1 시점에서는 표준음성신호의 표준발화지속패턴을 기준으로 음향신호의 시간변화에 따른 지속패턴에 해당하는 주파수특성이 사람 음성의 주파수특성과 기준이상 유사한지의 여부를 판단한다.

이후, 제1 시점과 제2 시점 사이로 시간이 경과하게 되면, 추정부(320)는, 표준음성신호의 표준발화지속패턴을 기반으로 음향신호의 시간변화에 따른 지속패턴이 사람의 말소리처럼 단어와 단어 사이에 잠시 쉬는 잠시멈춤구간(short pause)이 존재하는지의 여부를 판단한다.

이후, 시간이 경과하여 제2 시점에 도달하게 되면, 추정부(320)는, 표준음성신호의 표준발화지속패턴을 기반으로 음향신호의 시간변화에 따른 지속패턴이 시간이 경과하는 동안 잠시도 끊기지 않고 사람의 목소리가 재생되는 음원(예: TV, 라디오 등)처럼 기준크기 이상의 신호로 이어져 들어오는 지의 여부를 판단한다.

전술에 따라 시간변화에 따른 패턴특징의 분석이 완료되면, 특정공간(10) 상에 사람 목소리가 아닌 음원(예: 냉장고, 에어컨 등)은 물론, 사람의 목소리가 재생되는 음원(예: TV, 라디오 등)이 존재하는 경우에도 제거대상음원이 위치하는 특정방향을 추정할 수 있게 된다.

전처리부(330)는, 명령어에 대한 음성 전처리를 수행한다.

보다 구체적으로 전처리부(330)는, 특정음향신호가 기준시간 이상 지속적으로 발생되는지의 여부를 판단한 결과를 기반으로 특정음향신호의 제거여부를 결정하여 명령어에 대한 음성 전처리를 수행한다.

즉, 전처리부(330)는, 추정부(320)로부터 제거대상음원이 위치하는 특정방향의 추정이 완료되면, 특정방향으로부터 발생되는 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되는지의 여부를 판단한다.

이후, 전처리부(330)는, 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되면, 특정음향신호가 잡음으로 작용하여 전처리 성능을 저하시킬 것이므로, 특정음향신호를 제거하는 것으로 결정한다.

한편, 전처리부(330)는, 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되지 않는 경우, 특정음향신호가 잡음으로 작용하지 않을 것이므로, 특정음향신호를 유지하는 것으로 결정한다.

전술에 따라 특정음향신호가 소정의 시간 동안 모니터링되어 특정음향신호에 대한 제거여부가 결정된 이후, 특정공간(10) 내 사용자로부터 명령어가 발화된 경우, 전처리부(330)는, 특정방향으로부터 발생되는 특정음향신호에 대한 가중치를 점차 감소시키면서 명령어에 대한 음성 전처리를 수행한다.

이처럼 명령어에 대한 음성 전처리 시 특정음향신호를 완전히 제거하지 않고, 특정음향신호에 대한 가중치를 제어하여 명령어에 대한 음성 전처리를 수행하는 것은, 판정오류에 의해 일시적으로 정상 사용자가 제거대상음원으로 추정된 경우에도 가중치 제어를 통해 정상 사용자로 복구시키기 위함이다.

이때, 가중치는, 특정음향신호가 점진적으로 감소하거나 증가될 수 있도록 지수적(exponential)으로 결정되는 것이 바람직할 것이다.

결국, 전처리부(330)는, 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되고 있으며, 제거대상음원이 정상 사용자가 아닌 것으로 확인되면, 특정음향신호의 제거와 관련되는 제1 가중치를 기반으로 특정음향신호를 제거한 후 명령어에 대한 음성 전처리를 수행하게 된다.

한편, 전처리부(330)는, 특정방향으로부터 발생되는 특정음향신호에 대한 가중치를 점차 낮추면서 명령어에 대한 음성 전처리를 수행하는 중 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되지 않는 경우에는, 새로운 공간 배치 등으로 주변환경이 변경되어 특정음향신호가 수신되지 않는 것으로 판단한다. 이후, 전처리부(330)는, 특정음향신호에 대한 가중치를 점차 증가시키면서 명령어에 대한 음성 전처리를 수행할 수도 있다.

즉, 전처리부(330)는, 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되지 않는 경우, 특정음향신호의 복원과 관련되는 제2 가중치를 기반으로 특정음향신호를 복원한 후 명령어에 대한 음성 전처리를 수행하게 된다.

이처럼 본 발명에서는 특정방향으로부터 특정음향신호가 더 이상 지속적으로 수신되지 않는 경우에는 특정음향신호가 잡음으로 작용하지 않는 새로운 주변환경으로 변경되었음을 자동으로 인지할 수 있어 환경변화와 무관하게 항상 최적화된 음성 전처리를 수행할 수 있게 된다.

이상에서 설명한 바와 같이, 본 발명의 음성전처리장치에 따르면, 특정공간에 존재하는 사용자로부터 명령어가 발화되기 이전에 미리 주변환경에서 지속적으로 잡음원을 찾아 잡음을 제어한 상태에서 음성 전처리를 수행하므로, 충분한 시스템 수렴시간을 확보할 수 있음은 물론, 사용자가 어떠한 방향에서 갑자기 발화하더라도 위치나 타이밍에 무관하게 주변 잡음의 영향을 받지 않고 강인한 사용자 음성을 향상시킬 수 있다.

이하에서는, 도 4를 참조하여, 본 발명의 실시예에 따른 음성전처리장치의 동작 방법을 구체적으로 설명하겠다.

도 4에 도시된 바와 같이, 음성전처리장치(300)는, 마이크로폰 어레이(MA)로부터 특정공간(10) 내 적어도 하나의 음원으로부터 발생된 음향신호가 녹음되어 특정녹음정보가 생성되면, 특정녹음정보를 기반으로 음향의 방향을 확인한다(S100).

이후, 음성전처리장치(300)는, 각 방향 별로 발생되는 음향신호를 기반으로 상기 음원 중 지속적으로 발생되어 제거대상이 되는, 특정음원(이하, 제거대상음원)이 위치하는 특정방향을 추정한다.

즉, 음성전처리장치(300)는, 각 방향 별로 발생되는 음향신호와 기 결정된 표준음성신호를 일정시간 동안 비교한 결과를 기반으로 제거대상음원이 위치하는 특정방향을 결정한다(S110, S120).

이하에서는, 패턴비교를 통해 제거대상음원이 위치하는 특정방향을 결정하는 일례를 설명하도록 하겠다.

먼저, 시간변화에 따른 전체적인 패턴특징에 대한 확인을 통해 잡음원을 추정하는 일례를 살펴보면, 음성전처리장치(300)는, 각 방향 별로 발생되는 음향신호가 수신되는 경우, 기본적으로 음향신호의 전체패턴이 표준음성신호의 전체패턴과 기준이상의 차이가 발생하는 지의 여부를 확인한다.

이에, 음성전처리장치(300)는, 음향신호의 전체패턴이 표준음성신호의 전체패턴과 기준이상 차이가 나게 된다면, 음향신호의 전체적인 패턴을 확인하는 것만으로도 잡음원을 추정할 수 있게 된다.

다음으로, 시간변화에 따른 세부적인 패턴특징에 대한 확인을 통해 잡음원을 추정하는 일례를 살펴보면, 제1 시점에서 각 방향 별로 발생되는 음향신호가 순간적으로 수신된 이후 소정의 시간이 경과하는 제2 시점이 될 때까지 지속적으로 수신되어, 음향신호의 지속패턴이 확인되는 경우, 음성전처리장치(300)는, 음향신호의 시간변화에 따른 지속패턴과 표준음성신호의 표준발화지속패턴을 비교한다.

즉, 음성전처리장치(300)는, 제1 시점에서는 표준음성신호의 표준발화지속패턴을 기준으로 음향신호의 시간변화에 따른 지속패턴에 해당하는 주파수특성이 사람 음성의 주파수특성과 기준이상 유사한지의 여부를 판단한다.

이후, 제1 시점과 제2 시점 사이로 시간이 경과하게 되면, 음성전처리장치(300)는, 표준음성신호의 표준발화지속패턴을 기반으로 음향신호의 시간변화에 따른 지속패턴이 사람의 말소리처럼 단어와 단어 사이에 잠시 쉬는 잠시멈춤구간(short pause)이 존재하는지의 여부를 판단한다.

이후, 시간이 경과하여 제2 시점에 도달하게 되면, 음성전처리장치(300)는, 표준음성신호의 표준발화지속패턴을 기반으로 음향신호의 시간변화에 따른 지속패턴이 시간이 경과하는 동안 잠시도 끊기지 않고 사람의 목소리가 재생되는 음원(예: TV, 라디오 등)처럼 기준크기 이상의 신호로 이어져 들어오는 지의 여부를 판단한다.

한편, 음성전처리장치(300)는, 제거대상음원이 위치하는 특정방향의 추정이 완료되면, 특정방향으로부터 발생되는 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되는지의 여부를 판단하여 특정음향신호에 대한 제거여부를 결정한다.

비교결과, 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되면, 음성전처리장치(300)는, 특정음향신호가 잡음으로 작용하여 전처리 성능을 저하시킬 것이므로, 특정음향신호를 제거하는 것으로 결정한다.

한편, 비교결과 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되지 않는 경우, 음성전처리장치(300)는, 특정음향신호가 잡음으로 작용하지 않을 것이므로, 특정음향신호를 유지하는 것으로 결정한다.

전술에 따라 특정음향신호가 소정의 시간 동안 모니터링되어 특정음향신호에 대한 제거여부가 결정된 이후, 특정공간(10) 내 사용자로부터 명령어가 발화된 경우(S130의 YES), 음성전처리장치(300)는, 특정방향으로부터 발생되는 특정음향신호에 대한 가중치를 점차 감소시키면서 명령어에 대한 음성 전처리를 수행한다(S140, S150).

결국, 음성전처리장치(300)는, 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되고 있으며, 제거대상음원이 정상 사용자가 아닌 것으로 확인되면, 특정음향신호의 제거와 관련되는 제1 가중치를 기반으로 특정음향신호를 제거한 후 명령어에 대한 음성 전처리를 수행하게 된다.

한편, 음성전처리장치(300)는, 특정방향으로부터 발생되는 특정음향신호에 대한 가중치를 점차 낮추면서 명령어에 대한 음성 전처리를 수행하는 중 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되지 않는 경우에는, 새로운 공간 배치 등으로 주변환경이 변경되어 특정음향신호가 수신되지 않는 것으로 판단한다. 이후, 음성전처리장치(300)는, 특정음향신호에 대한 가중치를 점차 증가시키면서 명령어에 대한 음성 전처리를 수행할 수도 있다.

즉, 음성전처리장치(300)는, 특정음향신호가 기 설정된 소정의 시간 동안 특정방향으로부터 지속적으로 발생되지 않는 경우, 특정음향신호의 복원과 관련되는 제2 가중치를 기반으로 특정음향신호를 복원한 후 명령어에 대한 음성 전처리를 수행하게 된다.

이에, 본 발명에 따르면, 특정장소에서 지속적으로 발생되는 특정음향신호를 미리 확인한 결과를 기반으로 명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안함으로써, 음성인식 서비스의 성능을 향상시키는 효과를 도출한다.

본 발명의 일 실시예에 따른 음성전처리장치 및 그 동작방법은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 의사 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

본 발명의 음성전처리장치 및 그 동작방법에 따르면, 특정장소에서 지속적으로 발생되는 특정음향신호를 미리 확인한 결과를 기반으로 명령어에 대한 음성 전처리가 수행되도록 하는, 새로운 음성 전처리 성능 개선 방안을 제안한다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

10: 특정공간 20: 음원
100: 단말장치
200: 서버
300: 음성전처리장치
310: 확인부 320: 추정부
330: 전처리부 340: 저장부

Claims

음성인식 전처리 수행을 위해, 수신되는 적어도 하나의 음원 중 지속적으로 수신되는 특정음원을 제거 대상으로 미리 추정하는 추정부; 및
명령어가 수신된 경우, 상기 추정된 특정음원으로부터 수신되는 특정음향신호를 이용하여 상기 명령어에 대한 음성 전처리를 수행하는 전처리부
를 포함하는 것을 특징으로 하는 음성전처리장치.
제 1 항에 있어서,
특정공간에서 녹음된 특정녹음정보를 기반으로 상기 음원의 방향을 확인하는 확인부를 더 포함하며,
상기 추정부는,
각 방향 별로 수신되는 음향신호의 전체패턴과 기 결정된 표준음성신호의 전체패턴을 비교한 결과를 기반으로 상기 특정음원이 위치하는 특정방향을 추정하는 것을 특징으로 하는 음성전처리장치.
제 2 항에 있어서,
상기 추정부는,
상기 음향신호의 시간변화에 따른 지속패턴과 기 설정된 표준음성신호의 시간변화에 따른 표준발화지속패턴이 상이하면, 해당 음향신호가 수신되는 해당 방향을 상기 특정방향으로 결정하는 것을 특징으로 하는 음성전처리장치.
제 2 항에 있어서,
상기 전처리부는,
상기 특정음향신호가 기준시간 이상 지속적으로 수신되는지의 여부를 판단한 결과를 기반으로 상기 특정음향신호의 제거여부를 결정하여 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 하는 음성전처리장치.
제 4 항에 있어서,
상기 전처리부는,
상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되는 경우, 상기 특정음향신호의 제거와 관련되는 제1 가중치를 기반으로 상기 특정음향신호를 제거한 후 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 하는 음성전처리장치.
제 4 항에 있어서,
상기 전처리부는,
상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되지 않는 경우, 상기 특정음향신호의 복원과 관련되는 제2 가중치를 기반으로 상기 특정음향신호를 복원한 후 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 하는 음성전처리장치.
음성인식 전처리 수행을 위해, 수신되는 적어도 하나의 음원 중 지속적으로 수신되는 특정음원을 제거 대상으로 미리 추정하는 추정단계; 및
명령어가 수신된 경우, 상기 추정된 특정음원으로부터 수신되는 특정음향신호를 이용하여 상기 명령어에 대한 음성 전처리를 수행하는 전처리단계
를 포함하는 것을 특징으로 하는 음성전처리장치의 동작방법.
제 7 항에 있어서,
상기 추정단계는,
특정공간에서 녹음된 특정녹음정보를 기반으로 상기 음원의 방향이 확인되면, 각 방향 별로 수신되는 음향신호의 전체패턴과 기 결정된 표준음성신호의 전체패턴을 비교한 결과를 기반으로 상기 특정음원이 위치하는 특정방향을 추정하는 단계를 포함하는 것을 특징으로 하는 음성전처리장치의 동작방법.
제 8 항에 있어서,
상기 추정단계는,
상기 음향신호의 시간변화에 따른 지속패턴과 기 설정된 표준음성신호의 시간변화에 따른 표준발화지속패턴이 상이하면, 해당 음향신호가 수신되는 해당 방향을 상기 특정방향으로 결정하는 것을 특징으로 하는 음성전처리장치의 동작방법.
제 8 항에 있어서,
상기 전처리단계는,
상기 특정음향신호가 기준시간 이상 지속적으로 수신되는지의 여부를 판단한 결과를 기반으로 상기 특정음향신호의 제거여부를 결정하여 상기 명령어에 대한 음성 전처리를 수행하는 것을 특징으로 하는 음성전처리장치.
제 10 항에 있어서,
상기 전처리단계는,
상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되는 경우, 상기 특정음향신호의 제거와 관련되는 제1 가중치를 기반으로 상기 특정음향신호를 제거한 후 상기 명령어에 대한 음성 전처리를 수행하는 단계; 및
상기 특정음향신호가 기 설정된 소정의 시간 동안 상기 특정방향으로부터 지속적으로 수신되지 않는 경우, 상기 특정음향신호의 복원과 관련되는 제2 가중치를 기반으로 상기 특정음향신호를 복원한 후 상기 명령어에 대한 음성 전처리를 수행하는 단계를 포함하는 것을 특징으로 하는 음성전처리장치의 동작방법.