KR20180126926A

KR20180126926A - 바지-인 음성 인식을 위한 신호 처리 장치 및 방법

Info

Publication number: KR20180126926A
Application number: KR1020170062037A
Authority: KR
Inventors: 윤동운
Original assignee: (주)오즈디에스피
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2018-11-28
Also published as: KR101961341B1

Abstract

본 발명은 바지-인 음성 인식을 위한 신호 처리 장치 및 방법에 관한 것으로, 마이크를 통해 입력되는 에코의 클리핑이 일어나는 스피커의 출력 볼륨값에 대하여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 저장하고, 안내음성을 출력하는 스피커의 출력 볼륨값에 따라 대응하는 아날로그 이득값을 확인하여 아날로그 신호를 증폭하고 디지털 신호로 변환하여 에코를 제거한 후, 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하도록 에코가 제거된 디지털 신호를 증폭함으로써, 사용자의 발화음성과 섞인 에코를 효과적으로 제거할 수 있고 음성 인식의 정확성이 개선된다.

Description

바지-인 음성 인식을 위한 신호 처리 장치 및 방법 {Signal processing apparatus and method for barge-in speech recognition}

본 발명은 음성 인식을 위한 신호 처리 기술에 관한 것으로, 더욱 상세하게는 안내음성의 출력 도중 발화를 허용하는 바지-인(barge-in) 방식의 음성 인식을 위해 마이크를 통해 입력된 신호를 처리하는 바지-인 음성 인식을 위한 신호 처리 장치 및 방법에 관한 것이다.

음성 인식 기술은 사용자가 발화한 음성에 따른 음향학적 신호를 단어나 문장으로 변환시키는 기술을 의미한다. 일반적으로 음성 인식 기능을 제공하는 시스템에서 사용자는, 음성 인식 진행을 위해 스피커로부터 출력되는 안내음성(prompt)을 듣고 이에 대응하는 음성을 발화(utterance)하여 마이크에 입력시키는데, 이때 안내음성이 모두 출력되어 종료되고 나서야 비로소 발화하는 것이 허용되므로 음성 인식 기능을 이용하는 사용자에게 불편함을 초래한다.

이러한 불편함을 개선하기 위해 바지-인(barge-in) 기능을 이용한 음성 인식 기술에 대한 개발이 이루어지고 있다. 바지-인(barge-in)은 음성인식을 위한 안내음성이 스피커로 출력되는 음성 인식 시스템에서 안내음성의 출력이 완료되기 전에 사용자가 음성을 발화하는 것을 허용하는 기능이다.

음성 인식 시스템에서 바지-인 기능을 활용하면 사용자가 안내음성을 종료시까지 기다릴 필요 없이 안내음성의 일부 출력에 따라 그 의미를 이해한 후 곧바로 입력하고자 하는 음성을 발화할 수 있어, 음성 인식에 따른 소요 시간을 단축할 수 있다.

그런데 안내음성의 출력 도중 바지-인 방식으로 발화하는 경우, 스피커로부터 출력된 안내음성은 에코의 형태로 사용자의 발화음성과 함께 마이크로 입력되므로, 이러한 에코를 제거하여 사용자의 발화음성을 분리하여야 음성 인식의 정확성을 높일 수 있다.

그런데 스피커로부터 출력되는 안내음성의 레벨이 커 마이크를 통해 입력되는 에코에 클리핑(clipping)이 발생하는 경우, 에코를 효과적으로 제거하는 것이 어려우므로 이를 개선하기 위한 방안이 요청된다.

공개특허공보 제10-2003-0073886호 (2003.09.19. 공개)

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 안내음성의 출력 도중 발화를 허용하는 바지-인(barge-in) 방식을 이용한 음성 인식시, 에코의 형태로 마이크를 통해 입력되는 안내음성의 클리핑을 방지하여 효과적으로 에코를 제거하고 음성 인식 효율을 높일 수 있는 바지-인 음성 인식을 위한 신호 처리 장치 및 방법을 제공하기 위한 것이다.

상기와 같은 목적을 달성하기 위한 본 발명의 바지-인 음성 인식을 위한 신호 처리 장치는, 안내음성을 출력하는 스피커의 출력 볼륨값에 대응하는 마이크의 아날로그 이득값 정보를 저장한 저장부, 상기 저장부에 저장된 아날로그 이득값에 따라 상기 마이크를 통해 입력된 아날로그 신호를 증폭하는 제1 증폭기, 상기 제1 증폭기에서 증폭된 아날로그 신호를 디지털 신호로 변환하는 아날로그-디지털 변환기, 상기 아날로그-디지털 변환기에서 변환된 디지털 신호에서 안내음성에 대응하는 에코를 제거하는 에코 제거기, 에코가 제거된 디지털 신호를 증폭하는 제2 증폭기, 및 상기 스피커의 출력 볼륨값에 대응하는 상기 마이크의 아날로그 이득값 정보를 상기 저장부에 저장하되, 상기 마이크를 통해 입력되는 에코의 클리핑이 일어나는 상기 스피커의 출력 볼륨값에 대하여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 상기 저장부에 저장하고, 안내음성을 출력하는 상기 스피커의 출력 볼륨값에 따라 상기 저장부에서 대응하는 아날로그 이득값을 확인한 후, 확인된 아날로그 이득값에 따라 상기 제1 증폭기가 상기 마이크를 통해 입력된 아날로그 신호를 증폭하도록 제어하며, 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하도록 상기 제2 증폭기를 제어하는 제어부를 포함한다.

본 발명의 바지-인 음성 인식을 위한 신호 처리 장치에 있어서, 상기 제어부는, 상기 스피커로부터 안내음성이 출력되면 상기 마이크를 통해 입력되는 에코에 클리핑이 일어나는 출력 볼륨값을 확인하고, 클리핑이 확인된 출력 볼륨값에 대응하는 아날로그 이득값을 줄여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 계산하며, 클리핑이 확인된 출력 볼륨값 및 대응하는 감쇄된 아날로그 이득값을 상기 저장부에 저장하는 것을 특징으로 한다.

본 발명의 바지-인 음성 인식을 위한 신호 처리 장치에 있어서, 상기 제어부는, 다음의 수학식을 이용하여 상기 스피커의 출력 볼륨값에 대응하는 아날로그 이득값을 계산하여 상기 저장부에 저장하는 것을 특징으로 한다.

인 경우

이때 AG는 아날로그 이득값, v는 출력 볼륨값, T는 클리핑이 일어나지 않는 최대 볼륨값, A는 감쇄되지 않은 아날로그 이득값, S는 스피커의 출력 레벨을 나타낸다.

본 발명의 바지-인 음성 인식을 위한 신호 처리 장치에 있어서, 상기 제어부는, 다음의 수학식을 이용해 상기 제1 증폭기에서 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하기 위한 디지털 이득값을 계산하고, 계산된 디지털 이득값에 따라 상기 제2 증폭기에서 디지털 신호를 증폭하도록 제어하는 것을 특징으로 한다.

인 경우

이때 DG는 디지털 이득값, AG는 아날로그 이득값, v는 출력 볼륨값, T는 클리핑이 일어나지 않는 최대 볼륨값, A는 감쇄되지 않은 아날로그 이득값을 나타낸다.

본 발명의 바지-인 음성 인식을 위한 신호 처리 장치에 있어서, 상기 제2 증폭기에서 증폭된 디지털 신호를 이용해 상기 마이크를 통해 에코와 함께 입력된 발화음성을 인식하는 음성 인식기를 더 포함하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명의 바지-인 음성 인식을 위한 신호 처리 방법은, 신호 처리 장치가 안내음성을 출력하는 스피커의 출력 볼륨값에 대응하는 마이크의 아날로그 이득값 정보를 저장하되, 상기 마이크를 통해 입력되는 에코의 클리핑이 일어나는 상기 스피커의 출력 볼륨값에 대하여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 저장하는 단계, 상기 신호 처리 장치가 안내음성을 출력하는 상기 스피커의 출력 볼륨값에 따라 대응하는 아날로그 이득값을 확인하는 단계, 상기 신호 처리 장치가 확인된 아날로그 이득값에 따라 상기 마이크를 통해 입력된 아날로그 신호를 증폭하는 단계, 상기 신호 처리 장치가 증폭된 아날로그 신호를 디지털 신호로 변환하는 단계, 상기 신호 처리 장치가 변환된 디지털 신호에서 안내음성에 대응하는 에코를 제거하는 단계, 및 상기 신호 처리 장치가 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하도록 에코가 제거된 디지털 신호를 증폭하는 단계를 포함한다.

본 발명의 바지-인 음성 인식을 위한 신호 처리 방법에 있어서, 상기 저장하는 단계는, 상기 신호 처리 장치가 상기 스피커로부터 안내음성이 출력되면 상기 마이크를 통해 입력되는 에코에 클리핑이 일어나는 출력 볼륨값을 확인하는 단계, 상기 신호 처리 장치가 클리핑이 확인된 출력 볼륨값에 대응하는 아날로그 이득값을 줄여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 계산하는 단계, 및 상기 신호 처리 장치가 클리핑이 확인된 출력 볼륨값 및 대응하는 감쇄된 아날로그 이득값을 저장하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 바지-인 음성 인식을 위한 신호 처리 방법에 있어서, 상기 저장하는 단계는, 상기 신호 처리 장치가 다음의 수학식을 이용하여 상기 스피커의 출력 볼륨값에 대응하는 아날로그 이득값을 계산하여 저장하는 것을 특징으로 한다.

인 경우

본 발명의 바지-인 음성 인식을 위한 신호 처리 방법에 있어서, 상기 증폭하는 단계는, 상기 신호 처리 장치가 다음의 수학식을 이용하여 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하기 위한 디지털 이득값을 계산하여 에코가 제거된 디지털 신호를 증폭하는 것을 특징으로 한다.

인 경우

본 발명의 바지-인 음성 인식을 위한 신호 처리 방법에 있어서, 상기 신호 처리 장치가 증폭된 디지털 신호를 이용해 상기 마이크를 통해 에코와 함께 입력된 발화음성을 인식하는 단계를 더 포함하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위해 본 발명은 상기한 바지-인 음성 인식을 위한 신호 처리 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.

본 발명의 바지-인 음성 인식을 위한 신호 처리 장치 및 방법에 따르면 음성 인식을 위한 안내음성의 출력 도중 사용자의 음성이 발화되어, 발화음성과 에코 형태의 안내음성이 함께 마이크로 입력되는 경우, 에코에 해당하는 신호만을 효과적으로 제거할 수 있다.

특히 스피커로부터 출력되는 안내음성의 레벨이 커 마이크를 통해 입력되는 에코에 클리핑이 발생할 수 있는 상황에서도, 마이크를 통해 입력된 신호의 이득을 적절히 조절하여 클리핑을 방지할 수 있어 에코를 효과적으로 제거할 수 있으며 이를 통해 발화음성의 왜곡을 방지하여 음성 인식 효율을 높일 수 있다.

이렇듯 본 발명은 스피커 출력 레벨에 따라 마이크의 아날로그 이득을 달리 사용하여 바지-인 음성 인식 성능을 향상시킬 수 있는데, 낮은 스피커 출력 레벨의 범위에서는 하나의 최적의 마이크 이득값을 사용하여 음성인식 성능을 최적으로 유지하고, 높은 스피커 출력 레벨에서는 낮은 아날로그 이득값을 사용하여 마이크에 입력되는 에코가 클리핑되는 것을 방지함으로써, 에코를 효율적으로 제거하고 발화 왜곡을 방지할 수 있다.

이를 통해 스피커 출력 볼륨값에 상관없이 작은 아날로그 이득값을 사용하여 마이크로 입력된 에코를 제거한 후 디지털 이득값에 따라 증폭하여 사용자 발화 신호의 크기를 복원해주는 경우, 에코의 클리핑이 발생하지 않는 낮은 스피커 볼륨대에서 발생하게 되는 사용자 발화 신호의 디지털 표현 값 손실을 방지할 수 있다.

도 1은 본 발명의 일 실시예에 따른 신호 처리 장치의 구성을 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 스피커의 출력 신호를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따라 마이크를 통해 입력되는 에코를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따라 마이크를 통해 입력되는 에코에서 클리핑이 발생한 모습을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따라 스피커의 출력 볼륨값에 대응하는 마이크의 아날로그 이득값 정보를 나타낸 도면이다.
도 6은 본 발명의 일 실시예에 따라 신호 처리를 위한 이득값을 계산하는 과정을 나타낸 도면이다.
도 7은 도 6의 실시예에 따라 신호를 처리하는 과정을 나타낸 도면이다.

하기의 설명에서는 본 발명의 실시예를 이해하는데 필요한 부분만이 설명되며, 그 이외 부분의 설명은 본 발명의 요지를 흩트리지 않도록 생략될 것이라는 것을 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

본 발명은 음성 인식을 위한 신호 처리 분야와 관련한 것이다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 신호 처리 장치의 구성을 나타낸 도면이고, 도 2는 본 발명의 일 실시예에 따른 스피커의 출력 신호를 나타낸 도면이고, 도 3은 본 발명의 일 실시예에 따라 마이크를 통해 입력되는 에코를 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따라 마이크를 통해 입력되는 에코에서 클리핑이 발생한 모습을 나타낸 도면이며, 도 5는 본 발명의 일 실시예에 따라 스피커의 출력 볼륨값에 대응하는 마이크의 아날로그 이득값 정보를 나타낸 도면이다.

도 1 내지 도 5를 참조하면 본 실시예의 신호 처리 장치(100)는, 스피커(1)에서 출력된 안내음성(prompt)에 따라 사용자(2)가 발화하는 음성이 마이크(microphone)(3)를 통해 입력되면, 입력된 신호를 음성 인식을 위해 처리하는 역할을 한다.

먼저 음성 인식을 위해 스피커(1)로부터 안내음성이 출력되면 사용자(2)는 안내음성의 내용을 이해한 후 대응하는 음성을 발화하여 마이크(3)로 발화음성을 입력시킨다. 이때 사용자(2)는 스피커(1)를 통해 안내음성이 출력되는 도중 발화를 허용하는 바지-인(barge-in) 기능을 이용해 발화음성을 마이크(3)에 입력할 수 있다.

이때 스피커(1)로부터 출력된 안내음성은 에코의 형태로 마이크(3)에 입력되어 사용자(2)가 발화한 음성과 서로 섞인 형태로 마이크(3)에 입력되는데, 신호 처리 장치(100)는 에코 제거(echo canceller) 기술을 이용하여 마이크(3)를 통한 입력 신호 중 안내음성으로 인한 에코를 제거하고 사용자(2)의 발화음성만을 추출하여 음성 인식을 위해 전달함으로써, 음성 인식 성공률을 높일 수 있다.

이러한 신호 처리 장치(100)는 저장부(10), 제1 증폭기(20), 아날로그 디지털 변환기(30), 에코 제거기(40), 제2 증폭기(50), 음성 인식기(60) 및 제어부(70)를 포함하여 구성된다.

저장부(10)는 안내음성을 출력하는 스피커(1)의 출력 볼륨값에 대응하는 마이크(3)의 아날로그 이득값 정보를 저장한 저장소로서, 정보 저장을 위한 각종 메모리를 포함한다. 저장부(10)에 저장된 정보는 제어부(70)가 제1 증폭기(20)의 증폭 동작을 제어하는데 참조된다. 저장부(10)에 저장된 아날로그 이득값은 스피커(1)의 출력 볼륨값에 따라 서로 다른 이득값을 가질 수 있다.

제1 증폭기(20)는 제어부(70)의 제어에 따라 저장부(10)에 저장된 아날로그 이득값에 대응하여 마이크(3)를 통해 입력된 아날로그 신호를 증폭하는 역할을 한다. 이때 마이크(3)를 통해 입력되는 신호는, 바지-인(barge-in) 기능에 따라 스피커(1)를 통해 출력된 안내음성과 사용자(2)의 발화음성이 섞인 형태의 신호일 수 있다.

아날로그-디지털 변환기(analog digital converter, ADC)(30)는 제1 증폭기(20)에서 증폭된 아날로그 신호를 디지털 신호로 변환하는 역할을 한다.

에코 제거기(echo canceller)(40)는 아날로그-디지털 변환기(30)에서 변환된 디지털 신호에서 안내음성에 대응하는 에코 신호를 제거하는 역할을 한다.

에코 제거기(40)는 스피커(1)에서 출력되는 신호를 레퍼런스(reference)로 삼아 마이크(3)를 통해 입력된 신호에 포함된 에코를 제거하는데, 적응 필터(adaptive filter)를 사용하여 스피커(1)로부터 안내음성이 출력되어 마이크(3)로 입력되기까지의 시간 딜레이(delay)와 진폭(amplitude) 변화를 추정한 후, 이 추정값과 레퍼런스 신호를 사용하여 에코와 동일한 신호인 에코 추정(echo estimate) 신호를 생성한다. 그리고 에코 제거기(40)는 마이크(3)를 통한 입력 신호에서 에코 추정 신호를 차감하여 에코에 대응하는 신호를 제거한다.

제2 증폭기(50)는 제어부(70)의 제어에 따라 에코가 제거된 디지털 신호를 증폭하는 역할을 한다.

음성 인식기(60)는 제2 증폭기(50)에서 증폭된 디지털 신호를 이용해, 마이크(3)를 통해 에코와 함께 입력된 사용자(2)의 발화음성을 인식하는 역할을 한다. 실시예에 따라서 신호 처리 장치(100)는 마이크(3)를 통한 입력 신호를 처리하여 외부에 위치한 음성 인식기(60)로 전달하는 역할을 수행할 수 있고, 이와 달리 마이크(3)를 통한 입력 신호를 처리한 후 음성 인식기(60)를 이용해 직접 음성 인식을 수행할 수도 있다.

제어부(70)는 저장부(10), 제1 증폭기(20), 아날로그 디지털 변환기(30), 에코 제거기(40), 제2 증폭기(50) 및 음성 인식기(60)를 포함하는 신호 처리 장치(100)의 전반적인 동작을 제어하는 역할을 하며, 이를 위한 연산 유닛, 메모리, 프로그램 저장소 등을 포함한다.

먼저 제어부(70)는 스피커(1)의 출력 볼륨값에 대응하는 마이크(3)의 아날로그 이득값 정보를 저장부(10)에 저장한다.

스피커(1)의 출력 볼륨값은 스피커(1)로부터 출력되는 안내음성의 출력 레벨과 비례하는데, 스피커(1)의 출력 볼륨값이 너무 큰 경우 에코의 레벨 또한 매우 커지게 되며, 마이크(3)에 입력되어 디지털-아날로그 증폭기(30)를 거쳐 음성 인식을 위해 전달되는 에코 신호는 표현될 수 있는 한계를 넘어서 포화(saturation)되고, 최대값 또는 최소값으로 클리핑(clipping)되는 현상이 발생한다.

도 2는 디지털-아날로그 증폭기(30)의 분해능(resolution)이 16bit인 경우에 스피커(1)로부터 출력된 안내음성을 나타내고, 도 3은 에코 형태의 안내음성이 마이크(3)로 입력된 모습을 나타낸다. 이 경우 스피커(1)의 출력 레벨이 크지 않으므로 클리핑이 일어나지 않는다.

반면 도 4는 스피커(1)의 출력 레벨이 커 클리핑이 일어난 상태를 나타낸다. 디지털-아날로그 증폭기(30)의 분해능이 16bit인 경우 최대값은 32767이고 최소값은 -32768인데, 스피커(1)의 출력 볼륨값이 너무 큰 경우 해당 범위를 넘어서는 포화 상태가 발생하고, 이에 따라 최대값 또는 최소값의 범위 내에서 클리핑이 일어나 비선형적인 왜곡이 발생한다. 그 결과 신호의 많은 정보가 사라지며 에코 제거기(40)에서 에코를 제거하기가 어려워지고, 후처리(post processing) 기술로 에코를 제거하는 경우 해당 에코와 겹쳐진 사용자(2)의 발화음성에 왜곡이 발생하게 된다.

따라서 안내음성에 따른 에코에 클리핑이 발생하는 것을 방지하는 것이 필요한데, 이를 위해 제어부(70)는 스피커(1)의 출력 볼륨값에 대응하는 마이크(3)의 아날로그 이득값 정보를 저장부(10)에 저장하되, 마이크(3)를 통해 입력되는 에코의 클리핑이 일어나는 스피커(1)의 출력 볼륨값에 대하여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 저장부(10)에 저장한다.

이때 제어부(70)는 사용자(2)의 발화 전에 스피커(1)로부터 안내음성이 출력되면, 마이크(3)로 입력되는 에코에 클리핑이 일어나는지 확인하고, 클리핑이 일어난 경우 해당 출력 볼륨값을 확인한다. 그리고 클리핑이 일어난 것이 확인된 출력 볼륨값에 대응하는 아날로그 이득값을 줄여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 계산한다. 이때 감쇄된 아날로그 이득값은 클리핑이 일어나지 않은 출력 볼륨값에 대응하는 아날로그 이득값보다 상대적으로 작은 값을 갖게 되며, 제어부(70)는 클리핑이 확인된 출력 볼륨값 및 대응하는 감쇄된 아날로그 이득값을 저장부(10)에 저장하여 제1 증폭기(20)의 증폭 동작 제어에 참조한다.

이 경우 제어부(70)는 다음의 수학식을 이용하여 스피커(1)의 출력 볼륨값에 대응하는 아날로그 이득값을 계산하여 저장부(10)에 저장한다.

인 경우

이때 AG는 아날로그 이득값, v는 출력 볼륨값, T는 클리핑이 일어나지 않는 최대 볼륨값, A는 감쇄되지 않은 아날로그 이득값, S는 스피커(1)의 출력 레벨을 나타낸다.

도 5에 도시된 표는 이렇게 계산된 결과에 따라 제어부(70)에 의해 저장부(10)에 저장된 아날로그 이득값 정보를 나타내는데, 좌측 열(column)에는 스피커(1)의 출력 볼륨값이 위치하고, 중앙 열에는 스피커(1)의 출력 파워가 위치하며, 우측 열에는 각 출력 볼륨값에 대응하는 마이크(3)의 아날로그 이득값 정보가 위치한다.

도 5에서 스피커(1)의 출력 볼륨값이 1 내지 7인 경우에는 마이크(3)를 통해 입력된 에코가 포화(saturation)되지 않은 상태로서 감쇄되지 않은 일반적인 상태의 아날로그 이득값(A)을 나타낸다. 반면 스피커(1)의 출력 볼륨값이 8 내지 10인 경우에는 마이크(3)를 통해 입력된 에코가 포화되어 클리핑이 발생하는 상태이므로 일반적인 아날로그 이득값(A)보다 작은 값인 감쇄된 아날로그 이득값(B, B, D)을 나타낸다.

상기한 수학식 1에 따르면 예를 들어 도 5에서 스피커(1)의 출력 볼륨값 8에 대응하는 아날로그 이득값은 B이다. 그리고 클리핑이 일어나지 않는 최대 볼륨값은 아날로그 이득값 A를 가지면서 볼륨값 중 최대인 값이므로 T는 7의 값을 가진다. 그리고 출력 볼륨값 7에서의 스피커(1)의 출력 레벨은 S(7)이고 출력 볼륨값 8에서의 스피커(1)의 출력 레벨은 S(8)이므로, 스피커(1)의 출력 볼륨값 8에 대응하는 아날로그 이득값 B는 다음과 같이 결정된다.

B ≤ A - [ S(8) - S(7) ] dB

이때 [ S(8) - S(7) ] 부분은 출력 볼륨값이 7일 때의 스피커(1)의 출력 레벨에 비해 출력 볼륨값이 8일 때의 스피커(1)의 출력 레벨이 상대적으로 큰 정도를 의미하는데, 일반적인 아날로그 이득값 A에서 스피커(1) 출력이 커진 만큼의 이득 [ S(8) - S(7) ]을 줄임으로써, 출력 볼륨값 8일 때의 에코의 레벨을 클리핑이 발생하지 않는 레벨로 유지할 수 있다.

마찬가지 방식으로 스피커(1)의 출력 볼륨값 9에 대응하는 아날로그 이득값 C는 다음과 같이 결정된다.

C ≤ A - [ S(9) - S(7) ] dB

또한 스피커(1)의 출력 볼륨값 10에 대응하는 아날로그 이득값 D는 다음과 같이 결정된다.

D ≤ A - [ S(10) - S(7) ] dB

이렇게 제어부(70)가 저장부(10)에 스피커(1)의 출력 볼륨값에 대응하는 마이크(3)의 아날로그 이득값 정보를 저장한 후 스피커(1)로부터 안내음성이 출력되면, 제어부(70)는 안내음성을 출력하는 스피커(1)의 출력 볼륨값을 확인한 후 저장부(10)에 저장된 정보를 참조하여 대응하는 아날로그 이득값을 확인한다. 그리고 제어부(70)는 확인된 아날로그 이득값에 따라 제1 증폭기(20)를 제어하여 마이크(3)를 통해 입력된 아날로그 신호를 증폭한다. 이에 따라 제1 증폭기(20)에서 증폭된 신호에는 클리핑이 발생하지 않게 된다.

제1 증폭기(20)에서 클리핑이 발생하지 않도록 증폭된 아날로그 신호는 아날로그-디지털 변환기(30)에서 디지털 신호로 변환되고, 에코 제거기(40)에서 안내음성에 대응되는 에코가 제거된다.

이후 제어부(70)는 제2 증폭기(50)를 제어하여 에코가 제거된 디지털 신호를 증폭하는데, 이때 클리핑이 일어나지 않도록 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하도록 제2 증폭기(50)의 증폭 동작을 제어한다.

이 경우 제어부(70)는 다음의 수학식을 이용해 제1 증폭기(20)에서 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하기 위한 디지털 이득값을 계산하고, 계산된 디지털 이득값에 따라 제2 증폭기(50)에서 디지털 신호를 증폭하도록 제어한다.

인 경우

이 경우 DG는 디지털 이득값, AG는 아날로그 이득값, v는 출력 볼륨값, T는 클리핑이 일어나지 않는 최대 볼륨값, A는 감쇄되지 않은 아날로그 이득값을 나타낸다.

즉 제어부(70)는 안내음성을 출력하는 스피커(1)의 현재 출력 볼륨값이, 클리핑이 일어나지 않는 최대 볼륨값인 T 이하인 경우라면, 제1 증폭기(20)를 제어할 때 참조한 아날로그 이득값에 감쇄분이 없으므로 디지털 이득값이 0으로 계산하여 제2 증폭기(50)가 디지털 신호를 증폭하지 않도록 제어한다.

반면 제어부(70)는 안내음성을 출력하는 스피커(1)의 현재 출력 볼륨값이, 클리핑이 일어나지 않는 최대 볼륨값인 T를 초과하는 경우라면, 제1 증폭기(20)를 제어할 때 참조한 아날로그 이득값에 감쇄분이 존재하므로 제2 증폭기(50)가 아날로그 신호의 감쇄분만큼 디지털 신호를 증폭하도록 디지털 이득값을 계산하고, 계산된 디지털 이득값에 따라 제2 증폭기(50)를 제어하여 디지털 신호를 증폭한다.

이때 제2 증폭기(50)에서 증폭된 신호는 에코가 제거된 신호로서 음성 인식기(60)로 전달되어 음성을 인식되는데 이용된다.

이때 음성 인식기(60)는 신호 처리 장치(100)에 포함되어 구성될 수 있고, 실시예에 따라서는 외부에 별도로 존재할 수도 있다. 음성 인식기(60)가 신호 처리 장치(100)의 외부에 존재하는 경우라면, 제어부(70)는 제2 증폭기(50)에서 증폭된 디지털 신호를 외부의 음성 인식기(60)로 전달하여 음성 인식이 진행되도록 지원할 수 있다.

본 발명에 따라 바지-인 음성 인식을 위해 신호를 처리하는 과정에 대해서는 도 6 및 도 7을 참조하여 상세하게 설명하기로 한다.

도 6은 본 발명의 일 실시예에 따라 신호 처리를 위한 이득값을 계산하는 과정을 나타낸 도면이다.

도 6을 참조하면, 바지-인 음성 인식을 위한 신호 처리 장치는 스피커로부터 안내음성이 출력되면(S1), 마이크를 통해 입력되는 에코에 클리핑이 일어나는 출력 볼륨값을 확인한다(S2).

그리고 신호 처리 장치는 클리핑이 확인된 스피커의 출력 볼륨값별로, 각 출력 볼륨값에 대응하는 아날로그 이득값을 줄여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 계산하고(S3), 클리핑이 확인된 출력 볼륨값과 대응하는 감쇄된 아날로그 이득값 및 신호 복원을 위한 디지털 이득값을 저장한다(S4).

단계(S3)에서 신호 처리 장치는 상기한 수학식 1을 이용해 스피커의 출력 볼륨값에 대응하는 아날로그 이득값을 계산하여 단계(S4)에서 내부의 저장소에 출력 볼륨값과 매칭되는 아날로그 이득값 및 대응하는 디지털 이득값을 저장할 수 있다.

도 7은 도 6의 실시예에 따라 신호를 처리하는 과정을 나타낸 도면이다.

도 7을 참조하면, 도 6의 과정을 통해 마이크 입력 신호의 처리를 위한 아날로그 이득값 및 디지털 이득값을 저장한 신호 처리 장치는, 스피커로부터 안내음성이 출력되면(S5), 안내음성이 출력되는 스피커의 출력 볼륨값을 확인하고, 단계(S4)에서 저장한 정보를 참조하여 확인된 출력 볼륨값에 대응하는 아날로그 이득값 및 디지털 이득값을 확인한다(S6).

그리고 신호 처리 장치는 확인된 아날로그 이득값에 따라 마이크를 통해 입력된 아날로그 신호를 증폭하고(S7), 아날로그-디지털 변환기를 이용해 증폭된 아날로그 신호를 디지털 신호로 변환한다(S8).

이후 신호 처리 장치는 단계(S8)에서 변환된 디지털 신호에서 에코 형태의 안내음성을 제거하고(S9), 단계(S6)에서 확인한 디지털 이득값에 따라 에코가 제거된 디지털 신호를 증폭한다(S10).

단계(S10)에서 신호 처리 장치는 단계(S3)에서 아날로그 이득값을 감쇄한 만큼 디지털 신호를 복구하도록 디지털 신호를 증폭하며, 상기한 수학식 2를 이용해 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하기 위한 디지털 이득값을 계산하고, 계산된 디지털 이득값에 따라 에코가 제거된 디지털 신호를 증폭할 수 있다.

그리고 증폭된 디지털 신호는 음성을 인식하는데 활용된다(S11).

이와 같이 본원발명에서는 스피커에서 출력된 안내 음성이 에코 형태로 마이크를 통해 입력되면, 마이크의 이득을 적절하게 조절하여 클리핑을 방지함으로써, 사용자의 발화음성과 섞인 에코를 효과적으로 제거할 수 있으며, 음성 인식의 정확성이 개선된다.

본 발명의 실시예에 따른 바지-인 음성 인식을 위한 신호 처리 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다.

한편, 본 명세서와 도면에 개시된 실시예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게는 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다.

10: 저장부 20: 제1 증폭기
30: 아날로그-디지털 변환기 40: 에코 제거기
50: 제2 증폭기 60: 음성 인식기
70: 제어부 100: 신호 처리 장치

Claims

안내음성을 출력하는 스피커의 출력 볼륨값에 대응하는 마이크의 아날로그 이득값 정보를 저장한 저장부;
상기 저장부에 저장된 아날로그 이득값에 따라 상기 마이크를 통해 입력된 아날로그 신호를 증폭하는 제1 증폭기;
상기 제1 증폭기에서 증폭된 아날로그 신호를 디지털 신호로 변환하는 아날로그-디지털 변환기;
상기 아날로그-디지털 변환기에서 변환된 디지털 신호에서 안내음성에 대응하는 에코를 제거하는 에코 제거기;
에코가 제거된 디지털 신호를 증폭하는 제2 증폭기; 및
상기 스피커의 출력 볼륨값에 대응하는 상기 마이크의 아날로그 이득값 정보를 상기 저장부에 저장하되, 상기 마이크를 통해 입력되는 에코의 클리핑이 일어나는 상기 스피커의 출력 볼륨값에 대하여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 상기 저장부에 저장하고, 안내음성을 출력하는 상기 스피커의 출력 볼륨값에 따라 상기 저장부에서 대응하는 아날로그 이득값을 확인한 후, 확인된 아날로그 이득값에 따라 상기 제1 증폭기가 상기 마이크를 통해 입력된 아날로그 신호를 증폭하도록 제어하며, 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하도록 상기 제2 증폭기를 제어하는 제어부;
를 포함하는 바지-인 음성 인식을 위한 신호 처리 장치.
제1항에 있어서,
상기 제어부는,
상기 스피커로부터 안내음성이 출력되면 상기 마이크를 통해 입력되는 에코에 클리핑이 일어나는 출력 볼륨값을 확인하고, 클리핑이 확인된 출력 볼륨값에 대응하는 아날로그 이득값을 줄여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 계산하며, 클리핑이 확인된 출력 볼륨값 및 대응하는 감쇄된 아날로그 이득값을 상기 저장부에 저장하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 장치.
제1항에 있어서,
상기 제어부는,
다음의 수학식을 이용하여 상기 스피커의 출력 볼륨값에 대응하는 아날로그 이득값을 계산하여 상기 저장부에 저장하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 장치.

인 경우

인 경우
AG: 아날로그 이득값
v: 출력 볼륨값
T: 클리핑이 일어나지 않는 최대 볼륨값
A: 감쇄되지 않은 아날로그 이득값
S: 스피커의 출력 레벨
제3항에 있어서,
상기 제어부는,
다음의 수학식을 이용해 상기 제1 증폭기에서 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하기 위한 디지털 이득값을 계산하고, 계산된 디지털 이득값에 따라 상기 제2 증폭기에서 디지털 신호를 증폭하도록 제어하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 장치.

인 경우

인 경우
DG: 디지털 이득값
AG: 아날로그 이득값
v: 출력 볼륨값
T: 클리핑이 일어나지 않는 최대 볼륨값
A: 감쇄되지 않은 아날로그 이득값
제1항에 있어서,
상기 제2 증폭기에서 증폭된 디지털 신호를 이용해 상기 마이크를 통해 에코와 함께 입력된 발화음성을 인식하는 음성 인식기;
를 더 포함하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 장치.
신호 처리 장치가 안내음성을 출력하는 스피커의 출력 볼륨값에 대응하는 마이크의 아날로그 이득값 정보를 저장하되, 상기 마이크를 통해 입력되는 에코의 클리핑이 일어나는 상기 스피커의 출력 볼륨값에 대하여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 저장하는 단계;
상기 신호 처리 장치가 안내음성을 출력하는 상기 스피커의 출력 볼륨값에 따라 대응하는 아날로그 이득값을 확인하는 단계;
상기 신호 처리 장치가 확인된 아날로그 이득값에 따라 상기 마이크를 통해 입력된 아날로그 신호를 증폭하는 단계;
상기 신호 처리 장치가 증폭된 아날로그 신호를 디지털 신호로 변환하는 단계;
상기 신호 처리 장치가 변환된 디지털 신호에서 안내음성에 대응하는 에코를 제거하는 단계; 및
상기 신호 처리 장치가 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하도록 에코가 제거된 디지털 신호를 증폭하는 단계;
를 포함하는 바지-인 음성 인식을 위한 신호 처리 방법.
제6항에 있어서,
상기 저장하는 단계는,
상기 신호 처리 장치가 상기 스피커로부터 안내음성이 출력되면 상기 마이크를 통해 입력되는 에코에 클리핑이 일어나는 출력 볼륨값을 확인하는 단계;
상기 신호 처리 장치가 클리핑이 확인된 출력 볼륨값에 대응하는 아날로그 이득값을 줄여 클리핑이 일어나지 않도록 감쇄된 아날로그 이득값을 계산하는 단계; 및
상기 신호 처리 장치가 클리핑이 확인된 출력 볼륨값 및 대응하는 감쇄된 아날로그 이득값을 저장하는 단계;
를 포함하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 방법.
제6항에 있어서,
상기 저장하는 단계는,
상기 신호 처리 장치가 다음의 수학식을 이용하여 상기 스피커의 출력 볼륨값에 대응하는 아날로그 이득값을 계산하여 저장하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 방법.

인 경우

인 경우
AG: 아날로그 이득값
v: 출력 볼륨값
T: 클리핑이 일어나지 않는 최대 볼륨값
A: 감쇄되지 않은 아날로그 이득값
S: 스피커의 출력 레벨
제8항에 있어서,
상기 증폭하는 단계는,
상기 신호 처리 장치가 다음의 수학식을 이용하여 아날로그 신호가 감쇄된 만큼 디지털 신호를 복구하기 위한 디지털 이득값을 계산하여 에코가 제거된 디지털 신호를 증폭하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 방법.

인 경우

인 경우
DG: 디지털 이득값
AG: 아날로그 이득값
v: 출력 볼륨값
T: 클리핑이 일어나지 않는 최대 볼륨값
A: 감쇄되지 않은 아날로그 이득값
제6항에 있어서,
상기 신호 처리 장치가 증폭된 디지털 신호를 이용해 상기 마이크를 통해 에코와 함께 입력된 발화음성을 인식하는 단계;
를 더 포함하는 것을 특징으로 하는 바지-인 음성 인식을 위한 신호 처리 방법.
제6항 내지 제10항 중 어느 한 항에 따른 바지-인 음성 인식을 위한 신호 처리 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.