KR100655489B1

KR100655489B1 - 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법

Info

Publication number: KR100655489B1
Application number: KR1020040101879A
Authority: KR
Inventors: 이수종; 박문환; 김상훈; 이영직; 김응규
Original assignee: 한국전자통신연구원
Priority date: 2004-12-06
Filing date: 2004-12-06
Publication date: 2006-12-08
Also published as: KR20060062884A

Abstract

본 발명은 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법에 관한 것으로서, 클라이언트 단말을 통해 잡음과 대상어휘 음성을 조합하여 출력시키는 단계와, 상기 조합된 데이터를 입력받은 서버에서 잡음을 제거하고 음성인식 처리를 수행하여 상기 대상어휘를 출력시키는 단계로 진행하여, 다양한 잡음의 조합, 잡음의 크기, 반복을 설정한 후 음성과 결합시켜 테스트할 수 있기 때문에, 잡음의 종류와 크기에 따라 음성인식에 얼마나 많은 영향을 미치는 지를 실시간으로 확인할 수 있다.

다중잡음, 음성결합, 음성인식엔진, 분석자동화

Description

잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법{ANALYSIS SYSTEM AND ANALYSIS METHOD OF SPEECH RECOGNITION ENGINE UNDER NOISE SITUATION}

도 1은 본 발명의 일실시예에 의한 음성인식 클라이언트 및 서버의 구성을 개략적으로 나타낸 도면,

도 2는 본 발명의 일실시예에 의한 다중잡음조합 및 음성인식 테스트 자동화 과정을 나타낸 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

10 : 음성인식 클라이언트 모니터

12 : 음성인식 클라이언트 본체

121 : 조합모듈

122 : 음성출력단자 또는 스피커출력단자

20 : 음성인식 서버 모니터

22 : 음성인식 서버 본체

221 : 마이크입력단자

222 : 입력부

223 : 잡음제거부

224 : 음성인식부

본 발명은 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법에 관한 것으로, 더욱 상세하게는 잡음별로 음성인식에 미치는 영향을 실시간으로 분석하는 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법에 관한 것이다.

음성인식은 사람이 하는 말을 글자로 바꿔주는 기술로서, 잡음이 있는 환경에서는 음성인식 성능이 급격히 떨어지는 경향이 있다. 따라서, 잡음이 존재하는 실용 환경에서의 강인한 음성인식 성능을 위해서는 잡음처리기술의 적용이 절대적으로 필요하며, 각 이용환경에서 발생할 수 있는 다양한 잡음별로 음성인식에 어떤 영향을 미치는 지를 테스트할 필요가 있다.

이와 같이, 음성인식기술이 실용화되기 위해서는 잡음처리기술 적용이 필수적으로 요구되는데, 잡음처리 기능을 확인하기 위해서는 단일의 컴퓨터 내에서 음성데이터에 잡음데이터를 프로그램으로 섞은 다음, 이를 다시 잡음처리모듈에 적용하는 시뮬레이션 방법이 흔히 사용된다.

그러나, 지능형로봇은 비용절감을 위한 클라이언트-서버 구조로서, 일부의 음성전처리 기능만 클라이언트에 탑재되고, 이외의 음성인식 및 후처리기능은 서버 에 탑재하여 공통으로 활용되도록 하고 있다.

따라서, 종래의 방법은 실제 이용환경이 클라이언트-서버 방식에서는 활용될 수 없고, 실제 이용환경에서 잡음이 입력되는 구조가 아니고, 다양한 잡음이 조합되지 않으므로 각각의 잡음을 개별적으로 테스트해야 하므로 비효율적이다.

따라서, 본 발명의 목적은 상기한 종래 기술의 문제점을 해결하기 위해 이루어진 것으로서, 잡음별로 음성인식에 미치는 영향을 실시간으로 분석할 수 있도록, 클라이언트에서 다양한 잡음파일과 음성데이터를 조합하고, 서버에서 조합된 데이터에서 잡음이 제거된 음성인식결과를 실시간으로 출력시키는 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법을 제공하는데 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 잡음환경하의 음성인식엔진 평가 시스템은, 음성인식 대상어휘 및 잡음을 선택할 수 있도록 디스플레이하는 음성인식 클라이언트 모니터; 선택된 대상어휘 및 잡음을 조합하는 기능을 수행하는 조합모듈과, 조합된 데이터를 출력시키는 출력단자로 구성된 음성인식 클라이언트 본체; 조합된 데이터 파형 및 음성인식 결과를 디스플레이하는 음성인식 서버 모니터; 및 상기 조합된 데이터를 입력받는 입력단자와, 잡음 제거 및 음성인식 처리를 수행하는 음성인식엔진을 포함하는 음성인식 서버 본체를 포함하여 이루어진 것을 특징으로 한다.

한편, 본 발명의 잡음환경하의 음성인식엔진 평가 방법은, a. 클라이언트 단말을 통해 잡음과 대상어휘 음성을 조합하여 출력시키는 단계; 및 b. 상기 조합된 데이터를 입력받은 서버에서 잡음을 제거하고 음성인식 처리를 수행하여 상기 대상어휘를 출력시키는 단계를 포함하여 이루어진 것을 특징으로 한다.

이하, 본 발명의 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일실시예에 의한 음성인식 클라이언트 및 서버의 구성을 개략적으로 나타낸 도면이다. 구체적으로 도 1a는 클라이언트의 본체 및 모니터에서의 구동 및 제어 상황을 나타낸 도면이고, 도 1b는 서버의 본체 및 모니터에서의 구동 및 제어 상황을 나타낸 도면이다.

도 1a를 참조하면, 클라이언트는, 음성인식 클라이언트 모니터(10)와, 음성인식 클라이언트 본체(12)로 크게 구성되어 있다.

상기 음성인식 클라이언트 모니터(10)에는 음성인식 대상어휘 및 잡음을 선택할 수 있도록 해당 대상어휘(파형 포함) 및 잡음이 디스플레이된다.

상기 음성인식 클라이언트 본체(12)는 선택된 대상어휘 및 잡음을 조합하는 기능을 수행하는 조합모듈(121)과, 조합된 데이터를 출력시키는 음성출력단자 또는 스피커출력단자(122)가 마련되어 있다.

도 1b를 참조하면, 서버는, 음성인식 서버 모니터(20)와, 음성인식 서버 본 체(22)로 크게 구성되어 있다. 상기 음성인식 서버 본체(22)에는 마이크입력단자(221)가 마련되어 있다.

상기 마이크입력단자(221)는 음성인식 클라이언트 본체에 형성된 음성출력단자 또는 스피커출력단자(122)에 접속된다. 또는 음성인식 클라이언트 본체(12)에 형성될 수 있는 스피커와 음성인식 서버 본체에 형성될 수 있는 마이크에 의한 음성(음향)의 전달이 이루어질 수 있다.

상기 음성인식 서버 모니터(20)에는 잡음과 음성인식 대상어휘가 조합된 파형 및 잡음 제거후 음성인식 대상어휘의 결과 파형이 디스플레이됨과 아울러, 음성인식 결과를 테이블 형태로 분석하여 디스플레이시킨다. 도시된 바와 같이, 음성인식의 성공여부는 인식대상 어휘별로 OK/ NOK로 표시되어 보여주고, log 파일로 저장되므로 인식결과에 대하여 추가적으로 더욱 상세한 분석이 가능하게 된다.

상기 음성인식 서버 본체(22)에서는 마이크입력단자(221)로부터 조합되어 입력된 잡음과 대상어휘에서 잡음을 제거하여 대상어휘의 음성인식을 출력하는 음성인식엔진이 마련되게 되는데, 이 음성인식엔진은 잡음과 대상어휘가 조합된 데이터를 입력받는 잡음 및 대상어휘 입력부(222)와, 잡음과 대상어휘에서 잡음을 제거하는 잡음제거부(223)와, 잡음이 제거된 대상어휘의 음성을 인식하는 음성인식부(224)로 구성되게 된다. 상기 음성인식엔진은 입력부(222), 잡음제거부(223), 음성인식부(224)를 선택적으로 조합하여 정의할 수 있으며, 본 실시예에서는 음성인식부(224)를 의미한다.

그러면, 상기와 같은 구성을 가지는 본 발명의 잡음환경하의 음성인식엔진 평가 방법에 대해 도 2를 참조하여 설명하기로 한다.

도 2는 본 발명의 일실시예에 의한 다중잡음조합 및 음성인식 테스트 자동화 과정을 나타낸 흐름도이다. 도 2를 참조하면, 클라이언트에서 이루어지는 테스트모드 선택 과정(Ⅰ)과 서버에서 이루어지는 음성인식 결과 출력 과정(Ⅱ)으로 크게 구성되어 있다.

먼저, 클라이언트에서 이루어지는 과정에 대해 설명한다.

음성인식 클라이언트에서 테스트자동화프로그램을 활성화시켜 테스트모드를 선택한다(S1).

상기 테스트모드는 온라인(On-line) 테스트모드(S2)와 오프라인(Off-line) 테스트모드(S3)로 구분된다. 여기서, 상기 온라인(On-line) 테스트란 잡음데이터를 클라이언트의 스피커를 통하여 재생시킨 상태에서, 사용자가 마이크를 통하여 대상어휘를 발성하여 음성인식을 수행하는 방식이다. 이와 같이, 온라인(On-line) 테스트는 사용자가 스스로 자신의 음성인식 결과를 확인해 보는데 적합한 방법이다.

먼저, 온라인(On-line) 테스트모드가 선택되었을 경우에(S2), 모니터상에 디스플레이된 잡음을 조합한다(S4). 즉, 음성인식 클라이언트 모니터(10) 상에 디스플레이된 다양한 잡음중에서 하나만의 잡음만을 선택할 수도 있으며, 다수의 잡음을 동시에 선택하여 조합할 수도 있다.

이렇게 단독의 잡음 또는 조합된 잡음이 스피커를 통해 출력됨(S5)(SPK Out)과 아울러 상기 스피커에서 출력되는 잡음과 사용자가 대상어휘 음성이 서버의 마 이크를 통해 동시에 입력하게 된다(S6)(MIK IN).

한편, 오프라인(Off-line) 테스트모드가 선택되었을 경우에(S3), 음성인식 클라이언트 모니터(10) 상에 출력된 잡음과 대상어휘를 선택하게 된다(S7∼S8). 이 때, 상기한 바와 같이 잡음은 단독 또는 다수의 잡음이 조합될 수 있다. 상기 잡음과 대상어휘는 음성출력단자 또는 스피커출력단자(122)로부터 출력되게 된다(S9).

이후, 서버에서 상기한 온라인 테스트모드 또는 오프라인 테스트모드에서 각각 전달된 데이터를 입력받아(S10), 즉 입력부에서 잡음과 대상어휘 음성이 조합된 데이터를 전달받아 잡음제거부(223)에서 잡음을 제거하게 된다(S11). 이후 잡음이 제거된 데이터에 대해 음성인식부(224)에서 음성인식 처리과정을 수행하여 대상어휘를 출력시키게 된다. 음성인식에 있어 음성구간 검출(End Point Detection) 등 음성인식 절차를 거쳐 이루어지게 된다.

본 발명은 잡음이 존재하는 음성인식 서비스 환경에서 강인한 음성인터페이스를 구현하기 위하여, Real 환경에서 잡음을 수집한 다음에 이들을 재현하면서 음성인식성능 테스트를 자동화함으로써, 잡음의 영향을 분석하고 음성인터페이스 기능개발 및 잡음처리 기술개발에 반영할 수 있다.

잡음과 음성을 활성화시키는 과정에서부터 잡음+음성의 결합과정, 클라이언트-->서버로의 전송과정, 잡음제거 과정, 발화검증 과정, 음성인식 과정, 인식성공여부 확인과정 및 저장과정 등을 실시간으로 윈도우 화면에서 확인할 수 있다.

따라서, 모든 데이터에 대한 음성인식 과정을 기다릴 필요없이 필요한 시점 에서 필요한 부분을 확인해 볼 수 있어서 시스템디버깅 시간이 절약된다.

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.

상술한 바와 같이, 본 발명에 의한 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법은, 클라이언트-서버 개념에 입각한 잡음조합+음성데이터에 대한 테스트 자동화 방법으로서, 다양한 잡음의 조합, 잡음의 크기, 반복을 설정한 후 음성과 결합시켜 테스트할 수 있기 때문에, 잡음의 종류와 크기에 따라 음성인식에 얼마나 많은 영향을 미치는 지를 실시간으로 확인할 수 있게 한다.

다음과 같은 주요한 효과가 있다.

첫째, 잡음을 조합하여 특성을 파악할 수 있다. 단일의 잡음은 물론이고 복수의 잡음을 단순히 선택함으로써 관련잡음이 활성화 된다. 각각의 잡음별로 크기조정, 연속횟수 설정이 가능하므로 잡음설정의 상황에 따른 특성파악이 가능하다.

둘째, 클라이언트-서버간 통신에 의한 테스트로서 클라이언트-서버 서비스 적용에 적합하다. 실제로 지능형로봇의 경우에는 다수의 가정에서 이용하는 클라이언트 로봇에는 일부 음성전처리 기능만 탑재되고 이외의 음성인식은 서버에서 처리하는 구조가 고려된다. 클라이언트-서버 간 통신은 클라이언트 스피커Out 단자와 서버의 마이크IN 단자를 스테레오케이블로 연결한다.

셋째, 음성인식과정을 실시간으로 모니터 가능하다. 음성인식대상 어휘의 음성파형, 잡음이 포함된 음성파형, 잡음이 제거된 음성파형, 음성인식결과 어휘가 모니터에 실시간 출력된다.

Claims

음성인식 대상어휘 및 잡음을 선택할 수 있도록 디스플레이하는 음성인식 클라이언트 모니터;

선택된 대상어휘 및 잡음을 조합하는 기능을 수행하는 조합모듈과, 조합된 데이터를 출력시키는 출력단자로 구성된 음성인식 클라이언트 본체;

상기 잡음과 대상어휘가 조합된 데이터 파형, 잡음 제거후 대상어휘의 결과 파형 및 음성인식 결과를 테이블 형태로 분석하여 디스플레이하는 음성인식 서버 모니터; 및

상기 조합된 데이터를 입력받는 입력단자와, 잡음과 대상어휘가 조합된 데이터를 입력받는 잡음 및 대상어휘 입력부, 잡음과 대상어휘에서 잡음을 제거하는 잡음제거부 및 잡음이 제거된 대상어휘의 음성을 인식하는 음성인식부로 구성되어 잡음 제거 및 음성인식 처리를 수행하는 음성인식엔진을 포함하는 음성인식 서버 본체

를 포함하는 것을 특징으로 하는 잡음환경하의 음성인식엔진 평가 시스템.
제 1 항에 있어서, 상기 출력단자에는 스피커가 접속되어 이루어진 것을 특징으로 하는 잡음환경하의 음성인식엔진 평가 시스템.
제 1 항에 있어서, 상기 입력단자에는 마이크가 접속되어 이루어진 것을 특징으로 하는 잡음환경하의 음성인식엔진 평가 시스템.
삭제
클라이언트 단말 및 서버간 잡음환경하의 음성인식엔진 평가 방법에 있어서,

a. 클라이언트 단말의 스피커를 통해 잡음을 출력시킴과 동시에 대상어휘 음성을 서버의 마이크로 입력시켜 대상어휘를 음성인식하는 온라인 테스트모드 및 클라이언트 단말에서 선택된 잡음 및 대상어휘 음성을 조합하여 서버로 입력시켜 대상어휘를 음성인식하는 오프라인 테스트모드 중에서 어느 하나를 선택하여 상기 클라이언트 단말을 통해 잡음과 대상어휘 음성을 조합하여 출력시키는 단계; 및

b. 잡음과 대상어휘 음성이 조합된 데이터를 입력받아 상기 조합된 데이터에서 잡음을 제거하고, 상기 잡음이 제거된 데이터에 대해 음성구간 검출(End Point Detection)을 이용하여 음성인식 처리과정을 수행함으로써 상기 조합된 데이터를 입력받은 서버에서 잡음을 제거하고 음성인식 처리를 수행하여 상기 대상어휘를 출력시키는 단계를 포함하여 상기 잡음과 대상어휘의 선택 데이터 및 음성인식 결과 데이터를 log 파일로 저장하고,

상기 b. 단계에서 잡음과 음성인식 대상어휘가 조합된 파형, 잡음 제거후 음성인식 대상어휘의 결과 파형 및 음성인식 결과를 테이블 형태로 분석하여 디스플레이시키는 것을 포함하는 것을 특징으로 하는 잡음환경하의 음성인식엔진 평가 방법.
삭제
제 5 항에 있어서, 상기 잡음은,

단독 잡음 또는 다수의 잡음을 조합한 잡음인 것을 특징으로 하는 잡음환경하의 음성인식엔진 평가 방법.
제 5 항 또는 제 7 항에 있어서, 상기 잡음은,

자연 배경 잡음인 기본잡음;

상기 기본잡음을 조합한 개별잡음; 및

상기 기본잡음 및 개별잡음을 조합한 연속잡음

중에서 선택적으로 사용되는 것을 특징으로 하는 잡음환경하의 음성인식엔진 평가 방법.
삭제
삭제
삭제
삭제