KR101605848B1

KR101605848B1 - 음성인식 성능 평가 방법 및 그 장치

Info

Publication number: KR101605848B1
Application number: KR1020140164430A
Authority: KR
Inventors: 하동경
Original assignee: 하동경
Priority date: 2014-11-24
Filing date: 2014-11-24
Publication date: 2016-04-01

Abstract

음성인식 성능 평가 방법 및 그 장치가 개시된다. 음성인식 성능 평가 장치는 음성음원과 소음음원을 순차적으로 출력하고, 마이크를 통해 음성인식장치가 수신한 음성음원과 소음음원의 신호대잡음비를 산출하고, 산출한 신호대잡음비가 기준값이 되도록 음성음원 또는 소음음원의 크기를 조정 후 음성인식 성능을 평가한다.

Description

음성인식 성능 평가 방법 및 그 장치{Method and apparatus for analyzing speech recognition performance}

본 발명은 음성인식장치의 음성인식 성능을 평가하는 방법 및 그 장치에 관한 것이다.

음성인식기술은 대표적인 HMI(Human Machine Interface) 기술 중의 하나로, 휴대단말의 대중화에 따라 사용도가 날로 확산되고 있다. 음성인식기술 상용화의 핵심 중 하나는 사용자들이 수용할 수 있는 신뢰성과 객관성 있는 인식률의 보장 여부 등을 들 수 있다. 그러나 음성 인식률은 발화자, 주변환경, 음성입력장치 등과 같은 여러 가지 시변성이 있는 요인으로 인하여 보장받기 매우 어려운 실정이다.

도 1은 종래의 음성인식장치의 음성인식률 평가 방법의 일 예를 도시한 도면이다.

도 1을 참조하면, 음성인식장치(100)는 실 환경 또는 테스트 환경에서 발화된 시험자(110)의 음성신호를 입력받는다. 시험자(110)는 음성인식장치(100)로부터 도출된 결과를 육안으로 확인하거나, 음성인식장치에 저장된 결과 문서파일을 확인하여 음성 인식률 등을 평가한다.

그러나 이러한 종래의 평가 방법은 시험자(110)의 발화상태나 발화시점의 주변 소음환경에 따라 인식결과가 달라지는 문제점이 존재하며, 평가 결과 처리과정도 수작업으로 진행되어 평가에 많은 시간이 소요되고, 시험자의 조작 및 기록 실수로 인한 신뢰성 및 객관성이 결여될 문제점이 있다.

특허공개번호 제2013-0029635호

본 발명이 이루고자 하는 기술적 과제는, 음성인식장치의 음성인식 성능을 신뢰성 및 객관성을 보장하면서 자동으로 평가할 수 있는 방법 및 그 장치를 제공하는 데 있다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성인식장치의 성능 평가 방법의 일 예는, 제1 음성음원과 제1 소음음원을 순차적으로 출력하는 단계; 마이크를 통해 입력받은 상기 제1 음성음원과 제1 소음음원을 기초로 음성인식장치에서 각각 생성되는 제2 음성음원과 제2 소음음원을 상기 음성인식장치로부터 수신하는 단계; 상기 제2 음성음원과 제2 소음음원을 기초로 제1 신호대잡음비를 산출하는 단계; 상기 제1 신호대잡음비가 기 설정된 기준값이 되도록 상기 제1 음성음원 및 제1 소음음원 중 적어도 하나의 크기를 조정하는 단계; 크기가 조정된 제1 음성음원 및 제1 소음음원을 동시에 출력하는 단계; 및 상기 크기가 조정된 제1 음성음원 및 제1 소음음원을 마이크를 통해 동시에 입력받은 상기 음성인식장치의 음성인식 성능을 파악하는 단계;를 포함한다.

상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 음성인식의 성능 평가장치의 일 예는, 적어도 하나 이상의 음성음원과 적어도 하나 이상의 소음음원을 포함하는 데이터베이스; 상기 데이터베이스에 저장된 음성음원 및 소음음원을 출력하는 출력부; 음성인식장치의 마이크를 통해 입력된 상기 음성음원과 상기 소음음원을 각각 녹음한 제1 녹음파일과 제2 녹음파일을 기초로 신호대잡음비를 산출하는 신호분석부; 상기 신호대잡음비가 기 설정된 기준값이 되도록 상기 출력부를 통해 출력되는 음성음원 또는 소음음원의 크기를 조정하는 제어부; 및 상기 제어부에 의한 크기 조정 과정을 통해 상기 신호대잡음비가 상기 기준값이 되면, 상기 출력부를 통해 크기가 조정된 음성음원 및 소음음원을 동시에 입력받는 상기 음성인식장치의 음성인식 성능을 평가하는 성능평가부;를 포함한다.

본 발명에 따르면, 평가대상 음성인식장치의 음성인식 성능을 자동으로 평가할 수 있다. 또한 주변 환경 등에 따른 시변성의 영향을 배제시키고 사용자가 원하는 일정한 신호대잡음비를 갖는 음성과 소음의 환경에서 보다 정확한 음성인식률을 측정할 수 있다. 또한 본 발명은 음성인식엔진을 통한 음성인식 결과만을 평가대상으로 삼는 것이 아니라, 음성인식장치의 음향신호처리 특성을 분석할 수 있는 방법을 제공한다. 또한 음성인식장치의 인식률 향상을 위한 마이크로폰이나 오디오 코덱 칩의 튜닝과 같은 하드웨어적인 개선 방법이나 배경소음제거기법과 같은 소프트웨어적인 디지털신호처리기술을 적용하는데 도움이 되는 정보를 제공할 수 있다.

도 1은 종래의 음성인식장치의 음성인식률 평가 방법의 일 예를 도시한 도면,
도 2는 본 발명에 따른 음성인식 성능 평가 장치의 일 예를 도시한 도면,
도 3은 본 발명에 따른 음성인식 성능 평가의 대상이 되는 음성인식장치의 일 실시 예의 구성을 도시한 도면,
도 4는 본 발명에 따른 음성인식 성능 평가 장치의 일 실시 예의 구성을 도시한 도면,
도 5는 본 발명에 따른 음성인식 성능 평가 방법의 일 실시 예의 흐름을 도시한 도면,
도 6은 본 발명에 따른 음성인식 성능 평가 방법의 다른 일 예를 도시한 흐름도, 그리고,
도 7은 본 발명에 따른 음성인식성능 평가 장치의 다른 일 예를 도시한 도면이다.

이하에서, 첨부된 도면들을 참조하여 본 발명에 따른 음성인식장치의 성능 평가 방법 및 그 장치에 대해 상세히 설명한다.

도 2는 본 발명에 따른 음성인식 성능 평가 장치의 일 예를 도시한 도면이다.

도 2를 참조하면, 음성인식 성능 평가 장치(200)는 음성음원과 소음음원을 포함하는 음원을 평가대상인 음성인식장치(210)로 출력한 후 음성인식장치(210)가 이를 제대로 인식하는지를 평가한다.

음성인식 성능 평가 장치(200)와 음성인식장치(210) 사이의 거리, 평가 주변 환경의 소음 등에 따라 음성인식 성능 평가 장치(200)에서 출력될 때의 음성음원과 소음음원의 신호대잡음비와 음성인식장치(210)의 마이크를 통해 입력되는 음성음원과 소음음원의 신호대잡음비가 상이할 수 있다. 따라서 본 발명은 음성인식장치(210)로 입력되는 음원의 신호대잡음비가 시간이나 상황에 따라 달라지는 문제점을 배제할 수 있도록 신호대잡음비를 일정 값으로 조정한 후 음성인식 성능을 평가한다. 음성인식 성능 평가를 위하여 음성인식 성능 평가 장치(200)는 소프트웨어적인 방법 또는 하드웨어적인 방법으로 음성인식장치(210)를 제어한다. 음성인식 성능 평가 방법 및 장치에 대해서는 도 4 이하를 참조하여 보다 상세하게 살펴본다.

음성인식장치(210)는 음성인식 기능이 구현된 모든 장치를 의미한다. 예를 들어, 음성인식장치(210)는 음성인식 기능을 포함하는 스마트폰, PDA, 노트북, 테블릿 PC 등과 같은 개인 휴대 단말, TV나 전기밥솥, 냉장고 등과 같은 각종 가전제품, 네비게이션 장치 등과 같은 자동차용 제품 등이 될 수 있다. 음성인식장치의 일 예는 도 3에 도시되어 있다.

음성인식 성능 평가 장치(200)는 음성인식장치(210)와 유무선으로 연결될 수 있다. 예를 들어, 음성인식장치(210)는 블루투스나 적외선 통신 등과 같은 근거리 통신, 와이파이(WiFi) 등의 인터넷 통신, 3G, LTE 등과 같은 무선통신, USB 포트 등을 포함한 각종 유선통신을 위한 인터페이스 포트 등을 통해 음성인식 성능 평가 장치(200)와 연결될 수 있다. 음성인식 성능 평가 장치(200)와 음성인식장치(210)는 이 외에도 다양한 통신 방법을 통해 연결가능하다.

음성인식 성능 평가 장치(200)는 컴퓨터로 구현되거나 별도의 전용 기기로 구현될 수 있다. 예를 들어, 음성인식 성능 평가 장치(200)는 평가대상 음성인식장치(210)를 수용할 수 있는 거치대와 거치대에 놓인 음성인식장치와 통신을 수행하는 유선 또는 무선 인터페이스 장치(예를 들어, USB 포트 등), 음성인식장치의 화면에 표시되는 내용을 확인하기 위한 카메라 등을 구비한 전용 기기로 구현될 수도 있다.

도 3은 본 발명에 따른 음성인식 성능 평가의 대상이 되는 음성인식장치의 일 실시 예의 구성을 도시한 도면이다.

도 3을 참조하면, 음성인식장치(210)는 마이크(300), 음성인식부(310), 녹음부(320), 제어부(330), 입력부(340), 디스플레이부(350), 인터페이스부(360) 및 스피커(370)를 포함한다. 도 3은 본 발명의 이해를 돕기 위한 일 예에 지나지 아니하며, 본 발명이 반드시 도 3에 도시된 음성인식장치에만 적용되는 것을 의미하지는 않는다.

마이크(300)는 음원을 입력받는다. 음성인식부(310)는 마이크(300)를 통해 입력된 음원을 분석하여 음성을 인식한다. 녹음부(320)는 마이크(300)를 통해 입력된 음원을 녹음한다.

입력부(340)는 터치스크린, 키패드, 마우스 등과 같은 다양한 사용자 인터페이스를 통해 사용자로부터 각종 명령 등을 입력받는다. 예를 들어, 음성인식장치(210)가 스마트폰인 경우에, 입력부(340)는 터치 스크린을 통해 사용자로부터 각종 명령 등을 입력받을 수 있다.

이 외에, 음성인식장치(210)는 외부 장치와 유무선 통신을 수행하는 인터페이스부(360), 소리를 출력하는 스피커(370), 화면을 출력하는 디스플레이부(350) 등을 더 포함할 수 있다.

제어부(330)는 음성인식부(310), 녹음부(320), 입력부(340), 디스플레이부(350), 인터페이스부(360), 스피커(370) 등의 각종 구성을 제어한다.

제어부(330)는 실시 예에 따라 음성인식 성능 평가 장치(200)로부터 제어신호를 받아 소정의 동작을 수행하는 기능을 자체 포함하거나 포함하지 않을 수 있다. 예를 들어, 제어부(330)는 음성인식장치(210)의 인터페이스부(260)를 통해 연결된 음성인식 성능 평가 장치(200)로부터 녹음 관련 제어신호나 음성인식 관련 제어 신호를 수신하면 그에 따른 동작을 수행하고, 또한 음성인식 성능 평가를 위한 소정의 정보를 음성인식 성능 평가 장치(200)로 출력하도록 각 구성을 제어할 수 있다. 그러나 이러한 제어기능이 모든 음성인식장치에 포함되는 것은 아니다.

따라서 음성인식장치(210)는 실시 예에 따라 음성인식 성능 평가를 위한 각종 제어 기능이 포함된 추가 모듈을 설치할 수 있다. 예를 들어, 음성인식장치(210)에 추가 설치되는 추가 모듈은 음성인식장치(210)의 인터페이스부(360)를 통해 입력되는 음성인식 성능 평가 장치(200)의 제어신호를 분석하고 그 제어신호에 따라 음성인식장치의 각 구성을 제어한다.

만약, 음성인식장치(210)에 음성인식 성능 평가를 위한 제어 기능이 포함되어 있지 아니하고 추가 모듈의 설치도 어렵다면, 이상에서 살핀 소프트웨어적인 제어방법이 아닌 하드웨어적인 방법으로 음성인식장치(210)를 제어할 수 있다. 예를 들어, 도 7과 같이, 음성인식 성능 평가장치(200)가 음성인식장치(210)의 터치 스크린이나 키패드 등의 사용자 인터페이스를 통해 직접 명령을 입력할 수 있다. 음성인식장치(210)의 하드웨어적인 제어 방법은 도 7을 참조하여 보다 구체적으로 살펴보고, 이하에서는 음성인식장치(210)에 소프트웨어적인 제어를 위한 기능이 원래 구현되어 있거나 추가 모듈의 설치 등을 통해 구현되어 있다고 가정한다.

도 4는 본 발명에 따른 음성인식 성능 평가 장치의 일 실시 예의 구성을 도시한 도면이다.

도 4를 참조하면, 음성인식 성능 평가 장치(200)는 데이터베이스(400), 제어부(410), 출력부(420), 신호분석부(430), 성능평가부(440), 인터페이스부(450), 외부장치제어부(460) 등을 포함한다. 음성인식 성능 평가 장치(200)는 실시 예에 따라 카메라(470)를 더 포함할 수도 있다.

데이터베이스(400)는 적어도 하나 이상의 음성음원과 적어도 하나 이상의 소음음원을 포함한다. 음성음원과 소음음원은 각각 분리되어 데이터베이스에 저장되어 있다.

출력부(420)는 제어부(410)에 의해 설정된 신호 크기에 따라 음성음원과 소음음원을 출력한다. 출력부(420)는 제어부의 제어에 따라 음성음원과 소음음원을 각각 순차적으로 출력하거나 동시에 출력할 수 있다. 예를 들어, 출력부(420)는 음성음원을 마우스 시뮬레이터(422)를 통해 출력하고 소음음원을 스피커(424)를 통해 출력할 수 있다. 음원을 출력하기 위한 출력부(420)의 구성은 이 외의 다양한 형태로도 구현 가능하다. 출력부(420)를 통해 출력되는 음성음원과 소음음원을 원 음성음원과 원 소음음원으로 명명한다.

신호분석부(430)는 (a) 신호대잡음비 조정 과정과 (b) 음성인식 성능 평가 과정에서 음성인식장치(210)의 마이크를 통해 입력되는 음원의 신호대잡음비(SNR, Signal-to-Noise Ratio)를 산출한다.

(a) 신호대잡음비 조정 과정의 경우에 출력부(420)는 원 음성음원과 원 소음음원을 순차적으로 출력하고, 음성인식장치(210)는 마이크를 통해 순차적으로 입력받은 원 음성음원과 원 소음음원을 기초로 음성음원과 소음음원을 생성하여 신호분석부로 전달한다. 이하에서 음성인식장치(210)가 마이크를 통해 입력받은 음원으로 생성하는 음성음원과 소음음원을 수신 음성음원과 수신 소음음원으로 명명한다.

신호분석부는 음성인식장치로부터 수신한 수신 음성음원과 수신 소음음원을 기초로 다음 수학식을 이용하여 신호대잡음비를 산출할 수 있다. 음성인식장치(210)는 마이크를 통해 수신 음성음원과 수신 소음음원을 녹음부를 통해 녹음하여 각각의 녹음파일을 생성한 후 이를 신호분석부(430)에 전송하거나, 녹음 과정 없이 실시간 수신 음성음원과 수신 소음음원을 신호분석부(430)에 전송할 수 있다.

여기서, Speech_in은 수신 음성음원, Noise_in은 수신 소음음원을 나타낸다.

(b) 음성인식성능 평가 과정의 경우에 출력부(420)는 원 음성음원과 원 소음음원을 동시에 출력하고, 음성인식장치(210)는 음성과 소음이 합쳐진 하나의 음원을 마이크를 통해 수신한 후 신호분석부(430)로 전달한다. 이 경우 신호분석부(430)는 음성인식장치(210)로부터 수신한 음성과 소음이 하나로 합쳐진 음원을 분석하여 음성음원구간과 소음음원구간을 파악하고, 다음 수학식을 이용하여 신호대잡음비를 산출할 수 있다. 예를 들어, 신호분석부는 VAD(Voice Activity Detection) 이용하여 음원을 음성음원구간과 소음음원구간으로 구분할 수 있다.

여기서, Noisy_in _{_} _sp는 음성신호구간의 신호 세기, Noisy_in _{_} _ns는 소음신호구간의 신호 세기를 나타낸다.

제어부(410)는 신호대잡음비 조정 과정의 경우 원 음성음원과 원 소음음원이 각각 분리되어 순차적으로 출력부(420)를 통해 출력되도록 제어하고, 음성인식 성능 평가 과정의 경우에는 원 음성음원과 원 소음음원이 동시에 출력되도록 제어한다. 예를 들어, 음성인식 성능 평가 과정의 경우, 제어부(410)는 출력부(420)의 마우스 시뮬레이터(422)와 스피커(424)를 통해 원 음성음원과 원 소음음원이 동시에 출력되도록 제어한다.

제어부(410)는 음성인식 성능 평가 과정 전에 우선 신호대잡음비 조정 과정이 수행되도록 제어한다. 신호대잡음비 조정 과정의 경우에, 신호분석부(430)에 의해 산출된 수신 음성음원과 수신 음성음원의 신호대잡읍비가 기 설정된 기준값과 상이하면, 제어부(410)는 신호대잡음비가 기준값이 되도록 원 음성음원 및 원 소음음원 중 적어도 하나의 신호크기를 조정한다. 여기서 신호대잡음비와 비교되는 기준값은 실시 예에 따라 하나의 특정 값을 의미하거나 일정 범위를 의미할 수 있다.

예를 들어, 제어부(410)는 원 음성음원과 원 소음음원 중 하나를 기준음원으로 설정하고 나머지 하나를 조정음원으로 설정한 후 조정음원에 일정 크기의 값을 곱하여 신호대잡음비가 기준값이 되도록 조정할 수 있다. 이를 수학식으로 나타내면 다음과 같다. 물론 제어부(410)는 원 음성음원과 원 소음음원의 신호 크기를 동시에 조정할 수도 있다.

여기서, Amp_sp와 Amp_ns는 원 음성음원(Speech_org)과 원 소음음원(Noise_org) 각각에 곱해지는 초기 조정값이다.

여기서, SNR_target는 기준값을 나타내고, SNR_amp는 Speech_amp와 Noise_amp가 입력음원으로 사용되었을 때 신호분석부(430)에서 산출한 신호대잡음비를 나타내며, SNR_adj는 기준값과 산출된 신호대잡음비의 편차이다. 기준음원을 원 소음음원으로 한 경우, 제어부(410)는 조정음원인 원 음성음원에 위의 새로운 조정값(Amp'_sp)을 곱하여 신호크기를 제어한다.

성능평가부(440)는 음성인식장치(210)의 음성인식 성능을 평가한다. 성능평가부는 신호대잡음비의 조정 과정 이후에 수행된다. 예를 들어, 제어부(410)는 원 음성음원 또는 원 소음음원의 신호 크기를 제어하여 수신 음성음원과 수신 소음음원의 신호대잡음비가 기준값이 되도록 원 음성음원 또는 원 소음음원의 신호 크기를 조정한다. 그리고 제어부(410)는 신호 크기가 조정된 원 음성음원 및 원 소음음원이 출력부(420)를 통해 동시에 출력되도록 제어한다. 그러면 성능평가부(440)는 크기 조정된 원 음성음원과 원 소음음원을 마이크를 통해 동시에 입력받은 음성인식장치가 정상적으로 음성인식을 수행하는지 평가한다.

예를 들어, 성능평가부(440)는 앞서 살핀 신호분석부(430)에 의해 분석된 신호대잡음비를 파악하여 PESQ(Perceptual Evaluation of Speech Quality)를 파악할 수 있다. 이를 위해 성능평가부(440)는 신호크기 조정 후 출력부(420)를 통해 출력되는 음원의 신호대잡음비(SNR_ref)를 다음 수학식을 이용하여 구한다.

여기서 Speech_ref는 신호 크기 조정 후 출력부(420)를 통해 출력되는 음성음원의 신호 크기를 나타내고, Noise_ref는 신호 크기 조정 후 출력부(420)를 통해 출력되는 소음음원의 신호 크기를 나타낸다.

다음으로 성능평가부(440)는 수학식 5를 통해 구한 신호대잡음비(SNR_ref)와 신호분석부(430)를 통해 산출한 신호대잡음비(SNR_in), 원 음성음원과 음성인식장치의 마이크를 통해 입력되어 생성되는 수신 소음음원 등을 이용하여 PESQ를 구하고 음성코덱, 디지털 필터 등의 튜닝에 활용한다.

성능평가부는 위 과정을 통해 얻은 값들과 신호 데이터를 주파수영역에서의 스펙트럼 정보와 시간영역에서의 파형 정보로 제공함으로써 사용자가 음성인식결과에 대해 보다 직관적이고 복합적인 분석이 가능하도록 할 수 있다.

또 다른 예로, 성능평가부(440)는 원 음성음원에 대한 음성인식장치의 음성인식의 예측 결과와 실제 음성인식장치에 나타나는 음성인식의 결과를 비교하여 음성 인식의 인식률 등을 파악할 수 있다. 예를 들어, 음성인식장치(210)가 음성인식 기능을 통해 음성을 텍스트로 전환하는 기능을 포함하는 경우에, 성능평가부(440)는 음성인식장치(210)가 출력부(420)를 통해 동시에 출력된 원 음성음원과 원 소음음원을 수신한 후 이를 인식하여 텍스트로 변환한 결과와 원 음성음원이 나타내는 텍스트를 비교하여 인식률 등을 파악한다.

성능평가부(440)는 음성인식장치(210)로부터 음성인식 결과(예를 들어, 음성-텍스트 변환 결과, 특정 명령의 실행 결과)를 유무선 통신을 통해 직접 수신하거나, 별도의 카메라(470)를 이용하여 음성인식장치(210)의 화면을 수신하고 분석하여 인식률을 파악할 수 있다.

인터페이스부(450)는 음성인식장치(210)를 포함하는 외부 장치와의 유무선 통신을 수행한다. 예를 들어, 인터페이스부(450)는 음성인식장치(210)와 USB 포트를 통해 유선으로 연결되거나, 블루투스 모듈을 통해 유선으로 연결될 수 있다. 또 다른 예로, 인터페이스부(450)는 음성인식장치(210)의 화면을 촬영하는 카메라(470)와 유무선으로 연결될 수 있다.

외부장치 제어부(460)는 음성인식 성능 평가를 위하여 음성인식장치(210)를 비롯한 외부장치를 제어한다. 예를 들어, 신호대잡음비 조정과정을 위하여, 외부장치 제어부(460)는 출력부(420)의 원 음성음원과 원 소음음원의 출력시점 등에 대응하여 음성인식장치(210)의 녹음 등을 제어하는 신호를 음성인식장치(210)에게 출력할 수 있다. 외부장치 제어부(460)의 제어신호의 출력 과정에 대해서는 도 6을 참조하여 보다 상세하게 살펴본다.

본 실시 예의 경우, 음성인식 성능 평가시에 반드시 하나의 음성음원과 소음음원이 사용되어야 하는 것은 아니며 필요에 따라 복수 개의 음성음원과 소음음원이 사용될 수 있다. 또 다른 예로 하나의 음성음원과 복수의 소음음원이 사용되거나 반대로 복수의 음성음원과 하나의 소음음원이 음성인식 성능 평가에 사용될 수 있다. 다만 복수 개의 음성음원과 소음음원이 사용될 경우 사용되는 음성음원과 소음음원의 각 조합의 전부 또는 적어도 하나에 대해 앞서 살핀 신호대잡음비의 조정 과정이 수행된다.

도 4의 구성의 전부 또는 일부는 하드웨어 또는 소프트웨어로 구현가능하며, 각 구현된 구성은 기 설정된 프로그램 등을 통해 자동화된 방법으로 제어되어 음성인식 성능 등을 평가한다. 예를 들어, 사용자가 사용자 인터페이스 등을 통해 기준값 등의 초기값을 설정하고 성능 평가 명령을 내리며, 음성인식 성능 평가 장치는 제어부를 통해 음성음원과 소음음원의 신호대잡음비의 조정 과정과 음성인식 성능 평가 과정을 자동으로 수행하여 그 결과를 화면 등의 다양한 출력장치를 통해 출력한다. 이하, 도 5 및 도 6의 방법 또한 음성인식 성능 평가 장치에 의해 자동화된 방법에 따라 수행된다.

도 5는 본 발명에 따른 음성인식 성능 평가 방법의 일 실시 예의 흐름을 도시한 도면이다.

도 5를 참조하면, 음성인식 성능 평가 장치(이하, '평가장치'라 함)는 기준음원 및 기준값(목표 SNR), 신호크기의 초기 조정값 등의 초기값을 설정한다(S500). 여기서 기준음원은 음성음원 및 소음음원 중 어느 하나를 가리키며, 나머지 하나는 크기 조정이 되는 조정음원이 된다.

평가장치는 데이터베이스에서 선택한 제1 음성음원(즉, 원 음성음원)을 출력한다(S510). 일 예로, 평가장치는 제1 음성음원의 출력에 마우스 시뮬레이터를 이용할 수 있다. 출력된 제1 음성음원은 평가대상 음성인식장치의 마이크를 통해 음성인식장치로 입력된다.

평가장치는 제1 음성음원을 기초로 생성된 제2 음성음원(즉, 수신 음성음원)을 음성인식장치로부터 수신한다(S520). 여기서 제2 음성음원은 음성인식장치의 마이크를 통해 입력되는 신호에 의해 발생되는 음성음원을 의미한다. 아래의 제2 소음음원(즉, 수신 소음음원)도 마찬가지이다. 음성인식장치는 제2 음성음원을 녹음하여 녹음파일로 생성하거나 제2 음성음원을 실시간 평가장치로 제공할 수 있다.

평가장치는 다음으로 제1 소음음원(즉, 원 소음음원)을 출력한다(S520). 일 예로, 평가장치는 제1 소음음원을 스피커를 통해 출력할 수 있다.

평가장치는 음성인식장치가 마이크를 통해 수신한 제1 소음음원을 기초로 생성하는 제2 소음음원을 수신한다(S530). 평가장치는 음성인식장치로부터 제2 소음음원을 녹음한 녹음파일을 수신하거나 실시간 제2 소음음원을 입력받아 자체에 저장할 수 있다.

평가장치는 음성인식장치로부터 수신한 제2 음성음원과 제2 소음음원을 기초로 신호대잡음비를 산출한다(S550). 평가장치는 산출한 신호대잡음비가 기 설정된 기준값과 상이하면, 제1 음성음원 또는 제1 소음음원의 신호 크기를 조정한다(S590). 그리고 평가장치는 신호 크기가 조정된 제1 음성음원과 제1 소음음원을 다시 출력한 후 음성인식장치로부터 전달받아 신호대잡음비를 재산출하여 기준값과 비교한다. 평가장치는 신호대잡음비가 기준값과 동일해질 때까지 출력되는 음원의 크기 조정 과정을 반복 수행한다.

신호대잡음비와 기준값이 동일해지면, 평가장치는 크기 조정된 제1 음성음원과 제1 소음음원을 동시에 출력한다(S570). 이 경우 음성인식장치는 제1 음성음원과 제1 소음음원을 음성인식장치의 마이크를 통해 동시에 입력받는다. 음성인식장치는 입력된 음원에 따른 음성인식기능을 수행하고, 평가장치는 음성인식장치의 음성인식기능이 정상적으로 동작하는지 파악한다(S580).

평가장치는 음성음원과 소음음원의 각 녹음파일과 데이터베이스에 저장된 음성음원과 소음음원을 비교하여 SNR, MOS(Mean Opinion Score) 등과 같은 음성품질 정보를 구하고 음성인식 평가에 활용할 수 있다.

도 6은 본 발명에 따른 음성인식 성능 평가 방법의 다른 일 예를 도시한 흐름도이다.

도 6을 참조하면, 평가장치는 음성인식장치로부터 수신한 수신 음성음원과 수신 소음음원에 대한 신호대잡음비가 기 설정된 기준값과 상이하면(S600), 원 음성음원과 원 소음음원의 각각의 출력에 대응하여 음성인식장치에게 녹음 제어신호를 출력한다(S610).

예를 들어, 평가장치는 일정 길이를 가진 원 음성음원 또는 원 소음음원을 출력하는 시점에 음성인식장치에게 녹음 시작 제어신호를 출력하고, 원 음성음원 또는 원 소음음원의 출력이 완료되는 시점에 음성인식장치에게 녹음 종료 제어신호를 출력한다.

평가장치는 음성인식장치로부터 수신 음성음원과 수신 소음음원에 대한 녹음 파일을 수신하고(S620), 각 녹음 파일에 있는 데이터를 기초로 음원의 신호대잡음비를 산출한다(S630). 그리고, 평가장치는 산출한 신호대잡음비가 기 설정된 기준값과 동일한지 파악하는 과정(600)을 다시 수행한다.

신호대잡음비가 기 설정된 기준값과 동일하면(600), 평가장치는 신호 크기 조정된 원 음성음원과 원 소음음원을 동시에 출력하며, 이에 대응하여 음성인식장치에 음성인식 제어 신호를 출력한다. 예를 들어, 평가장치는 신호 크기가 조정된 원 음성음원과 원 소음음원을 출력하는 시점에 음성인식장치에게 음성인식 기능 활성화 신호를 출력한다.

그리고 평가장치는 음성인식장치의 음성인식의 결과를 파악하여 음성 인식률 등의 성능을 파악한다(S650).

다른 예로, 음성인식장치의 녹음이나 음성인식 기능 등을 음성명령을 통해 제어가능하다면, 평가장치는 원 음성음원이나 원 소음음원 등의 출력 전에 마우스 시뮬레이터 등을 통해 음성 명령을 먼저 출력한 후 음원을 출력할 수 있다. 그 외 다른 명령이나 기능 또한 음성명령으로 가능하다면, 평가장치는 제어신호가 아닌 음성명령을 출력하는 과정을 포함하여 구현될 수 있다.

도 7은 본 발명에 따른 음성인식성능 평가 장치의 다른 일 예를 도시한 도면이다.

도 7을 참조하면, 음성인식 성능 평가 장치(200)는 카메라(470)와 명령막대(500)를 포함한다. 음성인식 성능 평가 장치(200)는 명령막대(500)를 이동시켜 평가대상 음성인식장치(210)의 사용자 인터페이스의 버튼을 물리적으로 누르거나 터치하도록 제어한다.

예를 들어, 앞서 살핀 신호대잡음비의 조정 과정을 위하여 음성인식장치의 녹음 기능을 활성화/비활성화할 필요가 있는 경우에, 음성인식 성능 평가 장치(200)는 명령막대(500)를 이동시켜 음성인식장치(210)의 사용자 인터페이스에 존재하는 녹음 버튼을 찾아 누르거나 터치한다.

음성인식 성능 평가 장치(200)는 카메라(470)를 통해 촬영되는 음성인식장치(210)의 화면을 분석하여 각종 버튼이나 메뉴 등을 식별하고 명령막대(500)를 이동시켜 원하는 버튼이나 메뉴를 선택할 수 있다. 예를 들어, 스마트폰의 음성인식 성능을 평가하고자 하는 경우, 스마트폰은 각 제조사별 버튼이나 메뉴 등이 정형화되어 있으므로 음성인식 성능 평가 장치(200)는 사전에 등록된 몇몇 정형화된 버튼이나 메뉴 등의 위치나 배치 정보 등을 이용하여 보다 정확하고 빠르게 명령막대(500)를 이동시켜 원하는 버튼이나 메뉴를 선택할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 다양한 형태의 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

제1 음성음원과 제1 소음음원을 순차적으로 출력하는 단계;
마이크를 통해 입력받은 상기 제1 음성음원과 제1 소음음원을 기초로 음성인식장치에서 각각 생성되는 제2 음성음원과 제2 소음음원을 상기 음성인식장치로부터 수신하는 단계;
상기 제2 음성음원과 제2 소음음원을 기초로 제1 신호대잡음비를 산출하는 단계;
상기 제1 신호대잡음비가 기 설정된 기준값이 되도록 상기 제1 음성음원 및 제1 소음음원 중 적어도 하나의 크기를 조정하는 단계;
상기 제1 신호대잡음비가 상기 기준값이 될 때, 크기가 조정된 제1 음성음원 및 제1 소음음원을 동시에 출력하는 단계; 및
동시에 출력된 제1 음성음원 및 제1 소음음원을 마이크를 통해 입력받은 상기 음성인식장치의 음성인식 성능을 파악하는 단계;를 포함하고,
상기 제1 음성음원 및 제1 소음음원 중 적어도 하나의 크기를 조정하는 단계는, 크기가 조정된 제1 음성음원 및 제1 소음음원을 순차적으로 출력하는 과정 및 크기가 조정된 제1 음성음원 및 제1 소음음원을 기초로 생성된 제2 음성음원과 제2 소음음원을 상기 음성인식장치로부터 수신하여 상기 제1 신호대잡음비를 산출하는 과정을 상기 제1 신호대잡음비가 상기 기준값이 될 때까지 반복수행하는 단계;를 포함하는 것을 특징으로 하는 음성인식 성능 평가 방법.
제 1항에 있어서, 상기 제1 신호대잡음비를 산출하는 단계는,

(여기서, SNR은 상기 제1 신호대잡음비를 나타내고, Speech_in은 상기 제2 음성음원, Noise_in은 상기 제2 소음음원을 나타냄)
위 수학식을 이용하여 상기 제1 신호대잡음비를 산출하는 단계를 포함하는 것을 특징으로 하는 음성인식 성능 평가 방법.
제 1항에 있어서, 상기 크기를 조정하는 단계는,
상기 제2 음성음원 및 상기 제2 소음음원 중 하나를 기준음원으로 설정하고 나머지 하나를 조정음원으로 설정하는 단계;
다음 수학식을 이용하여 조정값을 산출하는 단계;

(여기서, Amp'_sp는 상기 조정값, Amp_sp는 초기 조정값, SNR_adj는 상기 기준값과 상기 제1 신호대잡음비의 차이를 나타냄)
상기 조정값을 상기 조정음원에 대응하는 제1 음성음원 또는 제1 소음음원에 적용하여 상기 제1 신호대잡음비를 상기 기준값으로 조정하는 단계;를 포함하는 것을 특징으로 하는 음성인식 성능 평가 방법.
제 1항에 있어서, 상기 음성인식 성능을 파악하는 단계는,
상기 크기가 조정된 제1 음성음원과 제1 소음음원을 마이크를 통해 동시에 입력받은 음성인식장치에서 생성된 음원을 수신하는 단계; 및
상기 수신한 음원을 음성신호구간과 소음신호구간으로 구분하고, 상기 음성신호구간과 소음신호구간을 기초로 제2 신호대잡음비를 산출하는 단계;를 포함하는 것을 특징으로 하는 음성인식 성능 평가 방법.
제 4항에 있어서, 상기 제2 신호대잡음비를 산출하는 단계는,
VAD(Voice Activity Detection) 방법을 이용하여 상기 수신한 음원을 음성신호구간과 소음신호구간을 구분하는 단계; 및
다음 수학식을 이용하여 상기 음성신호구간과 소음신호구간의 신호 크기를 기초로 상기 제2 신호대잡음비를 산출하는 단계;를 포함하는 것을 특징으로 하는 음성인식 성능 평가 방법

(여기서, SNR_in은 상기 제2 신호대잡음비, Noise_in _{_} _sp는 음성신호구간의 신호 세기, Noise_in _{_} _ns는 소음신호구간의 신호 세기를 나타냄).
적어도 하나 이상의 음성음원과 적어도 하나 이상의 소음음원을 포함하는 데이터베이스;
상기 데이터베이스에 저장된 음성음원 및 소음음원을 출력하는 출력부;
음성인식장치의 마이크를 통해 입력된 상기 음성음원과 상기 소음음원을 각각 녹음한 제1 녹음파일과 제2 녹음파일을 기초로 신호대잡음비를 산출하는 신호분석부;
상기 신호대잡음비가 기 설정된 기준값이 되도록 상기 출력부를 통해 출력되는 음성음원 또는 소음음원의 크기를 조정하는 제어부; 및
상기 제어부에 의한 크기 조정 과정을 통해 상기 신호대잡음비가 상기 기준값이 되면, 상기 출력부를 통해 크기가 조정된 음성음원 및 소음음원을 동시에 입력받는 상기 음성인식장치의 음성인식 성능을 평가하는 성능평가부;를 포함하고,
상기 제어부는,
제1 음성음원 또는 제1 소음음원의 크기를 조정하여 순차적으로 출력하는 과정 및 크기가 조정된 제1 음성음원 및 제1 소음음원을 녹음한 제1 녹음파일과 제2 녹음파일을 상기 음성인식장치로부터 수신하여 상기 신호대잡음비를 산출하는 과정을, 상기 신호대잡음비가 상기 기준값이 될 때까지 반복수행하도록 제어하는 것을 특징으로 하는 음성인식 성능 평가 장치.
제 6항에 있어서, 상기 출력부는,
상기 음성음원을 출력하는 마우스 시뮬레이터; 및
상기 소음음원을 출력하는 스피커;를 포함하는 것을 특징으로 하는 음성인식 성능 평가 장치.
제 6항에 있어서, 상기 출력부는,
상기 신호대잡음비가 상기 기준값과 상이하면, 음성음원과 소음음원을 순차적으로 출력하고,
상기 신호대잡음비가 상기 기준값과 동일하면, 음성음원과 소음음원을 동시에 출력하는 것을 특징으로 하는 음성인식 성능 평가 장치.
제 6항에 있어서,
상기 음성인식장치를 포함한 외부 장치와 유무선으로 연결되는 인터페이스부; 및
상기 인터페이스부를 통해 상기 음성인식장치에게 제어신호를 출력하는 외부장치제어부;를 더 포함하는 것을 특징으로 하는 음성인식 성능 평가 장치.
제 9항에 있어서, 상기 외부장치제어부는,
상기 신호대잡음비가 상기 기준값과 상이하면, 상기 출력부를 통한 음성음원 및 소음음원의 출력에 대응하여 상기 음성인식장치에게 녹음 제어신호를 출력하고,
상기 신호대잡음비가 상기 기준값과 동일하면, 상기 출력부를 통한 음성음원 및 소음음원의 출력에 대응하여 상기 음성인식장치의 음성인식 제어신호를 출력하는 것을 특징으로 하는 음성인식 성능 평가 장치.
제 9항에 있어서,
상기 인터페이스부를 통해 상기 음성인식장치의 음성인식의 결과를 수신하거나, 외부 카메라로부터 상기 음성인식장치의 화면에 표시된 음성인식의 결과를 수신하고,
상기 성능평가부는, 상기 음성음원에 대한 상기 음성인식장치의 기 설정된 음성인식의 예측결과와 상기 인터페이스부를 통해 수신한 음성인식의 결과를 비교하여 성능을 평가하는 것을 특징으로 하는 음성인식 성능 평가 장치.
제 6항에 있어서, 상기 성능평가부는,
상기 음성인식장치의 마이크를 통해 동시에 입력되는 음성음원과 소음음원을 포함하는 음원을 음성신호구간과 소음신호구간으로 구분하고, 상기 음성신호구간과 소음신호구간의 신호 크기를 기초로 제2 신호대잡음비를 산출하는 것을 특징으로 하는 음성인식 성능 평가 장치.
제 1항 내지 제 5항 중 어느 한 항에 기재된 방법을 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.