KR20090065746A

KR20090065746A - 음성 인식기의 성능 평가 장치 및 그 방법

Info

Publication number: KR20090065746A
Application number: KR1020070133217A
Authority: KR
Inventors: 조훈영; 이윤근; 정호영; 강병옥; 강점자; 김갑기; 이성주; 정훈; 박전규; 전형배
Original assignee: 한국전자통신연구원
Priority date: 2007-12-18
Filing date: 2007-12-18
Publication date: 2009-06-23
Also published as: KR100930039B1; US8219396B2; US20090157399A1

Abstract

본 발명은 음성 인식기의 성능 평가 장치 및 그 방법에 관한 것으로, 음성 인식기에 부착된 스피커와 마이크를 제어하여 잡음환경에 따라 미리 녹음된 음성파일을 재생함으로써 사람이 평가용 발성음 자료를 위해 직접 발성하거나 녹음할 필요가 없게 되고, 스피커 제어를 통해 발성음의 크기를 자유롭게 제어하여 SNR을 조절함으로써, 어떠한 잡음환경에서도 사람의 개입이 필요없이 음성 인식기의 성능을 자동 및 무인으로 평가할 수 있다.

평가, 발성음, 음성인식

Description

음성 인식기의 성능 평가 장치 및 그 방법{PERFORMANCE EVALUATING APPARATUS FOR SPEECH RECOGNIZER AND ITS METHOD}

본 발명은 사람의 직접적인 발성 대신 음성 인식기에 부착된 스피커와 마이크를 제어하여 사람의 발성이나 개입이 없이도 실제 다양한 잡음환경에서의 음성 인식기에 대한 성능을 자동으로 평가할 수 있도록 한 음성 인식기의 무인 자동 성능 평가 장치 및 그 방법에 관한 것이다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산처리 음성인터페이스 기술개발].

주지된 바와 같이, 음성 인식 기술은 비교적 조용한 환경에서 음성을 인식할 때 수만 단어에 대해 현재 단어 인식률 95% 이상의 높은 인식 성능을 나타낸다.

그러나, 실제 사용환경에서는 여러 가지 형태의 다양한 잡음이 존재하여 성능 저하로 인식률(accuracy)이 급격히 저하되므로, 음성 인식 기술의 실용화를 위 해서는 어떠한 잡음환경에서도 높은 인식률을 얻을 수 있어야 한다.

잡음환경에서 음성 인식기의 인식 성능 향상을 위해서는 인식기가 실제로 사용되는 잡음환경에서의 인식 성능을 평가하고, 인식 성능의 저하요인을 분석하며, 잡음을 고려한 인식방법의 개선 등, 분석 결과에 따른 적절한 잡음처리기술을 개발하고 적용하는 노력이 요구된다.

다양한 잡음환경에서 음성 인식기의 성능을 정확히 평가하는 것은 음성 인식기의 성능 개선을 위한 첫 번째 단계로서 매우 중요하다.

음성 인식기의 평가를 위하여 종래에는 실제 음성 인식기가 사용되는 잡음환경에서 사람이 직접 발성한 사람의 발성음 자료를 수집하고, 이를 이용하여 평가용 발성음 데이터베이스(DataBase, 이하, DB 라함)를 구축한 후 오프라인으로 음성 인식기를 동작시켜 성능을 평가해 왔다.

즉, 종래에는 먼저 음성 인식기가 실제로 사용될 잡음환경에서 음성 인식기에 등록된 단어 중의 일부 또는 전체를 다수 번에 걸쳐 사람이 직접 발성하고 이를 녹음하여 잡음환경 평가용 발성파일을 생성하고, 각 발성파일에 해당하는 정답 텍스트를 기록하여 최종적인 평가 세트를 구성한다.

전체의 평가 세트를

라고 표현하고, 여기서 t_i와 y_i는 각각 i 번째 평가용 발성파일과 이에 해당하는 정답 텍스트(예컨대, 단어, 단어열 또는 문장)라고 할 경우, 기존의 음성인식 평가 방법은 t_i를 음성 인식기에 통과시켜 인식 결과로서 출력 텍스트 o_i를 얻고, 모든 i에 대해서 o_i와 정답 텍스트 y_i를 비교하여 인식률을 계산함으로써 성능을 평가하게 되는 것이다.

그러나, 상기 종래 기술에서와 같이, 잡음환경(예컨대, 주행 중인 자동차 내부, 전시회장 등)이 바뀜에 따라 매번 평가용 발성음 DB를 구축해야 하며, 이를 위해 매번 평가를 위한 발성음 자료를 수집할 때마다 다수의 사람이 직접 발성을 해야 하므로 많은 비용이 소모된다.

또한, 사람이 직접 발성하는 경우 발성음의 크기를 정확히 제어할 수 없으며, 하나의 특정 잡음환경에서도 시간에 따라 잡음 특성이 많이 변하게 되는 경우(예를 들면, 전시회장), 이러한 모든 잡음조건에 대해 평가용 발성음 자료를 수집하기가 불가능하다는 문제점이 있다.

이에, 본 발명의 기술적 과제는 상술한 문제점을 해결하기 위해 안출한 것으로서, 사람이 평가용 발성음 자료를 위해 직접 발성하거나 녹음할 필요가 없이 잡음환경에 따라 미리 음성파일을 녹음하고, 이 녹음된 음성파일을 재생하여 음성 인식기의 성능을 평가할 수 있고, 스피커 제어를 통해 발성음의 크기를 자유롭게 제어하여 신호 대 잡음비(Signal-to-Noise Ratio, 이하, SNR이라 함)를 조절하여 어떠한 잡음환경에서도 사람의 개입이 필요없이 음성 인식기의 성능을 자동 및 무인으로 평가할 수 있는 음성 인식기의 성능 평가 장치 및 그 방법을 제공한다.

본 발명의 일 관점에 따른 음성 인식기의 성능 평가 장치는, 평가용 발성음 을 저장하는 평가용 발성음 DB와, 저장된 평가용 발성음을 재생하도록 제어하고, 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가자료에 대한 음성인식 제어가 완료되면, 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 음성인식 무인 평가부와, 재생되는 발성음 신호와 음향공간상에 존재하는 잡음이 더해진 잡음음성신호에 대한 음성인식을 수행하고, 음성인식 결과 목록 및 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 음성 인식기와, 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 음성 인식기의 성능을 평가하는 성능평가블록을 포함하는 것을 특징으로 한다.

본 발명의 다른 관점에 따른 음성 인식기의 성능 평가 방법은, 평가용 발성음을 저장하는 단계와, 저장된 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가 자료에 대한 음성인식 제어가 완료되면, 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 단계와, 저장된 평가용 발성음을 재생하여 잡음신호와 합쳐진 잡음음성신호를 출력하는 단계와, 출력되는 잡음음성신호에 대한 음성인식을 수행하는 단계와, 수행된 음성인식 결과 목록 및 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 단계와, 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 음성 인식기의 성능을 평가하는 단계를 포함하는 것을 특징으로 한다.

본 발명은 음성 인식기에 부착된 스피커와 마이크를 제어하여 미리 녹음된 음성파일을 평가하고자 하는 임의의 잡음환경에서 재생함으로써 사람이 평가용 발성음 자료를 위해 직접 발성하거나 녹음할 필요가 없게 되고, 스피커 제어를 통해 발성음의 크기를 자유롭게 제어하여 SNR을 조절함으로써, 어떠한 잡음환경에서도 사람의 개입이 필요없이 음성 인식기의 성능을 자동 및 무인으로 평가할 수 있게 되는 효과가 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 음성 인식기의 성능 평가 장치 및 그 방법을 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 음성 인식기의 무인 성능 평가 장치를 위한 블록 구성도로서, 음성인식 평가부(2)가 평가용 발성음 DB(1)에서 스피커(4)를 통해 발성음이 출력되도록 제어하고, 음성 인식기(3)를 동작시켜 마이크(5)를 통해 입력되는 주변 잡음과 함께 발성음을 인식하도록 함으로써 음성 인식기(3)의 성능을 평가하게 된다.

도 2는 본 발명의 바람직한 실시 예에 따른 음성 인식기의 성능 평가 장치에 대한 세부적인 블록 구성도로서, N개의 평가용 발성음의 오디오 신호 파일과 해당 신호 파일의 길이정보를 저장하고 있는 평가용 발성음 DB(201)와, 평가용 발성음 DB(201)로부터 해당 평가용 발성음의 오디오 신호 파일을 전송받아 사운드 재생장치 및 스피커(205)를 통해 재생하도록 제어하고, 음성 인식기(207)를 동작시켜 재생된 오디오 신호 파일과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 음성인식 무인 평가부(203)와, 음성인식 무인 평가부(203)로부터 전송되는 평가용 발성음의 오디오 신호 파일을 재생하여 음성 인식기(207)가 위치한 음향공간에 존재하는 잡음신호와 합쳐진 잡음음성신호를 음성인식기로 전달하는 사운드 재생장치 및 스피커(205)와, 음성인식 무인 평가부(203)에 의해 동작되어 사운드 재생장치 및 스피커(205)로부터 출력되는 음성신호에 대한 음성인식을 수행하고, 그 음성인식 결과 목록 및 인식에 실제로 사용된 음성 신호 파일을 저장하는 음성 인식기(207)와, 음성인식 무인 평가부(203)로부터 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송받아 음성 인식기(207)로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일과 비교하여 음성 인식기(207)의 성능을 평가하는 성능평가블록(209)으로 구성된다.

여기서, 음성 인식기(207)는 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지와 해당 신호파일의 길이정보를 전송받은 경우, 길이정보를 사용하지 않 고 음성 인식기(207) 자체의 음성검출기능을 이용하여 사운드 재생장치 및 스피커(205)에서 출력되는 음성신호에 대한 음성인식을 수행하거나, 길이정보를 사용하여 그 길이정보 만큼 해당하는 오디오 신호 파일 구간에서만 사운드 재생장치 및 스피커(205)에서 출력되는 음성신호에 대한 음성인식을 수행하는 음성인식 수행부(207)와, 음성인식 수행부(207)의 음성인식 수행 완료에 따라 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성 신호 파일을 저장하는 저장부(207b)로 구성된다.

그리고, 성능평가블록(209)은 음성인식 무인 평가부(203)로부터 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송받아 음성 인식기(207)로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일과 비교하여 인식률을 백분율(%)로 표시하는 음성 인식기 성능 계산부(209a)와, 음성 인식기(207)가 음성 검출을 포함하여 음성음식을 수행한 경우, 음성인식 무인 평가부(203)로부터 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송받아 음성 인식기(207)로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일과 비교하여 교차상관계수를 계산하고, 이 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산하여 백분율(%)로 표시하는 음성 검출 성능 계산부(209b)로 구성된다.

다음에, 상술한 바와 같은 구성을 갖는 본 실시예에서 음성 인식기의 성능 평가 과정에 대하여 설명한다.

도 3은 본 발명의 바람직한 실시예에 따른 음성 인식기의 성능 평가 방법을 순차적으로 도시한 흐름도이다.

음성인식 무인 평가부(203)는 평가용 발성음 DB(201)에 저장된 전체 N개의 평가용 발성음의 오디오 신호 파일들에 대해 다음의 과정을 순차적으로 수행하게 된다.

즉, 음성인식 무인 평가부(203)가 평가용 발성음 DB(201)로 전체 N개 중에서 k번째 평가 자료의 정보를 전송할 것을 요청하면(S301), 평가용 발성음 DB(201)는 k번째 평가용 발성음의 오디오 신호 파일(X(k))과 해당 신호 파일의 길이정보(Duration(k))를 음성인식 무인 평가부(203)로 전송(S303)한다.

이어, 음성인식 무인 평가부(203)는 k번째 평가용 발성음의 오디오 신호 파일(X(k))과 이 신호 파일의 볼륨 정보(볼륨(k))를 사운드 재생장치 및 스피커(205)에 전송(S305)하고 더불어 k번째 평가용 발성음의 오디오 신호 파일의 길이정보(Duration(k)) 및 인식 시작 명령 메시지를 음성 인식기(207)에도 전송(S307)한다.

그러면, 사운드 재생장치 및 스피커(205)는 사운드 카드를 통해 음성인식 무인 평가부(203)로부터 전송받은 오디오 신호 파일(X(k))을 즉시 재생하여 음성신호를 음성 인식기(207)가 놓인 음향공간(acoustic environment)에 전달한다.

이때, 음향공간에 존재하는 잡음신호(N(k))가 원래 오디오 신호 파일(X(k))에 합쳐져 하나의 잡음음성신호(Y(k))로서 음성 인식기(207)에 부착된 마이크(도시되지 않음)를 통해 음성 인식기(207)에 입력되게 된다.

이후, 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지를 전송받은 음성 인식기(207)는 사운드 재생장치 및 스피커(205)에서 출력되는 음성신호(X(k)) 에 대한 음성인식을 수행한다.

한편, 일반적인 음성 인식기(207)의 전처리 단계에는 음성검출 또는 끝점검출(End-Point Detection, 이하, EPD라 함) 기능이 포함되어 있어, 지속적으로 들어오는 음성신호에서 음성이 포함된 부분의 시작점에서 끝점까지의 신호를 음성 인식기의 입력으로 전달하게 되어 있다.

이러한 음성검출의 성능은 음성인식결과에 큰 영향을 미치므로 잡음환경에서 음성 인식기의 성능을 분석함에 있어 인식성능의 저하가 음성검출의 오류 때문인지, 아니면 인식 알고리즘 자체의 영향인지를 분석하기 위해서는 이 두 가지의 성능을 분리시킬 필요성이 있다.

따라서, 본 발명에서는 음성 인식기(207)가 음성검출을 포함하여 음성인식을 수행하는 경우와 음성검출을 포함시키지 않고 배제하여 음성인식을 수행하는 경우로 구분하여 각각 음성 인식기(207)의 성능과 음성검출의 성능을 각각 계산하고 있다.

음성 인식기(207)가 음성검출을 포함하여 음성인식을 수행하는 경우(S309), 음성 인식기(207)내 음성인식 수행부(207a)는 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지와 오디오 신호 파일의 길이정보(Duration(k))를 전송받으면, 사운드 재생장치 및 스피커(205)로부터 출력되고 음향공간에서 잡음 N(k)가 더해진 잡음음성신호(Y(k))에 대한 음성인식을 즉시 수행하고, 그 음성인식결과를 저장부(207b)에 저장(S311)한다.

즉, 길이정보를 사용하지 않고, 음성 인식기(207) 자체의 음성검출기능을 이 용하여 음성 인식을 수행하고, 음성인식 수행 완료 후 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성신호(Z(k))를 저장부(207b)에 저장하게 된다.

그리고, 음성 인식기(207)가 음성검출을 배제하여 음성인식을 수행하는 경우(S313)에도, 음성 인식기(207)내 음성인식 수행부(207a)는 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지와 오디오 신호 파일의 길이정보(Duration(k))를 전송받으면 사운드 재생장치 및 스피커(205)로부터 출력되고 음향공간에서 잡음 N(k)가 더해진 잡음음성신호(Y(k))에 대한 음성인식을 즉시 수행하고, 그 음성인식결과를 저장부(207b)에 저장(S315)한다.

그러나, 이 경우에는 길이정보(Duration(k))를 사용하여 그 길이 만큼에 해당하는 오디오 신호 파일 구간에서만 음성 인식을 수행하고, 음성인식 수행 완료 후 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성신호(Z(k))를 저장부(207b)에 저장하게 된다.

상기와 같이 k번째 평가자료에 대한 음성인식을 수행한 음성 인식기(207)는 음성인식 무인 평가부(203)로 인식 완료 메시지를 전송(S317)한다.

상기와 같은 동작을 반복하여 전체 N개의 평가 자료에 대한 음성인식이 완료되면, 음성인식 무인 평가부(203)는 성능평가블록(209)으로 평가 종료를 통보하고, N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일(X(1), X(2), …, X(N))을 전송한다.

그러면, 성능평가블록(209)내 음성인식기 성능 계산부(209a)는 음성 인식기(207)내 저장부(207b)에 저장된 음성인식 결과 목록 및 음성신호(Z(1), Z(2), …, Z(N))를 전달(S321)받아 음성인식 무인 평가부(203)로부터 전송되는 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일(X(1), X(2), …, X(N))(S319)과 비교하여 음성 인식기(207)의 인식률을 계산(S323)하여 백분율(%)로 표시한다.

그리고, 음성 인식기(207)가 음성 검출을 포함하여 음성인식을 수행한 경우라면, 성능평가블록(209)내 음성검출 성능 계산부(209b)는 음성 인식기(207)로부터 저장부(207b)에 저장된 음성인식 결과 목록 및 음성신호(Z(1), Z(2), …, Z(N))를 전달받아(S325) 음성인식 무인 평가부(203)로부터 전송되는 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일(X(1), X(2), …, X(N))(S327)과 비교하여 교차상관계수(cross-correlation)를 계산하고, 이 계산된 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산(S329)하여 백분율(%)로 표시한다.

즉, 두 신호 X(k)와 Z(k)를 각각 X(k)=x1, x2,...,x_T1 및 Z(k)=z1, z2,...,z_T2 라고 하면, 두 신호의 교차상관계수 R(τ)를 아래 수학식 1

과 같이 계산한다.

이때, 평가용 오디어 신호 X(k)가 음성 인식기(207)에서 실제로 사용된 음성신호 Z(k)에 포함되어 있을 경우, R(τ)는 매우 높은 값을 갖으며, 그 외의 경우에는 낮은 값을 갖게 된다.

따라서, R(τ)가 미리 정한 임계치보다 낮은 경우에는 음성검출 오류로 판단하고, 임계치 보다 높은 경우에는 음성검출이 잘 된 것으로 판단하므로, 전체 N개에 대해서 음성검출이 잘된 것의 개수의 비율을 백분율(%)로 계산하여 음성검출의 최종 성능을 표시하게 되는 것이다.

한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 음성 인식기의 무인 성능 평가 장치를 위한 블록 구성도,

도 2는 본 발명의 바람직한 실시 예에 따른 음성 인식기의 성능 평가 장치에 대한 세부적인 블록 구성도,

도 3은 본 발명의 바람직한 실시예에 따른 음성 인식기의 성능 평가 방법을 순차적으로 도시한 흐름도.

<도면의 주요부분에 대한 부호의 설명>

201 : 평가용 발성음 DB 203 : 음성인식 무인 평가부

205 : 사운드 재생장치 및 스피커 207 : 음성 인식기

207a : 음성인식 수행부 207b : 저장부

209 : 성능평가블록 209a : 음성 인식기 성능 계산부

209b : 음성 검출 성능 계산부

Claims

평가용 발성음을 저장하는 평가용 발성음 DB와,

상기 저장된 평가용 발성음을 재생하도록 제어하고, 상기 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가자료에 대한 음성인식 제어가 완료되면, 상기 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 음성인식 무인 평가부와,

상기 재생되는 발성음 신호와 음향공간상에 존재하는 잡음이 더해진 잡음음성신호에 대한 음성인식을 수행하고, 상기 음성인식 결과 목록 및 상기 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 음성 인식기와,

상기 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 상기 음성 인식기의 성능을 평가하는 성능평가블록

을 포함하는 음성 인식기의 성능 평가 장치.
제 1 항에 있어서,

상기 음성 인식기는,

상기 음성인식을 수행하도록 하는 제어에 따라 음성검출기능을 이용하여 상기 출력되는 음성신호에 대한 음성인식을 수행하는 음성 인식 수행부와,

상기 음성인식 수행부의 음성인식 수행 완료에 따라 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성 신호 파일을 저장하는 저장부

를 포함하는 음성 인식기의 성능 평가 장치.
제 2 항에 있어서,

상기 음성 인식 수행부는,

상기 음성인식을 수행하도록 하는 제어에 따라 상기 평가용 발성음내 오디오 신호 파일의 길이정보를 사용하여 상기 길이정보에 해당하는 오디오 신호 파일 구간에서만 상기 출력되는 음성신호에 대한 음성인식을 수행하는 것을 특징으로 하는 음성 인식기의 성능 평가 장치.
제 1 항에 있어서,

상기 성능평가블록은,

상기 음성인식 무인 평가부로부터 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 음성 인식기로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 인식률을 백분율(%)로 표시하는 음성 인식기 성능 계산부와,

상기 음성인식 무인 평가부로부터 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과, 상기 음성 인식기가 음성 검출을 포함하여 음성음식을 수행한 경우 상기 수행되어 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 교차상관계수를 계산하고, 상기 계산된 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산하여 백분율(%)로 표시하는 음성 검출 성능 계산부

를 포함하는 음성 인식기의 성능 평가 장치.
제 4 항에 있어서,

상기 교차상관계수(R(τ))는,

수학식

(여기서, 평가용 오디어 신호 X(k)=x1, x2,...,x_T1 이고, 실제로 사용된 음성신호 Z(k)=z1, z2,...,z_T2 라고 함.)

에 의해 계산되는 것을 특징으로 하는 음성 인식기의 성능 평가 장치.
평가용 발성음을 저장하는 단계와,

상기 저장된 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가 자료에 대한 음성인식 제 어가 완료되면, 상기 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 단계와,

상기 저장된 평가용 발성음을 재생하여 상기 잡음신호와 합쳐진 잡음음성신호를 출력하는 단계와,

상기 출력되는 잡음음성신호에 대한 음성인식을 수행하는 단계와,

상기 수행된 음성인식 결과 목록 및 상기 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 단계와,

상기 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 상기 음성 인식기의 성능을 평가하는 단계

를 포함하는 음성 인식기의 성능 평가 방법.
제 6 항에 있어서,

상기 음성인식을 수행하는 단계는,

상기 음성인식을 수행하도록 하는 제어에 따라 음성검출기능을 이용하여 상기 출력되는 잡음음성신호에 대한 음성인식을 수행하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.
제 6 항에 있어서,

상기 음성인식을 수행하는 단계는,

상기 음성인식을 수행하도록 하는 제어에 따라 상기 평가용 발성음내 오디오 신호 파일의 길이정보를 사용하여 상기 길이정보에 해당하는 오디오 신호 파일 구간에서만 상기 출력되는 잡음음성신호에 대한 음성인식을 수행하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.
제 6 항에 있어서,

상기 성능을 평가하는 단계는,

상기 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 인식률을 백분율(%)로 표시하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.
제 6 항에 있어서,

상기 성능을 평가하는 단계는,

상기 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과, 상기 음성 인식기가 음성 검출을 포함하여 음성음식을 수행한 경우 상기 수행되어 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 교차상관계수를 계산하고, 상기 계산된 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산하여 백분율(%)로 표시하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.