KR20090065746A - 음성 인식기의 성능 평가 장치 및 그 방법 - Google Patents

음성 인식기의 성능 평가 장치 및 그 방법 Download PDF

Info

Publication number
KR20090065746A
KR20090065746A KR1020070133217A KR20070133217A KR20090065746A KR 20090065746 A KR20090065746 A KR 20090065746A KR 1020070133217 A KR1020070133217 A KR 1020070133217A KR 20070133217 A KR20070133217 A KR 20070133217A KR 20090065746 A KR20090065746 A KR 20090065746A
Authority
KR
South Korea
Prior art keywords
speech
voice
evaluation
recognition
performance
Prior art date
Application number
KR1020070133217A
Other languages
English (en)
Other versions
KR100930039B1 (ko
Inventor
조훈영
이윤근
정호영
강병옥
강점자
김갑기
이성주
정훈
박전규
전형배
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070133217A priority Critical patent/KR100930039B1/ko
Priority to US12/336,208 priority patent/US8219396B2/en
Publication of KR20090065746A publication Critical patent/KR20090065746A/ko
Application granted granted Critical
Publication of KR100930039B1 publication Critical patent/KR100930039B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

본 발명은 음성 인식기의 성능 평가 장치 및 그 방법에 관한 것으로, 음성 인식기에 부착된 스피커와 마이크를 제어하여 잡음환경에 따라 미리 녹음된 음성파일을 재생함으로써 사람이 평가용 발성음 자료를 위해 직접 발성하거나 녹음할 필요가 없게 되고, 스피커 제어를 통해 발성음의 크기를 자유롭게 제어하여 SNR을 조절함으로써, 어떠한 잡음환경에서도 사람의 개입이 필요없이 음성 인식기의 성능을 자동 및 무인으로 평가할 수 있다.
평가, 발성음, 음성인식

Description

음성 인식기의 성능 평가 장치 및 그 방법{PERFORMANCE EVALUATING APPARATUS FOR SPEECH RECOGNIZER AND ITS METHOD}
본 발명은 사람의 직접적인 발성 대신 음성 인식기에 부착된 스피커와 마이크를 제어하여 사람의 발성이나 개입이 없이도 실제 다양한 잡음환경에서의 음성 인식기에 대한 성능을 자동으로 평가할 수 있도록 한 음성 인식기의 무인 자동 성능 평가 장치 및 그 방법에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산처리 음성인터페이스 기술개발].
주지된 바와 같이, 음성 인식 기술은 비교적 조용한 환경에서 음성을 인식할 때 수만 단어에 대해 현재 단어 인식률 95% 이상의 높은 인식 성능을 나타낸다.
그러나, 실제 사용환경에서는 여러 가지 형태의 다양한 잡음이 존재하여 성능 저하로 인식률(accuracy)이 급격히 저하되므로, 음성 인식 기술의 실용화를 위 해서는 어떠한 잡음환경에서도 높은 인식률을 얻을 수 있어야 한다.
잡음환경에서 음성 인식기의 인식 성능 향상을 위해서는 인식기가 실제로 사용되는 잡음환경에서의 인식 성능을 평가하고, 인식 성능의 저하요인을 분석하며, 잡음을 고려한 인식방법의 개선 등, 분석 결과에 따른 적절한 잡음처리기술을 개발하고 적용하는 노력이 요구된다.
다양한 잡음환경에서 음성 인식기의 성능을 정확히 평가하는 것은 음성 인식기의 성능 개선을 위한 첫 번째 단계로서 매우 중요하다.
음성 인식기의 평가를 위하여 종래에는 실제 음성 인식기가 사용되는 잡음환경에서 사람이 직접 발성한 사람의 발성음 자료를 수집하고, 이를 이용하여 평가용 발성음 데이터베이스(DataBase, 이하, DB 라함)를 구축한 후 오프라인으로 음성 인식기를 동작시켜 성능을 평가해 왔다.
즉, 종래에는 먼저 음성 인식기가 실제로 사용될 잡음환경에서 음성 인식기에 등록된 단어 중의 일부 또는 전체를 다수 번에 걸쳐 사람이 직접 발성하고 이를 녹음하여 잡음환경 평가용 발성파일을 생성하고, 각 발성파일에 해당하는 정답 텍스트를 기록하여 최종적인 평가 세트를 구성한다.
전체의 평가 세트를
Figure 112007090988151-PAT00001
라고 표현하고, 여기서 ti와 yi는 각각 i 번째 평가용 발성파일과 이에 해당하는 정답 텍스트(예컨대, 단어, 단어열 또는 문장)라고 할 경우, 기존의 음성인식 평가 방법은 ti를 음성 인식기에 통과시켜 인식 결과로서 출력 텍스트 oi를 얻고, 모든 i에 대해서 oi와 정답 텍스트 yi를 비교하여 인식률을 계산함으로써 성능을 평가하게 되는 것이다.
그러나, 상기 종래 기술에서와 같이, 잡음환경(예컨대, 주행 중인 자동차 내부, 전시회장 등)이 바뀜에 따라 매번 평가용 발성음 DB를 구축해야 하며, 이를 위해 매번 평가를 위한 발성음 자료를 수집할 때마다 다수의 사람이 직접 발성을 해야 하므로 많은 비용이 소모된다.
또한, 사람이 직접 발성하는 경우 발성음의 크기를 정확히 제어할 수 없으며, 하나의 특정 잡음환경에서도 시간에 따라 잡음 특성이 많이 변하게 되는 경우(예를 들면, 전시회장), 이러한 모든 잡음조건에 대해 평가용 발성음 자료를 수집하기가 불가능하다는 문제점이 있다.
이에, 본 발명의 기술적 과제는 상술한 문제점을 해결하기 위해 안출한 것으로서, 사람이 평가용 발성음 자료를 위해 직접 발성하거나 녹음할 필요가 없이 잡음환경에 따라 미리 음성파일을 녹음하고, 이 녹음된 음성파일을 재생하여 음성 인식기의 성능을 평가할 수 있고, 스피커 제어를 통해 발성음의 크기를 자유롭게 제어하여 신호 대 잡음비(Signal-to-Noise Ratio, 이하, SNR이라 함)를 조절하여 어떠한 잡음환경에서도 사람의 개입이 필요없이 음성 인식기의 성능을 자동 및 무인으로 평가할 수 있는 음성 인식기의 성능 평가 장치 및 그 방법을 제공한다.
본 발명의 일 관점에 따른 음성 인식기의 성능 평가 장치는, 평가용 발성음 을 저장하는 평가용 발성음 DB와, 저장된 평가용 발성음을 재생하도록 제어하고, 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가자료에 대한 음성인식 제어가 완료되면, 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 음성인식 무인 평가부와, 재생되는 발성음 신호와 음향공간상에 존재하는 잡음이 더해진 잡음음성신호에 대한 음성인식을 수행하고, 음성인식 결과 목록 및 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 음성 인식기와, 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 음성 인식기의 성능을 평가하는 성능평가블록을 포함하는 것을 특징으로 한다.
본 발명의 다른 관점에 따른 음성 인식기의 성능 평가 방법은, 평가용 발성음을 저장하는 단계와, 저장된 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가 자료에 대한 음성인식 제어가 완료되면, 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 단계와, 저장된 평가용 발성음을 재생하여 잡음신호와 합쳐진 잡음음성신호를 출력하는 단계와, 출력되는 잡음음성신호에 대한 음성인식을 수행하는 단계와, 수행된 음성인식 결과 목록 및 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 단계와, 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 음성 인식기의 성능을 평가하는 단계를 포함하는 것을 특징으로 한다.
본 발명은 음성 인식기에 부착된 스피커와 마이크를 제어하여 미리 녹음된 음성파일을 평가하고자 하는 임의의 잡음환경에서 재생함으로써 사람이 평가용 발성음 자료를 위해 직접 발성하거나 녹음할 필요가 없게 되고, 스피커 제어를 통해 발성음의 크기를 자유롭게 제어하여 SNR을 조절함으로써, 어떠한 잡음환경에서도 사람의 개입이 필요없이 음성 인식기의 성능을 자동 및 무인으로 평가할 수 있게 되는 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 음성 인식기의 성능 평가 장치 및 그 방법을 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 음성 인식기의 무인 성능 평가 장치를 위한 블록 구성도로서, 음성인식 평가부(2)가 평가용 발성음 DB(1)에서 스피커(4)를 통해 발성음이 출력되도록 제어하고, 음성 인식기(3)를 동작시켜 마이크(5)를 통해 입력되는 주변 잡음과 함께 발성음을 인식하도록 함으로써 음성 인식기(3)의 성능을 평가하게 된다.
도 2는 본 발명의 바람직한 실시 예에 따른 음성 인식기의 성능 평가 장치에 대한 세부적인 블록 구성도로서, N개의 평가용 발성음의 오디오 신호 파일과 해당 신호 파일의 길이정보를 저장하고 있는 평가용 발성음 DB(201)와, 평가용 발성음 DB(201)로부터 해당 평가용 발성음의 오디오 신호 파일을 전송받아 사운드 재생장치 및 스피커(205)를 통해 재생하도록 제어하고, 음성 인식기(207)를 동작시켜 재생된 오디오 신호 파일과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 음성인식 무인 평가부(203)와, 음성인식 무인 평가부(203)로부터 전송되는 평가용 발성음의 오디오 신호 파일을 재생하여 음성 인식기(207)가 위치한 음향공간에 존재하는 잡음신호와 합쳐진 잡음음성신호를 음성인식기로 전달하는 사운드 재생장치 및 스피커(205)와, 음성인식 무인 평가부(203)에 의해 동작되어 사운드 재생장치 및 스피커(205)로부터 출력되는 음성신호에 대한 음성인식을 수행하고, 그 음성인식 결과 목록 및 인식에 실제로 사용된 음성 신호 파일을 저장하는 음성 인식기(207)와, 음성인식 무인 평가부(203)로부터 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송받아 음성 인식기(207)로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일과 비교하여 음성 인식기(207)의 성능을 평가하는 성능평가블록(209)으로 구성된다.
여기서, 음성 인식기(207)는 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지와 해당 신호파일의 길이정보를 전송받은 경우, 길이정보를 사용하지 않 고 음성 인식기(207) 자체의 음성검출기능을 이용하여 사운드 재생장치 및 스피커(205)에서 출력되는 음성신호에 대한 음성인식을 수행하거나, 길이정보를 사용하여 그 길이정보 만큼 해당하는 오디오 신호 파일 구간에서만 사운드 재생장치 및 스피커(205)에서 출력되는 음성신호에 대한 음성인식을 수행하는 음성인식 수행부(207)와, 음성인식 수행부(207)의 음성인식 수행 완료에 따라 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성 신호 파일을 저장하는 저장부(207b)로 구성된다.
그리고, 성능평가블록(209)은 음성인식 무인 평가부(203)로부터 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송받아 음성 인식기(207)로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일과 비교하여 인식률을 백분율(%)로 표시하는 음성 인식기 성능 계산부(209a)와, 음성 인식기(207)가 음성 검출을 포함하여 음성음식을 수행한 경우, 음성인식 무인 평가부(203)로부터 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송받아 음성 인식기(207)로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일과 비교하여 교차상관계수를 계산하고, 이 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산하여 백분율(%)로 표시하는 음성 검출 성능 계산부(209b)로 구성된다.
다음에, 상술한 바와 같은 구성을 갖는 본 실시예에서 음성 인식기의 성능 평가 과정에 대하여 설명한다.
도 3은 본 발명의 바람직한 실시예에 따른 음성 인식기의 성능 평가 방법을 순차적으로 도시한 흐름도이다.
음성인식 무인 평가부(203)는 평가용 발성음 DB(201)에 저장된 전체 N개의 평가용 발성음의 오디오 신호 파일들에 대해 다음의 과정을 순차적으로 수행하게 된다.
즉, 음성인식 무인 평가부(203)가 평가용 발성음 DB(201)로 전체 N개 중에서 k번째 평가 자료의 정보를 전송할 것을 요청하면(S301), 평가용 발성음 DB(201)는 k번째 평가용 발성음의 오디오 신호 파일(X(k))과 해당 신호 파일의 길이정보(Duration(k))를 음성인식 무인 평가부(203)로 전송(S303)한다.
이어, 음성인식 무인 평가부(203)는 k번째 평가용 발성음의 오디오 신호 파일(X(k))과 이 신호 파일의 볼륨 정보(볼륨(k))를 사운드 재생장치 및 스피커(205)에 전송(S305)하고 더불어 k번째 평가용 발성음의 오디오 신호 파일의 길이정보(Duration(k)) 및 인식 시작 명령 메시지를 음성 인식기(207)에도 전송(S307)한다.
그러면, 사운드 재생장치 및 스피커(205)는 사운드 카드를 통해 음성인식 무인 평가부(203)로부터 전송받은 오디오 신호 파일(X(k))을 즉시 재생하여 음성신호를 음성 인식기(207)가 놓인 음향공간(acoustic environment)에 전달한다.
이때, 음향공간에 존재하는 잡음신호(N(k))가 원래 오디오 신호 파일(X(k))에 합쳐져 하나의 잡음음성신호(Y(k))로서 음성 인식기(207)에 부착된 마이크(도시되지 않음)를 통해 음성 인식기(207)에 입력되게 된다.
이후, 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지를 전송받은 음성 인식기(207)는 사운드 재생장치 및 스피커(205)에서 출력되는 음성신호(X(k)) 에 대한 음성인식을 수행한다.
한편, 일반적인 음성 인식기(207)의 전처리 단계에는 음성검출 또는 끝점검출(End-Point Detection, 이하, EPD라 함) 기능이 포함되어 있어, 지속적으로 들어오는 음성신호에서 음성이 포함된 부분의 시작점에서 끝점까지의 신호를 음성 인식기의 입력으로 전달하게 되어 있다.
이러한 음성검출의 성능은 음성인식결과에 큰 영향을 미치므로 잡음환경에서 음성 인식기의 성능을 분석함에 있어 인식성능의 저하가 음성검출의 오류 때문인지, 아니면 인식 알고리즘 자체의 영향인지를 분석하기 위해서는 이 두 가지의 성능을 분리시킬 필요성이 있다.
따라서, 본 발명에서는 음성 인식기(207)가 음성검출을 포함하여 음성인식을 수행하는 경우와 음성검출을 포함시키지 않고 배제하여 음성인식을 수행하는 경우로 구분하여 각각 음성 인식기(207)의 성능과 음성검출의 성능을 각각 계산하고 있다.
음성 인식기(207)가 음성검출을 포함하여 음성인식을 수행하는 경우(S309), 음성 인식기(207)내 음성인식 수행부(207a)는 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지와 오디오 신호 파일의 길이정보(Duration(k))를 전송받으면, 사운드 재생장치 및 스피커(205)로부터 출력되고 음향공간에서 잡음 N(k)가 더해진 잡음음성신호(Y(k))에 대한 음성인식을 즉시 수행하고, 그 음성인식결과를 저장부(207b)에 저장(S311)한다.
즉, 길이정보를 사용하지 않고, 음성 인식기(207) 자체의 음성검출기능을 이 용하여 음성 인식을 수행하고, 음성인식 수행 완료 후 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성신호(Z(k))를 저장부(207b)에 저장하게 된다.
그리고, 음성 인식기(207)가 음성검출을 배제하여 음성인식을 수행하는 경우(S313)에도, 음성 인식기(207)내 음성인식 수행부(207a)는 음성인식 무인 평가부(203)로부터 인식 시작 명령 메시지와 오디오 신호 파일의 길이정보(Duration(k))를 전송받으면 사운드 재생장치 및 스피커(205)로부터 출력되고 음향공간에서 잡음 N(k)가 더해진 잡음음성신호(Y(k))에 대한 음성인식을 즉시 수행하고, 그 음성인식결과를 저장부(207b)에 저장(S315)한다.
그러나, 이 경우에는 길이정보(Duration(k))를 사용하여 그 길이 만큼에 해당하는 오디오 신호 파일 구간에서만 음성 인식을 수행하고, 음성인식 수행 완료 후 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성신호(Z(k))를 저장부(207b)에 저장하게 된다.
상기와 같이 k번째 평가자료에 대한 음성인식을 수행한 음성 인식기(207)는 음성인식 무인 평가부(203)로 인식 완료 메시지를 전송(S317)한다.
상기와 같은 동작을 반복하여 전체 N개의 평가 자료에 대한 음성인식이 완료되면, 음성인식 무인 평가부(203)는 성능평가블록(209)으로 평가 종료를 통보하고, N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일(X(1), X(2), …, X(N))을 전송한다.
그러면, 성능평가블록(209)내 음성인식기 성능 계산부(209a)는 음성 인식기(207)내 저장부(207b)에 저장된 음성인식 결과 목록 및 음성신호(Z(1), Z(2), …, Z(N))를 전달(S321)받아 음성인식 무인 평가부(203)로부터 전송되는 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일(X(1), X(2), …, X(N))(S319)과 비교하여 음성 인식기(207)의 인식률을 계산(S323)하여 백분율(%)로 표시한다.
그리고, 음성 인식기(207)가 음성 검출을 포함하여 음성인식을 수행한 경우라면, 성능평가블록(209)내 음성검출 성능 계산부(209b)는 음성 인식기(207)로부터 저장부(207b)에 저장된 음성인식 결과 목록 및 음성신호(Z(1), Z(2), …, Z(N))를 전달받아(S325) 음성인식 무인 평가부(203)로부터 전송되는 N개의 평가자료에 대한 정답 목록 및 오디오 신호 파일(X(1), X(2), …, X(N))(S327)과 비교하여 교차상관계수(cross-correlation)를 계산하고, 이 계산된 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산(S329)하여 백분율(%)로 표시한다.
즉, 두 신호 X(k)와 Z(k)를 각각 X(k)=x1, x2,...,xT1 및 Z(k)=z1, z2,...,zT2 라고 하면, 두 신호의 교차상관계수 R(τ)를 아래 수학식 1
Figure 112007090988151-PAT00002
과 같이 계산한다.
이때, 평가용 오디어 신호 X(k)가 음성 인식기(207)에서 실제로 사용된 음성신호 Z(k)에 포함되어 있을 경우, R(τ)는 매우 높은 값을 갖으며, 그 외의 경우에는 낮은 값을 갖게 된다.
따라서, R(τ)가 미리 정한 임계치보다 낮은 경우에는 음성검출 오류로 판단하고, 임계치 보다 높은 경우에는 음성검출이 잘 된 것으로 판단하므로, 전체 N개에 대해서 음성검출이 잘된 것의 개수의 비율을 백분율(%)로 계산하여 음성검출의 최종 성능을 표시하게 되는 것이다.
한편, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 음성 인식기의 무인 성능 평가 장치를 위한 블록 구성도,
도 2는 본 발명의 바람직한 실시 예에 따른 음성 인식기의 성능 평가 장치에 대한 세부적인 블록 구성도,
도 3은 본 발명의 바람직한 실시예에 따른 음성 인식기의 성능 평가 방법을 순차적으로 도시한 흐름도.
<도면의 주요부분에 대한 부호의 설명>
201 : 평가용 발성음 DB 203 : 음성인식 무인 평가부
205 : 사운드 재생장치 및 스피커 207 : 음성 인식기
207a : 음성인식 수행부 207b : 저장부
209 : 성능평가블록 209a : 음성 인식기 성능 계산부
209b : 음성 검출 성능 계산부

Claims (10)

  1. 평가용 발성음을 저장하는 평가용 발성음 DB와,
    상기 저장된 평가용 발성음을 재생하도록 제어하고, 상기 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가자료에 대한 음성인식 제어가 완료되면, 상기 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 음성인식 무인 평가부와,
    상기 재생되는 발성음 신호와 음향공간상에 존재하는 잡음이 더해진 잡음음성신호에 대한 음성인식을 수행하고, 상기 음성인식 결과 목록 및 상기 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 음성 인식기와,
    상기 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 상기 음성 인식기의 성능을 평가하는 성능평가블록
    을 포함하는 음성 인식기의 성능 평가 장치.
  2. 제 1 항에 있어서,
    상기 음성 인식기는,
    상기 음성인식을 수행하도록 하는 제어에 따라 음성검출기능을 이용하여 상기 출력되는 음성신호에 대한 음성인식을 수행하는 음성 인식 수행부와,
    상기 음성인식 수행부의 음성인식 수행 완료에 따라 발생되는 음성인식 결과 목록 및 인식에 실제로 사용된 음성 신호 파일을 저장하는 저장부
    를 포함하는 음성 인식기의 성능 평가 장치.
  3. 제 2 항에 있어서,
    상기 음성 인식 수행부는,
    상기 음성인식을 수행하도록 하는 제어에 따라 상기 평가용 발성음내 오디오 신호 파일의 길이정보를 사용하여 상기 길이정보에 해당하는 오디오 신호 파일 구간에서만 상기 출력되는 음성신호에 대한 음성인식을 수행하는 것을 특징으로 하는 음성 인식기의 성능 평가 장치.
  4. 제 1 항에 있어서,
    상기 성능평가블록은,
    상기 음성인식 무인 평가부로부터 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 음성 인식기로부터 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 인식률을 백분율(%)로 표시하는 음성 인식기 성능 계산부와,
    상기 음성인식 무인 평가부로부터 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과, 상기 음성 인식기가 음성 검출을 포함하여 음성음식을 수행한 경우 상기 수행되어 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 교차상관계수를 계산하고, 상기 계산된 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산하여 백분율(%)로 표시하는 음성 검출 성능 계산부
    를 포함하는 음성 인식기의 성능 평가 장치.
  5. 제 4 항에 있어서,
    상기 교차상관계수(R(τ))는,
    수학식
    Figure 112007090988151-PAT00003
    (여기서, 평가용 오디어 신호 X(k)=x1, x2,...,xT1 이고, 실제로 사용된 음성신호 Z(k)=z1, z2,...,zT2 라고 함.)
    에 의해 계산되는 것을 특징으로 하는 음성 인식기의 성능 평가 장치.
  6. 평가용 발성음을 저장하는 단계와,
    상기 저장된 평가용 발성음과 잡음신호가 합쳐진 잡음음성신호에 대한 음성인식을 수행하도록 제어하는 동작을 반복하여 N개의 평가 자료에 대한 음성인식 제 어가 완료되면, 상기 평가자료에 대한 정답 목록 및 오디오 신호 파일을 전송하는 단계와,
    상기 저장된 평가용 발성음을 재생하여 상기 잡음신호와 합쳐진 잡음음성신호를 출력하는 단계와,
    상기 출력되는 잡음음성신호에 대한 음성인식을 수행하는 단계와,
    상기 수행된 음성인식 결과 목록 및 상기 음성인식에 실제로 사용된 음성 신호 파일을 저장하는 단계와,
    상기 전송받은 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 저장된 음성인식 결과 목록 및 음성 신호 파일과 비교하여 상기 음성 인식기의 성능을 평가하는 단계
    를 포함하는 음성 인식기의 성능 평가 방법.
  7. 제 6 항에 있어서,
    상기 음성인식을 수행하는 단계는,
    상기 음성인식을 수행하도록 하는 제어에 따라 음성검출기능을 이용하여 상기 출력되는 잡음음성신호에 대한 음성인식을 수행하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.
  8. 제 6 항에 있어서,
    상기 음성인식을 수행하는 단계는,
    상기 음성인식을 수행하도록 하는 제어에 따라 상기 평가용 발성음내 오디오 신호 파일의 길이정보를 사용하여 상기 길이정보에 해당하는 오디오 신호 파일 구간에서만 상기 출력되는 잡음음성신호에 대한 음성인식을 수행하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.
  9. 제 6 항에 있어서,
    상기 성능을 평가하는 단계는,
    상기 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과 상기 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 인식률을 백분율(%)로 표시하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.
  10. 제 6 항에 있어서,
    상기 성능을 평가하는 단계는,
    상기 전송되는 평가자료에 대한 정답 목록 및 오디오 신호 파일과, 상기 음성 인식기가 음성 검출을 포함하여 음성음식을 수행한 경우 상기 수행되어 전송되는 음성인식 결과 목록 및 음성 신호 파일을 비교하여 교차상관계수를 계산하고, 상기 계산된 교차상관계수와 임계치의 비교를 통해 음성검출의 성능을 계산하여 백분율(%)로 표시하는 것을 특징으로 하는 음성 인식기의 성능 평가 방법.
KR1020070133217A 2007-12-18 2007-12-18 음성 인식기의 성능 평가 장치 및 그 방법 KR100930039B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070133217A KR100930039B1 (ko) 2007-12-18 2007-12-18 음성 인식기의 성능 평가 장치 및 그 방법
US12/336,208 US8219396B2 (en) 2007-12-18 2008-12-16 Apparatus and method for evaluating performance of speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070133217A KR100930039B1 (ko) 2007-12-18 2007-12-18 음성 인식기의 성능 평가 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20090065746A true KR20090065746A (ko) 2009-06-23
KR100930039B1 KR100930039B1 (ko) 2009-12-07

Family

ID=40754409

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070133217A KR100930039B1 (ko) 2007-12-18 2007-12-18 음성 인식기의 성능 평가 장치 및 그 방법

Country Status (2)

Country Link
US (1) US8219396B2 (ko)
KR (1) KR100930039B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145401B1 (ko) * 2009-12-02 2012-05-16 한국생산기술연구원 로봇의 음성인식 성능 평가장치 및 평가 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI387150B (zh) * 2007-09-06 2013-02-21 Canon Kk Lithium ion accumulation. Release material manufacturing method, lithium ion accumulation. A release material, and an electrode structure and a power storage device using the same
JP2012163692A (ja) * 2011-02-04 2012-08-30 Nec Corp 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
CN103971696A (zh) * 2013-01-30 2014-08-06 华为终端有限公司 语音处理方法、装置及终端设备
CN104517606A (zh) * 2013-09-30 2015-04-15 腾讯科技(深圳)有限公司 语音识别测试方法及装置
CN103745731B (zh) * 2013-12-31 2016-10-19 科大讯飞股份有限公司 一种语音识别效果自动化测试系统及测试方法
KR102265931B1 (ko) 2014-08-12 2021-06-16 삼성전자주식회사 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말
CN112397052A (zh) * 2020-11-19 2021-02-23 康键信息技术(深圳)有限公司 Vad断句测试方法、装置、计算机设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
JP3984207B2 (ja) * 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8417185B2 (en) * 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145401B1 (ko) * 2009-12-02 2012-05-16 한국생산기술연구원 로봇의 음성인식 성능 평가장치 및 평가 방법

Also Published As

Publication number Publication date
KR100930039B1 (ko) 2009-12-07
US8219396B2 (en) 2012-07-10
US20090157399A1 (en) 2009-06-18

Similar Documents

Publication Publication Date Title
KR100930039B1 (ko) 음성 인식기의 성능 평가 장치 및 그 방법
US11004461B2 (en) Real-time vocal features extraction for automated emotional or mental state assessment
US10419613B2 (en) Communication session assessment
CN110709924B (zh) 视听语音分离
KR101991733B1 (ko) 음성 전사를 위한 시스템 및 방법
CN107409061B (zh) 用于语音总结的方法和系统
US10334384B2 (en) Scheduling playback of audio in a virtual acoustic space
JP6078964B2 (ja) 音声対話システム及びプログラム
CN107112026A (zh) 用于智能语音识别和处理的系统、方法和装置
CN110970036B (zh) 声纹识别方法及装置、计算机存储介质、电子设备
Arons Interactively skimming recorded speech
WO2019031268A1 (ja) 情報処理装置、及び情報処理方法
JP2023507889A (ja) オーディオ相互作用における感情検出
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
US7308407B2 (en) Method and system for generating natural sounding concatenative synthetic speech
US20230315983A1 (en) Computer method and system for parsing human dialouge
EP3499500B1 (en) Device including a digital assistant for personalized speech playback and method of using same
WO2019208193A1 (ja) 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
CN112837688B (zh) 语音转写方法、装置、相关系统及设备
KR20220140301A (ko) 인공지능을 통해 학습자 식별이 가능한 화상 학습 시스템 및 그 방법
Beça et al. Evaluating the performance of ASR systems for TV interactions in several domestic noise scenarios
CN110289010B (zh) 一种声音采集的方法、装置、设备和计算机存储介质
Tsuchiya et al. Developing Corpus of Japanese Classroom Lecture Speech Contents.
Mital Speech enhancement for automatic analysis of child-centered audio recordings

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee