KR101145401B1

KR101145401B1 - 로봇의 음성인식 성능 평가장치 및 평가 방법

Info

Publication number: KR101145401B1
Application number: KR1020090118548A
Authority: KR
Inventors: 양광웅; 최무성; 신은철; 이호길; 김홍석
Original assignee: 한국생산기술연구원
Priority date: 2009-12-02
Filing date: 2009-12-02
Publication date: 2012-05-16
Also published as: KR20110061987A

Abstract

본 발명은 로봇의 성능을 평가하기 위한 장치 및 방법에 관한 것으로서, 보다 상세하게는 로봇의 음성인식 능력을 평가하기 위한 장치 및 방법에 관한 것이다. 이를 위해, 로봇의 음성 인식을 평가하기 위한 평가용 용어에 관한 데이터가 저장된 음성 데이터베이스부와, 로봇이 노출되는 환경 소음에 관한 데이터가 저장된 잡음 데이터베이스부와, 로봇의 음성 인식의 평가에 사용될 평가용 용어와 잡음을 선택하는 선택부와, 선택된 평가용 용어와 잡음을 상기 로봇에게 출력하는 출력부 및 출력된 평가용 용어에 대한 로봇의 인식 결과에 기초하여 로봇의 음성 인식 능력을 평가하는 평가부를 포함하는 로봇의 음성인식 성능 평가장치와 방법을 제공한다.

로봇, 음성, 인식, 소음, 명령

Description

로봇의 음성인식 성능 평가장치 및 평가 방법{Test equipment and method for speech recognition performance of Robot}

본 발명은 로봇의 성능을 평가하기 위한 장치 및 방법에 관한 것으로서, 보다 상세하게는 로봇의 음성인식 능력을 평가하기 위한 장치 및 방법에 관한 것이다.

휴먼 인터페이스의 핵심 요소로서 음성 인식 인터페이스는 사용자가 가장 용이하고 간편하게 접할 수 있는 매체이다. 그러므로, 지능형 로봇 기술 분야에서 사용자 인터페이스로서 음성 인식 기술은 필수적인 요소로 채택되고 있는 상황이다.

그러나, 지금까지 로봇에 탑재된 음성인식 모듈의 성능을 객관적으로 평가할 수 있는 장치가 없고, 음성 인식 모듈의 개발자나 이를 이용하는 사용자 사이에 음성 인식률에 대한 정확한 정의와 합의가 없는 실정이다.

이에 따라, 음성 인식 엔진 개발 업체의 주장에 따라 음성 인식률을 규정함으로써, 이들이 주장하는 음성 인식률과 실제 로봇의 사용시 사용자들이 체감하는 성능 사이에는 큰 차이가 있어 성능의 표시나 수치에 대한 신뢰성에 의문이 있는 것이 현실이다.

본 발명은 상기와 같은 문제를 해결하기 위하여 창출된 것으로서, 본 발명의 목적은 로봇의 음성 인식과 관련하여 음성 인식률을 정의하고, 음성 인식에 관한 객관적인 자료를 제시할 수 있는 평가장치 및 평가방법을 제공하는 것이다.

본 발명의 또 다른 목적은, 평가장치와 평가 대상이 되는 로봇 간에 네트워크 설비를 구축하여 평가 시작과 평가 결과를 송수신함으로써 음성 인식의 성능을 자동적으로 평가할 수 있는 장치와 방법을 제공하는 것이다.

상기와 같은 본 발명의 목적은, 로봇의 음성 인식을 평가하기 위한 평가용 용어에 관한 데이터가 저장된 음성 데이터베이스부와, 로봇이 노출되는 환경 소음에 관한 데이터가 저장된 잡음 데이터베이스부와, 로봇의 음성 인식의 평가에 사용될 평가용 용어와 잡음을 선택하는 선택부와, 선택된 평가용 용어와 잡음을 상기 로봇에게 출력하는 출력부 및 출력된 평가용 용어에 대한 로봇의 인식 결과에 기초하여 로봇의 음성 인식 능력을 평가하는 평가부를 포함하는 로봇의 음성인식 성능 평가장치에 의하여 달성 가능하다.

또한, 본 발명의 목적은, 미리 저장된 단일 명령어, 두단어 이상의 명령어, 질의 형태의 명령어, 잘못된 명령을 부정하는 거절어 중에서, 로봇의 음성인식 평가에 사용할 평가용 용어를 선택하는 단계와, 선택된 평가용 용어가 포함된 음성 신호를 로봇에게 출력하는 단계와, 출력된 음성 신호에 대하여 로봇이 인식한 음성 인식의 결과를 수신하는 단계 및 선택된 평가용 음원의 내용 및 수신한 음성 인식의 결과에 따라 로봇의 음성 인식률 또는 음성 거절률을 평가하는 단계를 포함하는 로봇의 음성인식 성능 평가방법에 의하여 달성가능하다.

상기와 같은 본 발명의 일실시예에 따르면, 본 발명은 데이터베이스에서 음성과 잡음을 무작위로 선택하여 재생함으로 평가시 사람이 직접 발성할 필요가 없고, 평가장치와 로봇간에 유/무선 네트워크로 연결된 설비를 사용하여 성능 측정을 수행함으로써, 성능 측정 과정에서 사람의 개입 없이 자동으로 실행하여 성능 측정의 시간 단축과 비용 절감을 달성할 수 있다.

또한, 로봇의 음성인식 성능을 객관적으로 평가하여 음성인식 모듈 개발자나 이를 사용하고 있는 사용자에게 음성인식 성능을 객관적으로 제시함으로서, 실제 로봇 사용자들이 성능 표시나 수치에 대한 신뢰성을 가질 수 있도록 한다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제 한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

도 1은 본 발명에 따른 로봇의 음성인식 성능 평가장치의 일실시예로서, 개략적인 구성 블록도를 도시한 것이다. 본 발명에 따른 음성인식 성능 평가장치(이하, '평가장치'라 함)는 음성 데이터베이스부(110), 소음 데이터베이스부(120), 선택부(130), 음성 재생부(140), 소음 재생부(150), 출력부(160), 평가부(170), 사용자 출력부(180) 등을 포함한다.

음성 데이터베이스부(110)에는 로봇의 음성을 평가할 때 사용되는 평가용 용어에 관한 데이터가 데이터베이스화되어 있다. 예컨대, 음성 데이터베이스부(110)에는 평가용 용어로서 인식용 언어와 거절용 언어가 저장되어 있다. 인식용 언어로는 단일 명령어, 두 단어 이상의 명령어, 질의 형태의 명령어 등이 있으며, 거절용 언어는 잘못된 명령을 부정하는 언어이다.

소음 데이터베이스부(120)에는 로봇이 노출되는 환경 소음에 관한 데이터가 데이터베이스화되어 있다. 환경 소음은 예컨대, 백색 잡음과, 평가용 용어 이외의 음성 잡음, 로봇이 노출되는 상황에 따른 생활 잡음 등을 나타낸다. 백색 잡음은 어떤 주파수 대역내의 모든 주파수 출력이 포함되어 있는 잡음으로서, 예컨대 전기 회로의 저항에서 나오는 열잡음이나 트랜지스터의 산탄 잡음 등이 있다. 음성 잡음 으로는 TV나 라디오와 같은 전달매체에서의 뉴스 등의 음성, 사람들 사이의 대화 등이 있고, 생활 잡음으로는 전화 벨, 설거지 소리, 청소기 소리, 동물의 울음 소리 등이 있다.

선택부(130)는 음성 데이터베이스부(110)와 소음 데이터베이스부(120) 각각에서 로봇에게 출력할 평가용 용어와 환경 소음을 선택한다. 선택은 로봇의 음성인식 성능의 평가 목적에 따라 달라질 수 있다. 예컨대, 화자에 따른 음성인식 성능을 평가하는 경우 선택부(130)는 평가용 용어만을 선택하고, 환경 소음은 선택하지 않을 수 있다. 또한, 로봇의 음성 인식률을 평가하고자 하는 경우와 음성 거절률을 평가하고자하는 경우 평가용 언어를 달리 선택할 수 있다.

음성 재생부(140)는 선택부(130)에 의하여 선택된 평가용 용어를 입력받아, 출력부(160)에 포함된 각각의 멀티플렉서(162)로 평가용 용어를 소정의 신호로 전송한다. 음성 재생부(140)는 로봇의 음성인식 성능의 평가 목적에 따라 출력부(160)로 전송하는 신호를 제어할 수 있다. 예컨대, 음성의 크기에 따른 음성인식 성능을 평가하고자 하는 경우 멀티플렉서(162)로 전송되는 평가용 용어의 신호에는 소리의 크기 정보가 포함될 수 있다.

소음 재생부(150)는 선택부(130)에 의하여 선택된 환경 소음을 입력받아, 출력부(160)에 포함된 각각의 멀티플렉서(162)로 환경 소음을 소정의 신호로 전송한다. 소음 재생부(150)도 음성 재생부(140)와 같이, 로봇의 음성인식 성능의 평가 목적에 따라 출력부(160)로 전송하는 신호를 제어할 수 있다. 예컨대, 소음의 크기에 따른 음성인식 성능을 평가하고자 하는 경우 멀티플렉서(162)로 전송되는 환경 소음에 관한 신호에는 소음의 크기 정보가 포함될 수 있다.

출력부(160)는 평가용 용어 또는 평가용 용어와 소음을 출력한다. 출력부(160)는 복수개의 멀티플렉서(162)와 스피커(164)를 포함할 수 있다. 복수개의 스피커(164)를 이용하여 다양한 환경을 조성함으로써, 다양한 환경에서의 로봇의 음성인식 성능을 평가할 수 있게 한다. 각각의 스피커(164)에는 평가용 용어와 소음에 관한 신호를 인가하는 멀티플렉서(162)가 연결되어 있다. 스피커(164)의 설치 위치는 이하 도 2를 참고하여 후술하기로 한다.

평가부(170)는 출력부(160)에서 출력된 평가용 용어에 대한 로봇의 반응에 기초하여 로봇의 음성 인식 능력을 평가한다. 펑가부는 로봇으로부터 음성 인식의 결과를 수신하는 수신부(172)와, 수신된 결과에 따라 음성인식률 또는 음성 거절률을 산출하는 산출부(174)를 포함한다. 수신부(172)는 유/무선 네트워크를 통해 음성 인식의 결과를 수신한다.

평가부(170)가 수행하는 로봇에 대한 평가 항목은 예컨대, 화자에 따른 음성인식 성능, 음성의 크기에 따른 음성인식 성능, 음원의 방향에 따른 음성인식 성능, 소음의 크기에 따른 음성인식 성능 등이 다. 평가부(170)의 산출부(174)는 이와 같은 평가 항목에 대하여 음성 인식률 또는 음성 거절률을 산출한다. 평가를 위한 데이터로서, 로봇의 음성 인식의 결과 및 로봇으로 출력된 평가용 언어 또는 소음에 관한 자료가 필요할 수 있다. 이 때, 평가부(170)는 평가에 필요한 자료로서 유/무선 네트워크를 통해 로봇이 인식한 결과를 수신할 수 있고, 선택부(130)로부터 로봇으로 출력된 평가용 언어 또는 소음에 대한 정보를 수신할 수 있다.

사용자 출력부(180)는 평가부(170) 또는 선택부(130)와 연결되어 평가 결과 또는 선택부(130)의 선택 내용을 평가를 수행하는 평가를 수행하는 자에게 화면 또는 인쇄물로 제공한다.

도 2는 본 발명에 따른 평가장치를 이용하여 로봇의 음성인식 성능을 평가기 위해 로봇이 노출된 측정 환경을 도시한 것이다. 일반적인 가정 또는 사무실과 비슷한 크기의 공간(예: 가로 3m 세로, 세로 5m, 높이 2,5m)의 무반향실(200)에 평가대상인 로봇(250)을 위치시킨다. 예컨대, 로봇(250)은 무반향실(200)의 중심지점에 위치할 수 있고, 로봇(250)의 중심으로부터 소정의 거리 이격된 지점에 스피커(164)가 위치할 수 있다. 예컨대, 전후좌우 방향으로 각각 1m 이격된 곳에 도 2와 같이 스피커(164) 4대가 설치될 수 있다.

스피커(164)는 모두 동일한 높이에 설치될 수 있다. 예컨대, 스피커(164)는 로봇(250)에 위치하는 음성수집기(미도시, 예컨대 마이크)의 높이와 동일하게 설치될 수 있다. 만약, 로봇에 마이크가 2개 이상 위치하고 마이크의 높이가 서로 다른 경우라면, 마이크 높이의 평균값이 스피커(164)의 높이가 된다.

각각의 스피커(164)에서 출력되는 음압의 레벨은 로봇(250)의 중심에서 모두 동일할 수 있다. 예컨대, 음압의 레벨은 평가 전에, 약 1kHz에 해당하는 사인파 모양의 신호를 출력하고 그 크기를 스피커(164)와 1m 떨어진 곳에서 소음계로 측정하여, 80dB이 나오는 경우로 정할 수 있다.

도 3은 평가용 용어에 관한 데이터베이스를 구축하는 과정을 도시한 것이다. 도 3에 도시된 바와 같이, 인식용 용어와 거절용 용어를 선정하고(S310, S320), 이들을 발음할 화자를 선정하며(S330), 인식용 용어와 거절용 용어를 음성으로 녹음 및 가공하여(S340,S350), 녹음한 음성을 음성 데이터베이스부(110)에 저장한다(S360). 각 과정(S310~S360)의 조건은 다음과 같다.

① 인식용 용어의 선정( S310 )

음성 인식률을 측정하기 위한 인식용 용어는 지능형 로봇 표준 포럼에서 규정한 인간/로봇의 음성명령어 발명안(Voice Command for the Intelligent Robot)에 제시된 필수용어와 선택용어로 선정할 수 있고, 로봇 제조자가 다음의 요소들을 고려하여 추가할 수 있다.

1) 음성의 재연성을 유지할 수 있는 소수의 단어 및 구?절을 사용한다.

2) 용어의 선정은 고립어(단일명령어), 연결어(두 단어 이상의 명령어), 연속어(질의 형태의 명령어)로 제한한다.

3) 외래어의 경우 국립국어원에서 규정한 현행 외래어 표기법 규정을 따르며, 표기법상 발음이 사람마다 다른 용어의 선정은 피한다.

② 거절용 용어의 선정( S320 )

음성 거절률을 측정하기 위한 거절용 용어는 로봇의 제조자와 평가자 또는 로봇의 사용자가 함께 선정할 수 있으며, 다음의 사항을 고려할 수 있다.

1) S310단계의 인식용 용어와 유사한 용어를 1개 이상 선정한다.

2) 인식용 용어와 발음이 유사하여 사람이 듣고 구분할 수 없는 용어의 선정 은 피한다.

③ 화자 선정( S330 )

로봇의 사용 대상층에 따라 다음의 사항을 고려하여 화자를 선정할 수 있다.

1) 대한민국에서 성우로 활동한 경력이 있거나 활동 중인 사람을 대상으로 한다.

2) 일반인을 대상으로 화자를 결정할 경우 다음의 고려사항을 따른다.

a) 성별 : 남자 및 여자를 대상으로 함. 성별분포는 남:녀 = 50:50으로 하되 10% 범위 내에서 오차를 허용한다.

b) 나이 : 연령대에 따라 화자를 다음과 같이 구분함.

①초등학생(13세) 이하 ②초등학생(13세) 이상 60세 이하 ③60세 이상

나이별 분포는 ①:②:③ = 15:70:15로 하되 10% 범위내에서 오차를 허용한다.

c) 지역 : 12세 이전의 거주 지역을 기준으로 하되, 지역별 분포는 서울(경기):기타 = 40:60으로 하고 10% 범위 내에서 오차를 허용할 수 있다.

④ 녹음( S340 )

화자의 음성을 명료하게 녹음하기 위하여 다음을 고려하여야 한다.

1) 녹음 장소는 무반향실로 방음이 된 곳을 선정하여 반사음 및 외부잡음을 차단한다.

2) 마이크의 주파수 응답특성이 중음대역과 고음대역의 특성이 좋은 것을 선정한다.

3) 화자의 입과 마이크의 거리를 적절히 조절하여 음이 깨어지거나 부정확한 발음이 되지 않도록 한다.

4) 녹음된 음성의 음압레벨에 의한 화자의 목소리와 발화속도 이상적인 음성 스펙트럼은 KS A ISO 4870의 2.24~2.26에 따른다.

5) 잘못된 발성, 파형 잘림, 이해할 수 없는 소리, 혀 짧은 소리 등은 오류이므로 재발성하도록 하고, 지방색, 망설임, 화자 잡음(간투사, 입술소리 등)은 허용한다.

6) 하나의 음성구간 내에서는 휴지기간이 0.3초보다 짧아야 하고, 음성 구간 전후로 0.3 ~ 0.5초간의 여유 묵음 구간을 둔다.

7) 1.2에서 선정한 화자에 대하여 1.1에서 정의한 인식용 용어를 10회 발음한 것을 수집한다.

⑤ 가공( S350 )

화자가 녹음한 음성신호레벨의 평균 최대진폭(peak amplitude)은 16bits 정수 10,000에서 20,000(단위: 샘플 값) 사이의 값으로 되도록 한다.

⑥ 음성 데이터베이스부에 저장( S360 )

음성 데이터베이스는 오디오 파일 형태로 저장될 수 있고, 음성신호는 44.1kHz로 샘플링한 데이터를 저장매체에 저장하고, 이로부터 16kHz 데이터로 다운 샘플링하여 16bits linear PCM 데이터로 저장할 수 있다.

도 4는 환경 소음에 관한 데이터베이스를 구축하는 과정을 도시한 것이다. 도 4에 도시된 바와 같이, 소음을 선정하고(S410), 이들을 녹음 및 가공(S420, S430), 녹음 및 가공한 소음을 소음 데이터베이스부(120)에 저장한다(S440). 각 과정(S410~S440)의 조건은 다음과 같다.

① 소음 선정( S410 )

로봇이 사용되는 환경에서 발생할 수 있는 주요 소음을 고려하여 그 환경을 모사할 수 있는 환경 소음을 준비하여야 한다. 환경 소음은 다음과 같은 세 가지 범주를 선정할 수 있다.

1) 백색 잡음 (white noise)

2) 음성 잡음 : TV나 라디오 등의 뉴스, 가요, 사람들 사이의 대화

3) 생활 잡음 : 전화 벨, 설거지, 청소기, 아기 울음, 강아지 소리, 고전 음악

상기 세 가지 범주의 소음은 연속음으로 5초 이상 지속되어야 한다.

② 녹음( S420 )

소음을 녹음하기 위하여 다음을 고려하여야 한다.

3) 소음원과 마이크의 거리를 적절히 조절하여 음이 깨지지 않도록 한다.

6) 하나의 소음구간 내에서는 휴지기간이 0.3초보다 짧아야 한다.

7) 동일한 소음을 10회 발생하여 수집한다.

③ 가공( S430 )

소음신호레벨의 평균 최대진폭(peak amplitude)은 16bits 정수 10,000에서 20,000(단위: 샘플 값) 사이의 값이 되도록 한다.

④ 소음 데이터베이스부에 저장( S440 )

소음 데이터베이스는 오디오 파일 형태로 저장될 수 있고, 소음신호를 44.1kHz로 샘플링한 데이터를 저장매체에 저장하고, 이로부터 16kHz 데이터로 다운 샘플링하여 16bits linear PCM 데이터로 저장할 수 있다.

이하, 첨부된 도면을 참고하여, 본 발명에 다른 로봇의 음성인식 성능 평가방법에 대하여 설명한다. 도 5는 본 발명에 따른 음성인식 성능 평가방법의 일실시예에 따른 흐름도이다. 평가대상인 로봇은 완전히 조립되어 작동되는 상태로서, 음성을 인식할 수 있는 센서가 로봇에 장착되어 있다. 만약 음성인식기(예, 마이크,음성인식 센서 등)가 로봇으로부터 분리되는 경우라면, 로봇의 중심에 고정시킬 수 있다. 음성을 로봇에게 출력하여 로봇의 음성인식 능력을 평가하는 동안 로봇의 위치와 자세에는 변화가 없어야 하고, 로봇과 스피커(164) 사이의 거리와 방향은 일정하게 유지되어야 한다.

평가에 앞서서, 로봇의 구동상태를 최적화하기 위해, 필요하다면 로봇의 평가전에 필요한 워밍업 작동이 먼저 선행될 수 있다.

평가장치의 선택부(130)는 음성 데이터베이스부(110)에서 로봇의 음성인식 능력을 평가하기 위한 평가용 용어를 임의로 선택할 수 있다(S510). 평가용 용어는 음성 데이터베이스부(110)에 저장된 단일 명령어, 두 단어 이상의 명령어, 질의 형태의 명령어와 같은 인식용 용어 또는 거절용 용어 등이 된다. 평가용 용어를 선택한다는 것은 도 3을 참고하여 설명한 바와 같은 일련의 과정을 통해 녹음, 저장된 평가용 용어의 음원을 선택하는 것이다.

평가장치의 선택부(130)는 소음 데이터베이스부(120)에서 환경 소음을 임의로 선택할 수 있다(S520). 소음을 선택하는 본 단계는 로봇의 평가 항목에 따라 달라질 수 있다. 예컨대, 로봇의 음성인식 능력의 평가 목적이 화자에 따른 인식성능, 음성의 크기에 따른 인식성능이거나 음원의 방향에 따른 인식성능인 경우는 본 단계가 생략될 수 있다. 잡음을 선택한다는 것은 도 4를 참고하여 설명한 바와 같은 일련의 과정을 통해 녹음, 저장된 환경 소음의 음원을 선택한다는 것이다.

평가장치는 로봇에게 평가가 수행된다는 신호를 전송한다(S530). 신호를 수신한 로봇은 음성을 인식할 수 있는 대기상태에 있게 된다. 본 단계는 필요에 따라 생략될 수 있다. 예컨대, 이미 음성인식의 기능이 구동중인 로봇이라면 본 단계는 생략될 것이다.

평가장치의 출력부(160)를 통해서 평가용 용어 혹은 평가용 용어와 잡음을 포함하는 소리를 로봇에게 출력된다(S540). 출력부(160)에서 출력되는 소리는 앞서 도 2를 참고하여 설명한 바와 같이 로봇의 주변에 위치하는 스피커(164)를 통해, 동일한 음압으로 출력될 수 있다. 소리의 출력시간은 최대 5초를 넘지 않도록 할 수 있으며, 이 시간은 평소 로봇을 사용하는 자의 언어 습관을 반영하여 변화시킬 수도 있다.

평가장치의 평가부(170)는 로봇으로부터 유무선 네트워크를 통해 로봇이 인식한 음성인식의 결과를 수신하여(S550), 해당 로봇의 음성 인식률 또는 음성 거절률 등의 수치로 음성인식의 능력을 평가한다(S560). 음성 인식률은 출력부(160)에서의 출력이 종료되면서 소정의 시간 이내(약 1.5초 이내)에 올바르게 인식한 용어를 로봇이 인식에 성공한 용어로 인정한다. 음성 인식률은 다음의 수학식 1에 따라 산출된다.

음성 거절률은 수학식 2와 같이 평가에 사용된 전체 용어의 개수 중에서 로봇이 거절한 용어의 비율로 정의된다. 로봇이 거절한 용어는 두 가지의 경우로 나눌 수 있는데, 한가지는 음성 거절용 용어를 올바르게 인식한 경우로서, 예컨대, '사과'라는 단어가 인식용 용어이고 '배'라는 단어가 거절용 용어인 경우, 출력부(160)에서 출력된 소리가 '배'이고 이를 로봇이 올바르게 인식하여 '배'를 인식하였다는 확인신호를 생성하는 경우를 들 수 있다. 나머지 한가지는 거절용 용어에 대하여 아무런 반응을 하지 않은 경우로서, 앞의 일예에서 출력부(160)에서 출력된 소리가 '배'인 경우 로봇이 아무런 반응, 예컨대 아무런 신호도 생성하지 않는 경우를 들 수 있다.

본 발명에 따른 평가방법은 앞서 언급한 바와 같이, 로봇의 음성인식 평가 목적에 따라 출력부(160)에서 출력되는 소리를 변화시켜, 반복실시될 수 있다. 로봇의 음성인식 평가 목적은 화자에 따른 음성인식 성능, 음성의 크기에 따른 음성인식 성능, 음원의 방향에 따른 음성인식 성능, 잡음의 크기에 따른 음성인식의 성능 등이 될 수 있다. 이하 각 경우에 대하여 살펴보면 다음과 같다.

① 화자에 따른 음성인식 성능

로봇은 화자에 관계없이 음성을 인식할 수 있어야 하므로, 화자에 따라 음성인식 능력에 차이를 보이는지 평가할 수 있다. 화자에 따른 음성 인식률과 음성 거절률을 측정하기 위해 평가용 용어 모두를 대상으로 평가할 수 있다. 이 경우, 로봇의 전면(前面)에 위치한 스피커(164)에서 소리를 출력하고, 잡음은 출력하지 않는다.

② 음성의 크기에 따른 음성인식 성능

로봇은 소리의 크기에 관계없이 음성을 인식할 수 있어야 하고, 화자는 다양한 목소리로 로봇에게 명령 또는 지시할 수 있으므로, 음성의 크기에 따라 음성인식 능력에 차이를 보이는지 평가할 수 있다. 음성의 크기에 따른 음성 인식률과 음성 거절률을 측정하기 위해 소리의 크기를 변화시키면서, 평가용 용어 모두를 대상으로 평가할 수 있다. 소리의 크기에 따른 음성의 수준은 예컨대 다음의 [표 1]과 같다. 본 평가를 위한 경우, 로봇의 전면에 위치한 스피커(164)에서 소리를 출력하고, 잡음은 출력하지 않는다.

음성의 수준	속삭임	일상 대화	시끄러운 소음
음성의 크기	30dB	60dB	80dB

③ 음원의 방향에 따른 음성인식 성능

로봇은 음원의 방향에 관계없이 음성을 인식할 수 있어야 하므로, 음원의 방향에 따라 음성인식 능력에 차이를 보이는지 평가할 수 있다. 음원의 방향에 따른 음성 인식률과 음성 거절률을 측정하기 위해 [표 2]에서 제시한 바와 같이 방향을 변화시키면서 평가용 용어 모두를 대상으로 평가할 수 있다. 이 경우, 사방의 스피커(164a, 164b, 164c, 164d) 중 하나의 스피커(예컨대, 164b)에서 음성을 발생하고 소음은 발생하지 않는다.

음원의 방향	앞쪽	왼쪽	뒤쪽	오른쪽
음원의 각도	0°	90°	180°	270°

④ 잡음의 크기에 따른 음성인식 성능

로봇은 잡음의 크기에 관계없이 음성을 인식할 수 있어야 하므로, 잡음의 크기에 따라 음성인식 능력에 차이를 보이는지 평가할 수 있다. 로봇이 사용되는 잡음이 존재하는 환경을 고려하여 평가를 수행한다. 로봇이 사용되는 환경에서는 다양한 종류의 소음이 발생되는데, 소음의 정도는 예컨대, 시끄러움, 일반, 조용함의 3가지 상태로 정의할 수 있다. 그 기준은 신호 대 잡음비로 나타내며 다음의 [수학식 3]과 같이 로봇이 사용되는 환경에서의 환경 소음 레벨에 대한 음원(음성 인식용 용어의 발화) 레벨의 비로 정의한다.

신호 대 잡음비의 값은 상태에 따라 다음의 [표 3]과 같이 정의된다.

실내상태	시끄러움	일반	조용함
신호 대 잡음비	5dB	15dB	25dB

이 경우, 시끄러움의 상태는 예컨대, 전시장이나 실내 공공시설과 같이 공간이 넓고 울림현상 등이 있는 환경으로 정의하고, 일반적인 상태는 특별한 이상소음이 발생하지 않는 가정환경으로 하며, 조용한 상태는 일반 사무실 환경으로 정의한다.

소음의 크기에 대한 음성 인식률과 음성 거절률을측정하기 위하여, [표 3]과 같이 실내상태를 변화시키면서 평가용 용어 모두를 대상으로 평가할 수 있다. 소음은 방향성을 띄지않도록 모든 스피커(164)에서 동일한 크기로 출력되도록 하고, 소음 데이터베이스부(120)에서 선택한 어느 하나의 환경 잡음을 사용한다. 소음과 평가용 용어의 출력지속 시간은 동일해야 한다.

비록 본 발명이 상기 언급된 바람직한 실시예와 관련하여 설명되어졌지만, 발명의 요지와 범위로부터 벗어남이 없이 다양한 수정이나 변형을 하는 것이 가능하다. 따라서 첨부된 특허청구의 범위에는 본 발명의 요지에 속하는 한 이러한 수정이나 변형을 포함할 것이다.

도 1은 본 발명에 따른 로봇의 음성인식 성능 평가장치의 개략적인 구성 블록도,

도 2는 도 1의 음성 데이터베이스부에 평가용 용어에 관한 데이터를 구축하기 위한 과정을 도시한 절차도,

도 3은 도 1의 소음 데이터베이스부에 환경 소음에 관한 데이터를 구축하기 위한 과정을 도시한 절차도,

도 4는 도 1의 음성인식 성능 평가장치와 평가 대상인 로봇의 배치를 나타낸 상태도,

도 5는 본 발명에 따른 로봇의 음성 인식 성능 평가 방법에 따른 절차도이다.

<도면의 주요부분에 대한 부호의 설명>

110: 음성 데이터베이스부 120: 소음 데이터베이스부

130: 선택부 140: 음성 재생부

150: 소음 재생부 160: 출력부

162a~162d: 멀티플렉서 164a~164d: 스피커

170: 평가부 172: 수신부

174: 산출부 180: 사용자 출력부

200: 무반향실 250: 로봇

Claims

단일명령어, 두 단어 이상의 명령어 및 질의 형태의 명령어를 포함하는 인식용 용어 및 잘못된 명령을 부정하는 거절용 용어를 포함하는 평가용 용어에 관한 데이터가 저장된 음성 데이터베이스부;

로봇이 노출되는 환경 소음에 관한 데이터가 저장된 잡음 데이터베이스부;

상기 로봇을 평가할 평가용 용어와 잡음을 선택하는 선택부;

무반향실 내 전후좌우 방향에 설치된 복수의 스피커를 통해 상기 평가용 용어와 잡음을 그 크기와 방향을 변화시키며 상기 무반향실 내 상기 로봇에 출력하는 출력부; 및

상기 평가용 용어에 대한 상기 로봇의 반응을 확인하여 상기 인식용 용어에 대한 상기 로봇의 음성 인식률과 상기 거절용 용어에 대한 상기 로봇의 음성 거절률을 평가하되, 상기 평가용 용어와 잡음의 출력 방향을 고려하여 상기 음성 인식률과 상기 음성 거절률을 평가하는 평가부

를 포함하는 로봇의 음성인식 성능 평가장치.
삭제
제1항에 있어서, 상기 환경 소음은,

백색 잡음, 상기 평가용 용어 이외의 음성 잡음, 상기 로봇이 노출되는 상황에 따른 생활 잡음 중에서 적어도 어느 하나를 포함하는 것인 로봇의 음성인식 성능 평가장치.
삭제
삭제
삭제
기저장된 단일명령어, 두 단어 이상의 명령어 및 질의 형태의 명령어를 포함하는 인식용 용어 및 잘못된 명령을 부정하는 거절용 용어 중에서, 평가용 용어 및 잡음을 선택하는 단계;

무반향실 내 전후좌우 방향에 설치된 복수 개의 스피커를 통해 상기 평가용 용어와 잡음을 그 크기 및 방향을 변화시키며 상기 무반향실 내 로봇에게 출력하는 단계;

상기 로봇의 상기 평가용 용어에 대한 반응을 확인하는 단계; 및

상기 반응에 따라 상기 무반향실 내 로봇의 상기 인식용 용어에 대한 음성 인식률과 상기 거절용 용어에 대한 음성 거절률을 평가하되, 상기 평가용 용어와 잡음의 출력 방향을 고려하여 상기 음성 인식률과 상기 음성 거절률을 평가하는 단계

를 포함하는 로봇의 음성인식 성능 평가방법.
제7항에 있어서, 상기 출력하는 단계는,

선택된 상기 평가용 용어 및 잡음의 소리 크기, 선택된 상기 평가용 용어의 화자, 또는 선택된 상기 평가용 용어의 출력방향을 변화시키면서 반복 출력하는 단계

를 포함하는 것인 로봇의 음성인식 성능 평가방법.
삭제
삭제
삭제
삭제