KR101700099B1

KR101700099B1 - 하이브리드 음성인식 복합 성능 자동 평가시스템

Info

Publication number: KR101700099B1
Application number: KR1020160131527A
Authority: KR
Inventors: 류승표; 송민규
Original assignee: 미디어젠(주)
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2017-01-31
Also published as: US20180342236A1; US10643605B2; JP2019535044A; WO2018070668A1; JP6826205B2

Abstract

본 발명은 하이브리드 음성인식 복합 성능 자동 평가시스템에 관한 것으로서, 더욱 상세하게는 하이브리드단말기와 클라우드서버를 동시에 사용하여 하이브리드단말기를 통한 음성인식과 언어 이해 처리 결과 및 클라우드서버를 통한 서버 음성인식과 언어 이해 처리 결과를 동시에 자동적으로 평가할 수 있는 시스템을 제공함으로써, 정확하고 빠른 성능과 기능 검증 결과를 출력할 수 있는 하이브리드 음성인식 복합 성능 자동 평가시스템에 관한 것이다.

Description

하이브리드 음성인식 복합 성능 자동 평가시스템{Hybrid speech recognition Composite Performance Auto Evaluation system}

음성인식기술(Speech Recognition)은 마이크로폰을 통해 입력된 사용자의 음성을 컴퓨터가 분석하고 특징을 추출해서 미리 입력된 단어나 문장에 근접한 결과를 명령어로서 인식하고, 인식된 명령어에 해당하는 동작을 수행하도록 하는 기술이다.

기존의 음성인식 시스템은 차량, 모바일 등 단말기 내부에 음성인식 엔진이 저장되는 단말 음성인식 방식과, 스마트폰 인터넷 음성 검색 및 각종 정보 처리를 위한 클라우드 기반 서버 음성인식이 각각 서비스 용도에 맞게 변별적으로 사용되어 왔다.

그리고, 인식 문법 기반의 단말 음성인식 시스템의 높은 인식률이라는 측면의 장점과, 문장 단위의 인식이라는 서버 음성인식의 장점을 함께 활용 가능한 하이브리드 음성인식(Hybrid Speech Recognition) 기술이 시장에 적용되고 있다.

상기한 하이브리드 음성인식은 사용자의 하나의 발화에 대해 단말 음성인식 엔진과 서버 음성인식 엔진을 동시에 구동시켜 2개 이상 복수의 결과값을 수신할 수 있으며, 상기 2개의 값 중에 더 나은 결과값을 명령 구동에 사용할 수 있는 조정 알고리즘(Arbitration Algorithm)이 핵심적 역할을 담당한다.

단말 음성인식의 결과는 보통의 경우, 단어(Word)로, 서버 음성인식의 결과는 보통의 경우, 문장(Sentence)으로, 언어 이해 모듈의 결과는 보통의 경우, 의도(Intention)와 한 개 이상 복수의 대상 틀(Slot)로 출력되는 등, 각기 다른 유형의 결과가 상황에 따라 가변적으로 도출이 되므로, 기존의 음성인식 평가 시스템에서는 하이브리드 음성인식에 대한 평가를 담당할 수 없었다.

즉, 기존 음성인식 자동 테스트에 대한 발명은 대개 실차 환경을 고려한 것이 아닌, PC에 음성 인식 시스템을 구비하고, 인식 대상 어휘들을 자동으로 입력하여 결과를 집계하는 배치(Batch) 방식과, 테스트 환경 조성 시 노이즈와 음성의 비율을 자동으로 조정하는 음량 조정 장치 등의 기술 중심으로 이루어지고 있었다.

그러나, 최근 음성인식은 인식 결과의 규격이 상이한 단말 음성인식과 클라우드 기반 서버 음성인식이 동시에 구동되는 하이브리드 방식에 대한 통합 성능 검증이 필요하므로 각각 상이한 규격의 결과들을 통합 분석할 수 있는 알고리즘과 운영 방안이 필요하다.

특히, 기존의 음성인식 자동화 평가 시스템은 음성 인식률을 측정하기 위한음성 DB 자동 출력 장치 또는 노이즈 환경을 조정할 수 있는 조절 장치 등을 중심으로 진행되어 왔다.

예를 들어, 차량용 음성인식 시스템의 경우에, 실차 고속 주행 환경에서 다국어 원어민을 직접 차량에 탑승시켜서 정해진 명령어를 발화하도록 지도한 뒤 검수자가 동승하여 인식 결과를 수동으로 체크하는 방식이 일반적이다.

그러나, 이러한 실차 테스트 방식은 수백 명 단위의 원어민 섭외의 문제, 테스트 장소까지 인솔 및 관리의 문제, 고속 주행 상황에 따른 안전 문제, 인식 결과 수기 기록에 따른 효율성 저하 문제, 막대한 결과 데이터 정제 및 분석 시간 과다 소요 문제, 반복 테스트 불가 문제 등 다양한 현실적 문제에 직면하여 현실적으로 유의미한 통계적 결과 산출에 충분한 정도의 테스트 수행이 어려운 문제가 발생하여 이에 따른 해결 기술이 필요하게 되었다.

(선행문헌) 대한민국공개특허번호 10-2013-0029635호

따라서 본 발명은 상기와 같은 종래 기술의 문제점을 감안하여 제안된 것으로서, 본 발명의 제 1 목적은 하이브리드단말기의 음성인식 결과 자동 검증과 언어 이해 결과 자동 검증 및 클라우드서버의 음성인식 결과 자동 검증과 언어 이해 결과 자동 검증 및 시스템 내부의 조정 결과 검증 등을 개별적 또는 통합적으로 분석하여 분석 결과를 출력할 수 있도록 하는데 있다.

본 발명의 제 2 목적은 하이브리드 단말기 및 클라우드서버에서의 다양한 음성인식 결과에 대해 한 번에 처리가 가능한 기능을 제공함으로써, 종래의 각각 수차례에 걸쳐 개별적으로 진행할 수밖에 없었던 단순 반복 자동화를 복합 처리가 가능한 고효율 시스템으로 성능을 업그레이드시킬 수 있도록 하는데 있다.

본 발명의 제 3 목적은 하이브리드 음성인식 플랫폼 내부에서 수행되는 인식의 과정을 로그를 통해 분석하고 자동적으로 음성인식의 성능을 평가하는 하이브리드 음성인식 평가 자동화 시스템을 제공하면서 동시에 화면 출력의 정합성과 음성 안내 출력의 정합성, 테스트 환경 정보의 기록 등의 복합 기능을 부가함으로써 성능 평가의 신뢰도를 크게 높일 수 있도록 하는데 있다.

본 발명의 제 4 목적은 음성인식평가환경기록부를 통해 실제 차량이 주행하는 환경에서 노면, 날씨, 주변 상황 등을 확인할 수 있는 카메라영상부와 CAN 통신 정보를 통해 속도, 엔진 상태, 공조 상태 등을 알 수 있는 CAN통신분석부를 연계하여 각종 테스트 환경 정보를 결과출력부로 보내어 복합 성능 결과에 매핑함으로써, 차량용 음성인식 성능 평가의 신뢰성을 높이고, 환경 정보에 대한 체계적인 관리가 가능하도록 하는데 있다.

본 발명이 해결하고자 하는 과제를 달성하기 위하여, 하이브리드 음성인식 복합 성능 자동 평가시스템은,

자연어 처리모듈을 포함하여 구성되되, 상기 자연어 처리모듈에 의해 처리된 음성인식 결과 텍스트에서 사용자의 명령 대상값을 추출하기 위한 단말언어이해부(140),

상기 추출된 사용자의 명령 대상값을 토대로 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 인식 결과값을 추출하기 위한 단말음성인식엔진부(130),

상기 단말언어이해부에서 제공된 음성인식 결과 텍스트에서 추출된 명령 대상값, 단말음성인식엔진부에서 제공된 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버의 서버언어이해부에서 제공된 사용자의 추출된 명령 대상값, 클라우드서버의 서버음성인식엔진부에서 제공된 음성 인식 결과값을 비교하여 어느 하나의 인식 결과값을 구동 명령값으로 지정하여 하이브리드음성인식미들웨어부로 제공하기 위한 결과조정부(150),

상기 결과조정부에 의해 제공된 구동 명령값을 로그부(400)에 저장시키기 위한 하이브리드음성인식미들웨어부(120),

상기 구동 명령값을 저장하고 있는 로그부(400),

음성인식평가자동화장치(300)와 연결되어 상기 로그부에 저장된 로그 정보를 제공하기 위한 인터페이스부(110)를 포함하여 구성되는 하이브리드단말기(100)와;

상기 하이브리드단말기에서 전송된 음성을 획득하여 사용자의 명령 대상값을 추출하기 위한 서버언어이해부(220),

사용자의 명령 대상값을 토대로 음성 인식 결과값을 추출하기 위한 서버음성인식엔진부(210)를 포함하여 구성되는 클라우드서버(200)와;

음성 버튼을 누를 경우에 음성 인식 구동 명령을 자동화제어부로 제공하기 위한 웨이크업자동제어부(370),

상기 음성 인식 구동 명령값을 획득할 경우에 하이브리드단말기의 인터페이스부에서 제공된 로그 정보를 로그분석부로 제공하기 위한 자동화제어부(310),

상기 로그 정보를 토대로 분석된 음성인식 시작 시점과 종료 시점의 정보를 이용하여 음성인식을 시작하거나 종료하기 위한 로그분석부(320),

상기 로그 정보를 토대로 하이브리드단말기의 음성인식 결과 텍스트에서 추출된 명령 대상값, 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버의 추출된 명령 대상값, 음성 인식 결과값 및 결과조정부에 의해 지정된 구동 명령값을 분석하여 평가 결과를 산출하기 위한 통합결과분석부(330),

단말기 화면에 사용자의 음성 명령과 일치하는 결과값이 출력되는지 분석하며, 사용자의 음성 명령에 매칭되는 음성 확인 안내 멘트가 출력되는지 분석하기 위한 정합성결과분석부(340),

메모리에 저장된 카메라 영상과 캔통신 정보를 참조하여 음성 인식이 수행될 때 주변 환경 정보를 기록하기 위한 음성인식평가환경기록부(350),

상기 통합결과분석부에 의해 산출된 평가 결과, 상기 정합성결과분석부에 의해 분석된 정합성 검증 결과, 상기 음성인식평가환경기록부에 의해 기록된 주변 환경 정보를 동시에 출력하기 위한 결과출력부(360)를 포함하여 구성되는 음성인식평가자동화장치(300);를 포함한다.

이상의 구성 및 작용을 지니는 본 발명에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템을 통해, 하이브리드단말기의 음성인식 결과 자동 검증과 언어 이해 결과 자동 검증 및 클라우드서버의 음성인식 결과 자동 검증과 언어 이해 결과 자동 검증 및 시스템 내부의 조정 결과 검증 등을 개별적 또는 통합적으로 분석하여 분석 결과를 출력할 수 있는 효과를 발휘하게 된다.

또한, 하이브리드 단말기 및 클라우드서버에서의 다양한 음성인식 결과에 대해 한 번에 처리가 가능한 기능을 제공함으로써, 종래의 각각 수차례에 걸쳐 개별적으로 진행할 수밖에 없었던 단순 반복 자동화를 복합 처리가 가능한 고효율 시스템으로 성능을 업그레이드시킬 수 있는 효과를 발휘하게 된다.

또한, 본 발명의 하이브리드 음성인식 플랫폼 내부에서 수행되는 인식의 과정을 로그를 통해 분석하고 자동적으로 음성인식의 성능을 평가하는 하이브리드 음성인식 평가 자동화 시스템을 제공하면서 동시에 화면 출력의 정합성과 음성 안내 출력의 정합성, 테스트 환경 정보의 기록 등의 복합 기능을 부가함으로써 성능 평가의 신뢰도를 크게 높일 수 있는 효과를 발휘하게 된다.

즉, 화면 출력 검증과 음성 출력 검증 결과를 결과분석부로 제공하여 통합결과분석부에서 처리된 평가 결과에 매핑함으로써, 인식 성능과 동작 성능을 복합적으로 평가할 수 있게 된다.

예를 들어, 보통 인식 성능과 동작 성능은 별도로 측정되므로 2배의 시간이 소요되나, 본 발명을 통해 한 번에 2가지의 평가를 자동적으로 수행할 수 있게 된다.

또한, 음성인식평가환경기록부를 통해 실제 차량이 주행하는 환경에서 노면, 날씨, 주변 상황 등을 확인할 수 있는 카메라영상부와 CAN 통신 정보를 통해 속도, 엔진 상태, 공조 상태 등을 알 수 있는 CAN통신분석부를 연계하여 각종 테스트 환경 정보를 결과출력부로 보내어 복합 성능 결과에 매핑함으로써, 차량용 음성인식 성능 평가의 신뢰성을 높이고, 환경 정보에 대한 체계적인 관리가 가능한 효과를 발휘하게 된다.

도 1은 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템을 개략적으로 나타낸 전체 구성도이다.
도 2는 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템의 하이브리드단말기 및 클라우드서버의 블록도이다.
도 3은 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템의 음성인식평가자동화장치 블록도이다.
도 4는 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템의 자동화제어부 블록도이다.
도 5는 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템의 통합결과분석부 블록도이다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만, 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다.

또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.

본 발명의 과제를 해결하기 위한 수단은 하기와 같다.

즉, 본 발명의 하이브리드 음성인식 복합 성능 자동 평가시스템은,

상기 구동 명령값을 저장하고 있는 로그부(400),

이하에서는, 본 발명에 의한 하이브리드 음성인식 복합 성능 자동 평가시스템의 실시예를 통해 상세히 설명하도록 한다.

도 1은 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템을 개략적으로 나타낸 전체 구성도이다.

도 1에 도시한 바와 같이, 크게 하이브리드단말기(100), 클라우드서버(200), 음성인식평가자동화장치(300)를 포함하여 구성되게 된다.

상기와 같이 본 발명의 시스템은 하이브리드단말기와 클라우드서버를 동시에 사용하여 음성 인식을 처리하고, 로그 정보를 음성인식평가자동화장치에서 획득하여 로그를 분석하여 음성 인식 평가를 자동적으로 수행하게 되는 것이다.

즉, 상기 하이브리드단말기는 단말 음성 인식, 서버 음성 인식, 단말 언어이해, 서버 언어 이해의 결과 및 조정(Arbitration) 결과를 산출하는 기능을 수행하게 된다.

상기 하이브리드단말기, 클라우드서버, 음성인식평가자동화장치의 구체적인 구성수단들은 하기의 도면을 참조하여 구체적으로 설명하도록 하겠다.

도 2는 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템의 하이브리드단말기 및 클라우드서버의 블록도이다.

도 2에 도시한 바와 같이, 상기 하이브리드단말기(100)는, 인터페이스부(110), 하이브리드음성인식미들웨어부(120), 단말음성인식엔진부(130), 단말언어이해부(140), 결과조정부(150) 및 로그부(400)를 포함하여 구성되게 된다.

상기 인터페이스부(110)는 음성인식평가자동화장치(300)와 연결되어 상기 로그부에 저장된 로그 정보를 제공하게 된다.

상기 연결은 네트워크망을 통해 이루어지게 된다.

상기 단말언어이해부(140)는 자연어 처리모듈을 포함하여 구성되되, 상기 자연어 처리모듈에 의해 처리된 음성인식 결과 텍스트에서 사용자의 명령 대상값을 추출하게 된다.

상기한 단말 언어 이해(Embedded Natural Language Understanding) 기술은 전자 기기 내부에 규칙 기반(Rule Based) 알고리즘 또는 통계 모델(Statistic Model)을 이용하는 자연어 처리 모듈을 내장하여, 음성인식 결과 텍스트에서 사용자의 최종 목표인 명령 의도(Intention, Goal)와 구체적인 명령 대상(Named Entity)을 자동으로 추출하는 방법을 의미하여, 상기 단말언어이해부를 통해 자연어 처리모듈에 의해 처리된 음성인식 결과 텍스트에서 사용자의 명령 대상값을 추출하게 되는 것이다.

상기 사용자의 명령 대상값을 추출하는 기술은 일반적인 기술이므로 상세한 설명은 생략하겠다.

또한, 상기 단말음성인식엔진부(130)는 상기 추출된 사용자의 명령 대상값을 토대로 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 인식 결과값을 추출하는 기능을 수행하게 된다.

상기한 단말 음성인식(Embedded Speech Recognition) 기술은 전자 기기 내부에 음성인식 DB 및 모델, 패턴 매칭 알고리즘 등을 이용하는 기술로서 상기한 단말음성인식엔진부를 통해 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 인식 결과값을 추출하게 되는 것이다.

즉, 보통 인식기가 이해할 수 있는 인식 문법(Grammar) 기반으로 음성인식이 수행되는데, 인식 대상 목록이 정해져 있고, 그 대상 목록만이 인식 결과로 출력될 수 있는 구조를 지닌다.

한편, 클라우드서버(200)는 도 2에 도시한 바와 같이, 서버언어이해부(220)와 서버음성인식엔진부(210)를 포함하여 구성되게 된다.

상기 서버언어이해부(220)는 하이브리드단말기에서 전송된 음성을 획득하여 사용자의 명령 대상값을 추출하는 기능을 수행하게 되는데, 서버 기반 언어 이해 기술(Server Based Natural Language Understanding)은 서버 음성인식 결과로 출력된 문장 텍스트에서 발화자의 의도와 대상을 파악하여, 최종적인 음성인식 수행 목적을 자동으로 추출하는 것이다.

또한, 상기 서버음성인식엔진부(210)는 사용자의 명령 대상값을 토대로 음성 인식 결과값을 추출하게 되는데, 서버 기반(Server Based Speech Recognition) 음성인식 기술은 전자 기기 내부에 포함된 마이크 및 기타 녹음 장비에 입력된 음성을 클라우드 기반의 서버음성인식엔진부로 전송하여 이를 인식한 인식 결과를 하이브리드단말기로 제공하게 된다.

종래의 음성인식 시스템은 차량, 모바일 등 단말기 내부에 음성인식 엔진이 저장되는 단말 음성인식 방식과, 스마트폰 인터넷 음성 검색 및 각종 정보 처리를 위한 클라우드 기반 서버 음성인식이 각각 서비스 용도에 맞게 변별적으로 사용되어 왔다.

그러나, 인식 문법 기반의 단말 음성인식 시스템의 높은 인식률이라는 측면의 장점과, 문장 단위의 인식이라는 서버 음성인식의 장점을 함께 활용 가능한 하이브리드 음성인식(Hybrid Speech Recognition) 기술이 시장에 적용되고 있다.

본 발명에서 설명하고 있는 하이브리드 음성인식은 사용자의 하나의 발화에 대해 단말음성인식엔진과 서버음성인식엔진을 동시에 구동시켜 2개 이상 복수의 결과값을 수신할 수 있으며, 이 2개의 값 중에 더 나은 결과값을 명령 구동에 사용할 수 있는 조정 알고리즘(Arbitration Algorithm)이 핵심적 역할을 담당한다.

상기한 조정 알고리즘을 이용하여 더 나은 결과값을 명령 구동에 사용하기 위하여 결과조정부(150)를 구성하게 되는 것이다.

즉, 상기 결과조정부(150)는 단말언어이해부에서 제공된 음성인식 결과 텍스트에서 추출된 명령 대상값, 단말음성인식엔진부에서 제공된 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버의 서버언어이해부에서 제공된 사용자의 추출된 명령 대상값, 클라우드서버의 서버음성인식엔진부에서 제공된 음성 인식 결과값을 비교하여 어느 하나의 인식 결과값을 구동 명령값으로 지정하여 하이브리드음성인식미들웨어부로 제공하게 된다.

하기의 설명부터는 단말언어이해부에서 제공된 음성인식 결과 텍스트에서 추출된 명령 대상값을 단말 언어이해, 단말음성인식엔진부에서 제공된 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값을 단말 음성인식, 클라우드서버의 서버언어이해부에서 제공된 사용자의 추출된 명령 대상값을 서버 언어이해, 클라우드서버의 서버음성인식엔진부에서 제공된 음성 인식 결과값을 서버 음성인식, 결과조정부에서 조정된 구동 명령값을 조정 결과라는 용어로 정의하여 설명하도록 하겠다.

이때, 상기 하이브리드음성인식미들웨어부(120)는 상기 결과조정부에 의해 제공된 구동 명령값을 로그부(400)에 저장시키는 기능을 수행하게 된다.

즉, 하이브리드단말기(100)에서 최종적으로 출력되는 결과를 선별하는 역할을 담당하게 되는데, 상기 인터페이스부(110)를 통해 로그 정보(400)를 음성인식평가자동화장치(300)로 전달하게 되는 것이다.

그리고, 하이브리드음성인식미들웨어부(120)는 단말음성인식엔진부(130)와 서버음성인식엔진부(210)를 순차적 또는 동시 수행하는 경우, 결과조정부(150)까지 통과하는 경우, 단말 언어이해 또는 서버 언어이해까지 수행하는 경우 등 다양한 조합의 구동이 가능하다.

이때, 하이브리드음성인식미들웨어부(120)를 통해 출력되는 인식 결과는 모두 로그부(400)에 저장되며 상기 로그부(400)에 저장된 로그 정보는 인터페이스부(110)와 자동화제어부(310)의 통신을 통해 전달된다.

상기 로그부(400)에는 구동 명령값이 저장되어 있는데, 로그 정보로 저장되어 있게 된다.

상기 로그 정보에는 음성인식 시작시간 정보, 마이크 열림/닫힘 정보, 음성 구간 추출 정보와 같은 자동화 처리를 위한 정보와, 음성인식 결과 정보, 시나리오 천이 정보, 안내 프롬프트 출력 정보와 같은 인식 결과 및 안내 정보들이 포함되어 있게 된다.

도 3은 본 발명의 일실시예에 따른 하이브리드 음성인식 복합 성능 자동 평가시스템의 음성인식평가자동화장치 블록도이다.

도 3에 도시한 바와 같이, 상기 음성인식평가자동화장치(300)는, 자동화제어부(310), 로그분석부(320), 통합결과분석부(330), 정합성결과분석부(340), 음성인식평가환경기록부(350), 결과출력부(360)를 포함하여 구성되게 된다.

상기와 같이, 음성인식평가자동화장치를 이용하게 되면, 실제 차량 환경에서의 테스트를 자동화할 수 있는 기능을 수행할 수 있는데, 차량에 장착된 내비게이션 또는 오디오 단말기에 내장된 음성인식 시스템을 변형 없이 바로 연결하여 자동화 평가를 수행할 수 있게 된다.

구체적으로 구성수단들에 대하여 하기와 같이 설명하도록 하겠다.

상기 웨이크업자동제어부(370, PTT & Wake Up)는 사용자가 음성 버튼을 누를 경우에 음성 인식 구동 명령을 자동화제어부로 제공하는 기능을 수행하게 된다.

즉, 음성인식의 시작 또는 중단을 판단하는 구성수단으로서, 버튼을 눌러서 차량용 음성인식을 구동시키거나, 정해진 호출 명령어를 인식하여 차량용 음성인식을 구동시키는 것을 제어하는 부분이다.

예를 들어, 차량용 음성인식을 자동적으로 평가하기 위해서는 평가 수행 프로세스를 따라야 하는데, 인식 수행 프로세스의 가장 처음과 반복의 시작 시점에서 웨이크업자동제어부(370, PTT & Wake Up)가 구동되는 것이다.

종래의 자동 테스트 방식은 내비게이션 등 실제 음성인식 시동키의 물리적 입력이 필요한 상태의 평가 환경이 고려되지 않은 방식이므로 자동적 평가의 문제점을 발생시키지만, 상기와 같이 웨이크업자동제어부를 구성하여 물리적으로 자동화된 시동 방법을 적용함으로써 이러한 문제점을 개선하게 되었다.

그리고, 별도의 작업 없이 단순히 시리얼 통신을 연결하고, 자동차 핸들에 부착된 음성인식 시작 버튼(PTT : Push to Talk Button)을 음성인식 타이밍에 맞게 자동으로 제어해 주는 자동화제어부(310)가 필수적으로 필요하다.

상기 자동화제어부(310)는 웨이크업자동제어부로부터 음성 인식 구동 명령값을 획득할 경우에 하이브리드단말기의 인터페이스부에서 제공된 로그 정보를 로그분석부로 제공하게 되는 것이다.

또한, 상기 자동화제어부는 전체 음성인식 자동 평가 프로세스를 수행하게 되는데, 이를 위하여 도 4에 도시한 바와 같이, 평가시나리오입력부(311), 평가시나리오저장부(316), 자동평가시작부(312), 음성인식시작부(313), 안내프롬프트스킵부(314), 인식명령어디비재생부(315), 시나리오종료판단부(317)를 포함하여 구성되게 된다.

상기 평가시나리오저장부(316)는 평가 시나리오를 저장하고 있으며, 상기 평가시나리오입력부(311)를 통해 평가 시나리오를 제공 받게 된다.

이때, 상기 평가시나리오입력부에 의해 전체 평가 목록 및 순서 정보를 업로드하게 되는 것이다.

상기 자동평가시작부(312)는 로그분석부에 의해 분석된 음성인식 시작 시점과 종료 시점, 프롬프트 출력 시점의 정보를 이용하여 평가 시나리오의 시작부터 음성인식 자동 평가를 수행하되, 음성인식시작부를 동작시켜 자동으로 음성 인식이 수행되게 된다.

구체적으로, 자동 평가가 시작되면 로그분석부(320)를 통해 분석된 음성인식 시작 시점 및 종료 시점, 프롬프트 출력 시점 등의 정보를 활용하여 자동적으로 음성인식을 시작 또는 종료한다.

이때, 상기 자동평가시작부(312)는 평가 시나리오의 처음부터 음성인식 자동 평가를 착수하며, 음성인식 시작부(313)를 호출하여 자동으로 음성인식이 수행되도록 한다.

음성인식이 시작되기 위해서는 PTT 버튼이나 Wake Up Command를 실행해야 하는데, 이 시점에서 자동으로 웨이크업자동제어부를 호출하여 음성인식을 물리적으로 시작하게 된다.

음성인식 시작 시점은 로그 정보의 분석을 통해 확인하는데, 일정 시간마다 도달하는 로그를 분석하여 자동화 타이밍을 설정한다.

한편, 음성 인식이 시작되면 안내 프롬프트와 명령어를 말하는 타이밍을 알려주는 비프 소리가 발생하는데, 이때 안내프롬프트스킵부(314)를 통해 안내 Prompt를 중단하여 전체 테스트 시간을 절약하는 방법을 사용할 수 있다.

그리고, 인식명령어디비재생부(315)를 통해 비프음이 발생된 이후에 녹음된 음성 정보를 출력하게 된다.

즉, 비프음이 발생한 이후에 자동으로 사람 대신 녹음된 음성 정보를 출력하게 되는데 이를 인식명령어디비재생부(315)에서 수행하는 것이다.

이후, 통합결과분석부(330)에서 인식 결과를 처리한 후에는 시나리오종료판단부(317)에서 종료 여부를 판단하는데, 평가 시나리오에 따라 평가 항목이 더 남았을 때에는 음성인식시작부(313)으로 루틴되어 음성 인식을 다시 시작하고, 종료를 해야 할 경우에는 결과출력부(360)에 의해 평가를 종료한 뒤 결과를 문서나 화면으로 출력한다.

즉, 상기 시나리오종료판단부(317)를 통해, 평가 시나리오에 따라 평가 항목이 존재하는지를 판단하여 존재하지 않을 경우에 평가 시나리오를 종료하게 되는 것이다.

상기 로그분석부(320)는 로그 정보를 토대로 분석된 음성인식 시작 시점과 종료 시점의 정보를 이용하여 음성인식을 시작하거나 종료하는 기능을 수행하게 된다.

즉, 로그 정보에는 음성인식 시작시간 정보, 마이크 열림/닫힘 정보, 음성 구간 추출 정보와 같은 자동화 처리를 위한 정보와, 음성인식 결과 정보, 시나리오 천이 정보, 안내 프롬프트 출력 정보와 같은 인식 결과 및 안내 정보들이 포함되어 있는데, 이를 분석하게 되는 것이다.

구체적으로 설명하자면, 상기 로그분석부를 통한 로그 분석 방식의 음성인식 자동화 제어 방식은 예를 들어, 차량에 장착된 단말기를 제어하기 위하여 구성되는 구성수단으로서, 기존의 자동화 시스템이 별도의 프로그램 설치를 필요로 하는데에서 기인하는 여러 문제점을 해결하는 수단으로 활용된다.

또한, 최근 차량용 음성인식은 "내비게이션"과 같이 정해진 명령어를 발화해서 그 결과를 출력하는 고립 단어 기반의 음성 인식뿐만이 아니라, "내비게이션 보고 싶은데 틀어봐"와 같이 전체 문장 단위로 발화하고, 그 안에 내포된 의미를 분석하여 화자의 의도와 행동 양식을 예측하는 머신 러닝 기반의 언어 처리 기술이 활용되고 있어서, 단말언어이해부(140) 및 서버언어이해부(220)의 동작 결과에 따른 분기 시나리오를 추적하여 인식률을 산출할 필요가 있다.

따라서, 통합결과분석부를 구성하여 단말 음성인식 결과 자동 검증, 단말 언어 이해 결과 자동 검증, 서버 음성인식 결과 자동 검증, 서버 언어 이해 결과 자동 검증, 조정 결과 검증 등을 개별적 또는 통합적으로 분석하여 결과출력부에 의해 결과를 출력할 수 있다.

그리고, 통합결과분석부는 단말 음성인식 결과, 단말 언어 이해 결과, 서버 음성인식 결과, 서버 언어 이해 결과를 통합적으로 분석할 수 있기 때문에 단말 음성인식이나 서버 음성인식을 무작위로 수행하더라도 자동적으로 결과 처리 및 분석을 수행할 수 있다.

종래의 평가시스템은 Agent 프로그램을 내비게이션 단말기에 설치하는 방식을 주로 사용하나 이는 시스템 부하를 일으키고 오작동을 유도할 수 있으므로 상기와 같이 로그분석부를 통한 로그 분석을 이용하여 상기한 문제점을 해결하게 된다.

다음은 통합결과분석부(330)의 구성수단 및 동작을 도 5를 참조하여 구체적으로 설명하도록 하겠다.

도 5에 도시한 통합결과분석부(330)는 로그 정보를 토대로 하이브리드단말기의 음성인식 결과 텍스트에서 추출된 명령 대상값, 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버의 추출된 명령 대상값, 음성 인식 결과값 및 결과조정부에 의해 지정된 구동 명령값을 분석하여 평가 결과를 산출하는 기능을 수행하게 된다.

즉, 단말 음성인식 결과, 단말 언어 이해 결과, 서버 음성인식 결과, 서버 언어 이해 결과, 조정 결과 등을 분석하여 평가 결과를 산출하게 되는데, 이는 최종적으로 단 하나의 동작만을 운전자에게 제공하게 되는 것이다.

상기와 같은 기능을 수행하기 위하여, 상기 통합결과분석부(330)는 인식결과포맷분별부(331), 인식결과포맷분류기록부(332), 인식결과유형판단부(333), 인식결과결정부(334)를 포함하여 구성되게 된다.

상기 인식결과포맷분별부(331)는 하이브리드단말기의 음성인식 결과 텍스트에서 추출된 명령 대상값, 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버의 추출된 명령 대상값, 음성 인식 결과값 및 결과조정부에 의해 지정된 구동 명령값의 서로 다른 포맷을 분석하여 결과 포맷의 유형을 판독하게 되며, 인식결과포맷분류기록부(332)에 판독된 결과 포맷의 유형을 기록하게 되는 것이다.

그리고, 상기 인식결과유형판단부(333)는 상기 기록된 결과 포맷의 유형을 참조하여 하이브리드단말기 혹은 클라우드서버 중 어디에서 수행하였는지를 판단하게 되는데, 구체적으로 분석된 결과가 단말 인식, 단말 언어 이해, 서버 인식, 서버 언어 이해, 조정 결과 중에서 어느 결과인지를 판단하는 것이다.

이때, 인식결과결정부(334)는 상기 판단된 결과값을 참조하여 최종 인식 결과값으로 기록하게 되는 것이다.

이후, 최종적으로 인식 결과값은 결과 포맷에 따라 결과출력부(360)로 제공되어 화면 UI에 표시되는 것이다.

한편, 본 발명의 음성인식평가자동화장치(300)는 도 3에 도시한 바와 같이, 정합성결과분석부(340)를 더 포함하여 구성할 수 있다.

상기 정합성결과분석부(340)는 단말기 화면에 사용자의 음성 명령과 일치하는 결과값이 출력되는지 분석하며, 사용자의 음성 명령에 매칭되는 음성 확인 안내 멘트가 출력되는지 분석하게 된다.

즉, 최종 결과로 수행되는 화면 표시의 적절성과 음성 안내 멘트의 유효성 등을 복합적으로 평가하여 인식률과 함께 정상적인 동작 확인도 가능하도록 화면 출력의 정합성과 음성 출력의 정합성을 분석하게 되는 것이다.

이를 위하여, 상기 정합성결과분석부(340)는 음성인식이 수행된 후, 화면 GUI의 변경을 카메라를 통해 획득하여 정답 화면과 비교하여 차이점을 구분하는 화면출력정합성검증모듈과,

음성인식 결과, 음성 안내 멘트 출력음을 정답 음성과 비교하여 정합성을 판단하는 음성출력정합성검증모듈을 포함하여 구성할 수 있다.

이때, 화면출력정합성검증모듈은 카메라에 동작 신호를 송출하여 촬영된 영상 정보를 획득하여 미리 저장된 정답 화면과 비교하여 차이점을 구분하게 되는 것이다.

이때, 음성출력정합성검증모듈은 예를 들어, 복명복창 안내음이나 특정 시나리오에서 정확하게 출력되어야 할 음성 안내 멘트 출력음을 정답 음성 멘트와 비교하여 정합성을 판단하게 되는 것이다.

상기의 화면 출력 검증과 음성 출력 검증 결과를 통합결과분석부(330)로 제공하여 통합결과분석부에서 분석된 평가 결과에 매핑함으로써, 인식 성능과 동작 성능을 복합적으로 평가할 수 있게 되는 것이다.

일반적으로 보통 인식 성능과 동작 성능은 별도로 측정되므로 2배의 시간이 소요되나, 서술한 바와 같이, 본 발명을 통해 한 번에 2가지의 평가를 자동적으로 수행할 수 있다.

또한, 상기 분석된 정합성 결과 정보를 결과출력부로 제공하게 된다.

한편, 본 발명의 음성인식평가자동화장치(300)는 도 3에 도시한 바와 같이, 음성인식평가환경기록부(350)를 더 포함하여 구성할 수 있다.

상기 음성인식평가환경기록부(350)는 메모리에 저장된 카메라 영상과 캔통신 정보를 참조하여 음성 인식이 수행될 때의 주변 환경 정보를 기록하게 된다.

자동차를 예를 들면, 카메라영상부를 구성하고 있으며, 해당 자동차가 실제 주행하는 환경에서 노면, 날씨, 주변 상황 등을 영상을 통해 촬영하게 되며, 해당 촬영 정보가 저장된 메모리를 통해 카메라 영상을 획득하게 되는 것이다.

또한, 캔통신분석부에 의해 속도, 엔진 상태, 공조 상태 등을 분석하게 되며 해당 분석된 캔통신 정보를 획득하게 되는 것이다.

이때, 최종적으로 카메라 영상과 캔통신 정보를 참조하여 음성 인식이 수행될 때의 주변 환경 정보를 함께 기록하게 되는 것이다.

이후, 최종적으로 상기 결과출력부(360)는 통합결과분석부에 의해 산출된 평가 결과, 상기 정합성결과분석부에 의해 분석된 정합성 검증 결과, 상기 음성인식평가환경기록부에 의해 기록된 주변 환경 정보를 동시에 출력하게 되는 것이다.

따라서, 음성인식 시스템의 복합 성능(Multiple Performance)에 대한 검증도 함께 수행할 수 있는 장점을 제공하게 된다.

일반적인 음성인식 시스템은 인식률뿐만이 아니라, 결과 출력 및 음성 출력까지 모두 확인되어야 양산성을 확인할 수 있게 된다.

따라서, 별도로 수행되는 테스트에 따른 전체 소요 시간이 상승하는 문제점을 개선할 수 있게 되어 기존에 각각 별도로 수행되던 테스트에 비해 전체 소요 시간의 절감을 대폭적으로 향상시킬 수 있게 된다.

그리고, 수동으로 진행되던 화면 확인 및 출력 음성 확인을 인식률 평가시에 동시에 진행할 수 있게 되어 기존에 인식률만 평가하는 시스템 대비 높은 활용성을 확보할 수 있게 된다.

또한, 음성인식 자동화 평가 결과를 바탕으로 음성인식 성능 개선을 위해서는 음성인식 성능 저하 원인을 분석해야 하는데, 이때 상세한 음성인식 수행 상황 정보가 매우 큰 단서를 제공하게 된다.

따라서, 본 발명에서는 차량 속도, 공조 크기, 창문 개폐, 노면, 날씨 등 다양한 조건을 확인할 수 있는 카메라 영상과 CAN 정보를 취득하여 음성인식 수행 정보에 추가적으로 기록하게 된다.

상기와 같은 음성인식 수행시의 주변 환경 정보는 음성인식의 성능 개선 및 튜닝을 진행하기 위해 매우 중요한 정보로 활용되며, 얼마나 정확한 테스트 상태 정보를 제공할 수 있는가에 따라 평가 장치의 활용도가 좌우될 수 있기 때문에 상기와 같이 음성인식평가환경기록부를 구성하고 이를 결과출력부를 통해 통합적으로 출력하게 되는 것이다.

본 발명의 시스템을 통해 다양한 음성인식 결과에 대해 한 번에 처리가 가능하게 되므로 기존의 성능 평가시스템으로는 각각 수 차례에 걸쳐 개별적으로 진행할 수밖에 없었던 단순 반복 자동화를 복합 처리가 가능한 고효율 시스템으로 진화시킬 수 있게 되는 것이다.

또한, 본 발명에서 설명하고 있는 복합 기능이란, 하이브리드 음성인식 플랫폼 내부에서 수행되는 인식의 과정을 로그를 통해 분석하고 자동적으로 음성인식의 성능을 평가함에 있어 화면 출력의 정합성과 음성 안내 출력의 정합성, 테스트 환경 정보의 기록 등을 부가하는 것을 의미하며, 이를 통해 성능 평가의 신뢰도를 크게 높일 수 있으며, 환경 정보에 대한 체계적인 관리가 가능한 장점을 제공할 수 있게 되는 것이다.

요약하자면, 하이브리드 음성인식 시스템의 상이한 결과에 대하여 통합적으로 분석하는 통합결과분석부(330)와 음성인식 환경 및 동작 성능을 분석하는 정합성결과분석부(340)를 통해 종래 기술들에서 해결하지 못하는 이종 결과 분석 자동화와 다중 검증 결과 출력의 문제를 해결할 수 있게 되는 것이다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

100 : 하이브리드단말기
200 : 클라우드서버
300 : 음성인식평가자동화장치

Claims

하이브리드 음성인식 복합 성능 자동 평가시스템에 있어서,
자연어 처리모듈을 포함하여 구성되되, 상기 자연어 처리모듈에 의해 처리된 음성인식 결과 텍스트에서 사용자의 명령 대상값을 추출하기 위한 단말언어이해부 (140)와,
상기 추출된 사용자의 명령 대상값을 토대로 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 인식 결과값을 추출하기 위한 단말음성인식엔진부(130)와,
상기 단말언어이해부(140)에서 제공된 음성인식 결과 텍스트에서 추출된 명령 대상값, 단말음성인식엔진부에서 제공된 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버(200)의 서버언어이해부에서 제공된 사용자의 추출된 명령 대상값, 클라우드서버(200)의 서버음성인식엔진부에서 제공된 음성 인식 결과값을 비교하여 어느 하나의 인식 결과값을 구동 명령값으로 지정하여 하이브리드음성인식미들웨어부(120)로 제공하기 위한 결과조정부(150)와,
상기 결과조정부(150)에 의해 제공된 구동 명령값을 로그부(400)에 저장시키기 위한 하이브리드음성인식미들웨어부(120)와,
상기 구동 명령값을 저장하고 있는 로그부(400)와,
음성인식평가자동화장치(300)와 연결되어 상기 로그부(400)에 저장된 로그 정보를 음성인식평가자동화장치(300)로 제공하기 위한 인터페이스부(110)를 포함하여 구성되는 하이브리드단말기(100)와;

상기 하이브리드단말기(100)에서 전송된 음성을 획득하여 사용자의 명령 대상값을 추출하기 위한 서버언어이해부(220)와,
사용자의 명령 대상값을 토대로 음성 인식 결과값을 추출하기 위한 서버음성인식엔진부(210)를 포함하여 구성되는 클라우드서버(200)와;

음성 버튼을 누를 경우에 음성 인식 구동 명령값을 자동화제어부(310)로 제공하기 위한 웨이크업자동제어부(370)와,
상기 음성 인식 구동 명령값을 획득할 경우에 하이브리드단말기의 인터페이스부에서 제공된 로그 정보를 로그분석부로 제공하기 위한 자동화제어부(310)와,
상기 로그 정보를 토대로 분석된 음성인식 시작 시점과 종료 시점의 정보를 이용하여 음성인식을 시작하거나 종료하기 위한 로그분석부(320)와,
상기 로그 정보를 토대로 하이브리드단말기의 음성인식 결과 텍스트에서 추출된 명령 대상값, 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버의 추출된 명령 대상값, 음성 인식 결과값 및 결과조정부에 의해 지정된 구동 명령값을 분석하여 평가 결과를 산출하기 위한 통합결과분석부(330)와,
단말기 화면에 사용자의 음성 명령과 일치하는 결과값이 출력되는지 분석하며, 사용자의 음성 명령에 매칭되는 음성 확인 안내 멘트가 출력되는지 분석하기 위한 정합성결과분석부(340)와,
메모리에 저장된 카메라 영상과 캔통신 정보를 참조하여 음성 인식이 수행될 때 주변 환경 정보를 기록하기 위한 음성인식평가환경기록부(350)와,
상기 통합결과분석부(330)에 의해 산출된 평가 결과, 상기 정합성결과분석부에 의해 분석된 정합성 검증 결과, 상기 음성인식평가환경기록부에 의해 기록된 주변 환경 정보를 동시에 출력하기 위한 결과출력부(360)를 포함하여 구성되는 음성인식평가자동화장치(300)를 포함하여 구성되는 하이브리드 음성인식 복합 성능 자동 평가시스템.
제 1항에 있어서,
상기 자동화제어부(310)는,
평가 시나리오를 저장하고 있는 평가시나리오저장부(316)와,
상기 평가시나리오저장부에 저장될 평가 시나리오를 제공받는 평가시나리오입력부(311)와,
로그분석부에 의해 분석된 음성인식 시작 시점과 종료 시점, 프롬프트 출력 시점의 정보를 이용하여 평가 시나리오의 시작부터 음성인식 자동 평가를 수행하되, 음성인식시작부를 동작시켜 자동으로 음성 인식이 수행되도록 하는 자동평가시작부(312)와,
자동평가시작부의 제어에 따라 자동으로 음성 인식을 수행하기 위한 음성인식시작부(313)와,
음성 인식 수행시, 테스트 시간을 줄이기 위하여 안내 프롬프트를 중단시키기 위한 안내프롬프트스킵부(314)와,
비프음이 발생 된 이후에 녹음된 음성 정보를 출력하기 위한 인식명령어디비재생부(315)와,
평가 시나리오에 따라 평가 항목이 존재하는지를 판단하여 존재하지 않을 경우에 평가 시나리오를 종료하기 위한 시나리오종료판단부(317)를 포함하는 것을 특징으로 하는 하이브리드 음성인식 복합 성능 자동 평가시스템.
제 1항에 있어서,
상기 통합결과분석부(330)는,
하이브리드단말기의 음성인식 결과 텍스트에서 추출된 명령 대상값, 미리 입력된 단어나 문장에 근접한 결과를 명령어로 인식하여 추출된 인식 결과값, 클라우드서버의 추출된 명령 대상값, 음성 인식 결과값 및 결과조정부에 의해 지정된 구동 명령값의 서로 다른 포맷을 분석하여 결과 포맷의 유형을 판독하기 위한 인식결과포맷분별부(331)와,
상기 판독된 결과포맷의 유형이 기록되어 있는 인식결과포맷분류기록부(332)와,
상기 기록된 결과 포맷의 유형을 참조하여 하이브리드단말기 혹은 클라우드서버 중 어디에서 수행하였는지를 판단하기 위한 인식결과유형판단부(333)와,
상기 판단된 결과값을 참조하여 최종 인식 결과값으로 기록하기 위한 인식결과결정부(334)를 포함하여 구성되는 하이브리드 음성인식 복합 성능 자동 평가시스템.
제 1항에 있어서,
정합성결과분석부(340)는,
음성인식이 수행된 후, 화면 GUI의 변경을 카메라를 통해 획득하여 정답 화면과 비교하여 차이점을 구분하는 화면출력정합성검증모듈과,
음성인식 결과, 음성 안내 멘트 출력음을 정답 음성과 비교하여 정합성을 판단하는 음성출력정합성검증모듈을 포함하여 구성되는 하이브리드 음성인식 복합 성능 자동 평가시스템.
제 1항에 있어서,
상기 로그 정보에는,
음성인식 시작시간 정보, 마이크 열림/닫힘 정보, 음성 구간 추출 정보 중 적어도 어느 하나 이상의 자동화 처리를 위한 정보와,
음성인식 결과 정보, 시나리오 천이 정보, 안내 프롬프트 출력 정보 중 적어도 어느 하나 이상의 인식 결과 및 안내 정보를 포함하는 것을 특징으로 하는 하이브리드 음성인식 복합 성능 자동 평가시스템.