KR20140057018A

KR20140057018A - 스마트 피드백 음성인식 시스템

Info

Publication number: KR20140057018A
Application number: KR1020120123605A
Authority: KR
Inventors: 안영욱
Original assignee: 현대모비스 주식회사
Priority date: 2012-11-02
Filing date: 2012-11-02
Publication date: 2014-05-12

Abstract

시스템 스스로 사용자의 음성인식 시스템 사용 숙련도를 평가하고, 평가 결과에 따라 안내 및 사용성을 달리하여 제공하는 음성인식 시스템이 개시된다.
본 발명의 일 면에 따른 스마트 피드백 음성인식 시스템은 사용자에 의해 발화된 음성에 따라 사용자를 인식하고, 인식된 사용자에 대한 음성인식 시스템 사용 숙련도를 평가하는 통계적 화자 패턴 조절모듈과, 상기 통계적 화자 패턴 조절모듈에서 전송되는 정보에 기초하여 사용자에게 시나리오 테이블에 저장되어 있는 복수의 시나리오 중에서 어느 하나의 시나리오를 선택하여 제공하는 ASR 시스템과, 사용자의 음성인식 시스템 사용 숙련도(Level 1 ~ Level n)에 따라 제공될 수 있는 하나 이상의 시나리오 데이터가 저장된 시나리오 테이블을 포함한다.

Description

스마트 피드백 음성인식 시스템{Smart feedback voice recognition system}

본 발명은 음성인식 시스템에 관한 것으로서, 보다 상세하게는 시스템 스스로 사용자의 음성인식 시스템 사용 숙련도를 평가하고, 평가 결과에 따라 안내 및 사용성을 달리하여 제공하는 음성인식 시스템에 관한 것이다.

도 1은 종래 기술에 따른 음성인식 시스템에서 사용자의 숙련도에 따라 시나리오를 달리하여 제공하는 일 예를 도시한 예시도이다.

도 1을 참조하면, 종래 기술에 따른 음성인식 시스템은 초보자/숙련 모드 등의 셋업 기능을 제공하며, 사용자의 선택에 따라 초보자 모드나 숙련 모드로 시스템의 시나리오 지원 범위를 셋팅할 수 있게 하였다. 즉, 사용자로 하여금 수동으로 셋팅을 하여 음성인식 시스템의 사용 숙련도에 따라 지원되는 모드를 선택할 수 있게 하였지만 이를 인지하기 위해서는 사용자가 복잡한 멀티미디어 사양서 등을 읽어보고 직접 수행해야 한다.

여기서, 초보자 모드란 초보 사용자를 위한 음성인식 시스템 설정으로 일반적으로 시스템에 대한 자세한 안내가 이루어지며, 숙련 모드에서는 최소한의 안내로만 음성인식 시스템을 사용하도록 사용자를 유도한다.

이와 같이 종래 기술에 따른 음성인식 시스템은 사용자로 하여금 수동으로 사용자 모드를 선택할 수 있게 하지만 대부분의 사용자는 이러한 셋업 기능을 인지하지 못하고 있는 것이 현실이다.

본 발명은 상술한 종래 기술의 문제점을 해결하기 위하여, 사용자 접근성을 향상시킬 수 있는 음성인식 시스템을 제공하는 것을 목적으로 한다.

본 발명의 다른 목적은 사용자의 숙련도를 시스템이 자동으로 평가하고, 평가 결과에 따라 안내 및 사용성을 달리하여 제공하는 음성인식 시스템을 제공하는 것이다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 일 면에 따른 스마트 피드백 음성인식 시스템은 사용자에 의해 발화된 음성에 따라 사용자를 인식하고, 인식된 사용자에 대한 음성인식 시스템 사용 숙련도를 평가하는 통계적 화자 패턴 조절모듈과, 상기 통계적 화자 패턴 조절모듈에서 전송되는 정보에 기초하여 사용자에게 시나리오 테이블에 저장되어 있는 복수의 시나리오 중에서 어느 하나의 시나리오를 선택하여 제공하는 ASR 시스템과, 사용자의 음성인식 시스템 사용 숙련도(Level 1 ~ Level n)에 따라 제공될 수 있는 하나 이상의 시나리오 데이터가 저장된 시나리오 테이블을 포함한다.

상기 통계적 화자 패턴 조절모듈은 인식된 사용자의 음성인식 사용 패턴을 통계적인 수치로 표현하고, 이에 의하여 인식된 사용자의 시스템 사용 숙련도를 수치로 평가한다.

또한, 상기 통계적 화자 패턴 조절모듈은 사용자의 총 누적 음성인식 시스템 시도 횟수(CVR), 인식 성공 및 실패 횟수(SVR, FVR), 사용자 발화에 의해 제시된 명령어의 인식 거절 횟수(RVR), 인식된 결과의 신뢰도 지수(CSVR), 인식결과(RTVR), 사용자 변경 정보(SSVR) 중 적어도 하나를 이용하여 인식된 사용자의 시스템 사용 숙련도를 수치로 평가한다.

또한, 상기 통계적 화자 패턴 조절모듈은 특정 사용자가 상기 ASR 시스템을 사용한 경험 정보를 수집하여 저장하는 자동응답 결과 정보 수집부와, 상기 경험 정보를 이용하여 특정 사용자의 시스템 사용 패턴을 통계적인 수치로 표현하는 화자 패턴 인식부와, 통계적인 수치로 표현된 사용자의 시스템 사용 패턴에 기초하여 사용자의 시스템 숙련도를 평가하는 화자 숙련도 평가부를 포함한다.

시나리오 데이터는 안내를 위한 프롬프트 아이디(Prompt ID, PID)와 화면 표시를 위한 디스플레이 아이디(Display ID, DID)를 한다.

이상 상술한 바와 같이 본 발명에 따르면 사용자의 숙련도를 시스템이 자동으로 평가하고, 평가 결과에 따라 안내 및 사용성을 달리하여 제공함으로써 지원하지 않는 명령어는 감소시키고 사용자에게 정확한 사용법을 숙지시킬 수 있으며, 이로 인해 사용자의 체감 음성인식률을 향상시킬 수 있는 이점이 있다.

또한, 본 발명에 따르면 음성인식 시스템의 초보 사용자와 숙련 사용자 모두를 만족시킬 수 있는 시나리오를 제공하기 때문에 모든 사용자를 타겟으로 하는 음성인식 시스템의 구현이 가능하다.

도 1은 종래 기술에 따른 음성인식 시스템에서 사용자의 숙련도에 따라 시나리오를 달리하여 제공하는 일 예를 도시한 예시도이다.
도 2는 본 발명의 실시예에 따른 음성인식 시스템의 블록 구성도이다.
도 3은 도 2의 통계적 사용 패턴 조절모듈의 구체적인 구성을 도시한 블록 구성도이다.
도 4는 도 2의 시나리오 테이블의 일 예를 도시한 예시도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

음성인식 시스템은 다양한 사용자가 사용해야 하는 최첨단 시스템인 반면, 설계자 입장에서는 사용자의 접근성을 높이기 위한 다양한 고민을 하게 된다. 음성인식 시스템을 처음 접하는 사용자부터, 능수 능란하게 사용할 수 있는 사용자를 모두 만족시키기 위해서 이러한 고민은 필수적이다. 일반적인 음성인식 시스템에서는 사용자가 음성인식을 개시하면 미리 설정된 시나리오에 의존하여 자동음성 안내를 제공한다. 예컨대, “명령어를 말씀해 주세요”라는 음성안내를 제공하거나, “명령어를 말씀해 주세요. 가능한 명령어는 FM, AM, …”와 같은 음성안내를 미리 설정된 시나리오에 의존하여 제공한다. 이 경우, 제공되는 음성안내는 모든 사용자에게 대해 동일하며, 또한 음성인식 개시와 함께 음성인식 사용자 인터페이스에 표시되는 명령어들은 화면의 제약(크기 등)으로 음성인식 가능한 명령어가 모두 표시되지 못하는 경우가 있다.

이와 같은 문제는 임의의 사용자에 대한 음성인식 시스템 사용 숙련도를 평가하고, 이에 따라 음성인식 시스템에서 제공되는 사용자 인터페이스 및 시나리오 음성 안내를 다르게 적용함으로써 해결할 수 있다.

이를 위한 본 발명에 따른 음성인식 시스템의 구체적인 구성을 도 2 내지 도 4를 참조하여 구체적으로 설명한다.

도 2는 본 발명의 실시예에 따른 음성인식 시스템의 블록 구성도이다.

도 2를 참조하면, 본 발명의 실시예에 따른 음성인식 시스템은 통계적 화자 패턴 조절모듈(10)과, ASR 시스템(20)과, 시나리오 테이블(30)을 포함한다.

통계적 화자 패턴 조절모듈(10)은 화자(1)에 의해 발화된 음성에 따라 사용자를 인식하고, 인식된 사용자에 대한 음성인식 시스템 사용 숙련도를 평가한다. 이를 위한 일 실시예로서, 통계적 화자 패턴 조절모듈(10)는 인식된 사용자의 음성인식 사용 패턴을 통계적인 수치로 평가하고 이에 의하여 인식된 사용자의 시스템 사용 숙련도를 수치로 표현한다. 평가 또는 표현된 인식 사용자의 사용 패턴의 통계적 수치 또는 사용 숙련도에 대한 수치는 ASR 시스템(20)으로 전송되어 사용자 시스템 숙련도에 따라 사용자 인터페이스 및 시나리오 음성 안내를 달리하여 제공하기 위한 기초로 활용되는데 이에 대한 구체적인 설명은 이하, 도 3을 참조하여 구체적으로 설명한다.

ASR 시스템(20)은 음성으로 된 각종 정보(대화 시나리오)를 기억장치에 저장하여 사용자가 원하는 정보를 자동으로 전달한다. 즉, 시나리오 별로 각종 정보를 저장하여 두고, 사용자에 의해 음성인식이 개시되면 음성으로 필요한 정보를 검색할 수 있도록 사용법을 알려주고, 필요한 정보를 찾으면 이를 음성으로 안내한다.

또한, 본 발명에서 ASR 시스템(20)은 통계적 화자 패턴 조절모듈(10)에서 전송되는 정보에 기초하여 사용자에게 시나리오 테이블(30)에 저장되어 있는 복수의 시나리오 중에서 어느 하나의 시나리오를 선택하여 제공한다.

이를 위해 ASR 시스템(20)은 통계적 화자 패턴 조절모듈(10)에서 전송된 정보에 기초하여 시나리오 테이블(30)에 저장되어 있는 어느 하나의 시나리오를 선택하고 이를 읽어오는 시나리오 조절 모듈(21)과, 읽어 온 시나리오에 포함된 정보를 조합하여 음성으로 안내되는 정보를 생성하는 ASR 엔진(22)과, 텍스트 형태의 음성 안내 정보를 음성으로 변환하는 TTS 엔진(23)으로 구성된다. 이때, 시나리오 테이블(30)에 저장되는 복수의 시나리오 각각은 시나리오 아이디(Scenario ID, 이하 SID)를 가지고, 이에 의해 식별될 수 있는데, 시나리오 테이블(30)에 저장되는 시나리오에 포함되는 구체적인 정보를 도 4를 참조하여 설명한다.

도 4는 도 2의 시나리오 테이블의 일 예를 도시한 예시도이다.

도 4에 도시된 바와 같이, 시나리오 테이블(30)에는 사용자의 음성인식 시스템 사용 숙련도(Level 1 ~ Level n)에 따라 제공될 수 있는 하나 이상의 시나리오 데이터가 저장되어 있으며, 이는 SID로 식별된다. 또한, 시나리오 데이터는 안내를 위한 프롬프트 아이디(Prompt ID, 이하 PID)와 화면 표시를 위한 디스플레이 아이디(Display ID, 이하 DID)를 포함할 수도 있고, 사용자의 숙련도에 따른 DID나 PID의 재정의가 불필요한 항목들(예를 들어, Help 화면과 안내와 같은 경우)은 Common SID로 정의한다.

도 3은 도 2의 통계적 사용 패턴 조절모듈의 구체적인 구성을 도시한 블록 구성도이다.

도 3을 참조하면, 통계적 사용 패턴 조절모듈(10)은 화자 패턴 인식부(11)와, 피드백 정보 전송부(12)와, 화자 숙련도 평가부(13)와, 자동응답 결과 정보 수집부(14)로 구성된다.

전술한 바와 같이, 본 발명에 따른 음성인식 시스템은 사용자의 숙련도를 통계적 수치로 평가하는데, 이를 평가하기 위한 시스템 사용 패턴은 전적으로 음성인식 시스템 내부에서 획득된다.

일 실시예로서, 사용자 숙련도는 사용자의 총 누적 음성인식 시스템 시도 횟수(CVR), 인식 성공 및 실패 횟수(SVR, FVR), 사용자 발화에 의해 제시된 명령어의 인식 거절 횟수(RVR), 인식된 결과의 신뢰도 지수(CSVR), 인식결과(RTVR), 사용자 변경 정보(SSVR) 중 적어도 하나를 이용하여 평가될 수 있다.

전술한 정보들은 자동응답 결과 정보 수집부(14)에 의해 ASR 시스템(20)으로부터 수집/저장되고, 화자 패턴 인식부(11)는 수집/저장된 상기 정보 중 적어도 하나를 이용하여 사용자의 시스템 사용 패턴을 통계적인 수치로 표현한다.

화자 숙련도 평가부(13)는 통계적인 수치로 표현된 사용자의 시스템 사용 패턴에 기초하여 사용자의 시스템 숙련도를 도 4에 도시된 바와 같은 수치로 평가한다.

화자 숙련도 평가부(13)가 인식결과(RTVR)를 이용한 숙련도 평가의 일 실시예로서, 음성인식 명령어를 특성에 맞게 도메인으로 나눈 후(예를 들어, Radio, USB, Phone, navigation 단순 조작, navigation 길 찾기) 각 도메인에 대한 누적 인식결과를 계산한다. 계산된 결과를 이용하여 각 도메인 별로 음성인식 사용 빈도에 따른 사용자의 레벨 조절이 가능하다. 예를 들어, A 사용자가 Radio, USB에 대해서만 음성인식 기능을 사용하였다면, A 사용자는 초급 사용자로 가정하고 1 포인트의 레벨 포인트를 매길 수 있고, 이에 반해 B 사용자가 음성인식의 여러 시나리오를 거쳐 그 명령을 완성하는 전화 걸기 및 길 찾기 기능의 사용자라면, B 사용자에게는 5 포인트의 레벨 포인트를 부여할 수 있다. 이러한 RTVR은 사용자의 음성인식 사용 숙련도를 알 수 있는 지표로서 활용되는 것이다.

사용자의 총 누적 음성인식 시스템 시도 횟수(CVR)를 이용한 숙련도 평가의 일 실시예로서, 레벨 포인트는 전술한 방법과 유사한 방법으로 계산이 가능하다. 음성인식 총 사용 횟수에 따라 10회 미만은 1 포인트, 각 10회 추가 사용시마다 1 포인트씩, 최대 10 포인트까지 레벨 포인트가 부여될 수 있도록 한다. 이러한 CVR은 음성인식 시스템의 사용 경험치를 나타내는 지표로 활용되는 것이다.

인식 성공 및 실패 횟수(SVR, FVR)은 그 비율에 따라 레벨 포인트가 달리 계산될 수 있다. 일 실시예로, 인식 실패 횟수의 비율이 0~10%이면 10 포인트, 11~20%이면 9 포인트, …, 91~100%인 경우에는 1 포인트가 부여될 수 있다. 이는 사용자의 음성인식 시스템 컨트롤 숙련도를 평가하는 지표로 활용되는 것이다.

인식된 결과의 신뢰도 지수(CSVR)는 음성인식 엔진에 따라 정보가 주어지는 경우도 있고 그렇지 않은 경우도 있지만 대부분 음성인식 엔진은 동일한 정보를 제공한다. 인식 결과가 동일하게 Radio라도 신뢰도가 60%이면서 인식된 경우도 있고 80%이면서 인식된 경우도 있다. 음성인식 명령이 인식 되었을 때의 신뢰도 점수를 누적 평균하여 그 구간에 따라 레벨 포인트를 차등하여 줄 수 있을 것이다. 이는 사용자의 발성 명료도와 정확한 명령어 인지도를 표현한다고 할 수 있다.

마지막으로 사용자 변경 정보(SSVR)는 사용자가 변경되었다는 정보를 의미하는 것으로서, 음성인식 엔진이 인지하여 전달하여 주면 기존 통계 정보를 리셋하기 위하여 사용될 것이다.

피드백 정보 전송부(12)는 화자 패턴 인식부(11) 또는 화자 숙련도 평가부(13)에서의 출력된 결과를 ASR 시스템(20)으로 전송하여, ASR 시스템(20)이 어느 하나의 시나리오를 선택하는데 기초 자료로 활용할 수 있게 한다.

한편, 본 발명에 따른 음성인식 시스템은 PID와 DID를 구분하여 운용할 수도 있고, 구현의 난이도를 조절하기 위해, PID와 DID를 통함하여 하나의 SID로 운영할 수도 있을 것이다.

이하, 도 4에 도시된 바와 같이 시나리오 데이터에 사용자의 숙련도가 5개의 레벨로 나뉘어 각 레벨에 해당하는 PID 데이터가 저장된 경우, 각 레벨에서 시나리오 안내가 제공되는 일 예를 설명한다.

Level 1 : "현대 자동차 음성인식 시스템입니다. 음성인식을 시작하기 위해서는 음성 명령어를 알고 있어야 하며, 음성안내가 끝난 후 비프음이 들리면 명령어를 발화하여 주시면 됩니다. 가능한 명령어는 다음과 같습니다. 라디오, USB, CD, 전화걸기, 라디오 95.8, …. <BEEP>"

Level 2 : "음성안내가 끝나고 비프음이 들리면 명령어를 말씀해 주세요. 가능한 명령어는 다음과 같습니다. "라디오, USB, CD, 전화걸기, 라디오 95.8, …. . <BEEP>"

Level 3 : "명령어를 말씀해 주세요. 가능한 명령어는 라디오, USB, CD, 전화걸기 입니다. <BEEP>"

Level 4 : "명령어를 말씀해 주세요. <BEEP>"

Level 5 : "<BEEP>"

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

사용자에 의해 발화된 음성에 따라 사용자를 인식하고, 인식된 사용자에 대한 음성인식 시스템 사용 숙련도를 평가하는 통계적 화자 패턴 조절모듈;
상기 통계적 화자 패턴 조절모듈에서 전송되는 정보에 기초하여 사용자에게 시나리오 테이블에 저장되어 있는 복수의 시나리오 중에서 어느 하나의 시나리오를 선택하여 제공하는 ASR 시스템;
사용자의 음성인식 시스템 사용 숙련도(Level 1 ~ Level n)에 따라 제공될 수 있는 하나 이상의 시나리오 데이터가 저장된 시나리오 테이블
을 포함하는 스마트 피드백 음성인식 시스템.
제1항에 있어서, 상기 통계적 화자 패턴 조절모듈은,
인식된 사용자의 음성인식 사용 패턴을 통계적인 수치로 표현하고, 이에 의하여 인식된 사용자의 시스템 사용 숙련도를 수치로 평가하는 것
인 스마트 피드백 음성인식 시스템.
제1항에 있어서, 상기 통계적 화자 패턴 조절모듈은,
사용자의 총 누적 음성인식 시스템 시도 횟수(CVR), 인식 성공 및 실패 횟수(SVR, FVR), 사용자 발화에 의해 제시된 명령어의 인식 거절 횟수(RVR), 인식된 결과의 신뢰도 지수(CSVR), 인식결과(RTVR), 사용자 변경 정보(SSVR) 중 적어도 하나를 이용하여 인식된 사용자의 시스템 사용 숙련도를 수치로 평가하는 것
인 스마트 피드백 음성인식 시스템.
제1항에 있어서, 상기 통계적 화자 패턴 조절모듈은,
특정 사용자가 상기 ASR 시스템을 사용한 경험 정보를 수집하여 저장하는 자동응답 결과 정보 수집부와,
상기 경험 정보를 이용하여 특정 사용자의 시스템 사용 패턴을 통계적인 수치로 표현하는 화자 패턴 인식부와,
통계적인 수치로 표현된 사용자의 시스템 사용 패턴에 기초하여 사용자의 시스템 숙련도를 평가하는 화자 숙련도 평가부를 포함하는 것
인 스마트 피드백 음성인식 시스템.
_{제1항에 있어서, 상기 시나리오 데이터는,}
시나리오 데이터는 안내를 위한 프롬프트 아이디(Prompt ID, PID)와 화면 표시를 위한 디스플레이 아이디(Display ID, DID)를 포함하는 것
인 스마트 피드백 음성인식 시스템.