KR101664080B1

KR101664080B1 - 음성 다이얼링 시스템 및 방법

Info

Publication number: KR101664080B1
Application number: KR1020150106646A
Authority: KR
Inventors: 백순권; 방규섭; 김비호; 곽우영; 박성수
Original assignee: 현대자동차 주식회사
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2016-10-10

Abstract

본 발명은 음성 다이얼링 시스템 및 방법에 관한 것으로, 본 발명의 하나의 실시예에 따른 모바일 기기 또는 원격지 서버와 유무선 통신으로 연결되어 있는 음성 다이얼링 시스템은 모바일 기기 또는 서버로부터 전화번호부를 수신하는 전화번호부 수신부, 수신된 전화번호부에 저장되어 있는 성명(name)의 형태에 기초하여 복수의 컨텍스트 및 복수의 발음열을 생성하는 데이터 생성부, 사용자의 음성 명령어를 수신하고 수신된 음성 명령어로부터 특징벡터를 추출하는 특징벡터 추출부, 그리고 복수의 발음열, 특징벡터, 그리고 미리 저장되어 있는 음향모델에 기초하여 명령어에 대한 음성 인식을 수행하는 음성인식 및 처리부를 포함한다.

Description

음성 다이얼링 시스템 및 방법{VOICE DIALING SYSTEM AND METHOD THEREOF}

본 발명은 음성 다이얼링 시스템 및 방법에 관한 것이다.

최근 운전자의 안전성과 편의성을 증대시키기 위한 차량용 인포테인먼트(infortainment) 시스템의 연구가 활발히 진행되고 있다. 인포테인먼트 시스템은 운전자의 음성 명령어를 인식하여 음악 듣기, 내비게이션 목적지 설정, 전화 걸기 및 메시지 보내기 등의 기능을 제공하는 시스템이다.

차량 인포테인먼트 시스템을 통해 단음절 명령어부터 다음절 명령어까지 모든 음성 명령어의 인식이 가능하나, 운전자로부터 음성 정보가 적은 명령어가 수신되는 경우에는 음성 인식이 제대로 수행되지 않아 운전자가 요구하는 기능을 제공하기 어렵다.

특히, 사용자의 모바일 기기에 저장되어 있는 전화번호부를 내려받아 음성 다이얼링 서비스(Voice Activated Dialing, VAD)를 제공하는 경우, 음성 정보가 부족한 단음절 이름의 인식 성능은 음성 정보가 충분한 다음절 이름의 인식 성능보다 낮다. 구체적으로, 전화번호부에 저장되어 있는 이름은 "James Smith"와 같이 성과 이름으로 구성된 Full name과 "Johnson"과 같이 성 또는 이름으로만 구성된 Single name을 포함한다. Single name은 "Mom" 또는 "Dad"와 같이 하나의 모음으로 구성되거나 "Joy"와 같이 하나의 이중 모음으로 구성된 단음절 이름(Monosyllable name)을 포함한다. 이때, 단음절 이름은 전체 길이가 300ms 내지 400ms 내외로 음성인식을 위한 충분한 음성 정보를 가지고 있지 않다는 점에서 Full name 대비 인식 성능이 낮다. 이로 인해, 전화번호부에 저장되어 있는 이름의 개수가 늘어날수록 즉, 음성인식 검색 범위가 증가하는 경우와 자동차 환경에서 소음이 증가하는 경우 단음절 이름의 인식 성능은 더 낮아질 수 있다.

본 발명의 하나의 실시예가 해결하려는 과제는 단음절 명령어의 인식 성능을 향상시키기 위한 음성 다이얼링 시스템 및 방법을 제공하는 것이다.

상기 과제 이외에도 구체적으로 언급되지 않은 다른 과제를 달성하는 데 본 발명에 따른 실시예가 사용될 수 있다.

상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 모바일 기기 또는 원격지 서버와 유무선 통신으로 연결되어 있고, 모바일 기기 또는 서버로부터 전화번호부를 수신하는 전화번호부 수신부, 수신된 전화번호부에 저장되어 있는 성명(name)의 형태에 기초하여 복수의 컨텍스트를 생성하고, 복수의 컨텍스트에 대응하는 복수의 발음열을 생성하는 데이터 생성부, 사용자의 음성 명령어를 수신하고 수신된 음성 명령어로부터 특징벡터를 추출하는 특징벡터 추출부, 그리고 복수의 발음열, 특징벡터, 그리고 미리 저장되어 있는 음향모델에 기초하여 명령어에 대한 음성 인식을 수행하는 음성인식 및 처리부를 포함하는 음성 다이얼링 시스템을 제안한다.

여기서, 데이터 생성부는, 수신된 전화번호부에 저장되어 있는 성명 중에서 이름(first name)과 성(last name)을 모두 포함하는 형태의 성명을 저장하는 full name 컨텍스트, 이름과 성을 모두 포함하는 형태의 성명에서 이름과 성을 각각 분리하여 저장하는 Partial name 컨텍스트, 성, 이름, 또는 호칭(appellation) 형태의 성명을 저장하는 Single name 컨텍스트, 그리고 미리 정의되어 있는 성, 이름, 또는 호칭 형태의 성명을 저장하는 Defined name 컨텍스트를 생성하는 컨텍스트 생성부와, Full name 컨텍스트, Partial name 컨텍스트, Single name 컨텍스트, 그리고 Defined name 컨텍스트에 각각 대응하는 제1 발음열, 제2 발음열, 제3 발음열, 그리고 제4 발음열을 생성하는 발음열 생성부를 포함할 수 있다.

또한, 음성인식 및 처리부는, 음향모델과 특징벡터, 그리고 제1 발음열, 제2 발음열, 제3 발음열, 그리고 제4 발음열에 기초하여 음성 인식을 수행하며, 제1 발음열의 인식결과에 대한 제1 신뢰값, 제2 발음열의 인식 결과에 대한 제2 신뢰값, 제3 발음열의 인식결과에 대한 제3 신뢰값, 그리고 제4 발음열의 인식결과에 대한 제4 신뢰값을 산출하는 음성 인식부와, 제1 신뢰값, 제2 신뢰값, 제3 신뢰값, 그리고 제4 신뢰값에 가중치를 적용하여 각각에 대응하는 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값을 산출하는 가중치 적용부를 포함할 수 있다.

또한, 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값에 기초하여 N개의 인식결과 후보군을 출력하고 후보군에서 사용자가 선택한 성명에 대응하는 전화번호를 이용하여 전화 걸기 또는 메시지 송신을 수행하는 결과 생성부를 더 포함할 수 있다.

또한, N개의 인식결과 후보군이 Defined name 컨텍스트에 저장된 단음절 성명을 포함하고 사용자가 단음절 성명을 선택하는 경우 아래의 수학식에 의해 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하고,

(여기서, C_max는 N개의 인식결과 후보군 중 1위 후보의 신뢰값이며, C_min은 N위 후보의 신뢰값이다.)

아래의 수학식에 의해 제1 가중치(

)를 산출하고,

사용자가 선택한 단음절 성명의 신뢰값(C_name)에 제1 가중치(

)를 더하여 저장하는 단음절 명령어 강화부를 더 포함할 수 있다.

또한, N개의 인식결과 후보군이 Single name 컨텍스트에 포함된 단음절 성명을 포함하고 사용자가 단음절 성명을 선택하는 경우 음향모델과 특징벡터, 그리고 제4 발음열에 기초하여 음성 인식을 수행한 결과의 1순위 후보를 N개의 인식결과 후보군의 N번째 후보로 삽입하고, 아래의 수학식에 의해 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하고,

아래의 수학식에 의해 제2 가중치(

)를 산출하고,

사용자가 선택한 단음절 성명의 신뢰값(C_name)에 제2 가중치(

또한, N개의 인식결과 후보군과 N개의 인식결과 후보군에서 사용자가 선택한 단음절 성명을 포함하는 트레이닝 샘플을 수집하여 트레이닝 데이터셋을 생성하고 트레이닝 데이터셋을 이용하여 기계 학습을 수행하는 단음절 명령어 강화부를 더 포함할 수 있다.

상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 모바일 기기 또는 원격지 서버와 유무선 통신으로 연결되어 있는 음성 다이얼링 시스템을 이용하며, 모바일 기기 또는 서버로부터 전화번호부를 수신하는 단계, 수신된 전화번호부에 저장되어 있는 성명(name)의 형태에 기초하여 Full name 컨텍스트, Partial name 컨텍스트, Single name 컨텍스트, 그리고 Defined name 컨텍스트를 생성하는 단계, Full name 컨텍스트, Partial name 컨텍스트, Single name 컨텍스트, 그리고 Defined name 컨텍스트에 대응하는 제1 발음열, 제2 발음열, 제3 발음열, 그리고 제4 발음열을 생성하는 단계, 사용자의 음성 명령어를 수신하고 음성 명령어로부터 특징벡터를 추출하는 단계, 그리고 제1 발음열, 제2 발음열, 제3 발음열, 그리고 제4 발음열과 특징벡터, 그리고 미리 저장되어 있는 음향모델에 기초하여 음성 명령어에 대한 음성 인식을 수행하는 단계를 포함하는 음성 다이얼링 방법을 제안한다.

여기서, 컨텍스트 생성 단계는, 수신된 전화번호부에 저장되어 있는 성명 중에서 이름(first name)과 성(last name)을 모두 포함하는 형태의 성명을 저장하는 full name 컨텍스트, 이름과 성을 모두 포함하는 형태의 성명에서 이름과 성을 각각 분리하여 저장하는 Partial name 컨텍스트, 성, 이름, 또는 호칭(appellation) 형태의 성명을 저장하는 Single name 컨텍스트, 그리고 미리 정의되어 있는 성, 이름, 또는 호칭 형태의 성명을 저장하는 Defined name 컨텍스트를 생성할 수 있다.

또한, 음성 인식 수행 단계는, 제1 발음열의 인식결과에 대한 제1 신뢰값, 제2 발음열의 인식 결과에 대한 제2 신뢰값, 제3 발음열의 인식결과에 대한 제3 신뢰값, 그리고 제4 발음열의 인식결과에 대한 제4 신뢰값을 산출하는 단계와, 제1 신뢰값, 제2 신뢰값, 제3 신뢰값, 그리고 제4 신뢰값에 가중치를 적용하여 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값을 산출하는 단계를 포함할 수 있다.

또한, 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값에 기초하여 N개의 인식결과 후보군을 출력하는 단계, 후보군에 대한 사용자의 선택을 입력받는 단계, 그리고 사용자가 선택한 성명에 대응하는 전화번호를 이용하여 전화 걸기 또는 메시지 송신을 수행하는 단계를 더 포함할 수 있다.

또한, N개의 인식결과 후보군이 Defined name 컨텍스트에 저장된 단음절 성명을 포함하고 사용자가 단음절 성명을 선택하는 경우 아래의 수학식에 의해 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하는 단계,

아래의 수학식에 의해 제1 가중치(

)를 산출하는 단계, 그리고

사용자가 선택한 단음절 성명의 신뢰값(C_name)에 제1 가중치(

)를 더하여 저장하는 단계를 더 포함할 수 있다.

또한, N개의 인식결과 후보군이 Defined name 컨텍스트에 저장된 단음절 성명을 포함하고 사용자가 단음절 성명을 선택하지 않는 경우 사용자가 선택한 단음절 성명의 신뢰값(C_name)에서 제1 가중치(

)를 빼서 저장하는 단계를 더 포함할 수 있다.

또한, N개의 인식결과 후보군이 Single name 컨텍스트에 포함된 단음절 성명을 포함하고 사용자가 단음절 성명을 선택하는 경우 음향모델과 특징벡터, 그리고 제4 발음열에 기초하여 음성 인식을 수행한 결과의 1순위 후보를 N개의 인식결과 후보군의 N번째 후보로 삽입하는 단계,

아래의 수학식에 의해 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하는 단계,

아래의 수학식에 의해 제2 가중치(

)를 산출하는 단계,

사용자가 선택한 단음절 성명의 신뢰값(C_name)에 제2 가중치(

)를 더하여 저장하는 단계를 더 포함할 수 있다.

또한, N개의 인식결과 후보군이 Single name 컨텍스트에 포함된 단음절 성명을 포함하고 사용자가 단음절 성명을 선택하지 않는 경우 사용자가 선택한 단음절 성명의 신뢰값(C_name)에서 제2 가중치(

)를 빼서 저장하는 단계를 더 포함할 수 있다.

또한, N개의 인식결과 후보군과 N개의 인식결과 후보군에서 사용자가 선택한 단음절 성명을 포함하는 트레이닝 샘플을 수집하는 단계, 트레이닝 샘플을 이용하여 트레이닝 데이터셋을 생성하는 단계, 그리고 트레이닝 데이터셋을 이용하여 기계 학습을 수행하는 단계를 더 포함할 수 있다.

본 발명의 하나의 실시예에 따르면 단음절 명령어의 인식 성능을 향상시킬 수 있다.

도 1은 본 발명의 하나의 실시예에 따른 음성 다이얼링 시스템의 개략적인 구성을 나타낸다.
도 2는 본 발명의 하나의 실시예에 따른 음성 다이얼링 시스템의 상세 구성을 나타낸다.
도 3은 도 2의 음성 다이얼링 시스템을 이용한 음성 다이얼링 방법을 나타낸다.
도 4는 본 발명의 하나의 실시예에 따른 컨텍스트 생성 예시를 나타낸다.
도 5는 본 발명의 하나의 실시예에 따른 가중치를 이용한 단음절 명령어 강화 방법을 나타낸다.
도 6은 본 발명의 하나의 실시예에 따른 기계학습을 이용한 단음절 명령어 강화 방법을 나타낸다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대해 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며 명세서 전체에서 동일 또는 유사한 구성요소에 대해서는 동일한 도면부호가 사용되었다. 또한, 널리 알려져 있는 공지기술의 경우 그 구체적인 설명은 생략한다.

본 명세서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서 기재된 "…부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

본 명세서에서, "모바일 기기(mobile device)"는 음성 또는 영상 통화 기능 및 데이터 통신 기능을 제공하며 차량 내 음성인식 장치와 무선통신으로 연결할 수 있는 휴대용 장치를 의미하며, 예를 들어, 휴대 전화(cellular phone), 휴대용 개인정보단말기(Personal digital Assistant, PDA), 스마트폰(smartphone), 또는 웨어러블 기기(wearable device) 등을 포함한다.

본 명세서에서, "전화번호부(telephone directory)"는 모바일 기기 또는 서버에 저장되어 있으며, 성명, 상호, 그룹, 전화번호, 이메일, 또는 주소 등의 데이터를 포함하는 데이터 목록을 의미하며, 폰 북(phone book)으로 표현할 수 있다. 이때, 성명(name)은 성(last name), 이름(first name), 또는 호칭(appellation) 중 하나 이상을 포함한다.

본 명세서에서, "Bin"은 음성인식 대상을 정의하고 정의된 음성인식 대상에 대해 음성인식을 수행하는 과정을 포함하는 서브세트(subset)를 의미한다. 즉, 전체 음성인식 대상과 이에 대한 음성인식 과정은 복수의 서브세트를 포함한다.

도 1은 본 발명의 하나의 실시예에 따른 음성 다이얼링 시스템의 개략적인 구성을 나타낸다.

도 1의 음성 다이얼링 시스템(20)은 전화번호부 수신부(100), 데이터 생성부(200), 특징벡터 추출부(300), 음성인식 및 처리부(400), 결과 생성부(500), 그리고 단음절 명령어 강화부(600)를 포함한다.

전화번호부 수신부(100)는 운전자의 모바일 기기(10)로부터 전화번호부를 수신한다. 이때, 모바일 기기(10)와 음성 다이얼링 시스템(20)은 유선통신 또는 무선통신으로 연결되어 있다. 또한, 전화번호부 수신부(100)는 원격지 서버로부터 전화번호부를 수신할 수 있다.

데이터 생성부(200)는 전화번호부 수신부(100)를 통해 수신된 전화번호부에 기초하여 음성 인식에 필요한 데이터를 생성한다. 구체적으로, 전화번호부에 저장되어 있는 성명의 형태에 기초하여 복수의 컨텍스트를 생성하고 각각의 컨텍스트에 대응하는 발음열을 생성한다.

특징벡터 추출부(300)는 운전자의 음성 명령어(성명, 성, 이름, 또는 호칭)를 수신하고 수신된 음성 명령어로부터 특징벡터를 추출한다.

음성인식 및 처리부(400)는 특징벡터 추출부(300)에서 추출한 특징벡터와 미리 저장되어 있는 음향모델 및 데이터 생성부(200)에서 생성된 발음열을 이용하여 음성인식을 수행한다.

결과 생성부(500)는 음성인식 및 처리부(400)의 음성인식 수행 결과를 음성인식 신뢰도를 나타내는 신뢰값(confidence score)에 따라 정렬하고 복수의 인식결과 후보를 N-best 형태로 출력한다. 또한, N-best 후보군 중에서 운전자가 선택한 성명으로 전화 걸기 또는 메시지 보내기를 수행한다.

단음절 명령어 강화부(600)는 전화번호부 수신부(100)를 통해 수신된 전화번호부에 저장되어 있는 단음절 성명에 대한 신뢰도를 향상시키기 위하여 가중치 또는 기계학습 기반의 단음절 성명 강화를 수행한다.

아래에서는 도 1의 음성 다이얼링 시스템의 각 구성에 대하여 도 2를 참고하여 상세히 설명한다.

도 2는 본 발명의 하나의 실시예에 따른 음성 다이얼링 시스템의 상세 구성을 나타낸다.

데이터 생성부(200)는 컨텍스트 생성부(210)와 발음열 생성부(220)를 포함한다.

컨텍스트 생성부(210)는 전화번호부 수신부(100)를 통해 수신된 전화번호부에 저장되어 있는 성명(name)의 형태에 기초하여 복수의 컨텍스트를 생성한다. 구체적으로, 이름(first name)과 성(last name)을 모두 포함하는 형태의 성명을 포함하는 Full name 컨텍스트를 생성하는 Full name 컨텍스트 생성부(211), 이름과 성을 모두 포함하는 형태의 성명에서 분리된 이름과 성을 모두 포함하는 Partial name 컨텍스트를 생성하는 Partial name 컨텍스트 생성부(212), 성, 이름, 또는 호칭(appellation) 중 하나로만 구성된 형태의 성명을 포함하는 Single name 컨텍스트를 생성하는 Single name 컨텍스트 생성부, 그리고 미리 정의되어 있는 성, 이름, 또는 호칭 중 하나의 형태의 성명을 포함하는 Defined name 컨텍스트를 생성하는 Defined name 컨텍스트 생성부(214)를 포함한다.

발음열 생성부(220)는 미리 저장되어 있는 발음 변환 모듈을 이용하여 컨텍스트 생성부(210)를 통해 생성된 복수의 컨텍스트에 대응하는 발음열(발음기호)을 생성한다. 구체적으로, Full name 컨텍스트에 대응하는 발음열을 생성하는 제1 발음열 생성부(221), Partial name 컨텍스트에 대응하는 발음열을 생성하는 제2 발음열 생성부(222), Single name 컨텍스트에 대응하는 발음열을 생성하는 제3 발음열 생성부(223), 그리고 Defined name 컨텍스트에 대응하는 발음열을 생성하는 제4 발음열 생성부(224)를 포함한다. 이때, 발음 변환 모듈은 G2P(Grapheme To Phoneme)일 수 있다.

음성인식 및 처리부(400)는 음향모델 저장부(410), 음성 인식부(420), 그리고 가중치 적용부(430)를 포함한다.

음향모델 저장부(410)는 음성 인식부(420)의 음성 인식에 사용되는 음향모델(acoustic model)을 저장한다.

음성 인식부(420)는 음향모델 저장부(410)에 저장되어 있는 음향모델과 발음열 생성부(220)를 통해 생성된 복수의 발음열, 그리고 특징벡터 추출부(300)를 통해 추출된 특징벡터에 기초하여 음성 인식을 수행한다. 이때, 복수의 발음열에 대한 음성인식은 음향모델과 특징벡터에 기초하여 각각 수행한다. 구체적으로, 제1 발음열 생성부(221), 제2 발음열 생성부(222), 제3 발음열 생성부(223), 그리고 제4 발음열 생성부(224)를 통해 생성된 발음열에 기초하여 각각의 음성 인식을 수행하는 제1 음성 인식부(421), 제2 음성 인식부(422), 제3 음성 인식부(423), 그리고 제4 음성 인식부(424)를 포함한다.

가중치 적용부(430)는 음성 인식부(420)를 통해 인식된 결과의 신뢰도를 나타내는 신뢰값(confidence score)에 가중치를 적용한다. 구체적으로, 제1 음성 인식부(421), 제2 음성 인식부(422), 제3 음성 인식부(423), 그리고 제4 음성 인식부(424)를 통해 인식된 결과에 대응하는 제1 신뢰값, 제2 신뢰값, 제3 신뢰값, 그리고 제4 신뢰값에 미리 설정되어 있는 가중치를 적용하는 제1 가중치 적용부(431), 제2 가중치 적용부(432), 제3 가중치 적용부(433), 그리고 제4 가중치 적용부(434)를 포함한다. 즉, 가중치 적용부(430)는 제1 신뢰값, 제2 신뢰값, 제3 신뢰값, 그리고 제4 신뢰값에 미리 설정되어 있는 각각의 가중치를 더하거나 곱하여 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값을 산출한다.

결과 생성부(500)는 가중치 적용부(430)를 통해 산출된 최종 신뢰값에 기초하여 인식결과 후보군을 출력한다. 또한, 후보군에서 운전자가 하나의 성명을 선택하는 경우 선택된 성명에 대응하는 전화번호를 이용하여 전화 걸기 또는 메시지 전송을 수행한다. 예를 들어, 결과 생성부(500)는 도 2와 같이, 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값에 기초하는 인식결과 후보를 1위에서 5위까지 정렬하여 출력할 수 있다.

단음절 명령어 강화부(600)는 결과 생성부(500)를 통해 운전자가 단음절 성명을 선택하는 경우 가중치를 이용하여 선택된 단음절 성명의 음성인식 신뢰도를 향상시키는 제1 단음절 명령어 강화부(610)와 선택된 단음절 성명에 대한 후보군을 트레이닝 데이터로 구성하는 기계학습(Machine Learning)을 이용하여 단음절 성명의 음성인식 신뢰도를 향상시키는 제2 단음절 명령어 강화부(620)를 포함한다.

도 3은 도 2의 음성 다이얼링 시스템을 이용한 음성 다이얼링 방법을 나타낸다.

먼저, 전화번호부 수신부(100)를 통해 운전자의 모바일 기기(10)로부터 전송되는 전화번호부를 수신한다(S100).

S100 단계에서 수신된 전화번호부에 저장되어 있는 성명의 형태에 따라 컨텍스트 생성부(210)를 통해 복수의 컨텍스트를 생성한다(S110).

도 4는 본 발명의 하나의 실시예에 따른 컨텍스트 생성 예시를 나타낸다.

도 4에서 보면, 전화번호부에 저장된 성명 중에서 이름과 성을 모두 포함하는 형태인 David Willson과 James Smith를 포함하는 Full name 컨텍스트를 생성하고, David Willson과 James Smith의 성과 이름을 분리한 형태인 David, Willson, James, Smith를 포함하는 Partial name 컨텍스트를 생성하며, 단음절 형태의 성명에 해당하는 John과 Mom을 포함하는 Single name 컨텍스트를 생성한다. 또한, 전화번호부 또는 통화 목록(call history)에 저장된 성명과 미리 정의된 단음절 성명 목록을 비교하여 매칭되는 단음절 성명에 해당하는 Home과 Ann을 포함하는 Defined name 컨텍스트를 생성한다. 이때, 미리 정의된 단음절 성명 목록에는 발음이 약한(phonetically weak) 이름, 성, 또는 호칭이 저장되어 있다. 또한, Single name 컨텍스트와 Defined name 컨텍스트에 저장된 이름, 성, 또는 호칭은 중복될 수 있다.

다시 도 3의 설명으로 돌아가서, 발음열 생성부(220)를 통해 S110 단계에서 생성된 복수의 컨텍스트에 대응하는 복수의 발음열을 생성한다(S120).

이후, 운전자에 의해 음성 명령어(성명)가 발화되는 경우, 발화된 음성 명령어(성명)를 수신하고(S130), 특징벡터 추출부(300)를 통해 음성 명령어(성명)에서 특징 벡터를 추출한다(S140).

이후, 음성 인식부(420)를 통해 S140 단계에서 추출된 특징 벡터와 S120 단계에서 생성된 발음열, 그리고 음향모델 저장부(410)에 저장되어 있는 음향모델에 기초하여 음성 인식을 수행한다(S150). 이때, S150 단계는 S120 단계에서 생성된 복수의 발음열에 기초하여 제1 음성 인식부(421), 제2 음성 인식부(422), 제3 음성 인식부(423), 그리고 제4 음성 인식부(424)를 통해 각각의 음성 인식을 수행한다.

S150 단계에서 음성인식이 완료되면, 가중치 적용부(430)를 통해 제1 음성 인식부(421), 제2 음성 인식부(422), 제3 음성 인식부(423), 그리고 제4 음성 인식부(424)의 음성인식 결과에 대한 제1 신뢰값, 제2 신뢰값, 제3 신뢰값, 그리고 제4 신뢰값에 가중치를 적용하여 각각의 최종 신뢰값을 산출한다(S160).

S110 단계 내지 S160 단계에서, 전화번호부에 저장된 성명 중 Full name에 대한 S110 단계 내지 S160 단계는 Bin #1, Partial name에 대한 S110 단계 내지 S160 단계는 Bin #2, Single name에 대한 S110 단계 내지 S160 단계는 Bin #3, Defined name에 대한 S110 단계 내지 S160 단계는 Bin #4 로 표현할 수 있다.

S160 단계에서 산출된 최종 신뢰값에 따라 결과 생성부(500)를 통해 음성인식 후보군을 출력하고 운전자가 선택한 성명에 대응하는 전화번호로 전화걸기를 수행한다(S170).

도 5는 본 발명의 하나의 실시예에 따른 가중치를 이용한 단음절 명령어 강화 방법을 나타낸다.

도 5는 운전자에 의해 발화된 단음절 성명(home)에 대한 음성인식 결과로 출력된 복수의 후보(N-best 형태) 중에 home이 포함되어 있는 것으로 가정하여 가중치를 이용한 단음절 명령어 강화 방법을 설명한다.

먼저, 단음절 성명인 home의 신뢰값(C_home)을 아래의 수학식 1을 통해 산출한다(S200).

이때, C_max는 N-best 형태로 출력된 복수의 후보 중 1위 후보의 신뢰값이며, C_min은 N위 후보의 신뢰값이다.

이후, home이 Defined name 컨텍스트에 포함되는지를 판단한다(S210).

S210 단계의 판단 결과, home이 Defined name 컨텍스트에 포함되는 것으로 판단되는 경우 home이 운전자를 통해 선택되었는지를 판단한다(S220).

S220 단계의 판단 결과, 운전자가 후보군에서 home을 선택한 경우 S200 단계에서 산출된 home의 신뢰값(C_home)에 제1 가중치(

)를 더한다(S230). 이때, 제1 가중치(

)는 아래의 수학식 2를 통해 산출한다.

만약, S220 단계의 판단 결과, 운전자에 의해 후보군에서 home이 선택되지 않은 경우 S200 단계에서 산출된 home의 신뢰값(C_home)에서 제1 가중치를 뺀다(S240).

만약, S210 단계의 판단 결과, home이 Defined name 컨텍스트에 포함되지 않는 것으로 판단되는 경우(예를 들어, home이 Single name 컨텍스트에 포함되어 있는 경우) Bin #4에서 1순위로 올라온 후보를 N-best 형태의 후보군의 N번째 후보로 삽입한다(S250).

이후, home이 운전자에 의해 선택되었는지를 판단한다(S260).

S260 단계의 판단 결과, 운전자가 후보군에서 home을 선택한 경우 S200 단계에서 산출된 home의 신뢰값(C_home)에 제2 가중치(

)를 더한다(S270). 이때, 제2 가중치(

)는 아래의 수학식 3을 통해 산출한다.

만약, S260 단계의 판단 결과, 운전자에 의해 home이 선택되지 않은 경우 S200 단계에서 산출된 home의 신뢰값(C_home)에서 제2 가중치를 뺀다(S280).

이때, S230 단계와 S270 단계에서 산출된 home의 신뢰값(C_home)은 1위 후보의 신뢰값(C_max)보다 작으며, S240 단계와 S280 단계에서 산출된 home의 신뢰값(C_home)은 S200 단계에서 산출된 home의 신뢰값(C_home)보다 크다. 또한, S230 단계, S240 단계, S270 단계, 그리고 S280 단계에서 산출된 home의 신뢰값(C_home)은 별도로 저장되며, 음성 인식부(420)를 통해 home이 인식되는 경우 인식결과에 대한 신뢰값으로 사용된다.

도 5에 따르면, 단음절 성명의 음성인식을 수행할 때마다 S200 단계 내지 S280 단계를 통해 단음절 성명의 인식결과에 대한 신뢰도를 증가시킴으로써 단음절 성명의 인식 성능을 향상시킬 수 있다.

도 6은 본 발명의 하나의 실시예에 따른 기계학습을 이용한 단음절 명령어 강화 방법을 나타낸다.

도 6은 본 발명의 하나의 실시예에 따른 음성 다이얼링 시스템(20)을 통해 출력된 인식결과 후보군에 대한 데이터가 축적되어 있는 경우를 가정하여 기계학습을 이용한 단음절 명령어 강화 방법을 설명한다.

도 6에서 보면, 음성 다이얼링 시스템(20)을 통해 출력된 인식결과 후보군과 후보군에서 운전자가 선택한 성명(Dad)을 포함하는 트레이닝 샘플(training sample #1 ~ #n)을 수집하여 트레이닝 데이터셋(training data set)을 생성하고, 이를 이용하여 기계 학습을 수행한다.

도 6에 따르면, 트레이닝 데이터셋을 이용하여 기계 학습을 수행함으로써 단음절 성명의 인식결과에 대한 신뢰도를 증가시켜 단음절 성명의 인식 성능을 향상시킬 수 있다.

본 발명의 하나의 실시예에 따르면 전화번호부에 저장되어 있는 성명의 형태에 따라 복수의 컨텍스트 및 발음열을 생성하고 이를 이용하여 음성인식을 수행함으로써 음성 인식 성능을 향상시킬 수 있다. 특히, 음성정보가 부족한 단음절 성명의 음성 인식 성능을 향상시킬 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였으나, 본 발명의 권리범위가 이에 한정되는 것은 아니며 본 발명이 속하는 분야에서 통상의 지식을 가진 자가 여러 가지로 변형 및 개량한 형태 또한 본 발명의 권리범위에 속한다.

10 : 모바일 기기 20 : 음성 다이얼링 시스템
100 : 전화번호부 수신부 200 : 데이터 생성부
210 : 컨텍스트 생성부 220 : 발음열 생성부
300 : 특징벡터 추출부 400 : 음성인식 및 처리부
410 : 음향모델 저장부 420 : 음성 인식부
430 : 가중치 적용부 500 : 결과 생성부
600 : 단음절 명령어 강화부 610 : 제1 단음절 명령어 강화부
620 : 제2 단음절 명령어 강화부

Claims

모바일 기기 또는 원격지 서버와 유무선 통신으로 연결되어 있는 음성 다이얼링 시스템에 있어서,
상기 모바일 기기 또는 상기 서버로부터 전화번호부를 수신하는 전화번호부 수신부,
상기 수신된 전화번호부에 저장되어 있는 성명(name)의 형태에 기초하여 복수의 컨텍스트를 생성하고, 상기 복수의 컨텍스트에 대응하는 복수의 발음열을 생성하는 데이터 생성부,
사용자의 음성 명령어를 수신하고 수신된 음성 명령어로부터 특징벡터를 추출하는 특징벡터 추출부, 그리고
상기 복수의 발음열, 상기 특징벡터, 그리고 미리 저장되어 있는 음향모델에 기초하여 상기 명령어에 대한 음성 인식을 수행하는 음성인식 및 처리부
를 포함하며,
상기 데이터 생성부는,
상기 수신된 전화번호부에 저장되어 있는 성명 중에서 이름(first name)과 성(last name)을 모두 포함하는 형태의 성명을 저장하는 full name 컨텍스트, 이름과 성을 모두 포함하는 형태의 성명에서 이름과 성을 각각 분리하여 저장하는 Partial name 컨텍스트, 성, 이름, 또는 호칭(appellation) 형태의 성명을 저장하는 Single name 컨텍스트, 그리고 미리 정의되어 있는 성, 이름, 또는 호칭 형태의 성명을 저장하는 Defined name 컨텍스트를 생성하는 컨텍스트 생성부와,
상기 Full name 컨텍스트, 상기 Partial name 컨텍스트, 상기 Single name 컨텍스트, 그리고 상기 Defined name 컨텍스트에 각각 대응하는 제1 발음열, 제2 발음열, 제3 발음열, 그리고 제4 발음열을 생성하는 발음열 생성부를 포함하는 음성 다이얼링 시스템.
삭제
제1항에서,
상기 음성인식 및 처리부는,
상기 음향모델과 상기 특징벡터, 그리고 상기 제1 발음열, 상기 제2 발음열, 상기 제3 발음열, 그리고 상기 제4 발음열에 기초하여 음성 인식을 수행하며, 상기 제1 발음열의 인식결과에 대한 제1 신뢰값, 상기 제2 발음열의 인식 결과에 대한 제2 신뢰값, 상기 제3 발음열의 인식결과에 대한 제3 신뢰값, 그리고 상기 제4 발음열의 인식결과에 대한 제4 신뢰값을 산출하는 음성 인식부와,
상기 제1 신뢰값, 상기 제2 신뢰값, 상기 제3 신뢰값, 그리고 상기 제4 신뢰값에 가중치를 적용하여 각각에 대응하는 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값을 산출하는 가중치 적용부를 포함하는 음성 다이얼링 시스템.
제3항에서,
상기 제1 최종 신뢰값, 상기 제2 최종 신뢰값, 상기 제3 최종 신뢰값, 그리고 상기 제4 최종 신뢰값에 기초하여 N개의 인식결과 후보군을 출력하고 상기 후보군에서 상기 사용자가 선택한 성명에 대응하는 전화번호를 이용하여 전화 걸기 또는 메시지 송신을 수행하는 결과 생성부를 더 포함하는 음성 다이얼링 시스템.
제4항에서,
상기 N개의 인식결과 후보군이 상기 Defined name 컨텍스트에 저장된 단음절 성명을 포함하고 상기 사용자가 상기 단음절 성명을 선택하는 경우 아래의 수학식에 의해 상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하고,

(여기서, C_max는 상기 N개의 인식결과 후보군 중 1위 후보의 신뢰값이며, C_min은 N위 후보의 신뢰값이다.)
아래의 수학식에 의해 제1 가중치(
)를 산출하고,

상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)에 상기 제1 가중치(
)를 더하여 저장하는 단음절 명령어 강화부를 더 포함하는 음성 다이얼링 시스템.
제4항에서,
상기 N개의 인식결과 후보군이 상기 Single name 컨텍스트에 포함된 단음절 성명을 포함하고 상기 사용자가 상기 단음절 성명을 선택하는 경우 상기 음향모델과 상기 특징벡터, 그리고 제4 발음열에 기초하여 음성 인식을 수행한 결과의 1순위 후보를 상기 N개의 인식결과 후보군의 N번째 후보로 삽입하고, 아래의 수학식에 의해 상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하고,

(여기서, C_max는 상기 N개의 인식결과 후보군 중 1위 후보의 신뢰값이며, C_min은 N위 후보의 신뢰값이다.)
아래의 수학식에 의해 제2 가중치(
)를 산출하고,

상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)에 상기 제2 가중치(
)를 더하여 저장하는 단음절 명령어 강화부를 더 포함하는 음성 다이얼링 시스템.
제4항에서,
N개의 인식결과 후보군과 상기 N개의 인식결과 후보군에서 상기 사용자가 선택한 단음절 성명을 포함하는 트레이닝 샘플을 수집하여 트레이닝 데이터셋을 생성하고 상기 트레이닝 데이터셋을 이용하여 기계 학습을 수행하는 단음절 명령어 강화부를 더 포함하는 음성 다이얼링 시스템.
모바일 기기 또는 원격지 서버와 유무선 통신으로 연결되어 있는 음성 다이얼링 시스템을 이용한 음성 다이얼링 방법에 있어서,
상기 모바일 기기 또는 상기 서버로부터 전화번호부를 수신하는 단계,
상기 수신된 전화번호부에 저장되어 있는 성명(name)의 형태에 기초하여 Full name 컨텍스트, Partial name 컨텍스트, Single name 컨텍스트, 그리고 Defined name 컨텍스트를 생성하는 단계,
상기 Full name 컨텍스트, 상기 Partial name 컨텍스트, 상기 Single name 컨텍스트, 그리고 상기 Defined name 컨텍스트에 대응하는 제1 발음열, 제2 발음열, 제3 발음열, 그리고 제4 발음열을 생성하는 단계,
사용자의 음성 명령어를 수신하고 상기 음성 명령어로부터 특징벡터를 추출하는 단계, 그리고
상기 제1 발음열, 상기 제2 발음열, 상기 제3 발음열, 그리고 상기 제4 발음열과 상기 특징벡터, 그리고 미리 저장되어 있는 음향모델에 기초하여 상기 음성 명령어에 대한 음성 인식을 수행하는 단계
를 포함하며,
상기 컨텍스트 생성 단계는,
상기 수신된 전화번호부에 저장되어 있는 성명 중에서 이름(first name)과 성(last name)을 모두 포함하는 형태의 성명을 저장하는 full name 컨텍스트, 이름과 성을 모두 포함하는 형태의 성명에서 이름과 성을 각각 분리하여 저장하는 Partial name 컨텍스트, 성, 이름, 또는 호칭(appellation) 형태의 성명을 저장하는 Single name 컨텍스트, 그리고 미리 정의되어 있는 성, 이름, 또는 호칭 형태의 성명을 저장하는 Defined name 컨텍스트를 생성하는 음성 다이얼링 방법.
삭제
제8항에서,
상기 음성 인식 수행 단계는,
상기 제1 발음열의 인식결과에 대한 제1 신뢰값, 상기 제2 발음열의 인식 결과에 대한 제2 신뢰값, 상기 제3 발음열의 인식결과에 대한 제3 신뢰값, 그리고 상기 제4 발음열의 인식결과에 대한 제4 신뢰값을 산출하는 단계와,
상기 제1 신뢰값, 상기 제2 신뢰값, 상기 제3 신뢰값, 그리고 상기 제4 신뢰값에 가중치를 적용하여 제1 최종 신뢰값, 제2 최종 신뢰값, 제3 최종 신뢰값, 그리고 제4 최종 신뢰값을 산출하는 단계를 포함하는 음성 다이얼링 방법.
제10항에서,
상기 제1 최종 신뢰값, 상기 제2 최종 신뢰값, 상기 제3 최종 신뢰값, 그리고 상기 제4 최종 신뢰값에 기초하여 N개의 인식결과 후보군을 출력하는 단계,
상기 후보군에 대한 상기 사용자의 선택을 입력받는 단계, 그리고
상기 사용자가 선택한 성명에 대응하는 전화번호를 이용하여 전화 걸기 또는 메시지 송신을 수행하는 단계를 더 포함하는 음성 다이얼링 방법.
제11항에서,
상기 N개의 인식결과 후보군이 상기 Defined name 컨텍스트에 저장된 단음절 성명을 포함하고 상기 사용자가 상기 단음절 성명을 선택하는 경우 아래의 수학식에 의해 상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하는 단계,

(여기서, C_max는 상기 N개의 인식결과 후보군 중 1위 후보의 신뢰값이며, C_min은 N위 후보의 신뢰값이다.)
아래의 수학식에 의해 제1 가중치(
)를 산출하는 단계, 그리고

상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)에 상기 제1 가중치(
)를 더하여 저장하는 단계를 더 포함하는 음성 다이얼링 방법.
제12항에서,
상기 N개의 인식결과 후보군이 상기 Defined name 컨텍스트에 저장된 단음절 성명을 포함하고 상기 사용자가 상기 단음절 성명을 선택하지 않는 경우 상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)에서 상기 제1 가중치(
)를 빼서 저장하는 단계를 더 포함하는 음성 다이얼링 방법.
제11항에서,
상기 N개의 인식결과 후보군이 상기 Single name 컨텍스트에 포함된 단음절 성명을 포함하고 상기 사용자가 상기 단음절 성명을 선택하는 경우 상기 음향모델과 상기 특징벡터, 그리고 제4 발음열에 기초하여 음성 인식을 수행한 결과의 1순위 후보를 상기 N개의 인식결과 후보군의 N번째 후보로 삽입하는 단계,
아래의 수학식에 의해 상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)을 산출하는 단계,

(여기서, C_max는 상기 N개의 인식결과 후보군 중 1위 후보의 신뢰값이며, C_min은 N위 후보의 신뢰값이다.)
아래의 수학식에 의해 제2 가중치(
)를 산출하는 단계,

상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)에 상기 제2 가중치(
)를 더하여 저장하는 단계를 더 포함하는 음성 다이얼링 방법.
제14항에서,
상기 N개의 인식결과 후보군이 상기 Single name 컨텍스트에 포함된 단음절 성명을 포함하고 상기 사용자가 상기 단음절 성명을 선택하지 않는 경우 상기 사용자가 선택한 단음절 성명의 신뢰값(C_name)에서 상기 제2 가중치(
)를 빼서 저장하는 단계를 더 포함하는 음성 다이얼링 방법.
제11항에서,
상기 N개의 인식결과 후보군과 상기 N개의 인식결과 후보군에서 상기 사용자가 선택한 단음절 성명을 포함하는 트레이닝 샘플을 수집하는 단계,
상기 트레이닝 샘플을 이용하여 트레이닝 데이터셋을 생성하는 단계, 그리고
상기 트레이닝 데이터셋을 이용하여 기계 학습을 수행하는 단계를 더 포함하는 음성 다이얼링 방법.