KR102518543B1

KR102518543B1 - 사용자의 발화 에러 보정 장치 및 그 방법

Info

Publication number: KR102518543B1
Application number: KR1020170167665A
Authority: KR
Inventors: 박성수; 조재민
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2023-04-07
Also published as: CN109903770A; KR20190067582A; US10629201B2; US20190180741A1; DE102018108947A1

Abstract

본 발명은 사용자의 발화 에러 보정 장치 및 그 방법에 관한 것으로, 사용자의 음성 인식결과인 텍스트에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 의미 프레임을 정확도 높게 추출할 수 있는 사용자의 발화 에러 보정 장치 및 그 방법을 제공하고자 한다.
이를 위하여, 본 발명은 사용자의 발화 에러 보정 장치에 있어서, 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 음성 추출부; 상기 음성 추출부에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 음성 인식부; 상기 음성 인식부로부터 출력되는 각 텍스트를 대상으로 개체명을 인식하는 개체명 인식부; 상기 개체명 인식부에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 텍스트 정규화부; 및 상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 텍스트 결정부를 포함한다.

Description

사용자의 발화 에러 보정 장치 및 그 방법{APPARATUS FOR CORRECTING UTTERANCE ERRORS OF USER AND METHOD THEREOF}

본 발명은 사용자의 발화 에러 보정 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 대화형 음성인식시스템에서 사용자가 미숙하게 발화하더라도 이를 정확하게 인식할 수 있도록 사용자의 발화(utterance)를 보정하는 기술에 관한 것이다. 여기서, 발화는 사용자의 입을 통해 나온 문장 단위의 언어를 의미한다.

일반적으로 차량에는 다양한 장치들이 설치되어 있으며 최근에는 운전자나 탑승객들의 편의를 위한 장치들이 꾸준히 개발되어 설치되고 있다. 일 예로 오디오 장치나 공조 장치 등이 있으며, 더 나아가 인공위성 등을 통해 자동차의 위치를 파악하여 목적지까지의 경로를 안내해주는 내비게이션이 거의 모든 차량에 설치되고 있다.

그러나 이와 같은 편의 장치들은 운전자와 탑승객에게 여러 가지 편리함을 제공해주지만, 운전자가 운전 중에 편의 장치들을 조작하는 과정에서 운전에 대한 집중도가 저하되고 주의가 산만해져 사고가 발생할 위험이 높아지는 문제점이 있다. 이러한 문제점을 해결하기 위해서 최근에는 운전자가 편의 장치들을 직접 조작할 필요없이 음성으로 명령하면 운전자의 음성을 인식하여 운전자의 음성 명령에 따라 각종 편의 장치들을 제어하는 대화형 음성인식시스템이 개발되고 있다.

종래의 대화형 음성인식시스템은 사용자의 발화가 미숙한 경우, 예를 들어 "그.. 현대자동차로 안내해줘", "현대.. 현대자동차로 안내해줘", "현차 아니 현대자동차로 안내해줘" 등과 같이 입력 시점에 바로 말을 못하거나 발화 중 말을 더듬는 경우에 "그현대자동차", "현대현대자동차", "현차아니현대자동차"로 인식함으로써, 원래 목적지인 현대자동차를 정상적으로 인식하지 못하는 문제점이 있다.

대한민국공개특허 제2010-0111164호

상기와 같은 종래 기술의 문제점을 해결하기 위하여, 본 발명은 사용자의 음성 인식결과인 텍스트에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 의미 프레임을 정확도 높게 추출할 수 있는 사용자의 발화 에러 보정 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 장치는, 사용자의 발화 에러 보정 장치에 있어서, 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 음성 추출부; 상기 음성 추출부에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 음성 인식부; 상기 음성 인식부로부터 출력되는 각 텍스트를 대상으로 개체명을 인식하는 개체명 인식부; 상기 개체명 인식부에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 텍스트 정규화부; 및 상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 텍스트 결정부를 포함한다.

여기서, 상기 텍스트 정규화부는 상기 정규화된 각 텍스트를 포함하는 리스트를 생성할 수도 있다. 이때, 상기 텍스트 결정부는 상기 리스트 상의 각 텍스트를 검색어로 상기 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정할 수 있다.

또한, 상기 개체명 인식부는 상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별할 수 있다.

따라서, 상기 텍스트 정규화부는 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제할 수도 있고, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제할 수도 있으며, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제할 수도 있다.

또한, 상기 텍스트 정규화부는 정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 기능을 더 수행할 수도 있다.

또한, 상기 사용자 발화는 차량 단말기로부터 전송될 수도 있다.

상기 목적을 달성하기 위한 본 발명의 방법은, 사용자의 발화 에러 보정 방법에 있어서, 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 단계; 상기 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 단계; 상기 출력되는 각 텍스트를 대상으로 개체명을 인식하는 단계; 상기 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 단계; 및 상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 단계를 포함한다.

여기서, 상기 텍스트를 정규화하는 단계는 상기 정규화된 각 텍스트를 포함하는 리스트를 생성할 수도 있다. 이때, 상기 정상 텍스트를 결정하는 단계는 상기 리스트 상의 각 텍스트를 검색어로 상기 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정할 수 있다.

또한, 상기 개체명을 인식하는 단계는 상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별할 수 있다.

따라서, 상기 텍스트를 정규화하는 단계는 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제할 수도 있고, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제할 수도 있으며, 상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제할 수도 있다.

또한, 상기 텍스트를 정규화하는 단계는 정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 단계를 더 포함할 수도 있다.

상기와 같은 본 발명은, 사용자의 음성에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 의미 프레임을 정확도 높게 추출할 수 있는 효과가 있다.

또한, 본 발명은 사용자의 음성에서 의미 프레임을 추출하고 상기 의미 프레임 내 각 음성(Voice)의 개체명(Named Entity)을 판단하며 각 개체명에 기초하여 해당 음성의 텍스트를 정규화한 후 정규화된 각 텍스트 중에서 정상 텍스트를 결정함으로써, 사용자의 발화가 미숙한 경우에도 목적지를 정상적으로 인식할 수 있도록 하는 효과가 있다.

도 1 은 본 발명이 적용되는 대화형 음성인식시스템의 일예시도,
도 2 는 본 발명에 이용되는 차량 단말기의 일실시예 구성도,
도 3 은 본 발명이 적용되는 서버의 일실시예 구성도,
도 4 는 본 발명에 따른 사용자의 발화 에러 보정 장치에 대한 일실시예 구성도,
도 5 는 본 발명에 따른 사용자의 발화 에러 보정 장치의 음성 추출부(41)가 사용자의 발화를 음성과 묵음으로 분리하는 과정을 나타내는 일예시도,
도 6 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 개체명 인식부가 각 텍스트의 개체명을 인식한 후 각 텍스트를 조합하는 과정을 나타내는 일예시도,
도 7 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 정규화부가 각 텍스트의 개체명에 기초하여 각 텍스트를 정규화하는 과정을 나타내는 일예시도,
도 8 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 결정부가 텍스트 정규화부에 의해 생성된 리스트에 기초하여 정상 텍스트를 결정하는 과정을 나타내는 일예시도,
도 9 는 본 발명에 따른 사용자 발화 에러 보정 방법에 대한 일실시예 흐름도,
도 10은 본 발명의 일 실시예에 따른 사용자 발화 에러 보정 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1 은 본 발명이 적용되는 대화형 음성인식시스템의 일예시도이다.

도 1에 도시된 바와 같이, 본 발명이 적용되는 대화형 음성인식시스템은 차량 단말기(10) 및 서버(20)로 구성된다.

먼저, 차량 단말기(10)는 차량에 탑재되어 사용자 인터페이스를 제공하며, 아울러 고립어(an isolated language) 음성인식 기능을 제공할 수 있다.

이러한 차량 단말기(10)는 도 2에 도시된 바와 같이 입력부(11), 표시부(12), 통신부(13), 처리부(Processor, 14), 저장부(15), 및 스피커(16)를 포함할 수 있다.

입력부(11)는 사용자 음성을 입력받을 수 있다. 예를 들어, 입력부(11)는 마이크를 포함할 수 있으며, 사용자의 음성이 입력되는 경우 이를 전기적인 신호로 변환하여 고립어 음성인식 엔진으로 전달할 수 있다. 입력부(11)는 차량의 대시보드의 센터페시아 영역 또는 스티어링 휠에 배치될 수 있으나, 이에 한정되는 것은 아니며, 사용자 음성을 용이하게 입력받을 수 있는 위치이면 차량 내부의 어떠한 위치에나 배치될 수 있다.

표시부(12)는 차량의 동작 상태를 보여주는 화면, 내비게이션 화면, 인포테인먼트 프로그램화면 등을 표시할 수 있다. 예를 들어, 표시부(12)는 입력된 사용자 음성에 따른 차량의 동작 수행 결과 화면을 표시할 수 있다. 표시부(12)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), CRT(Cathode Ray Tube) 등 다양한 디스플레이 장치를 포함할 수 있다. 한편, 표시부(12)가 터치 스크린으로 마련되는 경우 표시부(12)는 사용자로부터 터치 입력을 수신할 수도 있다.

통신부(13)는 네트워크를 통해 외부 기기(ex. 타차량, 인프라, 서버 등)와 통신할 수 있다. 예를 들어, 통신부(13)는 외부 기기와 메시지를 송수신할 수 있다.

또한, 통신부(13)는 입력부(11)를 통해 입력받은 사용자의 음성을 인식하기 위해 서버(20)로 전송할 수도 있다.

이러한 통신부(13)는 이동통신모듈, 무선인터넷모듈, 근거리통신모듈 중 적어도 하나 이상을 구비할 수 있다.

이동통신모듈은 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTEA(Long Term Evolution-Advanced) 등)에 따라 구축된 이동통신망 상에서 서버(20)와 데이터를 송수신할 수 있다.

무선인터넷모듈은 무선 인터넷 접속을 위한 모듈로서, 무선인터넷기술에 따른 통신망에서 각종 데이터를 송수신할 수 있다.

무선인터넷기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있으며, 상기 무선인터넷모듈은 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선인터넷기술에 따라 데이터를 송수신하게 된다.

근거리통신모듈은 근거리통신(Short range communication)을 위한 모듈로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리통신을 지원할 수 있다.

처리부(14)는 차량의 전반적인 동작을 제어할 수 있다. 예를 들어, 처리부(14)는 차량의 주행 제어와 관련된 동작, 엔터테인먼트 관련 동작, 통신 관련 동작, 내비게이션 관련 동작, 오디오 및 비디오 관련 동작, 공조 관련 동작 등 다양한 동작들을 제어할 수 있다. 예를 들어, 처리부(14)는 차량(10)에 구비된 고립어 음성인식 엔진 또는 서버(10)에 구비된 대용량 음성인식 엔진으로부터 전달되는 동작 명령에 기초하여 차량 내부에 배치된 각 구성들의 동작을 제어할 수도 있다.

이러한 처리부(14)는 상술한 동작을 수행하기 위한 소프트웨어 모듈로서, 앱(App) 이벤트 매니저, ccOS(Connected Car Operating system) API(Application Programming Interface), 상황인지 엔진, 고립어 음성인식 엔진 등을 더 포함할 수 있다.

앱 이벤트 매니저는 차량의 상태 및 앱에서 발생하는 모든 이벤트를 모니터링한다.

ccOS API는 단말의 음성인식 엔진과 연동하는 API, 서버의 음성인식 엔진과 연동하는 API, 상황인지 엔진 API, 스마트 에이전트(서버) 연동 API를 포함한다.

상황인지 엔진은 상황 데이터 기반 서비스를 추천하거나 제안하며, 사용자의 명령 인식 결과에 상황 분석 결과를 적용하여 동작 단계를 처리하고, 검색정보에 상황 분석 결과를 적용하여 재정렬 등의 기능을 수행한다.

고립어 음성인식 엔진은 비교적 단순한 음성인식 기능으로서 고립어의 음성인식을 수행할 수 있다.

저장부(15)는 차량과 관련된 각종 데이터, 차량의 사용자와 관련된 각종 데이터 등을 저장할 수 있다. 예를 들어, 저장부(15)는 차량의 주행 이력 데이터, 내비게이션 관련 데이터, 사용자의 일정, 개인정보와 관련된 데이터 등을 저장할 수 있다.

이러한 저장부(15)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

스피커(16)는 처리부(14)의 제어에 따라 음원을 출력할 수 있다. 예를 들어, 스피커(16)는 오디오 기능, 내비게이션 기능 등이 구현되는 경우 필요한 음원을 출력할 수 있다.

본 발명의 일 실시예에 따른 차량 단말기(10)는 사용자의 음성을 인식하고, 인식된 음성에 대응되는 동작 명령을 실행함으로써 사용자 음성에 대응되는 동작을 수행할 수도 있다. 예를 들어, 차량 단말기(10)는 사용자 음성의 인식 결과에 대응하여 목적지 이용 예약, 내비게이션 목적지 설정, 메시지 송수신, 질의응답, 정보 검색 등의 동작을 실행할 수 있으며, 이에 한정되는 것은 아니다.

다음으로, 서버(20)는 네트워크에 연결되어 스마트 에이전트로서 동작하며, 대화형 음성인식 기능을 제공하기 위해, 도 3에 도시된 바와 같이 입력 관리부(21), 출력 관리부(22), 대화 관리부(23), 상황인지 분석 엔진(24), 차량 환경 빅 데이터 저장부(25), 시나리오 관리부(26), 콘텐츠 제공자(CP, Contents Provider) 어댑터(27), 외부 연동 데이터 저장부(28) 등을 포함할 수 있다.

입력 관리부(21)는 대용량 음성인식 엔진을 구비하여 사용자 음성을 텍스트로 변환하고, 의도 분석 엔진을 구비하여 음성인식 처리 결과인 텍스트에서 자연어처리(Natural Language Processing) 기법을 활용하여 의미 프레임을 추출하고, 상기 의미 프레임의 의미와 관련된 주요 정보(Entity)를 추출한다.

출력(액션) 관리부(22)는 자연서 생성 엔진을 구비하여 음성인식 결과에 상응하는 액션에 대한 텍스트를 생성하고, 상기 생성한 텍스트의 내용을 분석하여 합성관련 파라미터를 생성한다.

또한, 출력 관리부(22)는 음성 합성 엔진을 구비하여 자연어 생성 엔진에서 생성한 텍스트를 음성으로 변환한다. 이때, 음성 합성 엔진은 파라미터를 기반으로 합성 기능을 수행한다.

대화 관리부(23)는 세션 관리로서 의미 프레임의 연속성을 관리할 수 있고, 대화 추가 관리로서 의미 프레임의 추가 및 삭제를 관리할 수 있으며, 대화 상태 관리로서 의미 프레임의 상태를 관리할 수 있고, 대화 이력 관리로서 의미 프레임 간 연관 관계를 관리할 수 있으며, 서비스 관리로서 의미 프레임과 연결되는 서비스를 관리할 수 있고 아울러 시나리오 DB, 시나리오 상태, CP(Contents Provider) 연동 등을 관리할 수 있다.

상황인지 분석 엔진(24)은 대용량 통계 분석으로서 사용 이력을 기반으로 사용 패턴을 분석할 수 있고, 단기 또는 장기 기억분석으로서 사용 이력을 기반으로 연관 정보를 복원할 수 있으며, 통합 또는 복합 추론으로서 서로 다른 정보를 연결할 수 있고, 텍스트 또는 음성 분석으로서 음성정보와 텍스트정보를 분석하여 상황을 추론할 수 있으며, 질의응답 분석으로서 질문을 분석하여 연결되는 답변을 추론할 수 있다.

차량 환경 빅 데이터 저장부(25)는 차량 사용 정보가 기록되는 자동차 고객 관계 관리(VCRM) DB, 서비스 가입 고객 정보가 기록되는 고객 DB, 서비스 사용 이력 정보가 기록되는 이력 DB, 데이터 간 관계 정보 및 데이터 간 연동 정보가 기록되는 관계 DB, 질의응답에 필요한 지식 정보가 기록되는 지식베이스 등을 포함할 수 있다.

시나리오 관리부(26)는 차량 서비스를 위한 시나리오(목적지 검색, 음악추천, 일정관리, 맛집 추천 등)를 관리한다.

콘텐츠 제공자 어댑터(27)는 콘텐츠 제공자로부터 외부 연동 데이터(28)를 입력받는다. 이러한 외부 연동 데이터(28)는 지도, 음악, 일정, 맛집 리뷰 등을 포함할 수 있다.

상술한 대화형 음성인식시스템은 네트워크와 연결된 차량을 베이스로 하는 시스템으로서, 언급한 다양한 기능들은 일반적으로 널리 알려진 기술들이다.

이하, 상술한 서버(20)에 적용되어 사용자의 발화 에러 보정하는 기술에 대해 상세히 살펴보기로 한다.

도 4 는 본 발명에 따른 사용자의 발화 에러 보정 장치에 대한 일실시예 구성도이다.

도 4에 도시된 바와 같이, 본 발명에 따른 사용자의 발화 에러 보정 장치는, 음성 추출부(Voice Activity Detector, 41), 음성 인식부(Voice Recognizer, 42), 개체명 인식부(Named Entity Recognizer, 43), 텍스트 정규화부(44), 텍스트 결정부(45)를 포함할 수 있다. 본 발명을 실시하는 방식에 따라서 각 구성요소는 서로 결합되어 하나로 구비될 수 있으며, 발명을 실시하는 방식에 따라서 일부의 구성요소가 생략될 수도 있다. 사용자의 발화 에러 보정 장치의 각 구성요소는 하드웨어 또는 소프트웨어의 형태로 구현될 수 있으며, 하드웨어 및 소프트웨어가 결합된 형태로도 구현할 수 있다. 이때, 소프트웨어 형태로 구현되는 경우 각 구성요소들의 기능은 프로그램 형태로 메모리에 저장될 수 있으며, 제어기의 역할을 수행하는 프로세서는 상기 프로그램에 기초하여 각 구성요소들의 기능을 완벽하게 수행할 수 있다.

상기 각 구성요소들에 대해 살펴보면, 먼저 음성 추출부(41)는 사용자부터 발화된 말에서 음성과 묵음을 구분하는 기능(Voice Activity Detection)을 수행하는 하드웨어 또는 소프트웨어 모듈로서, 사용자 발화로부터 음성을 추출한다. 여기서, 발화는 사용자의 입을 통해 나온 문장 단위의 언어로서 음성구간과 묵음구간을 포함한다.

또한, 음성 추출부(41)는 차량 단말기(10)로부터 전송받은 사용자의 발화에서 음성을 추출할 수도 있다.

다음으로, 음성 인식부(42)는 음성 추출부(31)에 의해 추출된 음성(voice)을 인식한 후 그에 상응하는 텍스트(text)를 출력한다. 이러한 음성 인식부(42)는 일반적으로 널리 알려진 다양한 방식을 이용하여 음성을 인식할 수 있다.

다음으로, 개체명 인식부(43)는 음성 인식부(42)로부터 출력되는 각 텍스트의 개체명과 상기 각 텍스트를 조합한 결과에 대한 개체명을 인식한다. 이때, 각 텍스트를 조합한 결과 역시 텍스트이므로, 이하에서 각 텍스트는 조합하지 않은 텍스트와 조합한 텍스트를 모두 포함하는 개념으로 이해되어야 할 것이다.

이러한 개체명 인식부(43)는 각 텍스트의 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사 등을 식별해 낼 수 있다. 이렇게 개체명을 인식하는 기술 역시 주지 관용의 기술로서 일반적으로 널리 알려진 어떠한 방식을 이용하더라도 무방하다.

다음으로, 텍스트 정규화부(44)는 개체명 인식부(43)에 의해 인식된 각 텍스트의 개체명에 기초하여 각 텍스트를 정규화한 후 정규화된 각 텍스트가 기록된 리스트를 생성한다.

즉, 텍스트 정규화부(44)는 각 텍스트 중에서 지시대명사가 존재하면 지시대명사에 해당하는 텍스트를 삭제한다.

또한, 텍스트 정규화부(44)는 각 텍스트 중에서 중복단어가 존재하면 중복단어를 삭제한다.

또한, 텍스트 정규화부(44)는 각 텍스트 중에서 부정어와 상기 부정어의 앞 단어(텍스트)를 삭제한다.

부가로, 텍스트 정규화부(44)는 연계 보정을 수행할 수도 있다. 예를 들어, 사용자의 발화가 "현대자동차 남양연구소로 안내해줘"라고 정상적으로 입력한 경우, "현대자동차 남양연구소"가 검색되어 정상적으로 목적지 설정이 가능합니다. 이때, 대화형 음성인식시스템은 사용자에게 "현대자동차 남양연구소로 검색할까요?"라고 확인할 수 있는데, 사용자가 마음을 바꿔 "남양연구소 말고 본사"라고 입력할 수 있다. 이때, 텍스트 정규화부(44)는 1차 입력한 "현대자동차 남양연구소"에서 남양연구소를 개체명 인식부(43)에 의해 인식된 부정어인 "말고"를 다음에 오는 단어인 "본사"로 대체한다. 그 결과는 "현대자동차 본사"가 되고 대화형 음성인식시스템은 "현대자동차 본사로 검색할까요?"를 출력할 수 있다.

다음으로, 텍스트 결정부(45)는 지도 DB에 기초하여 텍스트 정규화부(44)에 의해 생성된 리스트에서 정상 텍스트를 결정한다. 즉, 텍스트 결정부(45)는 리스트 상의 각 텍스트를 검색어로 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정한다.

또한, 텍스트 결정부(45)는 음악 검색과 관련하여 사용자의 발화가 입력된 경우 음악 DB에 기초하여 정상 텍스트를 결정할 수도 있고, 일정 검색과 관련하여 사용자의 발화가 입력된 경우 일정 DB에 기초하여 정상 텍스트를 결정할 수도 있다.

이하, 도 5 내지 도 8을 참조하여 사용자의 발화 에러를 보정하는 과정에 대해 상세히 살펴보도록 한다.

도 5 는 본 발명에 따른 사용자의 발화 에러 보정 장치의 음성 추출부(41)가 사용자의 발화를 음성과 묵음으로 분리하는 과정을 나타내는 일예시도이다.

도 5에서, 사용자가 "현대자동차로 안내해줘"라고 발화해야 하나 현대자동차가 바로 생각나지 않아 "그 현대자동차로 안내해줘"와 같이 발화한 경우, 이러한 사용자의 발화가 음성 추출부(41)로 입력되고, 음성 추출부(41)는 VAD 기능에 기초하여 사용자의 발화에서 음성을 추출해 낸다. 이렇게 추출된 음성은 "그", "현대자동차로", "안내해줘"가 된다.

또한, 사용자가 "현대자동차로 안내해줘"라고 발화해야 하나 말을 더듬어 "현대 현대자동차로 안내해줘"와 같이 발화한 경우, 이러한 사용자의 발화가 음성 추출부(41)로 입력되고, 음성 추출부(41)는 VAD 기능에 기초하여 사용자의 발화에서 음성을 추출해 낸다. 이렇게 추출된 음성은 "현대", "현대자동차로", "안내해줘"가 된다.

또한, 사용자가 "현대자동차로 안내해줘"라고 발화해야 하나 얼떨결에 "현차(현대자동차의 약어) 아니 현대자동차로 안내해줘"와 같이 발화한 경우, 이러한 사용자의 발화가 음성 추출부(41)로 입력되고, 음성 추출부(41)는 VAD 기능에 기초하여 사용자의 발화에서 음성을 추출해 낸다. 이렇게 추출된 음성은 "현차", "아니", "현대자동차로", "안내해줘"가 된다.

이렇게 추출된 각 음성은 음성 인식부(42)를 통해 해당 텍스트와 연결된다. 즉, 각 음성은 그에 상응하는 텍스트와 매칭된다.

도 6 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 개체명 인식부가 각 텍스트의 개체명을 인식한 후 각 텍스트를 조합하는 과정을 나타내는 일예시도이다.

도 6에서, 음성 인식부(42)로부터 출력된 텍스트가 "그", "현대자동차로", "안내해줘"인 경우, 이러한 출력이 개체명 인식부(43)로 입력되고, 개체명 인식부(43)는 개체명 인식(Named Entity Recognition) 기능에 기초하여 "그"를 지시대명사로 인식하고, "현대자동차"를 브랜드명으로 인식하고, "그+현대자동차"를 고유명사로 인식한다.

또한, 음성 인식부(42)로부터 출력된 텍스트가 "현대", "현대자동차로", "안내해줘"인 경우, 이러한 출력이 개체명 인식부(43)로 입력되고, 개체명 인식부(43)는 개체명 인식(Named Entity Recognition) 기능에 기초하여 "현대"를 브랜드명으로 인식하고, "현대자동차"를 브랜드명으로 인식하고, "현대+현대자동차"를 고유명사로 인식한다.

또한, 음성 인식부(42)로부터 출력된 텍스트가 "현차", "아니", "현대자동차로", "안내해줘"인 경우, 이러한 출력이 개체명 인식부(43)로 입력되고, 개체명 인식부(43)는 개체명 인식(Named Entity Recognition) 기능에 기초하여 "현차"를 브랜드명으로 인식하고, "아니"를 부정어로 인식하고, "현대자동차"를 브랜드명으로 인식하고, "현차+아니"를 고유명사로 인식하고, "아니+현대자동차"를 고유명사로 인식하고, "현차+아니+현대자동차"를 고유명사로 인식한다.

여기서, 개체명 인식부(43)는 "안내해줘"는 서술어임을 인식하여 제거하고, 아울러 "현대자동차로"에서 "로"를 방향을 나타내는 격조사로 인식하여 개체명 인식시 고려하지 않는다.

도 7 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 정규화부가 각 텍스트의 개체명에 기초하여 각 텍스트를 정규화하는 과정을 나타내는 일예시도이다.

도 7에서, 지시대명사인 "그", 브랜드명인 "현대자동차", 고유명사인 "그+현대자동차"가 입력된 경우, 텍스트 정규화부(44)는 지시대명사가 있는지 확인하여 지시대명사를 제거한다. 여기서, 지시대명사는 "그"이므로 정규화 결과로서 "현대자동차"와 "그현대자동차"를 포함하는 리스트를 생성한다.

또한, 브랜드명인 "현대", 브랜드명인 "현대자동차", 고유명사인 "현대+현대자동차"가 입력된 경우, 텍스트 정규화부(44)는 중복단어가 있는지 확인하여 중복단어를 제거한다. 여기서, 중복단어는 "현대"이므로 정규화 결과로서 "현대자동차"와 "현대현대자동차"를 포함하는 리스트를 생성한다.

또한, 브랜드명인 "현차", 부정어인 "아니", 브랜드명인 "현대자동차", 고유명사인 "현차+아니", 고유명사인 "아니+현대자동차", 고유명사인 "현차+아니+현대자동차"가 입력된 경우, 텍스트 정규화부(44)는 부정어와 상기 부정어의 앞 단어를 삭제한다. 여기서, 부정어는 "아니"이고 상기 부정어의 앞 단어는 "현차"이므로, 정규화 결과로서 "현대자동차", "현차+아니", "아니+현대자동차", 현차+아니+현대자동차"를 포함하는 리스트를 생성한다.

도 8 은 본 발명에 따른 사용자의 발화 에러 보정 장치의 텍스트 결정부가 텍스트 정규화부에 의해 생성된 리스트에 기초하여 정상 텍스트를 결정하는 과정을 나타내는 일예시도이다.

도 8에서, 리스트 상의 텍스트가 "현대자동차", "그현대자동차"인 경우, 텍스트 결정부(45)는 지도 DB에서 "현대자동차"를 검색어로 사용하여 "현재자동차"에 대한 위치가 정상적으로 검색되면 "현대자동차"를 정상 텍스트로 결정한다. 이때, "그현대자동차"의 위치는 검색되지 않으므로 비정상 텍스트임을 알 수 있다.

또한, 리스트 상의 텍스트가 "현대자동차", "현대현대자동차"인 경우, 텍스트 결정부(45)는 "현대자동차"를 정상 텍스트로 결정한다. 이때, "현대현대자동차"의 위치는 검색되지 않으므로 비정상 텍스트임을 알 수 있다

또한, 리스트 상의 텍스트가 "현대자동차", "현차아니", "아니현대자동차", 현차아니현대자동차"인 경우, 텍스트 결정부(45)는 "현대자동차"를 정상 텍스트로 결정한다. 이때, "현차아니", "아니현대자동차", 현차아니현대자동차"의 각 위치는 검색되지 않으므로 비정상 텍스트임을 알 수 있다.

부가로, 사용자의 발화를 인식한 후 그 인식결과로서 출력되는 텍스트를 자연어처리(Natural Language Processing) 기법을 활용하여 의미 프레임을 추출하고, 상기 추출된 의미 프레임에 기초하여 목적지를 설정하는 일반적인 목적지 설정과정에서, 상기 의미 프레임에 상응하는 목적지가 검색되지 않는 경우에 본 발명에 따른 사용자의 발화 에러 보정 장치가 활성화되어 사용자의 발화 에러를 보정할 수도 있다.

도 9 는 본 발명에 따른 사용자 발화 에러 보정 방법에 대한 일실시예 흐름도이다.

먼저, 음성 추출부(41)가 사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출한다(901).

이후, 음성 인식부(42)가 음성 추출부(41)에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력한다(902).

이후, 개체명 인식부(43)가 음성 인식부(42)로부터 출력되는 각 텍스트를 대상으로 개체명을 인식한다(903).

이후, 텍스트 정규화부(44)가 개체명 인식부(43)에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화한다(904).

이후, 텍스트 결정부(45)가 텍스트 정규화부(44)에 의해 정규화된 각 텍스트 중에서 정상 텍스트를 결정한다(905).

도 10은 본 발명의 일 실시예에 따른 사용자 발화 에러 보정 방법을 실행하기 위한 컴퓨팅 시스템을 보여주는 블록도이다.

도 10을 참조하면, 상술한 본 발명의 일 실시예에 따른 사용자 발화 에러 보정 방법은 컴퓨팅 시스템을 통해서도 구현될 수 있다. 컴퓨팅 시스템(1000)은 시스템 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

41 : 음성 추출부
42 : 음성 인식부
43 : 개체명 인식부
44 : 텍스트 정규화부
45 : 텍스트 결정부
1000: 컴퓨팅 시스템
1100: 프로세서
1200: 시스템 버스
1300: 메모리
1310: ROM
1320: RAM
1400: 사용자 인터페이스 입력장치
1500: 사용자 인터페이스 출력장치
1600: 스토리지
1700: 네트워크 인터페이스

Claims

사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 음성 추출부;
상기 음성 추출부에 의해 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 음성 인식부;
상기 음성 인식부로부터 출력되는 각 텍스트를 대상으로 개체명을 인식하는 개체명 인식부;
상기 개체명 인식부에 의해 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 텍스트 정규화부; 및
상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 텍스트 결정부를 포함하되,
상기 텍스트 정규화부는,
상기 정규화된 각 텍스트를 포함하는 리스트를 생성하고,
상기 텍스트 결정부는,
상기 리스트 상의 각 텍스트를 검색어로 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
삭제
삭제
제 1 항에 있어서,
상기 개체명 인식부는,
상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
제 4 항에 있어서,
상기 텍스트 정규화부는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
제 4 항에 있어서,
상기 텍스트 정규화부는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
제 4 항에 있어서,
상기 텍스트 정규화부는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
제 1 항에 있어서,
상기 텍스트 정규화부는,
정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 기능을 더 수행하는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
제 1 항에 있어서,
상기 사용자의 발화는,
차량 단말기로부터 전송되는 것을 특징으로 하는 사용자의 발화 에러 보정 장치.
사용자의 발화에서 음성구간과 묵음구간을 구분한 후 음성을 추출하는 단계;
상기 추출된 음성을 인식한 후 그에 상응하는 텍스트를 출력하는 단계;
상기 출력되는 각 텍스트를 대상으로 개체명을 인식하는 단계;
상기 인식된 각 텍스트의 개체명에 기초하여 상기 각 텍스트를 정규화하는 단계; 및
상기 정규화된 각 텍스트 중에서 정상 텍스트를 결정하는 단계를 포함하되,
상기 텍스트를 정규화하는 단계는,
상기 정규화된 각 텍스트를 포함하는 리스트를 생성하는 단계를 포함하고,
상기 정상 텍스트를 결정하는 단계는,
상기 리스트 상의 각 텍스트를 검색어로 지도 DB에서 검색을 수행하여 목적지로서 검색되는 텍스트를 정상 텍스트로 결정하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
삭제
삭제
제 10 항에 있어서,
상기 개체명을 인식하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합에 대한 개체명으로서 지시대명사, 부정어, 브랜드명, 고유명사를 식별하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
제 13 항에 있어서,
상기 텍스트를 정규화하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 지시대명사를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
제 13 항에 있어서,
상기 텍스트를 정규화하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 중복단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
제 13 항에 있어서,
상기 텍스트를 정규화하는 단계는,
상기 각 텍스트 및 상기 각 텍스트의 조합을 대상으로 부정어와 상기 부정어의 앞 단어를 삭제하는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.
제 10 항에 있어서,
상기 텍스트를 정규화하는 단계는,
정상적으로 입력된 1차 사용자 발화에 대한 확인과정에서, 2차 입력된 사용자 발화에 부정어가 포함되어 있는 경우, 상기 부정어의 다음 단어를 이용하여 상기 1차 사용자 발화를 보정하는 단계
를 더 포함하는 사용자의 발화 에러 보정 방법.
제 10 항에 있어서,
상기 사용자의 발화는,
차량 단말기로부터 전송되는 것을 특징으로 하는 사용자의 발화 에러 보정 방법.