KR102429501B1

KR102429501B1 - 음성 안내 제어 장치 및 방법, 그리고 차량 시스템

Info

Publication number: KR102429501B1
Application number: KR1020170162140A
Authority: KR
Inventors: 이경철; 조재민
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2022-08-05
Also published as: KR20190063216A

Abstract

본 발명은 음성 안내 제어 장치 및 방법, 그리고 차량 시스템에 관한 것이다. 본 발명에 따른 음성 안내 제어 장치는, 복수 개의 후보 리스트로부터 텍스트를 추출하여 도메인 별로 분류하고, 각 도메인 별로 분류된 텍스트 중 각 후보 리스트 별로 적어도 하나 이상의 고유 텍스트를 추출하여 해당 후보 리스트에 태깅하는 태깅부, 상기 복수 개의 후보 리스트 중 어느 하나가 선택되면, 선택된 리스트에 태깅된 적어도 하나 이상의 텍스트에 기초하여 문장을 생성하는 문장 생성부, 및 상기 생성된 문장에 기초하여 안내 음성을 생성하고 상기 생성된 안내 음성을 출력하는 안내부를 포함한다.

Description

음성 안내 제어 장치 및 방법, 그리고 차량 시스템{APPARATUS AND METHOD FORCONTROLLING VOICE GUIDENCE, VEHICLE SYSTEM}

본 발명은 음성 안내 제어 장치 및 방법, 그리고 차량 시스템에 관한 것이다.

음성 안내 시스템은 사용자의 음성 명령을 기초로 명령어와 관련하여 탐색을 수행하고, 탐색 결과 리스트를 운전자에게 제공한다. 음성 안내 시스템은 운전자의 선택에 따라 N개의 리스트 중 하나를 선택하여 음성 안내를 제공한다.

하지만, 유사한 텍스트가 포함되어 있는 N개의 리스트를 운전자에게 제공하는 경우, 음성 안내 시스템은 한국어의 특성상 일, 이, 삼, 사, 첫 번째, 두 번째 등과 같은 단음절을 오인식하는 경우가 많다. 따라서, 음성 안내 시스템은 인식된 결과를 기준으로 음성 안내를 제공하기 때문에, 운전자는 음성 안내된 정보가 사용자가 요청한 정보가 맞는 것인지 운전 중 인식하기가 쉽지 않다.

예를 들어, N개의 리스트가 각각 다른 지점의 'OO까페'에 대한 리스트인 경우, 운전자는 음성 안내로 제공되는 OO까페가 N개의 리스트 중 최종 선택한 지점의 OO까페가 맞는지 운전 중에 파악하기가 쉽지 않다.

따라서, 음성 안내 시스템의 음성 안내에 대한 운전자의 신뢰도가 저하되는 문제가 있다.

본 발명의 목적은, 음성 명령의 탐색 결과로 제공된 N개의 리스트에 대한 텍스트 정보를 분석하여 각 리스트 별로 고유 텍스트를 추출하고, 추출된 고유 텍스트를 기반으로 태깅(Tagging)하여 태깅된 텍스트를 기초로 음성 안내를 제공함으로써 선택 정보를 운전자가 신속하게 파악할 수 있도록 한, 음성 안내 제어 장치 및 방법, 그리고 차량 시스템을 제공함에 있다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기의 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 안내 제어 장치는, 복수 개의 후보 리스트로부터 텍스트를 추출하여 도메인 별로 분류하고, 각 도메인 별로 분류된 텍스트 중 각 후보 리스트 별로 적어도 하나 이상의 고유 텍스트를 추출하여 해당 후보 리스트에 태깅하는 태깅부, 상기 복수 개의 후보 리스트 중 어느 하나가 선택되면, 선택된 리스트에 태깅된 적어도 하나 이상의 텍스트에 기초하여 문장을 생성하는 문장 생성부, 및 상기 생성된 문장에 기초하여 안내 음성을 생성하고 상기 생성된 안내 음성을 출력하는 안내부를 포함하는 것을 특징으로 한다.

상기 태깅부는, 상기 복수 개의 후보 리스트에 포함된 텍스트를 정규화하는 텍스트 정규화 처리부, 상기 복수 개의 후보 리스트에 포함된 텍스트를 분석하여 도메인 별로 분류하는 텍스트 분류부, 및 각 도메인 별로 분류된 텍스트의 스트링 값을 비교하여 고유의 스트링 값을 갖는 텍스트를 추출하고, 추출된 텍스트에 기초하여 대응하는 후보 리스트에 태깅하는 태깅 처리부를 포함하는 것을 특징으로 한다.

상기 태깅 처리부는, 상기 각 도메인에 부여된 우선순위에 따라 높은 우선순위를 갖는 도메인 순으로 텍스트를 비교하여 고유 텍스트를 추출하는 것을 특징으로 한다.

상기 태깅 처리부는, 특정 도메인으로 분류된 텍스트를 비교하여 고유 텍스트가 존재하지 않으면, 다음 우선순위를 갖는 도메인으로 분류된 텍스트를 비교하는 것을 특징으로 한다.

상기 문장 생성부는, 상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 상기 복수 개의 텍스트를 결합하여 문장을 생성하는 것을 특징으로 한다.

상기 문장 생성부는, 상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 각각의 텍스트에 대응하는 복수 개의 문장을 생성하는 것을 특징으로 한다.

상기 안내부는, 상기 생성된 문장에 기초하여 안내 화면을 구성하고, 상기 구성된 안내 화면을 출력하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 장치는, 사용자로부터 발화된 음성 신호를 분석하여 음성 명령을 인식하는 음성 인식부, 및 상기 인식된 음성 명령에 기초하여 DB를 검색하고, 상기 DB의 검색 결과를 기초로 상기 복수 개의 후보 리스트를 생성하여 출력하는 탐색부를 더 포함하는 것을 특징으로 한다.

상기 음성 인식부는, 상기 음성 신호를 분석하여 적어도 하나 이상의 특징점을 추출하고, 상기 추출된 적어도 하나 이상의 특징점을 음성 모델 DB에 저장된 음성 모델과 비교하여 상기 음성 명령을 인식하는 것을 특징으로 한다.

상기 음성 인식부는, 상기 복수 개의 후보 리스트 중 사용자로부터 발화된 음성 신호에 기초하여 선택 리스트를 인식하는 것을 특징으로 한다.

또한, 상기의 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 인식 제어 방법은, 복수 개의 후보 리스트로부터 텍스트를 추출하여 도메인 별로 분류하고, 각 도메인 별로 분류된 텍스트 중 각 후보 리스트 별로 적어도 하나 이상의 고유 텍스트를 추출하여 해당 후보 리스트에 태깅하는 단계, 상기 복수 개의 후보 리스트 중 어느 하나가 선택되면, 선택된 리스트에 태깅된 적어도 하나 이상의 텍스트에 기초하여 문장을 생성하는 단계, 및 상기 생성된 문장에 기초하여 안내 음성을 생성하고 상기 생성된 안내 음성을 출력하는 단계를 포함하는 것을 특징으로 한다.

상기 태깅하는 단계는, 상기 복수 개의 후보 리스트에 포함된 텍스트를 정규화하는 단계, 상기 복수 개의 후보 리스트에 포함된 텍스트를 분석하여 도메인 별로 분류하는 단계, 각 도메인 별로 분류된 텍스트의 스트링 값을 비교하여 고유의 스트링 값을 갖는 고유 텍스트를 추출하는 단계, 및 상기 추출된 고유 텍스트에 기초하여 대응하는 후보 리스트에 태깅하는 단계를 포함하는 것을 특징으로 한다.

상기 고유 텍스트를 추출하는 단계는, 상기 각 도메인에 부여된 우선순위에 따라 높은 우선순위를 갖는 도메인 순으로 텍스트를 비교하는 단계를 포함하는 것을 특징으로 한다.

상기 텍스트를 비교하는 단계는, 특정 도메인으로 분류된 텍스트를 비교하여 고유 텍스트가 존재하지 않으면, 다음 우선순위를 갖는 도메인으로 분류된 텍스트를 비교하는 것을 특징으로 한다.

상기 문장을 생성하는 단계는, 상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 상기 복수 개의 텍스트를 결합하여 문장을 생성하는 단계를 포함하는 것을 특징으로 한다.

상기 문장을 생성하는 단계는, 상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 각각의 텍스트에 대응하는 복수 개의 문장을 생성하는 단계를 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 방법은, 상기 생성된 문장에 기초하여 안내 화면을 구성하고, 상기 구성된 안내 화면을 출력하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 방법은, 상기 태깅하는 단계 이전에, 사용자로부터 발화된 음성 신호를 분석하여 음성 명령을 인식하는 단계, 및 상기 인식된 음성 명령에 기초하여 DB를 검색하고, 상기 DB의 검색 결과를 기초로 상기 복수 개의 후보 리스트를 생성하여 출력하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 본 발명의 일 실시예에 따른 방법은, 상기 복수 개의 후보 리스트 중 사용자로부터 발화된 음성 신호에 기초하여 선택 리스트를 인식하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기의 목적을 달성하기 위한 본 발명의 일 실시예에 따른 차량 시스템은, 마이크 및 스피커를 포함하는 인터페이스부, 및 복수 개의 후보 리스트로부터 텍스트를 추출하여 도메인 별로 분류하고, 각 도메인 별로 분류된 텍스트 중 각 후보 리스트 별로 적어도 하나 이상의 고유 텍스트를 추출하여 해당 후보 리스트에 태깅하며, 상기 복수 개의 후보 리스트 중 어느 하나가 선택되면 선택된 리스트에 태깅된 적어도 하나 이상의 텍스트에 기초하여 문장을 생성하고, 상기 생성된 문장에 기초하여 생성된 안내 음성을 상기 스피커를 통해 출력하는 음성 안내 제어 장치를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 음성 명령의 탐색 결과로 제공된 N개의 탐색 리스트에 대한 텍스트 정보를 분석하여 각 탐색 리스트 별로 고유 텍스트를 추출하고, 추출된 고유 텍스트를 기반으로 태깅(Tagging)하여 태깅된 텍스트를 기초로 음성 안내를 제공함으로써 선택 정보를 운전자가 신속하게 파악할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 음성 안내 제어 장치가 적용된 차량 시스템을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 안내 제어 장치의 구성을 도시한 도면이다.
도 3 내지 도 7c는 본 발명의 일 실시예에 따른 음성 안내 제어 장치의 동작을 설명하는데 참조되는 실시예를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 음성 안내 제어 방법에 대한 동작 흐름을 도시한 도면이다.
도 9는 본 발명의 일 실시예에 따른 방법이 실행되는 컴퓨팅 시스템을 도시한 도면이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 일 실시예에 따른 음성 안내 제어 장치가 적용된 차량 시스템을 도시한 도면이다.

도 1을 참조하면, 본 발명에 따른 차량 시스템은 제어부(10), 인터페이스부(20), 통신부(30), 저장부(40) 및 음성 안내 제어 장치(100)를 포함할 수 있다. 여기서, 제어부(10)는 차량 시스템의 각 구성요소들 간에 전달되는 신호를 처리할 수 있다.

인터페이스부(20)는 사용자로부터의 제어 명령을 입력 받기 위한 입력수단과 음성 안내 제어 장치(100)의 동작 상태 및 결과 등을 출력하는 출력수단을 포함할 수 있다.

여기서, 입력수단은 키 버튼을 포함할 수 있으며, 마우스, 조이스틱, 조그셔틀, 스타일러스 펜 등을 포함할 수도 있다. 또한, 입력수단은 디스플레이 상에 구현되는 소프트 키를 포함할 수도 있다. 또한, 입력수단은 사용자로부터 발화되는 음성 명령이 입력되는 마이크를 더 포함할 수 있다.

출력수단은 디스플레이를 포함할 수 있으며, 스피커와 같은 음성출력수단을 포함할 수도 있다. 이때, 터치 필름, 터치 시트, 터치 패드 등의 터치 센서가 디스플레이에 구비되는 경우, 디스플레이는 터치 스크린으로 동작하며, 입력수단과 출력수단이 통합된 형태로 구현될 수 있다.

이때, 디스플레이는 액정 디스플레이(Liquid Crystal Display, LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display, TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode, OLED), 플렉시블 디스플레이(Flexible Display), 전계 방출 디스플레이(Feld Emission Display, FED), 3차원 디스플레이(3D Display) 중에서 적어도 하나를 포함할 수 있다.

통신부(30)는 차량에 구비된 전장품 및/또는 제어유닛들과의 통신 인터페이스를 지원하는 통신모듈을 포함할 수 있다. 일 예로서, 통신모듈은 차량에 구비된 음성 인식 엔진으로 음성 신호를 송신하고, 음성 인식 엔진으로부터의 음성 인식 결과를 수신할 수 있다. 여기서, 통신모듈은 CAN(Controller Area Network) 통신, LIN(Local Interconnect Network) 통신, 플렉스레이(Flex-Ray) 통신 등의 차량 네트워크 통신을 지원하는 모듈을 포함할 수 있다.

또한, 통신모듈은 무선 인터넷 접속을 위한 모듈 또는 근거리 통신(Short Range Communication)을위한모듈을포함할수도있다. 여기서, 무선 인터넷 기술로는 무선랜(Wireless LAN, WLAN), 와이브로(Wireless Broadband, Wibro), 와이파이(Wi-Fi), 와이맥스(World Interoperability for Microwave Access, Wimax) 등이포함될수있으며, 근거리 통신 기술로는 블루투스(Bluetooth), 지그비(ZigBee), UWB(Ultra Wideband), RFID(Radio Frequency Identification), 적외선통신(Infrared Data Association, IrDA) 등이 포함될 수 있다.

저장부(40)는 사용자 데이터가 저장될 수 있다. 일 예로, 저장부(40)는 사용자에 의해 등록된 일정 데이터가 저장될 수 있다.

또한, 저장부(40)는 음성 안내 제어 장치(100)가 동작하는데 필요한 데이터, 명령 및/또는 알고리즘 등을 저장할 수 있다. 일 예로, 저장부(40)는 음성 인식 결과가 저장될 수 있으며, 음성 인식된 명령을 처리하는 알고리즘이 저장될 수 있다. 또한, 저장부(40)는 음성 명령 처리 결과에 대한 텍스트의 태깅을 위한 조건 정보, 명령 및/또는 알고리즘이 저장될 수 있다. 또한, 저장부(40)는 태깅된 텍스트를 기반으로 문장 생성하거나, 생성된 문장에 기초하여 음성 안내를 위한 명령 및/또는 알고리즘이 저장될 수 있다.

여기서, 저장부(40)는 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), PROM(Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory)와 같은 저장매체를 포함할 수 있다.

음성 안내 제어 장치(100)는 마이크를 통해 사용자로부터 발화된 음성 명령이 입력되면, 입력된 음성 명령을 분석하여 텍스트를 인식한다. 이때, 음성 안내 제어 장치(100)는 인식한 텍스트를 기반으로 음성 명령을 처리하고, 음성 명령의 처리 결과를 사용자에게 제공한다. 이때, 음성 안내 제어 장치(100)는 음성 안내 처리 결과를 후보 리스트 형태로 제공할 수 있다. 또한, 음성 안내 제어 장치(100)는 사용자에게 제공한 후보 리스트의 텍스트를 정규화하여 분류하고, 분류된 각 텍스트를 기초로 미리 정의된 조건에 따라 태깅을 한다. 이때, 음성 안내 제어 장치(100)는 사용자에게 제공한 후보 리스트 중 어느 하나가 선택되면, 선택된 후보 리스트에 태깅된 텍스트에 기초하여 문장을 생성하고, 생성된 문장에 기초하여 사용자에게 음성 안내를 수행한다.

이에, 음성 안내 제어 장치(100)의 구성 요소들에 대한 세부 설명은 도 2의 실시예를 참조한다.

본 발명에 따른 음성 안내 제어 장치(100)는 차량의 내부에 구현될 수 있다. 이때, 음성 안내 제어 장치(100)는 차량의 내부 제어유닛들과 일체로 형성될 수 있으며, 별도의 장치로 구현되어 별도의 연결 수단에 의해 차량의 제어유닛들과 연결될 수도 있다.

도 2는 본 발명의 일 실시예에 따른 음성 안내 제어 장치의 구성을 도시한 도면이다.

도 2를 참조하면, 음성 안내 제어 장치(100)는 음성 인식부(110), 음성 모델 DB(120), 탐색부(130), 태깅부(140), 문장 생성부(150) 및 안내부(160)를 포함할 수 있다. 여기서, 본 실시예에 따른 음성 안내 제어 장치(100)의 음성 인식부(110), 음성 모델 DB(120), 탐색부(130), 태깅부(140), 문장 생성부(150) 및 안내부(160)는 적어도 하나 이상의 프로세서(processor)로서 구현될 수 있다.

음성 인식부(110)는 사용자로부터 발화된 음성이 마이크로 입력되면, 마이크로부터 입력된 음성 신호를 전처리하여 노이즈를 제거한다. 또한, 음성 인식부(110)는 노이즈가 제거된 음성 신호를 분석하여 특징점을 추출하고, 추출된 특징점을 음성 모델 DB(120)의 음성 모델과 비교하여 음성 신호에 대응하는 텍스트를 추출할 수 있다. 이때, 음성 인식부(110)는 추출된 텍스트를 기반으로 사용자의 음성 명령을 인식한다.

한편, 음성 인식부(110)는 차량 내 음성 인식 엔진을 호출하고, 호출된 음성 인식 엔진에 의해 음성 인식을 수행하여 음성인식엔진의 음성 인식 수행 결과로부터 음성 명령을 인식할 수도 있다.

탐색부(130)는 음성 인식부(110)에 의해 인식된 음성 명령을 처리한다. 이때, 탐색부(130)는 음성 명령에 대응하는 정보를 검색하고, 검색 결과를 디스플레이 화면에 출력한다.

일 예로, 탐색부(130)는 인식된 음성 명령이 목적지 검색인 경우, 맵 DB를 검색하여 목적지 검색 결과를 디스플레이 화면에 출력한다. 또한, 탐색부(130)는 인식된 음성 명령이 일정 검색인 경우, 사용자 DB를 검색하여 일정 검색 결과를 디스플레이 화면에 출력한다. 여기서, 탐색부(130)는 통신부를 통해 외부의 DB에 접속하여, 사용자의 음성 명령에 대응하는 정보를 검색할 수도 있다.

여기서, 탐색부(130)는 음성 명령에 대한 검색 결과가 복수 개인 경우, 복수 개의 검색 결과에 대한 복수 개의 후보 리스트를 생성하여 저장하고, 복수 개의 후보 리스트를 디스플레이 화면에 출력할 수 있다. 또한, 탐색부(130)는 복수 개의 후보 리스트를 태깅부(140)로 전달할 수 있다.

복수 개의 후보 리스트는 동일한 음성 명령에 대한 검색 결과이므로, 동일하거나 유사한 키워드를 포함할 수 있다. 복수 개의 후보 리스트에 대한 실시예는 도 3을 참조한다.

도 3은 목적지 검색 결과에 대한 복수 개의 후보 리스트를 나타낸 것이다.

음성 명령이 "길안내 OO까페"인 경우, 탐색부(130)는 현재 위치로부터 정해진 범위 내에 위치한 'OO까페'를 검색하고, 검색된 결과들에 대한 복수 개의 후보 리스트를 사용자에게 제공한다.

도 3에 도시된 바와 같이, 복수 개의 후보 리스트는 'OO까페' 검색 결과에 대한 거리 정보, 브랜드 정보, 주소 정보를 포함하고 있다. 또한, 복수 개의 후보 리스트는 'X다방'과 같이 'OO까페'에 대한 유사 검색 결과도 포함할 수 있다.

이에, 태깅부(140)는 복수 개의 후보 리스트를 정규화하여 최소 단위의 텍스트로 각각 분류하고, 분류된 각 텍스트로부터 복수 개의 후보 리스트에 대응하는 고유 텍스트를 추출하여 태깅할 수 있다.

여기서, 태깅부(140)에 대한 세부 구성은 도 4의 실시예를 참조하도록 한다.

도 4를 참조하면, 태깅부(140)는 텍스트 정규화 처리부, 텍스트 분류부 및 태깅 처리부를 포함할 수 있다.

먼저, 텍스트 정규화 처리부는 복수 개의 후보 리스트에 포함된 텍스트 예외 문자를 처리하여 정규화할 수 있다. 이때, 텍스트 정규화 처리부는 각 후보 리스트에 포함된 텍스트에 대해 ASCII 코드를 제외한 특수문자를 공백(blank) 처리할 수 있다.

텍스트 분류부는 정규화된 복수 개의 후보 리스트에 포함된 텍스트를 분석하여 도메인 별로 분류한다. 일 예로, 텍스트 분류부는 복수 개의 후보 리스트가 목적지 검색 결과에 대한 리스트인 경우 '거리', '브랜드', '주소' 및 '지명' 등과 같은 도메인으로 분류할 수 있다. 또한, 텍스트 분류부는 복수 개의 후보 리스트가 일정 검색 결과에 대한 리스트인 경우 '제목', '내용(요약)' 및 '목적지' 등과 같은 도메인으로 분류할 수 있다. 또한, 텍스트 분류부는 복수 개의 후보 리스트가 날씨 검색 결과에 대한 리스트인 경우 '지역', '날씨' 및 '생활지수' 등과 같은 도메인으로 분류할 수 있으며, 음악 검색에 대한 리스트인 경우에는 '가수', '앨범', '장르' 및 '타이틀' 등과 같은 도메인으로 분류할 수 있다.

여기서, 텍스트 분류부는 사전에 각 도메인 별로 우선순위를 정하고, 높은 우선순위를 갖는 도메인 순으로 각 후보 리스트에 포함된 텍스트를 분류할 수 있다.

태깅 처리부는 텍스트 분류부에 의해 각 도메인 별로 분류된 텍스트의 스트링 값을 비교하여 고유의 스트링 값을 갖는 텍스트를 추출하고, 추출된 텍스트에 기초하여 해당 후보 리스트에 태깅한다.

이에, 복수 개의 후보 리스트에 포함된 각 텍스트를 도메인 별로 분류하고, 도메인 별로 분류된 텍스트를 기반으로 태깅하는 동작에 대한 실시예는 도 5a 내지 도 5c를 참조한다.

먼저, 도 5a 및 도 5b는 복수 개의 후보 리스트에 포함된 텍스트를 우선순위가 높은 도메인 순으로 분류하는 실시예를 나타낸 것이다.

도 5a에 도시된 바와 같이, 복수 개의 후보 리스트는 거리 정보, 브랜드 정보, 그리고 시/도, 구, 동과 같은 주소 정보를 포함하고 있다.

따라서, 텍스트 분류부는 복수 개의 후보 리스트로부터 우선순위가 가장 높은 도메인인 '거리' 정보를 추출하여 도 5b와 같이 한다. 또한, 텍스트 분류부는 도 5a의 후보 리스트로부터 두 번째 우선순위를 갖는 도메인인 '브랜드' 정보를 추출하여 도 5b와 같이 정리한다. 또한, 텍스트 분류부는 도 5a의 후보 리스트로부터 세 번째 우선순위를 갖는 도메인인 '시/도' 정보를 추출하여 도 5b와 같이 정리한다. 또한, 텍스트 분류부는 도 5a의 후보 리스트로부터 네 번째 우선순위를 갖는 도메인인 '구' 정보를 추출하여 도 5b와 같이 정리한다. 또한, 텍스트 분류부는 도 5a의 후보 리스트로부터 다섯 번째 우선순위를 갖는 도메인인 '동' 정보를 추출하여 도 5b와 같이 정리한다.

이때, 태깅부(140)는 도 5b와 같이 분류된 텍스트들을 각 도메인 별로 비교하여 해당 도메인에서 고유 스트링 값을 갖는 텍스트를 추출하고, 추출된 텍스트를 해당 후보 리스트에 태깅할 수 있다.

태깅부(140)는 도 5c에 도시된 바와 같이, 복수 개의 후보 리스트에 대해 도메인 별로 분류된 텍스트 중 우선순위1에 해당하는 거리 정보를 각각 비교한다. 이때, 태깅부(140)는 가장 짧은 거리 정보를 갖는 '3'번 리스트에 거리 정보를 태깅한다.

이후, 태깅부(140)는 복수 개의 후보 리스트에 대해 도메인 별로 분류된 텍스트 중 우선순위2에 해당하는 브랜드 정보를 각각 비교한다. 이때, 복수 개의 후보 리스트 중 '4'번 리스트의 브랜드 정보인 'X다방'은 다른 후보 리스트들과 구별되는 고유의 스트링 값을 갖는다. 따라서, 태깅부(140)는 '4'번 리스트에 브랜드 정보를 태깅한다.

이와 같은 방식으로, 태깅부(140)는 복수 개의 후보 리스트의 텍스트들에 대해 도메인의 우선순위에 따라 '시/도', '구', '동'을 각각 비교한다.

이때, 태깅되지 않은 '1'번 리스트 및 '2' 번 리스트는 우선순위5에 해당하는 동 정보가 서로 상이하다. 따라서, 태깅부(140)는 '1'번 및 '2'번 리스트에 동 정보를 각각 태깅한다.

도 5c의 도면부호 511과 같이 첫 번째 태깅이 완료되면, 태깅부(140)는 도면부호 515와 같이 음성 명령에 해당하는 텍스트 'OO까페'를 포함하는 '1'번, '2'번, '3'번 리스트에 해당 도메인 정보, 다시 말해, 브랜드 정보를 각각 태깅할 수 있다.

태깅부(140)는 각 후보 리스트에 태깅된 텍스트 정보를 저장한다.

문장 생성부(150)는 사용자에게 제공된 복수 개의 후보 리스트 중 어느 하나에 대한 선택 정보가 입력되면, 태깅부(140)로 선택된 리스트에 대한 태깅 정보를 요청한다. 이에, 태깅부(140)는 문장 생성부(150)에 의해 요청된 리스트의 태깅 정보를 추출하여 문장 생성부(150)로 전달한다. 여기서, 태깅 정보는 해당 리스트에 태깅된 도메인 정보에 해당하는 텍스트를 포함한다.

이때, 문장 생성부(150)는 선택된 리스트에 대해 태깅부(140)로부터 전달된 태깅 정보를 이용하여 문장을 생성한다.

여기서, 문장 생성부(150)는 선택된 리스트의 태깅 정보가 복수 개의 도메인에 해당하는 텍스트를 포함하는 경우, 복수 개의 텍스트에 대응하는 복수 개의 문장을 생성할 수 있다. 또한, 문장 생성부(150)는 적어도 둘 이상의 텍스트를 결합하여 문장을 생성할 수도 있다.

일 예로, 도 3에 도시된 복수 개의 후보 리스트 중 사용자에 의해 '1'번 리스트가 선택된 경우, 문장 생성부(150)는 '1'번 리스트에 태깅된 동 정보("상현동") 및 브랜드 정보("OO까페")를 이용하여 "상현동, OO까페로 안내합니다"와 같은 문장을 생성할 수 있다.

또한, 도 3에 도시된 복수 개의 후보 리스트 중 사용자에 의해 '2'번 리스트가 선택된 경우, 문장 생성부(150)는 '2'번 리스트에 태깅된 동 정보("풍덕천동") 및 브랜드 정보("OO까페")를 이용하여 "풍덕천동, OO까페로 안내합니다"와 같은 문장을 생성할 수 있다.

또한, 도 3에 도시된 복수 개의 후보 리스트 중 사용자에 의해 '3'번 리스트가 선택된 경우, 문장 생성부(150)는 '3'번 리스트에 태깅된 거리 정보("10km") 및 브랜드 정보("OO까페")를 이용하여 "10km 내 OO까페로 안내합니다"와 같은 문장을 생성할 수 있다.

또한, 도 3에 도시된 복수 개의 후보 리스트 중 사용자에 의해 '4'번 리스트가 선택된 경우, 문장 생성부(150)는 '4'번 리스트에 태깅된 브랜드 정보("X다방")를 이용하여 "X다방으로 안내합니다"와 같은 문장을 생성할 수 있다.

문장 생성부(150)는 선택된 리스트의 태깅 정보를 이용하여 생성한 문장을 안내부(160)로 전달한다. 따라서, 안내부(160)는 문장 생성부(150)에 의해 생성된 문장에 대응하는 안내 음성을 생성하고, 생성된 안내 음성을 스피커를 통해 출력할 수 있다. 또한, 안내부(160)는 문장 생성부(150)에 의해 생성된 문장에 기초하여 안내 화면을 구성하고 디스플레이 화면으로 출력할 수도 있다.

도 6은 디스플레이 화면을 통해 제공되는 안내 화면의 실시예를 나타낸 것이다.

사용자에 의해 '2'번 리스트가 선택된 경우, 문장 생성부(150)는 '2'번 리스트에 태깅된 도메인 정보인 '동, '브랜드'에 해당하는 텍스트 '풍덕천동' 및 'OO까페'를 이용하여 하나 또는 그 이상의 문장을 생성하고, 생성된 문장을 기초로 안내 음성을 생성하여 출력할 수 있다.

또한, 문장 생성부(150)는 생성된 문장을 기초로 안내 화면을 구성하여 디스플레이 화면으로 출력할 수도 있다.

일 예로, '2'번 리스트에 대응하여 "풍덕천동으로 안내합니다.", "풍덕천동, OO까페로 안내합니다."와 같이 두 개의 문장이 생성된 경우, 안내부(160)는 도 6에 도시된 바와 같이, 각 문장을 포함하는 안내 화면을 구성하여 디스플레이 화면으로 출력한다.

이때, 안내부(160)는 스피커를 통해 안내 음성이 출력되는 동안 디스플레이를 통해 안내 화면을 출력할 수 있다.

도 7a 내지 도 7c는 다른 실시예를 나타낸 것으로, 일정 검색 결과를 안내하는 실시예를 나타낸 것이다.

도 7a와 같이 사용자로부터 "오늘의 일정은 뭐가 있나"와 같은 음성 명령(711)이 입력되면, 탐색부(130)는 사용자 DB로부터 사용자의 오늘 일정을 검색하고, 도면부호 721과 같이 일정 검색 결과에 대한 후보 리스트를 생성하여 사용자에게 제공한다.

이때, 사용자는 '동기모임' 리스트(725)를 선택하고자 하는 경우 도면부호 731과 같이 "동기모임" 또는 " 세 번째"와 같은 선택 정보를 음성으로 발화할 수 있다.

한편, 태깅부(140)는 도 7b와 같이, 동기모임 리스트와 관련하여 '제목', '본문 요약', 및 '목적지' 도메인에 해당하는 텍스트 '동기모임', '저녁 7시', '강남역 OX레스토랑'을 태깅할 수 있다.

따라서, 문장 생성부(150)는 동기모임 리스트가 선택되면, 동기모임 리스트의 태깅 정보, 예를 들어, '동기모임', '저녁 7시', '강남역 OX레스토랑'을 이용하여 "동기모임, 저녁 7시, 강남역 OX레스토랑 일정이 있습니다."와 같은 문장을 생성할 수 있다. 이때, 안내부(160)는 문장 생성부(150)에 의해 생성된 문장에 기초하여 안내 화면 및 안내 음성을 생성하고, 생성된 안내 화면 및 안내 음성을 도 7c와 같이 출력할 수 있다.

이와 같이, 안내 화면 및/또는 안내 음성을 통해 사용자에게 제공되는 문장은 해당 리스트가 갖는 고유의 텍스트 정보를 이용하여 생성된 것이므로, 사용자는 선택된 리스트의 정보를 안내 화면 및/또는 안내 음성을 통해 쉽게 파악할 수 있다. 이 경우, 사용자는 잘못된 리스트가 선택된 경우에도 안내 화면 및/또는 안내 음성을 통해 신속하게 인식할 수 있다.

상기에서와 같이 동작하는 본 실시예에 따른 음성 안내 제어 장치(100)는 메모리와 각 동작을 처리하는 프로세서를 포함하는 독립적인 하드웨어 장치 형태로 구현될 수 있으며, 마이크로프로세서나 범용 컴퓨터 시스템과 같은 다른 하드웨어 장치에 포함된 형태로 구동될 수 있다.

상기와 같이 구성되는 본 발명에 따른 장치의 동작 흐름을 보다 상세히 설명하면 다음과 같다.

도 8은 본 발명의 일 실시예에 따른 음성 안내 제어 방법에 대한 동작 흐름을 도시한 도면이다.

도 8에 도시된 바와 같이, 음성 안내 제어 장치(100)는 음성 신호가 입력되면(S110), 음성 신호를 분석하여 특징점을 추출하고(S120), 추출된 특징점에 기초하여 음성 명령을 인식한다(S130).

음성 안내 제어 장치(100)는 'S130' 과정에서 인식된 음성 명령에 따라 DB로부터 소정의 정보를 검색하고 검색 결과에 대한 N개의 후보 리스트를 사용자에게 제공한다(S140).

한편, 음성 안내 제어 장치(100)는 N개의 후보 리스트에 포함된 텍스트를 정규화하고(S150), 도메인 별로 각 텍스트를 분류할 수 있다(S160). 이때, 음성 안내 제어 장치(100)는 도메인 우선순위에 따라 각 도메인 별로 분류된 텍스트를 비교하여 고유 텍스트를 추출하고, 추출된 텍스트를 해당 후보 리스트에 태깅한다(S170). 'S170' 과정은 N개의 후보 리스트 전체에 대해 고유 텍스트를 태깅한다.

이후, 'S140' 과정에서 사용자에게 제공된 N개의 후보 리스트 중 어느 하나가 선택되면(S180), 음성 안내 장치는 선택된 리스트에 대해 'S170' 과정에서 태깅된 텍스트를 기반으로 문장을 생성하고(S190), 'S190' 과정에서 생성한 문장에 기초하여 사용자에 의해 선택된 결과를 음성으로 안내한다(S200).

도 9는 본 발명의 일 실시예에 따른 방법이 실행되는 컴퓨팅 시스템을 도시한 도면이다.

도 9를 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.

프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10: 제어부 20: 인터페이스부
30: 통신부 40: 저장부
100: 음성 안내 제어 장치 110: 음성 인식부
120: 음성 모델 DB 130: 탐색부
140: 태깅부 150: 문장 생성부
160: 안내부

Claims

사용자로부터 발화된 음성 신호를 분석하여 음성 명령을 인식하는 음성 인식부;
상기 인식된 음성 명령에 기초하여 DB(database)를 검색하고, 상기 DB의 검색 결과가 복수 개인 경우 상기 복수 개의 검색 결과에 각각 대응하는 복수 개의 후보 리스트를 생성하는 탐색부;
상기 복수 개의 후보 리스트로부터 텍스트를 추출하여 도메인 별로 분류하고, 각 도메인 별로 분류된 텍스트 중 각 후보 리스트 별로 적어도 하나 이상의 고유 텍스트를 추출하여 해당 후보 리스트에 태깅하는 태깅부;
상기 복수 개의 후보 리스트 중 어느 하나가 선택되면, 선택된 리스트에 태깅된 적어도 하나 이상의 텍스트에 기초하여 문장을 생성하는 문장 생성부; 및
상기 생성된 문장에 기초하여 안내 음성을 생성하고 상기 생성된 안내 음성을 출력하는 안내부
를 포함하는 것을 특징으로 하는 음성 안내 제어 장치.
청구항 1에 있어서,
상기 태깅부는,
상기 복수 개의 후보 리스트에 포함된 텍스트를 정규화하는 텍스트 정규화 처리부;
상기 복수 개의 후보 리스트에 포함된 텍스트를 분석하여 도메인 별로 분류하는 텍스트 분류부; 및
각 도메인 별로 분류된 텍스트의 스트링 값을 비교하여 고유의 스트링 값을 갖는 텍스트를 추출하고, 추출된 텍스트에 기초하여 대응하는 후보 리스트에 태깅하는 태깅 처리부를 포함하는 것을 특징으로 하는 음성 안내 제어 장치.
청구항 2에 있어서,
상기 태깅 처리부는,
상기 각 도메인에 부여된 우선순위에 따라 높은 우선순위를 갖는 도메인 순으로 텍스트를 비교하여 고유 텍스트를 추출하는 것을 특징으로 하는 음성 안내 제어 장치.
청구항 3에 있어서,
상기 태깅 처리부는,
특정 도메인으로 분류된 텍스트를 비교하여 고유 텍스트가 존재하지 않으면, 다음 우선순위를 갖는 도메인으로 분류된 텍스트를 비교하는 것을 특징으로 하는 음성 안내 제어 장치.
청구항 1에 있어서,
상기 문장 생성부는,
상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 상기 복수 개의 텍스트를 결합하여 문장을 생성하는 것을 특징으로 하는 음성 안내 제어 장치.
청구항 1에 있어서,
상기 문장 생성부는,
상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 각각의 텍스트에 대응하는 복수 개의 문장을 생성하는 것을 특징으로 하는 음성 안내 제어 장치.
청구항 1에 있어서,
상기 안내부는,
상기 생성된 문장에 기초하여 안내 화면을 구성하고, 상기 구성된 안내 화면을 출력하는 것을 특징으로 하는 음성 안내 제어 장치.
삭제
청구항 1에 있어서,
상기 음성 인식부는,
상기 음성 신호를 분석하여 적어도 하나 이상의 특징점을 추출하고, 상기 추출된 적어도 하나 이상의 특징점을 음성 모델 DB에 저장된 음성 모델과 비교하여 상기 음성 명령을 인식하는 것을 특징으로 하는 음성 안내 제어 장치.
청구항 1에 있어서,
상기 음성 인식부는,
상기 복수 개의 후보 리스트 중 사용자로부터 발화된 음성 신호에 기초하여 선택 리스트를 인식하는 것을 특징으로 하는 음성 안내 제어 장치.
사용자로부터 발화된 음성 신호를 분석하여 음성 명령을 인식하는 단계;
상기 인식된 음성 명령에 기초하여 DB를 검색하고, 상기 DB의 검색 결과가 복수 개인 경우 상기 복수 개의 검색 결과에 각각 대응하는 복수 개의 후보 리스트를 생성하는 단계;
상기 복수 개의 후보 리스트로부터 텍스트를 추출하여 도메인 별로 분류하고, 각 도메인 별로 분류된 텍스트 중 각 후보 리스트 별로 적어도 하나 이상의 고유 텍스트를 추출하여 해당 후보 리스트에 태깅하는 단계;
상기 복수 개의 후보 리스트 중 어느 하나가 선택되면, 선택된 리스트에 태깅된 적어도 하나 이상의 텍스트에 기초하여 문장을 생성하는 단계; 및
상기 생성된 문장에 기초하여 안내 음성을 생성하고 상기 생성된 안내 음성을 출력하는 단계
를 포함하는 것을 특징으로 하는 음성 안내 제어 방법.
청구항 11에 있어서,
상기 태깅하는 단계는,
상기 복수 개의 후보 리스트에 포함된 텍스트를 정규화하는 단계;
상기 복수 개의 후보 리스트에 포함된 텍스트를 분석하여 도메인 별로 분류하는 단계;
각 도메인 별로 분류된 텍스트의 스트링 값을 비교하여 고유의 스트링 값을 갖는 고유 텍스트를 추출하는 단계; 및
상기 추출된 고유 텍스트에 기초하여 대응하는 후보 리스트에 태깅하는 단계를 포함하는 것을 특징으로 하는 음성 안내 제어 방법.
청구항 12에 있어서,
상기 고유 텍스트를 추출하는 단계는,
상기 각 도메인에 부여된 우선순위에 따라 높은 우선순위를 갖는 도메인 순으로 텍스트를 비교하는 단계를 포함하는 것을 특징으로 하는 음성 안내 제어 방법.
청구항 13에 있어서,
상기 텍스트를 비교하는 단계는,
특정 도메인으로 분류된 텍스트를 비교하여 고유 텍스트가 존재하지 않으면, 다음 우선순위를 갖는 도메인으로 분류된 텍스트를 비교하는 것을 특징으로 하는 음성 안내 제어 방법.
청구항 11에 있어서,
상기 문장을 생성하는 단계는,
상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 상기 복수 개의 텍스트를 결합하여 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 음성 안내 제어 방법.
청구항 11에 있어서,
상기 문장을 생성하는 단계는,
상기 선택된 리스트에 태깅된 텍스트가 복수 개인 경우 각각의 텍스트에 대응하는 복수 개의 문장을 생성하는 단계를 포함하는 것을 특징으로 하는 음성 안내 제어 방법.
청구항 11에 있어서,
상기 생성된 문장에 기초하여 안내 화면을 구성하고, 상기 구성된 안내 화면을 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성 안내 제어 방법.
삭제
청구항 11에 있어서,
상기 복수 개의 후보 리스트 중 사용자로부터 발화된 음성 신호에 기초하여 선택 리스트를 인식하는 단계를 더 포함하는 것을 특징으로 하는 음성 안내 제어 방법.
마이크 및 스피커를 포함하는 인터페이스부; 및
사용자로부터 발화된 음성 신호를 분석하여 음성 명령을 인식하며, 상기 인식된 음성 명령에 기초하여 DB를 검색하고, 상기 DB의 검색 결과가 복수 개인 경우 상기 복수 개의 검색 결과에 각각 대응하는 복수 개의 후보 리스트를 생성하고, 상기 복수 개의 후보 리스트로부터 텍스트를 추출하여 도메인 별로 분류하고, 각 도메인 별로 분류된 텍스트 중 각 후보 리스트 별로 적어도 하나 이상의 고유 텍스트를 추출하여 해당 후보 리스트에 태깅하며, 상기 복수 개의 후보 리스트 중 어느 하나가 선택되면 선택된 리스트에 태깅된 적어도 하나 이상의 텍스트에 기초하여 문장을 생성하고, 상기 생성된 문장에 기초하여 생성된 안내 음성을 상기 스피커를 통해 출력하는 음성 안내 제어 장치
를 포함하는 것을 특징으로 하는 차량 시스템.