KR20180075050A

KR20180075050A - 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법

Info

Publication number: KR20180075050A
Application number: KR1020160178935A
Authority: KR
Inventors: 이경철
Original assignee: 현대자동차주식회사
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2018-07-04
Also published as: CN108242236A; KR102643501B1; CN108242236B; US10854195B2; US20180182382A1

Abstract

실시간으로 입력되는 음향 신호의 세기를 모니터링하고, 입력된 음성 신호의 세기가 기준값 이상인 경우에 사용자의 음성 입력이 시작되는 것으로 판단함으로써, 사용자가 음성 인식 시작을 위해 발화 이외에 별도의 트리거를 위한 동작을 수행하지 않아도 되는 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법을 제공한다.
일 실시예에 따른 대화 처리 장치는, 입력 신호의 레벨을 기준 레벨과 실시간으로 비교하고, 상기 입력 신호의 레벨이 상기 기준 레벨보다 크면 사용자의 음성이 입력된 것으로 판단하는 모니터링부; 상기 사용자의 음성이 입력된 것으로 판단되면, 상기 입력 신호에 대한 음성 인식을 수행하여 텍스트 형태의 발화문을 출력하는 음성 인식부; 상기 발화문에 기초하여 도메인 및 키워드를 추출하는 자연어 처리부; 및 상기 도메인 및 키워드에 기초하여 이전 상황의 지속 여부를 판단하는 대화 관리부;를 포함한다.

Description

대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법{DIALOGUE PROCESSING APPARATUS, VEHICLE HAVING THE SAME AND DIALOGUE PROCESSING METHOD}

개시된 발명은 사용자와의 대화를 통해 사용자의 의도를 파악하고 사용자에게 필요한 정보나 서비스를 제공하는 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법에 관한 것이다.

차량에 대한 기술이 발전함에 따라, 차량이 수행하는 기본적인 기능인 주행 이외에도 사용자의 편의를 위한 다양한 기능이 제공되고 있다.

이처럼 차량이 수행할 수 있는 기능이 다양해지면서 사용자의 조작 부하가 증가되고, 조작 부하의 증가는 운전에 대한 집중도를 저하시켜 안전 운전을 방해하는 요인이 된다. 또한, 기기의 조작이 미숙한 사용자는 차량이 수행할 수 있는 기능을 제대로 활용하지 못하게 된다.

따라서, 차량에 음성 인식 기술을 적용하면, 사용자가 입력 장치를 조작하지 않고 음성을 발화하는 것만으로 차량의 다양한 기능을 제어할 수 있도록 함으로써 안정성과 편의성을 모두 향상시킬 수 있다.

실시간으로 입력되는 음향 신호의 세기를 모니터링하고, 입력된 음성 신호의 세기가 기준값 이상인 경우에 사용자의 음성 입력이 시작되는 것으로 판단함으로써, 사용자가 음성 인식 시작을 위해 발화 이외에 별도의 트리거를 위한 동작을 수행하지 않아도 되는 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법을 제공한다.

또한, 입력된 음성으로부터 추출된 도메인과 키워드를 이용하여 대화가 연속적으로 이루어지고 있는지, 새로운 주제의 대화가 시작된 것인지를 판단함으로써 사용자의 의도에 맞는 적절한 응답이나 서비스를 제공할 수 있는 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법을 제공한다.

일 실시예에 따른 대화 처리 장치는, 입력 신호의 레벨을 기준 레벨과 실시간으로 비교하고, 상기 입력 신호의 레벨이 상기 기준 레벨보다 크면 사용자의 음성이 입력된 것으로 판단하는 모니터링부; 상기 사용자의 음성이 입력된 것으로 판단되면, 상기 입력 신호에 대한 음성 인식을 수행하여 텍스트 형태의 발화문을 출력하는 음성 인식부; 상기 발화문에 기초하여 도메인 및 키워드를 추출하는 자연어 처리부; 및 상기 도메인 및 키워드에 기초하여 이전 상황의 지속 여부를 판단하는 대화 관리부;를 포함한다.

상기 기준 레벨은, 사용자의 음성이 발화되지 않는 상태에서 입력되는 배경 신호의 레벨에 기초하여 결정될 수 있다.

상기 배경 신호의 레벨을 저장하는 저장부;를 더 포함하고, 상기 저장부는, 상기 입력 신호의 레벨이 상기 기준 레벨 이하이면, 상기 입력 신호를 상기 배경 신호로 판단하고, 상기 입력 신호의 레벨을 이용하여 상기 저장된 배경 신호의 레벨을 업데이트할 수 있다.

상기 대화 관리부는, 미리 저장된 이전 상황(context)에 대한 정보에 기초하여, 시작된 이전 상황이 존재하는지 여부를 판단 할 수 있다.

상기 대화 관리부는, 상기 시작된 이전 상황이 존재하는 경우에는, 상기 시작된 이전 상황의 종료 여부를 판단할 수 있다.

상기 대화 관리부는, 상기 이전 상황이 시작된 이후에 미리 설정된 기준 시간이 경과한 경우에는, 상기 이전 상황이 종료된 것으로 판단할 수 있다.

상기 대화 관리부는, 상기 기준 시간이 경과하지 않은 경우에는, 상기 이전 상황에 대한 정보와 현재 상황에 대한 정보를 비교하여 상황의 변경 여부를 판단할 수 있다.

상기 대화 관리부는, 상기 이전 상황에 대해 추출된 도메인 및 키워드와 상기 현재 상황에 대해 추출된 도메인 및 키워드를 비교하여 상기 상황의 변경 여부를 판단할 수 있다.

상기 대화 관리부는, 상기 상황이 변경되지 않은 것으로 판단되면, 상기 이전 상황에 수행된 대화 또는 서비스와 연속적인 대화 또는 서비스를 제공할 수 있다.

상기 대화 관리부는, 상기 상황이 변경된 것으로 판단되면, 상기 이전 상황은 종료하고 현재 상황을 신규 상황으로서 시작할 수 있다.

일 실시예에 따른 차량은, 상시 오픈되어 음향을 입력받고, 입력된 음향을 전기적인 입력 신호로 변환하는 마이크; 상기 입력 신호의 레벨을 기준 레벨과 실시간으로 비교하고, 상기 입력 신호의 레벨이 상기 기준 레벨보다 크면 사용자의 음성이 입력된 것으로 판단하는 모니터링부; 상기 사용자의 음성이 입력된 것으로 판단되면, 상기 입력 신호에 대한 음성 인식을 수행하여 텍스트 형태의 발화문을 출력하는 음성 인식부; 상기 발화문에 기초하여 도메인 및 키워드를 추출하는 자연어 처리부; 및 상기 도메인 및 키워드에 기초하여 이전 상황의 지속 여부를 판단하는 대화 관리부;를 포함한다.

상기 대화 관리부는, 미리 저장된 이전 상황(context)에 대한 정보에 기초하여, 시작된 이전 상황이 존재하는지 여부를 판단할 수 있다.

일 실시예에 따른 대화 처리 방법은, 상시 오픈된 마이크에 입력된 입력 신호의 레벨을 기준 레벨과 실시간으로 비교하고; 상기 입력 신호의 레벨이 상기 기준 레벨보다 크면 사용자의 음성이 입력된 것으로 판단하고; 상기 사용자의 음성이 입력된 것으로 판단되면, 상기 입력 신호에 대한 음성 인식을 수행하여 대화 처리 프로세스를 수행하는 것;을 포함한다.

상기 입력 신호의 레벨이 상기 기준 레벨 이하이면, 상기 입력 신호를 상기 배경 신호로 판단하고; 상기 입력 신호의 레벨을 이용하여 상기 배경 신호의 레벨을 업데이트하는 것;을 더 포함 할 수 있다.

상기 대화 처리 프로세스를 수행하는 것은, 미리 저장된 이전 상황(context)에 대한 정보에 기초하여, 시작된 이전 상황이 존재하는지 여부를 판단하는 것;을 포함할 수 있다.

상기 대화 처리 프로세스를 수행하는 것은, 상기 시작된 이전 상황이 존재하는 경우에는, 상기 시작된 이전 상황의 종료 여부를 판단하는 것;을 더 포함할 수 있다.

상기 시작된 이전 상황의 종료 여부를 판단하는 것은, 상기 이전 상황이 시작된 이후에 미리 설정된 기준 시간이 경과한 경우에, 상기 시작된 이전 상황이 종료된 것으로 판단하는 것;을 포함할 수 있다.

상기 대화 처리 프로세스를 수행하는 것은, 상기 기준 시간이 경과하지 않은 경우에는, 상기 이전 상황에 대한 정보와 현재 상황에 대한 정보를 비교하여 상황의 변경 여부를 판단하는 것;을 더 포함할 수 있다.

상기 상황의 변경 여부를 판단하는 것은, 상기 이전 상황에 대해 추출된 도메인 및 키워드와 상기 현재 상황에 대해 추출된 도메인 및 키워드를 비교하여 상기 상황의 변경 여부를 판단하는 것;을 포함할 수 있다.

상기 대화 처리 프로세스를 수행하는 것은, 상기 상황이 변경되지 않은 것으로 판단되면, 상기 이전 상황에 수행된 대화 또는 서비스와 연속적인 대화 또는 서비스를 제공하는 것;을 포함할 수 있다.

상기 대화 처리 프로세스를 수행하는 것은, 상기 상황이 변경된 것으로 판단되면, 상기 이전 상황은 종료하고 현재 상황을 신규 상황으로서 시작하는 것;을 포함할 수 있다.

일 측면에 따른 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법은 실시간으로 입력되는 음향 신호의 세기를 모니터링하고, 입력된 음성 신호의 세기가 기준값 이상인 경우에 사용자의 음성 입력이 시작되는 것으로 판단함으로써, 사용자가 발화 이외에 별도의 트리거를 위한 동작을 수행하지 않아도 음성 인식을 시작할 수 있다.

또한, 입력된 음성으로부터 추출된 도메인과 키워드를 이용하여 대화가 연속적으로 이루어지고 있는지, 새로운 주제의 대화가 시작된 것인지를 판단함으로써 사용자의 의도에 맞는 적절한 응답이나 서비스를 제공할 수 있다.

도 1은 일 실시예에 따른 대화 처리 장치와 차량의 구성요소들 사이의 관계를 나타낸 제어 블록도이다.
도 2는 일 실시예에 따른 차량의 외관도이다.
도 3은 차량 내부의 구성을 나타낸 도면이다.
도 4는 일 실시예에 따른 대화 처리 장치가 차량과 별개의 구성인 경우에 관한 제어 블록도이다.
도 5는 일 실시예에 따른 대화 처리 장치의 제어 블록도이다.
도 6은 일 실시예에 따른 대화 처리 장치의 구성요소가 구체화된 제어 블록도이다.
도 7은 일 실시예에 따른 대화 처리 방법의 순서도이다.
도 8은 일 실시예에 따른 대화 처리 방법에 있어서, 대화 처리 프로세스를 구체적으로 나타낸 순서도이다.
도 9는 일 실시예에 따른 대화 처리 방법에 있어서, 자연어 처리 과정을 구체화한 순서도이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 붙여지는 부호는 각 단계들을 식별하기 위해 사용되는 것으로 이들 부호는 각 단계들 상호 간의 순서를 나타내는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법의 실시예를 상세하게 설명한다.

일 실시예에 따른 대화 처리 장치는 사용자의 음성을 인식하여 사용자의 의도를 파악하고 사용자의 의도에 적합한 서비스를 제공하는 장치로서, 서비스 제공의 일 수단 또는 사용자의 의도를 명확히 파악하기 위한 일 수단으로 음성을 출력할 수 있다. 이러한 대화 처리 장치(100)와 사용자를 연결하는 게이트웨이는 차량이 될 수 있는바, 대화 처리 장치(100)는 차량에 마련될 수도 있고, 차량 외부의 서버에 마련되어 차량과 통신을 통해 데이터를 주고 받을 수도 있다.

도 1은 일 실시예에 따른 대화 처리 장치와 차량의 구성요소들 사이의 관계를 나타낸 제어 블록도이다.

도 1을 참조하면, 사용자가 음성을 발화하여 마이크(210)를 통해 입력하면, 마이크(210)는 입력된 음성을 전기적 신호로 변환하여 대화 처리 장치(100)로 전달한다.

대화 처리 장치(100)는 사용자의 음성을 인식하고, 인식된 음성을 분석하여 사용자의 의도를 파악한다. 예를 들어, 사용자의 의도는 특정 목적지 검색 및 경로 안내, 정보 검색, 전화 걸기, 문자 보내기, 오디오 또는 비디오 제어, 기타 차량과 관련된 제어를 포함할 수 있다.

대화 처리 장치(100)는 사용자의 의도에 대응되는 서비스를 제공하기 위한 일 수단으로서, 음성을 출력할 수 있다. 예를 들어, 사용자의 의도가 특정 목적지로의 경로 안내인 경우에는, 목적지를 확인하기 위한 음성을 출력하거나, 해당 목적지와 관련된 부가 정보를 제공하기 위한 음성을 출력할 수 있다.

대화 처리 장치(100)가 음성을 출력하기 위한 제어신호 또는 명령어를 제어부(220)로 전달하면, 제어부(220)는 스피커(231)를 통해 해당 음성을 출력할 수 있다.

또한, 대화 처리 장치(100)는 사용자의 의도에 대응되는 서비스를 제공하기 위한 다른 수단으로서, 시각적인 정보를 화면을 통해 출력할 수도 있다. 대화 처리 장치(100)가 시각적인 정보를 출력하기 위한 제어 신호 또는 명령어를 제어부(220)로 전달하면, 제어부(220)는 디스플레이(232)를 통해 해당 정보를 시각적으로 출력할 수 있다. 예를 들어, 스피커(231)를 통해 출력되는 음성의 스크립트(script)가 디스플레이(232)에 표시될 수 있다.

또한, 제어부(220)는 사용자의 의도가 특정 목적지로의 경로 안내인 경우, 내비게이션 모듈(240)에 제어 신호를 전달하여 사용자의 의도에 따라 경로 안내를 수행하도록 한다.

도 1의 제어 블록도에서 마이크(210), 제어부(220) 및 스피커(231), 디스플레이(232)는 차량(1, 도 2 참조)에 마련되는 구성요소일 수 있고, 대화 처리 장치(100)는 전술한 바와 같이 차량(1)에 마련될 수도, 차량(1)의 외부에 마련될 수도 있다.

도 2는 일 실시예에 따른 차량의 외관도이고, 도 3은 차량 내부의 구성을 나타낸 도면이다.

도 2 및 도 3을 함께 참조하면, 차량(1)은 차량(1)을 이동시키는 차륜(51, 52), 차량(1) 내부를 외부로부터 차폐시키는 도어(71L, 71R, 72L, 72R), 차량(1) 내부의 운전자에게 차량(1) 전방의 시야를 제공하는 전면 유리(63), 운전자에게 차량(1) 후방의 시야를 제공하는 사이드 미러(81L, 81R)를 포함한다.

전면 유리(30)는 차량(1)의 전방 상측에 마련되어 차량(1) 내부의 운전자가 차량(1) 전방의 시각 정보를 획득할 수 있도록 하는 것으로서, 윈드쉴드 글래스(windshield glass)라고도 한다.

또한, 사이드 미러(81L, 81R)는 차량(1)의 좌측에 마련되는 좌측 사이드 미러(81L) 및 우측에 마련되는 우측 사이드 미러(81R)를 포함하며, 차량(1) 내부의 운전자가 차량(1)의 측면 및 후방에 대한 시각 정보를 획득할 수 있도록 한다.

차륜(51, 52)은 차량의 전방에 마련되는 전륜(51), 차량의 후방에 마련되는 후륜(52)을 포함하며, 차량(1) 내부에 마련되는 구동 장치(60)는 차량(1)이 이동하도록 전륜(51) 또는 후륜(52)에 회전력을 제공한다.

차량(1)이 전륜 구동 방식인 경우에는 전륜(51)에 회전력을 제공하고, 후륜 구동 방식인 경우에는 후륜(52)에 회전력을 제공한다. 또한, 차량(1)이 사륜 구동 방식인 경우에는 전륜(51)과 후륜(52)에 모두 회전력을 제공할 수 있다.

이와 같은 구동 장치(60)는 화석 연료를 연소시켜 회전력을 생성하는 엔진 또는 축전기로부터 전원을 공급받아 회전력을 생성하는 모터를 채용할 수 있고, 엔진과 모터를 모두 구비하여 선택적으로 사용하는 하이브리드 방식을 채용하는 것도 가능하다.

도어(71L, 71R, 72L)는 차량(1)의 좌측 및 우측에 회동 가능하게 마련되어 개방 시에 운전자 또는 동승자가 차량(1)의 내부에 탑승할 수 있도록 하며, 폐쇄 시에 차량(1)의 내부를 외부로부터 차폐시킨다.

이외에도 차량(1)은 후면 또는 측면의 장애물 내지 다른 차량을 감지하는 근접 센서, 강수 여부 및 강수량을 감지하는 레인 센서 등의 감지 장치를 포함할 수 있다.

차량(1) 내부의 대시보드(10)의 중앙 영역인 센터페시아(62)에는 오디오 기능, 비디오 기능, 내비게이션 기능, 전화 걸기 기능을 포함하는 차량의 제어를 수행하기 위해 필요한 화면을 표시하는 디스플레이(232)와 사용자의 제어 명령을 입력 받기 위한 입력부(233)가 마련될 수 있다.

디스플레이(232)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), CRT(Cathode Ray Tube) 등의 다양한 디스플레이 장치 중 하나로 구현될 수 있다.

사용자는 입력부(233)를 조작하여 차량(1)을 제어하기 위한 명령을 입력할 수 있다. 입력부(233)는 도 3에 도시된 바와 같이 디스플레이(232)와 인접한 영역에 하드 키 타입으로 마련될 수도 있고, 디스플레이(232)가 터치 스크린 타입으로 구현되는 경우에는 디스플레이(232)가 입력부(233)의 기능도 함께 수행할 수 있다.

차량(1)은 사용자의 제어 명령을 마이크(210)를 통해 음성으로 입력 받을 수도 있다. 마이크(210)는 음향을 입력 받아 전기적인 신호로 변환하여 출력할 수 있다.

효과적인 음성의 입력을 위하여 마이크(210)는 도 3에 도시된 바와 같이 헤드라이닝(64)에 장착될 수 있으나, 차량(1)의 실시예가 이에 한정되는 것은 아니며, 대시보드(61) 위에 장착되거나 스티어링 휠(65)에 장착되는 것도 가능하다. 이 외에도 사용자의 음성을 입력 받기에 적합한 위치이면 어디든 제한이 없다.

또한, 차량(1) 내부에는 사용자가 원하는 서비스를 제공하기 위해 필요한 음향을 출력하는 스피커(231)가 마련될 수 있다. 일 예로, 스피커(231)는 운전석 도어(71L) 및 조수석 도어(71R) 내측에 마련될 수 있다.

스피커(231)는 내비게이션 경로 안내를 위한 음성, 오디오/비디오 컨텐츠에 포함되는 음향 또는 음성, 사용자가 원하는 정보나 서비스를 제공하기 위한 음성, 사용자의 발화에 대한 응답으로서 생성된 음성 등을 출력할 수 있다.

도 4는 일 실시예에 따른 대화 처리 장치가 차량과 별개의 구성인 경우에 관한 제어 블록도이다.

일 예로, 대화 처리 장치(100)는 외부의 서버에 마련되거나, 사용자의 모바일 기기에 마련될 수 있다. 모바일 기기는 PDA(Personal Digital Assistant), 랩톱(laptop), 태블릿 PC, 스마트폰 및 스마트 글래스나 스마트 워치와 같은 웨어러블 디바이스 등의 전자 기기를 포함할 수 있다. 다만, 모바일 기기의 예시가 이에 한정되는 것은 아니며, 이동성이 보장되면서 데이터를 저장할 수 있고, 차량(1)과 무선 또는 유선으로 연결되어 데이터를 전달할 수 있는 전자 기기이면 모바일 기기가 될 수 있다.

차량(1)은 대화 처리 장치(100)를 포함하는 외부의 서버 또는 모바일 기기와 통신하기 위한 통신부(260)를 포함할 수 있다.

통신부(260)는 외부 장치와 통신을 가능하게 하는 하나 이상의 통신 모듈을 포함할 수 있으며, 예를 들어 근거리 통신 모듈, 유선 통신 모듈 및 무선 통신 모듈 중 적어도 하나를 포함할 수 있다.

근거리 통신 모듈은 블루투스 모듈, 적외선 통신 모듈, RFID(Radio Frequency Identification) 통신 모듈, WLAN(Wireless Local Access Network) 통신 모듈, NFC 통신 모듈, 직비(Zigbee) 통신 모듈 등 근거리에서 무선 통신망을 이용하여 신호를 송수신하는 다양한 근거리 통신 모듈을 포함할 수 있다.

유선 통신 모듈은 지역 통신(Local Area Network; LAN) 모듈, 광역 통신(Wide Area Network; WAN) 모듈 또는 부가가치 통신(Value Added Network; VAN) 모듈 등 다양한 유선 통신 모듈뿐만 아니라, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), DVI(Digital Visual Interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 다양한 케이블 통신 모듈을 포함할 수 있다.

무선 통신 모듈은 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution) 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.

또한, 무선 통신 모듈은 신호를 송수신하는 안테나, 송신기(Transmitter) 및 수신기(Receiver)를 포함할 수 있다.

또한, 무선 통신 모듈은 디지털 제어 신호를 아날로그 형태의 무선 신호로 변조하고, 수신한 아날로그 형태의 무선 신호를 디지털 제어 신호로 복조하기 위한 신호 변환 모듈을 더 포함할 수 있다.

또한, 통신부(260)는 차량(1) 내부의 전자 장치들 사이의 통신을 위한 내부 통신 모듈을 더 포함할 수도 있다. 차량(1)의 내부 통신 프로토콜로는 CAN(Controller Area Network), LIN(Local Interconnection Network), 플렉스레이(FlexRay), 이더넷(Ethernet) 등을 사용할 수 있다.

통신부(260)는 무선 통신 모듈을 이용하여 외부의 서버와 데이터를 주고 받을 수 있고, 근거리 통신 모듈 또는 유선 통신 모듈을 이용하여 모바일 기기와 데이터를 주고 받을 수 있다.

따라서, 대화 처리 장치(100)가 외부의 서버에 마련되는 경우에는 차량(1)이 무선 통신 모듈을 이용하여 대화 처리 장치(100)와 데이터를 주고 받을 수 있고, 대화 처리 장치(100)가 모바일 기기에 마련되는 경우에는 차량(1)이 근거리 통신 모듈 또는 유선 통신 모듈을 이용하여 모바일 기기와 데이터를 주고 받을 수 있다.

한편, 대화 처리 장치(100)의 일부 구성 요소는 차량(1)에 포함되고 다른 일부 구성 요소는 외부의 서버 또는 모바일 기기에 포함되는 것도 가능하다. 어느 구성 요소를 차량(1)에 포함시키고 어느 구성 요소를 외부의 서버 또는 모바일 기기에 포함시킬지 여부는 각 구성요소가 차지하는 데이터 저장 용량 또는 각 구성요소가 필요로 하는 프로세서의 성능 등에 따라 결정될 수 있다.

도 5는 일 실시예에 따른 대화 처리 장치의 제어 블록도이다.

도 5를 참조하면, 일 실시예에 따른 대화 처리 장치는 마이크(210)로부터 전달되는 입력 신호를 모니터링하여 사용자의 음성이 입력되는지 여부를 판단하는 모니터링부(110), 입력된 사용자의 음성을 인식하여 텍스트 형태의 발화문을 출력하는 음성 인식부(120), 자연어 이해(Natural Language Understanding) 기술을 적용하여 사용자의 의도를 파악하는 자연어 처리부(130), 사용자 의도에 맞는 응답 또는 서비스를 제공하기 위해 대화를 관리하는 대화 관리부(140) 및 입력 신호의 모니터링, 음성 인식, 자연어 처리 및 대화 관리에 필요한 각종 정보를 저장하는 저장부(150)를 포함한다.

기존에는 사용자가 음성을 입력하기 위해 PTT(Push to Talk) 버튼을 조작하여 마이크를 오픈하거나, 음성 인식을 활성화시키기 위한 별도의 명령어를 발화하는 등의 트리거 신호를 입력해야 했다. 그러나, 일 실시예에 따른 대화 처리 장치(100)에서는 마이크(210)가 상시 오픈되어 있고, 마이크(210)를 통해 입력되는 신호를 모니터링부(110)가 실시간으로 모니터링하여 사용자의 음성 입력 여부를 판단한다. 모니터링부(110)에서 사용자의 음성이 입력된 것으로 판단하면, 입력된 음성 신호는 음성 인식부(120)로 입력되고 대화 처리를 위한 프로세스가 시작된다. 모니터링부의 구체적인 동작에 대해서는 후술하도록 한다.

모니터링부(110), 음성 인식부(120), 자연어 처리부(130) 및 대화 관리부(140)는 각각 전술한 동작 및 후술하는 동작을 수행하는 프로그램이 저장된 메모리 및 저장된 프로그램을 실행하는 프로세서를 포함할 수 있다.

모니터링부(110), 음성 인식부(120), 자연어 처리부(130) 및 대화 관리부(140)는 각각 별개의 메모리 및 프로세서를 포함할 수도 있고, 메모리와 프로세서를 상호 간에 공유할 수도 있다.

또한, 메모리 및 프로세서는 복수 개 사용될 수도 있는바, 이 경우, 복수의 메모리와 프로세서가 하나의 칩 상에 집적될 수도 있고, 물리적으로 분리된 위치에 마련될 수도 있다.

이하, 도 6을 참조하여 대화 처리 장치(100)에 포함되는 각 구성요소의 동작을 구체적으로 설명한다.

도 6은 일 실시예에 따른 대화 처리 장치의 구성요소가 구체화된 제어 블록도이다.

도 6을 참조하면, 모니터링부(110)는 마이크(210)로부터 전달되는 입력 신호를 실시간으로 모니터링한다. 구체적으로, 입력 신호의 세기, 즉 입력 신호의 레벨이 기준 레벨보다 큰 지 여부를 판단하고, 입력 신호의 레벨이 기준 레벨보다 큰 경우에 사용자의 음성이 입력된 것으로 판단한다.

기준 레벨은 사용자의 음성이 발화되지 않는 상태에서 입력되는 배경 신호에 의해 결정된다. 차량(1)의 정차 중 또는 주행 중에 발생하는 배경 신호의 레벨을 데이터베이스화(입력신호 레벨 DB)하여 저장부(150)에 저장하고, 입력신호 레벨 DB에 저장된 배경신호 레벨에 기초하여 기준 레벨을 결정할 수 있다.

예를 들어, 배경신호 레벨을 평균값으로 저장하고, 배경신호 레벨의 평균값보다 일정 값 높은 레벨을 기준 레벨로 설정할 수 있다. 일 예로, 배경신호 레벨보다 10dB 높은 레벨을 기준 레벨로 설정할 수 있다.

입력신호 레벨 DB에 저장되는 배경신호 레벨은 실시간으로 업데이트되어 그 정확도와 신뢰성을 향상시킬 수 있다. 이를 위해, 입력 신호의 레벨이 기준 레벨 이하이면, 입력 신호를 배경 신호로 판단하고, 입력 신호의 레벨을 이용하여 저장된 배경 신호의 레벨을 업데이트할 수 있다.

음성 인식부(120)는 입력된 음성 신호로부터 사용자가 발화한 음성을 인식하고, 그 인식 결과를 출력한다. 음성 인식부(120)에서 출력되는 인식 결과는 텍스트 형태의 발화문일 수 있다.

음성 인식부(120)는 음성 인식 엔진(speech recognition engine)을 포함하고, 음성 인식 엔진은 입력된 음성에 음성 인식 알고리즘을 적용하여 사용자가 발화한 음성을 인식하고, 인식 결과를 생성할 수 있다.

이 때, 입력된 음성은 음성 인식을 위한 더 유용한 형태로 변환될 수 있는바, 음성 신호로부터 시작 지점과 끝 지점을 검출하여 입력된 음성에 포함된 실제 음성 구간을 검출한다. 이를 EPD(End Point Detection)이라 한다.

그리고, 검출된 구간 내에서 켑스트럼(Cepstrum), 선형 예측 코딩(Linear Predictive Coefficient: LPC), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지(Filter Bank Energy) 등의 특징 벡터 추출 기술을 적용하여 입력된 음성의 특징 벡터를 추출할 수 있다.

그리고, 추출된 특징 벡터와 훈련된 기준 패턴과의 비교를 통하여 인식 결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model) 과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)이 사용될 수 있다. 이를 위해, 저장부(150)는 음향 모델/언어 모델 DB가 저장될 수 있다.

음향 모델은 다시 인식 대상을 특징 벡터 모델로 설정하고 이를 음성 데이터의 특징 벡터와 비교하는 직접 비교 방법과 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 나뉠 수 있다.

직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 대표적으로 벡터 양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법에 의하면 입력된 음성 데이터의 특징 벡터를 기준 모델인 코드북(codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다.

통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법이다. 상태 열은 복수의 노드(node)로 구성될 수 있다. 상태 열 간의 관계를 이용하는 방법은 다시 동적 시간 와핑(Dynamic Time Warping: DTW), 히든 마르코프 모델(Hidden Markov Model: HMM), 신경 회로망을 이용한 방식 등이 있다.

동적 시간 와핑은 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려하여 기준 모델과 비교할 때 시간 축에서의 차이를 보상하는 방법이고, 히든 마르코프 모델은 음성을 상태 천이 확률 및 각 상태에서의 노드(출력 심볼)의 관찰 확률을 갖는 마르코프 프로세스로 가정한 후에 학습 데이터를 통해 상태 천이 확률 및 노드의 관찰 확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식 기술이다.

한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어 모델에는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어 모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용된다.

음성 인식부(120)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다. 예를 들어, 히든 마르코프 모델이 적용된 음향 모델을 사용할 수도 있고, 음향 모델과 음성 모델을 통합한 N-best 탐색법을 사용할 수 있다. N-best 탐색법은 음향 모델과 언어 모델을 이용하여 N개까지의 인식 결과 후보를 선택한 후, 이들 후보의 순위를 재평가함으로써 인식 성능을 향상시킬 수 있다.

음성 인식부(120)는 인식 결과의 신뢰성을 확보하기 위해 신뢰값(confidence value)을 계산할 수 있다. 신뢰값은 음성 인식 결과에 대해서 그 결과를 얼마나 믿을 만한 것인가를 나타내는 척도이다. 일 예로, 인식된 결과인 음소나 단어에 대해서, 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값으로 정의할 수 있다. 따라서, 신뢰값은 0 에서 1 사이의 값으로 표현할 수도 있고, 0 에서 100 사이의 값으로 표현할 수도 있다.

신뢰값이 미리 설정된 임계값(threshold)을 초과하는 경우에는 인식 결과를 출력하여 인식 결과에 대응되는 동작이 수행되도록 할 수 있고, 신뢰값이 임계값 이하인 경우에는 인식 결과를 거절(rejection)할 수 있다.

음성 인식부(120)의 인식 결과인 텍스트 형태의 발화문은 자연어 처리부(130)로 입력된다.

자연어 처리부(130)는 자연어 이해 기술을 적용하여 발화 언어에 포함된 사용자의 발화 의도를 파악할 수 있다. 따라서, 사용자는 자연스러운 대화(Dialogue)를 통해 제어 명령을 입력할 수 있고, 대화 처리 장치(100) 역시 대화를 통해 제어 명령의 입력을 유도하거나 사용자가 필요로 하는 서비스를 제공할 수 있다.

먼저, 자연어 처리부(130)는 텍스트 형태의 발화문에 대해 형태소 분석을 수행한다. 형태소는 의미의 최소 단위로써, 더 이상 세분화할 수 없는 가장 작은 의미 요소를 나타낸다. 따라서, 형태소 분석은 자연어 이해의 첫 단계로서, 입력 문자열을 형태소열로 바꿔준다.

자연어 처리부(130)는 형태소 분석 결과에 기초하여 발화문으로부터 도메인을 추출한다. 도메인은 사용자 발화 언어의 주제를 식별할 수 있는 것으로서, 예를 들어, 경로 안내, 날씨 검색, 교통 검색, 일정 관리, 주유 안내, 공조 제어 등의 다양한 주제를 나타내는 도메인이 데이터베이스화(도메인 DB)되어 저장부(150)에 저장될 수 있다. 또한, 발화문으로부터 도메인을 추론하는 규칙에 관한 정보도 도메인 DB에 함께 저장될 수 있다.

또한, 자연어 처리부(130)는 발화문으로부터 개체명을 인식할 수 있다. 개체명은 인명, 지명, 조직명, 시간, 날짜, 화폐 등의 고유 명사로서, 개체명 인식은 문장에서 개체명을 식별하고 식별된 개체명의 종류를 결정하는 작업이다. 개체명 인식을 통해 문장에서 중요한 키워드를 추출하여 문장의 의미를 파악할 수 있다. 개체명 인식을 위해 저장부(150)에 저장된 개체명 DB 를 이용할 수 있다.

또한, 자연어 처리부(130)는 발화문이 갖는 화행을 분석할 수 있다. 화행 분석은 사용자 발화에 대한 의도를 분석하는 작업으로, 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지 등에 관한 문장의 의도를 파악하는 것이다.

또한, 자연어 처리부(130)는 사용자의 발화 의도에 대응하는 액션을 추출한다. 발화문에 대응되는 도메인, 개체명, 화행 등의 정보에 기초하여 사용자의 발화 의도를 파악하고, 발화 의도에 대응되는 액션을 추출한다. 액션 추출을 위해 저장부(150)에 저장된 액션 DB를 이용할 수 있고, 액션 DB에는 수행 가능한 액션의 종류과 함께 각각의 액션에 대한 추론 규칙이 저장될 수 있다.

자연어 처리부(130)의 처리 결과는 대화 관리부(140)로 전달된다. 예를 들어, 발화문에 대응되는 도메인과 키워드가 전달될 수 있으며, 형태소 분석 결과, 개체명, 액션 정보, 화행 정보 등도 함께 전달될 수 있다.

대화 관리부(140)는 자연어 처리부(130)의 처리 결과에 기초하여 현재 상황을 판단하는 상황 판단 모듈(141), 사용자의 발화 의도에 대응되는 서비스를 제공하기 위한 제어 신호를 생성하는 서비스 제공 모듈(142) 및 사용자와 대화를 지속하기 위한 응답을 생성하는 응답 생성 모듈(143)을 포함할 수 있다.

상황 판단 모듈(141)은 저장부(150)에 저장된 이전 상황 DB에 기초하여 이미 상황(context)이 시작되었는지 여부를 판단한다. 여기서, 상황이라 함은 사용자와 대화 처리 장치(100) 사이의 대화를 통해 어떤 액션이 수행되거나, 액션 수행을 위해 대화가 이루어지는 상황을 의미할 수 있다.

상황이 이미 시작된 경우가 아니라면, 자연어 처리부(130)로부터 전달된 처리 결과에 기초하여 현재 상황을 신규 상황으로서 시작한다. 즉, 신규 상황에 대응되는 대화를 수행하거나 서비스를 제공한다.

현재 상황에 대한 정보는 이전 상황 DB에 저장되어 이후 사용자 음성이 다시 입력되었을 때 이미 상황이 진행 중인지 여부를 판단하는데 사용된다. 현재 상황에 대한 정보는 시작 시간, 도메인, 키워드 등을 포함할 수 있고, 시작 시간은 사용자 음성이 입력된 시간 또는 상황 판단 모듈(141)이 상황 판단을 시작한 시간일 수 있다.

이전 상황이 이미 시작된 경우에는, 시작된 이전 상황의 종료 여부를 판단한다. 예를 들어, 이전 상황이 시작된 이후에 미리 설정된 기준 시간이 경과한 경우에는, 해당 상황이 종료된 것으로 판단한다.

기준 시간이 경과하지 않은 경우에는, 이전 상황에 대한 정보와 현재 상황에 대한 정보를 비교하여 상황의 변경 여부를 판단한다. 예를 들어, 이전 상황에 대한 도메인과 키워드를 현재 상황에 대한 도메인 및 키워드와 비교한다. 이전 상황에 대한 도메인과 현재 상황에 대한 도메인이 일치하지 않으면 상황이 변경된 것으로 판단할 수 있다. 또한, 이전 상황에 대한 도메인과 현재 상황에 대한 도메인이 일치하더라도, 키워드 간 연관성이 없는 경우에도 상황이 변경된 것으로 판단할 수 있다.

상황이 변경된 것으로 판단되면, 이전 상황은 종료된 것으로 보고 현재 상황을 신규 상황으로서 시작한다.

이전 상황과 현재 상황의 도메인 및 키워드 사이에 연관성이 인정되면 이전 상황이 지속중인 것으로 판단하고, 이전 상황 정보 DB 에 기초하여 연속적인 대화 및 서비스 제공을 수행할 수 있도록 한다. 이를 위해, 각각의 상황에 대한 대화 내용과 액션 정보 등은 이전 상황 정보 DB에 저장되어 이후의 상황 진행에 사용될 수 있다.

서비스 제공 모듈(142)과 응답 생성 모듈(143)은 상황 판단 모듈(141)의 상황 판단 결과에 기초하여, 사용자의 발화 의도와 현재 상황에 대응되는 적절한 서비스를 제공하거나, 응답을 생성할 수 있다.

예를 들어, 사용자의 발화 의도가 특정 서비스의 제공인 경우에는, 해당 서비스를 제공하기 위한 제어 신호를 출력할 수 있다. 다시 도 1을 참조하면, 서비스 제공 모듈(142)로부터 출력되는 제어 신호는 차량(1)의 제어부(220)로 전달될 수 있고, 제어부(220)는 전달된 제어 신호에 따른 적절한 제어를 수행하여 사용자가 원하는 서비스를 제공할 수 있다.

응답 생성 모듈(143)은 사용자의 발화 의도를 확인하거나, 사용자의 발화 의도에 따라 대화를 이어나가기 위한 응답을 생성할 수 있다. 이러한 응답은 음성으로 생성될 수도 있고, 텍스트로 생성될 수도 있다. 음성으로 생성되는 경우에는 TTS(Text to Speech) 기술을 사용하여 음성을 합성하고, 스피커(231)를 통해 합성된 음성을 출력할 수 있다.

또한, 사용자가 원하는 서비스의 제공 시에 응답 생성이 요구되는 경우에도 응답 생성 모듈(143)은 요구되는 응답을 생성하여 출력할 수 있다.

이하 일 측면에 따른 대화 처리 방법의 실시예를 설명한다. 대화 처리 방법의 실시예에는 전술한 대화 처리 장치(100) 또는 차량(1)이 적용될 수 있는바, 앞서 도 1 내지 도 6을 참조한 대화 처리 장치(100) 또는 차량(1)에 관한 설명은 대화 처리 방법의 실시예에도 동일하게 적용될 수 있다.

도 7은 일 실시예에 따른 대화 처리 방법의 순서도이다. 다만, 순서도에 도시된 모든 단계가 반드시 대화 처리 방법에 포함되어야 하는 것은 아닌바, 도시된 단계들 중 일부는 대화 처리 방법을 설명하기 위해 필요한 것일 뿐, 대화 처리 방법을 구성하는 단계에서는 제외될 수 있다.

도 7을 참조하면, 입력 신호를 실시간으로 모니터링한다(410). 마이크(210)는 상시 오픈되어 있고, 마이크(210)를 통해 입력되는 신호를 모니터링부(110)가 실시간으로 모니터링하여 사용자의 음성 입력 여부를 판단한다.

입력 신호 레벨이 기준 레벨보다 큰 지 여부를 판단하고(411), 입력 신호의 레벨이 기준 레벨보다 큰 경우에(411의 예) 사용자의 음성이 입력된 것으로 판단한다(413). 기준 레벨은 사용자의 음성이 발화되지 않는 상태에서 입력되는 배경 신호에 의해 결정된다. 차량(1)의 정차 중 또는 주행 중에 발생하는 배경 신호의 레벨을 데이터베이스화(입력신호 레벨 DB)하여 저장부(150)에 저장하고, 입력신호 레벨 DB에 저장된 배경신호 레벨에 기초하여 기준 레벨을 결정할 수 있다.

입력 신호 레벨이 기준 레벨 이하인 경우에는(411의 아니오), 입력 신호 레벨 DB에 저장된다. 따라서, 입력신호 레벨 DB에 저장되는 배경신호 레벨은 실시간으로 업데이트되어 그 정확도와 신뢰성을 향상시킬 수 있다.

사용자의 음성이 입력된 것으로 판단하면, 입력된 음성 신호는 음성 인식부(120)로 입력되고 대화 처리를 위한 프로세스가 시작된다(414).

당해 실시예에 따를 경우, 사용자가 음성을 입력하기 위해 PTT(Push to Talk) 버튼을 조작하여 마이크를 오픈하거나, 음성 인식을 활성화시키기 위한 별도의 명령어를 발화하는 등의 트리거 신호를 입력하지 않더라도 원하는 내용의 발화를 바로 시작함으로써 음성 인식을 활성화시킬 수 있다.

도 8은 일 실시예에 따른 대화 처리 방법에 있어서, 대화 처리 프로세스를 구체적으로 나타낸 순서도이다.

앞서 도 7에서 설명한 바와 마찬가지로, 입력 신호를 실시간으로 모니터링한다(510). 입력 신호 레벨이 기준 레벨보다 큰 지 여부를 판단하고(511), 입력 신호의 레벨이 기준 레벨보다 큰 경우에(511의 예) 사용자의 음성이 입력된 것으로 판단한다(513).

입력 신호 레벨이 기준 레벨 이하인 경우에는(511의 아니오), 입력 신호 레벨 DB에 저장된다(512).

사용자의 음성이 입력된 것으로 판단되면, 입력 신호(음성 신호)가 음성 인식부(120)로 전달되고, 음성 인식부(120)는 입력된 음성 신호로부터 사용자가 발화한 음성을 인식하고(514), 그 인식 결과를 출력한다. 음성 인식부(120)에서 출력되는 인식 결과는 텍스트 형태의 발화문일 수 있다.

음성 인식부(120)의 인식 결과인 텍스트 형태의 발화문은 자연어 처리부(130)로 입력된다. 자연어 처리부(130)는 자연어 이해 기술을 적용한 자연어 처리를 통해 발화문으로부터 도메인 및 키워드를 검출한다(515).

상황 판단 모듈(141)은 저장부(150)에 저장된 이전 상황 DB에 기초하여, 이전 상황(context)이 존재하는지 여부를 판단한다(516). 즉, 이전 상황이 시작되었는지 여부를 판단한다. 여기서, 상황이라 함은 사용자와 대화 처리 장치(100) 사이의 대화를 통해 어떤 액션이 수행되거나, 액션 수행을 위해 대화가 이루어지는 상황을 의미할 수 있다.

이전 상황이 이미 시작된 경우가 아니라면(516의 아니오), 자연어 처리부(130)로부터 전달된 처리 결과에 기초하여 현재 상황을 신규 상황으로서 시작한다. 따라서, 신규 상황에 대응되는 대화를 수행하거나 서비스를 제공한다(521). 또한, 현재 상황에 대한 정보는 이전 상황 DB에 저장되어 이후 사용자 음성이 다시 입력되었을 때 이미 상황이 진행 중인지 여부를 판단하는데 사용된다. 현재 상황에 대한 정보는 시작 시간, 도메인, 키워드 등을 포함할 수 있고, 시작 시간은 사용자 음성이 입력된 시간 또는 상황 판단 모듈(141)이 상황 판단을 시작한 시간일 수 있다.

이전 상황이 존재하는 경우라면(516의 예), 시작된 이전 상황의 종료 여부를 판단한다. 이를 위해, 이전 상황이 시작된 이후에 미리 설정된 기준 시간이 경과했는지 여부를 판단할 수 있고(517), 미리 설정된 기준 시간이 경과한 경우에는(517의 예), 해당 상황이 종료된 것으로 판단하여 신규 상황에 대응되는 대화를 수행하거나 서비스를 제공한다(521).

미리 설정된 기준 시간이 경과하지 않은 경우에는(517의 아니오), 이전 상황 정보와 현재 상황 정보를 비교하여(518) 상황의 변경 여부를 판단한다. 예를 들어, 이전 상황에 대한 도메인과 키워드를 현재 상황에 대한 도메인 및 키워드와 비교한다. 이전 상황에 대한 도메인과 현재 상황에 대한 도메인이 일치하지 않으면 상황이 변경된 것으로 판단할 수 있다. 또한, 이전 상황에 대한 도메인과 현재 상황에 대한 도메인이 일치하더라도, 키워드 간 연관성이 없는 경우에도 상황이 변경된 것으로 판단할 수 있다.

상황이 변경된 것으로 판단되면(519의 예), 이전 상황은 종료된 것으로 보고 현재 상황을 신규 상황으로서 시작한다. 즉, 신규 상황에 대응되는 대화를 수행하고 서비스를 제공한다(521).

상황이 변경되지 않은 경우에는(519의 아니오), 이전 상황 정보 DB 에 기초하여 연속적인 대화 및 서비스 제공을 수행할 수 있도록 한다(520). 이를 위해, 각각의 상황에 대한 대화 내용과 액션 정보 등은 이전 상황 정보 DB에 저장되어 이후의 상황 진행에 사용될 수 있다.

당해 실시예에 따르면, 상황의 시작, 종료 및 변경을 지시하기 위한 명령을 별도로 입력하지 않더라도 대화 처리 장치가 스스로 이를 판단하여 새로운 상황을 시작하거나 이전 상황과 연속성 있는 대화 및 서비스를 수행할 수 있다.

도 9는 일 실시예에 따른 대화 처리 방법에 있어서, 자연어 처리 과정을 구체화한 순서도이다.

사용자와 장치 간 대화 처리를 수행함에 있어서, 사용자의 발화 의도를 파악하기 위한 자연어 처리 과정이 매우 중요한 부분에 해당한다. 자연어 처리를 위해, 텍스트 형태의 발화문에 대해 형태소 분석을 수행하고(515a), 형태소 분석 결과에 기초하여 발화문으로부터 도메인을 추출한다(515b). 도메인은 사용자 발화 언어의 주제를 식별할 수 있는 것으로서, 예를 들어, 경로 안내, 날씨 검색, 교통 검색, 일정 관리, 주유 안내, 공조 제어 등의 다양한 주제를 나타내는 도메인이 그 추론 규칙과 함께 데이터베이스화(도메인 DB)되어 저장부(150)에 저장될 수 있다.

발화문으로부터 개체명을 인식한다(515c). 개체명 인식을 위해 저장부(150)에 저장된 개체명 DB 를 이용할 수 있다.

발화문으로부터 화행을 분석한다(515d). 화행 분석은 사용자 발화에 대한 의도를 분석하는 작업으로, 사용자가 질문을 하는 것인지, 요청을 하는 것인지, 단순한 감정 표현을 하는 것인지 등에 관한 문장의 의도를 파악하는 것이다.

발화문에 대응되는 도메인, 개체명, 화행 등의 정보에 기초하여 사용자의 발화 의도를 파악하고, 발화 의도에 대응되는 액션을 추출한다(515e). 액션 추출을 위해 저장부(150)에 저장된 액션 DB를 이용할 수 있고, 액션 DB에는 수행 가능한 액션의 종류과 함께 각각의 액션에 대한 추론 규칙이 저장될 수 있다.

자연어 처리 결과인 발화문에 대응되는 형태소 분석 결과, 도메인, 개체명, 액션 정보, 화행 정보 등이 대화 관리부(140)로 전달될 수 있고, 개체명, 액션 정보, 화행 정보 중 적어도 하나가 키워드가 되어 이전 상황 정보와의 비교에 사용될 수 있다.

전술한 실시예에 따른 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법에 의하면, 실시간으로 입력되는 음향 신호의 세기를 모니터링하고, 입력된 음성 신호의 세기가 기준값 이상인 경우에 사용자의 음성 입력이 시작되는 것으로 판단함으로써, 사용자가 발화 이외에 별도의 트리거를 위한 동작을 수행하지 않아도 음성 인식을 시작할 수 있다.

지금까지 설명한 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법의 실시예에 의하면, 사용자가 목적지를 입력한 경우, 사용자의 행동 패턴을 분석하여 사용자의 실제 의도를 파악하고 이를 데이터베이스화하여 이후에 사용자가 동일한 목적지를 입력하면 사용자의 실제 의도에 맞는 정보를 제공할 수 있다.

상기의 설명은 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 기술 분야에서 통상의 지식을 가진 자라면 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 상기에 개시된 실시예 및 첨부된 도면들은 기술적 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 기술적 사상의 범위가 한정되는 것은 아니다. 그 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 대화 처리 장치
110: 모니터링부
120: 음성 인식부
130: 자연어 처리부
140: 대화 관리부
1: 차량
210: 마이크
220: 제어부
231: 스피커
232: 디스플레이
260: 통신부

Claims

입력 신호의 레벨을 기준 레벨과 실시간으로 비교하고, 상기 입력 신호의 레벨이 상기 기준 레벨보다 크면 사용자의 음성이 입력된 것으로 판단하는 모니터링부;
상기 사용자의 음성이 입력된 것으로 판단되면, 상기 입력 신호에 대한 음성 인식을 수행하여 텍스트 형태의 발화문을 출력하는 음성 인식부;
상기 발화문에 기초하여 도메인 및 키워드를 추출하는 자연어 처리부; 및
상기 도메인 및 키워드에 기초하여 이전 상황의 지속 여부를 판단하는 대화 관리부;를 포함하는 대화 처리 장치.
제 1 항에 있어서
상기 기준 레벨은,
사용자의 음성이 발화되지 않는 상태에서 입력되는 배경 신호의 레벨에 기초하여 결정되는 대화 처리 장치.
제 2 항에 있어서,
상기 배경 신호의 레벨을 저장하는 저장부;를 더 포함하고,
상기 저장부는,
상기 입력 신호의 레벨이 상기 기준 레벨 이하이면, 상기 입력 신호를 상기 배경 신호로 판단하고, 상기 입력 신호의 레벨을 이용하여 상기 저장된 배경 신호의 레벨을 업데이트하는 대화 처리 장치.
제 1 항에 있어서,
상기 대화 관리부는,
미리 저장된 이전 상황(context)에 대한 정보에 기초하여, 시작된 이전 상황이 존재하는지 여부를 판단하는 대화 처리 장치.
제 4 항에 있어서,
상기 대화 관리부는,
상기 시작된 이전 상황이 존재하는 경우에는, 상기 시작된 이전 상황의 종료 여부를 판단하는 대화 처리 장치.
제 5 항에 있어서,
상기 대화 관리부는,
상기 이전 상황이 시작된 이후에 미리 설정된 기준 시간이 경과한 경우에는, 상기 이전 상황이 종료된 것으로 판단하는 대화 처리 장치.
제 6 항에 있어서,
상기 대화 관리부는,
상기 기준 시간이 경과하지 않은 경우에는, 상기 이전 상황에 대한 정보와 현재 상황에 대한 정보를 비교하여 상황의 변경 여부를 판단하는 대화 처리 장치.
제 7 항에 있어서,
상기 대화 관리부는,
상기 이전 상황에 대해 추출된 도메인 및 키워드와 상기 현재 상황에 대해 추출된 도메인 및 키워드를 비교하여 상기 상황의 변경 여부를 판단하는 대화 처리 장치.
제 7 항에 있어서,
상기 대화 관리부는,
상기 상황이 변경되지 않은 것으로 판단되면, 상기 이전 상황에 수행된 대화 또는 서비스와 연속적인 대화 또는 서비스를 제공하는 대화 처리 장치.
제 7 항에 있어서,
상기 대화 관리부는,
상기 상황이 변경된 것으로 판단되면, 상기 이전 상황은 종료하고 현재 상황을 신규 상황으로서 시작하는 대화 처리 장치.
상시 오픈되어 음향을 입력받고, 입력된 음향을 전기적인 입력 신호로 변환하는 마이크;
상기 입력 신호의 레벨을 기준 레벨과 실시간으로 비교하고, 상기 입력 신호의 레벨이 상기 기준 레벨보다 크면 사용자의 음성이 입력된 것으로 판단하는 모니터링부;
상기 사용자의 음성이 입력된 것으로 판단되면, 상기 입력 신호에 대한 음성 인식을 수행하여 텍스트 형태의 발화문을 출력하는 음성 인식부;
상기 발화문에 기초하여 도메인 및 키워드를 추출하는 자연어 처리부; 및
상기 도메인 및 키워드에 기초하여 이전 상황의 지속 여부를 판단하는 대화 관리부;를 포함하는 차량.
제 11 항에 있어서
상기 기준 레벨은,
사용자의 음성이 발화되지 않는 상태에서 입력되는 배경 신호의 레벨에 기초하여 결정되는 차량.
제 12항에 있어서,
상기 배경 신호의 레벨을 저장하는 저장부;를 더 포함하고,
상기 저장부는,
상기 입력 신호의 레벨이 상기 기준 레벨 이하이면, 상기 입력 신호를 상기 배경 신호로 판단하고, 상기 입력 신호의 레벨을 이용하여 상기 저장된 배경 신호의 레벨을 업데이트하는 차량.
제 11 항에 있어서,
상기 대화 관리부는,
미리 저장된 이전 상황(context)에 대한 정보에 기초하여, 시작된 이전 상황이 존재하는지 여부를 판단하는 차량.
제 14 항에 있어서,
상기 대화 관리부는,
상기 시작된 이전 상황이 존재하는 경우에는, 상기 시작된 이전 상황의 종료 여부를 판단하는 차량.
제 15 항에 있어서,
상기 대화 관리부는,
상기 이전 상황이 시작된 이후에 미리 설정된 기준 시간이 경과한 경우에는, 상기 이전 상황이 종료된 것으로 판단하는 차량.
제 16 항에 있어서,
상기 대화 관리부는,
상기 기준 시간이 경과하지 않은 경우에는, 상기 이전 상황에 대한 정보와 현재 상황에 대한 정보를 비교하여 상황의 변경 여부를 판단하는 차량.
제1 7 항에 있어서,
상기 대화 관리부는,
상기 이전 상황에 대해 추출된 도메인 및 키워드와 상기 현재 상황에 대해 추출된 도메인 및 키워드를 비교하여 상기 상황의 변경 여부를 판단하는 차량.
제 17 항에 있어서,
상기 대화 관리부는,
상기 상황이 변경되지 않은 것으로 판단되면, 상기 이전 상황에 수행된 대화 또는 서비스와 연속적인 대화 또는 서비스를 제공하는 차량.
제 17 항에 있어서,
상기 대화 관리부는,
상기 상황이 변경된 것으로 판단되면, 상기 이전 상황은 종료하고 현재 상황을 신규 상황으로서 시작하는 차량.
상시 오픈된 마이크에 입력된 입력 신호의 레벨을 기준 레벨과 실시간으로 비교하고;
상기 입력 신호의 레벨이 상기 기준 레벨보다 크면 사용자의 음성이 입력된 것으로 판단하고;
상기 사용자의 음성이 입력된 것으로 판단되면, 상기 입력 신호에 대한 음성 인식을 수행하여 대화 처리 프로세스를 수행하는 것;을 포함하는 대화 처리 방법.
제 21 항에 있어서
상기 기준 레벨은,
사용자의 음성이 발화되지 않는 상태에서 입력되는 배경 신호의 레벨에 기초하여 결정되는 대화 처리 방법.
제 22 항에 있어서,
상기 입력 신호의 레벨이 상기 기준 레벨 이하이면, 상기 입력 신호를 상기 배경 신호로 판단하고;
상기 입력 신호의 레벨을 이용하여 상기 배경 신호의 레벨을 업데이트하는 것;을 더 포함하는 대화 처리 방법.
제 21 항에 있어서,
상기 대화 처리 프로세스를 수행하는 것은,
미리 저장된 이전 상황(context)에 대한 정보에 기초하여, 시작된 이전 상황이 존재하는지 여부를 판단하는 것;을 포함하는 대화 처리 방법.
제 24 항에 있어서,
상기 대화 처리 프로세스를 수행하는 것은,
상기 시작된 이전 상황이 존재하는 경우에는, 상기 시작된 이전 상황의 종료 여부를 판단하는 것;을 더 포함하는 대화 처리 방법.
제 25 항에 있어서,
상기 시작된 이전 상황의 종료 여부를 판단하는 것은,
상기 이전 상황이 시작된 이후에 미리 설정된 기준 시간이 경과한 경우에, 상기 시작된 이전 상황이 종료된 것으로 판단하는 것;을 포함하는 대화 처리 방법.
제 26 항에 있어서,
상기 대화 처리 프로세스를 수행하는 것은,
상기 기준 시간이 경과하지 않은 경우에는, 상기 이전 상황에 대한 정보와 현재 상황에 대한 정보를 비교하여 상황의 변경 여부를 판단하는 것;을 더 포함하는 대화 처리 방법.
제 27 항에 있어서,
상기 상황의 변경 여부를 판단하는 것은,
상기 이전 상황에 대해 추출된 도메인 및 키워드와 상기 현재 상황에 대해 추출된 도메인 및 키워드를 비교하여 상기 상황의 변경 여부를 판단하는 것;을 포함하는 대화 처리 방법.
제 27 항에 있어서,
상기 대화 처리 프로세스를 수행하는 것은,
상기 상황이 변경되지 않은 것으로 판단되면, 상기 이전 상황에 수행된 대화 또는 서비스와 연속적인 대화 또는 서비스를 제공하는 것;을 포함하는 대화 처리 방법.
제 27 항에 있어서,
상기 대화 처리 프로세스를 수행하는 것은,
상기 상황이 변경된 것으로 판단되면, 상기 이전 상황은 종료하고 현재 상황을 신규 상황으로서 시작하는 것;을 포함하는 대화 처리 방법.