KR20210066985A

KR20210066985A - 음성인식을 이용한 차량제어장치 및 방법

Info

Publication number: KR20210066985A
Application number: KR1020190155512A
Authority: KR
Inventors: 조재민
Original assignee: 현대자동차주식회사; 기아 주식회사
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2021-06-08
Also published as: US20210166683A1; US11521612B2

Abstract

본 발명은 음성인식을 이용한 차량제어장치 및 방법에 관한 것으로, 차량 내 제1탑승자 및 적어도 한 명의 제2탑승자를 인식하는 탑승자 인식부, 상기 제1탑승자 또는 상기 제2탑승자가 발화하는 음성을 인식하는 음성 인식부, 및 상기 제1탑승자의 음성인식 결과를 기반으로 상기 제2탑승자에게 추가적으로 질의하여 상기 제1탑승자 및 상기 제2탑승자에게 각각 맞춤 서비스를 제공하는 처리부를 포함한다.

Description

음성인식을 이용한 차량제어장치 및 방법{VEHICLE CONTROL APPARATUS AND METHOD USING SPEECH RECOGNITION}

본 발명은 음성인식을 이용한 차량제어장치 및 방법에 관한 것이다.

음성인식 기술이 발달함에 따라, 사용자 편의 및 운전 집중도 향상을 위해 차량에 음성인식기술을 적용하고 있다. 차량 내 음성인식 시스템은 운전자를 기준으로 한 개의 음성 쿼리(query)를 인식하고 음성인식 결과에 대한 하나의 동작(action)을 수행하게 된다.

이러한, 종래의 음성인식 시스템은 차량 내 다수의 탑승자가 있는 경우 발화하는 탑승자를 기준으로 음성인식 결과를 출력하거나 음성인식 결과에 대응하는 동작(기능)을 수행한다.

또한, 종래의 음성인식 시스템은 차량 제어나 곡목 검색 등의 개인적인 호불호가 있는 음성인식 결과를 처리할 때 탑승자가 원하지 않는 서비스를 제공할 수 있다.

본 발명은 음성인식을 통해 한 개의 음성 질의(query)를 인식하고 인식한 음성 질의를 기반으로 각 탑승자에게 재질의하여 각 탑승자의 의도를 파악하여 탑승자별 맞춤 서비스를 제공하는 음성인식을 이용한 차량제어장치 및 방법을 제공하고자 한다.

상기한 과제를 해결하기 위하여, 본 발명의 일 실시 예에 따른 차량제어장치는 차량 내 제1탑승자 및 적어도 한 명의 제2탑승자를 인식하는 탑승자 인식부, 상기 제1탑승자 또는 상기 제2탑승자가 발화하는 음성을 인식하는 음성 인식부, 및 상기 제1탑승자의 음성인식 결과를 기반으로 상기 제2탑승자에게 추가적으로 질의하여 상기 제1탑승자 및 상기 제2탑승자에게 각각 맞춤 서비스를 제공하는 처리부를 포함한다.

상기 탑승자 인식부는, 좌석별로 설치되는 무게 센서를 통해 탑승자 유무 및 탑승자 위치를 인식하는 것을 특징으로 한다.

상기 탑승자 인식부는, 카메라를 통해 상기 제1탑승자 및 상기 제2탑승자의 얼굴을 인식하여 탑승자 연령을 추정하고, 추정된 탑승자 연령에 근거하여 상기 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능여부를 판단하는 것을 특징으로 한다.

상기 음성 인식부는, 좌석별로 배치되어 각 좌석에 착석한 탑승자의 음성을 수음하는 다수의 마이크를 포함하는 것을 특징으로 한다.

상기 차량제어장치는, 좌석별로 배치되며 독립적으로 음향신호를 출력하는 다수의 스피커를 포함하는 음향 출력부를 더 포함하는 것을 특징으로 한다.

상기 처리부는, 상기 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능여부를 판단한 결과를 기반으로 좌석별 마이크 및 스피커를 활성화하는 것을 특징으로 한다.

상기 처리부는, 상기 음성인식 결과가 공통 서비스 도메인인 경우, 상기 음성인식 결과에 매칭되는 동작을 처리하여 상기 제1탑승자 및 상기 제2탑승자에게 서비스를 제공하는 것을 특징으로 한다.

상기 처리부는, 상기 음성인식 결과가 공통 서비스 도메인이 아닌 경우, 추가 질의가 필요한 도메인인지를 확인하는 것을 특징으로 한다.

상기 처리부는, 상기 음성인식 결과가 상기 추가 질의가 필요한 도메인인 경우, 탑승자 위치, 음성 입력 위치 및 동작 제어 대상 상태를 기반으로 탑승자별로 추가 질의 진행 여부를 결정하는 것을 특징으로 한다.

상기 처리부는, 탑승자별 추가 질의를 진행하는 경우, 상기 음성인식 결과를 기반으로 탑승자별 추가 질의를 생성하여 상기 음향 출력부로 출력하고 상기 음성 인식부를 통해 탑승자별 응답을 인식하여 각 탑승자의 응답에 따른 동작을 수행하는 것을 특징으로 한다.

한편, 본 발명의 일 실시 예에 따른 차량제어방법은 차량 내 제1탑승자 및 적어도 한 명의 제2탑승자를 인식하는 제1단계, 상기 제1탑승자의 음성을 인식하는 제2단계, 및 상기 제1탑승자의 음성인식 결과를 기반으로 상기 제2탑승자에게 추가적으로 질의하여 상기 제1탑승자 및 상기 제2탑승자에게 각각 맞춤 서비스를 제공하는 제3단계를 포함한다.

상기 제1단계는, 좌석별로 설치되는 무게 센서를 통해 탑승자 유무 및 탑승자 위치를 인식하는 것을 특징으로 한다.

상기 제1단계는, 카메라를 통해 상기 제1탑승자 및 상기 제2탑승자의 얼굴을 인식하여 탑승자 연령을 추정하고, 추정된 탑승자 연령에 근거하여 상기 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능여부를 판단하는 것을 특징으로 한다.

상기 제2단계는, 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능 여부에 판단 결과에 근거하여 좌석별로 설치되는 마이크와 스피커를 활성화하거나 비활성화 처리하는 것을 특징으로 한다.

상기 제3단계는, 상기 제1탑승자의 음성인식 결과를 수신하는 단계, 상기 음성인식 결과가 공통 서비스 도메인인지를 확인하는 단계, 및 상기 음성인식 결과가 상기 공통 서비스 도메인인 경우, 상기 음성인식 결과에 매칭되는 동작을 처리하여 상기 제1탑승자 및 상기 제2탑승자에게 서비스를 제공하는 단계를 포함하는 것을 특징으로 한다.

상기 제3단계는, 상기 음성인식 결과가 상기 공통 서비스 도메인이 아닌 경우, 추가 질의가 필요한 도메인인지를 확인하는 단계, 상기 추가 질의가 필요한 도메인인 경우, 탑승자별 추가 질의 진행을 결정하는 단계, 상기 탑승자별 추가 질의 진행이 결정되면, 상기 제2탑승자 각각에 대한 추가 질의를 생성하는 단계, 상기 추가 질의에 대한 상기 제2탑승자 각각의 응답을 인식하는 단계, 및 상기 제2탑승자 각각의 응답에 따른 동작을 수행하여 상기 제2탑승자의 의도에 맞는 서비스를 제공하는 단계를 포함하는 것을 특징으로 한다.

상기 탑승자별 추가 질의 진행을 결정하는 단계는, 탑승자 위치, 음성 입력 위치 및 동작 제어 대상 상태를 기반으로 상기 탑승자별 추가 질의 진행을 결정하는 것을 특징으로 한다.

상기 탑승자별 추가 질의 진행이 결정되지 않은 경우, 상기 제1탑승자의 음성인식 결과에 따른 동작을 수행하는 것을 특징으로 한다.

본 발명에 따르면, 차량 내 탑승자 중 어느 한 명의 탑승자가 발화한 한 개의 음성 질의를 인식하고 인식한 음성 질의를 기반으로 각 탑승자에게 재질의하여 각 탑승자의 의도를 파악하므로, 각 탑승자의 의도에 맞게 서비스를 제공할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 차량제어장치를 도시한 블록구성도.
도 2는 본 발명과 관련된 서비스 도메인을 설명하기 위한 도면.
도 3은 본 발명의 일 실시 예에 따른 차량제어방법을 도시한 흐름도.
도 4는 도 3에 도시된 탑승자 인식 과정을 도시한 흐름도.
도 5는 도 3에 도시된 음성인식 결과 처리 과정을 도시한 흐름도.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명은 둘 이상의 탑승자가 존재하는 차량에서 개별적인 음성인식 결과 처리를 위해 다수의 마이크와 다수의 스피커로 음성을 인식하고 음성인식 결과를 처리한다. 특히, 본 발명은 음성인식 결과 처리 시 음성을 발화한 탑승자 외 다른 탑승자를 위해 적절한 결과 처리를 할지 아니면 다른 탑승자에게 추가로 질의하여 탑승자 응답에 근거하여 결과 처리를 할지를 판단하여 음성인식 결과를 처리한다.

도 1은 본 발명의 일 실시 예에 따른 차량제어장치를 도시한 블록구성도이고, 도 2는 본 발명과 관련된 서비스 도메인을 설명하기 위한 도면이다.

도 1을 참조하면, 차량제어장치는 통신부(110), 탑승자 인식부(120), 음성 인식부(130), 차내기기(in-vehicle device)(140), 표시부(150), 음향 출력부(160), 메모리(170) 및 처리부(180)를 포함한다.

통신부(110)는 차량제어장치가 차량 외부에 위치하는 기기 즉, 외부기기(예: 서버, 노변단말 및/또는 타차량 등)들과 통신을 수행할 수 있게 한다. 또한, 통신부(110)는 처리부(180)와 차내기기(140)들 간의 데이터 송수신을 지원한다. 이러한 통신부(110)는 무선 인터넷 기술, 근거리 통신 기술, 이동통신 기술 및 차량통신(Vehicle to Everything, V2X) 기술 등의 통신 기술 중 적어도 하나를 이용할 수 있다. 무선 인터넷 기술로는 Wi-Fi(Wireless LAN), Wibro(Wireless broadband) 및/또는 Wimax(World Interoperability for Microwave Access) 등이 이용될 수 있다. 근거리 통신 기술로는 블루투스(Bluetooth), NFC(Near Field Communication) 및/또는 RFID(Radio Frequency Identification) 등이 이용될 수 있다. 이동 통신 기술로는 CDMA(Code Division Multiple Access), GSM(Global System for Mobile communication), LTE(Long Term Evolution) 및/또는 IMT(International Mobile Telecommunication)-2020 등이 이용될 수 있다. 차량통신 기술로는 차량간 통신(Vehicle to Vehicle, V2V), 차량과 인프라 간 통신(Vehicle to Infrastructure, V2I), 차량과 모바일 기기 간 통신(Vehicle-to-Nomadic Devices, V2N), 및/또는 차량 내 통신(In-Vehicle Network, IVN) 등이 적용될 수 있다. IVN은 CAN(Controller Area Network), MOST(Media Oriented Systems Transport) 네트워크, LIN(Local Interconnect Network), 이더넷(ethernet) 및/또는 X-by-Wire(Flexray) 등으로 구현될 수 있다.

탑승자 인식부(120)는 차량에 탑재된 센서들을 통해 차량 내 탑승자 즉, 운전자 및 동승자를 인식한다. 다시 말해서, 탑승자 인식부(120)는 차량 내 탑승자 유무, 탑승자 위치 및/또는 탑승자 연령 등을 인식할 수 있다. 탑승자 인식부(120)는 차량 내 좌석별로 장착된 무게 센서 등을 이용하여 차량 내 탑승자 유무 및 탑승자 위치를 검출(인식)할 수 있다. 또한, 탑승자 인식부(120)는 좌석별로 배치되는 이미지 센서 즉, 카메라를 통해 탑승자 얼굴을 인식하여 탑승자 연령을 추정할 수 있다. 이때, 탑승자 인식부(120)는 운전자 모니터링 시스템(미도시)과 연동하여 탑승자 얼굴을 인식할 수도 있다.

탑승자 인식부(120)는 탑승자 유무, 탑승자 위치 및/또는 탑승자 연령 등을 기반으로 각 탑승자가 음성인식 기능을 사용할 수 있는 사용자 즉, 음성인식 사용자인지를 판단한다. 예컨대, 탑승자 인식부(120)는 탑승자가 성인인 경우 음성인식 사용자로 판단하고, 유아 또는 애완동물 등인 경우 음성인식 기능을 사용할 수 없는 사용자(즉, 음성인식 미사용자)로 판단한다.

탑승자 인식부(120)는 얼굴인식 알고리즘 및 탑승자 인식(판단) 알고리즘 등을 저장하는 메모리(미도시) 및 메모리에 저장된 알고리즘을 실행하는 프로세서(미도시)를 포함할 수 있다. 본 실시 예에서는 탑승자 인식부(120)가 처리부(180)와 별도로 구성되는 것을 개시하고 있으나, 이에 한정되지 않고 탑승자 인식부(120)가 처리부(180)에 결합된 형태로 구성될 수도 있다.

음성 인식부(130)는 차량 내 탑승자(예: 운전자 및/또는 동승자) 중 어느 한 명의 탑승자(음성인식 사용자, 화자)가 발화하는 음성 질의(query)를 인식한다. 다시 말해서, 음성 인식부(130)는 음성인식 사용자 중 어느 한 명의 사용자가 음성 명령을 발화하면 해당 음성 명령을 인식한다. 음성 인식부(130)는 차량 내 좌석별로 설치되는 다수의 마이크(microphone)(131 내지 134)를 통해 차량 내에서 발생하는 음향 신호(acoustic signal)를 수음(수집)한다. 음성 인식부(130)는 음향 신호에 포함된 탑승자 음성을 추출한다. 다시 말해서, 음성 인식부(130)는 좌측 전석(운전석, Front Left, FL), 우측 전석(Front Right, FR), 좌측 후석(Rear Left, RL) 및 우측 후석(Rear Right, RR)에 각각 설치되는 제1마이크(131), 제2마이크(132), 제3마이크(133) 및 제4마이크(134)를 통해 각 탑승자가 발화하는 음성 신호를 입력 받는다. 여기서, 마이크는 외부의 음향 신호를 입력 받아 전기적인 신호로 변환하는 소리 센서이다. 마이크에는 음향 신호와 함께 입력되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다. 다시 말해서, 마이크는 외부로부터 입력되는 음향 신호에서 주행 중 발생하거나 외부로부터 유입되는 소음을 제거하여 출력할 수 있다. 본 실시 예에서는 4개의 마이크가 설치되는 경우를 예로 들어 설명하나 이에 한정되지 않고, 차량 내 좌석수에 따라 설치되는 마이크의 개수는 변경될 수 있다.

음성 인식부(130)는 음성 텍스트 변환(Speech to Text, STT) 기법을 이용하여 제1마이크(131) 내지 제4마이크(134) 중 적어도 하나의 마이크를 통해 입력되는 음성 신호를 텍스트(문자 데이터)로 변환한다. 음성 인식부(130)는 자연어 이해(Natural Language Understanding, NLU) 기법을 이용하여 변환된 텍스트의 의미(화자 의도)를 분석하여 음성인식 결과를 출력한다. 음성인식 결과는 음성 질의(음성 명령)에 매칭되는 제어 명령 및 서비스 도메인 등을 포함한다.

음성 인식부(130)는 화자의 위치 즉, 음성 신호가 입력된 위치(음성 입력 위치)를 검출할 수도 있다. 음성 인식부(130)는 음성 입력이 있는 마이크의 설치 위치를 음성 입력 위치로 인식한다. 이때, 음성 인식부(130)는 메모리(미도시)에 기저장된 마이크별 설치 위치가 정의된 룩업테이블(lookup table)을 참조하여 음성 입력 위치를 결정한다.

음성 인식부(130)는 기공지된 다양한 음성 텍스트 변화 기법 및 자연어 이해 기법을 선택적으로 사용하여 음성인식을 수행할 수 있다. 음성 인식부(130)는 음성인식 알고리즘 및 음성 데이터베이스 등을 저장할 수 있는 메모리(미도시) 및 음성인식 알고리즘을 실행하는 프로세서(미도시)를 포함할 수 있다.

차내기기(140)는 차량 내 설치되는 기기로, AVN(Audio Video Navigation), 멀티미디어 장치, 공조장치, 창문 개폐장치 및 데이터 송수신 장치 등의 편의장치 중 적어도 하나를 포함한다. 차내기기(140)는 처리부(180)의 지시에 따라 기정해진 동작을 수행한다. 예컨대, 차내기기(140)는 처리부(180)의 제어에 따라 에어컨을 켜거나, 운전석 시트 열선을 작동시키거나 창문을 닫을 수 있다.

표시부(150)는 처리부(180)의 동작에 따른 진행 상태 및/또는 결과를 시각 정보로 출력한다. 표시부(150)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED) 디스플레이, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 투명디스플레이, 헤드업 디스플레이(head-up display, HUD), 터치스크린 및 클러스터(cluster) 중에서 적어도 하나를 포함할 수 있다.

음향 출력부(160)는 처리부(180)의 지시에 따라 청각 정보를 출력하기 위한 것으로, 차량 내 좌석별로 설치되는 다수의 스피커(161 내지 164)를 포함할 수 있다. 다시 말해서, 음향 출력부(160)는 좌측 전석, 우측 전석, 좌측 후석 및 우측 후석에 각각 설치되는 제1스피커(161), 제2스피커(162), 제3스피커(163) 및 제4스피커(164) 중 적어도 하나를 통해 오디오 신호(음성 신호 포함)를 출력할 수 있다.

메모리(170)는 처리부(180)가 기정해진 동작을 수행하도록 프로그래밍된 소프트웨어를 저장할 수 있다. 메모리(170)는 처리부(180)의 입력 데이터 및/또는 출력 데이터를 임시로 저장할 수 있다. 메모리(170)는 플래시 메모리(flash memory), 하드디스크(hard disk), SD 카드(Secure Digital Card), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read Only Memory, ROM), PROM(Programmable Read Only Memory), EEPROM(Electrically Erasable and Programmable ROM), EPROM(Erasable and Programmable ROM), 레지스터, 착탈형 디스크 및 웹 스토리지(web storage) 등의 저장매체(기록매체) 중 적어도 하나로 구현될 수 있다.

메모리(170)는 음성 제어를 통해 서비스할 수 있는 서비스 도메인(customer domain)이 정의된 룩업테이블(lookup table)을 저장할 수 있다. 서비스 도메인은 공통 서비스 도메인, 개별 서비스 도메인 및 예외 처리 도메인으로 구분될 수 있다. 그 중, 개별 서비스 도메인은 도 2와 같이 추가 질의가 필요한(요구되는) 도메인과 추가 질의가 필요하지 않은 도메인으로 구분될 수 있다. 공통 서비스 도메인에는 날씨, 스포츠, 뉴스, 주식 및 질의응답(Q&A) 등의 서비스가 포함될 수 있다. 개별 서비스 도메인에는 통신, 전화, 관심지점(Point Of Interest, POI) 검색, 라디오, 음악(스트리밍), 차량 제어(공조, 창문, 통풍열선시트 등) 등의 서비스가 포함될 수 있다.

처리부(180)는 차량제어장치의 전반적인 동작을 제어한다. 처리부(180)는 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), PLD(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), CPU(Central Processing unit), 마이크로 컨트롤러(microcontrollers) 및 마이크로 프로세서(microprocessors) 중 적어도 하나로 구현될 수 있다.

처리부(180)는 차량의 시동이 켜지면 탑승자 인식부(120)를 통해 차량 내 탑승자 유무, 탑승자 위치 및/또는 탑승자 연령을 검출할 수 있다. 이때, 처리부(180)는 탑승자 유무, 탑승자 위치 및/또는 탑승자 연령에 근거하여 음성인식 기능을 사용할 수 있는 탑승자(즉, 음성인식 사용자)를 인식한다. 다시 말해서, 처리부(180)는 차량 내 탑승자들 중 음성인식 사용자를 구별하여 인식한다. 예를 들어, 처리부(180)는 유아 및 애완동물 등을 제외한 탑승자를 음성인식 사용자로 인식하고, 유아 및/또는 애완동물 등을 음성인식 미사용자로 인식한다.

처리부(180)는 음성 인식부(130)를 통해 음성인식 사용자가 착석한 좌석에 배치된 마이크(131, 132, 133 및/또는 134)와 스피커(161, 162, 163 및/또는 164)를 활성화한다. 한편, 처리부(180)는 음성인식 미사용자가 착석한 좌석에 배치된 마이크(131, 132, 133 및/또는 134)와 스피커(161, 162, 163 및/또는 164)를 비활성화한다. 예를 들어, 처리부(180)는 음성인식 사용자가 운전석 및 우측 후석에 위치하는 경우, 해당 좌석에 배치되는 제1마이크(131), 제4마이크(134), 제1스피커(161) 및 제4스피커(164)를 활성화하고, 나머지 마이크(132 및 133) 및 스피커(162 및 163)를 비활성화한다.

이후, 처리부(180)는 음성 인식부(130)로부터 음성인식 결과를 수신하면, 음성인식 결과 즉, 인식된 음성 질의의 서비스 도메인이 공통 서비스 도메인인지를 확인한다. 처리부(180)는 음성인식 결과가 공통 서비스 도메인이면 음성인식 결과에 매핑되는 동작(action)을 수행한다. 예컨대, 처리부(180)는 음성 인식부(130)를 통해 음성 질의 "오늘 날씨 어때?"를 인식하면, 음성 질의가 공통 서비스 도메인인지를 확인한다. 처리부(180)는 음성 질의가 공통 서비스 도메인이면 통신부(110)를 통해 기상 센터로부터 날씨 정보를 획득하여 출력한다. 이때, 처리부(180)는 날씨 정보를 음성 신호로 변환하여 제1스피커(161) 내지 제4스피커(164)로 출력하거나 또는 음성인식 사용자가 착석한 좌석에 배치된 스피커로 출력할 수 있다.

한편, 처리부(180)는 음성인식 결과가 공통 서비스 도메인이 아니면, 음성인식 결과가 개별 서비스 도메인인 것으로 판단한다. 이어서, 처리부(180)는 음성인식 결과가 개별 서비스 도메인의 서브 도메인 중 어느 서브 도메인에 속하는지를 확인한다. 다시 말해서, 처리부(180)는 음성인식 결과가 추가 질의가 필요한 도메인(추가 질의 필요 도메인)인지 추가 질의가 필요하지 않은 도메인(추가 질의 불필요 도메인)인지를 판정한다.

처리부(180)는 음성인식 결과가 추가 질의가 필요한 도메인이면, 탑승자별로 추가 질의를 진행할지 여부를 결정한다. 처리부(180)는 탑승자 위치, 음성 입력 위치 및 동작 제어 대상 상태 등을 고려하여 탑승자별 추가 질의 진행 여부를 결정한다. 예를 들어, 차량 내에서 제1탑승자가 음성 질의 "창문 열어줘"를 발화한 경우, 처리부(180)는 화자인 제1탑승자 외 다른 제2탑승자가 존재하며 제2탑승자가 착석한 좌석의 창문이 모두 닫힌 상태이면, 탑승자별 추가 질의 진행을 결정한다. 한편, 처리부(180)는 화자인 제1탑승자 외 다른 제2탑승자가 존재하지 않거나 제2탑승자가 착석한 좌석의 창문이 열린 상태이면 탑승자별 추가 질의 미진행을 결정한다.

처리부(180)는 탑승자별 추가 질의 진행을 결정한 경우, 탑승자별 추가 질의를 생성한다. 처리부(180)는 기인식된 음성인식 결과를 기반으로 추가 질의를 생성한다. 처리부(180)는 음성 합성(Text to Speech, TTS) 기법을 이용하여 생성된 추가 질의를 음향 출력부(160)를 통해 출력한다. 처리부(180)는 음성 인식부(130)를 통해 각 탑승자의 응답을 인식한다. 처리부(180)는 각 탑승자의 응답에 따라 차내기기(140)를 제어하여 각 탑승자의 요구에 맞게 서비스를 제공한다.

일 예로, 운전자가 '창문 열어줘'라고 발화하면, 음성 인식부(130)는 제1마이크(131)를 통해 운전자의 음성을 텍스트로 변환하고 변환된 텍스트의 의미를 분석하여 운전자의 음성 질의(음성 명령)을 인식한다. 음성 인식부(130)는 음성인식 결과로 음성 질의 "창문 열기(OpenWindow)" 및 음성 질의의 서비스 도메인 "차량 제어"를 출력한다. 처리부(180)는 음성 인식부(130)로부터 출력되는 음성인식 결과를 기반으로 인식된 음성 질의가 공통 서비스 도메인에 속하는지를 확인한다. 처리부(180)는 인식된 음성 질의가 공통 서비스 도메인이 아닌 경우, 인식된 음성 질의가 개별 서비스 도메인 내 추가 질의가 필요한 서브 도메인인지를 확인한다. 처리부(180)는 추가 질의가 필요한 도메인인 경우, 탑승자별로 추가 질의를 수행할 것인지를 결정한다. 처리부(180)는 차량에 운전자 외 동승자가 탑승한 경우 탑승자별 추가 질의 수행을 결정하고, 차량에 운전자만 탑승만 경우 탑승자별 추가 질의 미수행을 결정할 수 있다. 처리부(180)는 차량에 운전자 외 동승자가 탑승한 경우, 탑승자별로 추가 질의 "창문을 열까요?"를 생성한다. 처리부(180)는 추가 질의에 대한 탑승자 응답에 따라 해당 탑승자가 착석한 좌석의 창문을 제어한다. 이때, 처리부(180)는 운전석의 창문을 연다. 한편, 처리부(180)는 차량에 운전자만 탑승한 경우, 바로 운전석의 창문을 열며, "운전석 창문을 엽니다"와 같은 음성 안내를 출력할 수 있다.

다른 일 예로, 탑승자가 FR, RR 및 RL에 탑승한 상태에서 FR에서 음성 입력 "에어컨 켜줘"이 있는 경우, 처리부(180)는 탑승자 위치, 음성 입력 위치 및 좌석별 에어컨 상태를 확인한다. 처리부(180)는 탑승자 위치, 음성 입력 위치 및 좌석별 에어컨 상태가 [표 1]과 같은 경우, RL석 에어컨이 작동 중이므로 RR석 탑승자의 의사를 묻기 위해 RR석 스피커를 통해 추가 질의 " 에어컨을 켤까요?"를 출력한다. 이후, 처리부(180)는 RR석 탑승자의 응답 "예"를 인식하면 FR석 및 RR석 에어컨을 작동시킨다.

좌석	탑승자	음성 입력	동작 제어 대상 상태
FR	○	○	에어컨: 미작동(OFF)
FL
RR	○		에어컨: 미작동
RL	○		에어컨: 작동(ON)

한편, 처리부(180)는 추가 질의가 필요하지 않은 경우, 음성인식 결과에 따른 동작을 수행한다. 예컨대, 처리부(180)는 화자 외 다른 탑승자가 존재하지 않는 상태에서 음성 질의 "에어컨을 켜줘"를 인식하면 바로 공조 장치를 제어하여 에어컨을 작동시킨다. 이때, 처리부(180)는 화자에게 에어컨 설정 온도를 추가로 질의하고, 화자의 응답에 따라 에어컨 설정 온도를 변경할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 차량제어방법을 도시한 흐름도이고, 도 4는 도 3에 도시된 탑승자 인식 과정을 도시한 흐름도이며, 도 5는 도 3에 도시된 음성인식 결과 처리 과정을 도시한 흐름도이다.

먼저, 처리부(180)는 탑승자 인식부(120)를 통해 차량 내 탑승자(제1탑승자 및 적어도 한 명의 제2탑승자)를 인식한다(S100). 탑승자 인식부(120)는 차량에 탑재된 센서들을 통해 차량 내 탑승자 유무, 탑승자 위치 및/또는 탑승자 연령 등을 인식할 수 있다.

보다 구체적으로, 탑승자 인식부(120)는 차량의 시동이 켜지면(S110), 좌석별로 장착된 무게 센서를 통해 탑승자 무게를 측정한다(S120). 다시 말해서, 탑승자 인식부(120)는 차량에 전원이 공급되면 무게 센서를 이용하여 좌석별 탑승자 무게를 측정한다. 또한, 탑승자 인식부(120)는 카메라를 통해 좌석별 탑승자 얼굴을 인식한다(S130). 탑승자 인식부(120)는 좌석별 탑승자 무게 정보 및 탑승자 얼굴 정보에 기초하여 탑승자 유무, 탑승자 위치 및 탑승자 연령을 검출(인식)한다. 처리부(180)는 탑승자 인식부(120)에 의해 검출된 탑승자 유무, 탑승자 위치 및 탑승자 연령을 토대로 좌석별 탑승자가 음성인식 사용자인지를 판단한다(S140). 처리부(180)는 유아 및 애완동물 외 탑승자를 음성인식 사용자로 판단한다. 처리부(180)는 음성인식 사용자가 착석한 좌석에 배치된 마이크(131, 132, 133 및/또는 134) 및 스피커(161, 162, 163 및/또는 164)를 활성화 처리한다(S150). 한편, 처리부(180)는 음성인식 미사용자가 착석한 좌석에 배치된 마이크(131, 132, 133 및/또는 134) 및 스피커(161, 162, 163 및/또는 164)를 비활성화 처리한다(S160).

이후, 처리부(180)는 음성 인식부(130)를 통해 탑승자의 음성 입력을 인식한다(S200). 음성 인식부(130)는 활성화된 마이크(131, 132, 133 및/또는 134) 중 어느 하나의 마이크(161, 162, 163 또는 164)를 통해 입력되는 탑승자(이하, 제1탑승자)의 음성을 인식할 수 있다. 음성 인식부(130)는 제1탑승자(운전자 또는 동승자)의 음성 입력이 있는 경우 입력되는 음성 신호를 텍스트로 변환하고 변환된 텍스트를 분석하여 의미(즉, 제1탑승자의 의도)를 파악한다. 음성 인식부(130)는 음성 인식을 통해 인식한 음성 질의의 서비스 도메인 및 제어명령(action) 등을 포함하는 음성인식 결과를 처리부(180)로 출력한다. 예컨대, 음성 인식부(130)는 탑승자의 음성 질의 "창문을 열어줘"를 인식하고 인식된 음성 질의의 도메인 "차량 제어", 제어명령(의도) "OpenWindow" 및 제어위치 "FL, FR, RL, RR" 등을 음성인식 결과로 출력한다.

처리부(180)는 음성인식 결과에 매핑되는 동작을 처리한다(S300). 처리부(180)는 인식된 음성 질의에 매칭되는 제어명령을 처리(수행)한다.

처리부(180)는 음성 인식부(130)로부터 음성인식 결과를 수신한다(S310). 처리부(180)는 음성 인식부(130)에 의해 인식된 제1탑승자의 음성인식 결과를 수신한다. 처리부(180)는 음성인식 결과가 공통 서비스 도메인인지를 확인한다(S320). 처리부(180)는 인식된 제1탑승자의 음성 질의에 매핑되는 서비스 도메인이 공통 서비스 도메인에 속하는지를 확인한다. 처리부(180)는 음성인식 결과가 공통 서비스 도메인인 경우, 음성인식 결과에 매칭되는 동작을 처리한다(S330).

한편, 처리부(180)는 음성인식 결과가 공통 서비스 도메인이 아닌 경우, 추가 질의가 필요한 도메인인지를 확인한다(S340). 처리부(180)는 기저장된 룩업테이블을 참조하여, 제1탑승자의 음성 질의가 추가 질의가 필요한 도메인인지 아니면 추가 질의가 불필요한 도메인인지를 판단한다.

처리부(180)는 음성인식 결과가 추가 질의가 필요한 도메인인 경우, 탑승자별 추가 질의 진행 여부를 판단한다(S350). 처리부(180)는 탑승자 위치, 음성 입력 위치 및 동작 제어 대상 상태 등의 정보를 기반으로 탑승자별 추가 질의 진행 결정한다.

처리부(180)는 탑승자별 추가 질의 진행이 결정되면, 탑승자별 추가 질의를 생성한다(S360). 처리부(180)는 제1탑승자의 음성 질의를 기반으로 제2탑승자의 의사를 파악하기 위한 추가 질의를 생성한다. 다시 말해서, 처리부(180)는 제1탑승자의 음성 질의에 매칭되는 제어명령을 기반으로 제2탑승자의 의사 문의를 위한 추가 질의를 생성한다. 처리부(180)는 제2탑승자별로 생성된 추가 질의를 음성 신호로 변환하여 각 제2탑승자가 착석한 좌석의 스피커로 출력한다.

처리부(180)는 탑승자별 추가 질의에 대한 탑승자별 응답을 인식한다(S370). 처리부(180)는 음성 인식부(130)를 통해 각 탑승자의 응답을 인식한다.

처리부(180)는 인식된 탑승자별 응답에 따라 탑승자별 맞춤 서비스를 제공한다(S380).

한편, S340에서, 음성인식 결과가 추가 질의가 필요한 도메인이 아닌 경우, 처리부(180)는 음성인식 결과에 매칭되는 동작을 수행한다(S390). 예를 들어, 탑승자 중 한 명이 음성 질의 "트렁크 오픈"을 입력하면, 처리부(180)는 음성 질의를 인식하고 인식된 음성 질의의 서비스 도메인이 추가 질의가 필요하지 않은 도메인이면, 차내기기(140)를 제어하여 트렁크를 연다.

한편, S350에서, 탑승자별 추가 질의 미진행이 결정되면, 처리부(180)는 발화한 탑승자의 음성인식 결과에 따른 동작을 수행한다(S390). 즉, 처리부(180)는 제1탑승자의 음성인식 결과에 따라 제1탑승자에게 서비스를 제공한다.

이하에서는, 탑승자 위치를 기반으로 공조, 열선 또는 통풍시트, 또는 창문 등의 동작을 제어하는 경우를 설명한다.

제1예로, 운전자가 음성 명령 "에어컨 켜줘"를 입력하면, 처리부(180)는 운전자의 음성 입력을 인식하고 그에 따라 에어컨을 켜며 "에어컨을 켭니다"와 같은 음성 안내를 운전석 스피커를 통해 출력한다. 또한, 처리부(180)는 동승자에게 추가 질의 "에어컨을 켤까요?"를 생성하여 동승자가 착석한 좌석에 배치된 스피커로 출력한다. 이후, 처리부(180)는 동승자 응답 "엉"을 인식하고 인식된 동승자 응답에 따라 동승석의 에어컨을 켭니다. 이때, 처리부(180)는 동승석의 스피커를 통해 "에어컨을 켭니다"와 같은 음성 안내를 출력할 수 있다.

제2예로, 운전자가 "창문 열어줘"라고 발화하면, 처리부(180)는 음성 인식부(130)를 통해 이를 인식하고 운전자 외 탑승자가 존재하는 경우, 탑승자별 추가 질의 "창문을 열어드릴까요"를 생성하여 출력하고, 탑승자가 "아니"라고 응답하면 운전석의 창문만 열고 동승자의 창문을 닫힌 상태로 유지한다. 이때, 처리부(180)는 "운전석 창문을 엽니다"와 같은 음성 안내 멘트를 운전석 스피커를 통해 출력한다.

제3예로, 운전자가 "통풍 시트를 켜줘"라고 발화하면, 처리부(180)는 통풍 시트 제어를 위해 추가 질의가 필요하다고 판단하여 추가 질의 "몇 단계로 설정해 드릴까요?"를 운전석 스피커를 통해 출력한다. 이때, 처리부(180)는 동승자의 의사를 파악하기 위한 질의 "통풍시트를 켤까요?"를 동승석 스피커를 통해 출력한다. 이후, 처리부(180)는 운전석 마이크를 통해 운전자의 음성 "3단계"가 입력되고, 동승석 마이크를 통해 동승자의 음성 "아니"가 입력되면, 차내기기(140)를 통해 운전석 통풍 시트를 3단계로 켠다. 처리부(180)는 "운전석 통풍 시트 3단계로 켭니다"와 같이 음성 안내를 운전석 스피커 및 동승석 스피커를 통해 출력한다.

제4예로, 동승자가 "통풍 시트 켜줘"라고 발화하면, 처리부(180)는 동승석 마이크를 통해 입력되는 동승자 음성을 인식하고 음성인식 결과가 추가 질의가 필요한 도메인인 경우, "몇 단계로 설정해 드릴까요?"와 같은 추가 질의를 생성하여 동승석 스피커로 출력한다. 처리부(180)는 동승자 마이크를 통해 동승자 응답을 입력 받아 인식하고 그 인식된 동승자 응답에 따라 통풍 시트 단계를 설정한다. 이때, 처리부(180)는 운전석의 통풍 시트를 작동시키지 않는다.

제5예로, 동승자가 "신나는 노래 들려줘"라고 발화하면, 처리부(180)는 동승석 스피커를 통해 "XXX 음악 틀게요"라고 음성 안내를 출력하며 멀티미디어 장치를 통해 해당 음악을 재생한다.

제6예로, 동승자가 "스타벅스로 가줘"라고 발화하면, 처리부(180)는 동승자 음성인식 결과와 현재 내비게이션에 목적지로 설정된 지점이 일치하지 않으면, 운전석 스피커를 통해 추가 질의 "스타벅스로 목적지를 변경할까요?"를 출력한다. 처리부(180)는 운전자의 응답에 따라 목적지를 변경하거나 또는 기설정된 목적지를 유지한다.

다음으로, 음성 입력 위치에 따라 동작(action) 대상을 변경하는 경우를 설명한다.

운전자가 "창문 열어줘"라고 발화하면, 처리부(180)는 운전석의 좌측에 위치하는 창문을 연다. 한편, 운전석 뒷좌석에 탑승한 동승자가 "창문 열어줘"라고 음성 명령을 입력하면, 처리부(180)는 후석 좌측 창문을 연다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

110: 통신부 120: 탑승자 인식부
130: 음성 인식부 140: 차내기기
150: 표시부 160: 음향 출력부
170: 메모리 180: 처리부

Claims

차량 내 제1탑승자 및 적어도 한 명의 제2탑승자를 인식하는 탑승자 인식부,
상기 제1탑승자 또는 상기 제2탑승자가 발화하는 음성을 인식하는 음성 인식부, 및
상기 제1탑승자의 음성인식 결과를 기반으로 상기 제2탑승자에게 추가적으로 질의하여 상기 제1탑승자 및 상기 제2탑승자에게 각각 맞춤 서비스를 제공하는 처리부를 포함하는 차량제어장치.
제1항에 있어서,
상기 탑승자 인식부는, 좌석별로 설치되는 무게 센서를 통해 탑승자 유무 및 탑승자 위치를 인식하는 것을 특징으로 하는 차량제어장치.
제2항에 있어서,
상기 탑승자 인식부는, 카메라를 통해 상기 제1탑승자 및 상기 제2탑승자의 얼굴을 인식하여 탑승자 연령을 추정하고, 추정된 탑승자 연령에 근거하여 상기 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능여부를 판단하는 것을 특징으로 하는 차량제어장치.
제3항에 있어서,
상기 음성 인식부는,
좌석별로 배치되어 각 좌석에 착석한 탑승자의 음성을 수음하는 다수의 마이크를 포함하는 것을 특징으로 하는 차량제어장치.
제4항에 있어서,
상기 차량제어장치는, 좌석별로 배치되며 독립적으로 음향신호를 출력하는 다수의 스피커를 포함하는 음향 출력부를 더 포함하는 것을 특징으로 하는 차량제어장치.
제5항에 있어서,
상기 처리부는, 상기 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능여부를 판단한 결과를 기반으로 좌석별 마이크 및 스피커를 활성화하는 것을 특징으로 하는 차량제어장치.
제1항에 있어서,
상기 처리부는, 상기 음성인식 결과가 공통 서비스 도메인인 경우, 상기 음성인식 결과에 매칭되는 동작을 처리하여 상기 제1탑승자 및 상기 제2탑승자에게 서비스를 제공하는 것을 특징으로 하는 차량제어장치.
제1항에 있어서,
상기 처리부는, 상기 음성인식 결과가 공통 서비스 도메인이 아닌 경우, 추가 질의가 필요한 도메인인지를 확인하는 것을 특징으로 하는 차량제어장치.
제8항에 있어서,
상기 처리부는, 상기 음성인식 결과가 상기 추가 질의가 필요한 도메인인 경우, 탑승자 위치, 음성 입력 위치 및 동작 제어 대상 상태를 기반으로 탑승자별로 추가 질의 진행 여부를 결정하는 것을 특징으로 하는 차량제어장치.
제9항에 있어서,
상기 처리부는, 탑승자별 추가 질의를 진행하는 경우, 상기 음성인식 결과를 기반으로 탑승자별 추가 질의를 생성하여 출력하고 상기 음성 인식부를 통해 탑승자별 응답을 인식하여 각 탑승자의 응답에 따른 동작을 수행하는 것을 특징으로 하는 차량제어장치.
차량 내 제1탑승자 및 적어도 한 명의 제2탑승자를 인식하는 제1단계,
상기 제1탑승자의 음성을 인식하는 제2단계, 및
상기 제1탑승자의 음성인식 결과를 기반으로 상기 제2탑승자에게 추가적으로 질의하여 상기 제1탑승자 및 상기 제2탑승자에게 각각 맞춤 서비스를 제공하는 제3단계를 포함하는 차량제어방법.
제11항에 있어서,
상기 제1단계는, 좌석별로 설치되는 무게 센서를 통해 탑승자 유무 및 탑승자 위치를 인식하는 것을 특징으로 하는 차량제어방법.
제12항에 있어서,
상기 제1단계는, 카메라를 통해 상기 제1탑승자 및 상기 제2탑승자의 얼굴을 인식하여 탑승자 연령을 추정하고, 추정된 탑승자 연령에 근거하여 상기 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능여부를 판단하는 것을 특징으로 하는 차량제어방법.
제13항에 있어서,
상기 제2단계는, 제1탑승자 및 상기 제2탑승자의 음성인식 사용 가능 여부에 판단 결과에 근거하여 좌석별로 설치되는 마이크와 스피커를 활성화하거나 비활성화 처리하는 것을 특징으로 하는 차량제어방법.
제11항에 있어서,
상기 제3단계는,
상기 제1탑승자의 음성인식 결과를 수신하는 단계,
상기 음성인식 결과가 공통 서비스 도메인인지를 확인하는 단계, 및
상기 음성인식 결과가 상기 공통 서비스 도메인인 경우, 상기 음성인식 결과에 매칭되는 동작을 처리하여 상기 제1탑승자 및 상기 제2탑승자에게 서비스를 제공하는 단계를 포함하는 것을 특징으로 하는 차량제어방법.
제11항에 있어서,
상기 제3단계는,
상기 음성인식 결과가 공통 서비스 도메인이 아닌 경우, 추가 질의가 필요한 도메인인지를 확인하는 단계,
상기 추가 질의가 필요한 도메인인 경우, 탑승자별 추가 질의 진행을 결정하는 단계,
상기 탑승자별 추가 질의 진행이 결정되면, 상기 제2탑승자 각각에 대한 추가 질의를 생성하는 단계,
상기 추가 질의에 대한 상기 제2탑승자 각각의 응답을 인식하는 단계, 및
상기 제2탑승자 각각의 응답에 따른 동작을 수행하여 상기 제2탑승자의 의도에 맞는 서비스를 제공하는 단계를 포함하는 것을 특징으로 하는 차량제어방법.
제16항에 있어서,
상기 탑승자별 추가 질의 진행을 결정하는 단계는, 탑승자 위치, 음성 입력 위치 및 동작 제어 대상 상태를 기반으로 상기 탑승자별 추가 질의 진행을 결정하는 것을 특징으로 하는 차량제어방법.
제16항에 있어서,
상기 탑승자별 추가 질의 진행이 결정되지 않은 경우, 상기 제1탑승자의 음성인식 결과에 따른 동작을 수행하는 것을 특징으로 하는 차량제어방법.