KR20200057516A

KR20200057516A - 음성명령 처리 시스템 및 방법

Info

Publication number: KR20200057516A
Application number: KR1020180142018A
Authority: KR
Inventors: 이승신
Original assignee: 현대자동차주식회사; 기아자동차주식회사
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2020-05-26
Also published as: US20200160861A1

Abstract

본 발명은 음성명령 처리 시스템 및 방법에 관한 것으로, 마이크를 통해 음성신호를 입력받아 화자별 음성신호로 분리하여 출력하는 차량 단말, 및 상기 화자별 음성신호에 대해 음성인식을 실행하여 화자별 명령을 인식하고, 상기 화자별 명령의 의도를 분석하여 의도분석결과를 상기 차량 단말에 제공하는 서버를 포함하고, 상기 차량 단말이 상기 의도분석결과를 토대로 상기 화자별 명령에 대응하는 동작을 실행한다.

Description

음성명령 처리 시스템 및 방법{APPARATUS AND METHOD FOR PROCESSING VOICE COMMANDS OF MULTIPLE SPEAKERS}

본 발명은 다중화자가 발화한 다중음성명령을 인식하여 처리하는 음성명령 처리 시스템 및 방법에 관한 것이다.

자동차 분야에서 음성인식 기술의 중요성이 커지고 있다. 음성인식 기술은 운전자의 별다른 물리적 조작 없이 음성으로 차량을 제어할 수 있기 때문에 주행 중 내비게이션 또는 편의 기능 등의 조작으로 발생될 수 있는 위험요소를 해결해 준다.

이에, 음성인식 기술을 이용한 지능형 가상비서 서비스를 차량에 적용하기 위한 노력들이 계속되고 있다. 지능형 가상비서는 운전자가 말하는 의도를 정확하게 파악하여 피드백을 제공한다.

그러나, 종래의 음성인식 기술은 단일화자로부터 하나의 음성명령을 입력받아 처리하도록 지원하고 있다. 따라서, 종래에는 복수의 화자가 동시에 서로 다른 명령을 지시하거나 또는 단일화자가 복수 개의 명령을 입력하는 경우, 입력받은 명령을 정상적으로 처리하지 못하는 문제가 있다.

본 발명은 다중화자가 발화한 다중음성명령을 인식하여 처리하는 음성명령 처리 시스템 및 방법을 제공하고자 한다.

상기한 과제를 해결하기 위하여, 본 발명의 일 실시 예에 따른 음성명령 처리 시스템은 마이크를 통해 음성신호를 입력받아 화자별 음성신호로 분리하여 출력하는 차량 단말, 및 상기 화자별 음성신호에 대해 음성인식을 실행하여 화자별 명령을 인식하고, 상기 화자별 명령의 의도를 분석하여 의도분석결과를 상기 차량 단말에 제공하는 서버를 포함하고, 상기 차량 단말이 상기 의도분석결과를 토대로 상기 화자별 명령에 대응하는 동작을 실행하는 것을 특징으로 한다.

상기 차량 단말은, 상기 음성신호를 분석하여 화자수를 추정하여 다중화자 여부를 확인하는 것을 특징으로 한다.

상기 차량 단말은, 추정된 화자수가 둘 이상이면 다중화자로 판정하여 상기 음성신호로부터 상기 화자별 음성신호를 분리하는 것을 특징으로 한다.

상기 차량 단말은, 음성인식 시작 시 메모리에 저장된 상기 차량에서 지원 가능한 상태 정보를 상기 서버로 전송하는 것을 특징으로 한다.

상기 차량에서 지원 가능한 상태 정보는, 기능별 실행 가능 명령, 동시 처리 가능한 명령 및 명령별 실행 우선순위를 포함하는 것을 특징으로 한다.

상기 서버는, 상기 차량에서 지원 가능한 상태 정보를 이용하여 상기 화자별 명령의 의도를 분석하는 것을 특징으로 한다.

상기 차량 단말은, 상기 의도분석결과를 바탕으로 상기 화자별 명령 각각에 대해 유효성을 판단하여 유효명령을 선별하는 것을 특징으로 한다.

상기 차량 단말은, 선별된 유효명령을 도메인별로 분류하고 분류된 도메인 내 우선순위에 따라 실행 순서를 결정하는 것을 특징으로 한다.

상기 차량 단말은, 도메인 우선순위에 따라 상기 선별된 유효명령을 실행하는 것을 특징으로 한다.

한편, 본 발명의 일 실시 예에 따른 차량 단말은 서버와 통신을 수행하는 통신부, 차량 내 설치되어 음성신호를 입력받는 마이크, 및 상기 음성신호를 화자별 음성신호로 분리하여 상기 서버에 전송하고, 상기 서버로부터 상기 화자별 음성신호에 대한 음성인식 및 의도분석을 수행한 의도분석결과를 제공받아 상기 의도분석결과를 토대로 화자별 명령을 처리하는 처리부를 포함하는 것을 특징으로 한다.

한편, 본 발명의 일 실시 예에 따른 음성명령 처리 방법은 차량 단말이 마이크를 통해 음성신호를 입력받는 단계, 상기 차량 단말이 상기 음성신호를 화자별 음성신호로 분리하는 단계, 상기 차량 단말이 상기 화자별 음성신호를 서버로 전송하는 단계, 상기 서버가 상기 화자별 음성신호에 대해 음성인식을 실행하여 화자별 명령을 인식하는 단계, 상기 서버가 상기 화자별 명령의 의도를 분석하여 의도분석결과를 상기 차량 단말에 전송하는 단계, 및 상기 차량 단말이 상기 의도분석결과를 토대로 상기 화자별 명령에 대응하는 동작을 실행하는 단계를 포함하는 것을 특징으로 한다.

상기 음성신호를 입력받는 단계에서, 상기 차량 단말은 차량 내 설치된 하나의 마이크를 통해 다중화자가 발화하는 음성명령들이 믹스된 하나의 음성신호로 검출하는 것을 특징으로 한다.

상기 음성신호를 분리하는 단계는, 상기 차량 단말이 상기 음성신호를 분석하여 화자수를 추정하는 단계, 상기 차량 단말이 추정된 화자수에 근거하여 다중화자 여부를 판정하는 단계, 및 상기 차량 단말이 다중화자인 경우 상기 추정된 화자수에 근거하여 상기 음성신호로부터 상기 화자별 음성신호를 분기하는 단계를 포함하는 것을 특징으로 한다.

상기 음성신호를 입력받는 단계 이전에, 상기 차량 단말은 차량 내 음성인식 실행 명령이 할당된 버튼의 조작이 감지되거나 또는 기설정된 호출어의 발화가 감지되는 경우 음성인식 기능을 실행하는 것을 특징으로 한다.

상기 차량 단말은, 상기 음성인식 기능 실행 시 메모리에 저장된 상기 차량에서 지원 가능한 상태 정보를 상기 서버로 전송하는 것을 특징으로 한다.

상기 화자별 명령에 대응하는 동작을 실행하는 단계에서, 상기 차량 단말은 상기 의도분석결과를 토대로 상기 화자별 명령 각각에 대해 유효성을 판단하여 유효명령을 선별하는 것을 특징으로 한다.

상기 화자별 명령에 대응하는 동작을 실행하는 단계에서, 상기 차량 단말은 선별된 유효명령을 도메인별로 분류하고 분류된 도메인 내 우선순위에 따라 실행 순서를 결정하는 것을 특징으로 한다.

상기 화자별 명령에 대응하는 동작을 실행하는 단계에서, 상기 차량 단말은 도메인 우선순위에 따라 선별된 유효명령을 실행하는 것을 특징으로 한다.

본 발명에 따르면, 차량에서 복수의 화자가 동시 또는 순차적으로 발화한 다중음성명령을 한 번에 인식하여 처리하므로, 음성비서 서비스의 효용성 및 사용자의 편의성을 향상시킬 수 있다.

또한, 본 발명에 따르면, 다중화자가 발화한 다중음성명령을 인식하여 처리하므로 차량 내 탑승한 사용자(운전자 및 동승자)별 맞춤형 서비스가 가능하다.

도 1은 본 발명의 일 실시 예에 따른 음성명령 처리 시스템을 도시한 블록도.
도 2는 본 발명과 관련된 음원 분리 과정을 설명하기 위한 도면.
도 3은 본 발명과 관련된 도메인 우선순위를 도시한 도면.
도 4는 본 발명과 관련된 음성 인식 과정을 설명하기 위한 도면.
도 5는 본 발명의 일 실시 예에 따른 음성명령 처리 방법을 도시한 흐름도.
도 6은 도 5에 도시된 명령 처리 과정을 도시한 흐름도.

이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명은 차량에서 복수의 화자가 동시 또는 순차적으로 발화한 복수의 음성명령을 한 번에 인식하고 화자별 명령 의도를 분석하여 처리하는 복합 음성 명령 지원 기술에 관한 것이다.

도 1은 본 발명의 일 실시 예에 따른 음성명령 처리 시스템을 도시한 블록도, 도 2는 본 발명과 관련된 음원 분리 과정을 설명하기 위한 도면, 도 3은 본 발명과 관련된 도메인 우선순위를 도시한 도면, 도 4는 본 발명과 관련된 음성 인식 과정을 설명하기 위한 도면이다.

도 1을 참조하면, 음성명령 처리 시스템은 네트워크를 통해 연결되는 차량 단말(100) 및 서버(200)를 포함한다. 여기서, 네트워크는 WLAN(Wireless LAN)(WiFi), Wibro(Wireless broadband) 및/또는 Wimax(World Interoperability for Microwave Access) 등의 무선 인터넷망, 및/또는 CDMA(Code Division Multiple Access), GSM(Global System for Mobile communication), LTE(Long Term Evolution) 및/또는 LTE-Advanced 등의 이동통신망으로 구현될 수 있다.

차량 단말(100)은 차량에 탑재되는 기기로, 텔레매틱스(Telematics) 단말 또는 AVN(Audio Video Navigation) 등으로 구현될 수 있다. 이러한 차량 단말(100)은 통신부(110), 마이크(120), 메모리(130), 입력부(140), 출력부(150) 및 처리부(160)를 포함한다.

통신부(110)는 차량 단말(100)과 서버(200) 사이의 무선 통신을 가능하게 한다. 통신부(110)는 처리부(160)의 지시에 따라 데이터(정보)를 전송하거나 또는 서버(200)로부터 전송되는 데이터를 수신한다.

마이크(Microphone)(120)는 외부의 음향 신호(예: 음파)를 입력받아 전기적인 신호로 바꾸는 소리 센서이다. 마이크(120)에는 음향 신호와 함께 입력되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수 있다. 다시 말해서, 마이크(120)는 외부로부터 입력되는 음향 신호에서 주행 중 발생하거나 외부로부터 유입되는 소음을 제거하여 출력할 수 있다.

마이크(120)는 차량 내 사용자(화자)로부터 발화되는 음성 신호를 검출(획득)한다. 마이크(120)는 둘 이상의 화자로부터 발화되는 음성 신호를 획득(감지)할 수도 있다. 다시 말해서, 마이크(120)는 복수의 화자가 동시에 발화하는 음성 신호들을 한 번에 하나의 믹스된 음성 신호로 획득한다.

메모리(130)는 처리부(160)의 동작을 위한 프로그램을 저장할 수 있고, 입력 및/또는 출력되는 데이터들을 저장할 수도 있다. 이러한 메모리(130)는 플래시 메모리(flash memory), 하드디스크(hard disk), SD 카드(Secure Digital Card), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read Only Memory, ROM), PROM(Programmable Read Only Memory), EEPROM(Electrically Erasable and Programmable ROM), EPROM(Erasable and Programmable ROM), 레지스터, 착탈형 디스크 및 웹 스토리지(web storage) 등의 저장매체 중 적어도 하나 이상의 저장매체(기록매체)로 구현될 수 있다.

메모리(130)는 사전에 등록된 화자별 음성 특징 정보 데이터베이스(DB), 명령 유효성 판단 기준, 차량에서 지원 가능한 상태(status) 정보를 포함하는 특징목록(feature list) 및 도메인 우선순위 등을 저장할 수 있다. 차량에서 지원 가능한 상태 정보는 기능(도메인)별 실행 가능한 명령, 동시 처리 가능한 명령, 및 명령별 실행 우선순위 등을 포함한다.

또한, 메모리(130)는 메모리(130)는 화자수 추정 알고리즘, 음원 분리 알고리즘, 화자 식별 알고리즘, 음성인식 알고리즘, 의도 분석 알고리즘, 다중명령 처리 판단 알고리즘 및 다중명령 처리 알고리즘 등을 저장할 수 있다. 메모리(130)는 특정 기능(예: 차량 제어, 내비게이션, 멀티미디어 재생, 통화, 공조 제어, 날씨정보 제공 등)을 수행하는 애플리케이션(application 이하, 앱)을 저장할 수도 있다.

입력부(140)는 사용자의 조작에 따른 데이터를 발생시킨다. 예컨대, 입력부(140)는 사용자 입력에 따라 음성인식 기능을 실행시키는 데이터를 발생시킨다. 입력부(140)는 키보드, 키패드, 버튼, 스위치, 터치 패드 및/또는 터치 스크린 등으로 구현될 수 있다.

출력부(150)는 처리부(160)의 동작에 따른 진행 상태(progress status) 및 결과를 시각 정보, 청각 정보 및/또는 촉각 정보 등의 형태로 출력한다. 출력부(150)는 디스플레이, 음향 출력 모듈 및 촉각 정보 출력 모듈 등을 포함할 수 있다.

디스플레이는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED) 디스플레이, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 투명디스플레이, 헤드업 디스플레이(head-up display, HUD), 터치스크린 및 클러스터(cluster) 중 적어도 하나 이상으로 구현될 수 있다.

음향 출력 모듈은 메모리(130)에 저장된 오디오 데이터를 출력할 수 있다. 음향 출력 모듈은 리시버(receiver), 스피커(speaker), 및/또는 버저(buzzer) 등을 포함할 수 있다.

촉각 정보 출력 모듈은 사용자가 촉각으로 인지할 수 있는 형태의 신호를 출력한다. 예를 들어, 촉각 정보 출력 모듈은 진동자로 구현되어 진동 세기 및 패턴 등을 제어할 수 있다.

처리부(160)는 차량 단말(100)의 전반적인 동작을 제어한다. 처리부(160)는 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), PLD(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), CPU(Central Processing unit), 마이크로 컨트롤러(microcontrollers) 및 마이크로 프로세서(microprocessors) 중 적어도 하나 이상으로 구현될 수 있다.

처리부(160)는 마이크(120) 또는 입력부(140)를 통해 입력되는 음성인식 실행 명령을 수신하면 음성인식 기능을 실행(작동)시킨다. 예를 들어, 사용자가 스티어링 휠(steering wheel)에 위치한 음성인식 버튼을 조작하면, 입력부(140)는 사용자의 조작을 감지하여 음성인식 실행 명령을 발생시키고, 처리부(160)는 음성인식 실행 명령에 따라 음성인식 기능을 작동시킨다. 또는, 사용자가 사전에 설정된 웨이크업 키워드(wakeup keyword)(호출어)를 발화하면, 처리부(160)는 마이크(120)를 통해 이를 인식하여 음성인식 기능을 실행시킨다.

처리부(160)는 음성인식 기능 실행 후 정해진 시간 내 마이크(120)를 통해 입력되는 음성명령이 없으면 음성인식 기능의 동작 모드를 슬립 모드로 전환한다. 처리부(160)는 음성인식 기능의 동작 모드가 슬립 모드로 전환되며 마이크(120) 또는 입력부(140)로부터 음성인식 실행 명령을 입력받기 전까지 슬립 모드를 유지한다.

처리부(160)는 음성인식 시작 시 즉, 음성인식 기능이 실행되면 메모리(130)에 저장된 특징 목록을 통신부(110)를 통해 서버(200)에 전달(전송)한다. 여기서, 특징 목록은 차량에서 다중명령어(다중명령) 처리가 가능한 도메인들의 이름을 포함하는 것으로, 화자의 의도 분석 시 힌트로 사용된다.

처리부(160)는 음성인식 기능 실행 후 마이크(120)를 통해 음성 신호를 획득(검출)한다. 처리부(160)는 차량에 탑재된 하나의 마이크(120)를 통해 적어도 1명 이상의 화자가 발화하는 음성 신호(음성명령 포함)를 한 번에 획득한다.

처리부(160)는 마이크(120)를 통해 입력되는 음성 신호를 분석하여 화자(concurrent speakers)의 수(화자수)를 추정(예측)한다. 처리부(160)는 공지된 화자수 추정 알고리즘(speaker count estimation algorithm)을 이용하여 화자수를 추정할 수 있다. 화자수 추정 알고리즘으로는 DNN(Deep Neural Network) 및/또는 RNN(Recurrent Neural Network) 등의 딥러닝(Deep Learing) 알고리즘이 이용될 수 있다.

처리부(160)는 화자수가 1명이면 통신 규약에 따라 획득한 음성 신호(음성 데이터)의 데이터 형식(format)을 변환한다. 처리부(160)를 통신부(110)를 통해 변환된 음성 신호를 서버(200)로 전송한다.

처리부(160)는 화자수가 둘 이상이면 음원 분리 알고리즘을 이용하여 음성 신호로부터 화자별 음성 신호(음원)를 분리한다. 다시 말해서, 처리부(160)는 마이크(120)를 통해 입력받은 음성 신호가 다중화자가 발화한 음성 신호이면 입력받은 음성 신호로부터 화자별 음성 신호(음성 데이터)를 분리한다. 여기서, 음원 분리 알고리즘은 화자별 고유한 음성 주파수 대역 및 음파의 형태에 따라 화자를 분리한다. 처리부(160)는 분리된 화자별 음성 신호를 서버(200)에 제공한다.

예컨대, 도 2를 참조하면, 처리부(160)는 마이크(120)로부터 다중화자가 발화한 음성 신호(복합 음성 신호)를 수신하면 수신된 음성 신호를 입력 데이터로 하여 음원 분리 알고리즘을 실행하여 화자별 음성 신호(A, B, C)를 분류한다.

처리부(160)는 분리된 화자별 음성 신호로부터 특징 정보를 추출하고 추출된 특징 정보와 메모리(130)에 저장된 화자별 특징 정보 DB를 비교하여 화자를 식별할 수 있다. 처리부(160)는 화자 식별 시 메인 화자(운전자)와 서브 화자(동승자)를 구분하여 인식할 수도 있다.

처리부(160)는 통신부(110)를 통해 서버(200)로부터 전송되는 의도분석결과를 수신한다. 처리부(160)는 서버(200)로부터 제공받은 의도분석결과를 바탕으로 다중명령 여부를 판정한다. 즉, 처리부(160)는 의도분석결과 내 둘 이상의 명령어(명령)를 포함하는지를 확인한다.

처리부(160)는 판정결과 다중명령이면, 의도분석결과에 포함된 명령어별 유효성을 판단한다. 다시 말해서, 처리부(160)는 명령어별로 처리(실행) 가능여부를 판정하여 의도분석결과 내 다중명령 중 유효명령을 선별한다. 또한, 처리부(160)는 선별된 유효명령 중 동시 처리가 가능한 명령을 선별할 수 있다.

처리부(160)는 선별된 유효명령을 토대로 앱별로 실행할 명령의 순차 리스트(array list)를 생성하여 앱단에 전달한다. 다시 말해서, 처리부(160)는 도메인별로 실행할 명령어를 실행 순서에 따라 정렬하여 순차 리스트를 생성한다. 처리부(160)는 도메인별 순차 리스트를 각 도메인에 전달한다.

처리부(160)는 동일한 도메인에 속하는 유효명령들인 경우 발화 순서에 따라 실행 순서(동작 순서)를 정한다. 또한, 처리부(160)는 2개 이상의 음성명령에 대한 의도분석결과 1개의 의도분석만 되는 경우 1개의 명령만 순차 리스트에 등록한다. 처리부(160)는 5개 이상의 유효명령어가 존재하는 경우 의도분석의 정확도 및 동작시간을 고려하여 우선순위에 따라 최대 4개의 유효명령어만 순차 리스트에 등록한다.

처리부(160)는 도메인 우선순위에 따라 앱을 제어하여 전달된 명령을 실행한다. 처리부(160)는 도메인 우선순위에 따라 다중명령을 동시 또는 순차적으로 실행한다. 예를 들어, 처리부(160)는 화자A 명령과 화자B 명령의 도메인 우선순위가 동일하고 동시 처리가 가능한 경우 화자A 명령과 화자B 명령을 동시에 실행한다. 한편, 처리부(160)는 화자A 명령과 화자B 명령의 도메인 우선순위가 상이하거나 또는 도메인 우선순위가 동일하나 동시 처리가 불가능한 경우 화자A 명령과 화자B 명령을 발화 순서 또는 의도분석결과에 따라 순차적으로 처리한다.

여기서, 도메인 우선순위는 자동차 도메인별 동작 실행 우선순위를 말한다. 도메인 우선순위는 차량에서 기능의 중요도, 시나리오 상 동작 시간, 및 대화모드 또는 기능 연계 여부 등에 따라 부여된다. 세부 도메인별 우선순위는 사용빈도, 제공가능 정보의 유용성 등에 근거하여 정해진다.

예컨대, 화면에 GUI(Graphic User Interface)로 결과 또는 정보가 단발성으로 표시되는 기능 및 시스템 응답으로 단발성 답변만 해주는 기능 등은 시나리오 상 동작이 짧게 끝나므로 높은 우선순위를 가진다.

도 3을 참조하면, 'Car Care'와 같이 차량에서 기능 중요도가 높은 기능(도메인)에는 최우선순위가 부여되고 'Home Care' 및 'Health Care'와 같이 차량에서 기능 중요도가 낮은 기능에는 낮은 우선순위가 부여된다. 또한, 도메인 내 세부 도메인에 대해서도 우선순위를 부여한다.

서버(200)는 차량 단말(100)로부터 전송되는 음성 신호(음성 데이터)에 대해 음성인식을 실행하고 의도 분석하여 의도분석결과를 차량 단말(100)에 제공한다. 서버(200)는 통신모듈(210), 메모리(220) 및 처리모듈(230)을 포함한다.

통신모듈(210)은 차량 단말(100)로부터 전송되는 데이터를 수신하고, 처리모듈(230)의 제어에 따라 차량 단말(100)로 데이터를 송신한다. 통신모듈(210)은 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet) 및/또는 ISDN(Integrated Services Digital Network) 등의 유선 인터넷망 접속을 지원할 수도 있다.

메모리(220)는 처리모듈(230)이 정해진 동작을 수행하도록 프로그래밍된 소프트웨어를 저장한다. 메모리(220)는 처리모듈(230)의 입력 및/또는 출력 데이터를 저장할 수도 있다.

또한, 메모리(220)는 자연어 처리(Natural Language Processing) 알고리즘, 음성인식 알고리즘 및 의도 분석 알고리즘 등을 포함할 수 있다. 메모리(220)는 음성모델 데이터베이스(DB)를 저장할 수 있다.

메모리(220)는 플래시 메모리, 하드디스크, RAM, SRAM, ROM, PROM, EEPROM, EPROM, 레지스터 및 웹 스토리지(web storage) 등의 저장매체 중 적어도 하나 이상의 저장매체(기록매체)로 구현될 수 있다.

처리모듈(230)은 서버(200)의 전반적인 동작을 제어한다. 처리모듈(230)은 ASIC, DSP, PLD, FPGAs, CPU, 마이크로 컨트롤러 및 마이크로 프로세서 중 적어도 하나 이상으로 구현될 수 있다.

처리모듈(230)은 통신모듈(210)을 통해 차량 단말(100)에서 전송되는 음성 신호(음성 데이터)를 수신한다. 수신되는 음성 신호는 단일화자가 발화한 음성 신호 또는 분리(분류)된 화자별 음성 신호들일 수 있다.

처리모듈(230)은 음성 인식 알고리즘을 통해 수신된 음성 신호를 텍스트로 변환한다. 처리모듈(230)은 분리된 화자별 음성 신호들 각각에 대해 음성 인식을 실행한다.

예컨대, 처리모듈(230)은 도 4에서와 같이 화자A 음성 신호, 화자B 음성 신호 및 화자C 음성 신호를 수신한 경우, 각 음성 신호에 대해 음성 인식을 수행하여 화자A 음성 신호, 화자B 음성 신호 및 화자C 음성 신호를 '댄스 음악 틀어줘', '발라드 음악 틀어줘' 및 'DMB 보여줘'로 변환한다.

처리모듈(230)은 음성인식을 통해 텍스트로 변환된 화자별 명령의 의도를 분석한다. 처리모듈(230)은 공지된 의도 분석 알고리즘을 이용하여 화자별 명령에 대한 화자의 의도를 분석할 수 있다. 예컨대, 처리모듈(230)은 음성인식을 통해 인식된 명령이 '댄스 음악 틀어줘'인 경우 의도 분석을 통해 화자의 의도를 '음악 재생'으로 판단한다.

처리모듈(230)은 음성인식을 통해 인식된 명령어들 각각에 대한 의도분석이 완료되면 의도분석결과를 차량 단말(100)에 전송한다. 이때, 처리모듈(230)은 화자의 의도가 파악된 명령들 각각에 대해 수행 가능 여부 및 실행 우선순위를 판단하여 의도분석결과에 반영한다. 다시 말해서, 처리모듈(230)은 의도분석이 완료된 명령어들 중 차량에서 실행 가능한 유효한 명령어만을 추출하고 추출된 명령어들을 실행 우선순위에 따라 정렬하여 의도분석결과로 출력한다. 여기서, 의도분석결과는 JSON(JavaScript Object Notation)과 같은 데이터 교환 형식으로 생성된다.

도 5는 본 발명의 일 실시 예에 따른 음성명령 처리 방법을 도시한 흐름도, 도 6은 도 5에 도시된 명령 처리 과정을 도시한 흐름도이다.

도 5를 참조하면, 차량 단말(100)은 마이크(120)를 통해 음성 신호를 입력받는다(S110). 차량 단말(100)은 음성인식 실행명령이 입력되면 음성인식 기능을 실행한 후 음성 하나의 마이크(120)를 통해 둘 이상의 화자가 발화하는 음성 신호를 한 번에 획득할 수 있다. 예컨대, 차량 내 설치된 음성인식 버튼의 조작이 감지되거나 또는 기설정된 호출어의 발화가 감지되면, 차량 단말(100)은 음성인식 기능을 실행시킨다. 음성인식 기능을 실행한 후 음성 3명의 화자가 동시에 음성 명령 '마이클 잭슨 음악 틀어줘', 'S커피 검색해줘', 및 'DMB 보여줘'를 각각 발화하면, 차량 단말(100)은 마이크(120)를 통해 3개의 음성 명령을 하나의 음성 신호로 획득한다.

차량 단말(100)은 입력받은 음성 신호를 바탕으로 화자수를 분석한다(S120). 차량 단말(100)은 화자수 추정 알고리즘을 이용하여 입력받은 음성 신호를 분석하므로 동시에 발화한 화자수를 추정한다.

차량 단말(100)은 화자수 분석결과를 토대로 다중 화자 여부를 판정한다(S130). 차량 단말(100)은 추정된 화자수가 둘 이상인지를 확인한다(S130).

차량 단말(100)은 다중 화자인 경우, 입력받은 음성 신호로부터 화자별 음원을 분류(분리)한다(S140). 예를 들어, 화자수가 3명 이면, 차량 단말(100)은 입력받은 음성 신호로부터 화자A, 화자B 및 화자C의 음성 신호를 각각 분리한다.

차량 단말(100)은 분리된 화자별 음성 신호(음성 데이터)들을 서버(200)로 전송한다(S150).

한편, S130에서 화자수 분석결과 단일화자이면, 차량 단말(100)은 마이크를 통해 입력된 음성 신호를 서버(200)에 전송한다(S150).

서버(200)는 차량 단말(100)로부터 전송되는 음성 신호를 수신하여 음성 인식을 수행한다(S160). 서버(200)는 수신된 음성 신호가 단일화자의 음성 신호이면 해당 음성 신호에 대한 음성 인식을 수행하여 텍스트로 변환한다. 또한, 서버(200)는 수신된 음성 신호가 분리된 화자별 음성 신호인 경우, 화자별 음성 신호에 대해 각각 음성 인식을 실시하여 텍스트로 변환한다.

서버(200)는 음성인식을 통해 텍스트로 변환된 명령어(명령)에 대해 화자의 명령 의도 분석을 실시한다(S170). 예를 들어, 음성인식을 통해 인식된 명령이 '마이클 잭슨 음악 틀어줘', 'S커피 검색해줘', 및 'DMB 보여줘'인 경우, 서버(200)는 화자의 명령 의도를 '음악 재생', '지도 검색' 및 '알수없음(unknown)'으로 각각 판단한다.

이때, 서버(200)는 음성인식된 명령어들의 도메인을 1차로 분류하고, 분류된 도메인별로 명령 의도 분석을 실시할 수 있다. 예를 들어, 음성인식을 통해 인식된 명령이 '음악A 틀어줘', '음악A 틀어줘' 및 'S커피 검색해줘'인 경우 각 명령의 도메인을 '엔터테인먼트', '엔터테인먼트', 및 '내비게이션'으로 각각 분류한다. 이후, 서버(200)는 '엔터테인먼트'로 분류된 명령 '음악A 틀어줘' 및 '음악A 틀어줘'의 의도를 분석하여 두 명령의 의도가 동일한 경우 하나의 명령 '음악A 재생'으로 처리한다.

서버(200)는 명령 의도분석이 완료되면 의도분석결과를 차량 단말(100)로 전송한다(S180). 서버(200)는 의도분석결과를 JSON과 같은 데이터 형식으로 생성한다.

차량 단말(100)은 서버(200)로부터 제공받은 의도분석결과를 토대로 명령을 처리한다(S190).

이하, 도 6을 참조하여 명령 처리 과정을 보다 구체적으로 설명한다.

차량 단말(100)은 서버(200)로부터 전송되는 의도분석결과를 수신한다(S191).

차량 단말(100)은 의도분석결과를 바탕으로 다중명령 여부를 판정한다(S192). 차량 단말(100)은 의도분석결과 내 명령의 개수(명령어 수)를 확인하고, 그 확인결과에 따라 다중명령 여부를 판정한다. 즉, 차량 단말(100)은 의도분석결과 명령어 수가 둘 이상이면 다중명령으로 판정한다.

예를 들어, 의도분석결과를 분석한 결과, 화자A, 화자B 및 화자C의 명령 의도가 '음악 재생', '지도 검색' 및 '알수없음(unknown)'인 경우, 차량 단말(100)은 각 명령의 실행 가능여부에 따라 '화자A: 음악 재생', '화자B: 지도 검색' 및 '화자C: 명령무시'로 판단한다. 따라서, 차량 단말(100)은 2개의 실행 명령이 존재하는 것으로 판단한다.

차량 단말(100)은 판정결과에 근거하여 다중명령인지를 확인한다(S193).

차량 단말(100)은 다중명령이면, 앱(도메인)별 실행 명령의 순차목록을 생성한다(S194). 차량 단말(100)은 도메인별 명령 개수가 복수 개인 경우 발화 순서 등에 근거하여 실행 순서를 정하여 순차목록을 생성하여 앱단에 전달한다.

차량 단말(100)은 도메인 우선순위에 따라 다중명령을 순차적으로 실행한다(S195). 예를 들어, 차량 단말(100)은 내비게이션 도메인이 엔터테인먼트 도메인보다 높은 우선순위를 가지므로, 내비게이션 앱을 통해 지도 검색을 먼저 수행하고, 엔터테인먼트 앱을 통해 음악을 재생할 수 있다. 또한, 차량 단말(100)은 화자C의 명령을 실행할 수 없음을 안내한다. 이때, 차량 단말(100)은 명령 실행 불가 이유(예: 명령 이해 불가)를 함께 출력할 수 있다.

한편, S193에서 판정결과 다중명령이 아닌 경우, 차량 단말(100)은 의도분석결과를 토대로 명령을 실행한다(S196). 즉, 차량 단말(100)은 음성인식 및 의도분석을 통해 인식된 단일명령에 대응하는 기능을 동작시킨다.

상기한 실시 예들에서는 차량 단말(100)이 화자수 분석, 화자별 음원 분리, 화자 명령어의 유효성 및 동시 처리 가능 여부, 및 다중명령 처리를 수행하고, 서버(200)가 음성 인식 및 의도분석을 수행하는 것으로 설명하고 있으나, 이에 한정되지 않고 서버(200)가 화자수 분석, 화자별 음원 분리, 음성 인식 및 의도분석, 및 화자 명령어의 유효성 및 동시 처리 가능 여부를 수행하도록 구현할 수도 있다. 예를 들어, 차량 단말(100)은 마이크(120)를 통해 음성신호를 입력받아 서버(200)로 전송하고, 서버(200)는 음성신호를 분석하여 화자수를 추정하고 추정된 화자수에 따라 화자별 음성 데이터를 분류하여 음성인식 및 의도분석을 수행하여 실행 명령 및 실행 순서 등을 차량 단말(100)에 제공하여 차량 단말(100)이 다중명령을 처리할 수 있도록 지원한다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 차량 단말
110: 통신부
120: 마이크
130: 메모리
140: 입력부
150: 출력부
160: 처리부
200: 서버
210: 통신모듈
220: 메모리
230: 처리모듈

Claims

마이크를 통해 음성신호를 입력받아 화자별 음성신호로 분리하여 출력하는 차량 단말, 및
상기 화자별 음성신호에 대해 음성인식을 실행하여 화자별 명령을 인식하고, 상기 화자별 명령의 의도를 분석하여 의도분석결과를 상기 차량 단말에 제공하는 서버를 포함하고,
상기 차량 단말이 상기 의도분석결과를 토대로 상기 화자별 명령에 대응하는 동작을 실행하는 것을 특징으로 하는 음성명령 처리 시스템.
제1항에 있어서,
상기 차량 단말은,
상기 음성신호를 분석하여 화자수를 추정하여 다중화자 여부를 확인하는 것을 특징으로 하는 음성명령 처리 시스템.
제2항에 있어서,
상기 차량 단말은,
추정된 화자수가 둘 이상이면 다중화자로 판정하여 상기 음성신호로부터 상기 화자별 음성신호를 분리하는 것을 특징으로 하는 음성명령 처리 시스템.
제1항에 있어서,
상기 차량 단말은,
음성인식 시작 시 메모리에 저장된 상기 차량에서 지원 가능한 상태 정보를 상기 서버로 전송하는 것을 특징으로 하는 음성명령 처리 시스템.
제4항에 있어서,
상기 차량에서 지원 가능한 상태 정보는,
기능별 실행 가능 명령, 동시 처리 가능한 명령 및 명령별 실행 우선순위를 포함하는 것을 특징으로 하는 음성명령 처리 시스템.
제4항에 있어서,
상기 서버는,
상기 차량에서 지원 가능한 상태 정보를 이용하여 상기 화자별 명령의 의도를 분석하는 것을 특징으로 하는 음성명령 처리 시스템.
제1항에 있어서,
상기 차량 단말은,
상기 의도분석결과를 바탕으로 상기 화자별 명령 각각에 대해 유효성을 판단하여 유효명령을 선별하는 것을 특징으로 하는 음성명령 처리 시스템.
제7항에 있어서,
상기 차량 단말은,
선별된 유효명령을 도메인별로 분류하고 분류된 도메인 내 우선순위에 따라 실행 순서를 결정하는 것을 특징으로 하는 음성명령 처리 시스템.
제8항에 있어서,
상기 차량 단말은,
도메인 우선순위에 따라 상기 선별된 유효명령을 실행하는 것을 특징으로 하는 음성명령 처리 시스템.
제1항에 있어서,
상기 서버는,
상기 차량 단말로부터 상기 음성신호를 수신하여 화자별 음성신호로 분리하는 것을 특징으로 하는 음성명령 처리 시스템.
서버와 통신을 수행하는 통신부,
차량 내 설치되어 음성신호를 입력받는 마이크, 및
상기 음성신호를 화자별 음성신호로 분리하여 상기 서버에 전송하고, 상기 서버로부터 상기 화자별 음성신호에 대한 음성인식 및 의도분석을 수행한 의도분석결과를 제공받아 상기 의도분석결과를 토대로 화자별 명령을 처리하는 처리부를 포함하는 것을 특징으로 하는 차량 단말.
차량 단말이 마이크를 통해 음성신호를 입력받는 단계,
상기 차량 단말이 상기 음성신호를 화자별 음성신호로 분리하는 단계,
상기 차량 단말이 상기 화자별 음성신호를 서버로 전송하는 단계,
상기 서버가 상기 화자별 음성신호에 대해 음성인식을 실행하여 화자별 명령을 인식하는 단계,
상기 서버가 상기 화자별 명령의 의도를 분석하여 의도분석결과를 상기 차량 단말에 전송하는 단계, 및
상기 차량 단말이 상기 의도분석결과를 토대로 상기 화자별 명령에 대응하는 동작을 실행하는 단계를 포함하는 것을 특징으로 하는 음성명령 처리 방법.
제12항에 있어서,
상기 음성신호를 입력받는 단계에서,
상기 차량 단말은 차량 내 설치된 하나의 마이크를 통해 다중화자가 발화하는 음성명령들이 믹스된 하나의 음성신호로 검출하는 것을 특징으로 하는 음성명령 처리 방법.
제12항에 있어서,
상기 음성신호를 분리하는 단계는,
상기 차량 단말이 상기 음성신호를 분석하여 화자수를 추정하는 단계,
상기 차량 단말이 추정된 화자수에 근거하여 다중화자 여부를 판정하는 단계, 및
상기 차량 단말이 다중화자인 경우 상기 추정된 화자수에 근거하여 상기 음성신호로부터 상기 화자별 음성신호를 분기하는 단계를 포함하는 것을 특징으로 하는 음성명령 처리 방법.
제12항에 있어서,
상기 음성신호를 입력받는 단계 이전에,
상기 차량 단말은 차량 내 음성인식 실행 명령이 할당된 버튼의 조작이 감지되거나 또는 기설정된 호출어의 발화가 감지되는 경우 음성인식 기능을 실행하는 것을 특징으로 하는 음성명령 처리 방법.
제15항에 있어서,
상기 차량 단말은,
상기 음성인식 기능 실행 시 메모리에 저장된 상기 차량에서 지원 가능한 상태 정보를 상기 서버로 전송하는 것을 특징으로 하는 음성명령 처리 방법.
제16항에 있어서,
상기 차량에서 지원 가능한 상태 정보는,
기능별 실행 가능 명령, 동시 처리 가능한 명령 및 명령별 실행 우선순위를 포함하는 것을 특징으로 하는 음성명령 처리 방법.
제16항에 있어서,
상기 서버는,
상기 차량에서 지원 가능한 상태 정보를 이용하여 상기 화자별 명령의 의도를 분석하는 것을 특징으로 하는 음성명령 처리 방법.
제12항에 있어서,
상기 화자별 명령에 대응하는 동작을 실행하는 단계에서,
상기 차량 단말은 상기 의도분석결과를 토대로 상기 화자별 명령 각각에 대해 유효성을 판단하여 유효명령을 선별하는 것을 특징으로 하는 음성명령 처리 방법.
제19항에 있어서,
상기 화자별 명령에 대응하는 동작을 실행하는 단계에서,
상기 차량 단말은 선별된 유효명령을 도메인별로 분류하고 분류된 도메인 내 우선순위에 따라 실행 순서를 결정하는 것을 특징으로 하는 음성명령 처리 방법.
제20항에 있어서,
상기 화자별 명령에 대응하는 동작을 실행하는 단계에서,
상기 차량 단말은 도메인 우선순위에 따라 선별된 유효명령을 실행하는 것을 특징으로 하는 음성명령 처리 방법.