KR20180081933A

KR20180081933A - 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법

Info

Publication number: KR20180081933A
Application number: KR1020170002863A
Authority: KR
Inventors: 김비호
Original assignee: 현대자동차주식회사
Priority date: 2017-01-09
Filing date: 2017-01-09
Publication date: 2018-07-18
Also published as: KR102329888B1; US20180197546A1; US10629210B2

Abstract

안내 메시지를 수정하고 사용자에게 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화하는 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법을 제공한다.
개시된 일 예에 따른 음성 인식 장치는 음성 명령을 수신하는 수신부; 안내 메시지를 출력하는 제공부; 상기 음성 명령에 대응하여 상기 제공부를 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함한다.

Description

음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법{SPEECH RECOGNITION APPARATUS, VEHICLE HAVING THE SAME AND CONTROLLING METHOD OF SPEECH RECOGNITION APPARATUS}

사용자의 음성 명령을 인식하여 사용자에게 편리한 서비스를 제공하는 기술에 관한 것이다.

디지털 디바이스가 출시된 이후, 디지털 디바이스를 조작하기 위한 인터페이스는 다양하게 발전되어 왔다. 최근에는 평판 디스플레이와 정전식 터치 센서가 스마트폰, 태블릿 등 다양한 개인용 스마트 기기를 조작하기 위한 대표적인 센서로 널리 활용되고 있다.

터치 센서의 장점은 직관적이고, 명령에 대한 피드백을 즉각적으로 받을 수 있다는 점이다. 그러나, 두 손이 자유롭지 않은 경우, 복잡한 명령을 수행하는 경우, 여러 단계의 상호작용을 거쳐 명령을 수행해야 하는 경우, 또는 긴 텍스트를 입력해야 하는 경우 등과 같이 복잡한 인터렉션(Interaction)이 필요한 상황에서는 터치 센서의 활용성이 떨어진다는 단점이 있다.

반면에, 음성 인식 센서는 자연스럽고 직관적인 인터페이스로서, 활용성이 떨어진다는 터치 센서의 단점을 보완할 수 있다. 이에 따라, 음성 인식 센서는 차량용 기기 제어, 스마트 기기용 음성 비서 등을 중심으로 활용이 증대되고 있다.

이러한 음성 인식 센서를 포함하는 음성 인식 장치는 사용자의 음성을 인식하고, 사용자의 음성에 관련된 여러 다양한 동작을 통해 인터랙션을 강화한다. 예를 들어 음성 인식 장치는 차량에서 운전자의 음성을 인식하여, 음성 인식에 따라 관계되는 안내 동작 또는 안내 메시지를 출력한다.

한편, 이러한 안내 메시지는 음성 인식 장치에 저장된 시나리오를 통해서 진행된다. 이 때, 사용자는 반복적인 사용에 의해서 안내 메시지를 충분히 인식하고 있어, 내용을 듣지 않고 또는 앞부분만을 듣고 반응하는 경우가 있었다.

사용자의 사용 패턴에 따라 안내 메시지를 수정하고, 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화하는 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법을 제공한다.

개시된 일 예에 따른 음성 인식 장치는 음성 명령을 수신하는 수신부; 안내 메시지를 출력하는 제공부; 상기 음성 명령에 대응하여 상기 제공부를 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함한다.

상기 청취 패턴은 상기 안내 메시지의 평균적인 청취 시간을 포함하고, 상기 청취 시간은, 상기 안내 메시지가 출력 되는 시점으로부터 사용자의 입력에 의해서 상기 출력이 중단되는 시점까지의 시간을 포함할 수 있다.

상기 제어부는, 미리 설정된 시간과 상기 청취 시간을 비교하여 상기 안내 메시지의 출력을 조정할 수 있다.

상기 제어부는, 상기 청취 시간이 미리 설정된 시간 이상이면, 상기 안내 메시지보다 짧아진 안내 메시지를 출력할 수 있다.

상기 제어부는, 상기 짧아진 안내 메시지와 상기 청취 시간을 비교하여 상기 짧아진 안내 메시지의 출력 속도를 조정할 수 있다.

상기 제어부는, 상기 청취 패턴이 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 제공부를 제어할 수 있다.

상기 제어부는, 상기 안내 메시지가 출력되는 동안 사용자로부터 새로운 음성 명령을 수신하면, 상기 안내 메시지의 출력을 중단할 수 있다.

상기 청취 시간을 저장하는 음성 명령 데이터베이스;를 더 포함하고, 상기 제어부는, 상기 음성 명령 데이터베이스에 저장된 상기 청취 시간의 평균 시간에 기초하여 상기 안내 메시지의 출력을 조정할 수 있다.

개시된 다른 실시예에 따른 차량은 음성 명령을 수신하는 수신부; 안내 메시지를 포함하는 서비스를 출력하는 AVN(Audio Video Navigation) 단말; 상기 음성 명령에 대응하여 상기 AVN 단말을 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함한다.

상기 제어부는, 상기 청취 패턴이 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 AVN 단말을 제어할 수 있다.

상기 AVN 단말은, 사용자의 터치를 인식하는 디스플레이;를 더 포함하고, 상기 제어부는, 상기 안내 메시지가 출력되는 동안 상기 터치가 입력되면, 상기 안내 메시지의 출력을 중단할 수 있다.

개시된 또 다른 실시예에 따른 음성 인식 장치의 제어방법은 사용자의 입력 및 음성 명령 중 적어도 하나를 수신하고; 상기 사용자의 입력 및 상기 음성 명령 중 적어도 하나에 대응하는 상기 안내 메시지를 출력하고; 상기 안내 메시지의 청취 패턴을 분석하고; 상기 청취 패턴에 기초하여 상기 안내 메시지의 출력을 조정하는 것;을 포함한다.

상기 출력하는 것은, 상기 안내 메시지가 출력된 후, 상기 사용자의 입력에 의해서 상기 안내 메시지의 출력을 중단하는 것;을 포함할 수 있다.

상기 출력하는 것은, 상기 안내 메시지가 출력되는 도중, 상기 음성 명령이 수신되면 상기 안내 메시지의 출력을 중단하는 것;을 포함할 수 있다.

상기 출력하는 것은, 상기 음성 명령의 입력 시간이 미리 설정된 시간 미만이면, 상기 안내 메시지를 계속 출력하는 것;을 포함할 수 있다.

상기 출력하는 것은, 상기 사용자의 입력 및 상기 음성 입력 중 적어도 하나가 다시 수신되면, 상기 조정된 안내 메시지를 출력하는 것;을 포함할 수 있다.

개시된 일 측면에 따른 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법은 사용자의 사용 패턴에 따라 안내 메시지를 수정하고, 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화할 수 있다.

도 1, 및 도 2는 일 실시예에 따른 음성 인식 장치를 설명하기 위한 블록도이다.
도 3 및 도 4는 다른 실시예에 따라 음성 인식 장치가 내장된 차량의 제어 블록도를 도시한 도면이다.
도 5는 다른 실시예에 따른 음성 인식 장치가 내장된 차량의 내부 구성을 나타낸 도면이다.
도 6은 일 실시예에 따른 음성 인식 장치가 내장된 차량, 및 휴대용 단말을 통해 사용자에게 음성 인식 서비스를 제공하는 경우를 도시한 도면이다.
도 7은 일 실시예에 따른 음성 인식 장치의 제어방법을 설명하기 위한 순서도이다.
도 8은 청취 패턴을 분석하는 일 예를 설명하기 위한 순서도이다.
도 9는 청취 패턴의 분석 결과에 따라 안내 메시지를 조정하는 일 예를 설명하기 위한 순서도이다.
도 10은 일 예에 따라 차량의 AVN 단말에 포함된 음성 인식 장치가 안내 메시지를 출력하는 서비스를 제공하는 방법을 도시한 도면이다.

명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 명세서가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 발명이 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.

또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.

각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.

이하 첨부된 도면들을 참고하여 본 발명의 작용 원리 및 실시예들에 대해 설명한다.

도 1, 및 도 2는 일 실시예에 따른 음성 인식 장치를 설명하기 위한 블록도이다.

이하에서 설명되는 음성 인식 장치(100)는 음성 인식 엔진을 통해 음성 인식 서비스를 제공하는 장치를 의미한다. 음성 인식 장치(100)는 스마트 폰, PDA와 같은 휴대용 단말, 사용자의 신체에 탈부착이 가능한 웨어러블 디바이스뿐만 아니라 음성 명령 시스템을 포함하는 스마트 TV, 및 차량 등에 내장될 수 있다. 이하에서 설명되는 음성 인식 서비스는 음성 인식 센서를 통해 수신한 사용자의 음성 명령을 이용하여 사용자가 제공받고자 하는 서비스를 실행하도록 도와주는 서비스를 의미한다.

도 1에 도시된 바와 같이, 음성 인식 장치(100)는 수신부(110), 제어부(120), 음성 명령 데이터베이스(130) 및 제공부(140)를 포함할 수 있다. 수신부(110), 제어부(120), 음성 명령 데이터베이스(130), 및 제공부(140)는 음성 인식 장치(100)에 내장된 시스템 온 칩(System On Chip)에 집적될 수 있다.

수신부(110)는 음성 인식 센서를 통해 사용자의 음성 명령을 수신할 수 있다. 이하에서 설명되는 음성 인식 센서는 사용자의 음성 명령을 수신할 수 있는 센서를 의미한다. 음성 인식 센서는 마이크로 폰 등을 포함할 수 있다.

또한, 수신부(110)는 터치 센서를 통해 화면에서 감지되는 사용자의 터치 입력을 수신할 수 있다. 이하에서 설명되는 터치 센서는 음성 인식 장치의 화면 내에서 발생하는 사용자의 터치 입력을 감지할 수 있는 센서를 의미한다. 즉, 수신부(110)는 사용자의 음성 명령, 및 터치 입력 중 적어도 하나를 수신할 수 있다.

개시된 일 예에 따른 제어부(120)는 음성 인식 장치(100)의 전반적인 동작을 제어하는 모듈을 의미한다. 구체적으로 제어부(120)는 수신부(110)가 수신하는 음성 인식을 기초로 안내 메시지의 청취 패턴을 분석한다. 이 후 제어부(120)는 청취 패턴의 분석 결과에 기초하여 안내 메시지의 출력을 조정한다.

제어부(120)는 음성 명령 데이터베이스(130)를 이용하여 사용자의 음성 명령으로부터 키워드를 추출할 수 있다. 구체적으로 제어부(120)는 음성 인식 엔진을 이용하여 음성 명령 데이터베이스(130)에 저장된 데이터를 검색함으로써, 사용자의 음성 명령으로부터 키워드를 추출할 수도 있다.

제어부(120)는 제공부(140)를 제어하여 추출된 키워드에 따라 안내 메시지를 출력한다. 이러한 안내 메시지는 인식된 키워드에 따른 시나리오에 따라 안내 음성 인식 서비스에 포함된다.

여기서 키워드는, 음성 명령 내에 포함된 단어들 중에서 일부 또는 전부를 의미한다. 일 실시예에 따르면, 키워드는 사용자의 음성 명령에 포함된 단어 중에서 사용자가 제공받고자 하는 서비스와 관련된 단어를 포함한다. 키워드는 일 실시예에 한하지 않고, 다양한 방법을 통해 사용자의 음성 명령 내에 포함된 단어들 중에서 일부 또는 전부가 키워드로 선택될 수 있다. 또한, 이하에서 설명되는 서비스는 음성 인식 장치의 프로세서를 통해 실행될 수 있는 어플리케이션과 같은 모든 응용 서비스를 의미한다.

일 예로, 제어부(120)가 '네 명령어를 말씀하세요'라고 안내 메시지를 출력한 후, 사용자가 '전화를 연결해줘'라고 음성 명령을 입력하면, 키워드는 '전화'일 수 있다. 제어부(120)는 음성 명령 데이터베이스(130)를 이용하여, 사용자의 음성 명령 중 '전화'를 키워드로 추출하고, 이와 관련된 안내 서비스를 실행할 수 있다.

한편, 제어부(120)는 사용자의 청취 패턴을 분석한다. 앞서 언급한 일 예에서 사용자는 안내 메시지 중 '네 명령어를'까지만 청취하고, '전화를 연결해줘'라고 말할 수 있다. 제어부(120)는 사용자의 청취 패턴을 분석하여, 안내 메시지를 짧게 출력하도록 조정할 수 있다. 이와 관련된 구체적인 설명은 이하의 도면을 통해서 후술한다.

음성 명령 데이터베이스(130)는 사용자의 청취 패턴, 음성 인식 서비스의 사용 이력 및 키워드에 따른 시나리오가 저장된다.

구체적으로 사용자의 청취 패턴은 사용자가 안내 메시지를 청취하는 평균적인 시간을 의미한다. 음성 인식 서비스의 사용 이력은 사용자가 주로 사용하는 음성 인식 서비스의 종류 등 실행한 서비스와 관련된 정보를 의미한다. 키워드와 관련된 시나리오는 음성 명령이 입력된 후, 음성 인식 장치(100)가 제공하는 서비스의 과정을 의미한다.

도 1에 도시된 바와 같이.음성 명령 데이터베이스(130)는 음성 인식 장치(100) 내에 저장될 수 있으며, 수신부(110), 제어부(120) 및 제공부(140)와 하나의 모듈로 구현될 수도 있다.

제공부(140)는 안내 메시지를 출력하고, 키워드와 관련된 서비스를 제공할 수 있다.

일 예에 따르면, 제공부(140)는 사용자의 음성 발화 또는 사용자의 버튼 입력에 따라 '네 명령어를 말씀하세요'라는 안내 메시지를 출력할 수 있다.

또한, 제공부(140)는 사용자의 명령어를 수신하고, 명령어에 포함된 키워드와 관련된 어플리케이션과 같은 응용 서비스를 실행할 수 있다. 키워드가 '전화'인 경우, 제공부(140)는 키워드 '전화'에 매핑된 전화 연결 어플리케이션을 실행할 수 있다.

한편, 사용자의 음성 명령으로부터 음성 인식 서비스를 출력하는 중에 사용자의 터치 입력 등을 감지한 경우, 제공부(140)는 사용자의 음성 명령으로부터 추출된 서비스를 제공하는 것을 중단할 수 있다.

예를 들어, '전화'에 관한 키워드에 따라 "네 전화할 상대방을 말씀하세요 "라는 안내 메시지를 출력하는 중, 사용자는 상대방의 이름을 말하기 위해 터치하거나, 상대방의 이름을 말할 수 있다. 이 경우, 제공부(140)는 안내 메시지의 출력을 중단하고, 제어부(120)는 수신부(110)를 통해 사용자의 음성을 수신한다.

도 2를 참조하면, 음성 명령 데이터베이스(130)는 음성 인식 장치(100)와는 별개의 외부 장치 내에 저장될 수도 있다. 이 때, 음성 인식 장치(100)는 통신망을 통해 음성 명령 데이터베이스(130)가 저장된 외부 장치와 연동하여 음성 인식 서비스를 제공할 수 있다.

일 예로, 외부 장치는 차량에 포함된 다른 저장 매체를 의미할 수 있다. 구체적으로 음성 인식 장치(100)가 차량에 마련되는 경우, 음성 명령 데이터베이스(130)는 차량에 포함된 메모리에 마련될 수 있다. 이 때, 음성 인식 장치(100)는 차량 내 네트워크, 예를 들어 CAN(Control Area Network)를 통해 음성 명령 데이터베이스(130)가 저장하는 다양한 데이터를 제공받을 수 있다. 이와 관련된 자세한 설명은 이하의 도면을 통해 후술한다.

도 3 및 도 4는 다른 실시예에 따라 음성 인식 장치가 내장된 차량의 제어 블록도를 도시한 도면이다. 중복되는 설명을 피하기 위해서 이하 함께 설명한다.

다른 실시예에 따르면, 음성 인식 장치(200)는 차량에 내장된 AVN(Audio Video Navigation) 장치와 함께 마련될 수 있다. 이하에서 설명되는 AVN 단말은 오디오, 비디오 및 내비게이션 기능을 통합적으로 수행할 수 있는 장치를 의미한다.

도 3, 및 도 4에 도시된 수신부(210)는 음성 인식 센서를 통해 사용자의 음성 명령을 수신할 뿐만 아니라, 터치 센서를 통해 AVN 단말의 디스플레이(250) 상에서 감지되는 사용자의 터치 입력을 수신할 수 있다. 또한, 수신부(210)는 차량 내에 설치된 죠그 셔틀(jog shuttle) 타입 또는 하드 키 타입의 컨트롤러를 통해 사용자가 입력한 명령을 수신할 수도 있다.

도 3, 및 도 4에 도시된 제어부(220), 및 제공부(240)는 앞서 설명한 도 1, 및 도 2의 제어부(120), 및 제공부(140)가 수행하는 프로세스와 동일하므로 자세한 설명은 생략하도록 한다.

즉, 차량 내 설치된 음성 인식 장치(200)도 음성 인식 서비스, 구체적으로 음성 안내 메시지를 출력하는 동안, 사용자의 청취 패턴을 분석하고, 분석 결과에 기초하여 음성 안내 메시지의 출력을 조정한다.

한편, 도 3에 도시된 바와 같이, 음성 명령 데이터베이스(230)는 음성 인식 장치(200) 내에 저장될 수 있으며, 수신부(210), 제어부(220) 및 제공부(240)와 하나의 모듈로 구현될 수도 있다.

다른 예로, 도 4에 도시된 바와 같이, 음성 명령 데이터베이스(230)는 음성 인식 장치(200)와는 별개의 외부 장치 내에 저장될 수도 있다.

구체적으로 음성 인식 장치(200)가 AVN 단말에 마련되는 경우, 음성 명령 데이터베이스(230)는 AVN 단말에 마련된 메모리에 포함될 수 있다. 이 경우, AVN 단말에 마련된 메모리는 사용자의 청취 이력, 음성 인식 서비스의 사용 이력 및 키워드에 따른 시나리오 등의 데이터를 함께 저장하고, 음성 인식 장치(200)가 사용자의 청취 패턴을 분석하는데 필요한 사용자의 청취 이력을 제공할 수 있다.

한편, 제공부(240)와 연결되어, 안내 메시지를 출력하는 다스플레이(250) 및 스피커(260)와 관련된 자세한 설명은 이하의 도면을 통해서 후술한다.

도 5는 다른 실시예에 따른 음성 인식 장치가 내장된 차량의 내부 구성을 나타낸 도면이다.

전술한 바와 같이, 음성 인식 장치(200)는 차량 내에 내장된 AVN 단말(170)에 대응될 수 있다. AVN 단말(170)는 오디오, 비디오 및 내비게이션 기능을 통합적으로 수행할 수 있는 장치이다. AVN 단말(170)은 AVN 디스플레이(171)를 통해 오디오 화면, 비디오 화면 및 내비게이션 화면 중 적어도 하나를 선택적으로 표시할 수 있을 뿐만 아니라, 차량의 제어와 관련된 각종 제어 화면 또는 AVN 단말(170)에서 실행할 수 있는 부가 기능과 관련된 화면을 표시할 수 있다.

도 5를 참조하면, AVN 디스플레이(171)는 대시 보드(10)의 중앙 영역인 센터페시아(11)에 위치할 수 있다. 일 예에 따르면, AVN 디스플레이(171)는 LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), 및 CRT(Cathode Ray Tube) 등으로 구현될 수 있다.

또한, AVN 입력부(172)는 대시 보드(10)의 중앙 영역인 센터페시아(11)에 위치할 수 있다. 운전자는 AVN 입력부(172)를 조작하여 AVN 단말(170)을 제어하기 위한 명령을 입력할 수 있다.

도 5에 도시된 바와 같이, AVN 입력부(172)는 AVN 디스플레이(171)와 인접한 영역에 하드 키 타입으로 마련될 수도 있다. 또한, AVN 디스플레이(171)가 터치 스크린 타입으로 구현되는 경우, AVN 디스플레이(171)는 AVN 입력부(172)의 기능도 함께 수행할 수 있다.

한편, 센터 콘솔(40)에는 죠그 셔틀 타입 또는 하드 키 타입의 센터 입력부(43)가 마련될 수 있다. 센터 콘솔(40)은 운전석(21)과 조수석(22) 사이에 위치하여 기어조작 레버(41)와 트레이(42)가 형성된 부분을 의미한다. 센터 입력부(43)는 AVN 입력부(172)의 전부 또는 일부 기능을 수행할 수 있다.

음성 입력부(180)는 마이크로폰(microphone)을 통해 운전자가 발화(utterance)한 음성 명령이 수신하여 전기적 신호로 변환할 수 있다. 효과적인 음성의 입력을 위하여 음성 입력부(180)는 도 5에 도시된 바와 같이 헤드라이닝(13)에 장착될 수 있으나, 차량의 실시예가 이에 반드시 한정되는 것은 아니며, 대시보드(10) 위에 장착되거나 스티어링 휠(12)에 장착되는 것도 가능하다. 즉, 음성 입력부(180)는 운전 중인 운전자의 음성을 입력 받기에 적합한 위치이면 어디든 제한이 없다.

도 3 및 도 4에 도시된 수신부(210)는 음성 입력부(180)를 통해 운전자의 음성 명령을 수신할 뿐만 아니라, AVN 디스플레이(171)를 통해 터치 입력을 수신할 수 있다. 뿐만 아니라, 수신부(210)는 운전자가 AVN 입력부(172), 및 센터 입력부(43) 등을 조작하여 입력한 제어 명령도 수신할 수 있다.

한편, 도 3 및 도 4에서 도시된 수신부(210), 디스플레이(250) 및 스피커(260)는 도 5의 차량에 마련된 음성 입력부(180), AVN 디스플레이(171) 및 차량 내 스피커(143)에 대응될 수 있다.

다시 도 5를 참조하면, 차량의 내부에는 음향을 출력할 수 있는 스피커(143)가 마련될 수 있다. 이에 따라, 차량은 스피커(143)를 통해 오디오 기능, 비디오 기능, 내비게이션 기능 및 기타 부가 기능을 수행함에 있어 필요한 음향을 출력할 수 있다.

운전자의 음성 명령을 수신한 경우, AVN 단말(170)은 음성 명령 데이터베이스를 이용하여 운전자의 음성 명령으로부터 키워드를 추출할 수 있다. 음성 인식 장치는 키워드와 관련된 서비스를 실행할 수 있다. 일 실시예에 따르면, 음성 명령 데이터베이스(230)를 이용하여 운전자로부터 추출한 키워드가 '목적지 검색'에 해당하는 경우, 음성 인식 장치는 내비게이션 어플리케이션을 실행할 수 있다.

이 후, 음성 인식 장치(200)는 목적지에 관한 정보를 운전자에게 되묻는 안내 메시지를 출력함으로써, 운전자가 원하는 목적지에 갈수 있도록 도울 수 있다. 이 때, AVN 단말(170)은 AVN 디스플레이(171)를 통해 목적지에 관한 정보를 입력 받거나, 또는 음성 입력부(180)를 통해 목적지에 관한 정보를 입력 받을 수 있다.

운전자의 음성 명령으로부터 추출한 키워드와 관련된 서비스를 검색하는 중에, AVN 단말(170)은 운전자의 터치 입력을 수신할 수 있다. 이 때, AVN 단말(170)은 음성 명령 데이터베이스로부터 키워드와 관련된 서비스를 검색하는 것을 중단할 수 있다.

AVN 단말(170)은 음성 명령 데이터베이스를 이용하여 운전자의 터치 입력이 감지된 지역에 표시된 카테고리와 관련된 서비스를 검색할 수 있다. 이에 따라, AVN 단말(170)은 사용 빈도가 높은 순으로 카테고리와 관련된 서비스를 AVN 디스플레이(171)에 표시하거나 또는 스피커(143)를 통해 운전자에게 전달할 수 있다.

도 6은 일 실시예에 따른 음성 인식 장치가 내장된 차량, 및 휴대용 단말을 통해 사용자에게 음성 인식 서비스를 제공하는 경우를 도시한 도면이다.

도 6을 참조하면, 음성 인식 장치는 휴대용 단말(800)에 내장될 수 있다. 사용자는 휴대용 단말(800)의 디스플레이를 터치하여 터치 입력을 전달하거나 또는 휴대용 단말(800)에 내장된 마이크를 통해 음성 명령을 전달할 수 있다.

사용자의 터치 입력, 및 음성 명령 중 적어도 하나를 수신하면, 음성 인식 장치는 사용자의 음성 인식 서비스의 사용 빈도와 관련된 데이터가 구축된 음성 명령 데이터베이스를 이용하여 사용자가 원하는 서비스를 검색하고, 검색된 서비스를 제공할 수 있다.

음성 인식 장치는 휴대용 단말(800) 내에 저장된 음성 데이터베이스를 이용하여 사용자가 원하는 서비스를 검색하고, 검색된 서비스를 제공할 수 있다. 또 다른 예로, 휴대용 단말(800)은 인터넷 등 네트워크 통신망을 통해 외부 장치에 저장된 음성 데이터베이스와 연동하여 사용자가 원하는 서비스에 관한 검색 결과를 수신하고, 수신된 검색 결과에 기초하여 서비스를 제공할 수도 있다.

한편, 휴대용 단말(800)에 마련된 음성 인식 장치 또한, 사용자의 청취 이력을 저장하고, 청취 이력에 기초하여 청취 패턴을 분석할 수 있다. 이 후, 음성 인식 장치는 제공되는 안내 메시지를 조정하고, 사용자와의 인터랙션을 강화할 수 있다. 이러한 동작과 관련된 설명은 이하의 순서도를 기초로 구체적으로 후술한다.

도 7은 일 실시예에 따른 음성 인식 장치의 제어방법을 설명하기 위한 순서도이다.

도 7을 참조하면, 개시된 음성 인식 장치(100)는 사용자가 안내 메시지를 청취하는 패턴을 분석한다(300).

여기서 청취 패턴이란, 사용자가 평소 안내 메시지를 듣고자 하는 평균적인 청취 시간을 의미한다. 앞서 언급한 바와 같이, 음성 인식 장치(100)는 미리 저장된 시나리오에 따라 안내 메시지를 출력한다. 사용자는 반복적으로 출력되는 안내 메시지의 내용을 충분히 인지할 수 있어, 안내 메시지의 내용을 모두 듣지 않고, 다음 음성 입력 명령을 발화할 수 있다.

이러한 사용자의 청취 패턴에 맞추어 개시된 음성 인식 장치(100)는 다음 번 출력되는 안내 메시지의 출력을 조정할 수 있다(400).

안내 메시지의 출력을 조정하는 예는 다양할 수 있다. 일 예로, 음성 인식 장치는 사용자의 청취 시간이 매우 짧은 경우, 안내 메시지의 출력을 제공하지 않고, 짧은 비프(beep)음만을 출력할 수 있다. 또한, 청취 시간이 비교적 긴 편이라면, 정상적인 시나리오에서 출력되는 안내 메시지 이외의 다른 짧은 길이의 메시지를 출력하거나, 짧은 메시지의 출력 속도를 줄여서 출력할 수도 있다.

도 7에서 설명한 제어방법에 관해서는 이하 도 8 및 9를 통해서 구체적으로 설명한다.

도 8은 청취 패턴을 분석하는 일 예를 설명하기 위한 순서도이다.

도 8을 참조하면, 음성 인식 장치(100)는 안내 메시지를 출력한다(310).

일 예로, 수신부(110)는 사용자의 동작 개시 명령을 수신한다. 수신부(110)는 수신한 명령을 전기적 신호로 변환하고, 제어부(120)로 전달한다.

제어부(120)는 전달받은 신호를 기초로 음성 명령 데이터베이스(130)안에 저장된 시나리오에 따라 안내 메시지를 출력할 수 있다.

한편, 안내 메시지는 음성 인식 장치가 출력하는 다양한 프롬프트(Prompt)에 해당한다. 여기서 프롬프트는 일반적인 컴퓨터 장치가 사용자의 입력을 기다리고 있음을 가리키기 위한 인터페이스를 의미한다.

즉, 음성 인식 장치(100)는 사용자의 명령을 대기하고 있다는 신호를 안내 메시지와 함께 화면의 표시 형태를 변화하여 출력할 수 있다. 이와 관련된 구체적인 예시는 도 10을 통해서 설명한다.

안내 메시지를 출력하면서, 수신부(110)는 PTT(Push To Talk) 기능의 입력 명령을 수신할 수 있다(320).

여기서 PTT 기능이란, 특정 버튼을 누르고 있을 때만, 사용자나 상대방에게 소리를 전달하는 기능을 의미한다. 일 예로, 음성 인식 장치(100)는 앞서 언급한 프롬프트의 일 예로 안내 메시지를 출력하면서, 사용자의 음성 입력을 대기하고 있다는 확인을 받는 입력 버튼을 포함할 수 있다. 즉, 사용자는 안내 메시지가 출력되는 도중, 원하는 음성 명령을 입력하기 위해서 PTT 기능에 해당하는 버튼을 누르거나 터치를 입력할 수 있다.

만약 음성 인식 장치(100)가 PTT 기능 입력 명령을 수신하면, 안내 메시지가 출력이 정지되고, 안내 메시지 출력 후 PTT 기능의 입력 명령을 수신할 때까지의 청취 시간을 저장한다(350).

이렇게 저장된 청취 시간은 청취 패턴을 분석하는데 사용된다. 청취 시간은 음성 명령 데이터베이스(130)에 저장되거나, 통신을 통해 외부에 저장될 수도 있다.

만약 음성 인식 장치(100)가 PTT 기능에 해당하는 입력 명령을 수신하지 않거나, 이러한 기능을 출력하지 않는 경우, 음성 인식 장치(100)는 안내 메시지를 출력하는 도중 사용자의 새로운 음성 발화를 수신한다(330).

여기서 사용자의 발화는 사용자가 발성하는 새로운 음성 명령을 의미한다. 또한, 안내 메시지의 출력 중 사용자의 발화는 반복적으로 출력되는 안내 메시지를 숙지한 사용자가 안내 메시지가 출력 완료를 기다리지 않고, 도중에 끼어들어(Barge-in) 발화하는 음성이다.

이후, 개시된 일 예에 따른 음성 인식 장치(100)는 사용자의 발화가 오발화인지 여부를 결정한다(340).

안내 메시지를 재생하는 도중, 수신부(110)는 사용자의 음성 명령 이외에도 다양한 소리를 수신할 수 있다. 제어부(120)는 수신된 소리 중 사용자의 발화가 새로운 음성 명령인지 아니면 단순한 오발화인지 여부를 판단할 수 있다.

일 예로, 개시된 음성 인식 장치(100)는 안내 메시지의 출력 시간부터 미리 설정된 시간 안에 발화 입력이 수신되면, 오발화로 판단할 수 있다. 즉, 안내 메시지가 출력된 후 매우 짧은 시간 안에 입력되는 사용자의 음성은 새로운 음성 명령으로 판단하지 않는다.

한편, 오발화를 판단하는 방법이 반드시 앞서 언급한 일 예에 한정되는 것은 아니다. 다른 예로 음성 인식 장치(100)는 음성 데이터 베이스(130)에 저장된 키워드와 음성 명령을 비교하여 오발화인지 여부를 판단할 수도 있으며, 다양한 변형례가 있을 수 있다.

사용자의 음성이 오발화로 판단되지 않고, 새로운 음성 명령으로 인식되면, 음성 인식 장치(100)는 안내 메시지의 출력 시작 시간에서 음성 명령의 발화 시작 시간을 측정하고, 이를 청취 시간으로 저장한다(350).

저장된 청취 시간은 다음 번 사용자의 안내 메시지 청취 패턴을 분석하는 자료로 이용된다. 즉, 개시된 음성 인식 장치(100)는 사용자의 청취 시간을 저장하고, 평균적인 청취 시간을 산출한다.

이렇게 산출된 청취 패턴은 이후 안내 메시지의 출력을 조정하는데 사용된다. 안내 메시지를 조정하는 일 예는 이하 도 9를 참조하여 설명한다.

도 9는 청취 패턴의 분석 결과에 따라 안내 메시지를 조정하는 일 예를 설명하기 위한 순서도이다.

도 9를 참조하면, 개시된 음성 인식 장치(100)는 안내 메시지의 평균 청취 시간을 산출한다 (410).

도 8에서 전술한 바와 같이, 평균 청취 시간은 사용자가 안내 메시지 출력 도중, PTT 기능을 가지는 입력 명령을 지시하거나, 새로운 음성 명령을 발화하는 청취 시간을 의미한다.

음성 인식 장치(100)는 평균 청취 시간이 0.5초보다 긴 시간인지 여부를 판단한다(420). 여기서 0.5초는 미리 설정된 시간으로, 안내 메시지가 거의 출력되지 않고, 사용자가 새로운 음성 명령을 발화하거나 PTT 기능의 입력 명령을 지시하는 시간이면 충분하고, 다양하게 변경될 수 있다.

일 예로, 안내 메시지가 '네 명령어를 말씀하세요'인 경우, 0.5초는 '네'를 출력하기도 짧은 시간이다.

판단 결과, 사용자의 청취 시간이 0.5초 미만이면, 음성 인식 장치(100)는 간단한 비프(Beep)음을 출력할 수 있다(462).

여기서 비프 음은 간단한 출력 음(sound)으로 사용자에게 장치의 상태를 알리기 위한 소리를 의미한다. 일 예에 따른 음성 인식 장치(100)는 사용자의 평균적인 청취 시간이 매우 짧은 경우, 안내 메시지를 출력하는 대신 간단한 소리만을 출력할 수 있다.

만약 청취 시간이 0.5초 이상인 경우, 음성 인식 장치(100)는 시나리오에 저장된 안내 메시지를 대신해 짧은 길이의 안내 메시지를 평균 청취 시간과 비교한다(430).

여기서 짧은 길이의 안내 메시지(제 2 안내 메시지)는 시나리오에 의해서 출력된 안내 메시지(제 1 안내 메시지)의 예비적 프롬프트를 의미한다. 일 예로, 제 1 안내 메시지가 '네 명령어를 말씀하세요'라면, 제 2 안내 메시지는 '네 말씀하세요'일 수 있다. 즉, 제 2 안내 메시지는 짧아질 수 있는 청취 시간동안 출력되어 사용자가 인지할 수 있는 예비적인 안내 메시지를 포함한다.

이후, 음성 인식 장치(100)는 짧은 길이의 안내 메시지의 출력 시간과 평균 청취 시간을 비교한다(440).

만약 짧은 길이의 안내 메시지의 출력 시간이 평균 청취 시간 미만이면, 개시된 음성 인식 장치(100)는 이러한 예비적 안내 메시지를 출력한다(461).

이는 사용자의 청취 시간동안 안내 메시지가 출력될 수 있음을 의미하는 것이고, 나아가 사용자가 내용을 청취할 수 있는 시간을 확보할 수 있게 도와줌으로써, 사용자와의 인터랙션이 강화된다.

그러나 짧은 길이의 안내 메시지의 출력 시간이 평균 청취 시간 이상이면, 개시된 음성 인식 장치(100)는 예비적 안내 메시지의 속도를 조절한다(450).

짧은 길이의 안내 메시지의 출력 시간이 평균 청취 시간 이상이라는 것은, 사용자가 청취 시간동안 예비적인 안내 메시지가 충분히 전달되지 못하는 것을 의미한다. 일 예로, 개시된 음성 인식 장치(100)는 '네 말씀하세요'라고 출력되는 제 2 안내 메시지의 템포를 높여 안내되는 음성의 속도를 증가시킬 수 있다.

이후, 개시된 음성 인식 장치(100)는 조정된 제 2 안내 메시지를 출력한다(460).

한편, 안내 메시지의 출력을 조정하는 예가 반드시 출력 속도에 한정되는 것은 아니고, 사용자가 인지할 수 있는 다양한 조정을 포함한다. 예를 들어 개시된 음성 인식 장치(100)는 제 2 안내 메시지를 조정하면서, 비프(Beep)음을 함께 출력할 수도 있으며, 단계 460 내지 단계 462를 조합하여 다양하게 변경할 수도 있다.

도 10은 일 예에 따라 차량의 AVN 단말에 포함된 음성 인식 장치가 안내 메시지를 출력하는 서비스를 제공하는 방법을 도시한 도면이다.

일 예에 따라 음성 인식 장치(100)가 차량의 AVN 단말과 함께 마련되고, 도 10과 같이 음성 명령에 대응하는 음성 인식 서비스를 AVN 디스플레이(171)으로 제공할 수 있다. 도 10을 참조하면, 일 예에 따른 음성 인식 서비스는 '목적지 검색', '음악 찾기', '라디오', 'DMB', '전화 걸기', 및 'Blue link Assistant' 등과 같은 응용 서비스를 포함할 수 있다.

한편, 사용자는 음성 명령 또는 AVN 입력부(172)의 버튼을 통해 음성 인식 장치(100)가 동작을 실행하도록 명령할 수 있다. 전술한 명령을 수신한 음성 인식 장치(100)는 도 10과 같은 프롬프트 화면을 출력하면서 '네 명령어를 말씀하세요'라는 안내 메시지(171b)를 출력할 수 있다.

사용자는 안내 메시지(171b)의 유도에 따라 전술한 여러 응용 서비스를 음성을 통해서 선택하고, 음성 인식 장치(100)는 음성 명령을 수신한다(400).

음성 명령을 수신하고, 음성 인식 장치(100)는 음성 인식 엔진을 가동시켜 음성 명령에서 키워드를 추출할 수 있다(410). 만약 음성 인식 장치(100)가 '전화'라는 키워드를 추출하면, 음성 인식 장치(100)는 '전화걸기'응용 서비스를 실행한다.

한편, 사용자는 반복적인 AVN 단말(170)의 사용으로 인해 안내 메시지(171b)를 충분히 숙지할 수 있으므로, 안내 메시지(171b)의 출력 완료를 기다리지 않고 바로 음성 명령을 입력할 수 있다. 또는 안내 메시지(171b)가 출력되는 동안, 사용자는 PTT 기능을 가진 입력 버튼(171a)를 터치할 수 있다.

이 경우, 음성 인식 장치(100)는 안내 메시지의 출력을 중단한다.

개시된 음성 인식 장치(100)는 사용자의 안내 메시지의 청취 시간을 측정하고, 음성 명령 데이터베이스(130)에 청취 시간을 저장한다(420).

음성 인식 장치(100)는 미리 저장된 이전의 청취 시간과 현재 청취 시간에 기초하여 평균적인 안내 메시지의 청취 시간을 산출할 수 있다.

만약 사용자의 청취 시간이 안내 메시지(171b)의 출력시간보다 짧은 경우, 음성 인식 장치(100)는 안내 메시지의 출력 속도를 높여 청취 시간에 모든 안내 메시지가 출력될 수 있도록 조정할 수 있다.

다른 예로, 사용자의 청취 시간이 매우 짧은 경우, 음성 인식 장치(100)는 비프 음만을 출력하여 사용자에게 음성 명령을 수신할 준비가 완료되었음을 알릴 수 있다.

이를 통해서 개시된 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법은 안내 메시지를 수정하고 사용자에게 보다 적합한 길이의 안내 메시지를 제공함으로써, 사용자가 음성 인식을 편리하게 사용할 수 있게 하고, 사용자의 행동에 기초한 탄력적인 출력을 제공하여 인터랙션을 강화할 수 있다.

한편, 도 10에서 언급한 설명은 개시된 발명의 일 예에 불과하고, 다양한 변형례를 포함할 수 있다.

10: 대시보드, 11: 센터페시아
12: 스티어링 휠, 13: 헤드라이닝
21: 운전석, 22: 조수석
40: 센터 콘솔, 41: 기어조작 레버
42: 트레이, 143: 스피커
170: AVN 단말, 171: AVN 디스플레이
172: AVN 입력부, 180: 음성 입력부

Claims

음성 명령을 수신하는 수신부;
안내 메시지를 출력하는 제공부;
상기 음성 명령에 대응하여 상기 제공부를 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함하는 음성 인식 장치.
제 1항에 있어서,
상기 청취 패턴은 상기 안내 메시지의 평균적인 청취 시간을 포함하고,
상기 청취 시간은,
상기 안내 메시지가 출력 되는 시점으로부터 사용자의 입력에 의해서 상기 출력이 중단되는 시점까지의 시간을 포함하는 음성 인식 장치.
제 2항에 있어서,
상기 제어부는,
미리 설정된 시간과 상기 청취 시간을 비교하여 상기 안내 메시지의 출력을 조정하는 음성 인식 장치.
제 3항에 있어서,
상기 제어부는,
상기 청취 시간이 미리 설정된 시간 이상이면, 상기 안내 메시지보다 짧아진 안내 메시지를 출력하는 음성 인식 장치.
제 4항에 있어서,
상기 제어부는,
상기 짧아진 안내 메시지와 상기 청취 시간을 비교하여 상기 짧아진 안내 메시지의 출력 속도를 조정하는 음성 인식 장치.
제 3항에 있어서,
상기 제어부는,
상기 청취 패턴이 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 제공부를 제어하는 음성 인식 장치.
제 1항에 있어서,
상기 제어부는,
상기 안내 메시지가 출력되는 동안 사용자로부터 새로운 음성 명령을 수신하면, 상기 안내 메시지의 출력을 중단하는 음성 인식 장치.
제 2항에 있어서,
상기 청취 시간을 저장하는 음성 명령 데이터베이스;를 더 포함하고,
상기 제어부는,
상기 음성 명령 데이터베이스에 저장된 상기 청취 시간의 평균 시간에 기초하여 상기 안내 메시지의 출력을 조정하는 음성 인식 장치.
음성 명령을 수신하는 수신부;
안내 메시지를 포함하는 서비스를 출력하는 AVN(Audio Video Navigation) 단말;
상기 음성 명령에 대응하여 상기 AVN 단말을 제어하고, 상기 수신부가 전달하는 상기 안내 메시지의 청취 패턴을 분석하여 상기 청취 패턴에 기초한 상기 안내 메시지의 출력을 조정하는 제어부;를 포함하는 차량.
제 8항에 있어서,
상기 청취 패턴은 상기 안내 메시지의 평균적인 청취 시간을 포함하고,
상기 청취 시간은,
상기 안내 메시지가 출력 되는 시점으로부터 사용자의 입력에 의해서 상기 출력이 중단되는 시점까지의 시간을 포함하는 차량.
제 10항에 있어서,
상기 제어부는,
상기 청취 시간이 미리 설정된 시간 이상이면, 상기 안내 메시지보다 짧아진 안내 메시지를 출력하는 차량.
제 11항에 있어서,
상기 제어부는,
상기 짧아진 안내 메시지와 상기 청취 시간을 비교하여 상기 짧아진 안내 메시지의 출력 속도를 조정하는 차량.
제 10항에 있어서,
상기 제어부는,
상기 청취 패턴이 미리 설정된 시간 미만이면, 상기 안내 메시지를 출력하지 않고, 비프(Beep)음을 출력하도록 상기 AVN 단말을 제어하는 차량.
제 9항에 있어서,
상기 AVN 단말은,
사용자의 터치를 인식하는 디스플레이;를 더 포함하고,
상기 제어부는,
상기 안내 메시지가 출력되는 동안 상기 터치가 입력되면, 상기 안내 메시지의 출력을 중단하는 차량.
제 9항에 있어서,
상기 청취 시간을 저장하는 음성 명령 데이터베이스;를 더 포함하고,
상기 제어부는,
상기 음성 명령 데이터베이스에 저장된 상기 청취 시간의 평균 시간에 기초하여 상기 안내 메시지의 출력을 조정하는 차량.
사용자의 입력 및 음성 명령 중 적어도 하나를 수신하고;
상기 사용자의 입력 및 상기 음성 명령 중 적어도 하나에 대응하는 상기 안내 메시지를 출력하고;
상기 안내 메시지의 청취 패턴을 분석하고;
상기 청취 패턴에 기초하여 상기 안내 메시지의 출력을 조정하는 것;을 포함하는 음성 인식 장치의 제어방법.
제 16항에 있어서,
상기 출력하는 것은,
상기 안내 메시지가 출력된 후, 상기 사용자의 입력에 의해서 상기 안내 메시지의 출력을 중단하는 것;을 포함하는 음성 인식 장치의 제어방법.
제 16항에 있어서,
상기 출력하는 것은,
상기 안내 메시지가 출력되는 도중, 상기 음성 명령이 수신되면 상기 안내 메시지의 출력을 중단하는 것;을 포함하는 음성 인식 장치의 제어방법.
제 17항에 있어서,
상기 출력하는 것은,
상기 음성 명령의 입력 시간이 미리 설정된 시간 미만이면, 상기 안내 메시지를 계속 출력하는 것;을 포함하는 음성 인식 장치의 제어방법.
제 15항에 있어서,
상기 출력하는 것은,
상기 사용자의 입력 및 상기 음성 입력 중 적어도 하나가 다시 수신되면, 상기 조정된 안내 메시지를 출력하는 것;을 포함하는 음성 인식 장치의 제어방법.