KR20100076998A

KR20100076998A - 정보 입력 및 표시를 위한 운전자 보조 시스템의 멀티모달 사용자 인터페이스

Info

Publication number: KR20100076998A
Application number: KR1020107009294A
Authority: KR
Inventors: 크리스토프 벨러; 모리츠 너게바우어; 토마스 파비안; 울리케 베흘링; 건터 호르나; 마르쿠스 미샬
Original assignee: 폭스바겐 악티엔 게젤샤프트
Priority date: 2007-11-12
Filing date: 2008-11-12
Publication date: 2010-07-06
Also published as: WO2009062677A3; US20110022393A1; DE102008051756A1; KR101647848B1; WO2009062677A2; US9103691B2; DE102008051757A1; CN101855521B; EP2223046A2; EP2223046B1; CN101855521A

Abstract

본 발명은 적어도 하나의 조작 장치를 통해 음성 인식기에 공급되는 상이한 모덜리티의 입력 신호들을 검출하고, 그럼으로써 원하는 기능 및/또는 표시를 출력 신호로서 발생시켜 표시 및 조작 장치상에 표시하고/표시하거나 음성 출력에 의해 출력하는, 자동차에서 표시 및 조작 장치의 멀티모달 정보 입력 및/또는 표시의 적응을 위한 방법에 관한 것이다. 본 발명에 따른 방법에서는, 표시 및 조작 장치(20, 60) 상에서의 또는 표시 및 조작 장치(20, 60) 곁에서의 촉각에 의한 및/또는 제스처에 의한 입력 신호들(M1, M2)에 의해 상호 작용에 제공되는 대상을 선택하고 음성 인식기를 활성화하며, 대상의 선택 및 음성 인식기의 활성화에 따라 선택된 대상에 의존하여 상호 작용에 제공되는 어휘 범위를 한정하고, 그에 따라 선택된 대상에 속한 한정된 어휘 범위의 음성 명령(M3)을 음성 인식기를 통해 정보 입력으로서 및/또는 표시의 적응을 위해 선택된 대상에 부가하는 조치를 취한다.

Description

정보 입력 및 표시를 위한 운전자 보조 시스템의 멀티모달 사용자 인터페이스{MULTIMODE USER INTERFACE OF A DRIVER ASSISTANCE SYSTEM FOR INPUTTING AND PRESENTATION OF INFORMATION}

본 발명은 특히 자동차의 운전자 보조 시스템의 멀티모달(multimodal) 정보 입력 및 정보 표시의 적응(adaptation)을 위한 방법 및 그 방법을 수행하기 위해 제공되는 시스템 구조에 관한 것이다.

운전자 정보 시스템들 및 운전자 보조 시스템들의 기능 범위가 부단히 증가하고 있음을 고려할 때, 앞으로 인간-기계 인터페이스(man-machine-interface)(MMI)는 그 어느 때보다도 더 조작 과정의 지속 시간 및 복잡성(체감 복잡성)을 줄이는데 주력해야만 한다.

향후의 인간-기계 인터페이스들(MMI's)은 점증하고 있는 다수의 운전자 정보 기능들 및 운전자 보조 기능들을 사용자가 공감할 수 있고 조작할 수 있게 통합하는 동시에, 개개의 조작 과정들의 복잡성(체감 복잡성) 및 지속 시간을 줄일 수 있어야 한다.

그를 위해, 협동적 멀티모달 인터페이스(synergistic multimodal interface)들이 정보 입력의 최적화에 중요한 몫을 할 수 있다. 그러한 인터페이스들은 기본적으로 "Nigay , L and Coutaz , J. (1993). A design space for multimodal systems : concurrent processing and data fusion . In CHI '93: Proceedings of the SIGHI conference on Human factors in computing systems , pages 172-178, New York , NY , USA . ACM Press"에 이미 개시되어 있다.

현재, 차량에서는 이미 멀티모달 입력들이 가능하다 - 사용자는 기능의 조작을 위해 다수의 택일적 통신 모드들(예컨대, 음성 또는 손에 의한 입력) 가운데서 선택을 할 수 있다. 협동적 또는 교호적 멀티모덜리티(multimodality)는 효율과 편의성의 증대를 가능케 하는데, 왜냐하면 다수의 모드들을 통해 이뤄지는 입력들이 상호 연관되어 해석되기 때문이다. 그것은 "자연스러운" 소통(인간-기계 소통에 의존하는)에 기여한다.

정보 내용 및 컨트롤 패널들을 표시하는 영역에서는, 실제 사용 상황의 다양한 파라미터들(특히, 사용자의 조작 의사 및 조작 타깃)을 검출하여 그로부터 컨트롤 패널을 적응시키기 위한 상황에 적절한 조치들을 유도해내는 상황 적응형 사용자 인터페이스들이 큰 잠재성을 내재하고 있다.

그러한 시스템들은 사용자의 행동을 인지하고 사용자 관심을 모델화하여 사용자 요구 및 사용자 액션을 예측한다.

그에 대해, "차량"이란 기술 시스템과 그 특수한 사용 상황은 다른 많은 적용 분야들과는 달리 좋은 기술적 전제 조건을 제공한다. 다른 시스템들과 비교할 때에, 차량에서는 명확히 정의되는 소수의 소통 방안들이 존재하고, 그로 인해 시스템 측에서 조작 타깃을 예측하는 것이 더 잘 이뤄질 수 있다.

본 발명의 과제는 인간과 기계 사이의 소통 방안들과 관련하여 종래의 소통 모델들을 한층더 개선하고, 그를 위해 인간-기계 인터페이스의 신속하고도 직관적인 조작을 구현하는 소통 방안 제공 방법 및 그에 필요한 시스템을 제공하는 것이다.

이하의 설명은 멀티모달 입력 및 정보 표시의 적응을 위한 방법과 적응형 멀티모달 사용자 인터페이스를 위한 시스템 구조를 설명하고 있다. 그러한 방법 및 시스템은 향후의 자동차 시스템의 조작을 단순화시킬 것이다.

협동적 멀티모달 정보 입력 및 정보 표시의 자동적인 적응을 통해, 사용 상황들이 각각 용이하고도 포괄적으로 파악될 수 있다.

상호 작용 기술들의 전형적인 적용례들을 예시적으로 메뉴에 의거하여 설명하기로 한다. 그러한 적용례들에 속하는 것으로는 예컨대

- 이동, 줌(zoom), 스크롤, 온/오프와 같은 모니터의 조작 기능들의 지정이나 모니터상에서의 원하는 조작 기능의 지정 또는

- 가장 높은 상위 선택 메뉴 내에서의 메뉴 선택 기능들 또는

- 선택된 "음악 선곡 메뉴" 내에서의 음악 선곡 기능들 또는

- 선택된 "경로 설정 메뉴" 내에서의 경로 설정 기능들 또는

- 선택된 "통신 메뉴" 내에서의 통신 기능들(예컨대, 전화, 인터넷) 또는

- "POI(Point of Interest) 선택 메뉴" 내에서의 POI 선택 기능들 또는

- 경로 설정 기능들 및/또는

- 통신 기능들 및/또는

- 내비게이션 맵에 의해 제공되는 "내비게이션 맵 메뉴" 내에서의 POI 선택 기능들이 있다.

또한, 적응형 멀티모달 사용자 인터페이스를 위한 시스템 구조가 설명될 것이다. 그러한 시스템 구조는 오늘날 찾아볼 수 있는 일련의 입력 방안들을 능가하는 멀티모달 입력 방안들을 허용한다. 특히, 그 시스템 구조는 입력 신호들을 별개로 평가하는 시스템 모듈들을 포함한다.

본 발명은 멀티모달 정보들을 입력할 수 있되, 정보 입력에 따라 해당 정보 표시를 적응시키는 방법으로부터 출발한다. 자동차에 있어서, 그러한 방법은 특히 운전자 보조 시스템에 대해 그 가치를 지닌다. 지금까지는 대부분 상이한 모덜리티의 입력 신호들을 검출하여 검출 장치에 공급하였다. 표시 및 조작 요소, 예컨대 조작 요소들이 부속된 종래의 디스플레이 또는 터치 디스플레이가 상이한 모덜리티의 입력 신호들을 수집하는 입력 장치로서의 역할을 하는데, 그러한 표시 및 조작 요소는 대개 그밖에 필요로 하는 또 다른 조작 요소들을 추가로 구비한다. 그럼으로써, 조작 요소들의 조작 및/또는 터치 디스플레이/터치스크린의 접촉에 의해 일정한 정보 입력이 가능케 되거나 정보 표시의 적응이 이뤄질 수 있게 된다.

또한, 대개 제스처(gesture)에 의해 정해지는 조작 행동들이 입력 신호들로서 사용될 수 있는데, 그것은 입력 신호들의 그러한 무접촉 검출을 가능케 하는 용량형으로 배열된 센서 시스템을 배치함으로써 이뤄진다.

그러한 모덜리티, 즉 조작 요소들에서의 간단한 촉각에 의한(haptic) 조작 행동 및/또는 촉각에 의한 "터치 조작 행동" 및/또는 제스처에 의한 "제스처 조작 행동"은 음성 인식을 위한 음성 인식기와 조합된다.

본 발명은 자동차에서 표시 및 조작 장치의 멀티모달 정보 입력 및/또는 표시의 적응을 위한 방법으로서, 적어도 하나의 조작 장치를 통해 음성 인식기에 공급되는 상이한 모덜리티의 입력 신호들을 검출하고, 그럼으로써 원하는 기능 및/또는 표시를 출력 신호로서 발생시켜 표시 및 조작 장치상에 표시하고/표시하거나 음성 출력에 의해 출력하는 방법으로부터 출발한다.

본 발명은 표시 및 조작 장치상에서의 또는 표시 및 조작 장치 곁에서의 촉각에 의한 및/또는 제스처에 의한 입력 신호들이 상호 작용에 제공되는 대상의 선택 및 음성 인식기의 활성화를 일으키게 하고, 대상의 선택 및 음성 인식기의 활성화에 따라 선택된 대상에 의존하여 상호 작용에 제공되는 어휘 범위를 한정하며, 그에 따라 선택된 대상에 속한 한정된 어휘 범위의 음성 명령을 음성 인식기를 통해 정보 입력으로서 및/또는 표시의 적응을 위해 선택된 대상에 부가하는 것을 그 특징으로 한다.

본 발명에 따른 방법의 제1 실시 양태에서는, 예컨대 검출 모듈의 조작 요소들의 회전, 누름, 접촉, 및/또는 단속과 같은 표시 및 조작 요소에서의 사용자의 촉각에 의한 조작 행동의 형태의 제1 모덜리티를 입력 신호들을 검출하는데 사용하는 것이 바람직하다.

제2 실시 양태에서는, 사용자의 이동들의 형태의 제스처에 의한 조작 행동(손짓)을 인식하는 제2 모덜리티를 입력 신호들을 검출하는데 사용한다.

음성 인식, 즉 사용자의 음성을 제1 및/또는 제2 모덜리티와 조합하여 제3 모덜리티로서 본 발명에 따른 방법을 수행하는데 사용한다.

본 발명에 따르면, 입력 신호들을 검출하는데 사용되는 양 실시 양태들을 음성 인식기를 활성화하는데에도 사용한다.

본 발명에 따르면, 음성 대화 시스템의 음성 인식기를 예컨대 "길게 누름" 접촉 및/또는 "더블 클릭" 접촉 및/또는 "드래그 동작" 및/또는 "2 손가락 터치"와 같은 촉각에 의한 조작 행동에 의해 활성화하는 조치를 취한다.

또한, 본 발명에 따르면, 검출 모듈에서 "일반적" 제스처에 의한 조작 행동을 인식한 시점에 이미 음성 대화 시스템의 음성 인식기를 자동으로 활성화하는 조치를 취한다.

본 발명에 따른 그러한 방안들에 의해, 선행 기술로부터 음성 인식기를 활성화하는 것으로 공지된 종래의 "푸시-투-토크(push-to-talk)" 푸시버튼이 생략되게 된다.

또 다른 바람직한 구성에서는, 촉각에 의한 및/또는 제스처에 의한 음성 인식기의 활성화와는 무관하게 음성 인식기가 활성화 후 미리 주어질 수 있는 일정 시간 동안 활성 상태로 있게 하는데, 그러면 그 미리 주어진 시간 내에서만 사용자가 음성 명령을 부가할 수 있다.

부가되는 음성 명령은 싱글워드(single-word) 어휘 또는 멀티워드(multi-word) 어휘인 것이 바람직하다.

제스처에 의한 및/또는 촉각에 의한 입력 신호들과 음성 입력의 상호 작용의 제1 실시 형태에서는, 출력 모듈에서 출력 신호 및 그에 수반하는 표시 대상의 변경된 기능 및 표시를 생성하는 간단하고도 직관적인 멀티모달 조작을 발생시키기 위해 소위 "표시 대상/음성-상호 작용"으로 미리 주어진 어휘 범위로부터 싱글워드 어휘 또는 멀티워드 어휘의 형태의 음성 명령(전적으로 하나의 동사 및/또는 여러 동사들만을 사용하는)을 각각의 조작 행동에 의해 선택된 대상에 부가한다.

제스처에 의한 및/또는 촉각에 의한 입력 신호들과 음성 입력의 상호 작용의 제2 실시 형태에서는, 마찬가지로 표시 및 조작 요소에서 출력 신호 및 그에 수반하는 대상의 변경된 기능 및/또는 표시를 생성하는 간단하고도 직관적인 멀티모달 조작을 발생시키기 위해 소위 "표시 대상-상황/음성-상호 작용"으로 미리 주어진 "상황 특정" 어휘 범위로부터 싱글워드 어휘 또는 멀티워드 어휘의 형태의 "상황 관련" 음성 명령을 각각의 조작 행동에 의해 선택된 대상에 부가한다.

음성 대화 시스템의 음성 인식기를 그 활성화 후 사용자가 그 이내에 음성 명령을 부가할 수 있는 미리 주어질 수 있는 일정 시간 동안만 활성 상태로 있게 하되, 음성 인식기의 활성화 또는 비활성화를 그에 제공되는 표시 및 조작 요소 그 자체의 영역(상호 작용 대상으로부터 떨어진)에서 그래픽 표시("그래픽 피드백")를 통해 수행하는 조치를 취하는 것이 바람직하다.

양 실시 형태들에서의 바람직한 구성에서는, 음성 인식기에 의한 각각의 음성 명령의 인식 직후 미리 주어질 수 있는 일정 시간 동안 각각의 음성 명령 그 자체를 표시 및 조작 요소 상에서 글자의 형태로 보여주는 것이 바람직하다.

음성 인식기의 활성화를 표시 및 조작 요소의 그래픽 표시 및/또는 표시 및 조작 요소의 음향 신호를 통해 시그널링하는 것도 역시 양 실시 형태들에 있어 바람직한데, 음성 인식기의 활성화 후 음성 명령의 입력을 위한 미리 주어질 수 있는 잔여 시간을 표시하는 것이 더욱 바람직하다.

끝으로, 양 실시 형태들에 있어서, 상호 작용에 제공되는 정해진 표시 대상에 맞지 않는 음성 명령이 입력될 경우에 그래픽 메시지 및/또는 음향 메시지를 발생시켜 표시 및 조작 요소를 통해 또는 음성 대화 시스템의 음성 출력기를 통해 출력하는 조치를 취한다.

또한, 양 실시 형태들에 있어서, 음성 대화 시스템의 음성 인식기를 그 활성화 후 사용자가 그 이내에 음성 명령을 부가할 수 있는 미리 주어질 수 있는 일정 시간 동안만 활성 상태로 있게 하되, 음성 인식기의 활성화 또는 비활성화를 상호 작용 대상으로부터 떨어져 표시 및 조작 요소에서 그래픽 표시("그래픽 피드백")를 통해 수행하는 것이 아니라, 상호 작용에 제공되는 대상 그 자체에서 수행하는 조치를 취하는 것도 역시 바람직하다. 음성 인식기의 상태가 상이하게 표시될 수 있는 그러한 조치를 실시예에서 더욱 상세히 설명하기로 한다.

또한, 선행 연결된 정보 관리자(information manager)로부터 얻은 여러 모덜리티의 입력 신호들에 의존하여 표시 및 조작 요소에서의 출력의 타입 및 적절한 표시 방법을 결정하는 표시 관리자를 본 발명에 따른 방법을 지원하는 시스템 구조 내에 구성하는 것이 바람직하다.

본 발명의 또 다른 구성에서는, 표시 관리자에 전달된 입력 신호들에 의존하여 표시 방법을 적응시킨다.

그래픽 인터페이스를 적응시키는 것에 의해, 표시 내용을 적절히 선택하는 것에 의해, 및/또는 출력 매체 또는 출력 시점을 소통에 특정적으로 선택하는 것에 의해 표시를 변경한다.

또한, 본 발명에 따른 방법은 입력 모듈로서의 역할을 하는 표시 및 조작 요소를 통해 표시 및 조작 요소로부터의 조작 이동의 거리에 의존하여 특히 제스처에 의한 제2 모덜리티의 조작 의사를 입력하고 입력 신호를 검출하여 제스처에 의한 조작 행동에 의존해서 표시 및 조작 요소의 표시 모드와 하나 이상의 조작 모드 사이의 상황에 따른 교체를 구현하는 것을 그 특징으로 한다.

바람직한 구성에서는, 시스템 구조의 표시 및 조작 요소는 먼저 전반적으로 조작 이동이 있는지의 여부를 확인할 수 있다. 조작 이동이 전혀 없으면, 시스템의 정보 관리자가 그것을 인식하여 처리하는데, 그때에 표시 관리자는 정보 내용의 디스플레이 및 표시와 관련하여 출력 모듈을 "표시 모드" 쪽으로 최적화시킨다.

표시 및 조작 요소가 d ≥ 미리 주어질 수 있는 거리, 특히 d ≥ 5㎝의 범위의 조작 이동을 검출하면, 정보 관리자가 "일반적" 조작 의사를 인식하는데, 그때에 표시 관리자는 개선된 조작을 위해 표시 모듈을 전체의 표시 영역에서 "제1 조작 모드" 쪽으로 최적화시킨다.

표시 및 조작 요소가 d < 미리 주어질 수 있는 거리, 특히 d < 5㎝의 범위의 조작 이동을 인식하면, 정보 관리자가 "잠재적으로 가리켜진" 조작 타깃의 조작 의사를 표시 대상으로서 검출하는데, 그때에 표시 관리자는 "잠재적으로 가리켜진" 조작 타깃의 개선된 조작을 위해 출력 모듈을 가리켜진 표시 영역에서 "제2 조작 모드" 쪽으로 최적화시킨다.

본 발명의 바람직한 구성에서는, 조작 모드의 최적화를 미리 주어질 수 있는 표시 영역의 스케일 조정(scaling), 오버레이(overlay), 줌(zoom)을 통해 수행하고, 그럼으로써 조작성이 더 좋고 더 간단한 조작 인터페이스를 생성한다.

바람직한 구성에서는, 전술된 바와 같이 일반적 조작 의사의 인식 시점에 이미 음성 대화 시스템의 음성 인식기를 자동으로 시작한다.

바람직한 구성에서는, 순차적으로 또는 병렬적으로 실행된 여러 모덜리티의 입력 신호들을 입력 신호들의 상호 확인에 사용한다.

끝으로, 본 발명에 따른 방법은 시간상으로 중첩될 수도 있는 입력 신호들에 의존하여 조작 레벨들을 디스플레이 및 조작하고 다수의 조작 레벨들을 갖는 다양한 시스템들을 선택하는데 사용되는 해당 출력 신호들을 생성하는 것을 그 특징으로 한다. 각각의 시스템 내에서 수행될 수 있는 다양한 기능 내용들을 갖는 내비게이션 시스템 및 오락 시스템의 기능들을 애플리케이션들로서 간주할 수 있다.

즉, 본 발명에 따라 입력 신호들이 각각의 모덜리티에 할당된 사용자 인터페이스를 통해 표시 및 조작 요소와 음성 인식기에 의해 공급될 수 있도록 구성된 멀티모달 정보 입력 및 정보 표시의 적응을 위한 시스템 구조가 본 발명에 따른 방법에 부속한다.

본 발명에 따른 시스템은 여러 모덜리티의 입력 신호들이 협력적으로 정보 관리자에 의해 검출될 수 있고, 정보 관리자가 얻은 입력 신호들로부터 출발하여 표시 관리자가 제어 동작할 수 있으며, 입력 신호들에 의존하여 준비된 출력 신호들이 표시 및 조작 장치 및/또는 음성 인식기에 제공되는 것을 그 특징으로 한다.

표시 및 조작 요소는 모덜리티에 따라 조작 요소들이 부속된 종래의 디스플레이이거나, 일 구성에서 또 다른 조작 요소들이 추가로 부속될 수 있는 용량형 센서 시스템을 구비한 터치스크린이다.

입력 신호들의 평가를 위해, 입력 신호들을 표시 관리자에 전달하여 표시 관리자가 정보 관리자의 출력 신호들을 표시를 위해 준비하여 표시 및 조작 요소에 제공할 수 있게 하는 정보 관리자가 배치되는 것이 바람직하다.

본 발명의 또 다른 바람직한 구성들을 종속 청구항들에 기재된 나머지 특징들로부터 명확히 파악할 수 있을 것이다.

본 발명은 인간과 기계 사이의 소통 방안들과 관련하여 종래의 소통 모델들을 한층더 개선하기 위해 인간-기계 인터페이스의 신속하고도 직관적인 조작을 구현하는 소통 방안 제공 방법 및 그에 필요한 시스템을 제공한다.

이하, 본 발명을 첨부 도면들에 의거하여 실시예들로 설명하기로 한다. 첨부 도면들 중에서,
도 1A 내지 도 1C는 내비게이션 맵 메뉴 내에서 조작자 손이 접근할 경우에 표시를 적응시키는 것을 나타낸 도면들이고;
도 2A 내지 도 2C는 내비게이션 맵 메뉴 내에서 협력적 멀티모달 POI 검색을 조작하는 과정을 나타낸 도면들이며;
도 3A 내지 도 3C는 내비게이션 맵 메뉴 내에서 POI와의 협력적 멀티모달 상호 작용을 조작하는 과정을 나타낸 도면들이고;
도 4A 및 도 4B는 내비게이션 맵 메뉴 내에서 POI와의 협력적 멀티모달 상호 작용을 조작하는 과정을 나타낸 도면들이며;
도 5A 내지 도 5C는 내비게이션 맵 메뉴 내에서 POI와의 협력적 멀티모달 상호 작용 조작하는 과정을 나타낸 도면들이고;
도 6A 및 도 6B는 가장 높은 상위 선택 메뉴 내에서 협력적 멀티모달 메뉴 기능을 조작하는 과정을 나타낸 도면들이며;
도 7A 및 도 7B는 음악 선곡 메뉴 내에서 협력적 멀티모달 음악 선곡 기능을 조작하는 과정을 나타낸 도면들이고;
도 8A 및 도 8B는 경로 설정 메뉴 내에서 협력적 멀티모달 경로 설정 기능을 조작하는 과정을 나타낸 도면들이며;
도 9는 협력적 멀티모달 조작 기능을 조작하는 과정을 나타낸 도면이고;
도 10은 조작자 손이 터치스크린에 접근할 경우의 시스템 상태들을 나타낸 도면이며;
도 11은 플레이 리스트의 예에서 선택된 상호 작용 대상에 음성 인식기의 상태를 표시하기 위한 그래픽 대화를 나타낸 도면이고;
도 12는 미디어 플레이어의 예에서 선택된 상호 작용 대상에 음성 인식기의 상태를 표시하기 위한 그래픽 대화를 나타낸 도면이며;
도 13은 내비게이션 디스플레이 상에서 POI를 선택하는 예에서 선택된 상호 작용 대상에 음성 인식기의 상태를 표시하기 위한 그래픽 대화를 나타낸 도면이고;
도 14는 내비게이션 디스플레이 상의 개별 POI의 예에서 선택된 상호 작용 대상에 음성 인식기의 상태를 표시하기 위한 그래픽 대화를 나타낸 도면이다.

각각의 상호 작용을 위한 전제 조건은 상호 작용에 제공되는 대상을 결정하는 방식이다. 여기서, 대상이란 상호 작용을 수행하거나 상호 작용이 일어나는 개개의 대상은 물론 영역을 의미한다.

그러한 결정은 제1 실시 양태에서는 예컨대 조작 요소들의 회전, 누름, 접촉, 단속과 같은, 표시 및 조작 요소에서의 사용자의 촉각에 의한 조작 행동들의 형태의 제1 모덜리티(M1)를 사용하는 입력 신호들을 검출하는 것에 의해 이뤄진다.

상호 작용에 제공되는 대상의 결정은 제2 실시 양태에서는 사용자(10)의 이동들의 형태의 제스처에 의한 조작 행동들을 인식하여 평가하는 제2 모덜리티(M2)를 통한 입력 신호들을 검출하는 것에 의해 이뤄진다.

개선된 상호 작용을 위한 전제 조건은 상호 작용에 제공되는 대상의 결정과 연계된 음성 인식기의 활성화이다.

제1 실시 양태에서는 조작 장치상에서의 "길게 누름" 접촉 및/또는 "더블 클릭" 접촉 및/또는 "드래그 동작" 및/또는 "2 손가락 터치"와 같은 촉각에 의한 조작 행동(M1)이 음성 인식기를 활성화하는 역할을 한다.

제2 실시 양태에서는, 음성 대화 시스템의 음성 인식기를 "일반적" 제스처에 의한 조작 행동(M2)의 인식 시점에 이미 자동으로 활성화하는 조치를 취한다.

양 실시 양태들은 개별적으로 또는 조합되어 실시될 수 있다.

음성 인식기가 활성 상태에 있으면, 사용자(10)는 제3 모덜리티(M3)로 음성 명령을 말할 수 있다. 그와 관련하여, 본 발명에 따른 방법은 음성 인식기를 미리 주어질 수 있는 일정 시간 동안만 활성 상태로 하되, 그 시간을 표시 및 조작 장치(20, 60) 상에서 사용자(10)에게 나타내도록 구성될 수 있다.

모든 전제 조건이 충족되면, 상호 작용을 수행하는데, 그러한 상호 작용의 제1 실시 형태로서 "표시 대상/음성-상호 작용"을 도면들 없이, 그러나 나중에 설명될 제2 실시 형태와의 관련성을 명료히 하기 위해 제2 실시 형태의 도면 부호들을 붙여 설명하기로 한다.

이어서, 첨부 도면들에 의거하여 제2 실시 형태, 즉 "표시 대상-상황/음성-상호 작용"에 의해 본 발명을 설명하기로 한다.

제1 실시 형태 - "표시 대상/음성-상호 작용":

본 발명에 따른 방법은 실시 형태들 중의 하나인 "표시 대상/음성-상호 작용"에서 촉각에 의한 및/또는 제스처에 의한 조작 행동(M1, M2)과 음성 명령(M3)을 사용하여 다음과 같이 수행된다.

먼저, 조작 행동들(M1, M2)에 의해 대상을 선택하는데, 그와 동시에 2가지 조작 행동들 중의 적어도 하나에 의해 자동으로 음성 인식기를 시작한다.

음성 인식기는 "표시 대상/음성-상호 작용"에서는 전적으로 음성 인식기에 저장되어 있는 한정된 동사 어휘 범위 중의 하나 이상의 동사들만을 인식하도록 설계된다. 동사들은 말하기 쉽기 때문에, 조작 행동(M1 및/또는 M2)에 의해 선택된 대상과 적어도 하나의 동사를 포함하는 음성 명령(M3)의 직관적인 조합이 주어지게 된다. 그러한 조치는 인간의 행동과 말, 특히 매우 직관적인 일종의 어린이 말투의 기본적인 기능 방식 및 행동 방식과 상응하는 것이다.

그러한 상호 작용을 명료히 하기 위해, 이하에서는 표시 및 조작 장치, 예컨대 터치 디스플레이 또는 터치스크린에서의 대상 결정을 위한 적어도 하나의 촉각에 의한 조작 행동(M1)에 의해 개시되는 상호 작용에 대한 몇 가지 예들을 들기로 한다. 전술된 바와 같이, 대상의 결정은 제스처에 의한 조작 행동(M2) 또는 조작 행동들(M1, M2)의 조합에 의해서도 개시될 수 있다.

사용자(10)가 터치스크린(20)의 맵 상에서 하나의 장소 또는 POI 아이콘을 터치하는 동시에, "운전", "저장", "전화", 또는 "통과"라고 말한다.

사용자(10)가 터치스크린(20) 상에서 예컨대 커버 플우로(cover flow)를 통해 자신의 음악을 살펴본다. 사용자(10)가 앨범 커버를 터치하면서 "연주", "삭제", "복사", 또는 "기억"이라고 말한다.

사용자(10)가 미국의 HD 라디오를 청취한다. 사용자(10)가 터치스크린(20) 상에서 디스플레이 상의 실제 노래의 타이틀 표시를 터치하면서 "구매"라고 말한다. 그러면, 본국에서 아이튠즈(iTunes)가 표기된 노래를 판매할 상품으로 내놓는다.

사용자(10)가 터치스크린(20) 상에서 사진의 형태의 자신의 연락처들을 보고, 그 중의 하나를 터치하면서 "전화", "메일", 또는 "운전"이라고 말한다.

사용자(10)가 터치스크린(20, 60)의 디스플레이 상에서 자신의 차량의 그래픽을 보고, 트렁크 또는 창문을 터치하면서 "클로즈"라고 말한다.

제2 실시 형태 - "표시 대상-상황/음성-상호 작용":

본 발명을 도 1A 내지 도 9b에 의거하여 소위 "표시 대상-상황/음성-상호 작용"이라 하는 제2 실시 형태에서 설명하기로 한다.

본 실시 형태에서도 역시, 운전자 또는 동승자인 사용자가 여러 모덜리티(M1, M2, M3)의 입력 신호들(M)을 표시 및 조작 요소(20) 및/또는 음성 인식기에 공급할 수 있다.

먼저, 제1 실시 형태와 관련하여 이미 전술된 바와 같이, 조작 행동(M1 및/또는 M2)에 의해 대상을 결정하고, 그와 동시에 대상의 결정과 동시에 자동으로 음성 인식기를 활성화한다. 예컨대, 음성 인식기의 활성화를 위해, 회전/누름과 같은 조작 행동들을 실시할 수 있거나, 제1 실시 양태에서 음성 인식기의 활성화를 위한 제1 실시 형태와 관련하여 이미 전술된 바와 같이 "길게 누름" 접촉 및/또는 "더블 클릭" 접촉 및/또는 "드래그 동작" 및/또는 "2 손가락 터치"와 같은 촉각에 의한 조작 행동(M1)을 수행하거나, 제2 실시 양태에서는 검출 모듈에서 "일반적" 촉각에 의한 조작 행동(M2)을 인식한 시점에 이미 음성 대화 시스템의 음성 인식기를 자동으로 활성화하는 조치를 취한다.

"표시 대상-상황/음성-상호 작용"이라고 하는 제2 실시 형태에서, 상호 작용에 제공되는 음성 명령(M3)은 결정된 각각의 표시 대상의 특정의 유의적 액션들에 대한 한정된 상황 특정적 어휘 범위로부터의 싱글워드 어휘 또는 멀티워드 어휘이다. 여기서도 역시, 그러한 상황 관련 싱글워드 어휘 또는 멀티워드 어휘는 동사 및/또는 명사일 수 있다. 하지만, 어휘 범위는 각각의 상황에 맞춰지거나 그에 한정된다. 그럼으로써, 사용자와 시스템 구조 사이의 신속하고도 간단한 상호 작용이 일어나고, 그에 의해 해당 시스템 구조에서 메모리 용량이 절감되게 된다.

본 발명에 따른 방법을 가능케 하는 본 발명에 따른 시스템 구조를 참조하여 계속해서 설명하기로 한다.

각각의 모덜리티(M1, M2, M3)에 해당 사용자 인터페이스, 예컨대 경우별로 제1 모덜리티(M1)용 조작 요소들; 제스처에 의한 조작 행동을 검출하기 위한 제2 모덜리티(M2)용 센서 시스템, 특히 용량형 센서 시스템; 음성 인식의 제3 모덜리티(M3)용 음성 인식기가 배치된 터치스크린(20)이 할당된다.

또한, 모덜리티(M1, M2, M3)의 입력 신호들 또는 신호 부분들을 협력적으로 평가하는 정보 관리자가 배치된다.

정보 관리자의 출력 신호들은 표시 관리자에 공급되는데, 표시 관리자는 표시 및 정보의 출력을 위한 사용자 인터페이스들을 표시 및 조작 요소 또는 음성 인식기의 음성 출력기를 통해 나타내고, 사용자 인터페이스들 상에는 그래픽 애니메이션 또는 음향의 형태의 출력 신호들이 운전자 또는 동승자(10)에 공급된다.

그와 관련하여, 표시 관리자는 정보 관리자로부터 전달된 신호들에 의존하여 출력의 타입 및 적절한 표시 방법의 선택을 결정한다.

음성 인식기의 사용자 인터페이스에 의한 음성 인식, 사용자 인터페이스(용량형 센서 시스템)에 의한 제스처 인식, 및 표시 및 조작 장치로서의 터치스크린 인터페이스(20, 60)의 사용자 인터페이스에서의 제스처에 의한 조작 행동의 인식을 다함께 고려하여 예컨대 "내비게이션 시스템"의 적응형 멀티모달 사용자 인터페이스들을 구현하는 것에 관해 설명하기로 한다.

제스처 인식(M2)에서의 손 이동 및 손 위치의 검출은 예컨대 터치스크린(20)의 코너들에 장착된 용량형 접근 센서들에 의해 이뤄진다.

도 10에 도시된 바와 같이, 터치스크린(20)으로서 구성된 시스템의 내비게이션 디스플레이에의 일정 접근은 약 10㎝의 거리로부터 일반적 조작 행동으로 받아들여진다.

그러면, 표시 관리자는 제공된 키 버튼(예컨대, POI 아이콘)의 개선된 조작성을 위해 정보 관리자로부터 얻은 입력 신호들을 부가 조작 옵션들의 스케일 조정 및 오버레이를 통해 터치스크린(20) 상에서의 정보 디스플레이에 맞춰 적응시킨다.

도 10의 표는 입력 신호들의 존재와 관련된 조작자 손의 프레즌스(presence)를 구분하여 그 각각의 프레즌스에 일정한 조작 의사를 할당하고 있는데, 아울러 표시 관리자는 조작자 손의 프레즌스에 따라 미리 주어질 수 있는 모드로 모드를 교체한다.

조작자 손이 검출되지 않으면, 사용자(10)의 조작 의사가 없음이 파악되고, 표시 모듈은 정보 관리자에 있는 모든 데이터로부터 출발하여 정보 내용의 표시, 소위 표시 모드를 위한 디스플레이를 최적화시킨다.

약 5㎝의 거리로부터, 즉 d ≥ 5㎝의 범위에서 이미 "일반적" 조작 의사로서 인식되는 프레즌스가 내비게이션 디스플레이의 영역에서 검출될 수 있다.

그에 따라, 정보 관리자를 통해 가능한 손에 의한 조작을 위한 모든 표시들, 소위 제1 조작 모드의 최적화가 표시 관리자에서 이뤄진다.

약 < 5㎝의 거리로부터 사용자(10)의 집게 손가락이 가리키는 터치스크린(20, 60) 상의 각각의 키 버튼으로부터 구체적으로 작동하려는 조작 타깃이 주어진다. 조작자 손의 프레즌스 및 위치가 검출되고, 실제 조작 타깃의 잠재적 위치가 표시 대상으로서 규정된다. 표시 관리자는 정보 관리자를 통해 손에 의한 "손가락" 조작, 소위 제2 조작 모드를 위해 가리켜진 영역의 최적화를 수행한다.

손가락으로 가리켜진 최적화된 키 버튼은 추가로 스케일 조정되고, 그에 따라 터치 스크린(20) 상에 나타내진 "키"의 작동을 위한 타깃 과정이 더욱 간단해진다.

차량에서의 터치스크린(20)을 기반으로 한 실제 사용자 인터페이스들의 경우, 키 버튼의 크기는 한정된 디스플레이 크기에서 정보들을 병렬적으로 표시하기 위한 장소를 제공하기 위해 대부분 인체 공학적으로 용인되는 최소의 크기로 축소된다.

표시 모드와 제1 또는 제2 조작 모드 사이의 상황에 따른 교체를 통해, 조작 의사를 전제로 차량에서의 터치스크린(20)의 제한된 표시 면적이 정보 내용을 일목요연한 디스플레이로 표시하는데 사용될 수 있을 뿐만 아니라, 특정의 조작 인터페이스를 디스플레이하는데에도 사용될 수 있다.

그러한 방법은 예시적으로 터치스크린(20, 60) 상의 내비게이션 맵에서의 손에 의한 POI 아이콘과의 상호 작용의 예에서 구현되는데, 그것을 우선 도 1A 내지 도 1C에 의거하여 설명하기로 한다.

도 1A는 조작자 손이 아직 검출되지 않아 정보 표시가 전체의 터치스크린(20, 60)에 걸친 표시 모드로 최적화되어 있는 내비게이션 시스템의 터치스크린(20, 60)을 나타낸 것이다.

도 1B에 따라 조작자 손의 일반적 접근("일반적" 조작 의사)이 있을 때에 이미 POI 아이콘의 크기가 스케일 조정된다. 그 경우, 도로명, 구간 정보, 및 다른 상세가 부분적으로 덮여지는데, 그것은 조작 행동의 시간 동안에는 그들과 관련된 것이 없기 때문이다. 즉, 제1 조작 모드에서의 손에 의한 다음 조작을 위한 최적화가 이미 이뤄지게 된다.

도 1C에 따라 맵 보기를 조작하는 조작 옵션에 대한 지시자(indicator)(즉, 상호 작용에 선택된 대상)를 가리켰을 때에 사용자가 키 버튼을 작동할 필요가 없이 그 지시자가 해당지점에 오버레이된다.

도 1C에서 수행되는 그러한 제스처에 의한 조작 행동(M2)은 가리켜진 영역이 손에 의한 조작을 위해 최적화되는 제2 조작 모드를 불러낸다.

촉각에 의한 입력 및/또는 제스처에 의한 가리킴 이동도 역시 대상들, 기하학적 크기들, 및 위치들을 특정하고 스케일(예컨대, 볼륨 제어를 위한)을 설정하는데 적합하다.

이름들, 용어들, 및 명령들을 입력하는데에는 음성이 대부분 더 적합하다.

소위 협력적 멀티모덜리티(조작 행동들 및 음성 입력들)는 병렬적 정보 입력을 통한 짧은 조작 시간 이외에도 조작 오류의 감소를 가능케 하는데, 그것은 조작 모덜리티를 통한 입력들이 병렬적으로 사용되는 각각의 조작 모덜리티의 입력들을 확인하는데 각각 기여할 수 있기 때문이다.

또한, 예컨대 촉각에 의한 및/또는 제스처에 의한 내비게이션 맵과의 해당 상호 작용 시에 음성 인식기가 자동으로(푸시-투-토크 버튼에 의해 활성화하는 대신) 활성화되게 함으로써, 조작 요소들 및 조작 단계들을 줄일 수 있다.

예컨대, 맵과의 상호 작용 시에 출현하는 것과 같은 공간 기하학적 지정들을 고려한 명령들은 그러한 협력적 시스템들의 사용을 위한 가장 흔한 항목 타입이다.

도 2A 내지 도 2C에 의거하여 예컨대 "호텔" 또는 "레스토랑"과 같은 특정의 테마 카테고리에서의 POI들에 따른 위치 관련 멀티모달 검색의 하나의 예시적 구현을 설명하기로 한다.

그 경우, 사용자는 음성(M3)에 의해 검색 POI 카테고리를 특정하고, 그와 동시에 터치스크린(20, 60) 상에서 손에 의한 가리킴 제스처(M2)(예컨대, 자유롭게 동그라미를 그려 검색 지역을 표시하는 제스처)에 의해 특정의 검색 지역을 규정한다.

도 2A는 음성 명령(M3) 전의 터치스크린을 나타낸 것이다.

도 2A 내지 도 2C에 따르면, 시스템이 가리킴 제스처 및/또는 촉각에 의한 조작 행동(M1, M2)의 시작을 인식한 즉시로 음성 인식기가 자동으로 활성화된다. 인식된 상황 관련 검색어, 예컨대 "호텔"이 디스플레이(20) 상에 오버레이되고, 가리킴 제스처 및/또는 촉각에 의한 조작 행동(M1, M2)의 종료 시에(도 5B를 참조) r검색된 POI들, 여기서는 검색 지역의 호텔들이 지정된 검색 지역 내에서 맵 상에 표시된다(도 2C).

내비게이션 맵의 정해진 적용 상황으로부터 음성 인식(M3)을 활성화함으로써, 각각의 적용 상황에서 의미 있는, 해당 상황들로 한정된 상황 관련 인식 어휘 범위만을 기반으로 하면 되고, 그에 의해 에러율이 낮게 유지된다.

내비게이션 상황에서의 협력적 멀티모달 입력들에 대한 또 다른 적용례가 도 3A 내지 도 3C에 도시되어 있다. 도 3A로부터 출발하는 POI와의 직접적 상호 작용은 다음과 같이 이뤄진다. 음성에 의해(도 2A 내지 도 2C와 관련하여 전술된 방안에서와 같이) 원하는 POI를 특정하거나(동일한 카테고리의 POI들이 다수일 경우에 문제가 있음) 원하는 액션(예컨대, "전화")을 촉각에 의한 조작 행동(M3)에 의해 순전히 손으로 메뉴를 통해 선택하는 대신에, 사용자는 가리킴 제스처(M2)(도 3B)를 통해 POI를 선택하고 그와 병렬적으로 음성에 의해 원하는 액션(m3)을 입력할 수 있다.

본 경우에도 역시, 음서 인식(M3)에 있어서는 POI 액션의 제어를 위한 용어들의 한정된 상황 관련 어휘 범위만을 기반으로 하면 되고, 그에 따라 본 예에서도 마찬가지로 오인식의 확률이 낮게 유지되게 된다. 입력들(M1, M2, M3)의 시간적 및 의미적 동시성의 평가를 통해, 시스템은 전술된 바와 같이 경우에 따라 모덜리티(M1, M2, M3)에 있어 중첩되는 입력 신호들을 평가함으로써 POI 메뉴의 각각의 표시를 결정한다.

음성 명령(M3)을 인식한 경우에는 "전화"라는 액션이 직접 실시되고 POI 메뉴(도 3C를 참조)가 호출되지 않는다. 상황 관련 음성 상호 작용은 개별적인 동사들의 사용을 배제한다.

음성 명령을 인식하지 못하거나 음성 명령이 수행되지 않은 경우에만 POI 메뉴(도 3C를 참조)가 호출된다. 그러면, 사용자(10)는 음성 명령(M3)에 의해 또는 조작 행동(M1 및/또는 M2 및/또는 M3)에 의해 터치스크린(20, 60)을 거쳐 도 3C에 따른 도시된 메뉴 상에서 다시 원하는 옵션을 지정할 수 있다.

도 1A 내지 도 3C에 의거하면, 그러한 입력들의 인식이 HMI들을 조작 상황에 적응시키기 위한 큰 잠재력 및 그에 따른 편리성과 신뢰성에 대한 큰 잠재력을 내포하고 있는 것임을 이미 보여주고 있다.

도 4A 내지 도 9B에 의거하여, 본 발명에 따른 방법 및 시스템 구조를 사용하여 실시될 수 있는 또 다른 적용 방안들을 설명하기로 한다. 도 4A 내지 도 9B도 역시 음성 명령(M3)과 촉각에 의한 및/또는 제스처에 의한 조작 행동들(M1, M2)의 멀티모달 입력을 위한 방법을 설명하고 있다.

본 경우에도 역시, 시스템 구조 및 그에 속한 방법 중의 적어도 하나가 인식 가능한 입력 신호들(M1, M2, M3)을 공동으로 처리하는데 사용된다는 것으로부터 출발한다.

도 4A는 도 3에 관해 이미 설명된 바와 같이 손에 의한 조작을 위한 표시들이 이미 최적화되어 있는 제1 조작 모드를 이미 도시하고 있다. 디스플레이(20, 60)에의 제스처에 의한 접근(M2)에 의해 또는 디스플레이(20, 60) 상에서의 촉각에 의한 터치 입력(M1)에 의해 대상의 결정 및 특정이 이미 이뤄져 있다. 여기서, 조작 행동(M1, M2), POI 대상의 영역에서 제스처에 의한 조작자 손의 프레즌스, 및/또는 조작자 손가락의 촉각에 의한 선택을 인식하는 중에 음성 인식기가 이미 시작되고 있을 수 있다.

예컨대, POI 대상을 "길게 누르는" 누름(M1)이 있을 경우에 음성 인식기가 시작된다.

제스처에 의한 및/또는 촉각에 의한 음성 인식기의 활성화라는 양자의 양태들은 개별적으로 또는 서로 조합되어 가능하다. 그러면, 선택된 POI에 대한 상황에서 음성 인식기에 의해 음성 명령, 예컨대 "내비게이션" 또는 "인포(Info)" 또는 "우회"라고 말하는 음성 명령이 가능하다.

도 4B는 터치스크린(20, 60)의 영역에서 제스처에 의한 조작자 손의 프레즌스(M2)에 의해 위치 특정 POI 검색을 하는 방안을 다시 도시하고 있다.

경우에 따라서는, 도 3에 관한 설명에 따라 표시들이 이전에 최적화되어 있고, 동그라미를 그리는 손가락 이동이 모덜리티 M2의 조작 행동으로서 수행된다.

그와 동시에, 음성 인식기가 또 다른 사용자 인터페이스로서 시작되거나 POI 버튼이 나타나는데, 예컨대 "레스토랑" 또는 "호텔"과 같은 음성 명령(M3)을 말함으로써 POI 검색이 음성 입력에 의해 속행된다.

이하, 도 5A 내지 도 5C에 의거하여 멀티모달 POI 조작의 원리를 예시하는 또 다른 예를 설명하기로 한다.

도 5A에 따르면, 사용자(10)는 자신의 손가락으로 POI를 가리키는데, 그때에 출력 모듈로서의 역할을 하는 표시 및 조작 요소(60)가 제1 조작 모드 또는 제2 조작 모드로 교체된다. 그와 병렬적으로, 사용자(10)가 음성 명령(M3)을 말한다. 즉, 그러한 입력 명령 또는 입력 신호는 가리킴 제스처(M2)와 입력 신호로서 발음된 정보(M3)로 구성된다.

음성 인식기는 음성 명령 또는 음성 명령들(M3)을 인식하고, 터치스크린(20, 60)의 용량형 센서 시스템을 통해 제스처에 의한 조작 행동들(M2)이 병렬적으로 인식된다.

사용자(10)는 예컨대 제1 단계로 다시 병렬적 상황 관련 음성 명령(M3), 예컨대 "정보!"라는 음성 명령과 함께 원하는 POPI 아이콘에 대한 M1과 M2의 또는 M2만(터치스크린 터치 없이 제스처에만 의한)의 조작 행동을 수행하고, 그에 따라 시스템을 사용한 멀티모달 입력 명령(M1, M2, M3 또는 M2, M3 또는 M1, M3)에 의해 "현대 예술 미술관"에 관한 정보로서 음향이 자동으로 제공되거나 그래픽 애니메이션이 표시 및 조작 장치(60) 상에 자동으로 제공된다.

이어서, 사용자(10)는 예컨대 전화를 연결하고 싶을 수 있다. 사용자(10)는 예컨대 다시 원하는 POI 아이콘에 대한 M1과 M2의 또는 M2만(예컨대, 터치스크린 터치 없이 제스처에만 의한 구동)의 조작 행동을 수행하고, 병렬적 음성 명령(M3), 예컨대 "전화!"라는 음성 명령을 각각 말한다. 그러한 입력 명령은 한정된 상황 관련 어휘 범위를 기반으로 시스템에 제공된 음성 인식기에 의해 확인되고, 시스템은 "현대 예술 미술관"에 자동으로 전화를 연결한다.

예컨대, POI 아이콘 상에서의 또는 POI 아이콘에 대한 M1과 M2의 또는 M2만(터치스크린 터치 없이 제스처에만 의한 구동)의 조작 행동(M1, M2) 및 병렬적 음성 명령(M3), 예컨대 "목적지 안내"라는 음성 명령을 말하는 것에 의해 입력 명령(M)의 평가 후에 "현대 예술 미술관"으로의 목적지 안내를 차량의 내비게이션 시스템을 통해 시작하고 표시 및 조작 요소(60)의 표시를 통해 그래픽으로 나타내는 방안도 있다.

도 5B는 내비게이션 디스플레이 상에서 "동그라미를 그리는 제스처" 조작 행동(M2)을 나타낸 것으로, 역시 예컨대 "레스토랑!"이라는 병렬적 음성 명령이 함께 수행된다. 그럼으로써, 표시 및 조작 장치(60) 상에서 그 동그라미로 그린 지역 내의 모든 레스토랑들이 내비게이션 시스템의 디스플레이에 표시된다.

도 5C에서, 사용자(10)는 예컨대 가리킴 제스처(M2)와 그에 병렬된 예컨대 "줌!"이라는 음성 명령(M3) 또는 가리킴 제스처(M2)와 예컨대 "브라우즈(browse)!"라는 음성 명령(M3) 또는 가리킴 제스처(M2)와 예컨대 "맵 이동!"이라는 음성 명령(M3)을 수행한다. 그러면, 내비게이션 시스템의 표시 및 조작 장치(20, 60) 상에서 내비게이션 맵의 해당 "줌", "스크롤", 또는 "브라우징"이 이뤄진다.

전술된 모든 예들과 이후의 예들에 있어 모두 적용되는 사항은 입력 신호(M3)로서의 상황 관련 음성 명령이 입력 명령(M1 및/또는 M2)와 병렬적으로 반드시 수행되어야 하는 것은 아니라는 점이다. 음성 명령(M3)을 다른 입력 명령(M1 및/또는 M2)의 직전 및 직후에 수행하는 것도 고려될 수 있다. 본 발명에 따른 시스템 및 방법은 가장 자연스러운 사용자(10)의 행동 방식에 해당하는 조화로운 멀티모달 입력을 구현하려고 하고 있다.

멀티모달 조작성의 또 다른 예들이 도 6A 및 도 6B에 도시되어 있는데, 이하에서는 그에 관해 설명하기로 한다.

도 6A 및 도 6B에 따르면, 먼저 제1 또는 제2 조작 모드(이에 관한 설명은 도 10을 참조)에서 입력 모듈(20)의 표시상에서의 누름 및/또는 가리킴(M1, M2)에 의해 음성 명령(M3)의 일정 상황이 각 도면별로 주어지는 것이 도시되어 있다.

시스템 구조는 적용 특정적 어휘 범위를 사전에 분류하여 음성 인식기의 사용자 인터페이스의 시작을 통해 예컨대 "정지" 또는 "계속" 또는 "라디오 FFM"과 같은 일정 음성 명령들을 한정된 적용 특정 또는 상황 특정 관계로 제공한다.

음성 인식기의 시작은 조작 행동(M2)의 프레즌스가 충분할 경우에 및/또는 "누름 지속" 조작 행동(M1) 시에 이뤄지는데, 특히 말할 수 있는 명령들(M3)이 표시 및 조작 장치(20, 60) 상에 미리 주어진다. 그러한 방안에 의해, 예컨대 스티어링 휠에 있는 "푸시-투-토크 버튼"을 붙들고 있을 필요가 더 이상 없게 된다.

그러한 방안은 도 6B를 통해서도 추가로 도시되어 있다. 도 6B는 표시의 일목요연한 애플리케이션이 검출 모듈(20) 상에서 수행되고, 해당 접근(M2) 시에 또는 "누름 지속"의 누름(M1) 시에 음성 인식기가 시작되며, 예컨대 일람표 디스플레이로부터 출발하여 예컨대 "맵" 또는 "내비게이션" 또는 "콤비 계기로(콤비)"와 같은 상황 관련 음성 명령(M3)의 표시가 이뤄지는 것을 나타내고 있다. 그러한 방안에 의해, 여러 모덜리티(M1, M2, M3)가 시스템에 의해 변환될 수 있는 명확한 실행 가능 명령을 가져오게 된다.

도 7A 및 도 7B가 도시하고 있는 바와 같이, 특수한 적용례들에서도 음성 입력(M3) 또는 터치/제스처 명령(M1, M2)을 통해 멀티모달 입력이 가능하다. 여기서는, 예컨대 도시된 아이팟(iPod)(도 7A)에 의거하여 또는 다른 속성의 음악 타이틀 선곡 디스플레이(도 7B)에 의거하여 음악 선곡에 관해 설명하기로 한다.

제1 또는 제2 조작 모드에서 터치 인터페이스(20) 위에서 접근하는 조작 행동(M2)에 의해 예컨대 "오토모티브 클릭 휠(automotive click wheel)"이 자동으로 디스플레이되어 시작되고, 아울러 음성 인식 소자가 자동으로 또는 직접적인 "터치 명령"(M1)에 의해 활성화되며, 그에 따라 또 다른 "터치 명령"(M1) 또는 접근 명령(M2) 또는 그 조합 및/또는 새로운 음성 입력(M3)에 의해 각각의 음악 타이틀, 예컨대 "어 킹 업 매직(A King of Magic)"이란 음악 타이틀 대신 "어 프렌드 업 마인(A Friend of Mine)"이란 음악 타이틀이 선택될 수 있다.

그 경우에도 역시, "푸시-투-토크" 버튼을 별도로 누를 필요가 없는데, 그것은 조작 행동(M2)의 접근에 의해 이미 음성 인식기가 시작되거나 터치 스크린(20) 상에서의 누름(M1)(도 7A, "토크"의 누름)에 의해 이미 활성화되기 때문이다. 푸시-투-토크 버튼을 붙들고 있는 것이 생략된다. 즉, 본 발명에 따른 시스템은 "푸시-투-토크"로부터 "포인트-투-토크(point-to-talk)" 또는 "터치-투-토크(touch-to-talk)"로의 개혁을 이루고 있다.

아울러, 언급할 사항은 경우에 따라 디스플레이된 아이팟의 세그먼트(도 7A) 또는 열려 있는 조작 필드(도 7B)에 의거하여 역시 터치스크린(20), 즉 터치 조작 행동(M1)에 의해 및/또는 제스처에 의한 접근 조작 행동(M2)에 의해 및/또는 음성조작 행동(M3)에 의해 개개의 선택들의 정정도 역시 실행 가능하다는 것이다.

방금 설명된 아이팟 등에서의 음악 선곡의 경우에 취해지는 조치와 유사하게, 도 8A 및 도 8B에는 멀티모달 목적지 입력이 내비게이션 위젯에 의거하여 도시되어 있다.

역시 예컨대 디스플레이(20, 60) 상에서의 접근/가리킴(M2)에 의해 음성 인식기가 시작되고, 이어서 예컨대 조작 행동(M1 및/또는 M2)에 의해 개별 세그먼트들의 선택 및 정정이 이뤄지며, 터치스크린(20, 60) 상의 디스플레이가 이뤄진다.

음성 인식기의 시작에 의해, 각각의 목적지 또는 각각의 경로(예컨대, 도 8A를 참조)를 말할 수 있으므로, 도 8A에 따라 예컨대 볼프스부르크-베를린 간의 경로 표시가 이뤄지고, 도 8B에 따라 역시 터치 조작 행동(M1 또는 M1과 M2)에 의해 및/또는 정정 음성 명령(M3)에만 의해 목적지의 입력 및 정정이 이뤄지며, 그에 따라 손에 의한 조작 행동(M1 또는 M1과 M2)에 의해 또는 역시 음성 명령(M3)에 의해 오해의 소지가 있는 상황 관련 음성 명령, 예컨대 "함베르크슈트라쎄(Hambergstraβe)" 대신 원하는 "함부르크슈트라쎄(Hamburgstraβe)"가 정정될 수 있다.

도 9A 및 도 9B는 기능 지정 또는 전체 제스처들의 지정을 멀티모달 입력하는 방안을 또한 도시하고 있다. 즉, 도 9A에 따르면, 도 5C와 관련하여 이미 전술된 바와 같이, 조작자 손에 의한 접근 후에 제스처에 의한 입력 명령(M2)과 병렬된 또는 후속된 "줌" 또는 "이동"과 같은 해당 음성 명령(M3)에 의해 터치스크린(20) 상에서 내비게이션 맵을 이동시키는 것이 가능하다.

또한, 예컨대 손 전체를 펴는 것과 같은 제스처(M2)에 온-오프 기능 또는 중단 기능이 지정될 수 있다. 그럼으로써, 예컨대 "온/오프" 또는 "중단"이란 음성 명령(M3)과 연계하여 시스템의 시작 및 종료를 위한 멀티모달 조작이 구현될 수 있다.

사용자(10)의 요구 상황을 기반으로 터치스크린(20, 60) 상의 가용 표시 면적의 적응을 구현하기 위해 차량 시스템으로부터의 상황 정보들(예컨대, 속도, 도로 종류, 교통 밀도, 차량의 보조 레벨)을 실제 운전 태스크와 관련하여 통합함으로써 시스템을 추가로 보완하는 것이 가능하다.

도 11 내지 도 14에는, 음성 인식기의 상태(활성 상태/비활성 상태)에 관한 표시 방안이 소개되어 있다. "표시 대상/음성-상호 작용"과 "표시 대상-상황/음성-상호 작용"의 양 실시 형태들에 있어 음성 대화 시스템의 음성 인식기를 그 활성화 후 미리 주어질 수 있는 일정 시간 동안만 활성 상태로 있게 하는 것이 바람직하다는 것에 대해서는 이미 전술된 바 있다. 그러한 시간 내에서 사용자가 음성 명령(M3)을 부가할 수 있다.

음성 인식기가 활성 상태에 있는지 비활성 상태에 있는지의 여부를 사용자(10)에 시그널링하는 공지의 양태에서는, 음성 인식기의 활성화 또는 비활성화 시에 상호 작용 대상 또는 상호 작용에 제공되는 표시 및 조작 요소(20, 60)의 영역으로부터 떨어져 그래픽 표시(소위 "그래픽 피드백")가 수행된다.

새로운 양태에서는, "그래픽 피드백"이 상호 작용에 제공되는 대상 또는 영역으로부터 떨어져 수행되는 것이 아니라, 상호 작용에 제공되는 대상 또는 영역 그 자체에서 수행된다. 그럴 경우, 더 이상 음성 인식기의 상태에 관한 피드백의 출력을 위한 별도의 영역을 표시 및 조작 요소에 예비해둘 필요가 없고, 그래픽 피드백이 상호 작용에 제공되는 상호 작용 대상 또는 상호 작용 영역과 직접 연관된다는 점이 사용자(10)에게 유리하다.

그래픽 피드백과 관련하여 음성 인식기의 활성화 또는 비활성화 시의 기본적인 과정을 설명하면 다음과 같다. 상호 작용에 제공되는 영역 또는 상호 작용에 제공되는 대상에서 예컨대 가능한 선택 안들 중의 하나로서 이미 전술된 "길게 누름 접촉"에 의해 음성 인식기의 활성화를 수행한다. 그 경우, 상호 작용에 제공되는 표시 및 조작 요소(20, 60) 상의 영역 또는 대상에서 미리 주어질 수 있는 일정 시간 유지되어야 하는 활성화를 위한 임의의 지점이 접촉될 수 있다. 먼저, 그래픽 피드백과의 가능한 조합으로, "올바른" 영역에서, 즉 활성화에 제공되는 영역에서 "길게 누름 접촉"이 있을 경우에 또는 대상을 충분히 길게 터치할 경우에 "촉각에 의한 피드백", 예컨대 조작자의 손가락에서의 진동이 생성된다. "길게 누름 접촉"을 음성 인식기의 시작을 위한 개시 행동으로 받아들이는 즉시, 원하는 조작 행동이 성공하였음을 사용자(10)에 회신하는 신호 타입 응답으로서 클릭 타입 진동의 형태의 또 다른 확연한 "촉각에 의한 피드백"이 추가로 수행된다. 그러한 확연한 "촉각에 의한 피드백"은 병렬적으로 개시되는 "음향 피드백"과 추가로 조합되어 실시될 수 있다. 따라서, 음성 인식기가 시작되어 그 성공적 시작이 촉각에 의해 및/또는 음향적으로 사용자에 시그널링되게 된다.

하지만, 음성 인식기가 활성 상태에 있을 때까지는, "그래픽 피드백"으로서 사용자(10)에 표시되는 미리 주어질 수 있는 시간도 또한 경과하게 된다. 미리 주어질 수 있는 시간 동안 해당 영역 또는 대상의 둘레에 일종의 프레임 타입의 띠가 음성 인식기 심벌(S)이 나타날 때까지 둘러지기 시작한다. 음성 인식기 심벌(S)이 나타나는 순간에 비로소 음성 인식기가 활성 상태로 되어, 즉 음성 명령(M3)을 수령하도록 시작되어 음성 명령(M3)을 말할 수 있게 된다. 그와 관련하여, 그래픽 피드백을 디스플레이하는데에는 여러 구성 방안들이 있다.

예컨대, 프레임 타입(바람직하게는 그 조도 및 색상에 있어 표시 및 조작 요소(20, 60)에 대해 대비를 이루는)의 띠가 영역 또는 대상의 우측 하단 코너에서 둘러지기 시작하고, 바람직한 구성에서는 좌측 상단 코너까지 2개의 방향으로 둘러져 프레임(R)을 형성하는데, 좌측 상단 코너에 도달하는 순간 프레임(R)이 닫히게 되고, 바로 거기에서 음성 인식기 심벌(S)이 나타나게 된다. 그에 대해서는 도 11 내지 도 13을 참조하면 된다.

또 다른 가능한 구성은 대상 또는 영역의 둘레를 둘러싸는 프레임(R)을 형성하는 띠가 영역 또는 대상의 수직 가장자리의 중앙에서 양쪽으로(동일하거나 상이한 속도로) 둘러지고, 반대편에서 닫혀 프레임(R)을 형성하며, 그 반대편에서 그곳의 수직 가장자리 중앙에 음성 인식기 심벌(S)이 나타나는 것이다. 그에 대해서는 도 12 및 도 14를 참조하면 된다.

그와 같이 둘러지는 띠는 또 다른 구성에서는 영역 또는 대상의 자유롭게 선택될 수 있는 임의의 가장자리 지점으로부터 출발하여 시작되게 구성되어 한쪽 방향으로만 또는 2개의 방향으로 둘러질 수 있는데, 그렇게 하여 형성되는 프레임(R)이 닫히는 순간 음성 인식기 심벌(S)이 표시되고, 그에 따라 음성 인식기가 활성 상태에 있게 된다.

비활성화는 예컨대 띠가 처음 프레임(R)을 형성하기 시작한 지점으로부터 각각 출발하여 음성 인식기 심벌(S) 쪽으로 띠가 일 방향으로 또는 양 방향으로 둘러지면서 다시 서서히 희미해지게 함으로써 수행되는데, 프레임(R)과 음성 인식기 심벌(S)이 다시 완전히 사라지는 즉시 음성 인식기가 비활성 상태에 있게 된다.

음성 인식기 심벌(S)이 나타나는 순간에 음성 명령(M3)을 말할 수 있다. 미리 주어질 수 있는 시간 후에는, 음성 인식기 심벌(S)이 나타난 후에 음성 명령(M3)을 말하였는지의 여부와는 상관이 없이 음성 인식기 심벌(S)을 유지한 채로 띠가 프레임(R)을 형성하기 시작한 지점에서 프레임(R)이 다시 열리게 된다. 즉, 둘러지는 띠가 음성 인식기 심벌(S) 쪽으로 다시 해체되고, 그에 따라 프레임(R)이 완전히 사라지는 순간에 또는 프레임(R)이 유지되더라도 색채 형상을 더 이상 볼 수 없거나 이전에 높던 조도가 도로 떨어지는 순간에 음성 인식기 심벌(S)이 사라지게 된다.

도 11 내지 도 14의 4개의 예들에 의거하여 본 발명을 더욱 상세히 설명하기로 한다.

도 11에는, 그러한 방안이 표시 및 조작 요소(20, 60)에 이미 호출되어 있는 플레이 리스트에 의거하여 도시되어 있다. 예컨대, 기본 보기로 타이틀 1 내지 6을 갖는 플레이 리스트는 아직 프레임(R)으로 둘러싸이지 않고, 음성 인식기 심벌(S)도 아직 표시되지 않는다. 표시 및 조작 요소(20, 60) 상에서의 "길게 누름 접촉"에 의해, 이미 기본적으로 전술된 바와 같이, 음성 인식기의 활성화를 위한 개시 조작 행동이 사용자(10)의 조작 행동의 성공을 시그널링하기 위한 예컨대 "촉각에 의한" 피드백 및/또는 "음향적" 피드백과 조합되어 수행된다. 우측 하단 코너로부터 출발하여, 프레임(R)이 좌측 상단 코너에서 닫히고, 음성 인식기 심벌(S)이 나타난다. 즉, "그래픽 피드백"이 사용자에 제공되어 음성 인식기가 활성 상태에 있는 때를 사용자가 정확하게 인식할 수 있게 된다. 개재 시간에 선택된 대상 또는 영역과의 상호 작용에 제공되는 한정된 어휘 범위를 갖는 제1 또는 제2 실시 형태를 고려하여 음성 입력(M3)을 수행한다. 도 11에서는, 사용자(10)가 예컨대 "배드리 드론 보이(Badly Drawn Boy)"라는 타이틀 2를 말하였다. 표시 및 조작 장치(20, 60)에서의 타이틀 분류는 선택된 타이틀 2가 하이라이트되고, 바람직한 구성에서는 표시 및 조작 장치(20, 60) 상에서 사용자의 중심 시야로 더 이동하도록 이뤄진다. 그러한 구성의 부가 구성에서는, 한정된 어휘 범위 내에서 예컨대 발음상으로 유사하게 소리 나는 타이틀, 예컨대 "벡-더 인폼...(Beck-The Inform...)"이라는 타이틀 3, 타이틀 4, 타이틀 5 등이 그 아래에 계속해서 분류된다. 음성 인식기 심벌(S)이 오버레이된 후에는 이미 프레임(R)을 형성하는 띠가 처음에 그 띠에 의해 프레임(R)이 형성된(도 11에 도시된 바와 같이) 지점으로부터 출발하여 음성 인식기 심벌(S) 쪽으로 도로 둘러가고, 심벌(S)에 도달했을 때에 음성 인식기가 비활성 상태로 되어 심벌(S)이 다시 사라지게 된다.

도 12에는, 그러한 조치가 미디어 플레이어의 예에서 도시되어 있다. 기본 보기로, 예컨대 "데이비드 그레이(David Grey)" 앨범 보기와 그 앨범으로부터 연주되는 "알리바이(Alibi)"라는 타이틀 및 그 연주 시간과 아직 남은 연주 시간이 타이틀 표시에 디스플레이된다. 다음의 설명은 표시된 앨범 커버의 영역의 타이틀 표시 영역 위에서 앨범을 선택하는데에도 유사하게 전용될 수 있다.

이전에 이미 선택된 앨범으로부터 타이틀을 교체하기 위해, 타이틀 표시 영역 상에서 예컨대 경우에 따라 사용자(10)에 대한 촉각에 의한 피드백 및/또는 음향적 피드백과 조합되는 "길게 누름 접촉"을 수행한다. 해당 영역의 우측 가장자리의 중앙으로부터 출발하여 둘러지는 띠가 좌측 가장자리의 중앙에서 닫혀 프레임(R)을 형성하고, 그 좌측 가장자리에 음성 인식기 심벌(S)이 나타난다. 음성 인식기는 활성 상태에 있고, 음성 입력을 받을 준비가 되어 있다. 음성 입력(M3)은 선택된 대상 또는 제공된 영역과의 상호 작용에 한정된 어휘 범위를 갖는 제1 또는 제2 실시 형태를 고려하여 수행된다. 도 12에 따르면, 예컨대 사용자가 "알리바이"라는 음성 명령을 말했고, 그럼으로써 해당 앨범으로부터 그 타이틀이 연주되고 있다. 이어서, 둘러진 프레임이 우측 가장자리의 중앙에서 다시 열려 음성 인식기 심벌(S) 쪽으로 사라지게 되는데, 프레임이 그 심벌(S)에 도달할 때에 음성 인식기가 비활성으로 전화되면서 음성 인식기 심벌(S)이 다시 사라지게 된다.

도 13은 내비게이션 디스플레이 상에서 POI 카테고리를 선택하는 예에서 선택도니 상호 작용 대상에 음성 인식기의 상태를 표시하기 위한 "그래픽 대화" 또는 "그래픽 피드백"을 나타내고 있다. 도 13에는, 표시 및 조작 요소(20, 60)에 호출되어 있는 내비게이션 디스플레이에 의거하여 그 방안이 도시되어 있다. 예컨대, 내비게이션 디스플레이 상에는 "호텔" 또는 "레스토랑" 또는 "구매 가능처"와 같은 각종의 POI 카테고리들이 기본 보기로 디스플레이되는데, POI 카테고리들은 아직 프레임(R)에 의해 둘러싸여 있지 않고, 음성 인식기 심벌(S)도 아직 표시되어 있지 않다. 기본적으로 전술된 바와 같이, 표시 및 조작 요소(20, 60) 상에서의 "길게 누름 접촉"에 의해 음성 인식기가 시작된다(역시 예컨대 촉각에 의한 피드백 및/또는 음향적 피드백과 조합되어). 우측 하단 코너로부터 출발하여, 프레임(R)이 먼저 좌측 상단 코너에서 닫히고 음성 인식기 심벌(S)이 나타난다. 따라서, 음성 인식기가 활성 상태에 있는 때를 사용자가 정확히 인식하여 음성 입력(M3)을 수행할 수 있게 하는 그래픽 피드백이 사용자에 제공되게 된다.

음성 입력(M3)은 선택된 영역과의 상호 작용에 제공되는 한정된 어휘 범위를 갖는 제1 또는 제2 실시 형태를 고려하여 수행된다. 도 13에서는, 사용자가 예컨대 "호텔"이라는 카테고리를 말하였다. 선택된 POI의 표시는 이미 전술된 구성에서와 같이 선택된 POI가 하이라이트되고, 도 14에 도시된 것처럼 자동으로 사용자(10)의 중심 시야로 더 이동되도록 수행된다.

이어서, 처음에 프레임(R)이 형성된 지점으로부터 출발하여, 띠(도 11에 도시된 바와 같은)가 프레임(R)dmf 사라지게 하면서 음성 인식기 심벌(S) 쪽으로 다시 둘러가고, 심벌(S)에 도달했을 때에 음성 인식기가 비활성 사태에 있게 되어 부속 심벌(S)이 다시 사라지게 된다.

도 14에서는, 내비게이션 디스플레이 상에서 음성 대화에 의해 도 13으로부터 선택된 개별 POI의 예에서 선택된 상호 작용 대상에 음성 인식기 상태를 표시하기 위한 그래픽 대화를 설명하기로 한다. 사용자(10)가 선택된 호텔에 관한 정보를 아울러 받고자 하면, 음성 대화 시스템을 사용하여 호텔과의 연락을 취하거나, 다음과 같이 다른 방식으로 상호 작용을 하여 대처한다. 대상으로서의 POI 그 자체 상에서 "길게 누름 접촉"을 수행한다. 사용자는 다시 전술된 선택 안들에 따라 또는 본 구성 방안과 조합하여 음성 인식기의 시작을 위한 입력이 성공하였음을 시그널링하는 촉각에 의한 피드백 및/또는 음향적 피드백을 받는다. 예컨대, POI 대상의 우측 가장자리의 중앙으로부터 출발하여 둘러지는 프레임(R)이 좌측 가장자리(R)에서 닫힌다.

그와 같이 생성된 프레임(R)과 음성 인식기 심벌(S)이 나타난다. 음성 인식기가 활성 상태에 있게 된다. 선택된 대상과의 상호 작용에 제공되는 한정된 어휘 범위를 갖는 제1 또는 제2 실시 형태를 고려하여 음성 입력(M3)을 수행한다. 예컨대, 사용자가 "운전"이라는 음성 명령(M3)을 말함으로써 호텔이 내비게이션 시스템의 경로 설정에 목적지로서 넘겨지게 된다. 혹은, 사용자가 "전화"라는 음성 명령(M3)을 말하고, 그에 따라 호텔로의 전화 연결이 자동으로 이뤄지게 된다. 이어서, 프레임(R)이 다시 열리는데, 프레임(R)이 대상의 우측 가장자리에서 열리기 시작하고, 띠가 다시 음성 인식기 심벌((S) 쪽으로 양 방향으로 둘러가면서 프레임(R)을 희미하게 함으로써 프레임(R)이 사라지게 하는 것이 바람직하다. 음성 인식기 심벌(S)이 다시 사라지고, 음서 인식기가 다시 비활성 상태에 있게 된다.

10: 사용자 20: 인식하는 표시 및 조작 장치
60: 출력하는 표시 및 조작 장치 입력 신호
M: 입력 신호 M1: 제1 모덜리티(촉각에 의한 조작 행동)
M2: 제2 모덜리티(제스처에 의한 조작 행동) M3: 제3 모덜리티(음성)
d: 거리 S: 음성 인식기 심벌 R: 프레임/가장자리

Claims

적어도 하나의 조작 장치를 통해 음성 인식기에 공급되는 상이한 모덜리티(modality)의 입력 신호들을 검출하고, 그럼으로써 원하는 기능 및/또는 표시를 출력 신호로서 발생시켜 표시 및 조작 장치상에 표시하고/표시하거나 음성 출력에 의해 출력하는, 자동차에서 표시 및 조작 장치의 멀티모달 정보 입력 및/또는 표시의 적응을 위한 방법에 있어서,
표시 및 조작 장치(20, 60) 상에서의 또는 표시 및 조작 장치(20, 60) 곁에서의 촉각에 의한 및/또는 제스처에 의한 입력 신호들(M1, M2)에 의해 상호 작용에 제공되는 대상을 선택하고 음성 인식기를 활성화하며, 대상의 선택 및 음성 인식기의 활성화에 따라 선택된 대상에 의존하여 상호 작용에 제공되는 어휘 범위를 한정하고, 그에 따라 선택된 대상에 속한 한정된 어휘 범위의 음성 명령(M3)을 음성 인식기를 통해 정보 입력으로서 및/또는 표시의 적응을 위해 선택된 대상에 부가하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 입력 신호들(M1, M2)로서 및 음성 인식기의 활성화 신호로서

조작 요소들의 회전, 누름, 접촉, 및/또는 단속과 같은 사용자(10)의 촉각에 의한 입력 신호들을 제1 모덜리티(M1)로서

사용자(10)의 제스처에 의한 입력 신호들을 제2 모덜리티(M2)로서
표시 및 조작 장치에 의해 검출하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 상호 작용에 제공되는 대상의 결정에 따라, 표시 및 조작 장치(20) 상에서 "길게 누름" 접촉 및/또는 "더블 클릭" 접촉 및/또는 "2 손가락 터치" 및/또는 "드래그 동작"을 사용하여 촉각에 의한 입력 신호를 생성하는 조작 행동에 의해 음성 대화 시스템의 음성 인식기를 활성화하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 제스처에 의한 입력 신호들을 생성하는 "일반적" 조작 의사를 갖는 조작 행동을 인식한 시점에 음성 대화 시스템의 음성 인식기를 자동으로 활성화하고 난 후에 비로소 상호 작용에 제공되는 표시 대상을 결정하고, 그에 따라 음성 입력이 예정보다 앞서는 경우에 음성 인식기를 통한 음성 평가가 이뤄지는 것이 보장되도록 하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 음성 대화 시스템의 음성 인식기를 그 활성화 후 사용자(10)가 그 이내에 음성 명령(M3)을 부가할 수 있는 미리 주어질 수 있는 일정 시간 동안만 활성 상태로 있게 하되, 음성 인식기의 활성화 또는 비활성화를 상호 작용에 제공되는 영역 또는 대상 그 자체에서 그래픽 표시("그래픽 피드백")를 통해 수행하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 부가되는 음성 명령(M3)은 싱글워드(single-word) 어휘 또는 멀티워드(multi-word) 어휘인 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 출력 신호 및 그에 수반하는 변경된 기능을 생성하여 출력 모듈에 표시 대상을 표시하는 간단하고도 직관적인 멀티모달 조작을 발생시키기 위해, "표시 대상/음성-상호 작용"으로 싱글워드 어휘 또는 멀티워드 어휘의 형태의 음성 명령(M3)(전적으로 하나의 동사 및/또는 여러 동사들만을 사용하는)을 결정된 표시 대상에 부가하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 표시 및 조작 요소(60)에서 출력 신호 및 그에 수반하는 대상의 변경된 기능 및/또는 표시를 생성하는 간단하고도 직관적인 멀티모달 조작을 발생시키기 위해, "표시 대상-상황/음성-상호 작용"으로 싱글워드 어휘 또는 멀티워드 어휘의 형태의 음성 명령(M3)(하나의 및/또는 여러 상황 관련 어휘(들)를 사용하는)을 결정된 대상에 부가하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 음성 명령(M3)을 음성 인식기에 의한 그 인식 직후 미리 주어질 수 있는 일정 시간 동안 오버레이하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제2항 내지 제5항 중의 어느 한 항에 있어서, 표시 및 조작 요소(20, 60)에서 상호 작용에 제공되는 영역 또는 대상에서의 그래픽 표시인 "그래픽 피드백"에 의해 및/또는 촉각에 의한 신호 및/또는 음향적 신호인 "촉각에 의한 피드백 및/또는 음향적 피드백"에 의해 음성 인식기의 활성화 또는 비활성화를 시그널링하되, 음성 인식기의 활성화 후 음성 입력(M3)의 입력에 제공되는 미리 주어질 수 있는 시간을 표시 및 조작 요소(20, 60)에서 상호 작용에 제공되는 영역 또는 대상 그 자체에 그래픽으로 표시하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 상호 작용에 제공되도록 결정된 표시 대상에 맞지 않는 음성 명령의 입력 시에 그래픽에 의한 및/또는 음향적 표시 또는 시그널링을 수행하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 표시 및 조작 장치(60)에 선행 연결된 표시 관리자가 입력 신호들(M1, M2, M3)에 의존하여 출력의 타입과 적절한 표시 방법의 선택을 결정하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제12항에 있어서, 표시 관리자에 전달된 입력 신호들(M1 내지 M3)에 의존하여 표시 방법을 적응시키고,

그래픽 인터페이스의 변경

표시 내용의 적절한 선택

출력 매체(표시 및/또는 음성 또는 출력 시점)의 소통 특정적 선택에 의해 표시 방법을 수행하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항 내지 제8항 중의 어느 한 항에 있어서, 표시 및 조작 장치(20)를 통해 표시 및 조작 장치(20), 특히 터치스크린으로부터의 조작 이동의 거리에 의존하여 제2 모덜리티(M2)의 조작 의사를 입력하고 제스처에 의한 입력 신호(M2)를 검출하여 제스처에 의한 입력 신호(M2)에 의존해서 표시 및 조작 장치(60)의 표시 모드와 하나 이상의 조작 모드 사이의 상황에 따른 교체를 구현하는 것을 특징으로 하는,멀티모달 정보 입력 및/또는 표시 적응 방법.
제14항에 있어서, 제스처에 의한 입력 신호(M2)의 조작 의사는 그 조작 의사에 영향을 미치는 또 다른 모덜리티(M1, M3)의 다른 모든 입력 신호들과 중첩될 수 있는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제14항에 있어서, 표시 및 조작 장치(20)가 조작 행동을 검출하지 않아 표시 관리자에 선행 연결된 정보 관리자가 조작 의사를 인식하지 못하되, 표시 관리자는 정보 내용의 디스플레이 및 표시와 관련하여 표시 및 조작 장치(20, 60)를 "표시 모드"로서 최적화시키는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제14항에 있어서, 표시 및 조작 장치(20, 60)가 d ≥ 미리 주어질 수 있는 거리, 특히 d ≥ 5㎝의 범위의 조작 이동을 검출하여 정보 관리자가 "일반적" 조작 의사를 인식하되, 표시 관리자는 개선된 조작을 위해 표시 및 조작 장치(20, 60)를 전체의 영역에서 "제1 조작 모드"로 최적화시키는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 표시 및 조작 장치(20, 60)가 d < 미리 주어질 수 있는 거리, 특히 d < 5㎝의 범위의 조작 이동을 인식하여 정보 관리자가 선택된 대상의 "잠재적으로 가리켜진" 조작 의사를 인식하되, 표시 관리자는 "잠재적으로 가리켜진" 대상의 개선된 조작을 위해 표시 및 조작 장치(20, 60)를 가리켜진 표시 영역에서 "제2 조작 모드"로 최적화시키는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제17항 또는 제18항에 있어서, 조작 모드의 최적화를 미리 주어질 수 있는 표시 영역의 스케일 조정(scaling), 오버레이(overlay), 줌(zoom)을 통해 수행하고, 그에 의해 조작성이 더 좋은 조작 인터페이스를 생성하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
제1항에 있어서, 차량 시스템의 사용 상황으로부터 정보들(예컨대, 속도, 도로 종류, 교통 밀도, 차량의 보조 레벨)을 공급함으로써, 사용자(10)의 요구 상황을 기반으로 표시 및 조작 장치(20, 60) 상의 가용 표시 면적의 적응을 구현하는 것을 특징으로 하는, 멀티모달 정보 입력 및/또는 표시 적응 방법.
사용자의 멀티모달 상호 작용으로부터 출발하여 그 입력 신호들이 각각의 모덜리티에 할당된 사용자 인터페이스를 통해 표시 및 조작 요소와 음성 인식기에 의해 공급될 수 있되, 입력 신호들의 평가를 위해 정보 관리자가 배치되고, 정보 관리자는 입력 신호들에 의존하여 표시 관리자에 출력 신호들을 전달하며, 출력 신호는 표시 관리자에 후속 연결된 표시 및 조작 요소 및/또는 음성 인식기에서 사용자에 제공될 수 있는 멀티모달 정보 입력 및 표시 적응을 위한 시스템 구조에 있어서,
여러 모덜리티(M1, M2, M3)의 입력 신호들이 협력적으로 정보 관리자에 의해 검출될 수 있고, 정보 관리자가 얻은 입력 신호들(M1, M2, M3)로부터 출발하여 표시 관리자가 제어 동작할 수 있으며, 입력 신호들(M1, M2, M3)에 의존하여 준비된 출력 신호들이 표시 및 조작 장치(20, 60) 및/또는 음성 인식기에 제공되는 것을 특징으로 하는, 멀티모달 정보 입력 및 표시 적응을 위한 시스템 구조.
제21항에 있어서, 입력 신호들(M1, M2)을 검출하는 표시 및 조작 장치(20, 60)는 조작 요소들이 부속된 디스플레이이거나, 조작 요소들이 부속되고 용량형 센서 시스템이 병렬된 터치스크린인 것을 특징으로 하는, 멀티모달 정보 입력 및 표시 적응을 위한 시스템 구조.
제21항에 있어서, 출력 신호들을 출력하는 표시 및 조작 장치(20, 60)는 디스플레이 또는 터치스크린인 것을 특징으로 하는, 멀티모달 정보 입력 및 표시 적응을 위한 시스템 구조.
제21항에 있어서, 표시 관리자는 정보 관리자에 의해 검출된 입력 신호들(M1, M2, M3)에 의존하여 출력 신호들을 생성하되, 출력 신호들은 예컨대

경로 설정, 출발지 및/또는 목적지 입력의 정정, POI 검색, POI 선택, POI 상호 작용, 통신 기능과 같은 시스템 기능들을 갖는 내비게이션 시스템 또는

음악 타이틀의 선곡 및/또는 정정과 같은 시스템 기능들을 갖는 오락 시스템 등의 다양한 시스템들의 상위 선택을 위한 조작 레벨들을 디스플레이 및 조작하는데 사용되는 것을 특징으로 하는, 멀티모달 정보 입력 및 표시 적응을 위한 시스템 구조.