KR20240004896A

KR20240004896A - 차량에서 음성 출력을 생성하는 방법 및 장치

Info

Publication number: KR20240004896A
Application number: KR1020237041672A
Authority: KR
Inventors: 테레사 봇스첸; 스테판 울테스
Original assignee: 메르세데스-벤츠 그룹 아게
Priority date: 2021-06-15
Filing date: 2022-06-01
Publication date: 2024-01-11
Also published as: EP4124211B1; CN117480488A; WO2022263179A1; EP4124211A1; EP4124211C0; DE102021003074B3

Abstract

본 발명은 음성 입력에 대한 반응으로 차량에서 음성 출력을 생성하는 방법으로서, 음성 입력 외에 추가적인 정보가 적어도 하나의 센서(3)에 의해 기록되고, 이에 따라 상기 음성 출력의 기초가 되는 상기 음성 입력 및 센서 데이터의 분석이 이루어지는 방법에 관한 것이다. 본 발명에 따른 방법은, 상기 차량 내부(13)를 감지하는 적어도 하나의 이미징 센서(3)가 사용되고, 감지된 물체(14, 15) 및/또는 사람(16, 17, 18)이 사전 설정된 클래스에 할당되고, 상기 분석 결과를 기초로 상기 음성 출력이 생성된 후 상기 클래스에 적합한 코드워드 또는 문구로 강화되는 것을 특징으로 한다.

Description

차량에서 음성 출력을 생성하는 방법 및 장치

본 발명은 청구항 1의 전제부에 자세하게 정의된 유형에 따른, 음성 입력에 대한 반응으로 차량에서 음성 출력을 생성하는 방법에 관한 것이다. 또한, 본 발명은 청구항 10의 전제부에 자세하게 정의된 유형에 따른, 차량 사용자와 멀티모달 의사 소통을 하는 장치에 관한 것이다.

예를 들어, 차량에서의 음성 통화 시스템이 선행 기술에 공지되어 있다. 음성 통화 시스템은 일반적으로 적어도 하나의 마이크를 포함하는, 주변에서 음성을 기록하는 장치를 포함한다. 일반적으로 음성 인식은 버튼을 누르거나 코드워드(code word)를 통해 시작되고, 상응하게 음성 입력을 분석하여 음성 입력의 의도된 내용을 인식한 후 적합한 동작 및/또는 언어 출력을 통해 반응한다. 유럽 특허공보 EP 2 051 241 A1호는 음성 평가 시스템을 통해 음성 입력을 평가하고 입력에 반응하여 음성 출력 시스템을 통해 음성을 출력하는 음성 대화 시스템을 설명한다.

음성 출력은 또한 센서에 의해 주변에서 기록된 추가적인 정보에 상응하여 조정된다. 그러나 이는 출력 속도, 볼륨 등일 수 있다. 예를 들어 이는 차량의 지리적 위치, 교통 상황 등을 포함할 수도 있다. 센서 장치를 통해 기록된 정보는 음성 출력의 조정을 위해 사용된다.

본 발명의 목적은, 차량에서 개선된 음성 출력의 생성을 가능하게 하는 더욱 개선된 방법 및 이러한 방법을 수행하는 데 적합한 장치를 제공하는 데 있다.

본 발명에 따르면, 이러한 목적은 청구항 1의 특징을 갖는 방법에 의해 달성된다. 본 발명에 따른 방법의 바람직한 구성들과 개선 실시예들은 이 독립항의 종속항들로부터 나타난다. 또한, 청구항 10에 차량 사용자와 멀티모달 의사 소통을 하는 장치가 제공된다. 이러한 장치도 본원의 방법과 조합하여 본원의 목적을 달성한다.

본 발명에 따른 방법은 차량에서 음성 출력을 생성하는 데 이용된다. 음성 출력은 음성 입력에 대한 반응으로서 이루어진다. 선행 기술과 유사하게, 음성 입력뿐만 아니라 센서를 통해 기록된 적어도 하나의 추가적인 정보의 분석이 이루어진다. 분석 결과는 음성 출력의 기초가 된다. 본 발명에 따르면, 적어도 하나의 이미징 센서가 사용된다. 이러한 이미징 센서를 통해 차량 내부가 기록되고, 기록된 물체 및/또는 사람이 분석되어 사전 설정된 클래스에 할당된다. 이 클래스는, 음성 입력의 분석 결과를 기초로 생성된 음성 출력을 상응하는 클래스에 적합한 코드워드 또는 문구로 강화하는 데 이용된다. 적합한 코드워드는 바람직하게는 의미론적으로 음성 출력과 결합되고 클래스에 속하여 저장된다. 코드워드는 개별 단어, 구절 또는 완전한 문장을 포함할 수 있다.

본 발명에 따른 방법에 의해 멀티모달 음성 생성 시스템의 특징이 드러난다. 이는 예를 들어 날씨에 대한 사용자의 요청에, 예를 들어 예상 출력을 생성하고 날씨에 대해 알려주어 반응할 수 있다. 예를 들어 이러한 음성 출력은 "오늘은 맑고, 날씨가 좋습니다"라는 내용을 포함할 수 있다. 추가적으로, 특히 차량의 내부 카메라인 이미징 센서를 통해, 예를 들어 차량 내부의 우산과 같은 물체가 상응하는 이미지 분석에 의해 감지될 수 있다. 그런 다음 이는 상응하는 클래스, 여기서는 예를 들어 "우산" 또는 다른 "우천에 대한 보호 수단" 클래스에 할당된다. 본 발명에 따른 방법에서, 날씨에 대한 객관적 정보에 예를 들어 우천에 대한 보호 수단의 클래스에 저장되고 의미론적으로 및/또는 논리적으로 음성 출력에 연결된 포괄적인 문장, "따라서 우산은 필요하지 않을 겁니다"가 추가되어 음성 출력이 강화될 수 있다. 이로 인해 음성 생성 시스템의 사용자에게 "인간적인" 의사 소통의 느낌이 전달되고, 이는 사용자의 음성 제어를 사실상 향상시킨다.

물체의 또다른 클래스는 예를 들어 가방, 스마트폰 등의 모바일 단말기가 될 수 있다. 또다른 클래스는 예를 들어 사람, 특히 사람 수, 사람이 성인인지 또는 아동인지 등을 포함할 수 있다. 이 모든 것이 오로지 언어 콘텐츠를 중심으로 한 강화를 넘어 사용자와 직접 관련된 강화를 가능하게 하는 음성 출력을 가능하게 한다.

본 발명에 따른 방법의 매우 바람직한 추가적인 구성에 따르면, 분석 결과와 사전 설정된, 저장된 클래스 및/또는 코드워드 사이의 연관성에 대한 의미론적 분석이 이루어지고, 음성 입력의 분석 결과, 즉 음성 출력에 의미론적으로 연결된 클래스 및 바람직하게는 상응하는 클래스에서 음성 입력의 분석 결과와 의미론적으로 연결된 코드워드가 음성 출력의 강화에 사용되는 것이 제공될 수 있다. 예를 들어 위에서 이미 예시적으로 언급한 우천 보호 수단 클래스는 날씨 주제와 연결되거나, 사람을 포함하는 상응하는 클래스는 예를 들어 레스토랑/호텔 검색, 방 예약/테이블 예약 등의 주제와 연결될 수 있다. 또한, 바람직하게는 음성 출력에 의미론적으로 연결된 클래스에서 음성 출력을 위해 의미론적으로 적합한 코드워드 또는 문장이 선택된다. 즉, 예를 들어 날씨가 좋은 경우 적합한 음성 출력은 의미론적으로 연결된 코드워드들 "우산은 필요하지 않을 겁니다"이고, 그에 비해 날씨가 안 좋은 경우 적합한 음성 출력은 의미론적으로 연결된 코드워드들 "우산이 필요할 겁니다"가 될 것이다.

또한, 본 발명에 따른 방법의 매우 바람직한 추가의 구성은, 데이터베이스에서 의미론적으로 유사한 코드워드들이 클래스에 할당되어 음성 출력을 강화할 때 사용되는 것을 제공한다. 예를 들어 각각의 클래스에 적합한 코드워드들 및/또는 문구들이 데이터베이스에 저장되거나 온라인으로 조회되고 각각의 클래스에 할당될 수 있다. 이 경우 데이터베이스 내에서 상응하는 클래스가 감지되면, 음성 출력을 강화하기 위해 이 클래스에 적합한 코드워드와 문구들을 가져올 수 있다.

이에 대해서 더 자세하게 다룰 필요 없이, 실제 음성 입력이 이를 상응하게 분석할 수 있도록 텍스트 형태로 전환된다는 점이 당업자에게는 명확하다. 음성 출력 및 이를 위해 본 발명에 따라 제공된 강화는 텍스트 형식에 상응하게 저장 및 기록되고, 텍스트 형식으로 서로 결합된 후 음성으로 출력된다.

본 발명에 따른 방법의 특히 바람직한 구성에 따르면 이는 자가 학습 시스템으로 설계된다. 센서 장치, 특히 마이크 및/또는 차량 내부 카메라를 이용하여 음성 출력에 대한 차량 사용자의 언어적 및/또는 시각적 반응을 기록하고 이를 분석한다. 그런 다음 반응이 긍정적 반응인지 또는 부정적 반응인지로 분류되어 시스템 사용자가 강화를 긍정적으로, 재미있는 것으로, 유쾌한 것 등으로 인식했는지 또는 강화가 시스템 사용자를 오히려 짜증나게 하고/하거나 스트레스를 주었는지를 결정한다. 결과에 따라 상응하는 언어적 강화가 조정된다. 피드백이 긍정적인 경우, 관련된 언어적 강화가 추후에 더 자주 사용될 것이고, 피드백이 부정적인 경우 관련된 언어적 강화가 추후에 덜 사용되거나 더 이상 사용되지 않거나 또는 매우 낮은 빈도로 사용될 것이다. 바람직하게는, 반응은 기계 학습 방법, 예를 들어 인공 신경망을 이용하여 학습되어 사용자에 따라 강화에 대한 반응 또는 강화의 클래스가 결정된다. 본 발명에 따른 방법은 각각의 멀티모달 음성 생성 시스템이 자신의 사용자에게 맞추어 조정되고, 사용자가 이를 긍정적이고 편안하게 느끼도록 사용자와의 의사소통을 형성시킨다.

본 발명에 따른 방법의 추가적인 매우 바람직한 구성에 따르면, 음성 출력이 저장되고, 새로 생성된 음성 출력은 출력되기 전에 동일한 의미론에 할당된 클래스에 마지막에 저장된 적어도 하나 이상의 음성 출력과 비교된다. 일치하는 것이 존재하는 경우, 해당 음성 출력이 폐기되고 다른 음성 출력으로 대체된다. 동일한 의미론의 각각의 클래스에 음성 출력 또는 적어도 강화가 상응하게 저장되어 마지막 출력과 비교될 수 있다. 이로 인해 시스템은, 항상 동일한 음성 출력 및 동일한 강화로 의사소통하여 의사소통이 매우 예상 가능하게 만들고 따라서 사용자가 지루하고 인위적인 것으로 느끼지 않도록, 다양한 음성 출력을 생성하고 특히 다양한 강화를 생성할 수 있게 있다.

특히 동일한 의미론의 각 클래스에 대해 각각 사전 설정된 수의 최근 음성 출력이 저장되고, 비교 시 고려되는 것이 제공될 수 있다. 예를 들어 동일한 의미론의 클래스 내에 마지막 10개 내지 20개의 음성 출력이 저장되어, 빨라야 이 개수 이후에 다소 동일한 단어의 제1 반복이 허용될 수 있다. 이때, 저장은, 일종의 스택 메모리에 각각 최근 음성 출력이 상응하게 저장되고 이를 위해 시스템에서 가장 오래된 음성 출력이 탈락되거나 삭제되는 방식으로 이루어질 수 있다. 선입선출(first in first out)로도 알려진 이 저장 방법은 본 발명에 따른 방법의 이 구성을 구현하기에 이상적이며, 사용자가 현실적이고 지능적이라고 느끼는 의사 소통을 멀티모달 음성 생성 시스템이 수행하는 것을 가능하게 하여, 시스템에 대한 수용성이 상응하게 상승한다.

또한, 본 발명에 따른 방법의 추가적인 매우 바람직한 개선 실시예는, 추가적으로 차량을 중심으로 차량의 주변 상황이 기록되고, 주변 상황, 특히 교통 상황에 따라 음성 출력의 강화 정도가 조정되는 것을 제공할 수 있다. 주변 상황은 예를 들어 교통 데이터, 날씨 데이터, 위험 물체를 감지한 긴급 상황을 포함한다. 주변 상황은 차량의 센서 및/또는 차량 데이터 버스에서 사용 가능한 데이터, 예를 들어 서버를 통해 제공되는 교통 정보 또는 날씨 정보에 의해 결정된다. 강화의 정도는, 예를 들어 코드워드 수, 코드워드에 의해 형성된 문장의 길이 또는 복잡성 및/또는 유익한 정보와 즐거움을 주는 정보 간 차이점으로 이해해야 한다. 예를 들어 교통량이 많고 차선 변경이 잦은 다차선 도로에서 주행하는 경우, 강화의 정도는 매우 낮게 조정되거나 강화가 완전히 생략될 수 있다. 차량 운전자가 무엇보다 주변과 교통에 집중해야 하는 이러한 상황에서 의사 소통은 최소한으로 제한되고 매우 객관적인 방법으로 요구되는 정보를 전달하는 것에 제한된다. 교통 상황에 주의가 덜 필요할수록, 강화의 정도는 더 강해지고 커질 수 있다. 사람이 자신의 차량과 함께 예를 들어 교통 정체 상황에 있는 경우, 이 사람을 위해 엔터테인먼트 효과를 달성하기 위해 매우 높은 정도의 강화로 작동될 수 있다. 이때 주의를 분산시킬 위험은, 전술한 주변 상황이 매우 복잡한 경우보다 안전에 치명적인 집중력 분산을 초래하는 경우가 더 적다.

따라서, 본 발명에 따른 방법의 매우 바람직한 개선 실시예에 따르면, 강화의 정도는 강화 없음에서 출발하여 적어도 하나의 중간 단계를 거쳐 강한 강화까지 이르는 것이 제공될 수 있고, 강화의 정도가 적을수록, 주변 상황, 특히 차량 주변의 교통 상황이 복잡한 것이다.

주변 상황을 기초로 하는 강화 정도의 변화에 대해 대안적으로 또는 특히 보완적으로, 사용자가 조작 요소에서 설정을 수행하여 강화 정도를 결정할 수 있다. 조작 요소는 예를 들어, 슬라이더 바, 회전식 컨트롤러 또는 터치 디스플레이로 설계될 수 있고, 이들은 각각 다양한 강화 단계의 선택 방법을 포함한다. 이는 원칙적으로 임의의 유형의 시각 기반 강화에 적용되나, 특히 순수한 정보 콘텐츠 없이, 단지 엔터테인먼트에만 사용되는 강화에 이용될 수 있다. 이 유형의 강화는 칫챗(chitchat)이라고도 한다. 예를 들어 사용자는 다양한 단계 또는 슬라이더 바, 특히 가상의 슬라이더 바를 통해 자신에게 편안한 정도의 강화를 사전 선택하여, 메뉴 설정으로 객관적 모드 또는 엔터테인먼트 모드로 설정할 수 있다. 이는 특히 주변 상황에 따른 강화와 관련하여 전술한 변형 실시예와 결합될 수 있어서, 강한 엔터테인먼트 모드가 사전 선택되어 있더라도 예를 들어 복잡한 교통 상황 등 주변 상황이 어려운 경우에는 엔터테인먼트적 요소가 완전히 또는 전반적으로 생략될 수 있다.

차량 사용자와의 멀티모달 의사소통을 위한 본 발명에 따른 장치는 음성 입력을 기록하는 적어도 하나의 마이크와, 추가의 정보를 기록하는 적어도 하나의 센서를 포함한다. 또한, 본원의 장치는 음성 출력과, 전술한 구성 요소에 대한 적어도 하나의 제어 장치를 갖는다. 제어 장치는 다수의 부분들로 분할될 수 있거나, 전술한 구성 요소를 제어하기 위해 부분적으로만 사용되는 보다 큰 제어 장치의 일부일 수도 있다.

예를 들어, 본 발명에 따르면, 전술한 구성들 중 하나에서 방법을 수행하도록 제어 장치가 구성된다. 전술한 바와 같이, 적어도 하나의 센서가 적어도 하나의 내부 카메라를 포함하는 것이 제공될 수 있다. 이러한 내부 카메라에 의해, 직접 사람 및 이 사람이 차량에 가져온, 이 사람에게 할당된 물체가 상응하게 감지된 후 분석 및 클래스 할당을 위해 제어 장치에 전송될 수 있다. 제어 장치는 음성 입력의 분석 결과를 기초로 음성 출력을 생성하고, 이를 클래스에 적합한 코드워드 또는 문구로 강화한다. 적합한 코드워드는, 음성 출력에 의미론적으로 연결된 클래스의 음성 출력에 의미론적으로 연결된 코드워드로 이해해야 한다.

방법 및 특히 차량의 일부로서 설계될 수 있는 본 발명에 따른 장치의 추가적인 바람직한 구성들 및 개선 실시예들은 이하에서 도면들을 참조하여 자세하게 설명하는 실시예들로부터도 드러난다.

도 1은 멀티모달 음성 생성 시스템을 도시하는 개략도이다.
도 2 내지 도 5는 본원의 시스템의 다양한 실시예를 도시하는 개략도이다.

도 1의 도면에 본 발명에 따른 방법을 수행하기에 적합한 멀티모달 음성 생성 시스템(1)이 개요적으로 도시된다. 이 시스템(1)은, 여기서는 차량의 내부 카메라인 시각 센서(3)와 마이크(4)를 포함하는 전처리 시스템(2)을 포함한다. 이들은 한 편으로는 다양한 물체를 감지하는 데 사용될 수 있는 시각 데이터 소스를 형성한다. 예를 들어 우산, 가방, 휴대폰, 성인, 유아, 개 등이 감지될 수 있다. "인스턴스"라고도 하는 이러한 클래스는 차량의 내부 장치에 속하지 않는, 즉 현재 차량 사용자가 차량 안으로 가지고 온 물체 또는 사람이다. 마이크(4)는 음성 데이터 소스로 이용된다. 예를 들어 당 출원인의 경우 "어이, 메르세데스"일 수 있는 코드워드를 말하면, 발화된 텍스트는 음성 입력으로 식별될 수 있다. 이에 대해 보완적으로 또는 대안적으로 다른 코드워드들 또는 음성 입력을 활성화하는 버튼의 작동도 가능하다는 것은 자명하다. 기록된 사용자의 음성 발화는 텍스트 형태로 전환된 후 상응하는 텍스트 감지에 의해 감지되고, 오늘날 이미 선행 기술로부터 알려진 바와 같은 방법으로 그 내용이 평가된다. 예를 들어 현재 날씨에 대한 질문이 제시되면, 음성 데이터 소스의 분석으로부터 날씨 정보에 대한 질문이 감지될 수 있다.

도면 부호 5로 표시된 연결에 따르면, 이와 동시에 기록된 시각 인스턴스는, 이 인스턴스가 텍스트 포맷으로 저장되는 메모리(6)에 도달한다. 메모리(6)는 인스턴스, 예를 들어 우산, 휴대폰 등의 목록을 관리한다.

전처리 시스템(2)에 의해 활성화되어 분석 유닛(7)에서, 시각 센서인 내부 카메라(3)에 의해 기록된 시각적 상황과 마이크(4)에 의해 기록된 사용자의 발화 사이의 관계가 의미론적으로 연결된다. 의미론적 강화를 위한 구성 요소(8)에 인스턴스 목록이 연결되고, 각 인스턴스에 의미론적으로 유사한 코드워드 또는 문구, 이른바 연관어가 저장된다. 예를 들어 감지된 물체 "우산"에 대해 코드워드로서 비, 해, 햇빛, 보호, 물기 등이 저장될 수 있다. 코드워드는 상응하는 지식 소스, 예를 들어 WordNet, Wikidata 등에서 의미론적 검색을 통해 생성된다. 추가적으로 소스에 저장된 인스턴스의 정의를 참조할 수 있으며, 예를 들어 코드워드 "우산"에 대한 Wikidata의 정의는 "(비) 우산은 비나 햇빛으로부터 보호하기 위한 가리개"이다. 이 코드워드 및 정보는 도면 부호 9로 표시된 단계를 통해 도시되는 바와 같이 메모리(6)로 전달된다.

의미론적 분석 유닛(7)의 또다른 구성 요소(10)는 일치와 관련하여 평가하는 데에 이용된다. 이 구성 요소(10)는 새로 표현된 내용과 메모리(6) 내의 시각적 인스턴스가 상황적으로 서로 일치하는지 여부를 연속적으로 평가한다. "어이 메르세데스, 오늘 날씨 어때?"라는 표현이 "날씨 정보에 대한 질문" 컨텐츠와 연결된다는 것이 예가 될 수 있다. 이제 메모리(6)의 코드워드를 기초로 이전에 표현된 우산 인스턴스와의 높은 의미론적 유사성이 생겨난다. 의미론적 분석 유닛(7)은, 전술한 예시에 대해 우산이 대답으로 사용될 수 있다는 것을 음성 생성 모듈(11)에 알린다. 그런 다음, 음성 생성 모듈(11)에서 언어적 응답이 텍스트 형식으로 생성되고, 이는 알려진 방식의 변환에 의해 음성으로 변환된 후 출력된다.

이때 가장 간단한 버전은 적합한 인스턴스를 포함한 사전 정의된 응답 세트를 선택한다. 더 많은 변형을 위해 음성 생성 접근 방식에 의해 각각의 인스턴스를 참조하는 새로운 응답 세트가 생성될 수 있다. 도면 부호 12로 표시된 단계에서 시각적 인스턴스 가운데 어느 것이 어떤 문구로 사용되었는지가 메모리(6)에 전달된다. 이런 방식으로, 동일한 인스턴스와 관련하여 비교적 짧은 기간에 연속적인 음성 출력들이 중복되는 것이 방지될 수 있다.

이에 따라, 시스템(1)에 의해, 사용자에게 음성으로 전달될 수 있는 확장된 범위의 유용한 정보가 제공된다. 내부 카메라(3)에 의한 이미지 분석에 의해 음성 분석만으로는 생성될 수 없을 컨텍스트 정보를 사용할 수 있다. 예를 들어 차량 내에 있는 사람에 대해 감지할 수 있는 특성, 예를 들면 성인인지 아동인지가 이에 해당한다. 이러한 추가적인 정보는 언어적으로 전달되는 명령 처리에 고려될 수 있다. 이는 대화의 자연스러움을 높이고, 또한, 특히 교통에 대한 사용자의 집중력을 저하하지 않고 차량 주변의 환경 상황이 허용하는 경우, 대화를 부드럽게 하기 위해 칫챗 요소, 즉 직접적인 정보 내용이 없는 언어적 강화가 포함될 수 있다. 이로 인해 전체적으로 시스템(1)의 보다 지능적이 되고, 결국 대화의 자연스러움도 촉진되어 이에 따라 사용자에게서 시스템(1)의 수용성이 높아진다.

이하의 도 2 내지 도 5를 기초로 구체적인 예시를 이용하여 언어적 강화와 관련한 몇몇 상황을 설명한다.

제1 방법에 따르면, 시각적 참조를 포함한 순수한 엔터테인먼트 요소가 강화로 생성될 수 있다. 도 2에 도시된 상황이 예시를 제공할 수 있다. 전체적으로 도면 부호 13으로 표시된 차량 내부에서 카메라(3)를 식별할 수 있다. 카메라(3)에 의해 도면 부호 14로 표시된 우산이 물체로 감지된다. 위에서 이미 예시로 설명된 바와 같이, 날씨에 대한 질문에 대응하여, 음성 출력은 "해가 반짝입니다" 출력을 필수 부분으로서 포함할 수 있고, 인스턴스인 우산(14)과 관련하여 강화로서 "우산은 필요하지 않겠네요"를 추가할 수 있다. 이는 순수한 엔터테인먼트 요소에 대한 예시이며, 카메라(3) 형태의 시각 센서에 의해 감지된 우산(14)이 이용됨으로써 매우 자연스러운 효과를 준다.

도 3의 도면에는 이제 다른 상황이 도시된다. 차량 내부(13)에서 내부 카메라(3)에 의해 예를 들어 센터 콘솔에 휴대폰(15)이 노출되었음을 감지된다. 음성 입력 및 마이크(4)에 의해 "차량을 주차하십시오" 명령이 출력되는 상황에서 이 명령이 수행되고 차량이 상응하게 주차된다. 동시에, "주의하십시오, 휴대폰이 센터 콘솔에 노출되어 있습니다"라는 내용이 사용자에게 지적되면서, 음성 출력으로서 유용한 정보가 사용자에게 출력될 수 있다. 즉, 사용자가 주차 후 차량을 떠나는 경우, 자신의 휴대폰을 잊거나 또는 적어도 차량 안에 휴대폰이 보임으로 인해 파손 및 도난의 위험을 방지하기 위해 밖에서 보이지 않게 차량 내에 보관하도록 사용자가 안내를 받을 수 있다.

생각할 수 있는 또 다른 방법은 물체 외에 사람도 함께 고려되는 데 있다. 예를 들어 이는 레스토랑 예약을 포함할 수 있다. 도 4의 도면에서 차량 내부(13)에는 내부 카메라(3)에 의해 감지된 두 사람, 차량 운전자(16) 한 사람과 동반자석에 있는 한 사람(17)이 있다. 두 사람은 성인으로 감지되고 상응하는 클래스에 할당된다. 이제 음성 명령 "레스토랑으로 이동해"에 대해 예를 들어 "네, XY 레스토랑에 두 사람을 예약하겠습니다"와 같은 음성 출력이 이루어질 수 있다. 시스템(1)은 차량에 있는 사람들(16, 17)에 직접적으로 반응할 수 있고, 추가 요청 없이 사람들 또는 이들의 수 및/또는 특성과 관련된 다른 동작을 수행하거나 적어도 제안할 수 있다.

도 5의 도면에서 대안적인 시나리오를 볼 수 있다. 도 4의 시나리오와 유일한 차이점은, 한 명의 성인(17) 대신 아동(18)이 감지된다는 것이다. "레스토랑으로 이동해"라는 음성 명령이 부여된 동일한 상황에서 이제 응답은 "네, 어린이 친화적인 레스토랑을 찾고 있습니다"와 같을 수 있다. 즉, 이 경우도 시스템(1)은 내부 카메라(3) 형태의 시각 센서에 의해 감지된 구체적인 상황을 파악한 후, 상응하는 상황 및 음성 입력에 대해 사용자를 위해 "지능적이고 인간과 비슷하게" 반응한다. 사용자에게 대응할 기회를 제공하기 위해 음성 출력은 "네, 어린이 친화적인 레스토랑을 찾아볼까요?"와 같이 질문으로 표현될 수도 있고, 이에 대해 사용자는 예를 들어 "그래"라고 대답할 수 있을 것이다.

Claims

음성 입력에 대한 반응으로 차량에서 음성 출력을 생성하는 방법으로서, 음성 입력 외에 추가적인 정보가 적어도 하나의 센서(3)에 의해 기록되고, 이에 따라 상기 음성 출력의 기초가 되는 상기 음성 입력 및 센서 데이터의 분석이 이루어지는 방법에 있어서,
상기 차량 내부(13)를 감지하는 적어도 하나의 이미징 센서(3)가 사용되고, 물체(14, 15) 및/또는 사람(16, 17, 18)이 분석된 후 사전 설정된 클래스에 할당되고, 상기 음성 입력의 분석 결과를 기초로 상기 음성 출력이 생성된 후 상기 클래스에 적합한 코드워드 또는 문구로 강화되는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제1항에 있어서,
상기 음성 입력의 상기 분석 결과와 상기 클래스 사이의 연관성의 의미론적 분석이 이루어지고, 의미론적으로 상기 음성 입력의 상기 분석 결과에 연결된 클래스 및/또는 코드워드가 상기 음성 출력의 강화에 사용되는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제2항에 있어서,
상기 클래스에 의미론적으로 유사한 코드워드가 데이터베이스에서 할당되고 상기 음성 출력의 강화에 사용되는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 음성 출력에 대한 사용자의 언어적 및/또는 시각적 반응이 기록 및 분석되고, 상기 반응이 긍정적인 반응 또는 부정적인 반응으로 분류된 후 상기 음성 강화가 이 분류에 맞추어 조정되는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 음성 출력이 저장되고, 새로 생성된 음성 출력은 출력되기 전에 동일한 의미론의 클래스에서 마지막으로 저장된 적어도 하나의 음성 출력과 비교된 후 포괄적으로 일치하는 경우 폐기되는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제5항에 있어서,
동일한 의미론의 각 클래스에 대해 각각 사전 설정된 수의 최근 음성 출력이 저장되는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
추가적으로, 상기 차량의 주변 상황이 센서들 및/또는 서버를 통해 제공되는 데이터에 의해 기록되고, 상기 차량을 중심으로 한 상기 주변 상황에 따라 상기 음성 출력의 강화 정도가 조정되는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제7항에 있어서,
상기 강화의 정도는 강화 없음에서 출발하여 적어도 하나의 중간 단계를 거쳐 강한 강화까지 이르고, 따라서 상기 강화의 정도가 낮을수록, 상기 주변 상황은 복잡한 것을 특징으로 하는, 음성 출력을 생성하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 강화의 정도는 조작 요소에서 사용자의 조정에 의해 사전 선택될 수 있는 것을 특징으로 하는, 음성 출력을 생성하는 방법.
차량 사용자(16, 17, 18)와 멀티모달 의사소통을 하는 장치로서, 음성 입력을 기록하는 적어도 하나의 마이크(4)와, 추가적인 정보를 기록하는 적어도 하나의 센서(3)와, 적어도 하나의 음성 출력과, 적어도 하나의 제어 장치를 포함하는 장치에 있어서,
상기 제어 장치는 제1항 내지 제3항 중 어느 한 항을 따른 방법을 수행하도록 구성되는 것을 특징으로 하는, 장치.