KR20210013726A

KR20210013726A - 컨텍스트 인식 내비게이션 음성 어시스턴트

Info

Publication number: KR20210013726A
Application number: KR1020207037475A
Authority: KR
Inventors: 미글 파데지마이테; 새미 엘 가잘
Original assignee: 구글 엘엘씨
Priority date: 2018-11-02
Filing date: 2018-11-02
Publication date: 2021-02-05
Also published as: CN112368547A; US20240328807A1; JP2021530676A; US11725957B2; WO2020091806A1; US20210404833A1; JP7121145B2; US20230332913A1; US12038300B2; KR102655342B1; EP3784988A1; KR20230096136A; CN112368547B

Abstract

컨텍스트 인식 오디오 내비게이션 지시를 제공하기 위해, 서버 디바이스는 오디오 내비게이션 지시가 제공된 컨텍스트를 기술하는 센서 데이터 및 운전자가 오디오 내비게이션 지시에 올바르게 응답했는지 여부에 대한 표시와 함께 이전에 사용자에게 제공된 오디오 내비게이션 지시의 세트를 획득한다. 서버 디바이스는 이 데이터를 사용하여 기계 학습 모델을 트레이닝하고, 상기 기계 학습 모델은 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별한다. 내비게이션 길안내에 대한 요청에 응답하여, 서버 디바이스는 클라이언트 컴퓨팅 디바이스를 주변 환경을 나타내는 요청을 생성하는 클라이언트 컴퓨팅 디바이스로부터의 센서 데이터를 수신한다. 그 다음 서버 디바이스는 센서 데이터 및 내비게이션 지시를 기계 학습 모델에 적용하여 요청에 응답하는 오디오 내비게이션 지시의 세트를 생성한다. 서버 디바이스는 클라이언트 컴퓨팅 디바이스에 오디오 내비게이션 지시의 세트를 제공한다.

Description

컨텍스트 인식 내비게이션 음성 어시스턴트

본 개시는 컨텍스트 인식 오디오 내비게이션 지시에 관한 것으로, 특히 컨텍스트에 기초하여 오디오 내비게이션 지시에 대한 최적의 파라미터를 식별하기 위해 기계 학습 기법을 사용하는 것에 관한 것이다.

본 명세서에 제공된 배경기술은 본 발명의 컨텍스트를 일반적으로 제시하기 위한 목적이다. 본 배경기술 섹션에서 기술되는 범위까지 현재 명명된 발명자들의 성과 뿐만 아니라 출원 시점에 선행기술로서 인정되지 않는 기술의 양태들은 본 발명에 대한 선행기술로서 명시적으로 또는 묵시적으로도 인정되지 않는다.

오늘날 컴퓨터, 스마트폰 등에서 실행되는 소프트웨어 애플리케이션 또는 임베디드 디바이스는 단계별 내비게이션 길안내를 생성한다. 일반적으로, 사용자는 출발 위치 및 목적지를 특정하고, 소프트웨어 애플리케이션은 길안내를 즉시 및/또는 사용자가 출발 위치로부터 목적지로 이동함에 따라 디스플레이 및/또는 오디오 포맷으로 제시한다.

이러한 소프트웨어 애플리케이션은 일반적으로 거리, 거리 이름, 건물 번호 표시를 활용하여, 경로를 기반으로 내비게이션 길안내를 생성한다. 예를 들어, 이러한 시스템은 "4분의 1마일을 간 다음 메이플 스트리트로 우회전"과 같은 지시를 운전자에게 제공할 수 있다.

컨텍스트 인식 오디오 내비게이션 지시를 생성하기 위해, 컨텍스트 인식 오디오 내비게이션 생성 시스템은 기계 학습 기법을 활용하여 컨텍스트가 주어진 오디오 내비게이션 길안내에 대한 사용자의 과거 경험에 기초하여 기계 학습 모델을 생성한다. 예를 들어, 라디오가 너무 크게 재생되거나 트럭이 지나가는 경우 사용자가 오디오 내비게이션 지시를 따르지 못했을 수 있다. 또 다른 예에서, 사용자는 다가오는 기동을 위한 도로 표지판을 보기 어려웠거나 야간 및/또는 기상 조건으로 인해 가시성이 좋지 않았던 경우, 오디오 내비게이션 지시를 따르지 못했을 수 있다.

따라서, 컨텍스트 인식 오디오 내비게이션 생성 시스템은 오디오 내비게이션 지시가 제공되었던 차량의 센서로부터 컨텍스트 데이터와 함께 사용자에게 제공되는 오디오 내비게이션 지시의 세트를 수집한다. 사용자에게 제공되는 각 오디오 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성 시스템은 사용자가 오디오 내비게이션 지시를 올바르게 따랐는지 여부에 대한 표시를 수집한다. 이 정보는 특정한 컨텍스트에 대한 최적의 오디오 내비게이션 지시 파라미터를 식별하기 위해 기계 학습 모델을 트레이닝하기 위한 트레이닝 데이터로 사용된다. 예를 들어, 차량 내 소음이 적고 교통량이 적으며 시간이나 기상 조건으로 인해 시인성이 좋지 않은 경우, 기계 학습 모델은 오디오 내비게이션 지시를 낮은 볼륨으로 "500 피트 후, 메인 스트리트의 신호등을 지나 좌회전" 및 "100 피트 후, 메인 스트리트의 신호등을 지나 좌회전"과 같은 높은 수준의 세부 사항으로 두 번 제시해야 한다고 결정할 수 있다.

사용자가 내비게이션 길안내를 요청하면, 컨텍스트 인식 오디오 내비게이션 생성 시스템은 턴-바이-턴 내비게이션 지시를 생성하고, 컨텍스트를 나타내는 사용자의 차량으로부터의 센서 데이터를 획득한다. 각 텍스트 기반 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성 시스템은 센서 데이터 및 텍스트 기반 내비게이션 지시를 기계 학습 모델에 적용하여 세부 사항의 수준, 타이밍 및/또는 오디오 내비게이션 지시를 제시하기 위한 볼륨과 같은 오디오 내비게이션 지시를 생성한다. 그 다음 컨텍스트 인식 오디오 내비게이션 생성 시스템은 결정된 오디오 내비게이션 지시 파라미터에 따라 각 오디오 내비게이션 지시를 사용자에게 제시한다.

본 개시의 기법의 하나의 예시적 실시예는 차량에서 컨텍스트 인식 오디오 내비게이션 지시를 생성하기 위한 방법이다. 상기 방법은 (i) 차량 내 복수의 센서 신호 및 (ii) 운전자가 상기 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 사용하여 기계 학습 모델을 트레이닝하는 단계, 상기 센서 신호는 오디오 내비게이션 안내가 제공되는 컨텍스트를 기술하며, 그리고 상기 운전자에게 제공될 내비게이션 지시를 결정하는 단계를 포함한다. 상기 방법은 하나 이상의 센서 신호를 수신하는 것을 포함하여, 결정된 내비게이션 지시에 기초하여 오디오 내비게이션 지시를 생성하는 단계, 및 (i) 상기 오디오 내비게이션 지시의 세부 사항의 수준, (ii) 상기 오디오 내비게이션 지시를 제공하는 타이밍, 또는 (iii) 상기 오디오 내비게이션 지시의 볼륨 중 적어도 하나를 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 기계 학습 모델을 적용하는 단계를 포함한다. 추가적으로, 스피커를 통해 운전자에게 제시하기 위해 상기 오디오 내비게이션 지시를 제공하는 단계를 포함한다.

다른 예시적 실시예는 차량에서 컨텍스트 인식 오디오 내비게이션 지시를 생성하기 위한 서버 디바이스이며, 서버 디바이스는 하나 이상의 프로세서 및 하나 이상의 프로세서에 결합되고 명령어를 저장하는 비일시적 컴퓨터 판독가능 메모리를 포함한다. 명령어는 하나 이상의 프로세서에 의해 실행될 때 서버 디바이스로 하여금 (i) 차량 내 복수의 센서 신호 및 (ii) 운전자가 상기 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 사용하여 기계 학습 모델을 트레이닝하게 하며, 상기 센서 신호는 오디오 내비게이션 안내가 제공되는 컨텍스트를 기술한다. 또한 명령어는 상기 서버 디바이스로 하여금 상기 운전자에게 제공될 내비게이션 지시를 결정하게 하고, 하나 이상의 센서 신호를 수신하는 것을 포함하여, 결정된 내비게이션 지시에 기초하여 오디오 내비게이션 지시를 생성하게 하고, 및 (i) 상기 오디오 내비게이션 지시의 세부 사항의 수준, (ii) 상기 오디오 내비게이션 지시를 제공하는 타이밍, 또는 (iii) 상기 오디오 내비게이션 지시의 볼륨 중 적어도 하나를 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 기계 학습 모델을 적용하게 한다. 또한, 상기 명령어는 상기 서버 디바이스로 하여금 스피커를 통해 운전자에게 제시하기 위해 상기 오디오 내비게이션 지시를 제공하게 한다.

다른 예시적 실시예는 차량에서 컨텍스트 인식 오디오 내비게이션 지시를 제시하기 위한 클라이언트 디바이스이며, 클라이언트 디바이스는 하나 이상의 프로세서 및 하나 이상의 프로세서에 결합되고 명령어를 저장하는 비일시적 컴퓨터 판독가능 메모리를 포함한다. 명령어는 하나 이상의 프로세서에 의해 실행될 때, 클라이언트 디바이스로 하여금 제1 인스턴스에서: 제1 시작 위치로부터 제1 목적지까지의 내비게이션 길안내에 대한 요청을 제공하게 하며, 차량에 제1 세트의 센서 신호를 제공하게 하며, 특정한 타이밍 또는 볼륨으로 제시될 특정한 수준의 세부 사항을 갖는 제1 오디오 내비게이션 지시를 포함하는 제1 세트의 오디오 내비게이션 지시를 수신하게 하며, 그리고 스피커를 통해, 상기 제1 세트의 오디오 내비게이션 지시를 제시하게 한다. 제2 인스턴스에서, 명령어는 상기 클라이언트 디바이스로 하여금 제2 시작 위치로부터 제2 목적지까지의 내비게이션 길안내에 대한 요청을 제공하게 하며, 차량에 제2 세트의 센서 신호를 제공하게 하며, 상기 제1 인스턴스에서와 동일한 방향, 위치 또는 기동을 갖고 상기 제1 인스턴스에서와 다른 수준의 세부 사항을 갖는 또는 상기 제1 인스턴스에서와 다른 타이밍 또는 볼륨으로 제시될, 상기 제1 오디오 내비게이션 지시를 포함하는 제2 세트의 오디오 내비게이션 지시를 수신하게 하며, 그리고 스피커를 통해, 상기 제2 세트의 오디오 내비게이션 지시를 제시하게 한다.

도 1은 본 개시 내용의 기법이 컨텍스트 인식 오디오 내비게이션 지시를 생성하기 위해 사용될 수 있는 예시적 차량을 도시한다.
도 2는 기계 학습 기법을 사용하여 컨텍스트 인식 오디오 내비게이션 지시를 생성하기 위한 기법이 구현될 수 있는 예시적 시스템의 블록도이다.
도 3은 도 2의 컨텍스트 인식 오디오 내비게이션 생성 시스템이 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위한 기계 학습 모델을 생성하기 위해 활용할 수 있는 예시적 내비게이션 지시 데이터 테이블이다.
도 4는 기계 학습 모델을 사용하여 컨텍스트 인식 오디오 내비게이션 지시의 생성을 도시하는 결합된 블록 및 논리 다이어그램이다.
도 5는 컨텍스트 인식 오디오 내비게이션 생성 시스템에서 동작하거나 이와 협력하는 컴퓨팅 디바이스에서 구현될 수 있는 차량에서 컨텍스트 인식 오디오 내비게이션 지시를 생성하기 위한 예시적 방법의 흐름도이다.
도 6은 컨텍스트 인식 오디오 내비게이션 생성 시스템에서 동작하거나 이와 협력하는 컴퓨팅 디바이스에서 구현될 수 있는 차량에서 컨텍스트 인식 오디오 내비게이션 지시를 제시하기 위한 예시적 방법의 흐름도이다.

개요

차량 내 내비게이션 시스템에 의해 제공되는 오디오 지시는 일반적으로 정보를 제공해야 하며, 따라야 할 경로에 대해 충분한 지시를 제공해야 하지만 듣는 사람, 특히 운전자를 불필요하게 방해하지 않아야 한다. 환경이 변하면, 이러한 오디오 지시에 대한 최적의 파라미터도 변경될 수 있다. 환경은 비교적 짧은 시간 프레임에 걸쳐 변경될 수 있으므로, 파라미터가 변경될 수 있는 속도가 중요할 수 있다. 더욱이, 사용자, 특히 운전자는 오디오 파라미터의 수동 조정이 바람직하지 않을 수 있도록 수행할 수 있는 수동 입력 동작의 범위에서 제한될 수 있다. 이와 같이, 개선된 시스템 사용자 오디오 인터페이스가 도움이 될 수 있다.

일부 실시예에서, 센서는 오디오 내비게이션 지시가 제공되는 컨텍스트의 표시를 제공하기 위해 활용될 수 있다. 예를 들어, 소음을 검출하기 위한 오디오 센서는 교통 소음, 말하기, 음악 재생 등과 같은 배경 소음의 형태로 컨텍스트를 제공하는데 사용될 수 있다. 다른 예로서, 교통 데이터가 획득될 수 있고 및/또는 기상 조건 및 시간이 결정되어 차량 주위의 교통량 및 날씨에 관한 컨텍스트를 제공하며, 이는 운전자가 운전하는데 주의를 기울여야 함을 표시하며, 차례로 운전자가 오디오 내비게이션 지시에 주의를 기울이는 것에 영향을 미칠 수 있다. 일부 실시예에서, 기계 학습 모델은 센서로부터 도출된 컨텍스트에 따라 스피커 또는 다른 오디오 시스템에 의해 출력되는 오디오 지시를 적응시키기 위해 오디오 내비게이션 지시의 파라미터를 결정하기 위해 적용될 수 있다. 이는 스피커 또는 다른 오디오 시스템에 의해 출력되는 오디오 내비게이션 지시가 사용자에게 과도한 부담을 주지 않고 및/또는 과도한 지연없이 즉석에서 현재 컨텍스트에 동적으로 자동으로 적응되도록 할 수 있다.

실시예에서, 운전자가 오디오 내비게이션 지시에 올바르게 응답했는지 여부에 대한 표시가 결정될 수 있으며(예를 들어, 내비게이션 길안내에 따른 예상 포지션에 대한 차량의 포지션에 기초하여), 이는 연관된 센서와 함께 사용되어, 기계 학습 모델을 트레이닝한다. 이것은 모델이 동적으로 업데이트되도록 할 수 있으며, 이는 특히 특정한 내비게이션 시스템이 노출되는 컨텍스트와 관련하여 오디오 내비게이션 지시의 파라미터의 자동 적응을 개선할 수 있다.

예시적 하드웨어 및 소프트웨어 컴포넌트들

도 1을 참조하면, 상술한 기법이 구현될 수 있는 예시적 환경(1)은 휴대용 디바이스(10) 및 헤드 유닛(14)을 가진 차량(12)을 포함한다. 휴대용 디바이스(10)는 예를 들어 스마트폰, 태블릿 컴퓨터 또는 차량용 내비게이션 시스템일 수 있다. 휴대용 디바이스(10)는 유선(예: USB(Universal Serial Bus)) 또는 무선(예: Bluetooth, Wi-Fi Direct)일 수 있는 통신 링크(16)를 통해 차량(12)의 헤드 유닛(14)과 통신한다. 휴대용 디바이스(10)는 또한 4세대 또는 3세대 셀룰러 네트워크(각각 4G 또는 3G)와 같은 무선 통신 네트워크를 통해 다양한 컨텐츠 제공자, 서버 등과 통신할 수 있다.

헤드 유닛(14)은 디지털 지도와 같은 내비게이션 정보를 제시하기 위한 디스플레이(18)를 포함할 수 있다. 일부 구현예에서 디스플레이(18)는 터치 스크린이고, 목적지의 이름 또는 주소, 출발지 등을 포함할 수 있는 텍스트 입력을 위한 소프트웨어 키보드를 포함한다. 헤드 유닛(14) 및 스티어링휠의 하드웨어 입력 제어(20 및 22)는 각각 영숫자 문자를 입력하거나 내비게이션 길안내를 요청하는 다른 기능을 수행하는데 사용될 수 있다. 헤드 유닛(14)은 또한 예를 들어 마이크로폰(24) 및 스피커(26)와 같은 오디오 입력 및 출력 컴포넌트를 포함할 수 있다. 스피커(26)는 휴대용 디바이스(10)로부터 전송된 오디오 지시를 재생하는데 사용될 수 있다.

컨텍스트 인식 오디오 내비게이션 생성 시스템이 구현될 수 있는 예시적 통신 시스템(100)이 도 2에 도시된다. 통신 시스템(100)은 "지도 애플리케이션(122)"으로도 지칭될 수 있는 지리적 애플리케이션(122)을 실행하도록 구성된 클라이언트 컴퓨팅 디바이스(10)를 포함한다. 구현예에 따라, 애플리케이션(122)은 인터렉티브 디지털 지도를 디스플레이하고, 운전, 도보 또는 오디오 내비게이션 길안내를 포함하는 다른 내비게이션 길안내를 제공하기 위해 라우팅 데이터를 요청 및 수신하고, 다양한 지리적 위치를 제공하는 컨텐츠 등을 제공할 수 있다. 클라이언트 컴퓨팅 디바이스(10)는 사용자(본 명세서에서 "운전자"라고도 함)에 의해 동작되어 다양한 위치로 내비게이션하는 동안 디지털 지도를 디스플레이한다.

클라이언트 컴퓨팅 디바이스(10)에 추가하여, 통신 시스템(100)은 클라이언트 디바이스(10)에 컨텍스트 인식 오디오 내비게이션 지시를 제공하도록 구성된 서버 디바이스(60)를 포함한다. 서버 디바이스(60)는 예시적 구현예에서, 기계 학습 모델을 트레이닝하기 위한 트레이닝 데이터에 추가하여, 오디오 내비게이션 지시를 생성하기 위한 기계 학습 모델을 저장하는 데이터베이스(80)에 통신가능하게 결합될 수 있다. 트레이닝 데이터는 오디오 내비게이션 지시의 세부 사항의 수준, 오디오 내비게이션 지시의 타이밍, 오디오 내비게이션 지시의 볼륨 등과 같은 각 오디오 내비게이션 지시에 대한 파라미터를 포함하여 사용자에게 제공되는 오디오 내비게이션 지시 세트를 포함할 수 있다. 추가적으로, 각 오디오 내비게이션 지시에 대해, 트레이닝 데이터는 오디오 내비게이션 지시를 수신한 사용자의 차량으로부터의 센서 데이터를 포함할 수 있다. 센서 데이터는 오디오 내비게이션 지시가 제공되는 컨텍스트를 기술할 수 있다. 센서 데이터는 사용자의 차량 주변 지역에 대한 교통 데이터, 시간, 사용자의 차량 주변 지역에 대한 날씨 데이터와 같은 가시성 데이터 및/또는 오디오 내비게이션 지시가 제시되었던 사용자의 현재 위치를 나타내는 위치 데이터, 배경 음악 또는 차량에서 말하는 소리, 거리 소음, 경적 소리, 전화 벨소리 등과 같이 차량 내부 또는 주위의 소음 수준을 나타내는 오디오 데이터를 포함할 수 있다. 또한, 각각의 오디오 내비게이션 지시에 대해, 트레이닝 데이터는 사용자가 오디오 내비게이션 지시를 올바르게 따랐는지 또는 이에 응답했는지의 표시 및/또는 오디오 내비게이션 지시에 대한 사용자의 만족도에 관한 자체 보고 표시를 포함할 수 있다. 트레이닝 데이터는 도 3을 참조하여 아래에서 더 자세히 기술된다.

보다 일반적으로, 서버 디바이스(60)는 지리적 컨텍스트와 링크될 수 있는 임의의 유형의 적합한 지리 공간 정보 또는 정보를 저장하는 하나 이상의 데이터베이스와 통신할 수 있다. 통신 시스템(100)은 예를 들어, 운전, 도보, 자전거 또는 대중 교통 길안내를 제공하는 내비게이션 데이터 서버(34)를 포함할 수 있다. 또한, 통신 시스템(100)은 지도 디스플레이를 생성하기 위한 지도 데이터를 서버 디바이스(60)에 제공하는 지도 데이터 서버(50)를 포함할 수 있다. 통신 시스템(100)에서 동작하는 디바이스는 통신 네트워크(30)를 통해 상호 연결될 수 있다.

다양한 구현예에서, 클라이언트 컴퓨팅 디바이스(10)는 스마트폰 또는 태블릿 컴퓨터일 수 있다. 클라이언트 컴퓨팅 디바이스(10)는 메모리(120), 하나 이상의 프로세서(CPU)(116), GPU(graphics processing unit)(112), 마이크로폰 및 스피커를 포함하는 I/O 모듈(14), 사용자 인터페이스(UI)(32) 및 GPS 모듈을 포함하는 하나 이상의 센서(19)를 포함할 수 있다. 메모리(120)는 비일시적 메모리일 수 있으며, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 플래시 메모리, 다른 유형의 영구적 메모리 등과 같은 하나 이상의 적절한 메모리 모듈을 포함할 수 있다. I/O 모듈(114)은 예를 들어 터치 스크린일 수 있다. 다양한 구현예에서, 클라이언트 컴퓨팅 디바이스(10)는 도 2에 도시된 것보다 적은 수의 컴포넌트를 포함하거나 반대로 추가적 컴포넌트를 포함할 수 있다. 다른 실시예에서, 클라이언트 컴퓨팅 디바이스(10)는 임의의 적절한 휴대용 또는 비휴대용 컴퓨팅 디바이스일 수 있다. 예를 들어, 클라이언트 컴퓨팅 디바이스(10)는 랩톱 컴퓨터, 데스크톱 컴퓨터, 스마트 워치 또는 스마트 글래스와 같은 웨어러블 디바이스 등일 수 있다.

메모리(120)는 임의의 유형의 적합한 모바일 또는 범용 운영 체제일 수 있는 운영 체제(OS)(126)를 저장한다. OS(126)는 애플리케이션이 센서 판독 값을 검색할 수 있게 하는 애플리케이션 프로그래밍 인터페이스(API) 기능을 포함할 수 있다. 예를 들어, 컴퓨팅 디바이스(10)에서 실행하도록 구성된 소프트웨어 애플리케이션은 그 순간에 클라이언트 컴퓨팅 디바이스(10)의 현재 위치를 검색하기 위해 OS(126) API를 호출하는 명령어를 포함할 수 있다. API는 API가 추정치에 얼마나 확실한지에 대한 정량적 표시를 반환할 수 있다(예: 백분율).

메모리(120)는 또한 상기 표시된 바와 같이 인터렉티브 디지털 지도를 생성하고 및/또는 다른 지리적 기능을 수행하도록 구성된 지도 애플리케이션(122)을 저장한다. 지도 애플리케이션(122)은 내비게이션 지시, 오디오 내비게이션 지시 및/또는 오디오 내비게이션 지시 파라미터를 수신하고, 내비게이션 디스플레이(124)를 통해 오디오 내비게이션 지시 파라미터에 따라 오디오 내비게이션 지시를 제시할 수 있다. 지도 애플리케이션(122)은 운전, 도보 또는 대중 교통 길안내를 디스플레이할 수 있고, 일반적으로 지리, 지리위치 내비게이션 등과 관련된 기능을 내비게이션 디스플레이(124)를 통해 제공한다.

비록 도 2가 지도 애플리케이션(122)을 독립형 애플리케이션으로서 도시하지만, 지도 애플리케이션(122)의 기능은 또한 클라이언트 컴퓨팅 디바이스(10) 상에서 실행되는 웹 브라우저를 통해 액세스 가능한 온라인 서비스의 형태로 클라이언트 컴퓨팅 디바이스(10) 상에서 실행되는 다른 소프트웨어 애플리케이션에 대한 플러그인 또는 확장으로서 제공될 수 있다. 맵핑 애플리케이션(122)은 일반적으로 상이한 각각의 운영 체제에 대해 상이한 버전으로 제공될 수 있다. 예를 들어, 클라이언트 컴퓨팅 디바이스(10)의 제조사는 Android™ 플랫폼용 맵핑 애플리케이션(122), iOS™ 플랫폼용 다른 SDK 등을 포함하는 SDK(Software Development Kit)를 제공할 수 있다.

일부 구현예에서, 서버 디바이스(60)는 하나 이상의 프로세서(62) 및 메모리(64)를 포함한다. 메모리(64)는 유형적, 비일시적 메모리일 수 있으며, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 플래시 메모리, 다른 유형의 영구적 메모리 등과 같은 임의의 유형의 적절한 메모리 모듈을 포함할 수 있다. 메모리(64)는 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위한 기계 학습 모델을 생성할 수 있는 컨텍스트 인식 오디오 내비게이션 생성기(68)를 구성하는 프로세서(62)에서 실행 가능한 명령어를 저장한다. 컨텍스트 인식 오디오 내비게이션 생성기(68)는 또한 사용자 주변 외부 환경의 컨텍스트를 기술하는 센서 데이터와 함께 시작 위치로부터 목적지까지의 사용자에 대한 내비게이션 길안내에 대한 요청을 수신할 수 있다. 컨텍스트 인식 오디오 내비게이션 생성기(68)는 텍스트 기반 내비게이션 지시를 검색하고, 텍스트 기반 내비게이션 지시 및 센서 데이터를 기계 학습 모델에 적용하여 오디오 내비게이션 지시를 생성할 수 있다. 추가적으로, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 스피커(26)를 통해 내비게이션 디스플레이(124)에 의해 제시되는 오디오 내비게이션 지시를 클라이언트 컴퓨팅 디바이스(10)에 제공할 수 있다. 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 아래에서 더 상세히 설명되는 기계 학습 엔진을 포함한다.

컨텍스트 인식 오디오 내비게이션 생성기(68) 및 내비게이션 디스플레이(124)는 컨텍스트 인식 오디오 내비게이션 생성 시스템의 컴포넌트로서 동작할 수 있다. 대안적으로, 컨텍스트 인식 오디오 내비게이션 생성 시스템은 서버 측 컴포넌트만을 포함할 수 있고, 오디오 내비게이션 지시를 제시하기 위한 명령어를 내비게이션 디스플레이(124)에 제공할 수 있다. 다시 말해서, 이들 실시예에서의 컨텍스트 인식 내비게이션 생성 기법은 내비게이션 디스플레이(124)에 투명하게 구현될 수 있다. 다른 대안으로서, 컨텍스트 인식 오디오 내비게이션 생성기(68)의 전체 기능은 내비게이션 디스플레이(124)에서 구현될 수 있다.

간단히 하기 위해, 도 2은 서버의 단지 하나의 인스턴스로서 서버 디바이스(60)를 도시한다. 그러나, 일부 구현예에 따른 서버 디바이스(60)는 각각 하나 이상의 프로세서를 구비하고 다른 서버 디바이스와 독립적으로 동작할 수 있는 하나 이상의 서버 디바이스의 그룹을 포함한다. 이러한 그룹에서 동작하는 서버 디바이스는 요청을 프로세싱하는 것과 연관된 하나의 동작이 하나의 서버 디바이스에서 수행되고, 동일한 요청을 프로세싱하는 것과 연관된 다른 동작은 다른 서버 디바이스에서 수행되거나 또는 임의의 기타 적절한 기법에 따라 수행되는 분산 방식으로 조직/광고주 컴퓨팅 디바이스(10)로부터의 요청을 개별적으로(예를 들어, 가용성에 기초하여) 프로세싱할 수 있다. 이 논의의 목적상, "서버 디바이스"라는 용어는 개별 서버 디바이스 또는 둘 이상의 서버 디바이스의 그룹을 지칭할 수 있다.

동작시, 클라이언트 컴퓨팅 디바이스(10)에서 동작하는 내비게이션 디스플레이(124)는 데이터를 수신하고 서버 디바이스(60)에 전송한다. 따라서, 일 예에서, 클라이언트 컴퓨팅 디바이스(10)는 클라이언트 컴퓨팅 디바이스(10) 주변 환경을 나타내는 센서 데이터를 포함하고, 출발 위치로부터 목적지까지의 내비게이션 길안내를 요청하는 것을 포함하는 컨텍스트 인식 오디오 내비게이션 생성기(68)(서버 디바이스(60)에서 구현됨)에 통신을 전송할 수 있다. 따라서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시 세트를 생성하기 위해 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위해 요청에 포함된 데이터를 기계 학습 모델에 적용할 수 있다.

예를 들어, 사용자는 사용자의 현재 위치로부터 특정한 레스토랑으로 가는 내비게이션 길안내를 요청할 수 있다. 클라이언트 컴퓨팅 디바이스(10)는 또한 교통량이 적은 낮시간, 맑은 날씨 및 거리 소음으로 인한 높은 소음 수준의 표시를 포함하는 센서 데이터를 서버 디바이스(60)에 제공할 수 있다. 그 결과, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 제1 오디오 내비게이션 지시가 낮은 수준의 세부 사항을 가져야하고, 높은 볼륨으로 3회 제시되어야 한다고 결정할 수 있다. 컨텍스트 인식 오디오 내비게이션 생성기(68)는 사용자가 사용자의 현재 위치로부터 메인 스트리트까지의 업데이트된 거리 X 피트로 메인 스트리트에 접근함에 따라, 높은 볼륨으로 각각 3번 제시될 "X 피트 후, 메인 스트리트에서 우회전"과 같은 제1 오디오 내비게이션 지시를 생성할 수 있다.

컨텍스트 인식 오디오 내비게이션 생성기(68)는 클라이언트 컴퓨팅 디바이스(10)에 제1 오디오 내비게이션 지시 및/또는 오디오 내비게이션 지시 파라미터를 제공할 수 있다. 클라이언트 컴퓨팅 디바이스(10)는 스피커(26)를 통해 제1 오디오 내비게이션 지시를 제시할 수 있다. 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 클라이언트 컴퓨팅 디바이스(10)에 개별적으로 각각의 오디오 내비게이션 지시를 생성하고 제공한다. 다른 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 텍스트 기반 내비게이션 지시 세트를 생성하고 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 그 다음, 각각의 텍스트 기반 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 클라이언트 컴퓨팅 디바이스(10)로부터 센서 데이터를 수신하고, 텍스트 기반 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 생성하여 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 그 결과, 클라이언트 컴퓨팅 디바이스(10)는 오디오 내비게이션 지시 파라미터에 따라 오디오 내비게이션 지시를 생성하고 제시한다.

또한 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 동일한 내비게이션 지시의 다수의 버전을 포함하는 텍스트 기반 내비게이션 지시 세트를 생성하여 클라이언트 컴퓨팅 디바이스(10)에 제공한다(예를 들어, 내비게이션 지시의 제1 버전은 낮은 수준의 세부 사항, 내비게이션 지시의 제2 버전은 중간 수준의 세부 사항 및 내비게이션 지시의 제3 버전은 높은 수준의 세부 사항). 그 후, 각각의 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 생성하고 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 그 결과, 클라이언트 컴퓨팅 디바이스(10)는 오디오 내비게이션 지시 파라미터에 대응하는 내비게이션 지시의 버전을 제시한다.

특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위한 기계 학습 모델을 생성하기 위해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 이전에 사용자에게 제공된 오디오 내비게이션 지시 세트 및/또는 이전에 사용자에게 제공된 각 오디오 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 포함하는 트레이닝 데이터를 획득한다.

예를 들어, 위치 데이터 및/또는 다른 사용자 데이터를 공유하는 옵션을 선택한 사용자는 오디오 내비게이션 지시가 제시되었을 때 수집된 각각의 클라이언트 컴퓨팅 디바이스(10)로부터의 센서 데이터와 함께 각각의 클라이언트 컴퓨팅 디바이스(10)에 의해 제시된 오디오 내비게이션 지시 세트를 전송할 수 있다. 센서 데이터는 각 오디오 내비게이션 지시에 대해, 오디오 내비게이션 지시가 제시되었던 때의 교통량, 오디오 내비게이션 지시가 제시된 시간, 오디오 내비게이션 지시가 제시된 기상 조건, 오디오 내비게이션 지시가 제공되었던 때의 소음 수준, 오디오 내비게이션 지시가 제공되었던 때의 사용자의 현재 위치 등을 포함할 수 있다. 일부 실시예에서, 클라이언트 컴퓨팅 디바이스(10)는 클라이언트 컴퓨팅 디바이스(10)에 포함된 시계 및 마이크로폰을 통해 시간 및 소음 수준을 각각 결정한다. 날씨를 결정하기 위해, 클라이언트 컴퓨팅 디바이스(10)는 레인 센서를 포함하거나 기상청과 같은 외부 서비스와 통신할 수 있다. 예를 들어, 클라이언트 컴퓨팅 디바이스(10)는 GPS 모듈과 통신하여 현재 위치를 획득하고, 현재 위치를 포함하는 지역에 대한 날씨 데이터에 대한 요청을 기상청에 전송할 수 있다. 교통량을 결정하기 위해, 클라이언트 컴퓨팅 디바이스(10)는 현재 위치를 획득하기 위해 GPS 모듈과 통신하고, 현재 위치를 포함하는 지역에 대한 교통 데이터에 대한 요청을 트래픽 서비스에 전송할 수 있다.

임의의 경우에, 제시된 각각의 오디오 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 센서 데이터 및 사용자가 오디오 내비게이션 지시를 올바르게 따랐는지 여부의 표시를 획득한다. 예를 들어, 오디오 내비게이션 지시가 제시된 후 사용자의 현재 위치가 원래 경로의 경로와 다르기 때문에 지도 애플리케이션(122)이 새로운 경로를 생성한 경우, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 사용자가 오디오 내비게이션 지시를 올바르게 따르지 않았다는 표시를 수신할 수 있다. 또한 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 추가 트레이닝 데이터로서 오디오 내비게이션 지시에 대한 사용자의 만족도에 관한 자체 보고 표시를 획득할 수 있다. 예를 들어, 지도 애플리케이션(122)은 오디오 내비게이션 지시에 대한 불만족을 표시하기 위한 사용자 제어 및/또는 사용자가 자신의 불만을 설명하기 위한 텍스트 필드를 포함할 수 있다. 이러한 방식으로, 기계 학습 모델은 따를 가능성이 더 높고 사용자를 괴롭히거나 방해할 가능성이 적은 오디오 내비게이션 지시를 생성할 수 있다.

오디오 내비게이션 지시 세트, 오디오 내비게이션 지시 파라미터, 센서 데이터 및 사용자가 오디오 내비게이션 지시를 올바르게 따랐는지 및/또는 오디오 내비게이션 지시에 만족했는지 여부에 대한 표시는 기계 학습 기법을 사용하여 기계 학습 모델을 생성하기 위한 트레이닝 데이터로서 제공될 수 있다. 일부 실시예에서, 각각의 오디오 내비게이션 지시 파라미터에 대해 별도의 기계 학습 모델이 생성될 수 있다. 예를 들어, 오디오 내비게이션 지시에 대한 세부 사항의 수준을 결정하기 위해 하나의 기계 학습 모델이 생성될 수 있다. 오디오 내비게이션 지시를 제공하는 타이밍을 결정하기 위해 다른 기계 학습 모델이 생성될 수 있다. 오디오 내비게이션 지시에 대한 볼륨을 결정하기 위해 또 다른 기계 학습 모델이 생성될 수 있다.

기계 학습 모델을 생성하기 위한 예시적 트레이닝 데이터

도 3은 기계 학습 모델을 생성하는데 사용될 수 있는 예시적 트레이닝 데이터(300)를 도시한다. 일부 실시예에서, 트레이닝 데이터(300)는 데이터베이스(80)에 저장될 수 있다. 트레이닝 데이터(300)는 오디오 내비게이션 지시 파라미터(310), 센서 데이터(320)로부터의 컨텍스트 신호, 및 오디오 내비게이션 지시(330)에 대한 운전자 응답의 세 부분을 포함할 수 있다. 오디오 내비게이션 지시 파라미터(310)는 오디오 내비게이션 지시(302)의 세부 사항의 수준, 오디오 내비게이션 지시(304)의 타이밍, 및 내비게이션 지시(306)의 볼륨을 포함할 수 있다. 세부 사항의 수준은 높음, 중간 또는 낮음일 수 있으며, 여기서 낮은 수준의 세부 사항의 오디오 내비게이션 지시는 예를 들어 기동(예: "좌회전") 및 기동을 위한 위치 인 거리 이름(예: State Street)을 포함한다. 일부 실시예에서, 낮은 수준의 세부 사항의 오디오 내비게이션 지시는 사용자의 현재 위치로부터 기동을 위한 위치까지의 거리(예를 들어, "500 피트 이내")를 설명하는 컴포넌트를 포함하지 않는다. 중간 수준의 세부 사항의 오디오 내비게이션 지시는 예를 들어, 기동(예: "좌회전"), 기동할 위치(예: State Street)로서의 거리 이름 또는 교차로 및 사용자의 현재 위치로부터 기동 위치까지의 거리(예: "500 피트 이내")를 설명하는 컴포넌트를 포함한다. 높은 수준의 세부 사항의 오디오 내비게이션 지시는 예를 들어, 기동 위치로서의 랜드마크(예: "조의 레스토랑에서 우회전"), 기동 위치와 관련된 교통 신호 설명(예: " 1000 피트 후 두 개의 신호등을 지나서 State Street로 좌회전", "Jim's Repair Shop 옆의 다음 정지 신호에서 약간 우회전"), 사용자가 기동을 위한 위치에 도달할 때까지 예상되는 시간의 양을 설명하는 컴포넌트(예: "500 피트 또는 약 30초 후 좌회전"), 이들의 적절한 조합 또는 중간 수준의 세부 사항보다 더 자세한 내용을 포함하는 적절한 오디오 내비게이션 지시를 포함한다.

오디오 내비게이션 지시(304)의 타이밍은 오디오 내비게이션 지시(304)의 다수의 인스턴스가 제시된 횟수 또는 빈도를 나타낼 수 있다(예를 들어, 동일한 기동 및 위치를 포함하지만 운전자가 해당 위치에 접근함에 따라 위치까지의 거리 또는 예상 시간의 양을 변경하는 유사한 오디오 내비게이션 지시(304)의 다수의 인스턴스). 오디오 내비게이션 지시(304)의 타이밍은 또한 사용자가 이전 기동의 위치와 후속 기동의 위치 사이의 중간에 있을 때와 같이 오디오 내비게이션 지시(들)(304)를 제시할 시기를 나타낼 수 있다. 볼륨(306)은 데시벨(dB)로 표시되거나 낮은 볼륨(예를 들어, 제1 임계 데시벨 양 미만), 중간 볼륨(예를 들어, 제1 임계 데시벨 양과 제1 임계 데시벨보다 높은 제2 임계 데시벨 양 사이), 높은 볼륨(예: 제2 임계 데시벨 양 이상) 등으로 분류될 수 있다.

센서 데이터(320)로부터의 컨텍스트 신호는 위치(308), 기상 조건(314), 및 오디오 내비게이션 지시가 제공된 시간(316)과 같은 가시성 데이터를 포함할 수 있다. 일부 위치에서, 도로 표지판이 잘 보이지 않는 위치에 가려지거나 다른 도로 표지판과 가까운 곳에 배치되어 사용자가 기동할 거리가 더 멀다고 가정하게 할 수 있다. 데이터 테이블(300)의 위치 열(308)은 GPS 좌표를 포함하지만, 위치는 교차로, 거리 주소 또는 임의의 다른 적절한 위치일 수 있다. 추가적으로, 시간(316)은 오디오 내비게이션 지시가 제공된 정확한 시간을 포함할 수 있거나(예를 들어, 오후 9:15), 아침, 오후, 저녁 및 밤과 같은 시간 프레임을 포함할 수 있다.

센서 데이터(320)로부터의 컨텍스트 신호는 또한 가벼운 교통량, 중간 교통량 또는 과중한 교통량으로 분류된 트래픽 데이터(312)를 포함할 수 있다. 예를 들어 도로의 교통량이 적으면 도로 상의 차량이 제한 속도 이상으로 주행하고 있음을 나타낼 수 있다. 도로의 중간 교통량은 도로 상의 차량이 제한 속도 미만의 임계 속도(예: 제한 속도 5-10 mph 이내) 내에서 주행하고 있음을 나타낼 수 있다. 과중한 교통량은 도로 상의 차량이 임계 속도 미만(예: 5-10mph 미만)으로 주행하고 있음을 나타낼 수 있다.

추가로, 센서 데이터(320)로부터의 컨텍스트 신호는 배경 음악 또는 차량 내에서의 대화, 거리 소음, 경적, 전화 벨소리 등과 같이 차량 내부 또는 주변의 소음 수준을 나타내는 오디오 데이터(318)를 포함할 수 있다. 소음(318)은 데시벨(dB)로 표시되거나 조용함(예를 들어, 제1 임계 데시벨 양 미만), 중간(예를 들어, 제1 임계 데시벨 양과 제1 임계 데시벨보다 높은 제2 임계 데시벨 양 사이), 시끄러움(예: 제2 임계 데시벨 양 이상) 등으로 분류될 수 있다. 일부 실시예에서, 오디오 데이터(318)는 라디오 또는 기타 음악 재생, 거리 소음 등과 같은 소음의 소스 표시를 또한 포함할 수 있다. 예시적 트레이닝 데이터(300)는 컨텍스트 신호(320)로서 위치 데이터(308), 교통량 데이터(312), 날씨 데이터(314), 시간(316) 및 오디오 데이터(318)를 포함하며, 이들은 단지 설명의 편의를 위한 컨텍스트 신호의 몇 가지 예일 뿐이다. 클라이언트 컴퓨팅 디바이스(10)를 주변 환경을 나타내는 임의의 적절한 센서 데이터가 컨텍스트 신호(320)로서 사용될 수 있다.

오디오 내비게이션 지시 파라미터(310) 및 센서 데이터(320)로부터의 컨텍스트 신호에 추가하여, 트레이닝 데이터(300)는 오디오 내비게이션 지시(330)에 대한 운전자의 응답을 나타내는 데이터를 포함할 수 있다. 오디오 내비게이션 지시(330)에 대한 운전자의 응답을 나타내는 데이터는 운전자가 오디오 내비게이션 지시(320)을 올바르게 따랐는지의 표시를 포함할 수 있다. 예를 들어, 오디오 내비게이션 지시가 제시된 후 사용자의 현재 위치가 원래 경로의 경로와 다르기 때문에 지도 애플리케이션(122)이 새로운 경로를 생성한 경우, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 사용자가 오디오 내비게이션 지시를 올바르게 따르지 않았다는 표시를 수신할 수 있다. 오디오 내비게이션 지시(330)에 대한 운전자의 응답을 나타내는 데이터는 또한 오디오 내비게이션 지시에 대한 사용자의 만족도(322)에 관한 자체 보고 표시를 포함할 수 있다. 예를 들어, 지도 애플리케이션(122)은 오디오 내비게이션 지시에 대한 불만족을 표시하기 위한 사용자 제어 및/또는 사용자가 자신의 불만을 설명하기 위한 텍스트 필드를 포함할 수 있다.

기계 학습 모델을 생성하기 위해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 운전자가 올바르게 응답/만족한 오디오 내비게이션 지시에 대응하거나 운전자가 올바르게 응답하지 않았거나 만족하지 않은 오디오 내비게이션 지시에 대응하는 것으로 트레이닝 데이터(300)의 서브세트를 분류할 수 있다. 예를 들어, 트레이닝 데이터(300)의 제1 행(시끄러운 환경에서 화창한 날씨와 함께 아침에 교통량이 많을 때 제공된, GPS 좌표 8.501, 47.363인 위치에서 낮은 볼륨으로 한 번 재생된 높은 수준의 세부 사항 포함)은 운전자가 올바르게 응답/만족한 오디오 내비게이션 지시에 대응하는 것으로 분류될 수 있다. 트레이닝 데이터(300)의 제4 행(조용한 환경에서 흐린 조건으로 야간에 교통량이 적고 GPS 좌표가 8.524, 47.365인 위치에서 높은 볼륨으로 세 번 재생된 낮은 수준의 세부 사항 포함)은 운전자가 올바르게 응답하지 않은 오디오 내비게이션 지시에 대응하는 것으로 분류될 수 있다.

그 후, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 기계 학습 모델을 생성하기 위해 제1 및 제2 서브세트를 분석할 수 있다. 기계 학습 모델은 회귀 분석(예: 로지스틱 회귀, 선형 회귀 또는 다항 회귀), k- 최근접 이웃, 결정 트리, 랜덤 포레스트, 부스팅, 신경망, 지원 벡터 머신, 딥 러닝, 강화 학습, 베이지안 네트워크 등과 같은 다양한 기계 학습 기법을 사용하여 생성될 수 있다. 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시에 대한 세부 사항의 수준을 결정하기 위한 제1 기계 학습 모델을 생성할 수 있다. 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시를 제공하는 타이밍을 결정하기 위한 제2 기계 학습 모델 및 오디오 내비게이션 지시에 대한 볼륨을 결정하기 위한 제3 기계 학습 모델을 생성할 수 있다.

예를 들어, 오디오 내비게이션 지시를 제공하는 타이밍을 결정하기 위한 기계 학습 모델은 일반적인 최소 제곱법을 사용하여 생성된 선형 회귀 모델일 수 있다. 제1 및 제2 서브세트의 분석에 기초하여, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시에 대한 빈도가 교통량과 음의 상관관계가 있고, 비, 눈 또는 안개와 같은 악천후 조건과 양의 상관관계가 있다고 결정할 수 있다. 또한, 오디오 내비게이션 지시의 볼륨을 결정하기 위한 기계 학습 모델은 일반적인 최소 제곱법을 사용하여 생성된 선형 회귀 모델일 수 있다.

다른 예에서, 오디오 내비게이션 지시에 대한 세부 사항의 수준을 결정하기 위한 기계 학습 모델은 지원 벡터 머신일 수 있다. 또 다른 예에서, 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위한 단일 기계 학습 모델은 분기로 연결된 여러 노드를 갖는 결정 트리일 수 있으며, 여기서 각 노드는 센서 데이터에 대한 테스트를 표현하며(예: 오전 또는 오후 시간인지?), 각 분기는 테스트 결과를 표현하고(예: 예), 각 리프는 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 표현한다(예: 낮은 수준의 세부 사항, 세 번, 높은 볼륨).

보다 구체적으로, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 제1 노드가 교통량이 많은지 여부에 대응하는 결정 트리를 생성할 수 있다. 트래픽이 많지 않은 경우, 제1 분기는 밤 시간인지 여부에 대응하는 제2 노드에 연결할 수 있다. 밤 시간이면, 제2 분기는 외부 환경이 시끄러운지 여부에 해당하는 제3 노드에 연결할 수 있다. 외부 환경이 시끄러우면, 제3 분기가 리프 노드에 연결되어 오디오 내비게이션 지시가 중간 수준의 세부 사항으로, 두 번, 높은 볼륨으로 제시되어야 함을 나타낼 수 있다. 결정 트리는 리프 노드 1개와 분기 3개가 포함되어 있지만 이는 설명을 쉽게 하기 위한 예일뿐이다. 각 결정 트리는 센서 데이터에 대한 테스트의 적절한 수 및/또는 유형을 갖는 임의의 수의 노드, 분기 및 잎을 포함할 수 있다.

기계 학습 기법을 사용하여 오디오 내비게이션 지시를 생성하는 예시적 로직

도 4는 도 2의 컨텍스트 인식 오디오 내비게이션 생성기(68)가 예시적 시나리오에서 각 오디오 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 결정하는 방법을 개략적으로 도시한다. 도 4의 일부 블록은 하드웨어 및/또는 소프트웨어 컴포넌트(예: 블록 402)를 나타내고, 다른 블록은 이러한 데이터 구조, 레지스터 또는 상태 변수(예를 들어, 블록 404, 412, 420)를 저장하는 데이터 구조 또는 메모리를 나타내고, 다른 블록은 출력 데이터를 나타낸다(예를 들어, 블록 406-410). 입력 신호는 대응하는 신호 이름이 라벨링된 화살표로 표현된다.

도 4의 기계 학습 엔진(402)은 기계 학습 모델(420)을 생성하기 위해 컨텍스트 인식 오디오 내비게이션 생성기(68) 내에 포함될 수 있다. 기계 학습 모델(420)을 생성하기 위해, 기계 학습 엔진(402)은 제1 오디오 내비게이션 지시가 제공되었을 때 센서 데이터의 제1 세트와 함께 사용자에게 이전에 제공된 제1 오디오 내비게이션 지시(422)를 포함하는 트레이닝 데이터 및 사용자가 제1 오디오 내비게이션 지시를 올바르게 따랐는지 여부의 제1 표시를 수신한다. 트레이닝 데이터는 또한 제2 오디오 내비게이션 지시가 제공되었을 때 센서 데이터의 제2 세트와 함께 동일하거나 다른 사용자에게 이전에 제공된 제2 오디오 내비게이션 지시(424) 및 사용자가 제2 오디오 내비게이션 지시를 올바르게 따랐는지 여부에 대한 제2 표시를 포함한다. 또한, 트레이닝 데이터는 제3 오디오 내비게이션 지시가 제공되었을 때 센서 데이터의 제3 세트와 함께 동일하거나 다른 사용자에게 이전에 제공된 제3 오디오 내비게이션 지시(426) 및 사용자가 제3 오디오 내비게이션 지시를 올바르게 따랐는지 여부에 대한 제3 표시를 포함한다. 또한, 트레이닝 데이터는 n번째 오디오 내비게이션 지시가 제공되었을 때 센서 데이터 제n 세트와 함께 동일한 또는 다른 사용자에게 이전에 제공된 제n 오디오 내비게이션 지시(428) 및 사용자가 제n 오디오 내비게이션 지시를 올바르게 따랐는지 여부에 대한 제n 표시를 포함한다.

예시적 트레이닝 데이터는 동일하거나 상이한 사용자에게 제공되는 4개의 오디오 내비게이션 지시(422-428)를 포함하지만, 이는 단지 예시의 용이성을 위한 예시일 뿐이다. 트레이닝 데이터는 임의의 수의 사용자로부터 임의의 수의 오디오 내비게이션 지시를 포함할 수 있다.

기계 학습 엔진(402)은 트레이닝 데이터를 분석하여, 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위한 기계 학습 모델(420)을 생성한다. 일부 실시예에서, 기계 학습 엔진(402)은 각각의 오디오 내비게이션 지시 파라미터에 대해 별도의 기계 학습 모델을 생성한다. 예를 들어, 기계 학습 엔진(402)은 오디오 내비게이션 지시에 대한 세부 사항의 수준을 결정하기 위한 제1 기계 학습 모델, 오디오 내비게이션 지시를 제공하는 타이밍을 결정하기 위한 제2 기계 학습 모델 및 오디오 내비게이션 지시의 볼륨을 결정하기 위한 제3 기계 학습 모델을 생성할 수 있다. 기계 학습 모델(420)이 선형 회귀 모델로 예시되어 있지만, 기계 학습 모델은 로지스틱 회귀 모델, 결정 트리, 신경망, 초평면 또는 임의의 다른 적절한 기계 학습 모델과 같은 또 다른 유형의 회귀 모델일 수 있다.

어느 경우이든, 사용자의 내비게이션 길안내 요청에 응답하여, 도 4의 시스템은 예를 들어 내비게이션 서버(34)로부터의 파일에서 경로(404)에 대한 텍스트 기반 내비게이션 지시 세트를 수신한다. 이 예에서, 텍스트 기반 내비게이션 지시 세트(404)는 기동 1-3의 기술을 포함하지만, 일반적으로 텍스트 기반 내비게이션 지시 세트(404)는 임의의 수의 기동을 포함할 수 있다. 각각의 텍스트 기반 내비게이션 지시에 대해, 시스템은 사용자의 클라이언트 컴퓨팅 디바이스(10) 주변 외부 환경(412)을 나타내는 센서 데이터를 수신한다. 센서 데이터는 사용자의 차량 주변 지역에 대한 교통 데이터, 시간, 사용자의 차량 주변 지역에 대한 날씨 데이터와 같은 가시성 데이터 및/또는 오디오 내비게이션 지시가 제시할 위치를 나타내는 위치 데이터, 배경 음악 또는 차량에서 말하는 소리, 거리 소음, 경적 소리, 전화 벨소리 등과 같이 차량 내부 또는 주위의 소음 수준을 나타내는 오디오 데이터를 포함할 수 있다.

기계 학습 엔진(402)은 오디오 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위해 텍스트 기반 내비게이션 지시 및 외부 환경(412)을 나타내는 센서 데이터를 기계 학습 모델(420)에 적용할 수 있다. 다른 실시예에서, 기계 학습 엔진(402)은 텍스트 기반 내비게이션 지시 및 외부 환경(412)을 나타내는 센서 데이터는 제1 기계 학습 모델에 적용되어 오디오 내비게이션 지시에 대한 세부 사항의 수준을 식별하고, 제2 기계 학습 모델에 적용되어 오디오 내비게이션 지시를 제공하는 타이밍을 결정하고, 제3 기계 학습 모델에 적용되어 오디오 내비게이션 지시의 볼륨을 결정한다. 예를 들어, 제1 기동에 대해, 기계 학습 모델(420)은 오디오 내비게이션 지시(406)이 낮은 수준의 세부 사항으로 생성되고 높은 볼륨에서 두 번 재생되어야 한다고 결정한다. 제2 기동을 위해, 기계 학습 모델(420)은 오디오 내비게이션 지시(408)가 높은 수준의 세부 사항으로 생성되고 낮은 볼륨에서 4번 재생되어야 한다고 결정한다. 제3 기동을 위해, 기계 학습 모델(420)은 오디오 내비게이션 지시(410)이 낮은 수준의 세부 사항으로 생성되고 낮은 볼륨에서 한 번 재생되어야 한다고 결정한다.

일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 각각의 내비게이션 지시를 제시하기 위한 오디오 내비게이션 지시 파라미터와 함께 텍스트 기반 내비게이션 지시 세트를 사용자의 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 다른 실시예에서, 각각의 텍스트 기반 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 내비게이션 지시에 대한 결정된 오디오 내비게이션 지시 파라미터에 기초하여 대응하는 오디오 내비게이션 지시를 생성한다. 그 다음, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 스피커를 통해 제시될 사용자의 클라이언트 컴퓨팅 디바이스(10)에 오디오 내비게이션 지시 세트를 제공한다.

또한 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 먼저 전체 세트의 텍스트 기반 내비게이션 지시를 사용자의 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 일부 시나리오에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 예를 들어, 사용자의 클라이언트 컴퓨팅 디바이스에 상이한 수준의 세부 사항으로 동일한 내비게이션 지시의 다수의 버전을 제공한다. 보다 구체적으로, 내비게이션 지시인 "메인 스트리트에서 우회전"에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 낮은 수준의 세부 사항의 내비게이션 지시의 제1 버전으로서 "메인 스트리트에서 우회전"이라는 내비게이션 지시를 제공할 수 있다. 컨텍스트 인식 오디오 내비게이션 생성기(68)는 또한 중간 수준의 세부 사항의 내비게이션 지시의 제2 버전으로서 "X 피트 후, 메인 스트리트에서 우회전"이라는 내비게이션 지시를 제공할 수 있다. 추가로, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 높은 수준의 세부 사항의 내비게이션 지시의 제3 버전으로서 "X 피트 및 약 Y초 후 Joe's Restaurant 옆의 정지 신호에서 메인 스트리트로 우회전"이라는 내비게이션 지시를 제공할 수 있다.

그 다음, 각각의 텍스트 기반 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 외부 환경(412)을 나타내는 센서 데이터를 수신하고 기계 학습 모델(420)에 적용한다. 차례로, 기계 학습 모델(420)은 텍스트 기반 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 생성하고, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시 파라미터를 사용자의 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 사용자의 클라이언트 컴퓨팅 디바이스(10)는 예를 들어 오디오 내비게이션 지시 파라미터에 포함된 세부 사항의 수준에 대응하는 내비게이션 지시의 버전을 선택함으로써 내비게이션 지시에 오디오 내비게이션 지시 파라미터를 적용한다. 사용자의 클라이언트 컴퓨팅 디바이스(10)는 또한 오디오 내비게이션 지시 파라미터에 기초하여 오디오 내비게이션 지시에 대한 볼륨 및 타이밍을 조정할 수 있다. 그 후 사용자의 클라이언트 컴퓨팅 디바이스(10)는 생성된 오디오 내비게이션 지시(들)을 스피커(26)를 통해 사용자에게 제시한다.

컨텍스트 인식 오디오 내비게이션 지시를 제공하는 예시적 방법

도 5는 차량에서 컨텍스트 인식 오디오 내비게이션 지시를 생성하기 위한 예시적 방법(500)의 흐름도를 도시한다. 이 방법은 컴퓨터 판독가능 메모리에 저장되고 서버 디바이스(60)의 하나 이상의 프로세서에서 실행 가능한 명령어의 세트로 구현될 수 있다. 예를 들어, 방법은 컨텍스트 인식 오디오 내비게이션 생성기(68)에 의해 구현될 수 있다.

블록(502)에서, 사용자에게 이전에 제시된 오디오 내비게이션 지시 세트를 포함하는 트레이닝 데이터는 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위해 기계 학습 모델을 트레이닝하기 위해 트레이닝 기간 동안 획득된다. 각각의 오디오 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 또한 오디오 내비게이션 지시가 제시되었을 때 사용자의 클라이언트 컴퓨팅 디바이스(10) 주변 외부 환경을 나타내는 컨텍스트 신호로서 센서 데이터를 획득한다(블록 504). 추가로, 각각의 오디오 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 사용자가 오디오 내비게이션 지시를 올바르게 따랐는지 및/또는 오디오 내비게이션 지시에 만족했는지 여부의 표시를 획득한다(블록 506).

컨텍스트 인식 오디오 내비게이션 생성기(68), 및 보다 구체적으로, 컨텍스트 인식 오디오 내비게이션 생성기(68) 내에 포함된 기계 학습 엔진(402)은 도 4에 도시된 바와 같이, 기계 학습 모델(420)과 같은 기계 학습 모델(블록 508)을 생성하기 위해 트레이닝 데이터를 분석한다. 보다 구체적으로, 기계 학습 엔진(402)은 사용자가 올바르게 따라간 오디오 내비게이션 지시에 대한 제1 서브세트 및 대응하는 센서 데이터와 사용자가 올바르게 따르지 않은 오디오 내비게이션 지시에 대한 제2 서브세트 및 대응하는 센서 데이터를 트레이닝 데이터를 분류할 수 있다. 두 서브세트는 회귀 분석(예: 로지스틱 회귀, 선형 회귀 또는 다항 회귀), k- 최근접 이웃, 결정 트리, 랜덤 포레스트, 부스팅, 신경망, 지원 벡터 머신, 딥 러닝, 강화 학습, 베이지안 네트워크 등과 같은 다양한 기계 학습 기법을 사용하여 분석되어, 특정한 컨텍스트에 대한 오디오 내비게이션 지시 파라미터를 식별하기 위해 기계 학습 모델을 생성한다.

일부 실시예에서, 기계 학습 엔진(402)은 오디오 내비게이션 지시 파라미터 각각에 대해 다수의 기계 학습 모델(420)을 생성한다. 예를 들어, 기계 학습 엔진(402)은 오디오 내비게이션 지시에 대한 세부 사항의 수준을 결정하기 위한 제1 기계 학습 모델, 오디오 내비게이션 지시를 제공하는 타이밍을 결정하기 위한 제2 기계 학습 모델 및 오디오 내비게이션 지시의 볼륨을 결정하기 위한 제3 기계 학습 모델을 생성할 수 있다.

임의의 경우에, 일단 기계 학습 모델(420)이 트레이닝되고 생성되면, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 사용자로부터 내비게이션 길안내에 대한 요청에 응답하여 오디오 내비게이션 지시를 생성하기 위해 기계 학습 모델(420)을 이용한다. 보다 구체적으로, 블록(510)에서 컨텍스트 인식 오디오 내비게이션 생성기(68)는 사용자의 클라이언트 컴퓨팅 디바이스(10)에 의해 시작 위치로부터 목적지까지의 내비게이션 길안내에 대한 요청을 수신한다. 시작 위치는 클라이언트 컴퓨팅 디바이스(10)의 현재 위치일 수 있다. 임의의 경우에, 요청에 응답하여, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 내비게이션 지시 세트를 생성한다(블록 512). 내비게이션 지시 세트는 텍스트 형식으로 생성될 수 있다. 추가로, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 요청을 내비게이션 데이터 서버(34)에 포워딩하고, 내비게이션 데이터 서버(34)로부터 내비게이션 지시 세트를 수신함으로써 내비게이션 지시 세트를 생성할 수 있다.

사용자의 클라이언트 컴퓨팅 디바이스(10)로부터 내비게이션 길안내에 대한 요청을 수신하는 것에 추가하여, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 사용자의 클라이언트 컴퓨팅 디바이스(10) 주변 외부 환경을 나타내는 센서 데이터를 수신한다. 블록(514)에서 각각의 내비게이션 지시에 대해, 기계 학습 엔진(402)은 센서 데이터를 기계 학습 모델(420)에 적용하여 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 생성한다. 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시를 생성하기 위해 내비게이션 지시에 오디오 내비게이션 지시 파라미터를 적용하고(블록 516), 사용자의 클라이언트 컴퓨팅 디바이스(10)에 오디오 내비게이션 지시를 제공한다(블록 518). 따라서, 사용자의 클라이언트 컴퓨팅 디바이스(10)는 스피커(26)를 통해 오디오 내비게이션 지시를 제시한다.

다른 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 각각의 내비게이션 지시를 제시하기 위한 오디오 내비게이션 지시 파라미터와 함께 텍스트 기반 내비게이션 지시 세트를 사용자의 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 그 다음, 사용자의 클라이언트 컴퓨팅 디바이스(10)는 대응하는 텍스트 기반 내비게이션 지시 및 오디오 내비게이션 지시 파라미터에 따라 각각의 오디오 내비게이션 지시를 생성한다.

또한 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 먼저 전체 세트의 텍스트 기반 내비게이션 지시를 사용자의 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 일부 시나리오에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 예를 들어, 사용자의 클라이언트 컴퓨팅 디바이스에 상이한 수준의 세부 사항으로 동일한 내비게이션 지시의 다수의 버전을 제공한다. 그 다음, 각각의 텍스트 기반 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 외부 환경(412)을 나타내는 센서 데이터를 수신하고 기계 학습 모델(420)에 적용한다. 차례로, 기계 학습 모델(420)은 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 생성하고, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시 파라미터를 사용자의 클라이언트 컴퓨팅 디바이스(10)에 제공한다. 사용자의 클라이언트 컴퓨팅 디바이스(10)는 예를 들어 오디오 내비게이션 지시 파라미터에 포함된 세부 사항의 수준에 대응하는 내비게이션 지시의 버전을 선택함으로써 텍스트 기반 내비게이션 지시에 오디오 내비게이션 지시 파라미터를 적용한다. 사용자의 클라이언트 컴퓨팅 디바이스(10)는 또한 오디오 내비게이션 지시 파라미터에 기초하여 오디오 내비게이션 지시에 대한 볼륨 및 타이밍을 조정할 수 있다. 그 후 사용자의 클라이언트 컴퓨팅 디바이스(10)는 생성된 오디오 내비게이션 지시(들)을 스피커(26)를 통해 사용자에게 제시한다.

일부 실시예에서, 사용자의 클라이언트 컴퓨팅 디바이스(10)는 사용자가 각각의 오디오 내비게이션 지시에 올바르게 응답했는지 여부를 결정한다. 그 후, 각각의 오디오 내비게이션 지시에 대해, 클라이언트 컴퓨팅 디바이스(10)는 오디오 내비게이션 지시, 센서 데이터 및 사용자가 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 추가 트레이닝 데이터로서 서버 디바이스(60)에 제공한다. 컨텍스트 인식 오디오 내비게이션 생성기(68)는 그에 따라 기계 학습 모델(420)을 업데이트하기 위해 추가 트레이닝 데이터를 사용할 수 있다.

도 6는 차량에서 컨텍스트 인식 오디오 내비게이션 지시를 제시하기 위한 예시적 방법(600)의 흐름도를 도시한다. 이 방법은 컴퓨터 판독가능 메모리에 저장되고 클라이언트 컴퓨팅 디바이스(10)의 하나 이상의 프로세서에서 실행 가능한 명령어의 세트로 구현될 수 있다. 예를 들어, 방법은 내비게이션 디스플레이(124)에 의해 구현될 수 있다.

블록(602)에서, 제1 인스턴스에서, 클라이언트 컴퓨팅 디바이스(10)는 제1 시작 위치로부터 제1 목적지까지의 제1 내비게이션 길안내에 대한 요청을 제공한다. 요청은 서버 디바이스(60)에 제공될 수 있다. 또한, 요청은 클라이언트 컴퓨팅 디바이스(10) 주변 외부 환경을 나타내는 센서 데이터의 제1 세트를 포함할 수 있다(블록 604).

요청에 응답하여, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 대응하는 제1 텍스트 기반 내비게이션 지시를 갖는 제1 오디오 내비게이션 지시를 포함하는 제1 세트의 오디오 내비게이션 지시를 생성한다. 제1 텍스트 기반 내비게이션 지시는 특정한 기동(예: 좌회전), 기동할 위치(예: State Street와 Main Street의 교차로) 및/또는 사용자가 특정한 기동을 위해 위치에 접근하는 방향(예: State Street을 따라 남쪽으로 향함)을 포함한다. 추가로, 제1 오디오 내비게이션 지시는 오디오 내비게이션 지시에 대한 세부 사항의 수준, 오디오 내비게이션 지시를 제공하는 타이밍 및 오디오 내비게이션 지시에 대한 볼륨과 같은 오디오 내비게이션 지시 파라미터 세트를 포함한다.

임의의 경우에, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 제1 세트를 클라이언트 컴퓨팅 디바이스(10)에 제공하고(블록 606), 차례로 스피커(26)를 통해 사용자에게 제1 세트를 제시한다(블록 608). 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 요청을 내비게이션 데이터 서버(34)에 포워딩하고 내비게이션 데이터 서버(34)로부터 텍스트 기반 내비게이션 지시 세트를 수신함으로써 제1 세트의 오디오 내비게이션 지시를 생성한다. 각각의 텍스트 기반 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 생성하기 위해 제1 세트의 센서 데이터를 기계 학습 모델(420)에 적용한다. 그 다음, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시를 생성하기 위해 내비게이션 지시에 오디오 내비게이션 지시 파라미터를 적용한다.

블록(610)에서, 제2 인스턴스에서, 클라이언트 컴퓨팅 디바이스(10)는 제2 시작 위치로부터 제2 목적지까지의 제2 내비게이션 길안내에 대한 요청을 제공한다. 요청은 서버 디바이스(60)에 제공될 수 있다. 또한, 요청은 클라이언트 컴퓨팅 디바이스(10) 주변 외부 환경을 나타내는 센서 데이터의 제2 세트를 포함할 수 있다(블록 612).

요청에 응답하여, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 제1 인스턴스에서와 동일한 제1 텍스트 기반 내비게이션 지시를 갖는 제2 오디오 내비게이션 지시를 포함하는 제2 세트의 오디오 내비게이션 지시를 생성한다. 보다 구체적으로, 제2 인스턴스의 제1 텍스트 기반 내비게이션 지시는 제1 인스턴스의 제1 텍스트 기반 내비게이션 지시에서와 동일한 기동, 기동할 위치 및/또는 사용자가 특정한 기동을 위한 위치에 접근하는 방향을 포함한다. 그러나, 제1 텍스트 기반 네비게이션 지시에 대응하는 제2 오디오 네비게이션 지시는 제1 인스턴스의 제1 오디오 네비게이션 지시와 다른 오디오 네비게이션 지시 파라미터를 포함한다. 예를 들어, 제2 인스턴스의 제2 오디오 내비게이션 지시는 제1 인스턴스의 제1 오디오 내비게이션 지시와 다른 수준의 세부 사항, 타이밍 또는 볼륨을 포함할 수 있다.

임의의 경우에, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 제2 세트를 클라이언트 컴퓨팅 디바이스(10)에 제공하고(블록 614), 차례로 스피커(26)를 통해 사용자에게 제2 세트를 제시한다(블록 616). 일부 실시예에서, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 요청을 내비게이션 데이터 서버(34)에 포워딩하고 내비게이션 데이터 서버(34)로부터 텍스트 기반 내비게이션 지시 세트를 수신함으로써 제2 세트의 오디오 내비게이션 지시를 생성한다. 각각의 텍스트 기반 내비게이션 지시에 대해, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 내비게이션 지시에 대한 오디오 내비게이션 지시 파라미터를 생성하기 위해 제2 세트의 센서 데이터를 기계 학습 모델(420)에 적용한다. 그 다음, 컨텍스트 인식 오디오 내비게이션 생성기(68)는 오디오 내비게이션 지시를 생성하기 위해 내비게이션 지시에 오디오 내비게이션 지시 파라미터를 적용한다.

추가 고려 사항

전술한 논의에는 다음의 추가 고려 사항이 적용된다. 본 명세서 전체에 걸쳐, 복수의 인스턴스는 단일 인스턴스로서 기술된 컴포넌트, 동작 또는 구조를 구현할 수 있다. 하나 이상의 방법의 개별 동작이 별도의 동작으로 도시되고 설명되었지만, 하나 이상의 개별 동작이 동시에 수행될 수 있으며, 동작이 도시된 순서대로 수행될 필요는 없다. 예시적 구성에서 개별 컴포넌트로서 제시된 구조 및 기능은 결합된 구조 또는 컴포넌트로서 구현될 수 있다. 유사하게, 단일 컴포넌트로서 제시된 구조 및 기능은 별도의 컴포넌트로서 구현될 수 있다. 이들 및 다른 변형, 수정, 추가 및 개선은 본 발명의 주제의 범위 내에 속한다.

추가적으로, 특정 실시예는 본 명세서에서 로직 또는 다수의 컴포넌트, 모듈 또는 메커니즘을 포함하는 것으로 설명된다. 모듈은 소프트웨어 모듈(예를 들어, 기계 판독가능 매체 상에 저장된 코드) 또는 하드웨어 모듈 중 하나를 구성할 수 있다. 하드웨어 모듈은 특정 동작을 수행할 수 있는 유형의 유닛이고, 특정 방식으로 구성 또는 배열될 수 있다. 예시적 실시예에서, 하나 이상의 컴퓨터 시스템(예를 들어, 독립형, 클라이언트 또는 서버 컴퓨터 시스템) 또는 컴퓨터 시스템의 하나 이상의 하드웨어 모듈(예를 들어, 프로세서 또는 프로세서 그룹)은 소프트웨어(예를 들어, 애플리케이션 또는 애플리케이션 부분)에 의해 본 명세서에 기술된 바와 같은 특정 동작을 수행하도록 동작하는 하드웨어 모듈로서 구성될 수 있다.

다양한 실시예들에서, 하드웨어 모듈은 기계적으로 또는 전자적으로 구현될 수 있다. 예를 들어, 하드웨어 모듈은 특정 동작을 수행하기 위해 영구적으로 구성되는 전용 회로 또는 로직을 포함할 수 있다(예를 들어, FPGA(Field Programmable Gate Array) 또는 ASIC(application-specific integrated circuit)와 같은 특수 목적 프로세서). 하드웨어 모듈은 또한 특정 동작을 수행하기 위해 소프트웨어에 의해 일시적으로 구성되는 프로그램 가능 로직 또는 회로(예를 들어, 범용 프로세서 또는 다른 프로그램 가능 프로세서 내에 포함되는)를 포함할 수 있다. 기계적으로, 전용으로 그리고 영구적으로 구성된 회로 또는 일시적으로 구성된 회로(예를 들어, 소프트웨어에 의해 구성된)에서 하드웨어 모듈을 구현하기로 한 결정은 비용 및 시간 고려 사항에 의해 유도될 수 있다는 것이 이해될 것이다.

따라서, 하드웨어라는 용어는 유형적 개체, 물리적으로 구성, 영구적으로 구성(예를 들어, 유선) 또는 일시적으로 구성(예를 들어, 프로그래밍)되어 특정 방식으로 동작하거나 본 명세서에 기술된 특정 동작을 수행하는 개체를 포함하는 것으로 이해되어야 한다. 본 명세서에서 사용되는 "하드웨어 구현 모듈"은 하드웨어 모듈을 지칭한다. 하드웨어 모듈이 일시적으로 구성(예를 들어, 프로그래밍)되는 실시예를 고려하면, 각각의 하드웨어 모듈은 임의의 하나의 인스턴스에서 구성되거나 인스턴스화될 필요가 없다. 예를 들어, 하드웨어 모듈이 소프트웨어를 사용하여 구성된 범용 프로세서를 포함하는 경우, 범용 프로세서는 상이한 시간에 각각 상이한 하드웨어 모듈로서 구성될 수 있다. 따라서, 소프트웨어는 예를 들어 한 시점에서 특정 하드웨어 모듈을 구성하고 다른 시점에서 다른 하드웨어 모듈을 구성하도록 프로세서를 구성할 수 있다.

하드웨어 모듈은 다른 하드웨어에 정보를 제공하고 정보를 수신할 수 있다. 따라서, 설명된 하드웨어 모듈은 통신적으로 연결된 것으로 간주될 수 있다. 그러한 하드웨어 모듈의 다수가 동시에 존재하는 경우, 통신은 하드웨어 모듈을 연결하는 신호 전송(예를 들어, 적절한 회로 및 버스를 통해)을 통해 달성될 수 있다. 다수의 하드웨어 모듈이 상이한 시간에 구성되거나 인스턴스화되는 실시예에서, 이러한 하드웨어 모듈 간의 통신은 예를 들어 다수의 하드웨어 모듈이 액세스하는 메모리 구조에서의 정보의 저장 및 검색을 통해 달성될 수 있다. 예를 들어, 하나의 하드웨어 모듈은 동작을 수행하고, 그 동작의 출력을 통신적으로 연결된 메모리 디바이스에 저장할 수 있다. 그 다음, 추가 하드웨어 모듈은 나중에 메모리 디바이스에 액세스하여 저장된 출력을 검색하고 프로세싱할 수 있다. 하드웨어 모듈은 또한 입력 또는 출력 디바이스와의 통신을 개시할 수 있고, 리소스(예를 들어, 정보 수집)에서 동작할 수 있다.

방법(500 및 600)은 비일시적 컴퓨터 판독가능 저장 매체에 저장되고 컴퓨팅 디바이스(예를 들어, 서버 디바이스, 개인용 컴퓨터, 스마트폰, 태블릿 컴퓨터, 스마트 워치, 모바일 컴퓨팅 디바이스 또는 본 명세서에 기술된 다른 클라이언트 컴퓨팅 디바이스)의 프로세서를 사용하여 실행되는 유형의 컴퓨터 실행 가능 명령어 형태의 하나 이상의 기능 블록, 모듈, 개별 기능 또는 루틴을 포함할 수 있다. 방법(500 및 600)은 임의의 백엔드 서버(예를 들어, 지도 데이터 서버, 내비게이션 서버 또는 본 명세서에 기술된 임의의 다른 유형의 서버 컴퓨팅 디바이스), 예시적 환경의 클라이언트 컴퓨팅 디바이스 모듈의 일부로서, 예를 들어, 또는 그러한 환경 외부에 있는 모듈의 일부로서 포함될 수 있다. 설명의 편의를 위해 도면이 다른 도면을 참조하여 설명될 수 있지만, 방법(500 및 600)은 다른 객체 및 사용자 인터페이스와 함께 이용될 수 있다. 또한, 위의 설명은 특정 디바이스(예: 서버 디바이스(60) 또는 클라이언트 컴퓨팅 디바이스(10))에 의해 수행되는 방법(500 및 600)의 단계를 설명하지만, 이는 예시 목적으로만 수행된다. 방법(500 및 600)의 블록은 하나 이상의 디바이스 또는 환경의 다른 부분에 의해 수행될 수 있다.

본 명세서에 기술된 예시적 방법의 다양한 동작은 적어도 부분적으로, 관련 동작을 수행하도록 일시적으로 구성되거나(예를 들어, 소프트웨어에 의해) 영구적으로 구성된 하나 이상의 프로세서에 의해 수행될 수 있다. 일시적으로 또는 영구적으로 구성되든, 이러한 프로세서는 하나 이상의 동작 또는 기능을 수행하도록 동작하는 프로세서 구현 모듈을 구성할 수 있다. 본 명세서에서 언급된 모듈은 일부 예시적 실시예에서 프로세서 구현 모듈을 포함할 수 있다.

유사하게, 본 명세서에 기술된 방법 또는 루틴은 적어도 부분적으로 프로세서로 구현될 수 있다. 예를 들어, 방법의 동작 중 적어도 일부는 하나 이상의 프로세서 또는 프로세서로 구현된 하드웨어 모듈에 의해 수행될 수 있다. 특정 동작의 수행은 단일 기계 내에 상주하는 하나 이상의 프로세서에 분산될 수 있을 뿐만 아니라 다수의 컴퓨터에 걸쳐 배포될 수 있다. 일부 예시적 실시예에서, 프로세서(들)는 단일 위치(예를 들어, 가정 환경, 사무실 환경 내에 또는 서버 팜으로서)에 위치될 수 있고, 다른 실시예에서 프로세서는 다수의 위치에 걸쳐 분산될 수 있다.

하나 이상의 프로세서는 또한 "클라우드 컴퓨팅" 환경에서 또는 SaaS로서 관련 동작의 수행을 지원하도록 동작할 수 있다. 예를 들어, 전술한 바와 같이, 적어도 일부 동작은 (프로세서를 포함하는 기계의 예로서) 컴퓨터 그룹에 의해 수행될 수 있으며, 이들 동작은 네트워크(예: 인터넷) 및 하나 이상의 적절한 인터페이스를 통해 액세스 가능하다(예: API).

더 나아가, 도면은 단지 예시의 목적으로 예시적 환경의 일부 실시예를 도시한다. 통상의 기술자는 본 명세서에 설명된 원리를 벗어나지 않고 본 명세서에 예시된 구조 및 방법의 대안적인 실시예가 채용될 수 있다는 것을 다음 논의로부터 쉽게 인식할 것이다.

본 개시를 읽을 때, 통상의 기술자는 본 명세서에 개시된 원리를 통해 컨텍스트 인식 오디오 내비게이션 지시를 제공하기 위한 추가의 대안적 구조적 및 기능적 설계를 이해할 것이다. 따라서, 특정 실시예 및 적용예가 도시되고 설명되었지만, 개시된 실시예는 본 명세서에 개시된 정확한 구성 및 컴포넌트에 한정되지 않는 것으로 이해되어야 한다. 통상의 기술자에게 명백할 다양한 수정, 변경 및 변형이 첨부된 청구범위에 정의된 사상 및 범위를 벗어나지 않고 본 명세서에 개시된 방법 및 장치의 구성, 동작 및 세부 사항 내에서 이루어질 수 있다.

Claims

차량에서 컨텍스트 인식 오디오 내비게이션 지시를 생성하는 방법에 있어서,
하나 이상의 프로세서에 의해, (i) 차량 내 복수의 센서 신호 및 (ii) 운전자가 상기 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 사용하여 기계 학습 모델을 트레이닝하는 단계, 상기 센서 신호는 오디오 내비게이션 안내가 제공되는 컨텍스트를 기술하며;
상기 하나 이상의 프로세서에 의해, 상기 운전자에게 제공될 내비게이션 지시를 결정하는 단계;
상기 하나 이상의 프로세서에 의해, 상기 결정된 내비게이션 지시에 기초하여 오디오 내비게이션 지시를 생성하는 단계, 상기 생성하는 단계는:
하나 이상의 센서 신호를 수신하는 것, 및
(i) 상기 오디오 내비게이션 지시의 세부 사항의 수준, (ii) 상기 오디오 내비게이션 지시를 제공하는 타이밍, 또는 (iii) 상기 오디오 내비게이션 지시의 볼륨 중 적어도 하나를 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 기계 학습 모델을 적용하는 것을 포함하며; 및
스피커를 통해 운전자에게 제시하기 위해 상기 오디오 내비게이션 지시를 제공하는 단계를 포함하는, 방법.
청구항 1에 있어서, 컨텍스트를 기술하는 차량의 상기 센서 신호는 (i) 차량 주변의 기상 조건 또는 시간을 나타내는 가시성 데이터, (ii) 차량의 또는 차량 주위의 소음 수준을 나타내는 오디오 데이터, 또는 (iii) 상기 차량 주변의 교통 상황을 나타내는 교통 데이터 중 적어도 하나를 포함하는, 방법.
청구항 1에 있어서, 상기 오디오 내비게이션 지시를 제공하는 타이밍을 생성하기 위해 상기 기계 학습 모델을 적용하는 단계는 상기 오디오 내비게이션 지시의 둘 이상의 인스턴스를 제공할 빈도를 생성하기 위해 상기 기계 학습 모델을 적용하는 것을 포함하는, 방법.
청구항 1에 있어서, 상기 오디오 내비게이션 지시를 생성하는 단계는:
랜드마크를 기동을 위한 위치로서 포함하는 높은 수준의 세부 사항을 가지는 상기 오디오 내비게이션 지시를 생성하는 것; 또는
교차점을 기동을 위한 위치로서 포함하여 낮은 수준의 세부 사항을 가지는 상기 오디오 내비게이션 지시를 생성하는 것 중 적어도 하나를 포함하는, 방법.
청구항 1에 있어서,
운전자에게 상기 오디오 내비게이션 지시를 제공하는 것에 응답하여, 상기 운전자가 오디오 내비게이션 지시에 올바르게 응답했는지 여부를 결정하는 단계; 및
상기 오디오 내비게이션 지시, 상기 하나 이상의 센서 신호 및 운전자가 상기 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 상기 기계 학습 모델에 트레이닝 데이터로서 제공하는 단계를 더 포함하는, 방법.
청구항 5에 있어서,
상기 제공된 트레이닝 데이터에 기초하여 상기 기계 학습 모델을 업데이트하는 단계를 더 포함하는, 방법.
청구항 1에 있어서,
상기 기계 학습 모델을 트레이닝하는 단계는 상기 오디오 내비게이션 지시의 세부 사항의 수준을 결정하기 위한 제1 기계 학습 모델, 상기 오디오 내비게이션 지시의 타이밍을 결정하기 위한 제2 기계 학습 모델 또는 상기 오디오 내비게이션 지시의 볼륨을 결정하기 위한 제3 기계 학습 모델 중 둘 이상을 포함하는, 오디오 내비게이션 지시를 생성하기 위한 복수의 기계 학습 모델을 트레이닝하는 것을 포함하는, 방법.
청구항 7에 있어서, 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 기계 학습 모델을 적용하는 단계는:
상기 오디오 내비게이션 지시의 세부 사항의 수준을 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 상기 제1 기계 학습 모델을 적용하는 것;
상기 오디오 내비게이션 지시를 제공할 타이밍을 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 상기 제2 기계 학습 모델을 적용하는 것;
상기 오디오 내비게이션 지시를 제공할 볼륨을 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 상기 제3 기계 학습 모델을 적용하는 것 중 적어도 하나를 포함하는, 방법.
차량에서 컨텍스트 인식 오디오 내비게이션 지시를 생성하는 서버 디바이스에 있어서,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서에 결합되고 상기 하나 이상의 프로세서에 의해 실행될 때 상기 서버 디바이스로 하여금 동작들을 수행하게 하는 명령어를 저장하는 비일시적 컴퓨터 판독가능 메모리를 포함하며, 상기 동작들은:
(i) 차량 내 복수의 센서 신호 및 (ii) 운전자가 상기 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 사용하여 기계 학습 모델을 트레이닝하는 동작, 상기 센서 신호는 오디오 내비게이션 안내가 제공되는 컨텍스트를 기술하며;
상기 운전자에게 제공될 내비게이션 지시를 결정하는 동작;
상기 결정된 내비게이션 지시에 기초하여 오디오 내비게이션 지시를 생성하는 동작, 상기 생성하는 동작은:
하나 이상의 센서 신호를 수신하는 것, 및
(i) 상기 오디오 내비게이션 지시의 세부 사항의 수준, (ii) 상기 오디오 내비게이션 지시를 제공하는 타이밍, 또는 (iii) 상기 오디오 내비게이션 지시의 볼륨 중 적어도 하나를 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 기계 학습 모델을 적용하는 것을 포함하며; 및
스피커를 통해 운전자에게 제시하기 위해 상기 오디오 내비게이션 지시를 제공하는 동작을 포함하는, 서버 디바이스.
청구항 9에 있어서, 컨텍스트를 기술하는 차량의 상기 센서 신호는 (i) 차량 주변의 날씨 조건 또는 시간을 나타내는 가시성 데이터, (ii) 차량의 또는 차량 주위의 소음 수준을 나타내는 오디오 데이터, 또는 (iii) 상기 차량 주변의 교통 상황을 나타내는 교통 데이터 중 적어도 하나를 포함하는, 서버 디바이스.
청구항 9에 있어서, 상기 오디오 내비게이션 지시를 제공하는 타이밍은 상기 오디오 내비게이션 지시의 둘 이상의 인스턴스를 제공할 빈도를 포함하는, 서버 디바이스.
청구항 9에 있어서, 상기 생성된 오디오 내비게이션 지시는:
랜드마크를 기동을 위한 위치로서 포함하는 높은 수준의 세부 사항을 가지는 상기 오디오 내비게이션 지시; 또는
교차점을 기동을 위한 위치로서 포함하여 낮은 수준의 세부 사항을 가지는 상기 오디오 내비게이션 지시 중 적어도 하나를 포함하는, 서버 디바이스.
청구항 9에 있어서, 상기 동작들은:
운전자에게 상기 오디오 내비게이션 지시를 제공하는 것에 응답하여, 상기 운전자가 오디오 내비게이션 지시에 올바르게 응답했는지 여부를 결정하는 동작; 및
상기 오디오 내비게이션 지시, 상기 하나 이상의 센서 신호 및 운전자가 상기 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 상기 기계 학습 모델에 트레이닝 데이터로서 제공하는 동작을 더 포함하는, 서버 디바이스.
청구항 13에 있어서, 상기 동작들은:
상기 제공된 트레이닝 데이터에 기초하여 상기 기계 학습 모델을 업데이트하는 동작을 더 포함하는, 서버 디바이스.
청구항 9에 있어서, 상기 기계 학습 모델은 상기 오디오 내비게이션 지시의 세부 사항의 수준을 결정하기 위한 제1 기계 학습 모델, 상기 오디오 내비게이션 지시의 타이밍을 결정하기 위한 제2 기계 학습 모델 또는 상기 오디오 내비게이션 지시의 볼륨을 결정하기 위한 제3 기계 학습 모델 중 둘 이상을 포함하는, 오디오 내비게이션 지시를 생성하기 위한 복수의 기계 학습 모델을 포함하는, 서버 디바이스.
청구항 15에 있어서, 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 기계 학습 모델을 적용하는 동작은:
상기 오디오 내비게이션 지시의 세부 사항의 수준을 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 상기 제1 기계 학습 모델을 적용하는 것;
상기 오디오 내비게이션 지시를 제공할 타이밍을 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 상기 제2 기계 학습 모델을 적용하는 것;
상기 오디오 내비게이션 지시를 제공할 볼륨을 생성하기 위해 상기 결정된 내비게이션 지시 및 상기 수신된 하나 이상의 센서 신호에 상기 제3 기계 학습 모델을 적용하는 것 중 적어도 하나를 포함하는, 서버 디바이스.
차량에서 컨텍스트 인식 오디오 내비게이션 지시를 제시하는 클라이언트 디바이스에 있어서,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서들에 결합되고 상기 하나 이상의 프로세서들에 의해 실행될 때 상기 클라이언트 디바이스로 하여금 동작들을 수행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 메모리를 포함하며, 상기 동작들은:
제1 인스턴스에서:
제1 시작 위치로부터 제1 목적지까지의 내비게이션 길안내에 대한 요청을 제공하는 동작;
차량에 제1 세트의 센서 신호를 제공하는 동작;
특정한 타이밍 또는 볼륨으로 제시될 특정한 수준의 세부 사항을 갖는 제1 오디오 내비게이션 지시를 포함하는 제1 세트의 오디오 내비게이션 지시를 수신하는 동작; 및
스피커를 통해, 상기 제1 세트의 오디오 내비게이션 지시를 제시하는 동작; 및
제2 인스턴스에서:
제2 시작 위치로부터 제2 목적지까지의 내비게이션 길안내에 대한 요청을 제공하는 동작;
차량에 제2 세트의 센서 신호를 제공하는 동작;
상기 제1 인스턴스에서와 동일한 방향, 위치 또는 기동을 갖고 상기 제1 인스턴스에서와 다른 수준의 세부 사항을 갖는 또는 상기 제1 인스턴스에서와 다른 타이밍 또는 볼륨으로 제시될, 상기 제1 오디오 내비게이션 지시를 포함하는 제2 세트의 오디오 내비게이션 지시를 수신하는 동작; 및
스피커를 통해, 상기 제2 세트의 오디오 내비게이션 지시를 제시하는 동작을 포함하는, 클라이언트 디바이스.
청구항 17에 있어서, 상기 차량의 상기 센서 신호는 (i) 차량 주변의 날씨 조건 또는 시간을 나타내는 가시성 데이터, (ii) 차량의 또는 차량 주위의 소음 수준을 나타내는 오디오 데이터, 또는 (iii) 상기 차량 주변의 교통 상황을 나타내는 교통 데이터 중 적어도 하나를 포함하는, 클라이언트 디바이스.
청구항 17에 있어서, 상기 제1 및 제2 세트의 오디오 내비게이션 지시는 (i) 오디오 내비게이션 지시를 제공한 컨텍스트를 기술하는 차량 내 복수의 센서 신호 및 (ii) 운전자가 상기 오디오 내비게이션 지시에 올바르게 응답했는지 여부의 표시를 사용하여 트레이닝된 기계 학습 모델을 통해 생성되는, 클라이언트 디바이스.
청구항 17에 있어서,
상기 제1 인스턴스에서, 상기 제1 오디오 내비게이션 지시는 기동을 위한 위치로서 랜드마크를 포함하는 높은 수준의 세부 사항으로 제시되며; 그리고
상기 제2 인스턴스에서, 교차점을 기동을 위한 위치로서 포함하는 낮은 수준의 세부 사항으로 제시되는, 클라이언트 디바이스.