KR20200083310A

KR20200083310A - 양방향 차내 가상 개인 비서

Info

Publication number: KR20200083310A
Application number: KR1020190176027A
Authority: KR
Inventors: 그레고리 볼; 멩링 헤팅어; 프리스비 캄밤파티; 카뎀 베루즈 사가피; 니킬 파텔
Original assignee: 하만인터내셔날인더스트리스인코포레이티드
Priority date: 2018-12-28
Filing date: 2019-12-27
Publication date: 2020-07-08
Also published as: US20200211553A1; EP3675121A2; CN111381673A; EP3675121B1; EP3675121A3

Abstract

하나 이상의 실시예는 가상 개인 비서 시스템 상에서 실행되는 가상 개인 비서 모듈을 포함한다. 가상 개인 비서 모듈은 복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득한다. 가상 개인 비서 모듈은 제 1 센서 데이터를 분석하여 제 1 결과를 생성한다. 가상 개인 비서 모듈은 복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득한다. 가상 개인 비서 모듈은 제 2 센서 데이터 및 제 1 결과를 분석하여 제 2 결과를 생성한다. 가상 개인 비서 모듈은 제 2 결과에 기초하여 자연어 오디오 출력을 사용자에게 출력한다.

Description

양방향 차내 가상 개인 비서 {TWO-WAY IN-VEHICLE VIRTUAL PERSONAL ASSISTANT}

관련 출원에 대한 상호 참조

본 출원은 2018 년 12 월 28 일에 출원된 일련 번호 62/786,247의는 "Two-Way In-Vehicle Virtual Personal Assistant"라는 제목의 미국 특허 가출원의 이점을 주장한다. 이 관련 출원의 주제는 여기에 참조로 포함된다.

배경

본 개시의 실시예의 분야

본 발명의 실시예는 일반적으로 컴퓨팅 장치에 관한 것으로, 보다 구체적으로는 양방향 가상 개인 비서에 관한 것이다.

가상 개인 비서(또는 "VPA")는 최근에 인기가 증가하고 있다. 특히, 가상 개인 비서 기능을 갖춘 장치에 대한 수요가 성장하고 있으며, 이는 적어도 부분적으로 이들 장치가 다양한 작업을 수행하고 사용자 방향에 따라 다양한 요청을 수행하는 능력에 기인한다. 전형적인 응용에서, 차량과 함께 가상 개인 비서가 사용된다. 사용자는 가상 개인 비서를 "깨우기" 위해 특별한 단어나 명령을 발하여 작업을 시작한다. 가상 개인 비서는 음성 출력 또는 다른 표시기를 통해 작업을 수행할 준비가 되었음을 나타낸다. 그런 다음 사용자는 가상 개인 비서와 상호 작용하여 전화 통화 시작, 내비게이션 시퀀스 시작 또는 음악 트랙 재생과 같은 작업을 수행한다.

그러나, 종래의 가상 개인 비서의 한가지 단점은 가상 개인 비서가 수동적이며, 요청 또는 명령으로 동작을 개시하기 위해 사용자에 의존한다는 것이다. 결과적으로, 가상 개인 비서는 일반적으로 사용자가 조작을 요청하지 않는 기간 동안 기능하지 않고 유휴 상태이다. 또 다른 단점은 기존의 가상 개인 비서가 센서 데이터 및 기타 정보 리소스, 가령, 승객석 내 및 차량 외부에 있는 센서에 거의 또는 전혀 액세스하지 않는다는 점이다. 따라서, 종래의 가상 개인 비서는 조작을 수행하고 통찰력 및 정보를 사용자(들)에게 전달하는 능력이 제한되어있다.

전술한 바와 같이, 당 업계에서 필요한 것은 가상 개인 비서와 상호 작용하기 위한 보다 효과적인 기술이다.

본 개시의 다양한 실시예는 사용자와 상호 작용하기 위한 컴퓨터 구현 방법을 설명한다. 이 방법은 복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득하는 단계를 포함한다. 방법은 제 1 결과를 생성하기 위해 제 1 센서 데이터를 분석하는 단계를 더 포함한다. 방법은 복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득하는 단계를 더 포함한다. 이 방법은 제 2 센서 데이터 및 제 1 결과를 분석하여 제 2 결과를 생성하는 단계를 더 포함한다. 방법은 제 2 결과에 기초하여 자연어 오디오 출력을 사용자에게 출력하는 단계를 더 포함한다.

다른 실시예는 개시된 기술의 하나 이상의 양상을 구현하는 컴퓨팅 장치, 및 개시된 기술의 하나 이상의 양상을 수행하기 위한 명령어를 포함하는 컴퓨터 판독 가능 매체를 제한없이 포함한다.

종래 기술에 비해 개시된 기술의 적어도 하나의 기술적 이점은 개시된 기술에서는 가상 개인 비서가 센서 데이터 및 다른 데이터 소스를 지속적으로 모니터링하고 이에 응답하여 이 데이터에 기초하여 사용자에게 특정 조건에 대해 사전에 통지할 수 있다는 것이다. 개시된 기술의 다른 이점은, 가상 개인 비서가 다양한 센서 데이터 및 다른 데이터 소스에 액세스할 수 있기 때문에, 가상 개인 비서는 종래의 접근법에 비해 개선된 정확성 및 철저성을 갖는 통지를 생성한다는 것이다. 이러한 기술적 이점은 종래 기술의 접근법에 비해 하나 이상의 기술적 진보를 나타낸다.

다양한 실시예들의 상기 언급된 특징들이 상세히 이해될 수 있는 방식으로, 위에서 간략하게 요약된 본 발명의 개념들의 보다 구체적인 설명이 다양한 실시예들을 참조하여 이루어질 수 있으며, 그 중 일부가 첨부 도면에 도시되어 있다. 그러나, 첨부된 도면은 본 발명의 개념의 전형적인 실시예만을 도시하므로 어떠한 방식으로든 범위를 제한하는 것으로 간주되어서는 안되며, 다른 동등하게 효과적인 실시예가 있다는 것을 주목해야한다.
도 1은 하나 이상의 실시예를 구현하도록 구성된 가상 개인 비서 환경을 도시한다.
도 2는 다양한 실시예들에 따른, 도 1의 가상 개인 비서 시스템의 보다 상세한 도면이다.
도 3은 다양한 실시예에 따른 가상 개인 비서 시스템과 관련된 데이터 모델을 도시한다.
도 4는 다양한 실시예에 따른 가상 개인 비서 시스템의 사용자에 의해 개시된 상호 작용을 위한 데이터 흐름 파이프 라인을 도시한다.
도 5는 다양한 실시예에 따른 가상 개인 비서 시스템에 의해 개시된 상호 작용을 위한 데이터 흐름 파이프 라인을 도시한다.
도 6은 다양한 실시예에 따른 가상 개인 비서 시스템과 관련된 딥 러닝 프로세스 흐름을 도시한다.
도 7은 다양한 실시예에 따른 가상 개인 비서 시스템에 의해 수행되는 다양한 애플리케이션을 도시한다.
도 8은 다양한 실시예에 따른 가상 개인 비서 시스템의 사용자에 의해 개시된 동작을 수행하기 위한 방법 단계의 흐름도이다.
도 9는 다양한 실시예에 따른 가상 개인 비서 시스템에 의해 개시된 동작을 수행하기 위한 방법 단계의 흐름도이다.

본 명세서에서 추가로 설명되는 바와 같이, 양방향 가상 개인 비서 시스템은 사용자가 가상 개인 비서와 상호 작용하여, 하나 이상의 센서에 의해 모니터링되는 차량 및 주변 환경 또는 가정 및 주변 환경과 같은 영역에 관한 정보를 획득할 수 있게 한다. 비서-사용자 상호 작용에서, 양방향 가상 개인 비서는 센서에 의해 모니터링되는 영역에서 하나 이상의 상태를 검출하고, 검출된 상태에 관해 사용자에게 경고한다. 보다 구체적으로, 가상 개인 비서 모듈은 하나 이상의 센서로부터 센서 데이터를 수신하고 센서 데이터에 기초하여 상태를 결정한다. 가상 개인 비서 모듈은 이 상태에 기초하여(예를 들어, 상태가 비정상적인 경우, 상태가 임계 값을 초과하는 경우 등) 자연어 음성 출력과 같은 출력을 자동으로 생성한다.

사용자-비서 상호 작용에서, 가상 개인 비서는 하나 이상의 마이크로폰을 통해 음성 이벤트를 수신한다. 가상 개인 비서는 음성 이벤트에 기초하여 요청을 결정하고 하나 이상의 센서로부터 획득된 센서 데이터에 기초하여 요청에 대한 응답을 결정한다. 가상 개인 비서는 요청에 대한 응답에 기초하여 자연어 음성 출력과 같은 출력을 추가로 생성한다.

시스템 개요

도 1 내지 도 9의 설명에서, 가상 개인 비서의 실시예는 일반적으로 차량 기반 환경과 관련하여 설명된다. 그러나, 가상 개인 비서의 다양한 실시예는 가정 환경, 사무실 환경 등과 같은 관심있는 다른 환경과 함께 사용될 수 있음이 이해된다.

도 1은 하나 이상의 실시예를 구현하도록 구성된 가상 개인 비서 환경(100)을 도시한다. 도시된 바와 같이, 가상 개인 비서 환경(100)은 통신 네트워크(104)를 통해 서로 통신하는 가상 개인 비서 시스템(101) 및 원격 서버(102)를 제한없이 포함한다. 가상 개인 비서 시스템(101) 및 원격 서버(102)는 각각 통신 링크들(130 및 132)을 통해 통신 네트워크(104)에 부착된다. 통신 네트워크(104)는 블루투스 통신 채널, 무선 및 유선 LAN(Local Area Networks), 인터넷 기반 WAN(Wide Area Networks), 및 셀룰러 네트워크, 및/또는 등등을 제한없이 포함하는, 원격 또는 로컬 컴퓨터 시스템 및 컴퓨팅 장치 간에 통신을 구현하는 임의의 적절한 환경일 수 있다.

또한, 가상 개인 비서 환경(100)은 스마트 장치(110), 오디오 출력 장치(예를 들어, 스피커)(112), 오디오 입력 장치(예를 들어, 마이크로폰)(114), 센서(116) 및 기타 입력/출력(I/O) 장치(118)를 포함한다. 가상 개인 비서 시스템(101)은 각각 통신 링크(120, 122, 124, 126, 128))를 통해 통신을 설정하고 스마트 장치(110), 오디오 출력 장치(112), 오디오 입력 장치(114), 센서(116) 및 다른 I/O 장치(118)와 통신한다. 통신 링크들(120, 122, 124, 126 및 128)은 무선 또는 유선 점대점 또는 네트워크 통신 링크들의 기술적으로 가능한 임의의 조합 일 수 있다. 네트워크 통신 링크에는 Bluetooth 통신 채널, 무선 및 유선 LAN(근거리 통신망), 인터넷 기반 WAN(광역 통신망), 셀룰러 네트워크, 등을 제한없이 포함하는 원격 또는 로컬 컴퓨터 시스템 및 컴퓨팅 장치 간에 통신을 구현하기 위한 임의의 적절한 통신 링크가 포함된다. 추가적으로 또는 대안으로서, 통신 링크(120, 122, 124, 126 및 128)는 통신 네트워크(104)를 통한 통신을 제공할 수 있다.

가상 개인 비서 시스템(101)은 독립형 서버 일 수 있는 컴퓨팅 장치, 서버의 클러스터 또는 "팜", 하나 이상의 네트워크 기기, 또는 본 개시의 하나 이상의 양태를 구현하기에 적합한 임의의 다른 장치를 포함하지만 이에 제한되지 않는다. 예시적으로, 가상 개인 비서 시스템(101)은 통신 링크(130)를 통해 통신 네트워크(104)를 통해 통신한다.

동작에서, 가상 개인 비서 시스템(101)은 양방향 자연어 대화를 통해 하나 이상의 사용자(예를 들어, 차량의 운전자 및 승객)와 교신한다. 이 양방향 자연어 대화에는 사용자-차량 및 차량-사용자 통신이 포함된다. 가상 개인 비서 시스템(101)은 차량 내부에서 발생하는 상황 및 차량 외부에서 발생하는 상황에 대한 추론을 생성하기 위해 내부 센서로부터의 데이터 및 외부 센서로부터의 데이터를 결합한다. 또한, 가상 개인 비서 시스템(101)은 사용자, 차량 및/또는 환경에 관한 예측 또는 다른 결과를 생성하기 위해 내부 센서로부터의 데이터와 외부 센서로부터의 데이터를 결합한다. 내부 센서에는 이벤트 데이터 레코더(EDR), 온보드 진단 정보, 차량 헤드 유닛과 관련된 센서, 차량 정보/엔터테인먼트(인포테인먼트) 시스템과 관련된 센서, 차량 컨트롤러 영역 네트워크(CAN) 버스의 데이터, 차량 엔진 제어 장치(ECU)의 데이터, 외부 카메라, 레이더 장치 및 LIDAR 장치의 이미지 및 기타 데이터가 제한없이 포함된다.

일반적으로, 가상 개인 비서 시스템(101)은 가상 개인 비서 환경(100)의 전체 동작을 조정한다. 이와 관련하여, 일부 실시예에서, 가상 개인 비서 시스템(101)은 가상 개인 비서 시스템(101)의 다른 구성 요소에 연결될 수 있지만, 다른 구성 요소와 분리될 수 있다. 이러한 실시예에서, 가상 개인 비서 환경(100)은 주변 환경으로부터 획득된 데이터를 수신하고 가상 개인 비서 시스템(101)으로 데이터를 전송하는 하나 이상의 개별 프로세서를 포함할 수 있다. 이들 개별 프로세서는 차량 헤드 유닛, 개인용 컴퓨터, 오디오-비디오 수신기, 스마트 폰, 휴대용 미디어 플레이어, 웨어러블 장치, 등과 같은 별도의 장치에 포함될 수 있다. 그러나, 본 명세서에 개시된 실시예는 가상 개인 비서 환경(100)의 기능을 구현하도록 구성된 임의의 기술적으로 가능한 시스템을 고려한다.

차량-사용자(들) 통신 동안, 가상 개인 비서 시스템(101)은 다수의 센서를 이용하여 차량 내부 및 외부 환경을 모니터링하여, 현재 상태로부터의 유의한 편차가 검출될 때 사용자에게 통지한다. 가상 개인 비서 시스템(101)은 이벤트를 설명하는 오디오 음성 출력을 생성하고, 하나 이상의 경보를 생성하며, 및/또는 가능한 제안 또는 해결책을 제공한다. 사용자(들)-차량 통신 동안, 가상 개인 비서 시스템(101)은 사용자의 요청 및 요구에 따라 외부 서비스를 호출한다. 일반적으로, 가상 개인 비서 시스템(101)은 센서 융합 데이터, 컴퓨터 비전, 자연어 처리, 음성 인식 및 운전자 보조 기술을 통합하여, 차량의 사용자(들)에게 안전하고 지능적이며 개인화된 경험을 전달한다.

원격 서버(102)는 독립형 서버, 서버의 클러스터 또는 "팜", 하나 이상의 네트워크 장치, 또는 본 발명의 하나 이상의 양태를 구현하기에 적합한 임의의 다른 장치일 수 있는 컴퓨팅 장치를 제한없이 포함한다. 예시적으로, 원격 서버(102)는 통신 링크(132)를 통해 통신 네트워크(104)를 거쳐 통신한다.

동작 시, 원격 서버(102)는 가상 개인 비서 시스템(101)과 관련하여 본 명세서에 설명된 기술들 중 하나 이상을 수행한다. 이와 관련하여, 개시된 기술들은 통신 네트워크(104)를 통해 통신하는 가상 개인 비서 시스템(101)과 연계하여 원격 서버(102)를 포함하는 클라우드 컴퓨팅 시스템에 의해 구현될 수 있다. 예를 들어, 가상 개인 비서 시스템(101)은 음성 데이터를 원격 서버(102)에 전송할 수 있다. 원격 서버(102)는 임의의 기술적으로 실행 가능한 방식으로 음성 데이터를 처리하여 음성 데이터에 포함된 요청을 결정할 수 있다. 또한, 가상 개인 비서 시스템(101)은 센서 데이터를 원격 서버(102)에 전송할 수 있다. 원격 서버(102)는 사용자(들), 차량 및/또는 환경의 상태를 결정하기 위해 기술적으로 가능한 임의의 방식으로 센서 데이터를 처리할 수 있다. 원격 서버(102)는 결정된 상태에 기초하여 통지, 경보 및/또는 응답을 생성할 수 있다.

스마트 장치(110)는 퍼스널 컴퓨터, 퍼스널 디지털 어시스턴트, 태블릿 컴퓨터, 휴대 전화, 모바일 장치, 또는 본 발명의 하나 이상의 양태를 구현하기에 적합한 임의의 다른 장치 일 수 있는 컴퓨팅 장치를 제한없이 포함한다. 예시 적으로, 스마트 장치(110)는 통신 링크(120)를 통해 가상 개인 비서 시스템(101)과 통신한다.

동작 시, 스마트 장치(110)는 전화 서비스, 내비게이션 서비스 및 인포테인먼트 서비스를 포함하지만 이에 제한되지 않는 다양한 서비스를 제공함으로써 가상 개인 비서 시스템(101)의 기능을 증대시킨다. 또한, 스마트 장치(110)는 가상 개인 비서 시스템(101)에 연결된 센서(116)로부터 분리된 다양한 센서를 포함한다. 이와 관련하여, 스마트 장치(110)는 이러한 센서로부터 데이터를 획득하고 데이터를 가상 개인 비서 시스템(101)으로 전송한다. 스마트 장치(110)는 가상 개인 비서 시스템(101)에 연결된 오디오 출력 장치(112) 및 오디오 입력 장치(114)로부터 분리된 스피커 및 마이크로폰을 포함한다. 스마트 장치(110)는 오디오 입력 장치(114)를 통해 사운드 데이터를 획득하고, 처리를 위해 사운드 데이터를 가상 개인 비서 시스템(101)으로 전송한다. 마찬가지로, 스마트 장치(110)는 가상 개인 비서 시스템(101)으로부터 사운드 데이터를 수신하고, 스피커를 통해 사운드 데이터를 전송하여 사용자(들)는 스마트 장치(110) 상에 위치한 스피커를 통해 가상 개인 비서 시스템(101)으로부터 발원하는 오디오를 들을 수 있다.

오디오 출력 장치(112)는 가상 개인 비서 시스템(101) 및/또는 가상 개인 비서 시스템(101)과 관련된 전력 증폭기와 같은 대안의 오디오 장치로부터 수신된 하나 이상의 오디오 신호에 기초하여 사운드를 생성한다. 보다 구체적으로, 오디오 출력 장치(112)는 하나 이상의 전기 신호를 음파로 변환하고 음파를 물리적 환경으로 향하게 한다. 예시 적으로, 오디오 출력 장치(112)는 통신 링크(122)를 통해 가상 개인 비서 시스템(101)과 통신한다.

오디오 입력 장치(114)는 주변 환경으로부터 사용자의 음성과 같은 음향 데이터를 획득하고, 음향 데이터와 관련된 신호를 가상 개인 비서 시스템(101)에 전송한다. 예시 적으로, 오디오 입력 장치(114)는 통신 링크(124)를 통해 가상 개인 비서 시스템(101)과 통신한다.

동작 시, 센서(116)는 센서(140)에 의해 모니터링되는 영역에 포함된 하나 이상의 객체에 대응하는 센서 데이터를 획득하고, 이러한 센서 데이터를 가상 개인 비서 시스템(101)에 전송한다. 예시 적으로, 센서(116)는 통신 링크(126)를 통해 가상 개인 비서 시스템(101)과 통신한다.

다른 I/O 장치(118)는 입력 장치, 출력 장치 및 입력 데이터를 수신하고 출력 데이터를 생성할 수 있는 장치를 제한없이 포함한다. 예시 적으로, 다른 I/O 장치(118)는 통신 링크(128)를 통해 가상 개인 비서 시스템(101)과 통신한다.

본 명세서에 도시된 시스템은 예시적인 것이며 변형 및 수정이 가능하다는 것이 이해될 것이다. 예를 들어, 가상 개인 비서 환경(100)은 기술적으로 가능한 임의의 개수의 스마트 장치(110), 오디오 출력 장치(112), 오디오 입력 장치(114), 센서(116) 및 다른 I/O 장치(118)를 포함할 수 있다. 가상 개인 비서 시스템(101)의 다양한 기능 및 특징이 이제 설명된다.

가상 개인 비서 시스템의 동작

도 2는 다양한 실시예들에 따른, 도 1의 가상 개인 비서 시스템(101)의보다 상세한 예시이다. 도시된 바와 같이, 가상 개인 비서 시스템(101)은 프로세서(202), 스토리지(204), I/O 장치 인터페이스(206), 네트워크 인터페이스(208), 인터커넥트(210) 및 시스템 메모리(212)를 제한없이 포함한다.

프로세서(202)는 시스템 메모리(212)에 저장된 프로그래밍 명령어를 불러들여 실행한다. 유사하게, 프로세서(202)는 시스템 메모리(212)에 상주하는 애플리케이션 데이터를 저장 및 불러온다. 프로세서(202), I/O 장치 인터페이스(206), 스토리지(204), 네트워크 인터페이스(208) 및 시스템 메모리(212) 간에 프로그래밍 명령어 및 애플리케이션 데이터, 등의 전송이 인터커넥트(210)에 의해 촉진된다. I/O 장치 인터페이스(206)는 스마트 장치(110), 오디오 출력 장치(112), 오디오 입력 장치(114), 센서(116), 및 기타 I/O 장치(118) 내외로 데이터를 수신 및 송신하도록 구성된다.

I/O 장치 인터페이스(206)는 전기 오디오 출력 신호를 생성하도록 구성된 오디오 출력 유닛을 포함하고, 이에 응답하여 오디오 출력 장치(112)는 전기 오디오 출력 신호에 응답하여 음향 출력을 생성한다. 오디오 출력 장치(112)는 가상 개인 비서 시스템(101) 및/또는 가상 개인 비서 시스템(101)과 관련된 오디오 장치(예를 들어, 전력 증폭기)로부터 수신된 하나 이상의 오디오 신호에 기초하여 사운드를 생성한다.

I/O 장치 인터페이스(206)는 오디오 입력 장치(114)를 통해 음향 입력을 수신하도록, 그리고 음향 입력에 응답하여 전기 오디오 입력 신호를 생성하도록 구성된 오디오 입력 유닛을 포함한다. 오디오 입력 장치(114)는 주변 환경(예를 들어, 사용자의 음성)으로부터 음향 데이터를 획득하고 음향 데이터와 관련된 신호를 가상 개인 비서 시스템(101)에 전송한다. 가상 개인 비서 시스템(101)은 그 후 오디오 입력 장치(114)에 의해 획득된 음향 데이터를 처리하여 오디오 출력 장치(112)에 의해 재현되는 오디오 신호를 결정 및/또는 필터링할 수 있다. 다양한 실시예에서, 오디오 입력 장치(114)는 예를 들어 차동 마이크, 압전 마이크, 광학 마이크로폰, 등을 제한없이 포함하는 음향 데이터를 획득할 수 있는 임의의 유형의 트랜스듀서를 포함할 수 있다.

센서(116)는 모니터링되는 영역에 포함된 하나 이상의 객체에 대응하는 센서 데이터를 생성한다. 예를 들어, 그리고 제한없이, 센서(116)는 시각 센서(예를 들어, RGB 카메라, 적외선 카메라 등), 거리 측정 센서(예를 들어, LIDAR, 레이더), 생물학적 센서(예를 들어, 뇌파 센서 등), 청각 센서(예: 마이크로폰), 행동 센서(예: 모바일 사용 센서 등), 차량 또는 텔레매틱스 센서(예: 속도계 등) 및/또는 환경 센서(예: 온도계 등)를 포함할 수 있다. 이러한 센서의 데이터는 의미있는 정보, 경고, 권장 사항 등을 생성하기 위해 "융합"(예: 함께 집계 및 분석)될 수 있다.

다른 I/O 장치(118)는 입력 장치, 출력 장치, 및 입력 데이터를 수신하고 출력 데이터를 생성할 수 있는 장치를 제한없이 포함한다. 예를 들어, 그리고 제한없이, I/O 장치(104)는 오디오 출력 장치(112), 오디오 입력 장치(114), 센서(116), 원격 데이터베이스, 오디오 장치, 디스플레이 장치, 다른 컴퓨팅 장치, 등과 데이터를 송신 및/또는 수신하는 유선 및/또는 무선 통신 장치를 포함할 수 있다. 부가 적으로, 일부 실시예에서, I/O 장치(104)는 차량에 포함된 PTT 버튼과 같은 PTT(push-to-talk) 버튼을 모바일 장치 상에, 스마트 스피커 상에, 등등에 포함할 수 있다. 다른 I/O 장치(118)의 예는 하나 이상의 버튼, 키보드 및 마우스 또는 다른 포인팅 장치를 포함할 수 있다. 다른 I/O 장치(118)의 예는 일반적으로 디스플레이할 이미지를 생성하기 위한 기술적으로 실현 가능한 임의의 수단을 나타내는 디스플레이 장치를 더 포함할 수 있다. 예를 들어, 디스플레이 장치는 액정 디스플레이(LCD) 디스플레이, 유기 발광 다이오드(OLED) 디스플레이, 또는 디지털 광 처리(DLP) 디스플레이 일 수 있다. 디스플레이 장치는 디지털 또는 아날로그 텔레비전 신호를 수신하기 위한 방송 또는 케이블 튜너를 포함하는 TV 일 수 있다. 디스플레이 장치는 VR/AR 헤드셋에 포함될 수 있다. 또한, 디스플레이 장치는 벽 또는 프로젝션 스크린과 같은 하나 이상의 표면에 이미지를 투사하거나, 사용자의 눈에 직접 이미지를 투사할 수 있다. 디스플레이 장치는 터치 기반 입력을 수신하기 위한 터치 스크린을 포함할 수 있다.

프로세서(202)는 단일 중앙 처리 장치(CPU), 다중 CPU, 다중 처리 코어를 갖는 단일 CPU 등을 나타내기 위해 포함된다. 그리고 시스템 메모리(212)는 일반적으로 랜덤 액세스 메모리를 나타내도록 포함된다. 스토리지(204)는 디스크 드라이브 저장 장치일 수 있다. 단일 유닛으로 도시되어 있지만, 스토리지(204)는 고정 디스크 드라이브, 플로피 디스크 드라이브, 테이프 드라이브, 이동식 메모리 카드, 또는 광학 스토리지, NAS(Network Attached Storage), 또는, SAN(Storage Area-Network)과 같은, 고정 및/또는 이동식 저장 장치의 조합 일 수 있다. 프로세서(202)는 네트워크 인터페이스(208)를 통해 다른 컴퓨팅 장치 및 시스템과 통신하며, 여기서 네트워크 인터페이스(208)는 통신 네트워크를 통해 데이터를 송수신하도록 구성된다.

시스템 메모리(212)는 운영 체제(232), 가상 개인 비서(VPA) 모듈(234) 및 데이터 저장소(242)를 포함하지만 이에 제한되지 않는다. 운영 체제(232) 및 가상 개인 비서 모듈(234)은 프로세서(202)에 의해 실행될 때, 본 명세서에서 추가로 설명되는 바와 같이, 도 1의 가상 개인 비서 시스템(101)과 관련된 하나 이상의 동작을 수행한다. 가상 개인 비서 시스템(101)과 관련된 동작을 수행할 때, 운영 체제(232) 및 가상 개인 비서 모듈(234)은 데이터 저장소(242)에 데이터를 저장하고 데이터 저장소로부터 데이터를 불러올 수 있다.

운영 시, 운영 체제(232)는 가상 개인 비서 시스템(101)에 대한 다양한 지원 기능을 제공한다. 프로세서(202)는 일반적으로 운영 체제(232)의 제어를 받는다. 운영 체제의 예는 UNIX 운영 체제, Microsoft Windows 운영 체제의 버전, 리눅스 운영 체제의 배포판을 포함한다. (UNIX는 미국 및 기타 국가에서 The Open Group의 등록 상표이다. Microsoft 및 Windows는 미국, 기타 국가, 또는 둘 모두에서 Microsoft Corporation의 상표이다. Linux는 미국, 기타 국가, 또는 둘 모두에서 Linus Torvalds의 등록 상표이다). 보다 일반적으로, 본 명세서에 개시된 기능을 지원하는 임의의 운영 체제가 사용될 수 있다.

동작 시, 가상 개인 비서 모듈(234)은 양방향 자연어 대화를 통해 차량의 사용자(들)와 통신한다. 이 양방향 자연어 대화에는 사용자-차량 및 차량-사용자 통신이 포함된다. 가상 개인 비서 모듈(234)은 차량 내부에서 발생하는 상황 및 차량 외부에서 발생하는 상황에 대한 추론을 생성하기 위해 내부 센서로부터의 데이터 및 외부 센서로부터의 데이터를 결합한다. 또한, 가상 개인 비서 모듈(234)은 내부 센서로부터의 데이터 및 외부 센서로부터의 데이터를 결합하여 사용자, 차량 및/또는 환경에 관한 예측 또는 다른 결과를 생성한다. 내부 센서에는 이벤트 데이터 레코더(EDR), 온보드 진단 정보, 차량 헤드 유닛과 관련된 센서, 차량 정보/엔터테인먼트(인포테인먼트) 시스템과 관련된 센서, 차량 컨트롤러 영역 네트워크(CAN) 버스로부터의 데이터, 및 차량 엔진 제어 장치(ECU)의 데이터, 외부 카메라, 레이더 장치 및 LIDAR 장치의 이미지 및 기타 데이터를 제한없이 포함한다.

일부 실시예에서, 가상 개인 비서 모듈(234)은 본 명세서에서 추가로 설명되는 바와 같이 텍스트-음성 변환 기능, 음성-텍스트 변환 기능, 자연어 처리 기능, 센서 융합 시스템 및 딥 러닝 모델 및 로직을 포함할 수 있다. 예를 들어, 제한없이, 가상 개인 비서 모듈(234)은 하나 이상의 오디오 입력 장치(114)를 통해 획득된 음성 데이터를 처리하여, 요청(가령, 질문), 및/또는 요청의 개념(예를 들어, 의미, 의도)을 결정할 수 있다. 가상 개인 비서 모듈(234)은 그 후 하나 이상의 센서(116)로부터의 센서 데이터에 기초하여 요청에 대한 응답을 결정하고, 응답에 기초하여 출력(예를 들어, 음성 출력)을 생성하고, 출력을 사용자에게 출력시킬 수 있다(예를 들어, 오디오 출력 장치를 통해). 다양한 실시예에서, 하나 이상의 딥 러닝, 머신 러닝 모델 및/또는 트레이닝 데이터세트가 메모리(110)(예를 들어, 데이터 저장소(242))에 저장될 수 있다. 일부 실시예들에서, 데이터 저장소(242)는 가상 개인 비서 시스템(101) 내에(예를 들어, 시스템 메모리(212) 내) 및/또는 원격 서버(102)와 같은 원격 서버(예를 들어, 클라우드 컴퓨팅 시스템 내)에 위치될 수 있다.

다른 예로서, 가상 개인 비서 모듈(234)은 사용자(들), 차량 및/또는 환경의 상태를 검출하기 위해 하나 이상의 센서(116)로부터 센서 데이터를 처리할 수 있다. 일부 실시예들에서, 가상 개인 비서 모듈(234)은 상태가 임계치를 초과하는지 여부를 결정할 수 있다. 상태를 검출하는 것에 응답하여(및 일부 실시예들에서, 상태가 임계 값을 초과한다고 결정한 것에 응답하여), 가상 개인 비서 모듈(234)은 출력(예를 들어, 자연어 음성 출력)을 생성하고 출력을 사용자에게 (예를 들어, 오디오 출력 장치를 통해) 출력시킬 수 있다.

다양한 실시예에서, 가상 개인 비서 모듈(234)은 사용자-비서 접근법에 따라 사용자에게 정보를 제공한다. 사용자-비서 접근법에서, 사용자는 가상 개인 비서 모듈(234)로 향하는 발화(speech utterance)를 한다. 일부 실시예에서, 음성은 가상 개인 비서 모듈(234)과 관련된 웨이크 워드(wakeword) 또는 핫 워드(hotword)를 포함한다. 일부 실시예에서, 사용자는 발화하기 전에 가상 개인 비서 모듈(234)과 연관된 입력 장치(예를 들어, 사용자로부터의 발화가 온다는 것을 가상 개인 비서 모듈(234)에 알리는 물리적 또는 가상 버튼. 가령, 푸시-토크 버튼)를 활성화시킬 수 있다. 가상 개인 비서 모듈(234)은 하나 이상의 오디오 입력 장치(114)를 통해 음성 발화에 대응하는 음성 데이터를 획득한다. 가상 개인 비서 모듈(234)은 임의의 기술적으로 가능한 방식으로 음성의 요청을 결정하기 위해 음성 데이터를 처리한다. 예를 들어, 가상 개인 비서 모듈(234)은 음성 데이터를 음성 데이터로 구현된 요청의 텍스트(예를 들어, 요청에 대응하는 질문)로 변환하기 위해 음성 인식을 수행할 수 있다. 가상 개인 비서 모듈(234)은 그 후, 요청의 개념(예를 들어, 의미, 의도)을 결정하기 위해 텍스트에 대해 자연어 처리(예를 들어, 자연어 모델을 사용하여)를 수행할 수 있다.

가상 개인 비서 모듈(234)은 요청 및 요청의 개념에 기초하여 요청에 대한 응답을 결정하기 위해 센서(116)로부터 센서 데이터를 획득 및 처리할 수 있다. 예를 들어, 요청이 "내 우측 차선에서 청색 세단의 속도는 얼마입니까?"라면, 가상 개인 비서 모듈(234)은 하나 이상의 카메라(예를 들어, RGB 카메라, 적외선 카메라), 레이더, 및 열 센서로부터의 센서 데이터가 요청에 가장 관련도 높은 센서임을 결정할 수 있다. 가상 개인 비서 모듈(234)은 이러한 센서들로부터 센서 데이터를 획득하여, 요청의 블루 세단을 식별하고 그 블루 세단의 속도를 결정할 수 있다. 즉, 가상 개인 비서 모듈(234)은 요청에 대한 응답을 결정하기 위해 이들 센서로부터 데이터를 "융합(fuse)"한다.

다양한 실시예에서, 센서 데이터의 프로세싱 또는 "융합"(fusing)은 센서 데이터에 기초하여 하나 이상의 상태를 예측하기 위해 하나 이상의 모델을 센서 데이터에 적용하는 단계를 포함할 수 있다. 예를 들어, 위에서 논의된 "우측 차선에서 청색 세단의 속도는 얼마입니까?"라는 요청을 처리하기 위해, 가상 개인 비서 모듈(234)은 카메라로부터의 데이터에 컴퓨터 비전 모델을 적용하고 레이더 및 열 센서에 신호 처리 모델을 적용하여, 요청의 목표 물체("우측 차선의 청색 세단")를 예측할 수 있다. 가상 개인 비서 모듈(234)은 요청에 대한 적절한 응답을 결정하기 위해 다수의 모델로부터의 예측 및/또는 다른 결과를 집계한다. 다른 예로서, 요청이 "내 아기가 무엇을 하고 있는가?"라면, 가상 개인 비서 모듈(234)은 컴퓨터 비전 모델(예를 들어, 사람 인식 모델, 얼굴 인식 모델)을 적용하여, 영역 내의 목표 아기를 예측하고, 아기의 활동 상태를 예측하기 위해 활동 인식 모델을 적용할 수 있다. 가상 개인 비서 모듈(234)은 요청에 대한 적절한 응답을 결정하기 위해 예측 및/또는 다른 결과를 집계한다. 보다 일반적으로, 가상 개인 비서 모듈(234)은 요청에 대한 적절한 응답을 결정하기 위해 하나 이상의 센서로부터의 센서 데이터에 기초하여 결정, 예측 및/또는 결과를 집계한다. 다양한 실시예에서, 가상 개인 비서 모듈(234)은 적절한 응답을 결정하기 위해 임의의 수의 딥 러닝 기술 및 모델(예를 들어, 머신 러닝 기술)을 사용할 수 있다.

가상 개인 비서 모듈(234)은 임의의 기술적으로 가능한 방식으로 요청에 대한 응답에 기초하여 출력(예를 들어, 음성 출력)을 생성할 수 있다. 예를 들어, 가상 개인 비서 모듈(234)은 자연어 모델을 응답에 적용하여 응답의 자연어 텍스트 표현을 획득한 다음, 텍스트 표현을 음성으로 변환하여 오디오 출력 장치(112)를 통해 출력할 수 있다. 가상 개인 비서 모듈(234)은 그 후, 출력이 사용자에게 출력되게 한다(예를 들어, 오디오 출력 장치(112)를 통한 응답에 대응하는 출력 음성). 응답 및 대응하는 출력은 요청에 대한 응답을 포함할 수 있다. 예를 들어, "우측 차선에서 청색 세단의 속도는 얼마입니까?"라는 요청에 대해 출력은 우측 차선에서 청색 세단의 속도를 보고할 수 있다. 응답 및 대응하는 출력은 선택적으로, 제안된 행동 과정을 포함할 수 있다. 다양한 실시예에서, 가상 개인 비서 모듈(234)은 제안된 행동 과정을 결정하기 위해 임의의 수의 머신 러닝 및 딥 러닝 기술 및 모델을 사용할 수 있다.

다양한 실시예들에서, 가상 개인 비서 모듈(234)은 또한 비서-사용자 접근법에 따라 사용자에게 정보를 제공한다. 비서-사용자 접근법에서, 가상 개인 비서 모듈(234)은 센서(116)로부터 센서 데이터를 모니터링하고(예를 들어, 센서 데이터를 지속적으로 모니터링), 기술적으로 가능한 방식으로 센서 데이터에 기초하여 하나 이상의 상태를 결정한다. 예를 들어, 가상 개인 비서 모듈(234)은 센서 데이터에 전술한 것과 유사한 머신 러닝 및 딥 러닝 모델의 적용을 포함하여 센서(116)로부터의 데이터를 처리 또는 "융합"하여, 해당 영역에서 하나 이상의 상태(가령, 주변 차량의 속도, 차량 탑승자의 활동 상태)를 검출할 수 있다.

일부 실시예에서, 검출된 상태에 응답하여, 가상 개인 비서 모듈(234)은 먼저 검출된 상태를 관련 임계 값과 비교할 수 있다. 임계 값은 사전 정의 및/또는 사용자 구성 가능할 수 있다. 상태가 임계 값을 초과하지 않으면, 가상 개인 비서 모듈(234)은 상태와 관련하여 어떠한 행동도 취하지 않는다. 상태가 임계 값을 초과하면, 가상 개인 비서 모듈(234)은 상태와 관련된 통지 또는 경보 출력을 생성할 수 있다. 일부 실시예에서, 가상 개인 비서 모듈(234)은 상태가 임계 값을 초과했는지 여부에 관계없이 적어도 하나 이상의 상태에 대한 통지 또는 경보 출력을 생성할 수 있다. 예를 들어, 가상 개인 비서 모듈(234)은 탑승자가 무엇을 하고 있는지에 관계없이 5 분마다 차량의 뒷좌석에 있는 모든 탑승자의 활동 상태를 보고하도록 사용자에 의해 구성될 수 있다.

가상 개인 비서 모듈(234)은 검출된 상태에 기초하여(예를 들어, 검출된 상태가 연관된 임계 값을 초과하는 경우) 통지 또는 경보를 결정하고, 통지 또는 경보에 대한 대응하는 출력을 생성할 수 있다. 통지 또는 경보, 및 대응하는 출력은 검출된 상태에 대한 정보를 포함할 수 있고, 검출된 상태에 응답하여 제안된 행동 과정을 선택적으로 포함할 수 있다. 다양한 실시예에서, 가상 개인 비서 모듈(234)은 제안된 행동 과정을 결정하기 위해 임의의 수의 머신 러닝 및 딥 러닝 기술 및 모델을 사용할 수 있다. 예를 들어, 검출된 상태가 사용자 차량의 우측 차선에서 차량에 의한 불규칙한 주행을 포함하는 경우, 통지 또는 경보는 사용자에게 불규칙하게 구동되는 차량을 알리고, 사용자가 불규칙하게 구동되는 차량의 반대 방향으로 차선을 변경할 것을 제안하고, 및/또는 불규칙하게 구동되는 차량으로부터 더 먼 거리를 얻기 위해 감속할 수 있다.

일부 실시예에서, 가상 개인 비서 모듈(234)은 오디오 음성 출력 메시지를 생성하는 것에 추가하여 또는 대안으로 다른 동작을 수행할 수 있다. 일례에서, 가상 개인 비서 모듈(234)은 특정 조건에 따라 다양한 제어 레벨에서 차량의 자율 제어를 가정하거나 수행할 수 있다. 가상 개인 비서 모듈(234)이, 하나 이상의 센서를 통해, 사용자가 도시 거리에서 차량을 운전하고 있다고 결정하면, 가상 개인 비서 모듈(234)은 사용자가 차량을 완전히 제어하게 할 수 있다. 일부 실시예에서, 가상 개인 비서 모듈(234)이 특정 조건을 검출하면, 가상 개인 비서 모듈(234)은 차량의 자율 제어 또는 추가의 자율 제어를 일시적으로 가정하거나 행사할 수 있다. 예를 들어, 가상 개인 비서 모듈(234)이 사용자가 적색 등 또는 정지 신호를 실행할 가능성이 있다고 예측하면, 가상 개인 비서 모듈(234)은 차량을 감속 및/또는 정지시키기 위해 제동 기능을 적용할 수 있다. 가상 개인 비서 모듈(234)이 후속하여 하나 이상의 센서를 통해 사용자가 현재 고속도로에서 차량을 운전하고 있다고 결정하면, 가상 개인 비서 모듈(234)은 부분적인 자율 제어를 수행하고, 예를 들어 다른 차량을 따라 특정 차로에서 안전한 거리로 다른 차량을 따르는 것과 같이, 소정의 패턴을 따를 수 있다. 가상 개인 비서 모듈(234)이 하나 이상의 센서를 통해 사용자가 고속도로를 빠져 나가고 있다고 판단하면, 가상 개인 비서 모듈(234)은 차량에 대한 모든 제어를 사용자에게 반환할 수 있다.

일부 실시예에서, 가상 개인 비서 모듈(234)은 클라우드 환경에서 시각적 입력 및 센서 데이터를 원격 서버(102)와 같은 원격 서버로 전송할 때 특정 개인 식별 정보를 위장할 수 있다. 이러한 실시예에서, 가상 개인 비서 모듈(234)은 이미지에서 얼굴을 흐리게 하고 센서 데이터에서 개인 신원 정보를 숨겨서 개인이 식별될 수 없도록하는 등과 같이, 개인 식별 정보를 모호하게할 수 있다. 이 기술은 한 사용자의 센서 데이터가 여러 사용자의 센서 데이터와 결합되어 모든 사용자가 액세스할 수 있는 다중 사용자 머신 러닝 모델을 생성할 때 바람직할 수 있다. 시각적 입력 및 센서 데이터는 개별 사용자의 개인 정보를 침해하지 않으면서 다중 사용자 머신 러닝 모델을 훈련시키기 위해 사용될 수 있다.

일부 실시예에서, 가상 개인 비서 모듈(234)은 시각적 입력 및 센서 데이터에 대한 원격 액세스를 허용할 수 있다. 일 예에서, 차량은 배달 회사 또는 택시 서비스에 속하는 관리 차량의 일부일 수 있다. 감독자 또는 다른 직원은 다양한 차량의 시각적 입력 및 센서 데이터를 원격으로 모니터링하여, 각 차량이 적절하고 안전한 방식으로 사용되고 있는지 결정할 수 있다. 다른 예에서, 응급 서비스 또는 경찰은 특정 차량으로부터의 시각적 입력 및 센서 데이터를 원격으로 모니터링하여 차량 내에서 발생하는 위험하거나 생명을 위협하는 또는 불법적인 활동을 탐지할 수 있다.

도 3은 다양한 실시예에 따른 가상 개인 비서 시스템(101)과 같은 가상 개인 비서 시스템과 관련된 데이터 모델(300)을 도시한다. 데이터 모델(300)은 도 2의 가상 개인 비서 시스템(101)에서 실행되는 가상 개인 비서 모듈(234)에 의해 구현될 수 있다. 데이터 모델(300)은 딥 러닝 모델 및 로직(302), 센서 융합 시스템(304) 및 사용자(306)를 포함하지만 이에 제한되지 않는다. 데이터 모델(300)은 경로들(322, 324 및 326)을 포함하는 차량-사용자 상호 작용 경로뿐만 아니라 경로들(312, 314 및 316)을 포함하는 사용자-차량 상호 작용 경로를 더 포함한다.

사용자-차량 상호 작용 경로 동안, 사용자(306)는 질문을 하거나 요청을 한다. 센서 융합 시스템(304)은 경로(312)를 통해 질문 또는 요청을 수신한다. 센서 융합 시스템(304)은 센서 데이터를 전처리하고 경로(314)를 통해 딥 러닝 모델 및 로직(302)으로 전처리된 센서 데이터를 전송한다. 오디오 음성 출력 형태의 응답은 딥 러닝 모델 및 로직(302)를 전처리된 센서 데이터에 적용함으로써 생성된다. 오디오 음성 출력 형태의 응답은 경로(316)를 통해 사용자(들)(306)에게 전송된다.

차량-사용자 상호 작용 경로 동안, 딥 러닝 모델 및 로직(302)이 센서 데이터에 적용된다. 예를 들어, 컴퓨터 비전 모델은 카메라 입력 및 적외선 입력을 포함하지만 이에 제한되지 않는 시각적 데이터에 적용될 수 있다. 신호 처리 모델은 레이더 입력 및 열 센서 입력을 포함하나 이에 제한되지 않는 다른 센서 데이터에 적용될 수 있다. 딥 러닝 모델 및 로직(302)은 하나 이상의 예측을 생성하기 위해 센서 데이터를 지속적으로 모니터링한다. 딥 러닝 모델 및 로직(302)은 경로(322)를 따라 예측을 센서 퓨전 시스템(304)으로 전송한다. 센서 퓨전 시스템(304)은 다양한 딥 러닝 모델 및 로직(302)으로부터 수신된 예측을 병합하여 집계 예측 값을 생성한다. 집계 예측값은 임계 값 레벨과 비교된다. 예측 값이 임계 값 레벨을 초과하면, 통지 또는 경고와 같은 오디오 음성 메시지가 생성된다. 오디오 음성 메시지는 경로(324)를 따라 사용자(들)(306)로 전송된다. 사용자(들)(306)는 오디오 음성 메시지에 응답하여 하나 이상의 동작을 수행할 수 있다. 다양한 센서가 사용자(들)(306)의 동작을 모니터링하고 사용자 피드백 데이터의 형태로 대응하는 센서 데이터를 딥 러닝 모델 및 로직(302)으로 전송한다. 딥 러닝 모델 및 로직(302)은 사용자 피드백 데이터에 응답하여 수정되어, 모델 및 로직을 지속적으로 훈련하고 향상시킬 수 있다. 이러한 방식으로, 딥 러닝 모델 및 로직(302)은 지속적으로 자기 학습하고 시간이 지남에 따라 성숙된다.

사용자-차량 상호 작용 경로 및 차량-사용자 상호 작용 경로가 이제 각각도 4 및 5와 관련하여 설명된다.

도 4는 다양한 실시예에 따른 가상 개인 비서 시스템(101)과 같은 가상 개인 비서 시스템의 사용자에 의해 개시되는 상호 작용을 위한 데이터 흐름 파이프 라인(400)을 도시한다. 데이터 흐름 파이프 라인(400)은 도 3의 사용자-차량 상호 작용 경로에 대응한다. 도시된 바와 같이, 데이터 흐름 파이프 라인(400)은 음성 인식(402), 입력 자연어 처리(NLP) 모델(404), 컴퓨터 비전 모델(406), 신호 처리 모델(408), 센서 퓨전(410), 출력 NLP 모델(412) 및 텍스트-음성(414)을 포함하지만 이에 제한되지 않는다.

사용자는 가상 개인 비서 시스템(101)의 범위 내에서 요청함으로써 가상 개인 비서 시스템(101)과 대화를 시작한다. 음성 인식(402)은 오디오 입력 장치(114)를 통해 수신된 음파의 형태로 음성 입력(422)을 수신한다. 음성 인식(402)은 음성 입력(422)을 요청 텍스트(424)로 디코딩하고 요청 텍스트(424)를 입력 NLP 모델(404)로 전송한다.

입력 NLP 모델(404)은 요청 텍스트(424)에 의해 표현된 단어를 발화한 사용자의 의미 또는 의도를 나타내는 추출된 의미(426)를 생성하기 위해 요청 텍스트(424)를 분석한다. 입력 NLP 모델(404)에 의해 생성된 추출된 의미(426)는 사용자에게 응답하는 데 필요한 예측을 결정한다. 입력 NLP 모델(404)은 추출된 의미(426)를 컴퓨터 비전 모델(406) 및 신호 처리 모델(408)로 전송한다.

컴퓨터 비전 모델(406)은 추출된 의미(426)를 고려하여, 카메라 입력(428) 및 적외선 입력(430)을 포함하지만 이에 제한되지 않는, 시각적 입력을 분석한다. 컴퓨터 비전 모델(406)은 시각적 입력 및 추출된 의미(426)에 기초하여 예측(432)을 생성한다. 유사하게, 신호 처리 모델(408)은 추출된 의미(426)를 고려하여 레이더 입력(434) 및 열 센서 입력(436)을 포함하지만 이에 제한되지 않는 센서 데이터를 분석한다. 신호 처리 모델(408)은 센서 데이터 및 추출된 의미(426)에 기초하여 예측(438)을 생성한다. 센서 융합(410)은 컴퓨터 비전 모델(406)로부터 수신된 예측(432) 및 신호 처리 모델(408)로부터 수신된 예측(438)을 포함하지만 이에 제한되지 않는, 다양한 모델로부터 수신된 예측을 결합한다. 센서 융합(410)은 이러한 예측을 결합하여 개별 예측에 기초하여 집합 예측(440)을 생성한다. 센서 융합(410)은 집합 예측(440)을 출력 NLP 모델(412)로 전송한다. 출력 NLP 모델(412)은 집합 예측(440)에 기초하여 자연어 응답 텍스트(442)를 생성한다. 텍스트-음성(414)은 응답 텍스트(442)를 음성 출력(444)으로 변환하고 음성 출력(444)을 사용자에게 전송한다.

도 5는 다양한 실시예에 따른 가상 개인 비서 시스템(101)과 같은 가상 개인 비서 시스템에 의해 개시된 상호 작용을 위한 데이터 흐름 파이프 라인(500)을 도시한다. 데이터 흐름 파이프 라인(500)은 도 3의 차량-사용자 상호 작용 경로에 대응한다. 도시된 바와 같이, 데이터 흐름 파이프 라인(500)은 컴퓨터 비전 모델(406), 신호 처리 모델(408), 센서 융합(410), "임계치 초과" 결정 블록(516), "조치 없음" 블록(518), 출력 NLP 모델(412) 및 텍스트-음성(414)을 제한없이 포함한다. .

이러한 데이터 흐름 파이프 라인(500)에서, 가상 개인 비서 시스템(101)은 차량, 차량 외부 환경 및/또는 차량 캐빈 내부 환경에 대한 정보를 사용자에게 통지하거나 경보하기 위해 대화를 개시한다. 다양한 모델이 시각적 데이터 및 기타 센서 데이터를 지속적으로 모니터링하여 이상을 탐지한다. 이와 관련하여, 컴퓨터 비전 모델(406)은 카메라 입력(428) 및 적외선 입력(430)을 포함하지만 이에 제한되지 않는 시각적 입력을 분석한다. 컴퓨터 비전 모델(406)은 시각적 입력에 기초하여 예측(532)을 생성한다. 유사하게, 신호 처리 모델(408)은 레이더 입력(434) 및 열 센서 입력(436)을 포함하지만 이에 제한되지 않는 센서 데이터를 분석한다. 신호 처리 모델(408)은 센서 데이터에 기초하여 예측(538)을 생성한다. 센서 융합(410)은 컴퓨터 비전 모델(406)로부터 수신된 예측(532) 및 신호 처리 모델(408)로부터 수신된 예측(538)을 포함하지만 이에 제한되지 않는, 다양한 모델로부터 수신된 예측을 결합한다. 센서 융합(410)은 이러한 예측을 결합하여 개별 예측에 기초하여 집합 예측(540)을 생성한다 .

"초과 임계 값" 결정 블록(516)은 집합 예측(540)을 미리 결정된 임계 레벨과 비교한다. 집합 예측(540)이 미리 결정된 임계 레벨을 초과하지 않으면, "조치 없음" 블록(518)에서 어떠한 동작도 취해지지 않는다. 반면에, 집합 예측(540)이 사전 결정된 임계 레벨을 초과하면, 출력 NLP 모델(412)이 집합 예측(540)에 기초하여 자연어 통지 텍스트(542)를 생성한다. 텍스트-음성(414)은 통지 텍스트(542)를 음성 출력(544)으로 변환하고 음성 출력(544)을 사용자에게 전송한다. 일부 실시예에서, 가상 개인 비서 시스템(101)은 특정 조건에 따라 다양한 제어 레벨에서 차량의 자율 제어를 가정하거나 수행할 수 있다. 사용자가 취하거나, 부주의하거나, 졸리거나, 생명을 위협하는 상황이 존재하는 경우, 가상 개인 비서 시스템(101)은 사용자로부터 멀어지도록 운전을 제어하기 위해 자율성의 수준을 증가시킬 수 있다. 가상 개인 비서 시스템(101)이 후속하여 운전자가 냉정하고 세심하고 깨어있는 것으로 판단하면, 가상 개인 비서 시스템(101)은 운전의 제어를 사용자에게 다시 전달하기 위해 자율성의 수준을 감소시킬 수 있다.

도 6은 다양한 실시예에 따른 가상 개인 비서 시스템(101)과 같은 가상 개인 비서 시스템과 관련된 딥 러닝 프로세스 흐름(600)을 도시한다. 도시된 바와 같이, 가상 개인 비서 시스템(101)은 통신 네트워크(104)를 통해 머신 러닝 모듈 및 로직(610)과 통신한다. 머신 러닝 모듈 및 로직(610)은 원격 서버(102)와 같은 원격 서버에서 실행된다. 동작 시, 가상 개인 보조 시스템(100)은 시각적 입력 및 센서 데이터를 획득한다. 가상 개인 비서 시스템(100)은 시각적 입력 및 센서 데이터를 통신 네트워크(104)를 통해 머신 러닝 모듈 및 로직(610)에 전송한다. 머신 러닝 모듈 및 로직(610)의 각각의 구성 요소는 머신 러닝 출력(630)에 포함된 대응하는 출력을 생성하는 사전 훈련된 머신 러닝 모델이며, 대응하는 출력은 수신된 시각적 입력 및 센서 데이터에 기초한다. 머신 러닝 출력(630)은 원격 서버(102)와 같은 원격 서버에서 생성된다.

이와 관련하여, 자연어 처리(612)는 시각적 입력 및 센서 데이터에 기초하여 자연어 단어(632)를 생성한다. 시각적 질문 응답(VQA)(614)은 이미지 또는 다른 시각적 데이터에 대해 질문될 수 있는 질문에 대한 답변을 설명하는 문장(634)을 생성한다. 객체 검출(616)은 검출된 물체의 위치(636)를 생성한다. 인식(618)은 이미지 또는 다른 시각적 데이터 내에서 인식된 사람들의 식별자(638)를 생성한다. 신체 검출(620)은 이미지 또는 다른 시각적 데이터 내에서 사람의 신체의 위치 및 자리를 생성한다. 연령/성별/감정 검출(622)은 이미지 또는 다른 시각 데이터 내의 사람들의 연령, 성별 및 감정 상태를 나타내는 특징(642)을 생성한다. 얼굴 검출(624)은 이미지 또는 다른 시각 데이터 내의 사람들의 얼굴과 관련된 특징 및 위치(644)를 생성한다. 생체 인증(626)은 이미지 또는 다른 시각 데이터 내의 생체 데이터가 저장된 생체 데이터와 일치하는지에 기초하여 참 또는 거짓 결정(646)을 생성한다. 지오펜싱(geofencing)(628)은 차량의 검출된 위치가 지오펜싱 관심 영역의 내부인지 외부인지에 기초하여 내부 또는 외부 결정(648)을 생성한다.

다양한 머신 러닝 모듈 및 로직(610)에 의해 생성된 머신 러닝 출력(630)은 분석 모델(650)로 전송된다. 분석 모델(650)은 사용자(들)의 하나 이상의 예측된 행동을 생성하고, 예측된 행동을 통신 네트워크(104)를 통해 시각적 개인 비서 시스템(101)에 전송한다. 시각적 개인 비서 시스템(101)은 분석 모델(650)로부터 수신된 예측된 행동에 기초하여 하나 이상의 반응 액션을 수행한다. 예를 들어, 시각적 개인 비서 시스템(101)은 예측된 행동 임계 값에 기초하여 자연어 응답을 생성할 수 있고, 그런 다음 자연어 응답을 사용자에게 출력할 수 있다.

도 6에 도시된 바와 같이, 머신 러닝 모듈 및 로직(610)이 실행되고, 머신 러닝 출력(630)이 원격 서버(102)와 같은 원격 서버에서 생성된다. 부가 적으로 또는 대안으로서, 머신 러닝 모듈 및 로직(610)은 가상 개인 비서 시스템(101) 상에서 로컬하게 실행되고, 머신 러닝 출력(630)은 가상 개인 비서 시스템(101) 상에서 로컬하게 생성된다.

도 7은 다양한 실시예에 따른 가상 개인 비서 시스템(101)과 같은 가상 개인 비서 시스템에 의해 수행되는 다양한 모듈(700)을 도시한다. 도시된 바와 같이, 모듈(700)은 다양한 센서(710)로부터 시각적 입력 및 센서 데이터를 수신하고, 3 가지 유형의 이벤트, 즉 생명을 위협하는 이벤트(730), 보다 나은 주행 경험 이벤트(750) 및 사용자-차량 정보 호출 이벤트(770)로 분류된 다양한 기능을 수행한다. 사용자는이 세 가지 이벤트 유형을 독립적으로 활성화 또는 비활성화할 수 있다.

생명 위협 이벤트(730)는 전방 차량(740)에 너무 가까이 접근한 경우, 적색 등 또는 정지 신호(742)에 접근, 음주, 부주의 또는 졸음 운전(744), 보행자, 사물 또는 자전거(746)에 접근, 및 가시도 기반 안전 속도 초과(746)를 포함하지만, 이에 제한되지는 않는다. 보다 일반적으로, 생명 위협 이벤트는 사용자가 손상되거나 부주의한 상태에서 운전하는 경우 또는 차량이 물체와 충돌할 위험이 있는 경우를 포함한다. 일 예에서, 생명 위협 이벤트들(730)과 관련된 모듈들(700)은 사용자가 적색 등에 접근하거나 정지 신호(742)에 접근하고 시간 내에 정지할 가능성이 없음을 결정하기 위해 전방 카메라(712) 및 실내 카메라(714)로부터의 시각적 입력을 텔레매틱스(722) 센서 데이터로 분석할 수 있다. 다른 예에서, 생명 위협 이벤트(730)와 관련된 모듈(700)은 사용자가 음주 또는 졸음 운전(744)에 관여하고 있는지를 결정하기 위해 차내 카메라(714) 및 알코올 센서(718) 데이터로부터의 시각적 입력을 분석할 수 있다. 또 다른 예에서, 생명 위협 이벤트(730)에 관련된 모듈(700)은 후방 카메라(716) 및 레이더(720)로부터의 시각적 입력을 분석하여, 보행자 또는 자전거(746)가 뒤에서 접근하고 있는지를 판단할 수 있다. 또 다른 예에서, 생명 위협 이벤트(730)와 관련된 모듈들(700)은 사용자가 현재 날씨 또는 도로 조건에 기초하여 가시성 기반 안전 속도(746)를 초과 하는지를 결정하기 위해 전방 카메라(712), 차내 카메라(714) 및 후방 카메라로부터의 시각적 입력을 분석할 수 있다.

보다 나은 운전 경험 이벤트(750)는 불필요한 차선 변경(760), 제한 속도(702) 5 % 초과, 불안한 운전 또는 저킹(jerking)(764), 및 낮은 연료 레벨(766)을 제한없이 포함한다. 일 예에서, 보다 나은 운전 경험 이벤트(750)와 관련된 모듈(700)은 사용자가 불필요하게 차선을 반복적으로 변경하거나 사용자가 지정된 백분율을 초과하여 제한 속도를 초과할 때 사용자에게 통지할 수 있다. 다른 예에서, 보다 나은 운전 경험 이벤트들(750)과 관련된 모듈들(700)은 타 차량이 후미를 바짝 쫓아올 때(tailgating) 사용자에게 통지할 수 있다. 또 다른 예에서, 보다 나은 주행 경험 이벤트(750)와 관련된 모듈(700)은 긴급 차량이 근처에 있을 때 사용자에게 통지할 수 있고 긴급 차량의 방향 및 거리를 식별할 수 있다. 또 다른 예에서, 보다 나은 운전 경험 이벤트들(750)과 관련된 모듈들(700)은 사용자가 불편해 보이거나 과도하게 흔들리고 있을 때 사용자에게 통지할 수 있다. 또 다른 예에서, 보다 나은 주행 경험 이벤트(750)와 관련된 모듈(700)은 연료 레벨이 낮을 때 사용자에게 통지하고 가장 가까운 주유소를 식별할 수 있다.

사용자-차량 정보 호출 이벤트(770)는 운전 통계 불러오기(780), 시각 장면 이해(782), 교통 정보 불러오기(784) 및 차내 정보 불러오기(786)을 포함하지만 이에 제한되지 않는다. 사용자는 사용자-차량 정보 호출 이벤트(770)를 통해 가상 개인 비서 시스템(101)의 질문을 할 수 있다. 일 예에서, 사용자는 보다 나은 주행 경험 이벤트(750)와 관련된 모듈(700)로 질문을 보내서 지난 시간의 평균 또는 최고 속도를 요청하거나, 시야 내 특정 건물을 식별하거나, 현재의 가시도 레벨을 평가할 수 있다. 다른 예에서, 사용자는 보다 나은 주행 경험 이벤트(750)와 관련된 질문을 모듈(700)로 보내서 우측 차선이 차선을 변경하기에 명확한지 또는 특정 위치까지 여행 시간을 물을 수 있다. 또 다른 예에서, 사용자는 보다 나은 운전 경험 이벤트(750)와 관련된 질문을 모듈(700)로 보내서 좌측 뒷좌석에 있는 사람이 자고 있는지와 같은 하나 이상의 주변 사람에 관한 질문을 할 수 있다.

이들 다양한 모듈(700)을 통해, 사용자(들)는 센서(710)로부터의 광범위한 센서 데이터에 기초하여 자연적인 방식으로 가상 개인 비서 시스템(101)과 상호 작용한다. 결과적으로, 사용자(들)는 관련성 있고 시기 적절하게 수신한다. 생명 위협 이벤트(730), 보다 나은 운전 경험 이벤트(750), 및 사용자-차량 정보 호출 이벤트(770)에 관한 관련 정보를 이해 가능한 방식으로 적시에 수신한다.

도 8은 다양한 실시예에 따른 가상 개인 비서 시스템(101)과 같은 가상 개인 비서 시스템의 사용자에 의해 개시된 동작을 수행하기 위한 방법 단계의 흐름도이다. 방법 단계가 도 1 내지도 7의 시스템과 관련하여 설명되었지만, 당업자는 임의의 순서로 방법 단계를 수행하도록 구성된 임의의 시스템이 본 개시의 범위 내에 있음을 이해할 것이다.

도시된 바와 같이, 방법(800)은 가상 개인 비서 시스템(101)이 오디오 입력 장치(114)를 통해 수신된 음파의 형태로 사용자로부터 오디오 음성 입력을 수신(802)하는 단계(802)에서 시작한다. 단계(804)에서 가상 개인 비서 시스템(101)은 오디오 음성 입력을 텍스트 세그먼트로 변환한다. 단계(806)에서, 가상 개인 비서 시스템(101)은 의도된 의미를 추출하기 위해 텍스트 세그먼트에 제 1 NLP 모델을 적용한다. 보다 구체적으로, 가상 개인 비서 시스템(101)은 텍스트 세그먼트에 의해 표현된 단어를 발화한 사용자의 의미 또는 의도를 나타내는 추출된 의미를 생성하기 위해 텍스트 세그먼트를 분석한다.

단계(808)에서, 가상 개인 비서 시스템(101)은 의도된 의미 및 제 1 센서 입력에 기초하여 제 1 예측을 생성한다. 제 1 센서 입력은 카메라 데이터, 적외선 데이터, 레이더 데이터, 열 센서 데이터 또는 임의의 다른 기술적으로 가능한 센서 데이터를 포함할 수 있지만, 이에 제한되지는 않는다. 단계(810)에서, 가상 개인 비서 시스템(101)은 제 1 예측을 증강시키는 제 2 센서 입력을 수신한다. 제 2 센서 입력은 카메라 데이터, 적외선 데이터, 레이더 데이터, 열 센서 데이터 또는 임의의 다른 기술적으로 가능한 센서 데이터를 포함할 수 있지만, 이에 제한되지는 않는다. 일부 실시예들에서, 가상 개인 비서 시스템(101)은 의도된 의미에 기초하여 제 2 센서를 선택할 수 있다. 단계(812)에서, 가상 개인 비서 시스템(101)은 의도된 의미, 제 1 예측 및 제 2 센서 입력에 기초하여 제 2 예측을 생성한다. 단계(814)에서, 가상 개인 비서 시스템(101)은 자연어 응답 텍스트 세그먼트를 생성하기 위해 제 2 예측에 제 2 NLP 모델을 적용한다. 단계(816)에서, 가상 개인 비서 시스템(101)은 응답 텍스트 세그먼트를 오디오 음성 출력으로 변환한 다음, 사용자(들)에게 전송한다. 일부 실시예들에서, 가상 개인 비서 시스템(101)은 제 2 센서 입력들로부터 도출된 정보를 자연어 오디오 음성 출력으로 통합할 수 있다. 그 다음에 방법(800)은 종료된다.

도 9는 다양한 실시예에 따른 가상 개인 비서 시스템(101)과 같은 가상 개인 비서 시스템에 의해 개시된 동작을 수행하기 위한 방법 단계의 흐름도이다. 방법 단계가 도 1 내지도 7의 시스템과 관련하여 설명되었지만, 당업자는 임의의 순서로 방법 단계를 수행하도록 구성된 임의의 시스템이 본 개시의 범위 내에 있음을 이해할 것이다.

도시된 바와 같이, 방법(900)은 단계(902)에서 시작하며, 여기서 가상 개인 비서 시스템(101)은 제 1 센서 입력에 기초하여 제 1 예측을 생성한다. 제 1 센서 입력은 카메라 데이터, 적외선 데이터, 레이더 데이터, 열 센서 데이터 또는 임의의 다른 기술적으로 가능한 센서 데이터를 포함할 수 있지만, 이에 제한되지는 않는다. 단계(904)에서, 가상 개인 비서 시스템(101)은 제 1 예측을 증강시키는 제 2 센서 입력을 수신한다. 제 2 센서 입력은 카메라 데이터, 적외선 데이터, 레이더 데이터, 열 센서 데이터 또는 임의의 다른 기술적으로 가능한 센서 데이터를 포함할 수 있지만, 이에 제한되지는 않는다. 일부 실시예들에서, 가상 개인 비서 시스템(101)은 제 2 센서가 제 1 예측의 양상을 증강시키는 데이터에 액세스한다고 결정하고, 이에 응답하여 제 1 결과에 기초하여 제 2 센서를 선택할 수 있다. 단계(906)에서, 가상 개인 비서 시스템(101)은 제 1 예측 및 제 2 센서 입력에 기초하여 제 2 예측을 생성한다.

단계(908)에서, 가상 개인 비서 시스템(101)은 제 2 예측을 임계 레벨과 비교한다. 단계(910)에서, 가상 개인 비서 시스템(101)은 제 2 예측이 임계 레벨을 초과하는지 여부를 결정한다. 제 2 예측이 임계 레벨을 초과하지 않으면, 방법(900)은 전술한 단계(902)로 진행한다. 반면에, 제 2 예측이 임계 레벨을 초과하면, 방법(900)은 단계(912)로 진행하고, 여기서 가상 개인 비서 시스템(101)은 NLP 모델을 제 2 예측에 적용하여 경보 또는 통지와 같은 자연어 통지 텍스트 세그먼트를 생성한다. 단계(914)에서, 가상 개인 비서 시스템(101)은 응답 텍스트 세그먼트를 오디오 음성 출력으로 변환한 후, 사용자(들)에게 전송한다. 일부 실시예들에서, 가상 개인 비서 시스템(101)은 제 2 센서 입력들로부터 도출된 정보를 자연어 오디오 음성 출력으로 통합할 수 있다. 이어서 방법(900)은 종료된다.

요약하면, 양방향 가상 개인 비서 시스템에서는 사용자가 가상 개인 비서와 상호 작용하여, 하나 이상의 센서에 의해 모니터링되는 차량 및 주변 환경 또는 가정 및 주변 환경과 같은 영역에 대한 정보를 하나에 의해 획득할 수 있다. 비서-사용자 상호 작용에서, 양방향 가상 개인 비서는 센서에 의해 모니터링되는 영역에서 하나 이상의 상태를 검출하고, 검출된 상태에 관해 사용자에게 경고한다. 보다 구체적으로, 가상 개인 비서 모듈은 하나 이상의 센서로부터 센서 데이터를 수신하고 센서 데이터에 기초하여 상태를 결정한다. 가상 개인 비서 모듈은 상태에 기초하여(예를 들어, 상태가 비정상적인 경우, 상태가 임계 값을 초과하는 경우 등), 음성 출력과 같은 출력을 자동으로 생성한다.

사용자-비서 상호 작용에서, 가상 개인 비서는 하나 이상의 마이크로폰을 통해 음성 이벤트를 수신한다. 가상 개인 비서는 음성 이벤트에 기초하여 요청을 결정하고, 하나 이상의 센서로부터 획득된 센서 데이터에 기초하여 요청에 대한 응답을 결정한다. 가상 개인 비서는 요청에 대한 응답에 기초하여 자연어 음성 출력과 같은 출력을 추가로 생성한다.

종래 기술에 비해 개시된 기술의 적어도 하나의 기술적 이점은 개시된 기술에서는 가상 개인 비서가 센서 데이터 및 다른 데이터 소스를 지속적으로 모니터링하고 이에 응답하여 이 데이터에 기초하여 소정의 조건을 사용자에게 미리 통지할 수 있다는 것이다. 개시된 기술의 다른 이점은, 가상 개인 비서가 다양한 센서 데이터 및 다른 데이터 소스에 액세스할 수 있기 때문에, 가상 개인 비서가 종래의 접근법에 비해 개선된 정확성 및 철저성을 갖는 통지를 생성한다는 것이다. 이러한 기술적 이점은 종래 기술의 접근법에 비해 하나 이상의 기술적 진보를 나타낸다.

1. 일부 실시예에서, 사용자와 상호 작용하기 위한 컴퓨터로 구현되는 방법은 복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득하는 단계; 제 1 결과를 생성하기 위해 제 1 센서 데이터를 분석하는 단계; 상기 복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득하는 단계; 상기 제 2 센서 데이터 및 상기 제 1 결과를 분석하여 제 2 결과를 생성하는 단계; 및 제 2 결과에 기초하여 자연어 오디오 출력을 사용자에게 출력하는 단계를 포함한다.

2. 조항 1에 있어서, 상기 제 1 센서 데이터는 오디오 음성 입력을 포함하고, 상기 방법은: 상기 제 1 센서 데이터를 텍스트 세그먼트로 변환하는 단계; 의도된 의미를 추출하기 위해 자연어 처리 모델을 텍스트 세그먼트에 적용하는 단계; 및 의도된 의미에 기초하여 제 2 센서를 선택하는 단계를 포함하는, 컴퓨터로 구현되는 방법.

3. 조항 1 또는 조항 2에 있어서, 상기 제 2 센서 데이터를 자연어 오디오 출력에 통합하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

4. 조항 1 내지 조항 3 중 어느 하나에 있어서, 상기 제 2 결과를 임계 레벨과 비교하는 단계; 및 상기 제 2 결과가 상기 임계 레벨을 초과한다고 결정하는 단계를 더 포함하며, 상기 자연어 오디오 출력을 출력하는 단계는 상기 제 2 결과가 상기 임계 레벨을 초과한다는 결정에 기초하는, 컴퓨터로 구현되는 방법.

5. 조항 1 내지 조항 4 중 어느 하나에 있어서, 텍스트 세그먼트를 생성하기 위해 자연어 처리 모델을 상기 제 2 결과에 적용하는 단계; 및 텍스트 세그먼트를 자연어 오디오 출력으로 변환하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

6. 조항 1 내지 조항 5 중 어느 하나에 있어서, 상기 사용자와 관련된 식별 정보를 모호하게 하기 위해 상기 제 1 센서 데이터 또는 상기 제 2 센서 데이터 중 적어도 하나를 변경하는 단계; 및 분석을 위해 제 1 센서 데이터 또는 제 2 센서 데이터 중 적어도 하나를 원격 서버로 전송하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

7. 조항 1 내지 조항 6 중 어느 하나에 있어서, 스마트 장치와의 통신을 확립하는 단계; 및 스마트 장치로부터 제 1 센서 데이터 또는 제 2 센서 데이터 중 적어도 하나를 수신하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

8. 조항 1 내지 조항 7 중 어느 하나에 있어서, 스마트 장치와의 통신을 확립하는 단계; 및 자연어 오디오 출력을 스마트 장치로 전송하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

9. 조항 1 내지 조항 8 중 어느 하나에 있어서, 상기 제 2 결과가 생명 위협 이벤트를 나타내는 것으로 결정하는 단계; 및 사용자와 관련된 차량의 자율 제어를 가정하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

10. 조항 1 내지 조항 9 중 어느 하나에 있어서, 상기 제 1 결과 또는 제 2 결과 중 적어도 하나는 사용자와 관련된 차량 외부의 물체의 검출이고, 자연어 오디오 출력은 차량과 물체 사이의 방향 및 거리 중 적어도 하나를 표시하는, 컴퓨터로 구현되는 방법.

11. 조항 1 내지 조항 10 중 어느 하나에 있어서, 상기 제 1 결과 또는 제 2 결과 중 적어도 하나는 사용자와 관련된 차량이 적색 등 또는 정지 신호에 접근하고 있음을 검출하는 것이고, 상기 방법은 차량을 정지시키기 위해 제동 기능을 적용하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

12. 조항 1 내지 조항 11 중 어느 하나에 있어서, 상기 제 2 센서가 상기 제 1 결과의 양상을 증강시키는 데이터에 액세스한다고 결정하는 단계; 및 제 1 결과에 기초하여 제 2 센서를 선택하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.

13. 일부 실시예에서, 하나 이상의 컴퓨터 판독가능 저장 매체는 하나 이상의 프로세서에 의해 실행될 때 하나 이상의 프로세서가 사용자와 상호 작용하게 하는 명령어를 포함하며, 복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득하는 단계; 제 1 예측을 생성하기 위해 상기 제 1 센서 데이터를 분석하는 단계; 상기 복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득하는 단계; 상기 제 2 센서 데이터 및 상기 제 1 예측을 분석하여 제 2 예측을 생성하는 단계; 및 제 2 예측에 기초하여 자연어 오디오 출력을 사용자에게 출력하는 단계를 수행하게 한다.

14. 조항 13에 있어서, 상기 제 1 센서 데이터는 오디오 음성 입력을 포함하고, 상기 명령어는 상기 하나 이상의 프로세서로 하여금: 상기 제 1 센서 데이터를 텍스트 세그먼트로 변환하는 단계; 의도된 의미를 추출하기 위해 자연어 처리 모델을 텍스트 세그먼트에 적용하는 단계; 및 의도된 의미에 기초하여 제 2 센서를 선택하는 단계를 또한 수행하게 하는, 하나 이상의 컴퓨터 판독가능 저장 매체.

15. 조항 13 또는 조항 14에 있어서, 상기 명령어는 상기 하나 이상의 프로세서로 하여금, 상기 제 2 센서 데이터를 자연어 오디오 출력에 통합하는 단계를 또한 수행하게 하는, 하나 이상의 컴퓨터 판독가능 저장 매체.

16. 조항 13 내지 조항 15 중 어느 하나에 있어서, 상기 명령어는 상기 하나 이상의 프로세서로 하여금, 상기 제 2 예측을 임계 레벨과 비교하는 단계; 및 제 2 예측이 임계 레벨을 초과한다고 결정하는 단계를 또한 수행하게 하며, 상기 자연어 오디오 출력을 출력하는 단계는 제 2 예측이 임계 레벨을 초과한다는 결정에 기초 하는, 하나 이상의 컴퓨터 판독가능 저장 매체.

17. 조항 13 내지 조항 16 중 어느 하나에 있어서, 상기 명령어는 상기 하나 이상의 프로세서로 하여금, 자연어 처리 모델을 상기 제 2 예측에 적용하여 텍스트 세그먼트를 생성하는 단계; 및 텍스트 세그먼트를 자연어 오디오 출력으로 변환하는 단계를 또한 수행하게 하는, 하나 이상의 컴퓨터 판독가능 저장 매체.

18. 조항 13 내지 17 중 어느 하나에 있어서, 상기 명령어는 상기 하나 이상의 프로세서로 하여금, 상기 제 2 센서가 상기 제 1 예측의 양태를 증강시키는 데이터에 액세스한다고 결정하는 단계; 및 제 1 예측에 기초하여 제 2 센서를 선택하는 단계를 또한 수행하게 하는, 하나 이상의 컴퓨터 판독가능 저장 매체.

19. 일부 실시예에서, 시스템은: 명령어를 포함하는 메모리; 및 상기 메모리에 연결되는 프로세서를 포함하며, 상기 명령어를 실행할 때 상기 프로세서는, 복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득하고; 제 1 결과를 생성하기 위해 제 1 센서 데이터를 분석하며; 복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득하고; 제 2 센서 데이터 및 제 1 결과를 분석하여 제 2 결과를 생성하며; 상기 제 2 결과에 기초하여 사용자에게 자연어 경보를 출력한다.

20. 조항 19에 있어서, 상기 프로세서는 상기 명령어를 실행할 때, 상기 제 2 센서 데이터를 자연어 경보에 추가로 통합하는, 시스템.

임의의 방식으로, 본 명세서에 기재된 임의의 청구항 및/또는 본 출원에서 설명된 임의의 청구항 요소의 임의의 및 모든 조합이 본 개시 및 보호의 범위 내에 속한다.

다양한 실시예들의 설명은 예시의 목적으로 제시되었지만, 개시된 실시예들로 철저하거나 제한되는 것은 아니다. 기술된 실시예의 범위 및 사상을 벗어나지 않으면서 많은 수정 및 변형이 당업자에게 명백할 것이다.

본 실시예의 양태는 시스템, 방법 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 따라서, 본 개시의 양태는 전체 하드웨어 실시예, 완전히 소프트웨어 실시예(펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함 함) 또는 모두 일반적으로 지칭될 수 있는 소프트웨어 및 하드웨어 양태를 결합하는 실시예의 형태를 취할 수 있다. 또한, 본 개시의 양태는 컴퓨터 판독 가능 프로그램 코드가 구현된 하나 이상의 컴퓨터 판독 가능 매체(들)에 구현된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.

하나 이상의 컴퓨터 판독 가능 매체(들)의 임의의 조합이 이용될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체 일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 디바이스, 또는 전술한 것의 임의의 적절한 조합 일 수 있지만 이에 제한되지는 않는다. 컴퓨터 판독 가능 저장 매체의보다 구체적인 예(비제한 리스트)는 다음을 포함할 것이다: 하나 이상의 와이어를 갖는 전기 접속, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독-전용 메모리(ROM), 소거 가능한 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 CD-ROM(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 기타 상기의 적절한 조합을 포함할 것이다. 이 문서의 맥락에서, 컴퓨터 판독 가능 저장 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 임의의 유형 매체 일 수 있다.

본 개시의 양태는 본 개시의 실시 형태에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 위에서 설명되었다. 흐름도 및/또는 블록도의 각 블록, 및 흐름도 및/또는 블록도의 블록의 조합은 컴퓨터 프로그램 명령에 의해 구현될 수 있음을 이해할 것이다. 이들 컴퓨터 프로그램 명령은 범용 컴퓨터, 특수 목적 컴퓨터 또는 기타 프로그램 가능 데이터 처리 장치의 프로세서에 제공되어, 명령어가 컴퓨터의 프로세서 또는 다른 프로그램 가능 데이터 처리 장치를 통해 실행되는 명령어가 흐름도 및/또는 블록도 블록에 명시된 기능/작용을 구현할 수 있게 하도록, 기계를 생성할 수 있다. 이러한 프로세서는 범용 프로세서, 특수 목적 프로세서, 애플리케이션 특정 프로세서 또는 필드 프로그래밍 가능 프로세서 일 수 있으나, 이에 제한되지 않는다.

도면의 흐름도 및 블록도는 본 개시의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 동작을 도시한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 지정된 논리 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 명령어를 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현들에서, 블록에서 언급된 기능들은 도면들에서 언급된 순서를 벗어나서 발생할 수 있음에 유의해야한다. 예를 들어, 연속으로 도시된 2 개의 블록은 실제로 실질적으로 동시에 실행될 수 있거나, 또는 관련된 기능에 따라 블록이 때때로 역순으로 실행될 수 있다. 또한, 블록도 및/또는 흐름도 도해의 각 블록과, 블록도 및/또는 흐름도의 블록들의 조합은 특정 기능 또는 동작 또는 전용 하드웨어 및 컴퓨터 명령어의 조합을 수행하는 전용 하드웨어 기반 시스템에 의해 구현될 수 있다.

전술한 내용은 본 발명의 실시예에 관한 것이지만, 본 발명의 기본 범위를 벗어나지 않고 본 발명의 다른 및 추가의 실시예가 고안될 수 있으며, 그 범위는 다음의 청구 범위에 의해 결정된다.

Claims

사용자와 상호 작용하기 위한 컴퓨터로 구현되는 방법으로서,
복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득하는 단계;
제 1 결과를 생성하기 위해 상기 제 1 센서 데이터를 분석하는 단계;
상기 복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득하는 단계;
제 2 결과를 생성하도록 상기 제 2 센서 데이터 및 상기 제 1 결과를 분석하는 단계; 및
제 2 결과에 기초하여 자연어 오디오 출력을 상기 사용자에게 출력하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
상기 제 1 센서 데이터는 오디오 음성 입력을 포함하고,
상기 방법은:
상기 제 1 센서 데이터를 텍스트 세그먼트로 변환하는 단계;
의도된 의미를 추출하기 위해 자연어 처리 모델을 상기 텍스트 세그먼트에 적용하는 단계; 및
상기 의도된 의미에 기초하여 상기 제 2 센서를 선택하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
상기 제 2 센서 데이터를 자연어 오디오 출력에 통합하는 단계를 더 포함하는 컴퓨터로 구현되는 방법
제 1 항에 있어서,
상기 제 2 결과를 임계 레벨과 비교하는 단계; 및
상기 제 2 결과가 상기 임계 레벨을 초과함을 결정하는 단계를 더 포함하며,
자연어 오디오 출력을 출력하는 단계는 상기 제 2 결과가 상기 임계 레벨을 초과한다는 결정에 기초하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
텍스트 세그먼트를 생성하기 위해 자연어 처리 모델을 상기 제 2 결과에 적용하는 단계; 및
상기 텍스트 세그먼트를 자연어 오디오 출력으로 변환하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
사용자와 관련된 식별 정보를 모호하게 하기 위해 상기 제 1 센서 데이터 또는 상기 제 2 센서 데이터 중 적어도 하나를 변경하는 단계; 및
분석을 위해 상기 제 1 센서 데이터 또는 상기 제 2 센서 데이터 중 적어도 하나를 원격 서버로 전송하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
스마트 장치와의 통신을 확립하는 단계; 및
상기 스마트 장치로부터 상기 제 1 센서 데이터 또는 상기 제 2 센서 데이터 중 적어도 하나를 수신하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
스마트 장치와의 통신을 확립하는 단계; 및
자연어 오디오 출력을 상기 스마트 장치로 전송하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
상기 제 2 결과가 생명 위협 이벤트를 나타냄을 결정하는 단계; 및
상기 사용자와 관련된 차량의 자율 제어를 가정하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
상기 제 1 결과 또는 제 2 결과 중 적어도 하나는 상기 사용자와 관련된 차량 외부의 물체의 검출이고, 상기 자연어 오디오 출력은 차량과 물체 사이의 거리 및 방향 중 적어도 하나를 나타내는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
상기 제 1 결과 또는 제 2 결과 중 적어도 하나는 상기 사용자와 관련된 차량이 적색 등 또는 정지 신호에 접근하고 있다는 검출이고, 상기 방법은 상기 차량을 정지시키는 제동 기능을 더 포함하는, 컴퓨터로 구현되는 방법.
제 1 항에 있어서,
상기 제 2 센서가 상기 제 1 결과의 양상을 증강시키는 데이터에 액세스함을 결정하는 단계; 및
제 1 결과에 기초하여 제 2 센서를 선택하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
명령어를 포함하는 하나 이상의 컴퓨터 판독가능 저장 매체에 있어서,
상기 명령어는 하나 이상의 프로세서들에 의해 실행될 때, 상기 하나 이상의 프로세서들로 하여금 :
복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득하는 단계;
제 1 예측을 생성하기 위해 상기 제 1 센서 데이터를 분석하는 단계;
상기 복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득하는 단계;
제 2 예측을 생성하도록 상기 제 2 센서 데이터 및 상기 제 1 예측을 분석하는 단계; 및
상기 제 2 예측에 기초하여 자연어 오디오 출력을 상기 사용자에게 출력하는 단계를 수행함으로써 사용자와 상호 작용하게 하는, 하나 이상의 컴퓨터-판독가능 저장 매체.
제 13 항에 있어서,
상기 제 1 센서 데이터는 오디오 음성 입력을 포함하고, 상기 명령어는 상기 하나 이상의 프로세서로 하여금,
상기 제 1 센서 데이터를 텍스트 세그먼트로 변환하는 단계;
의도된 의미를 추출하기 위해 자연어 처리 모델을 상기 텍스트 세그먼트에 적용하는 단계; 및
상기 의도된 의미에 기초하여 상기 제 2 센서를 선택하는 단계를 더 수행하게 하는, 하나 이상의 컴퓨터-판독가능 저장 매체.
시스템으로서,
명령어를 포함하는 메모리; 및
메모리에 연결되는 프로세서를 포함하며,
상기 프로세서는 명령어를 실행할 때:
복수의 센서에 포함된 제 1 센서로부터 제 1 센서 데이터를 획득하고;
제 1 결과를 생성하기 위해 상기 제 1 센서 데이터를 분석하며;
복수의 센서에 포함된 제 2 센서로부터 제 2 센서 데이터를 획득하고;
제 2 결과를 생성하도록 상기 제 2 센서 데이터 및 상기 제 1 결과를 분석하며; 및
상기 제 2 결과에 기초하여 상기 사용자에게 자연어 경고를 출력하는, 시스템.