KR20170106227A

KR20170106227A - 정보 제공 장치 및 정보 제공 프로그램을 저장하는 기록 매체

Info

Publication number: KR20170106227A
Application number: KR1020170029963A
Authority: KR
Inventors: 고 고가
Original assignee: 도요타 지도샤（주）
Priority date: 2016-03-11
Filing date: 2017-03-09
Publication date: 2017-09-20
Also published as: US9939791B2; CN107179870A; KR102000132B1; CN107179870B; TW201734926A; JP2017162385A; CA2960140A1; JP6477551B2; BR102017004763A2; RU2657179C1; MY179856A; CA2960140C; US20170261947A1; EP3217333A1; TWI626615B

Abstract

정보 제공 장치는, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력 데이터를 이용하여 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하는 에이전트 ECU(100)를 포함한다. 에이전트 ECU(100)는, 확률 분포의 편차 정도를 산출한다. 그리고, 확률 분포의 편차 정도가 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 선택하고 출력하는 시행 착오적인 조작 제안을 행하고, 확률 분포의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 고정하고 출력하는 확정적인 조작 제안을 행한다.

Description

정보 제공 장치 및 정보 제공 프로그램을 저장하는 기록 매체{INFORMATION PROVIDING DEVICE AND NON-TRANSITORY COMPUTER READABLE MEDIUM STORING INFORMATION PROVIDING PROGRAM}

본 발명은, 제공한 정보에 대한 사용자(운전자)로부터의 응답의 이력 데이터를 축적하여 학습하고, 그 학습 결과에 의거하여 사용자(운전자)의 의도에 입각한 정보의 제공을 행하는 정보 제공 장치 및 정보 제공 프로그램을 저장하는 기록 매체에 관한 것이다.

이 종류의 정보 제공 장치로서, 예를 들면 국제공개 WO2015/162638에 기재된 장치(사용자 인터페이스 시스템)이 알려져 있다. 이 장치에서는, 음성 입력에 의한 기능의 실행에 있어서 우선, 현시점에 있어서의 차량의 상황에 관한 정보를 이용하여 사용자(운전자)가 행할 것으로 생각되는 음성 조작의 후보를 추정하여, 그들 추정한 음성 조작의 후보 중 확률이 높은 순서대로 3개의 후보를 선택지로서 터치 패널에 표시한다. 이어서, 이들 선택지 중으로부터 운전자가 수기 입력에 의해 선택한 후보를 판단하여 음성 조작의 대상을 결정함과 함께, 당해 결정한 음성 조작의 대상에 맞추어 사용자에게 음성 입력을 촉구하는 가이던스를 생성하여 출력한다. 그 후, 이 가이던스에 따라서 운전자가 음성 입력을 행함으로써, 대상이 되는 차량 기능을 결정하여 실행하도록 하고 있다. 그리고, 이와 같이 현시점에 있어서의 차량의 상황에 따라서 사용자의 의도에 따른 음성 조작의 입구가 제공됨으로써, 음성 입력을 행하는 사용자의 조작 부하가 경감되도록 되어 있다.

그런데, 상기 문헌에 기재된 장치에서는, 차량 기능의 실행에 있어서, 터치 패널에 표시된 선택지에 대한 수기 입력에 의한 조작 모드로부터 음성 입력에 의한 조작 모드로 사용자 인터페이스가 전환되어 버리기 때문에, 운전자의 부하의 증대가 불가피하게 되어 있었다.

또한, 상기 문헌에 기재된 장치에서는, 음성 조작의 입구는 간소화되지만, 그 후의 조작은 기존의 음성 대화 시스템과 동일한 기능이 실현되어 있는 것에 지나지 않아, 운전자의 부하의 더 한층의 경감이 요망되고 있었다.

본 발명은, 간소한 사용자 인터페이스를 일관되게 이용함으로써, 운전자의 부하를 억제하면서 정보의 제공으로서 운전자의 의도에 입각한 보다 적절한 차량 탑재기기의 조작 제안을 실행할 수 있는 정보 제공 장치 및 정보 제공 프로그램을 저장하는 기록 매체를 제공한다.

본 발명의 제 1 태양에 관한 정보 제공 장치는, 에이전트 전자 제어 유닛을 구비한다. 상기 에이전트 ECU는, 복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하도록 구성되는 상태 공간 구성부와, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로서 정의하여 복수의 행동의 집합인 행동 공간을 구성하도록 구성되는 행동 공간 구성부와, 상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하도록 구성되는 강화 학습부와, 상기 강화 학습부에 의해 산출되는 확률 분포의 편차 정도를 연산하도록 구성되는 편차 정도 연산부와, 상기 편차 정도 연산부에 의해 연산되는 확률 분포의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산부에 의해 연산되는 확률 분포의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하도록 구성되는 정보 제공부를 가진다.

또한, 본 발명의 제 2 태양에 관한 정보 제공 프로그램을 저장하는 비일시적인 컴퓨터 판독 매체에 있어서, 상기 정보 제공 프로그램은, 컴퓨터에, 복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하는 상태 공간 구성 기능과, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로서 정의하여 복수의 행동의 집합인 행동 공간을 구성하는 행동 공간 구성 기능과, 상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하는 강화 학습 기능과, 상기 강화 학습 기능에 의해 산출되는 확률 분포의 편차 정도를 연산하는 편차 정도 연산 기능과, 상기 편차 정도 연산 기능에 있어서 연산되는 확률 분포의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산 기능에 있어서 연산되는 확률 분포의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하여 출력하는 시행 착오적인 조작 제안을 행하는 정보 제공 기능을 실현시키도록 프로그램된다.

상기 제 1, 제 2 태양에 있어서, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 이용하면서 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정하고 있다. 그리고, 이 보수 함수에 의거하는 강화 학습에 의해, 각 상태에 있어서의 차량 탑재기기의 조작 제안에 대한 운전자의 의사 결정의 모델을 구축하고 있다. 또한, 이 구축한 모델을 이용하면서, 각 상태에 있어서 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용의 확률 분포가 산출된다. 여기에서, 차량 탑재기기의 조작 내용의 확률 분포의 편차 정도는, 차량 탑재기기의 조작 제안의 대상 에 따라 상이한 것이 보통이다. 예를 들면, 차량 탑재기기의 조작 제안의 대상이 음성의 재생이면, 일반적으로 차량의 상태뿐만아니라 그때의 운전자의 기분 등에 의해서도 영향을 받기 쉽고 그 선택지도 다방면에 이르기 때문에, 차량 탑재기기의 조작 내용의 확률 분포의 편차 정도가 커질 가능성이 높다. 그 한편으로, 차량 탑재기기의 조작 제안의 대상이 목적지의 설정이면, 일반적으로 음성의 재생과 비교하면 그때마다의 차량의 상태로부터 선택지도 좁히기 쉽기 때문에, 차량 탑재기기의 조작 내용의 확률 분포의 편차 정도가 작아질 가능성이 높다. 이 점, 상기 구성에서는, 확률 분포의 편차 정도가 문턱값 미만일 때에는, 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행함으로써, 운전자에게 차량 탑재기기의 조작 내용을 선택하는 수고를 끼치는 일 없이, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 행하도록 하고 있다. 한편, 상기 구성에서는, 확률 분포의 편차 정도가 문턱값 이상일 때에는, 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하도록 함으로써, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 보다 정확하게 행하도록 하고 있다. 즉 상기 구성에서는, 확률 분포의 편차 정도가 큰 경우라도, 작은 경우라도, 조작 제안의 대상으로서 한번에 출력되는 차량 탑재기기의 조작 내용은 하나뿐이기 때문에, 운전자로서는 그때마다 제안되는 차량 탑재기기의 조작 내용에 대해서 동의의 유무를 의사 표시만 하면 된다. 그 때문에, 목적지의 설정 및 음성의 재생과 같은 확률 분포의 편차 정도가 상이한 이종(異種)의 차량 탑재기기의 조작 제안에 대한 응답을 간소하게 하면서 동일한 사용자 인터페이스를 이용하면서 일관되게 행할 수 있다. 이에 따라, 운전자의 부하를 억제하면서 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 실행하는 것이 가능해진다.

본 발명의 제 3 태양에 관한 정보 제공 장치는, 에이전트 전자 제어 유닛을 구비한다. 에이전트 ECU는, 복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하도록 구성되는 상태 공간 구성부와, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로 정의하고 복수의 행동의 집합인 행동 공간을 구성하도록 구성되는 행동 공간 구성부와, 상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하도록 구성되는 강화 학습부와, 상기 강화 학습부에 의해 산출되는 확률 분포의 편차 정도를 상기 상태 공간을 구성하는 복수의 상태에 대해서 합산함으로써 상기 상태 공간의 편차 정도를 연산하도록 구성되는 편차 정도 연산부와, 상기 편차 정도 연산부에 의해 연산되는 상기 상태 공간의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산부에 의해 연산되는 상기 상태 공간의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하도록 구성되는 정보 제공부를 가진다.

제 4 태양에 관한 정보 제공 프로그램을 저장하는 비일시적인 컴퓨터 판독 매체에 있어서, 상기 정보 제공 프로그램은, 컴퓨터에, 복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하는 상태 공간 구성 기능과, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로서 정의하여 복수의 행동의 집합인 행동 공간을 구성하는 행동 공간 구성 기능과, 상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하는 강화 학습 기능과, 상기 강화 학습 기능에 의해 산출되는 확률 분포의 편차 정도를 상기 상태 공간을 구성하는 복수의 상태에 대해서 합산함으로써 상기 상태 공간의 편차 정도를 연산하는 편차 정도 연산 기능과, 상기 편차 정도 연산 기능에 있어서 연산되는 상태 공간의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산 기능에 있어서 연산되는 상태 공간의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하는 정보 제공 기능을 실현시키도록 프로그램된다.

상기 제 3, 4 태양에 의하면, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 이용하면서 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정하고 있다. 그리고, 이 보수 함수에 의거하는 강화 학습에 의해, 각 상태에 있어서의 차량 탑재기기의 조작 제안에 대한 운전자의 의사 결정의 모델을 구축하고 있다. 또한, 이 구축한 모델을 이용하면서, 각 상태에 있어서 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용의 확률 분포가 산출된다. 여기에서, 차량 탑재기기의 조작 내용의 확률 분포의 편차 정도는, 차량 탑재기기의 조작 제안의 대상에 따라서 상이해지는 것이 보통이다. 예를 들면, 차량 탑재기기의 조작 제안의 대상이 음성의 재생이면, 일반적으로 차량의 상태뿐만아니라 그때의 운전자의 기분 등에 의해서도 영향을 받기 쉽고 그 선택지도 다방면에 이르기 때문에, 차량 탑재기기의 조작 내용의 확률 분포의 편차 정도가 커질 가능성이 높다. 그 한편으로, 차량 탑재기기의 조작 제안의 대상이 목적지의 설정이면, 일반적으로 음성의 재생과 비교하면 그때마다의 차량의 상태로부터 선택지도 좁히기 쉽기 때문에, 차량 탑재기기의 조작 내용의 확률 분포의 편차 정도가 작아질 가능성이 높다. 이 점, 상기 구성에서는, 확률 분포의 편차 정도의 합산값으로부터 구한 상태 공간의 편차 정도가 문턱값 미만일 때에는, 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하도록 함으로써, 운전자에게 차량 탑재기기의 조작 내용을 선택하는 수고를 끼치는 일 없이, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 행하도록 하고 있다. 한편, 상기 구성에서는, 확률 분포의 편차 정도의 합산값으로부터 구한 상태 공간의 편차 정도가 문턱값 이상일 때에는, 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하도록 함으로써, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 보다 정확하게 행하도록 하고 있다. 즉 상기 구성에서는, 상태 공간의 편차 정도가 큰 경우라도, 작은 경우라도, 조작 제안의 대상으로서 한번에 출력되는 차량 탑재기기의 조작 내용은 하나뿐이기 때문에, 운전자로서는 그때마다 제안되는 차량 탑재기기의 조작 내용에 대해서 동의의 유무를 의사표시만 하면 된다. 그 때문에, 목적지의 설정 및 음성의 재생과 같은 상태 공간의 편차 정도가 상이한 이종의 차량 탑재기기의 조작 제안에 대한 응답을 간소하게 하면서 동일한 사용자 인터페이스를 이용하면서 일관되게 행할 수 있다. 이에 따라, 운전자의 부하를 억제하면서 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 실행하는 것이 가능해진다.

상기 제 2 태양에 있어서, 상기 강화 학습부는, 상기 상태 공간을 구성하는 각 상태로부터 상기 행동 공간을 구성하는 각 행동으로의 사상(寫像)을 방책으로 함과 함께, 상기 각 상태에 있어서 상기 방책을 따른 경우에 얻어지는 누적 보수의 기대치를 상태 가치 함수로 하고, 상기 상태 공간을 구성하는 모든 상태에 있어서 상기 상태 가치 함수를 최대로 하는 상기 방책을 최적 방책으로 했을 때, 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간 중으로부터 소정의 행동을 선택한 후에 항상 상기 최적 방책에 따른 경우에 얻어지는 누적 보수의 기대치를 최적 행동 가치 함수로서 추정하고, 당해 추정한 최적 행동 가치 함수에 의거하여 상기 확률 분포를 산출하는 것이며, 상기 정보 제공부는, 상기 편차 정도 연산부에 의해 연산되는 상기 상태 공간의 편차 정도가 상기 문턱값 미만일 때에는, 현재의 상태에 있어서 상기 최적 행동 가치 함수를 최대화하는 행동을 대상으로 하여 상기 확정적인 조작 제안을 행해도 된다.

상기 구성에서는, 상태 공간의 편차 정도가 문턱값 미만일 때에는, 현재의 상태에 있어서 최적 행동 가치 함수를 최대화하는 행동, 즉 현재의 상태에 있어서 가장 가치가 있는 행동으로서 운전자가 취할 가능성이 가장 높다고 상정되는 행동을 대상으로 하여 확정적인 조작 제안을 실행하도록 하고 있다. 이에 따라, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 보다 한층 높은 신뢰성을 갖고 실현하는 것이 가능해진다.

상기 정보 제공 장치에 있어서, 상기 정보 제공부는, 상기 편차 정도 연산부에 의해 연산되는 상기 상태 공간의 편차 정도가 상기 문턱값 이상일 때에는, 현재의 상태에 있어서의 상기 확률 분포의 확률 밀도가 높은 행동일수록 대상으로 하여 선택하는 빈도를 높이는 경향을 갖고 상기 시행 착오적인 조작 제안을 실행해도 된다.

상기 구성에서는, 상태 공간의 편차 정도가 문턱값 이상일 때에는, 현재의 상태에 있어서 확률 분포의 확률 밀도가 높은 행동, 즉, 현재의 상태에 있어서 운전자가 취할 가능성이 높은 행동을 차량 탑재기기의 조작 제안의 대상으로 하여 선택하는 빈도를 높이는 경향을 갖고 시행 착오적인 조작 제안을 행하도록 하고 있다. 이에 따라, 대상으로 하고 있는 차량 탑재기기의 조작 제안에 대해서 운전자의 행동을 사전에 특정하는 것이 곤란한 중에 있어도, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 보다 한층 높은 신뢰성을 갖고 실현하는 것이 가능해진다.

상기 정보 제공 장치에 있어서, 상기 편차 정도 연산부는, 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포의 편차 정도를 엔트로피로서 정의함과 함께, 상기 상태 공간의 편차 정도를 평균 엔트로피로서 정의하고, 상기 정보 제공부는, 상기 평균 엔트로피의 값을 ε값으로서 설정한 ε-그리디법을 이용하면서, ε값이 커질수록 상기 시행 착오적인 조작 제안을 행하는 빈도를 높이는 경향을 갖고 상기 확정적인 조작 제안과 상기 시행 착오적인 조작 제안과의 선택을 행해도 된다.

상기 구성에서는, 상태 공간의 편차 정도를 정의한 평균 엔트로피의 값인 ε값이 커질수록, 즉 상태 공간의 편차 정도가 커질수록, 시행 착오적인 조작 제안을 선택하는 빈도를 높이도록 하고 있다. 이것에 의해서도, 대상으로 하고 있는 차량 탑재기기의 조작 제안에 대해서 운전자의 행동을 특정하는 것이 곤란한 중에 있어서, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 보다 한층 높은 신뢰성을 갖고 실현하는 것이 가능해진다.

상기 정보 제공 장치에 있어서, 상기 강화 학습부는, 상기 차량 탑재기기의 조작 제안에 대한 운전자의 응답에 의해 실행되는 차량 탑재기기의 조작의 빈도를 상기 보수 함수로서 설정하는 것이며, 상기 차량 탑재기기의 조작 제안에 따라서 차량 탑재기기의 조작이 행해졌을 때에는, 그 조작 이력의 변경에 따라서 상기 보수 함수를 갱신해도 된다.

상기 구성에서는, 운전자의 의도에 대한 차량 탑재기기의 조작 제안의 적정 정도의 지표로서, 차량 탑재기기의 조작 제안에 대한 운전자의 응답에 의해 실행되는 행동의 빈도를 적용하여 보수 함수를 설정하고, 응답 이력이 변경될 때마다 보수 함수를 갱신하도록 하고 있다. 이에 따라, 운전자의 의도에 입각한 형태로 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하는 것이 가능해짐과 함께, 운전자의 응답의 빈도가 증가할 때마다 확률 분포의 정밀도가 운전자 개인에 의한 응답의 실태에 맞는 형태로 높여지게 된다.

상기 정보 제공 장치에 있어서, 상기 상태 공간 구성부는, 상기 차량 탑재기기의 조작 상황, 상기 차량의 탑승자의 특성, 및 상기 차량의 주행 상황을 관련지은 데이터군인 상태의 집합으로서 상기 상태 공간을 구성해도 된다.

상기 구성에서는, 차량 탑재기기의 조작 상황, 차량의 탑승자의 특성, 및 차량의 주행 상황 등, 운전자에게로의 차량 탑재기기의 조작 제안에 영향을 부여하는 요소를 다방면에 걸쳐서 고려하면서, 상태 공간을 구성하는 각 상태를 정의하고 있다. 이에 따라, 보다 한층 실정(實情)에 입각한 형태로 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 실현하는 것이 가능해진다. 또한, 상기 구성에서는, 전술한 바와 같이 여러가지 요소를 고려한 결과, 상태 공간을 구성하는 상태의 수가 방대해지는 것도 예상된다. 그러나, 이력 데이터의 축적과 함께 정밀도의 향상이 도모되는 강화 학습의 방법을 이용함으로써, 예를 들면 교사가 있는 학습을 이용한 경우와 같이 방대한 수의 교사 데이터를 사전에 준비하지 않아도, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 실현하는 것이 가능해진다.

본 발명의 예시적인 실시 형태의 특징, 이점, 및 기술적 그리고 산업적 중요성이 첨부 도면을 참조하여 하기에 기술될 것이며, 첨부 도면에서 동일한 도면 부호는 동일한 요소를 지시한다.
도 1은, 정보 제공 장치의 제 1 실시 형태의 개략 구성을 나타내는 블록도이다.
도 2는, 상태 공간을 정의하는 차량 데이터의 속성의 일 예를 나타내는 도면이다.
도 3은, 상태 공간 테이블의 설정 내용의 일 예를 나타내는 도면이다.
도 4는, 상태 공간을 정의하는 차량 데이터의 속성의 일 예를 나타내는 도면이다.
도 5는, 상태 공간 테이블의 설정 내용의 일 예를 나타내는 도면이다.
도 6은, 행동 공간 테이블의 설정 내용의 일 예를 나타내는 도면이다.
도 7은, 행동 공간 테이블의 설정 내용의 일 예를 나타내는 도면이다.
도 8은, 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동을 취할 때의 천이 확률 행렬의 일 예를 나타내는 도면이다.
도 9는, 시행 착오적인 조작 제안을 실행할 때에 이용되는 누적 분포 함수의 일 예를 나타내는 그래프이다.
도 10a는, 현재의 상태를 정의하는 차량 데이터의 속성의 일 예를 나타내는 도면이고,
도 10b는, 도 10a에 나타낸 상태에 있어서 확정적인 조작 제안에 이용되는 행동을 선택하는 과정을 설명하기 위한 도면이다.
도 11a는, 현재의 상태를 정의하는 차량 데이터의 속성의 일 예를 나타내는 도면이고,
도 11b는, 도 11a에 나타낸 상태에 있어서 시행 착오적인 조작 제안에 이용되는 행동을 선택하는 과정을 설명하기 위한 도면이다.
도 12는, 스티어링 스위치의 일 예를 나타내는 도면이다.
도 13은, 정보 제공 처리의 일 예로서 차량 탑재기기의 조작 제안 처리의 처리 내용을 나타내는 플로우 차트이다.
도 14는, 확정적인 조작 제안을 포함하는 형태로 에이전트 ECU와 운전자와의 사이에서 주고 받아지는 대화의 내용의 일 예를 나타내는 도면이다.
도 15는, 시행 착오적인 조작 제안을 포함하는 형태로 에이전트 ECU와 운전자와의 사이에서 주고 받아지는 대화의 내용의 일 예를 나타내는 도면이다.
도 16은, 정보 제공 장치의 제 2 실시 형태에 있어서, 확정적인 조작 제안 및 시행 착오적인 조작 제안을 선택하는 과정을 설명하기 위한 도면이다.
도 17은, 스티어링 스위치의 다른 일 예를 나타내는 도면이다.
도 18은, 스티어링 스위치의 다른 일 예를 나타내는 도면이다.

(제 1 실시 형태) 이하, 정보 제공 장치의 제 1 실시 형태에 대해서 설명한다. 본 실시 형태의 정보 제공 장치는, 차량에 탑재되어 운전자에 대한 정보 제공으로서 차량 탑재기기의 조작 제안을 행하는 에이전트 ECU(전자 제어 장치)에 의해 구성되어 있다. 여기에서, 에이전트 ECU의 기능은, 학습계, 정보 취득계, 사용자 인터페이스계로 크게 나뉜다. 그리고, 에이전트 ECU는, 정보 취득계를 통하여 취득한 각종의 정보에 의거하여 차량 탑재기기의 조작 이력을 그때마다 차량의 상태 마다로 분류하면서 학습계에 있어서 학습의 일 형태로 하여 강화 학습을 실행함과 함께, 당해 강화 학습에 의한 학습 결과에 의거하여 사용자 인터페이스계를 통한 차량 탑재기기의 조작 제안을 실행한다. 여기에서, 강화 학습은, 에이전트 ECU가 환경에 의거하여 어떠한 행동을 선택했을 때, 당해 선택한 행동에 의거하는 환경의 변화에 수반하여 어떠한 보수를 에이전트 ECU에 부여함으로써, 시행 착오를 통하여 에이전트 ECU를 환경에 적응시켜 가는 학습 방법이다. 또한, 본 실시 형태에서는, 에이전트 ECU는, 예를 들면 차량 탑재기기의 조작 상황, 차량의 탑승자의 특성, 차량의 주행 상황 등, 각종의 차량 데이터를 서로 관련지음으로써 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하고 있다. 또한, 에이전트 ECU는, 조작 제안에 대한 운전자로부터의 응답에 수반하여 에이전트 ECU가 대행할 가능성이 있는 차량 탑재기기의 조작의 종류를 행동으로 정의하여 복수의 행동의 집합인 행동 공간을 구성하고 있다. 그리고, 상태 공간을 구성하는 각 상태에 있어서 차량 탑재기기의 조작 제안에 대한 응답으로서 실행된 차량 탑재기기의 조작 이력이 강화 학습에서 말하는 보수에 상당한다. 또한, 에이전트 ECU는, 전술한 강화 학습을 실행함으로써, 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출한다. 또한, 에이전트 ECU는, 이렇게 하여 산출한 확률 분포에 의거하여, 그때마다의 차량의 상태로부터 운전자가 취할 가능성이 높은 행동을 예측하고, 그 예측 결과를 가미(加味)한 형태로 차량 탑재기기의 조작 제안을 실행한다.

우선, 본 실시 형태의 장치의 구성에 대해서 도면을 참조하여 설명한다. 도 1에 나타내는 바와 같이, 에이전트 ECU(100)는, 차량 탑재기기의 조작 제안을 제어하는 제어부(110)와, 제어부(110)가 차량 탑재기기의 조작 제안시에 실행되는 정보 제공 프로그램이나 당해 정보 제공 프로그램의 실행시에 제어부(110)가 읽고 쓰는 각종의 데이터를 저장하는 기억부(120)를 가지고 있다. 여기에서, 기억부(120)에 저장되는 각종의 데이터로서는, 상태 공간을 정의한 상태 공간 테이블(T1, T1α), 행동 공간을 정의한 행동 공간 테이블(T2, T2α), 및 차량 탑재기기의 조작 이력(RA)이 포함된다. 상태 공간 테이블은 상태 공간 구성부로서, 행동 공간 테이블은 행동 공간 구성부로서 기능한다. 또한, 본 실시 형태에서는, 예를 들면 음성의 재생, 목적지의 설정, 공조의 설정, 시트 포지션의 설정, 미러의 설정, 와이퍼의 설정 등, 조작 제안의 대상이 되는 서비스의 종류가 복수 준비되어 있다. 그리고, 이들 서비스의 종류 마다 개별의 상태 공간 테이블(T1, T1α) 및 행동 공간 테이블(T2, T2α)이 에이전트 ECU(100)의 기억부(120)에 저장되어 있다.

도 2는, 조작 제안의 일 예로서 목적지의 설정을 행할 때의 상태의 정의에 이용되는 차량 데이터의 속성의 일 예를 나타내고 있다. 여기에서, 차량 데이터의 속성이란, 목적지의 설정의 방법에 기여하는 요소로서 미리 등록되는 것이며, 동(同) 도면에 나타내는 예에서는, 차량 탑재기기의 조작 상황(DA), 차량의 탑승자의 특성(DB), 차량의 주행 상황(DC)에 관한 차량 데이터가 포함되어 있다. 또한, 차량 탑재기기의 조작 상황(DA)에 관한 차량 데이터의 일 예로서는, 목적지(DA1), 시각(DA2), 요일(DA3), 현재 위치(DA4)를 다루고 있다. 또한, 차량의 탑승자의 특성(DB)에 관한 차량 데이터의 일 예로서는, 배우자의 유무(DB1), 아이의 유무(DB2), 동승자의 수(DB3), 취미의 유무(DB4), 목적(DB5)을 다루고 있다. 또한, 차량의 주행 상황(DC)에 관한 차량 데이터의 일 예로서는, 교통 상황(혼잡 정도)(DC1), 날씨(DC2)를 다루고 있다.

그리고, 도 3에 나타내는 바와 같이, 상태 공간 테이블(T1)은, 도 2에 나타낸 차량 데이터의 속성을 라운드 로빈으로 조합함으로써 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성한다. 여기에서, 상태 공간 테이블(T1)에 포함되는 상태의 수 m(예를 들면, 400만 정도)은, 차량 데이터의 속성을 구성하는 요소의 종류(도 2에 나타내는 예에서는, 왼쪽으로부터 순서대로 「목적지 」로부터 「날씨」까지 포함하여 11종류)나 각 요소의 파라미터수(도 2에 나타내는 예에서는, 예를 들면 「목적지」의 파라미터수로서 8개)가 많아짐에 따라 증대한다.

한편, 도 4는, 조작 제안의 일 예로서 음성의 재생을 행할 때의 상태의 정의에 이용되는 차량 데이터의 속성의 일 예를 나타내고 있다. 여기에서, 차량 데이터의 속성은, 음성의 재생의 방법에 기여하는 요소로서 미리 등록되는 것이며, 동 도면에 나타내는 예에서는, 차량 탑재기기의 조작 상황(DAα), 차량의 탑승자의 특성(DBα), 차량의 주행 상황(DCα)에 관한 차량 데이터가 포함되어 있다. 또한, 차량 탑재기기의 조작 상황(DAα)에 관한 차량 데이터의 일 예로서는, 음원(DA1α), 리피트 설정(DA2α), 음량(DA3α), 시각(DA4α), 요일(DA5α), 현재 위치(DA6α)를 다루고 있다. 또한, 차량의 탑승자의 특성(DBα)에 관한 차량 데이터의 일 예로서는, 배우자의 유무(DB1α), 아이의 유무(DB2α), 동승자의 수(DB3α), 운전자의 졸림감의 정도(DB4α)를 다루고 있다. 또한, 차량의 주행 상황(DCα)에 관한 차량 데이터의 일 예로서는, 차량 주변의 도시화·교외화의 정도나 도로 환경을 포함시킨 환경(DC1α)을 다루고 있다.

그리고, 도 5에 나타내는 바와 같이, 상태 공간 테이블(T1α)은, 도 4에 나타낸 차량 데이터의 속성을 라운드 로빈으로 조합함으로써 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성한다. 여기에서도 상태 공간 테이블(T1α)에 포함되는 상태의 수 n(예를 들면, 15억 정도)은, 차량 데이터의 속성을 구성하는 요소의 종류나 각 요소의 파라미터수가 많아짐에 따라서 증대한다.

도 6은, 에이전트 ECU(100)가 조작 제안의 일 예로서 목적지의 설정을 대행할 때의 행동을 정의하여 복수의 행동의 집합인 행동 공간을 구성하는 행동 공간 테이블(T2)의 일 예를 나타내고 있다. 동 도면에 나타내는 예에서는, 행동 공간에 포함되는 행동의 종류로서, 설정의 대상이 되는 목적지의 장소명의 일람이 거론되고 있다. 여기에서, 설정의 대상이 되는 목적지의 장소는, 예를 들면 과거에 있어서 운전자 자신에 의한 설정의 빈도가 특히 많았던 장소명으로서 미리 등록되는 것이며, 동 도면에 나타내는 예에서는, 「자택」, 「본가」에 더하여, 「장소 1」∼ 「장소 6」의 합계 8개의 장소명이 등록되어 있다.

또한, 도 7은, 에이전트 ECU(100)가 조작 제안의 일 예로서 음성의 재생을 대행할 때의 행동을 정의하여 복수의 행동의 집합인 행동 공간을 구성하는 행동 공간 테이블(T2α)의 일 예를 나타내고 있다. 동 도면에 나타내는 예에서는, 행동 공간에 포함되는 행동의 종류로서, 재생의 대상이 되는 음원의 일람을 다루고 있다. 여기에서, 재생의 대상이 되는 음원은, 예를 들면 과거에 있어서 운전자에 의한 재생의 빈도가 특히 많았던 음원으로서 미리 등록되는 것이며, 동 도면에 나타내는 예에서는, 라디오의 방속국명, 및 휴대 단말이나 CD(콤팩트 디스크) 등의 기억매체에 보존되어 있는 악곡의 곡명을 포함하여 합계 100개의 음원이 등록되어 있다.

또한, 도 1에 나타내는 바와 같이, 에이전트 ECU(100)는, 예를 들면 CAN(컨트롤러 에리어 네트워크) 등으로 이루어지는 차량 네트워크(NW)를 개재하여 기타 ECU군(130), 센서군(131), 및 스위치군(132)에 접속되어 있다.

기타 ECU군(130)은, 각종의 차량 탑재기기의 동작을 제어하는 차량 탑재 ECU이며, 엔진, 브레이크, 스티어링 등을 제어하는 차량 구동계의 차량 탑재 ECU, 에어컨, 미터 등을 제어하는 바디계의 차량 탑재 ECU, 카 네비게이션 시스템, 오디오 시스템 등을 제어하는 정보계의 차량 탑재 ECU가 포함된다.

센서군(131)은, 각종의 차량 데이터를 취득하기 위한 센서군이며, GPS(글로벌·포지셔닝·시스템) 센서, 레이저 레이더, 적외선 센서, 초음파 센서, 빗방울 센서, 외기온 센서, 차실내 온도 센서, 착좌 센서, 안전벨트 착용 상태 센서, 차실내 카메라, 스마트 키 센서(등록상표: 스마트 키), 침입 감시 센서, 꽃가루 등 미립자 센서, 가속도 센서, 전계 강도 센서, 드라이버 모니터, 차속 센서, 조타각 센서, 요 레이트 센서, 생체 센서가 포함된다.

스위치군(132)은, 각종의 차량 탑재기기의 동작을 전환하기 위한 스위치군이며, 윙커 레버 스위치, 와이퍼 조작 스위치, 라이트 조작 스위치, 스티어링 스위치, 내비게이터·오디오 조작 스위치, 창문 조작 스위치, 도어·트렁크 개폐·잠금 스위치, 에어컨 조작 스위치, 시트 히터·벤틸레이션 스위치, 시트 포지션 조정·프리셋 메모리 스위치, 침입 감시 시스템 스위치, 미러 조작 스위치, 어뎁터·크루즈·컨트롤(ACC) 스위치, 엔진 스위치가 포함된다.

그리고, 에이전트 ECU(100)의 제어부(110)는, 이들 기타 ECU군(130), 센서군(131), 및 스위치군(132)으로부터 차량 네트워크(NW)를 개재하여 각종의 차량 데이터가 입력되면, 기억부(120)에 저장되어 있는 상태 공간 테이블(T1, T1α)을 참조하면서 해당되는 차량의 상태를 산출한다. 또한, 에이전트 ECU(100)의 제어부(110)는, 차량 탑재기기의 조작 제안에 대한 운전자의 응답에 의해 행동 공간에 포함되는 행동 중으로부터 소정의 행동이 선택되어 차량 탑재기기의 조작이 실행될 때마다, 기억부(120)에 저장되어 있는 차량 탑재기기의 조작 이력(RA) 중 당해 상태에 대응되는 조작 이력의 카운트값을 누적 가산한다. 이 점에서, 에이전트 ECU(100)의 제어부(110)는, 상태 공간을 구성하는 각 상태에 있어서 차량 탑재기기의 조작 제안에 대한 운전자의 응답의 이력 데이터를 축적하는 것이다.

또한, 에이전트 ECU(100)의 제어부(110)는, 전술한 바와 같이 학습한 각 상태마다, 조작 제안을 수리했을 때의 차량 탑재기기의 조작 이력의 카운트값을 보수 함수로서 설정하면서, 이하의 (단계 1)∼(단계 7)의 순서를 통하여 강화 학습의 일종인 Q러닝을 실행하는 강화 학습부(111)로서 기능한다.

(단계 1) 상태 공간을 구성하는 각 상태로부터 행동 공간을 구성하는 각 행동의 사상을 방책 π라고 할 때, 임의의 방책 π를 초기 설정한다. (단계 2) 현재의 상태 st를 관측한다(t는 시간 단계). (단계 3) 임의의 행동 선택 방법에 의해 행동 at를 실행한다(t는 시간 단계). (단계 4) 보수 rt를 수취한다(t는 시간 단계). (단계 5) 상태 천이 후의 상태 s(t+1)을 관측한다(단, 상태 s(t+1)로의 천이가 그때의 상태 st와 행동 at에만 의존하고, 그 이전의 상태나 행동에 영향을 받지 않는 것을 전제(소위, 마르코프성)). (단계 6) 행동 가치 함수 Q(st, at)를 갱신한다. (단계 7) 시간 단계 t를 (t+1)로 진행시켜 (단계 1)로 되돌아간다.

또한, (단계 3)의 순서에 있어서의 행동 선택 방법으로서는, 후술하는 행동 가치 함수 Q(st, at)의 값이 최대가 되는 행동을 반드시 선택하는 그리디법이나, 반대로 모든 행동을 등확률로 선택하는 랜덤법을 이용하는 것이 가능하다. 또한 그 밖에도, 확률 ε으로 랜덤법에 의한 행동 선택을 행하고, 확률 (1-ε)으로 그리디법에 의한 행동 선택을 행하는 ε-그리디법이나, 행동 가치 함수 Q(st, at)가 높은 행동을 높은 확률로 선택함과 함께 행동 가치 함수 Q(st, at)가 낮은 행동을 낮은 확률로 선택하는 볼트먼 선택 등의 수법을 이용하는 것이 가능하다.

또한, (단계 6)의 순서에 있어서의 행동 가치 함수 Q(st, at)의 갱신은, 이하의 식 (1)에 의거하여 행해진다.

또한, 식 (1)에 있어서 학습율 α는 0<α<1의 수치 범위로 설정되어 있다. 이것은, 시간의 경과와 함께 갱신되는 행동 가치 함수 Q(st, at)의 증대량을 점차 감소시켜 그 값을 수속되기 쉽게 하기 위함이다. 또한, 동일하게 식 (1)에 있어서 Q(st, at)는 상기 행동 가치 함수를 나타내고 있으며, 강화 학습부(111)가 시간의 경과에 관계없이 일정한 방책 π를 취하는 것을 전제로 했을 때, 상태 st에 있어서 행동 at를 취한 후에 방책 π에 따른 경우에 얻어지는 할인 누적 보수 Rt의 기대치를 나타내고 있다. 여기에서, 할인 누적 보수 Rt는, 상태 천이를 반복하는 중에서 얻어지는 보수의 합계이며, 이하의 식 (2)로부터 얻어진다.

또한, 식 (2)(식 (1)도 동일함)에 있어서 할인율 γ는 0<γ<1의 수치 범위로 설정되어 있다. 이것은, 시간의 경과와 함께 얻어지는 보수값을 점차 감소시킴으로써 할인 누적 보수 Rt의 값을 수속되기 쉽게 하기 위함이다.

그리고 이후, 강화 학습부(111)는, 상기 (단계 1)∼(단계 7)의 순서를 반복함으로써, 행동 가치 함수 Q(st, at)를 최대화(최적화)한 최적 행동 가치 함수 Q^*(st, at)를 산출한다. 여기에서, 최적 행동 가치 함수 Q^*(st, at)는, 상태 st에 있어서 방책 π에 따른 경우에 얻어지는 할인 누적 보수 Rt의 기대치를 나타내는 함수를 상태 가치 함수 V(st)라고 하고, 모든 상태 st에 있어서 V(st≥V'(st)를 만족시키는 방책 π를 최적 방책 π^*라고 했을 때, 상태 st에서 행동 at를 선택한 후에 최적 방책 π^*을 따른 경우에 얻어지는 할인 누적 보수 Rt의 기대치를 나타내고 있다.

그리고, 강화 학습부(111)는, 전술한 바와 같이 하여 얻어진 최적 행동 가치함수 Q^*(st, at)를 이하의 식 (3)에 대입한다. 이에 따라, 상태 공간을 구성하는 각 상태로부터 행동 공간을 구성하는 각 행동으로의 천이 확률 행렬 중 할인 누적 보수 Rt를 최대화하는 천이 확률 행렬, 즉 각 상태마다의 조작 이력(RA)의 카운트 값을 고려하면서 운전자의 의도에 입각한 천이 확률 행렬 P(st, at)가 산출된다.

도 8은, 전술한 바와 같이 하여 산출되는 천이 확률 행렬 P(st, at)의 일 예를 나타내고 있다. 천이 확률 행렬 P(st, at)는, 각 행이 상태 공간을 구성하는 각 상태에 대응되어 있으며, 각 열이 행동 공간을 구성하는 각 행동에 대응되어 있다. 그리고, 동 도면에 나타내는 예에서는, 예를 들면 상태 s1에 있어서 행동 a1을 취할 확률이 「0.01」이 되고, 마찬가지로 상태 s1에 있어서 행동 a2를 취할 확률이 「0.10」이 되고, 마찬가지로 상태 s1에 있어서 행동 a100을 취할 확률이 「0.03」이 된다.

그리고, 에이전트 ECU(100)의 제어부(110)는, 이들 확률을 p로 했을 때에 도 8에 나타내는 식을 이용하면서 정보 엔트로피 H(s)를 산출한다. 또한, 정보 엔트로피 H(s)는, 확률 분포의 편차 정도의 지표가 되는 파라미터이다. 이 점에서는, 에이전트 ECU(100)의 제어부(110)는, 강화 학습부(111)에 의해 산출되는 확률 분포의 편차 정도를 연산하는 편차 정도 연산부(112)로서도 기능한다. 그리고, 정보 엔트로피 H(s)의 값이 클수록, 확률 분포의 편차 정도가 큰, 즉 상태 st에 있어서 행동 공간을 구성하는 각 행동을 취할 확률이 균등하게 분산되고 있는 것을 의미하고 있다. 그 때문에, 정보 엔트로피 H(s)의 값이 큰 경우, 행동 공간을 구성하는 행동 중으로부터 운전자가 취할 수 있는 행동을 예측하는 것은 곤란해진다.

또한, 편차 정도 연산부(112)는, 이하의 식 (4)로 나타내는 바와 같이, 상태 공간을 구성하는 각 상태에 대해서 산출한 정보 엔트로피 H(s)를 합산함으로써 평균 엔트로피 H(Ω)를 산출한다.

또한, 평균 엔트로피 H(Ω)는, 상태 공간의 편차 정도를 나타내는 파라미터이다. 그리고, 평균 엔트로피 H(Ω)의 값이 클수록 상태 공간의 편차 정도가 큰, 즉 상태 공간 전체로서 보았을 때에 각 상태에 있어서 행동 공간을 구성하는 각 행동을 취할 확률이 균등하게 분산되고 있는 것을 의미하고 있다. 그 때문에, 평균 엔트로피 H(Ω)의 값은, 조작 제안의 대상이 되는 서비스에 대해서 행동 공간을 구성하는 행동 중으로부터 운전자가 취할 수 있는 행동을 예측 가능한지 여부에 대한 지표가 된다.

그래서, 에이전트 ECU(100)의 제어부(110)는, 이하의 알고리즘에 따라, 강화 학습부(111)에 의해 구한 평균 엔트로피 H(Ω)를 ε값으로 한 ε-그리디법을 이용하면서 차량 탑재기기의 조작 제안에 관한 정보를 생성하는 제안 정보 생성부(113)로서도 기능한다. 제안 정보 생성부는 정보 제공부로서도 기능한다.

또한, 상기 알고리즘에서는, 제안 정보 생성부(113)는, 0∼1의 수치 범위를 취하는 난수 δ(문턱값)를 설정하고 있으며, 「δ>ε」의 조건을 충족시켰을 때에 식 (5)를 적용한다. 즉, 제안 정보 생성부(113)는, 강화 학습부(111)에 의해 구한 평균 엔트로피 H(Ω)의 값이 작을수록, 식 (5)를 적용하는 빈도를 높이도록 하고 있다. 그리고, 제안 정보 생성부(113)는, 식 (5)의 적용에 의해, 전술한 바와 같이 강화 학습부(111)에 의해 구한 최적 행동 가치 함수 Q^*(st, at)를 최대화하는 행동 a, 즉 상태 s에 있어서 가장 가치가 있는 행동을 조작 제안의 대상으로서 출력하여 확정적인 조작 제안을 실행한다.

한편, 상기 알고리즘에서는, 제안 정보 생성부(113)는, 「δ≤ε」의 조건을 충족시켰을 때에 식 (6)을 적용한다. 즉, 제안 정보 생성부(113)는, 강화 학습부(111)에 의해 구한 평균 엔트로피 H(Ω)의 값이 클수록, 식 (6)을 적용하는 빈도를 높이도록 하고 있다. 제안 정보 생성부(113)는, 식 (6)의 적용에 있어서 우선, 어떤 상태 s에 있어서 행동 공간을 구성하는 각 행동을 취할 확률을 가산해 감으로써 누적 분포 함수 F(s)를 구한다. 그리고, 제안 정보 생성부(113)는, 상기의 난수 δ와는 상이한 변수로서 0∼1의 수치 범위를 취하는 난수 τ를 설정했을 때, 「F(s)＝τ」를 충족시키는 행동을 조작 제안의 대상으로서 출력하는 시행 착오적인 조작 제안을 실행한다.

도 9에 일 예로서 나타내는 누적 분포 함수 F(s)로부터도 분명한 바와 같이, 행동 공간을 구성하는 각 행동을 취할 확률에 따라서 누적 분포 함수 F(s)의 증가량도 변동한다. 구체적으로는, 확률이 비교적 높은 행동에 대응되는 가로축의 구간에서는 누적 분포 함수 F(s)의 증가량이 가파르게 되는 한편으로, 확률이 비교적 낮은 행동에 대응되는 가로축의 구간에서는 누적 분포 함수 F(s)의 증가량도 완만해진다. 그 때문에, 난수 τ를 0∼1의 수치 범위에서 변화시켰을 때, 확률이 비교적 높은 행동의 쪽이 「F(s)＝τ」의 조건을 충족시키기 쉽고, 확률이 비교적 낮은 행동의 쪽이 「F(s)＝τ」의 조건을 충족시키기 어려워진다. 따라서, 전술한 바와 같이, 「F(s)＝τ」를 충족시키는 행동을 조작 제안의 대상으로서 출력할 때, 확률이 높은 행동일수록 선택되는 빈도를 높이는 경향을 갖고 출력된다. 또한 동 도면에 나타내는 예에서는, F(s)＝τ를 충족시킬 때에 대응되는 행동이 행동(a3')으로 되어 있다. 그 때문에, 행동 공간을 구성하는 복수의 행동 중으로부터 행동(a3')이 조작 제안의 대상이 되는 행동으로서 선택되어 출력된다.

도 10a, b는, 조작 제안으로서 목적지의 설정을 행할 때의, ε-그리디법을 이용한 확정적인 조작 제안과 시행 착오적인 조작 제안과의 선택을 설명하기 위한 구체예를 나타내고 있다.

이 예에서는 도 10a에 나타내는 바와 같이, 에이전트 ECU(100)는 우선, 차량 네트워크(NW)를 통하여 취득되는 각종의 차량 데이터에 의거하여, 현재의 상태가 상태 공간 테이블(T1)에 있어서 상태 공간을 구성하는 각 상태 중 어느 상태에 해당하는지를 추출한다(동 도면에서는, 상태 Si로서 추출). 그리고, 이 예에서는, 천이 확률 행렬 P(st, at)로부터 구해지는 평균 엔트로피 H(Ω)가 비교적 높은 상황에 있으며, 전술한 식 (5)를 적용한 확정적인 조작 제안을 행하는 빈도가 높아진다. 이 경우, 도 10b에 나타내는 바와 같이, 에이전트 ECU(100)는, 행동 공간을 구성하는 각 행동 중, 현재의 상태에 있어서 가장 가치가 있는 행동(동 도면에 나타내는 예에서는, 「자택」)을 조작 제안의 대상으로서 출력한다.

또한, 도 11a, b는, 조작 제안으로서 음성의 재생을 행할 때의, ε-그리디법을 이용한 확정적인 조작 제안과 시행 착오적인 조작 제안과의 선택을 설명하기 위한 구체예를 나타내고 있다.

이 예에서도 도 11a에 나타내는 바와 같이, 에이전트 ECU(100)는 우선, 차량 네트워크(NW)를 통하여 취득되는 각종의 차량 데이터에 의거하여, 현재의 상태가 상태 공간 테이블(T1α)에 있어서 상태 공간을 구성하는 각 상태 중 어느 상태에 해당되는지를 추출한다(동 도면에서는, 상태 Sj로서 추출). 그리고 이 예에서는, 천이 확률 행렬 P(st, at)로부터 구해지는 평균 엔트로피 H(Ω)가 비교적 낮은 상황에 있으며, 전술한 식 (6)을 적용한 시행 착오적인 조작 제안을 행하는 빈도가 높아진다. 이 경우, 도 11b에 나타내는 바와 같이, 에이전트 ECU(100)는, 행동 공간을 구성하는 각 행동 중, 현재의 상태로부터의 천이 확률의 확률 밀도가 높은 행동일수록 선택하는 빈도를 높이는 경향을 갖고 조작 제안의 대상으로서 랜덤으로 출력된다(동 도면에 나타내는 예에서는, 「FMD」).

그리고, 에이전트 ECU(100)는, 이렇게 하여 조작 제안의 대상으로서 출력된 행동에 관한 정보를 차량 네트워크(NW)를 경유하여 스피커 등의 음성 출력부(140), 또는 LCD(액정 디스플레이) 및 HUD(헤드 업 디스플레이) 등의 화상 출력부(141)로 송신함으로써, 음성 또는 화상을 통한 차량 탑재기기의 조작 제안을 실행한다.

또한, 에이전트 ECU(100)는, 스티어링 스위치 및 마이크 등의 조작 입력부(142)를 개재한 조작 입력 또는 음성 입력의 조작 신호를 차량 네트워크(NW)를 개재하여 수신함으로써 조작 제안에 대한 운전자로부터의 응답을 검출하는 조작 검출부(114)로서도 기능한다.

도 12는, 스티어링 스위치를 개재한 조작 입력의 일 예를 설명하기 위한 도면이다. 동 도면에 나타내는 예에서는, 스티어링 스위치(142A)는, 4개의 조작 버튼(BA1∼BA4)을 가지고 있으며, 이들 조작 버튼 중 상방에 위치하는 제 1 조작 버튼(BA1) 및 하방에 위치하는 제 2 조작 버튼(BA2)은, 에이전트 ECU(100)로부터의 조작 제안에 응답할 때에 조작되는 조작 버튼으로서 할당되어 있다. 그리고, 조작 제안을 수리할 때에 제 1 조작 버튼(BA1)이 조작되고, 반대로 조작 제안을 거부할 때에 제 2 조작 버튼(BA2)이 조작된다. 또한, 이들 조작 버튼 중 좌방에 위치하는 제 3 조작 버튼(BA3) 및 우방에 위치하는 제 4 조작 버튼(BA4)은, 에이전트 ECU(100)로부터의 조작 제안과는 관계없이 차량 탑재기기의 조작을 행할 때에 조작되는 조작 버튼으로서 할당되어 있다. 그리고, 운전자 자신에 의한 수기 입력에 의해 차량 탑재기기의 조작을 행할 때에 제 3 조작 버튼(BA3)이 조작되고, 운전자자신이 그때마다 차량의 상태와는 관계없이 높은 빈도로 행하고 있는 차량 탑재기기의 조작을 행할 때에 제 4 조작 버튼(BA4)이 조작된다. 또한, 제 4 조작 버튼(BA4)은, 현재와 동일한 상황일 때에 다른 운전자가 과거에 행한 차량 탑재기기의 조작에 관한 정보를 외부 서버로부터 취득하여 운전자 자신에게 제공할 때에 조작되는 조작 버튼으로서 할당되도록 해도 된다.

그리고, 에이전트 ECU(100)의 제어부(110)는, 조작 검출부(114)를 통하여 조작 신호를 검출하면, 학습 갱신 트리거부(115)로부터 강화 학습부(111)로의 트리거 신호의 송신을 촉구한다. 또한, 전술한 바와 같이 본 실시 형태에서는, 조작 제안을 수리했을 때의 차량 탑재기기의 조작 이력의 카운트값이 강화 학습에 있어서의 보수 함수로서 설정되어 있다. 그 때문에, 도 12에 나타낸 스티어링 스위치(142A)를 예로 들면, 제 1 조작 버튼(BA1)이 조작되어 조작 제안이 수리되었을 때에, 학습 갱신 트리거부(115)로부터 강화 학습부(111)로의 트리거 신호의 송신이 촉구된다.

그리고, 강화 학습부(111)는, 학습 갱신 트리거부(115)로부터 트리거 신호를 수신하면, 그 시점에서 차량 네트워크(NW)를 통하여 취득되는 각종 차량 데이터에 의거하여, 현재의 상태가 상태 공간 테이블(T1, T1α)에 있어서 상태 공간을 구성하는 각 상태 중 어느 상태에 해당되는지를 산출한다. 그리고, 강화 학습부(111)는, 기억부(120)에 저장되어 있는 차량 탑재기기의 조작 이력(RA) 중 당해 상태에 대응되는 조작 이력의 카운트값을 누적 가산한다.

또한, 강화 학습부(111)는, 차량 탑재기기의 조작 이력(RA)을 갱신하면, 당해 조작 이력(RA)의 갱신에 합친 갱신 후의 보수 함수를 이용하면서 최적 행동 가치 함수 Q^*(st, at), 및 당해 최적 행동 가치 함수 Q^*(st, at)에 의거하는 천이 확률 행렬 P(st, at)를 새롭게 산출한다. 그리고, 제안 정보 생성부(113)는, 강화 학습부(111)에 의해 새롭게 산출된 천이 확률 행렬 P(st, at)에 의거하여, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 실행한다.

다음으로, 본 실시 형태의 에이전트 ECU(100)가 기억부(120)에 저장된 정보 제공 프로그램을 독출하여 실행하는 차량 탑재기기의 조작 제안 처리에 대해서, 그 구체적인 처리 순서를 설명한다. 여기에서, 에이전트 ECU(100)는, 차량의 이그니션 스위치가 온이 된 것을 조건으로, 도 13에 나타내는 차량 탑재기기의 조작 제안 처리를 개시한다.

도 13에 나타내는 바와 같이, 이 차량 탑재기기의 조작 제안 처리에서는 우선, 에이전트 ECU(100)는, 기억부(120)에 저장되어 있는 조작 이력(RA)이 갱신되었는지 여부, 즉, 학습 갱신 트리거부(115)로부터 강화 학습부(111)로의 트리거 신호의 송신이 행해졌는지 여부를 판정한다(단계 S10).

그리고, 에이전트 ECU(100)는, 조작 이력(RA)이 갱신되었을 때에는(단계 S10＝YES), 보수 함수도 아울러 갱신되는 점에서, 당해 갱신 후의 보수 함수를 이용하면서 강화 학습부(111)를 통하여 최적 행동 가치 함수 Q^*(st, at)를 산출한다(단계 S11).

또한, 에이전트 ECU(100)는, 이렇게 산출한 최적 행동 가치 함수 Q^*(st, at)에 의거하여, 상태 공간을 구성하는 각 상태로부터 행동 공간을 구성하는 각 행동으로의 천이 확률 행렬 P(st, at)를 강화 학습부(111)를 통하여 산출한다(단계 S12).

또한, 에이전트 ECU(100)는, 이렇게 산출한 천이 확률 행렬 P(st, at)에 의거하여, 상태 공간을 구성하는 각 상태마다의 정보 엔트로피 H(s)를 편차 정도 연산부(112)를 통하여 산출한다(단계 S13). 나아가서는, 에이전트 ECU(100)는, 각 상태마다의 정보 엔트로피 H(s)를 합산하여 얻어지는 평균 엔트로피 H(Ω)를 편차 정도 연산부(112)를 통하여 산출한다(단계 S14).

그리고, 에이전트 ECU(100)는, 이렇게 산출한 평균 엔트로피 H(Ω)가 난수로서 설정된 난수 δ 미만일 때에는(단계 S15＝YES), 앞선 단계 S11에 있어서 산출한 최적 행동 가치 함수 Q^*(st, at)를 최대화하는 행동 a를 자동 설정의 대상으로 하여 제안 정보 생성부(113)로부터 음성 출력부(140) 또는 화상 출력부(141)로 고정하여 출력하는 확정적인 조작 제안을 실행한다(단계 S16).

한편, 에이전트 ECU(100)는, 앞선 단계 S14에 있어서 산출한 평균 엔트로피 H(Ω)가 난수 δ 이상일 때에는(단계 S15＝NO), 앞선 단계 S12에 있어서 산출한 천이 확률 행렬 P(st, at)에 의거하여, 현재의 상태 st에 있어서 실행되는 확률이 높은 행동일수록 선택하는 빈도를 높이는 경향을 갖고 자동 설정의 대상으로서 랜덤으로 출력되는 시행 착오적인 조작 제안을 실행한다(단계 S17).

계속해서, 에이전트 ECU(100)는, 앞선 단계 S16 또는 앞선 단계 S17에 있어서의 조작 제안에 대한 운전자로부터의 응답이 있었을 때에는, 그 응답에 관한 정보를 조작 입력부(142)를 통하여 취득한다(단계 S18). 그리고, 에이전트 ECU(100)는, 이렇게 취득한 운전자로부터의 응답이 조작 제안을 수리하는 것인지 여부를 판단한다(단계 S19). 이 판단은, 예를 들면 스티어링 스위치를 개재한 조작 입력이면 결정 버튼(도 12에 나타내는 예에서는 제 1 조작 버튼(BA1)이 눌렸는지 여부, 또한, 마이크를 개재한 음성 입력이면 긍정적인 응답을 나타내는 단어(예를 들면, 「예」, 「YES」 등)이 입력되었는지 여부에 의거하여 행해진다.

그리고, 에이전트 ECU(100)는, 운전자로부터의 응답이 조작 제안을 수리하는 것인 경우에는(단계 S19＝YES), 앞선 단계 S16 또는 단계 S17에 있어서 자동 설정의 대상으로서 출력한 행동을 실행한다(단계 S20). 또한, 에이전트 ECU(100)는, 자동 설정의 대상으로서 출력한 행동의 실행에 수반하여, 학습 갱신 트리거부(115)로부터 강화 학습부(111)로의 트리거 신호의 송신을 행하고, 강화 학습부(111)를 통한 차량 탑재기기의 조작 이력(RA)의 갱신을 행한 후에(단계 S21), 그 처리를 단계 S22로 이행한다.

한편, 에이전트 ECU(100)는, 운전자로부터의 응답이 조작 제안을 수리하는 것이 아닌 경우에는(단계 S19＝NO), 앞선 단계 S20 및 단계 S21의 처리를 거치는 일 없이, 그 처리를 단계 S22로 이행한다.

그리고, 에이전트 ECU(100)는, 차량의 이그니션 스위치가 온인 동안에는(단계 S22＝NO), 그 처리를 단계 S10으로 되돌리고, 단계 S10∼단계 S22의 처리를 소정의 주기로 반복한다. 이때, 에이전트 ECU(100)는, 앞선 단계 S21에 있어서 차량 탑재기기의 조작 이력(RA)이 갱신되어 있는 것이면, 당해 조작 이력(RA)의 갱신에 아우른 갱신 후의 보수 함수를 이용하면서, 최적 행동 가치 함수 Q^*(st, at), 및 당해 최적 행동 가치 함수 Q^*(st, at)에 의거하는 천이 확률 행렬 P(st, at)를 새롭게 산출한다(단계 S11, 단계 S12). 그리고, 에이전트 ECU(100)는, 새롭게 산출한 천이 확률 행렬 P(st, at)에 의거하여, 차량 탑재기기의 조작 제안으로서 전술한 확정적인 조작 제안 또는 시행 착오적인 조작 제안을 실행한다(단계 S16, 단계 S17).

그리고 이후, 에이전트 ECU(100)는, 조작 제안에 대한 응답으로서 조작 입력부(142)가 조작되어 조작 제안이 수리될 때마다 차량 탑재기기의 조작 이력(RA)을 갱신하고, 당해 갱신에 아울러 강화 학습부(111)에 의한 강화 학습을 반복한다. 이에 따라, 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 빈도가 증가할 때마다 천이 확률 행렬 P(st, at)의 정밀도가 운전자 개인에 의한 행동의 실태에 맞는 형태로 높여진다.

다음으로, 본 실시 형태의 에이전트 ECU(100)의 작용에 대해서, 특별히 차량 탑재기기의 조작 제안을 실행할 때의 작용에 착목하여 이하에 설명한다. 차량 탑재기기의 조작 제안을 실행할 때, 그때마다 차량의 상태에 따라서 운전자가 취득할 수 있는 행동을 선회하여 예측하는 일의 곤란함은 대상이 되는 조작 제안의 종류에 따라서 상이한 것이 보통이다. 예를 들면 라디오의 재생이나 악곡의 재생 등, 차량의 주행시에 있어서의 음성의 재생은, 일반적으로 차량의 상태뿐만아니라 그때의 운전자의 기분 등에 의해서도 영향을 받기 쉽고 그 선택지도 다방면에 이른다. 그 때문에, 운전자가 취득할 수 있는 행동을 선회하여 예측하는 것은 곤란해지는 것이 예상된다. 그 한편으로, 예를 들면 목적지의 설정 등은, 일반적으로 음성의 재생과 비교하면 그때마다 차량의 상태로부터 선택지도 좁히기 쉽고 운전자가 취득할 수 있는 행동을 선회하여 예측하는 것은 용이해진다는 것이 예상된다.

그래서 본 실시 형태에서는, 에이전트 ECU(100)는, 각각의 조작 제안의 종류마다, 조작 제안에 대한 응답으로서 행해지는 차량 탑재기기의 조작 이력(RA)을 로그로서 기록하고, 기록한 조작 이력(RA)을 보수 함수로서 설정한 강화 학습을 실행한다. 이에 따라, 에이전트 ECU(100)는, 운전자 개인에 의한 행동의 실태에 맞는 형태로 상태 공간을 구성하는 각 상태로부터 행동 공간을 구성하는 각 행동으로의 천이 확률 행렬 P(st, at)를 산출한다.

이 경우, 전술한 바와 같이, 음성의 재생에 대응되는 차량 탑재기기의 조작 이력(RA)에 의거하여 산출되는 천이 확률 행렬 P(st,at)에서는, 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동을 취할 확률이 비교적 분산되기 쉽다. 한편, 이것도 전술한 바와 같이, 목적지의 설정에 대응되는 차량 탑재기기의 조작 이력(RA)에 의거하여 산출되는 천이 확률 행렬 P(st,at)에서는, 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동을 취할 확률이 비교적 분산되기 어렵다.

그래서, 본 실시 형태에서는, 에이전트 ECU(100)는, 이러한 상태 공간의 편차 정도의 평가를, 상태 공간을 구성하는 각 상태마다의 정보 엔트로피 H(s)의 값을 합산한 평균 엔트로피 H(Ω)의 값에 의거하여 행한다.

그리고, 에이전트 ECU(100)는, 평균 엔트로피 H(Ω)가 난수 δ 미만일 때에는, 현재의 상태에 있어서 가장 가치가 있는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 실행한다. 이 경우, 에이전트 ECU(100)는, 평균 엔트로피 H(Ω)의 값이 작아질수록, 확정적인 조작 제안을 실행하는 빈도를 높인다.

도 14는, 확정적인 조작 제안을 포함하는 형태로 에이전트 ECU(100)와 운전자와의 사이에서 주고 받아지는 대화의 내용의 일 예를 나타내고 있다. 동 도면에 나타내는 예에서는, 에이전트 ECU(100)는, 확정적인 조작 제안으로서, 자동 설정의 대상이 되는 목적지가 「자택」인지 여부를 확인하고 있다. 그리고, 에이전트 ECU(100)는, 확정적인 조작 제안을 수리하는 것을 나타내는 음성 커맨드(동 도면에 나타내는 예에서는, 「Yes」)가 운전자로부터 입력되면, 목적지로서 「자택」을 자동 설정한다. 이와 같이, 에이전트 ECU(100)는, 예를 들면 목적지의 설정과 같이, 현재의 상태에 있어서 운전자가 행동 공간을 구성하는 행동 중 어느 행동을 취할지가 특정하기 쉬운 상황에서는, 운전자에게 행동을 선택하는 수고를 끼치는 일 없이, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 행하도록 하고 있다.

한편, 에이전트 ECU(100)는, 평균 엔트로피 H(Ω)가 난수 δ 이상일 때에는, 현재의 상태로부터의 천이 확률의 확률 밀도가 높을수록 선택하는 빈도를 높이는 경향을 갖고 랜덤으로 선택된 행동을 조작 제안의 대상으로 하여 출력하는 시행 착오적인 조작 제안을 실행한다. 이 경우, 에이전트 ECU(100)는, 평균 엔트로피 H(Ω)의 값이 커질수록, 시행 착오적인 조작 제안을 실행하는 빈도를 높인다.

도 15는, 시행 착오적인 조작 제안을 포함하는 형태로 에이전트 ECU(100)와 운전자와의 사이에서 주고 받아지는 대화의 내용의 일 예를 나타내고 있다. 동 도면에 나타내는 예에서는, 에이전트 ECU(100)는 우선 처음으로, 시행 착오적인 조작 제안을 개시하는지 여부를 운전자에게 확인한다. 그리고, 에이전트 ECU(100)는, 시행 착오적인 조작 제안을 수리하는 것을 나타내는 음성 커맨드(동 도면에 나타내는 예에서는, 「YES」)가 운전자로부터 입력되면, 현재의 상태로부터의 천이 확률의 확률 밀도가 비교적 높은 행동 중으로부터 랜덤으로 선택된 행동으로서, 「FMA」의 선택을 운전자에게 제안한다. 그리고, 에이전트 ECU(100)는, 제안한 음성을 수리하는 것을 나타내는 음성 커맨드가 운전자로부터 입력되면, 음성으로서 「FMA」를 자동 설정한다. 또한, 에이전트 ECU(100)는, 음성을 재생한 후에, 제안한 음성을 거부하는 것을 나타내는 음성 커맨드(동 도면에 나타내는 예에서는, 「No」)가 입력되면, 전술한 천이 확률의 확률 밀도가 높은 행동일수록 선택하는 빈도를 높이는 경향을 갖고 랜덤으로 선택된 다른 행동으로서, 「CD 악곡 n」의 선택을 운전자에게 제안한다. 그리고, 에이전트 ECU(100)는, 제안한 음성을 수리하는 것을 나타내는 음성 커맨드가 운전자로부터 입력될 때까지, 천이 확률의 확률 밀도가 높은 행동일수록 선택하는 빈도를 높이는 경향을 갖고 랜덤으로 선택된 다른 행동을 운전자에게 순차 제안한다. 그리고, 에이전트 ECU(100)는, 「CD 악곡 2」의 선택의 제안이 수리되었을 때에는, 음성으로서 「CD 악곡 2」를 자동 설정한다. 이와 같이, 에이전트 ECU(100)는, 예를 들면 음성의 설정과 같이, 현재의 상태에 있어서 운전자가 행동 공간을 구성하는 행동 중 어느 행동을 취할지를 특정하기 어려운 상황에서는, 복수의 후보 중으로부터 대상이 되는 행동을 선택하여 출력하도록 함으로써, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 보다 정확하게 행하도록 하고 있다.

이상 설명한 바와 같이, 본 실시 형태에 의하면, 이하에 나타내는 효과를 얻을 수 있다. (1) 에이전트 ECU(100)는, 강화 학습에 의해 산출한 천이 확률 행렬 P(st, at)에 있어서의 각 상태마다의 정보 엔트로피 H(s)의 합산값으로부터 구한 평균 엔트로피 H(Ω)가 난수 δ 미만일 때에는, 대상이 되는 행동을 조작 제안이 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행한다. 이에 따라, 운전자에게 행동을 선택하는 수고를 끼치는 일 없이, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안이 행해진다. 한편, 에이전트 ECU(100)는, 강화 학습에 의해 산출한 천이 확률 행렬 P(st, at)에 있어서의 각 상태마다의 정보 엔트로피 H(s)의 합산값으로부터 구한 평균 엔트로피 H(Ω)가 난수 δ 이상일 때에는, 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행한다. 이에 따라, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안이 보다 정확하게 행해진다. 즉, 평균 엔트로피 H(Ω)가 큰 경우라도, 작은 경우라도, 조작 제안의 대상으로서 한번에 출력되는 차량 탑재기기의 조작 내용은 하나뿐이기 때문에, 운전자로서는 그때마다 제안되는 차량 탑재기기의 조작 내용에 대해서 동의의 유무를 의사 표시만 하면 된다. 그 때문에, 목적지의 설정 및 음성의 재생과 같은 평균 엔트로피 H(Ω)의 편차 정도가 상이한 이종의 차량 탑재기기의 조작 제안에 대한 응답을 간소하게 하면서 동일한 사용자 인터페이스로서 조작 입력부(142)를 이용하면서 일관되게 행할 수 있다. 이에 따라, 운전자의 부하를 억제하면서 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 실행하는 것이 가능해진다.

(2) 에이전트 ECU(100)는, 평균 엔트로피 H(Ω)의 값이 난수 δ 미만일 때에는, 현재의 상태에 있어서 최적 행동 가치 함수 Q^*(st, at)를 최대화하는 행동, 즉 현재의 상태에 있어서 가장 가치가 있는 행동으로서 운전자가 취할 가능성이 가장 높다고 상정되는 행동을 대상으로 하여 확정적인 조작 제안을 실행한다. 이에 따라, 운전자의 의도에 입각한 조작 제안을 보다 한층 높은 신뢰성을 갖고 실현하는 것이 가능해진다.

(3) 에이전트 ECU(100)는, 평균 엔트로피 H(Ω)의 값이 난수 δ 이상일 때에는, 현재의 상태에 있어서의 확률 분포의 확률 밀도가 높은 행동, 즉, 현재의 상태에 있어서 운전자가 취할 가능성이 높은 행동을 대상으로 하여 선택하는 빈도를 높이는 경향을 갖고 시행 착오적인 조작 제안을 행한다. 이에 따라, 대상으로 하고 있는 차량 탑재기기의 조작을 사전에 특정하는 것이 곤란한 중에 있어서도, 운전자의 의도에 입각한 조작 제안을 보다 한층 높은 신뢰성을 갖고 실현하는 것이 가능해진다.

(4) 에이전트 ECU(100)는, 평균 엔트로피 H(Ω)의 값을 ε값으로서 설정한 ε-그리디법을 이용하면서, ε값이 커질수록 시행 착오적인 조작 제안을 행하는 빈도를 높게 하는 경향을 갖고, 확정적인 조작 제안과 시행 착오적인 조작 제안과의 선택을 행한다. 그 때문에, 에이전트 ECU(100)는, 평균 엔트로피의 값인 ε값이 커질수록, 즉 상태 공간의 편차 정도가 커질수록, 시행 착오적인 조작 제안을 선택하는 빈도가 높아진다. 이것에 의해서도, 대상으로 하고 있는 정보 제공에 대해서 운전자의 행동을 특정하는 것이 곤란한 중에 있어서, 운전자의 의도에 입각한 조작 제안을 보다 한층 높은 신뢰성을 갖고 실현하는 것이 가능해진다.

(5) 에이전트 ECU(100)는, 운전자의 의도에 대한 차량 탑재기기의 조작 제안의 적정 정도의 지표로서, 조작 제안에 대한 응답에 의해 행동 공간을 구성하는 행동 중으로부터 선택되어 실행되는 행동의 빈도를 적용하여 보수 함수를 설정하고, 응답 이력(차량 탑재기기의 조작 이력(RA))이 갱신될 때마다 보수 함수도 아울러 갱신되도록 하고 있다. 이에 따라, 운전자의 의도에 입각한 형태로 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동이 실행되는 천이 확률 행렬 P(st, at)를 산출하는 것이 가능해짐과 함께, 운전자의 응답의 빈도가 증가할 때마다 천이 확률 행렬 P(st, at)의 정밀도를 운전자 개인에 의한 응답의 실태에 맞는 형태로 높이는 것이 가능해진다.

(6) 에이전트 ECU(100)는, 차량 탑재기기의 조작 상황(DA, DAα), 차량의 탑승자의 특성(DB, DBα), 및 차량의 주행 상황(DC, DCα) 등, 차량 탑재기기의 조작 제안에 영향을 미치는 요소를 다방면에 걸쳐서 고려하면서, 상태 공간을 구성하는 각 상태를 정의하고 있다. 이에 따라, 보다 한층 실정에 입각한 형태로 운전자의 의도에 입각한 조작 제안을 실현하는 것이 가능해진다. 또한, 전술한 바와 같이 여러가지 요소를 고려한 결과, 상태 공간을 구성하는 상태의 수가 방대해지는 것도 예상된다. 이 점, 상기 실시 형태에서는, 조작 이력(RA)의 축적과 함께 정밀도의 향상이 도모되는 강화 학습의 수법을 이용함으로써, 예를 들면 교사가 있는 학습을 이용한 경우와 같이 방대한 수의 교사 데이터를 사전에 준비하지 않아도, 운전자의 의도에 입각한 조작 제안을 실현하는 것이 가능해진다.

(제 2 실시 형태) 다음으로, 정보 제공 장치의 제 2 실시 형태에 대해서 도면을 참조하여 설명한다. 또한, 제 2 실시 형태는, 각 상태마다의 정보 엔트로피의 값을 합산한 평균 엔트로피의 값을 구하는 것을 대신하여, 현재의 상태에 대응되는 정보 엔트로피의 값에 의거하여 확정적인 조작 제안 및 시행 착오적인 조작 제안의 선택을 행하는 점이 제 1 실시 형태와 상이하다. 따라서, 이하의 설명에 있어서는, 제 1 실시 형태와 상위(相違)한 구성에 대해서 주로 설명하고, 제 1 실시 형태와 동일한 또는 상당한 구성에 대해서는 중복되는 설명을 생략한다.

도 16은, 본 실시 형태에 있어서, 확정적인 조작 제안 및 시행 착오적인 조작 제안의 선택에 이용되는 천이 확률 행렬 P(st, at)의 일 예를 나타내고 있다. 동 도면에 나타내는 예에서는, 예를 들면 상태 si에 있어서 행동 a1을 취할 확률이 「0.03」이 되고, 마찬가지로 상태 si에 있어서 행동 a2를 취할 확률이 「0.04」가 되고, 마찬가지로 상태 si에 있어서 행동 a100을 취할 확률이 「0.02」가 된다. 그리고, 에이전트 ECU(100)는, 이들 확률을 p라고 했을 때에 도 8에 나타낸 식을 이용하면서 정보 엔트로피 H(s)의 값을 산출한다. 이 경우, 이들 확률이 균등하게 분산되어 있는 점에서 정보 엔트로피 H(s)의 값은 비교적 커진다.

또한 동일하게, 동 도면에 나타내는 예에서는, 예를 들면 상태 sj에 있어서 행동 a1을 취할 확률이 「0.6」이 되고, 마찬가지로 상태 sj에 있어서 행동 a2를 취할 확률이 「0.02」가 되고, 마찬가지로 상태 sj에 있어서 행동 a100을 취할 확률이 「0.04」가 된다. 그리고, 에이전트 ECU(100)는, 이들 확률을 p라고 했을 때에 도 8에 나타낸 식을 이용하면서 정보 엔트로피 H(s)의 값을 산출한다. 이 경우, 이들 확률이 국소적(「행동 a1」)으로 치우치고 있는 점에서 정보 엔트로피 H(s)의 값은 비교적 작아진다.

그리고, 에이전트 ECU(100)는, 상기 제 1 실시 형태에 있어서 이용한 알고리즘에 대체로 따라, 현재의 상태에 대응되는 정보 엔트로피 H(s)의 값을 ε값으로 한 ε-그리디법을 이용하면서, 차량 탑재기기의 조작 제안에 관한 정보를 생성한다. 이에 따라, 에이전트 ECU(100)는, 가령 현재의 상태가 도 16에 나타낸 상태 si일 때와 같이, 현재의 상태에 대응되는 정보 엔트로피 H(s)의 값이 비교적 클 때에는, 전술한 식 (6)의 적용에 의해, 시행 착오적인 조작 제안을 실행하는 빈도를 높인다. 그 한편으로, 에이전트 ECU(100)는, 가령 현재의 상태가 도 16에 나타낸 상태 sj일 때와 같이, 현재의 상태에 대응되는 정보 엔트로피 H(s)의 값이 비교적 작을 때에는, 전술한 식 (5)의 적용에 의해, 확정적인 조작 제안을 실행하는 빈도를 높인다. 즉, 에이전트 ECU(100)는, 예를 들면 목적지의 설정과 같이 상태 공간 전체로서 보았을 때에는 평균 엔트로피 H(Ω)의 값이 비교적 작은 경우라도, 현재의 상태에 대응되는 정보 엔트로피 H(s)의 값이 난수 δ 이상일 때에는, 현재의 상태로 한정하면 운전자가 행동 공간을 구성하는 행동 중 어느 행동을 취할지를 특정하기 어려운 상황이라고 판단하고 시행 착오적인 조작 제안을 실행한다. 또한 반대로, 에이전트 ECU(100)는, 예를 들면 음성의 설정과 같이 상태 공간전체로서 보았을 때에는 평균 엔트로피 H(Ω)의 값이 비교적 큰 경우라도, 현재의 상태에 대응되는 정보 엔트로피 H(s)의 값이 난수 δ 미만일 때에는, 현재의 상태로 한정하면 운전자가 행동 공간을 구성하는 행동 중 어느 행동을 취할지가 특정되기 쉬운 상황이라고 판단하고 확정적인 조작 제안을 실행한다. 이와 같이, 에이전트 ECU(100)는, 현재의 상태에 있어서 운전자의 행동의 특정의 용이함을 개별 구체적으로 고려함으로써, 보다 한층 실정에 합치한 형태로 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 행하도록 하고 있다.

이상 설명한 바와 같이, 상기 제 2 실시 형태에 의하면, 제 1 실시 형태의 상기 (1)의 효과를 대신하여, 이하에 나타내는 효과를 얻을 수 있다. (1A) 에이전트 ECU(100)는, 강화 학습에 의해 산출한 천이 확률 행렬 P(st, at)에 있어서 현재의 상태에 대응되는 정보 엔트로피 H(s)가 난수 δ 이상일 때에는, 복수의 후보 중으로부터 대상이 되는 행동을 선택하여 출력하는 시행 착오적인 조작 제안을 차량 탑재기기의 조작 제안으로서 행한다. 이에 따라, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안이 보다 정확하게 행해진다. 한편, 에이전트 ECU(100)는, 강화 학습에 의해 산출한 천이 확률 행렬 P(st, at)에 있어서 현재의 상태에 대응되는 정보 엔트로피 H(s)가 난수 δ 미만일 때에는, 대상이 되는 행동을 고정하고 출력하는 확정적인 조작 제안을 차량 탑재기기의 조작 제안으로서 행한다. 이에 따라, 운전자에게 행동을 선택하는 수고를 끼치는 일 없이, 운전자의 의도에 입각한 차량 탑재기기의 조작 제안이 행해진다. 즉, 각 상태마다의 정보 엔트로피 H(s)의 편차 정도가 큰 경우라도, 작은 경우라도, 조작 제안의 대상으로서 한번에 출력되는 차량 탑재기기의 조작 내용은 하나뿐이기 때문에, 운전자로서는 그때마다 제안되는 차량 탑재기기의 조작 내용에 대해서 동의의 유무를 의사 표시만 하면 된다. 그 때문에, 목적지의 설정 및 음성의 재생과 같은 각 상태마다의 정보 엔트로피 H(s)의 편차 정도가 상이한 이종의 차량 탑재기기의 조작 제안에 대한 응답을 간소하게 하면서 동일한 사용자 인터페이스로서 조작 입력부(142)를 이용하면서 일관되게 행할 수 있다. 이에 따라, 운전자의 부하를 억제하면서 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 실행하는 것이 가능해진다. 또한, 에이전트 ECU(100)는, 상태 공간 전체로서 보았을 때의 상태 공간의 편차 정도를 정의하는 평균 엔트로피 H(Ω)의 값과는 관계없이, 현재의 상태에 대응되는 정보 엔트로피 H(s)의 값에 의거하여, 시행 착오적인 조작 제안 및 확정적인 조작 제안의 선택을 행한다. 이에 따라, 에이전트 ECU(100)는, 현재의 상태에 있어서 운전자의 행동의 특정의 용이함을 개별 구체적으로 고려함으로써, 보다 한층 실정에 합치한 형태로 운전자의 의도에 입각한 차량 탑재기기의 조작 제안을 행하는 것이 가능해진다.

(그 밖의 실시 형태) 또한, 상기 각 실시 형태는, 이하와 같은 형태로 실시 할 수도 있다. ·상기 제 1 실시 형태에 있어서는, 상태 공간을 정의하는 모든 상태에 대한 정보 엔트로피 H(s)를 합산함으로써, 상태 공간의 편차 정도를 정의하는 평균 엔트로피 H(Ω)를 산출하도록 했다. 이것을 대신하여, 상태 공간을 정의하는 상태 중 일부의 상태에 대한 정보 엔트로피 H(s)를 합산하여 평균 엔트로피 H(Ω)를 산출하도록 해도 된다.

·상기 제 1 실시 형태에 있어서는, 평균 엔트로피 H(Ω)와의 비교 대상이 되는 문턱값으로 하여 난수 δ를 이용하도록 했다. 이에 따라, 보다 다양성이 풍부한 배분이 가능해지지만, 처리 부하를 경감하기 위해서는 이것을 대신하여, 평균 엔트로피 H(Ω)와의 비교 대상이 되는 문턱값으로 하여 고정값을 이용하도록 해도 된다. 이 경우, 평균 엔트로피 H(Ω)가 고정값 미만일 때에는 전술한 식 (5)를 적용하여 확정적인 조작 제안을 실행하는 한편으로, 평균 엔트로피 H(Ω)가 고정값 이상일 때에는 전술한 식 (6)을 적용하여 시행 착오적인 조작 제안을 실행하도록 하면 된다.

·마찬가지로 상기 제 2 실시 형태에 있어서는, 현재의 상태에 대응되는 정보 엔트로피 H(s)와의 비교 대상이 되는 문턱값으로 하여 난수 δ를 이용하도록 했다. 이것을 대신하여, 현재의 상태에 대응되는 정보 엔트로피 H(s)와의 비교 대상이되는 문턱값으로서 고정값을 이용하도록 해도 된다. 이 경우, 정보 엔트로피 H(s)가 고정값 미만일 때에는 전술한 식 (5)를 적용하여 확정적인 조작 제안을 실행하는 한편으로, 현재의 상태에 대응되는 정보 엔트로피 H(s)가 고정값 이상일 때에는 전술한 식 (6)을 적용하여 시행 착오적인 조작 제안을 실행하도록 하면 된다.

·상기 제 1 실시 형태에 있어서는, 상태 공간의 편차 정도의 평가는, 상태 공간을 구성하는 각 상태에 대응되는 정보 엔트로피 H(s)를 합산한 평균 엔트로피 H(Ω)에 의거하여 행하도록 했다. 이것을 대신하여, 상태 공간의 편차 정도의 평가는, 상태 공간을 구성하는 각 상태 마다의 확률 분포의 분산 또는 표준 편차를 합산한 값에 의거하여 행하도록 해도 된다.

·마찬가지로 상기 제 2 실시 형태에 있어서는, 현재의 상태에 있어서의 확률 분포의 편차 정도의 평가는, 현재의 상태에 대응되는 정보 엔트로피 H(s)에 의거하여 행하도록 했지만, 이것을 대신하여, 현재의 상태에 있어서의 확률 분포의 분산 또는 표준 편차에 의거해도 된다.

·상기 각 실시 형태에 있어서는, 상태를 정의하는 차량 데이터의 속성으로서, 차량 탑재기기의 조작 상황(DA, DAα), 차량의 탑승자의 특성(DB, DBα), 및 차량의 주행 상황(DC, DCα)을 포함하도록 했다. 이것으로 한정되지 않고, 상태를 정의하는 차량 데이터의 속성은, 운전자에 의한 차량 탑재기기의 조작의 방법에 기여하는 요소이면 다른 요소를 채용하도록 해도 된다.

·상기 각 실시 형태에 있어서는, 확정적인 조작 제안으로서, 행동 공간을 구성하는 각 행동 중, 현재의 상태에 있어서 최적 행동 가치 함수 Q^*(st, at)를 최대화하는 행동, 즉, 현재의 상태에 있어서 가장 가치가 있는 행동을 조작 제안의 대상으로 하여 출력하도록 했다. 이것을 대신하여, 예를 들면, 현재의 상태에 있어서 천이 확률이 최대가 되는 행동을 조작 제안의 대상으로 하여 출력하도록 해도 된다. 요는, 운전자가 취할 가능성이 가장 높다고 상정되는 행동을 대상으로 하여 확정적인 조작 제안을 실행하는 것이면 된다.

·상기 각 실시 형태에 있어서는, 시행 착오적인 조작 제안으로서, 「F(s)＝τ」를 충족시키는 행동을 조작 제안의 대상으로 하여 출력하도록 했다. 이것을 대신하여, 어떤 상태 s에 있어서 행동 공간을 구성하는 각 행동을 취할 확률을 낮은 순서대로 다시 나열한 후에 가산해 감으로써 누적 분포 함수 F(s)를 구했을 때에, 「F(s)≥τ」를 충족시키는 행동을 조작 제안의 대상으로 하여 출력하도록 해도 된다. 또한, 어느 상태(s)에 있어서 행동 공간을 구성하는 각 행동을 취할 확률을 높은 순서대로 다시 나열한 후에 가산해 감으로써 누적 분포 함수 F(s)를 구했을 때에, 「F(s)≤τ」를 충족시키는 행동을 조작 제안의 대상으로 하여 출력하도록 해도 된다. 요는, 현재의 상태에 있어서의 확률 분포의 확률 밀도가 높은 행동일수록 대상으로서 선택하는 빈도를 높이는 경향을 갖고 시행 착오적인 조작 제안을 실행하는 것이면 된다.

·상기 각 실시 형태에 있어서는, 강화 학습에 있어서의 보수 함수로서, 조작 제안에 대한 응답으로서의 도 12에 나타낸 스티어링 스위치(142A)에 있어서의 제 1 조작 버튼(BA1)의 조작 횟수를 설정하도록 했다. 이것을 대신하여, 강화 학습에 있어서의 보수 함수로서, 도 12에 나타낸 스티어링 스위치에 있어서의 제 1 조작 버튼(BA1)의 조작 횟수로부터 제 2 조작 버튼(BA2)의 조작 횟수를 감산한 값을 설정하도록 해도 된다. 또한, 제 1 조작 버튼(BA1)의 조작 횟수로부터 제 3 조작 버튼(BA3)의 조작 횟수나 제 4 조작 버튼(BA4)의 조작 횟수를 추가로 감산한 값을 강화 학습에 있어서의 보수 함수로서 설정하는 것도 가능하다. 또한, 차량 탑재기기의 조작 제안에 대하여 운전자로부터 아무런 조작이 행해지지 않았을 때에 그 횟수를 로그로 하여 기록하고 제 1 조작 버튼(BA1)의 조작 횟수로부터 감산한 값을 강화 학습에 있어서의 보수 함수로서 설정하는 것도 가능하다. 또한, 차량 탑재기기의 조작 제안에 대하여 운전자가 쾌적·불쾌라는 감정을 느낀 횟수를 운전자의 생체 신호 등에 의거하여 계측하고, 운전자가 쾌적하다고 느낀 횟수를 강화 학습에 있어서의 보수 함수로서 설정하도록 해도 된다. 또한, 운전자가 쾌적하다고 느낀 횟수로부터 불쾌하다고 느낀 횟수를 감산한 값을 강화 학습에 있어서의 보수 함수로서 설정하는 것도 가능하다. 요는, 운전자의 의도에 대한 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표가 되는 것이면, 강화 학습에 있어서의 보수 함수로서 설정하는 것은 가능하다.

·상기 각 실시 형태에 있어서는, 스티어링 스위치로서, 에이전트 ECU(100)로부터의 조작 제안에 응답할 때에 조작되는 제 1 조작 버튼(BA1) 및 제 2 조작 버튼(BA2)에 더하여, 에이전트 ECU(100)로부터의 조작 제안과는 관계없이 차량 탑재기기의 조작을 행할 때에 조작되는 제 3 조작 버튼(BA3) 및 제 4 조작 버튼(BA4)을 가지는 구성을 예로 들어 설명했다. 단, 도 17에 나타내는 바와 같이, 스티어링 스위치의 다른 일 예로서, 에이전트 ECU(100)로부터의 조작 제안에 응답할 때에 조작되는 제 1 조작 버튼(BA1) 및 제 2 조작 버튼(BA2)만을 가지는 스티어링 스위치(142B)를 채용하는 구성으로 해도 된다. 또한, 도 18에 나타내는 바와 같이, 스티어링 스위치의 다른 일 예로서, 도 12에 나타낸 운전자 자신에 의한 수기 입력에 의해 차량 탑재기기의 조작을 행할 때에 조작되는 제 3 조작 버튼(BA3)을 대신하여, 컨시어지 서비스를 기동할 때에 조작되는 제 3 조작 버튼(BA3α)을 가지는 스티어링 스위치(142C)를 채용하는 구성으로 해도 된다. 그리고, 이들 스티어링 스위치(142B, 142C)의 구성에 있어서도, 조작 제안에 대한 운전자로부터의 응답을 스티어링 스위치(142B, 142C)의 조작을 통하여 검출하고 강화 학습에 있어서의 보수 함수로서 이용하는 것이 가능해진다.

·상기 각 실시 형태에 있어서는, 강화 학습의 방법으로서, Q러닝을 행하도록 했다. 이것을 대신하여, 강화 학습의 방법으로서, 예를 들면, SARSA법, 액터 크리틱법 등, 다른 수법을 이용하는 것도 가능하다.

Claims

정보 제공 장치로서,
복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하도록 구성되는 상태 공간 구성부(T1, T1α)와,
차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로서 정의하여 복수의 행동의 집합인 행동 공간을 구성하도록 구성되는 행동 공간 구성부(T2, T2α)와,
상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하도록 구성되는 강화 학습부(111)와,
상기 강화 학습부에 의해 산출되는 확률 분포의 편차 정도를 연산하도록 구성되는 편차 정도 연산부(112)와,
상기 편차 정도 연산부에 의해 연산되는 확률 분포의 편차 정도가 문턱값 미만이 될 때에는 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산부에 의해 연산되는 확률 분포의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하도록 구성되는 정보 제공부(113)를 포함하는 에이전트 전자 제어 유닛(100)을 포함하는 정보 제공 장치.
정보 제공 장치로서,
복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하도록 구성되는 상태 공간 구성부(T1, T1α)와,
차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로서 정의하여 복수의 행동의 집합인 행동 공간을 구성하도록 구성되는 행동 공간 구성부(T2, T2α)와,
상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하도록 구성되는 강화 학습부(111)와,
상기 강화 학습부에 의해 산출되는 확률 분포의 편차 정도를 상기 상태 공간을 구성하는 복수의 상태에 대해서 합산함으로써 상기 상태 공간의 편차 정도를 연산하도록 구성되는 편차 정도 연산부(112)와,
상기 편차 정도 연산부에 의해 연산되는 상기 상태 공간의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 조작 제안이 대상으로 하여 고정하여 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산부에 의해 연산되는 상기 상태 공간의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하도록 구성되는 정보 제공부(113)를 포함하는 에이전트 전자 제어 유닛(100)을 포함하는 정보 제공 장치.
제 2 항에 있어서,
상기 강화 학습부(111)는, 상기 상태 공간을 구성하는 각 상태로부터 상기 행동 공간을 구성하는 각 행동으로의 사상을 방책으로 함과 함께, 상기 각 상태에 있어서 상기 방책을 따른 경우에 얻어지는 누적 보수의 기대치를 상태 가치 함수 V(st)로 하고, 상기 상태 공간을 구성하는 모든 상태에 있어서 상기 상태 가치 함수 V(st)를 최대로 하는 상기 방책을 최적 방책으로 했을 때, 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간 중으로부터 소정의 행동을 선택한 후에 항상 상기 최적 방책을 따른 경우에 얻어지는 누적 보수의 기대치를 최적 행동 가치 함수 Q^*(st, at)로서 추정하고, 당해 추정한 최적 행동 가치 함수에 의거하여 상기 확률 분포를 산출하도록 구성되고, 상기 정보 제공부(113)는, 상기 편차 정도 연산부(112)에 의해 연산되는 상기 상태 공간의 편차 정도가 상기 문턱값 미만일 때에는, 현재의 상태에 있어서 상기 최적 행동 가치 함수를 최대화하는 행동을 대상으로 하여 상기 확정적인 조작 제안을 행하도록 구성되는 정보 제공 장치.
제 3 항에 있어서,
상기 정보 제공부(113)는, 상기 편차 정도 연산부(112)에 의해 연산되는 상기 상태 공간의 편차 정도가 상기 문턱값 이상일 때에는, 현재의 상태에 있어서의 상기 확률 분포의 확률 밀도가 높은 행동일수록 대상으로 하여 선택하는 빈도를 높이는 경향을 갖고 상기 시행 착오적인 조작 제안을 실행하도록 구성되는 정보 제공 장치.
제 3 항 또는 제 4 항에 있어서,
상기 편차 정도 연산부(112)는, 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포의 편차 정도를 엔트로피 H(s)로서 정의함과 함께, 상기 상태 공간의 편차 정도를 평균 엔트로피 H(Ω)로서 정의하고, 상기 정보 제공부(113)는, 상기 평균 엔트로피 H(Ω)의 값을 ε값으로 설정한 ε-그리디법을 이용하면서, ε값이 커질수록 상기 시행 착오적인 조작 제안을 행하는 빈도를 높이는 경향을 갖고 상기 확정적인 조작 제안과 상기 시행 착오적인 조작 제안과의 선택을 행하도록 구성되는 정보 제공 장치.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 강화 학습부(111)는, 상기 차량 탑재기기의 조작 제안에 대한 운전자의 응답에 의해 실행되는 차량 탑재기기의 조작의 빈도를 상기 보수 함수로서 설정하는 것이며, 상기 차량 탑재기기의 조작 제안에 따라서 차량 탑재기기의 조작이 행해졌을 때에는, 그 조작 이력의 변경에 따라서 상기 보수 함수를 갱신하도록 구성되는 정보 제공 장치.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 상태 공간 구성부(T1, T1α)는, 상기 차량 탑재기기의 조작 상황(DA, DAα), 상기 차량의 탑승자의 특성(DB, DBα), 및 상기 차량의 주행 상황(DC, DCα)을 관련지은 데이터군인 상태의 집합으로서 상기 상태 공간을 구성하도록 구성되는 정보 제공 장치.
정보 제공 프로그램을 저장하는 비일시적인 컴퓨터로 판독 가능한 매체에 있어서,
상기 정보 제공 프로그램은, 컴퓨터에서,
복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하는 상태 공간 구성 기능과,
차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로서 정의하여 복수의 행동의 집합인 행동 공간을 구성하는 행동 공간 구성 기능과,
상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상기 상태 공간을 구성하는 각 상태에 있어서 상기 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하는 강화 학습 기능과,
상기 강화 학습 기능에 의해 산출되는 확률 분포의 편차 정도를 연산하는 편차 정도 연산 기능과,
상기 편차 정도 연산 기능에 있어서 연산되는 확률 분포의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산 기능에 있어서 연산되는 확률 분포의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하는 정보 제공 기능을 실현시키도록 프로그램되는, 비일시적인 컴퓨터로 판독 가능한 매체.
정보 제공 프로그램을 저장하는 비일시적인 컴퓨터로 판독 가능한 매체에 있어서,
상기 정보 제공 프로그램은, 컴퓨터에서,
복수의 종류의 차량 데이터를 관련지음으로써 차량의 상태를 정의하여 복수의 상태의 집합인 상태 공간을 구성하는 상태 공간 구성 기능과,
차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답에 의해 실행되는 차량 탑재기기의 조작 내용을 나타내는 데이터를 행동으로서 정의하여 복수의 행동의 집합인 행동 공간을 구성하는 행동 공간 구성 기능과,
상기 차량 탑재기기의 조작 제안에 대한 운전자로부터의 응답의 이력을 축적하고, 당해 축적된 이력을 이용하면서 상기 차량 탑재기기의 조작 제안의 적정 정도를 나타내는 지표로서 보수 함수를 설정함과 함께, 당해 보수 함수에 의거하는 강화 학습에 의해 상태 공간을 구성하는 각 상태에 있어서 행동 공간을 구성하는 각 행동이 실행되는 확률 분포를 산출하는 강화 학습 기능과,
상기 강화 학습 기능에 의해 산출되는 확률 분포의 편차 정도를 상기 상태 공간을 구성하는 복수의 상태에 대해서 합산함으로써 상기 상태 공간의 편차 정도를 연산하는 편차 정도 연산 기능과,
상기 편차 정도 연산 기능에 있어서 연산되는 상태 공간의 편차 정도가 문턱값 미만일 때에는 대상이 되는 행동을 조작 제안의 대상으로 하여 고정하고 출력하는 확정적인 조작 제안을 행하고, 상기 편차 정도 연산 기능에 있어서 연산되는 상태 공간의 편차 정도가 상기 문턱값 이상일 때에는 복수의 후보 중으로부터 대상이 되는 행동을 조작 제안의 대상으로 하여 선택하고 출력하는 시행 착오적인 조작 제안을 행하는 정보 제공 기능을 실현시키도록 프로그램되는, 비일시적인 컴퓨터로 판독 가능한 매체.