TWI626615B

TWI626615B - 資訊提供裝置及儲存提供程式的資訊之非暫態電腦可讀媒體

Info

Publication number: TWI626615B
Application number: TW106107404A
Authority: TW
Inventors: 古賀光
Original assignee: 豐田自動車股份有限公司
Priority date: 2016-03-11
Filing date: 2017-03-07
Publication date: 2018-06-11
Also published as: JP2017162385A; US20170261947A1; TW201734926A; JP6477551B2; BR102017004763A2; CA2960140C; CA2960140A1; MY179856A; CN107179870B; US9939791B2; KR20170106227A; EP3217333A1; KR102000132B1; RU2657179C1; CN107179870A

Abstract

揭示一種資訊提供裝置包含代理ECU(100)，其透過來自駕駛員對用於車載組件之操作的回應之歷史資料的使用而設定報酬函數，且透過根據該報酬函數的增強學習而計算在建構狀態空間的每個狀態中之建構動作空間之每個動作之執行的機率分佈。該代理ECU(100)計算該機率分佈的分散度。該代理ECU(100)在當該機率分佈的該分散度係等於或大於臨限值時，做成試誤操作建議而從複數個候選來選擇自標動作並輸出該目標動作，且在當由該機率分佈的該分散度之值係小於該臨限值時，做成明確操作建議以確定及輸出目標動作。

Description

資訊提供裝置及儲存提供程式的資訊之非暫態電腦可讀媒體

本發明有關資訊提供裝置，及儲存提供程式的資訊之非暫態電腦可讀媒體，該提供程式的資訊累積及學習來自使用者(駕駛員)之回應上的歷史資料，用以提供資訊及根據該學習的結果而提供與該使用者之(駕駛員之)企圖匹配的資訊。

做為此種類之資訊提供裝置，已知有例如，在WO 2015/162638中所描述的裝置(使用者介面系統)。在此裝置中，當執行聲音輸入功能時，首先使用在此時間點之車輛情勢上的資訊以估計將由使用者(駕駛員)所執行之聲音操作的候選，且藉由觸控面板而以機率的下降序顯示聲音操作之三種估計的候選做為選項。隨後，決定該等選項的何者已由駕駛員透過手動輸入而被選擇，並決定聲音操作的目標。而且，促使該使用者輸入聲音之指引係依據聲音操作之決定的目標而被產生，且予以輸出。之後，駕駛員依據此指引而輸入聲音，藉以決定及執行目標車輛功能。匹配使用者之企圖之聲音操作的入口係藉以依據在此時間點之車輛情勢而被提供，以致使所施加在輸入聲音之使用者上的操作負擔被降低。

順便一提，在上述文件中所描述的裝置中，當執行車輛功能時，使用者介面係從根據手動輸入的操作模式轉換到根據由觸控面板所顯示的該等選項之聲音輸入的操作模式。因此，所施加在駕駛員上的負擔不可避免地增加。

此外，在上述文件中所描述的裝置中，聲音操作的入口被簡化，但下面的操作只不過實現與現有語音對話系統之功能相似的功能。因此，希望進一步降低所施加在駕駛員上的負擔。

本發明提供資訊提供裝置及儲存提供程式的資訊之非暫態電腦可讀媒體，其可藉由一致地使用簡單的使用者介面，而以匹配駕駛員之企圖做為資訊的提供方式做成更適當的操作建議，且同時抑制駕駛員的負擔。

依據本發明之第一觀點的資訊提供裝置係裝備有代理電子控制單元。該代理ECU具有狀態空間結構單元、動作空間結構單元、增強學習單元、分散度計算單元、及資訊提供單元。該狀態空間結構單元係組構用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態。該動作空間結構單元係組構用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容。該增強學習單元係組構用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之執行的機率分佈。該分散度計算單元係組構用以計算該機率分佈的分散度，該機率分佈的該分散度係藉由該增強學習單元而予以計算。該資訊提供單元係組構用以當由該分散度計算單元所計算之該機率分佈的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出此目標動作，且當由該分散度計算單元所計算之該機率分佈的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出此目標動作。

此外，在依據本發明之第二觀點的儲存提供程式的資訊之非暫態電腦可讀媒體中，該資訊提供的程式係編程以致使電腦實現狀態空間結構函數、動作空間結構函數、增強學習函數、分散度計算函數、及資訊提供函數。該狀態空間結構函數係設計用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態。該動作空間結構函數係設計用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容。該增強學習函數係設計用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之執行的機率分佈。該分散度計算函數係設計用以計算該機率分佈的分散度，該機率分佈的該分散度係透過該增強學習函數而予以計算。該資訊提供函數係設計用以當透過該分散度計算函數所計算之該機率分佈的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出該目標動作，且當透過該分散度計算函數所計算之該機率分佈的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出該目標動作。

在本發明之上述第一及第二觀點的各者中，報酬函數係設定做為表示當使用來自駕駛員對用於車載組件之操作建議的回應之歷史時之用於該車載組件的該操作建議之適當度的指標。然後，關於在每個狀態中之用於車載組件的操作建議之駕駛員的決策模型係透過根據此報酬函數的增強學習而被建構。此外，透過來自駕駛員對每個狀態中之用於車載組件之操作建議的回應而被執行之該車載組件的操作之內容的機率分佈，係使用此建構的模型而予以計算出。此處應注意的是，車載組件之操作的內容之機率分佈的分散度常常根據用於該車載組件之操作建議的目標而有所差別。例如，在其中用於該車載組件之操作建議的目標係聲音再生的情況中，此目標通常易受當時駕駛員之心情及其類似者以及車輛之狀態影響，且存在有各種選項。因此，該車載組件之操作的內容之機率分佈的分散度可能會很大。另一方面，在其中用於該車載組件之操作建議的目標係目的地之設定的情況中，通常比在聲音再生的情況中更容易在每一個場合限制來自車輛狀態之選項的數目。因此，該車載組件之操作的內容之機率分佈的分散度可能會很小。在此方面，依據上述組態，當機率分佈的分散度係小於臨限值時，則做成明確操作建議而確定目標動作為操作建議的目標並輸出此目標動作。因此，做成與駕駛員的企圖匹配之用於車載組件的操作建議，而不致使駕駛員煩擾於選擇車載組件之操作的內容。另一方面，在上述組態中，當機率分佈的分散度係等於或大於該臨限值時，則做成試誤操作建議而從複數個候選來選擇目標動作為操作建議的目標並輸出此目標動作。因此，更充分地做成與駕駛員的企圖匹配之用於車載組件的操作建議。也就是說，在上述組態中，每次僅輸出車載組件之操作的單一內容做為操作建議的目標，而不管機率分佈的分散度是否大或小。因此，駕駛員僅須表達自己的意志，亦即，表達是否同意在每一個場合所建議的車載組件之操作的內容。所以，可使用相同簡單的使用者介面而一致地進行對諸如，目的地的設定及聲音再生之具有機率分佈的不同分散度之用於車載組件的不同類型之操作建議的回應。從而，可做成與駕駛員的企圖匹配之用於車載組件的操作建議，且同時抑制駕駛員的煩擾。

依據本發明之第三觀點的資訊提供裝置係裝備有代理電子控制單元。該代理ECU具有狀態空間結構單元、動作空間結構單元、增強學習單元、分散度計算單元、及資訊提供單元。該狀態空間結構單元係組構用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態。該動作空間結構單元係組構用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容。該增強學習單元係組構用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之執行的機率分佈。該分散度計算單元係組構用以藉由累計由該增強學習單元所計算之該機率分佈的該分散度，而計算出關於建構該狀態空間的複數個該等狀態之該狀態空間的分散度。該資訊提供單元係組構用以當由該分散度計算單元所計算之該狀態空間的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出此目標動作，且當由該分散度計算單元所計算之該狀態空間的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出此目標動作。

在依據本發明之第四觀點的儲存提供程式的資訊之非暫態電腦可讀媒體中，該資訊提供的程式係編程以致使電腦實現狀態空間結構函數、動作空間結構函數、增強學習函數、分散度計算函數、及資訊提供函數。該狀態空間結構函數係設計用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態。該動作空間結構函數係設計用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容。該增強學習函數係設計用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之執行的機率分佈。該分散度計算函數係設計用以藉由累計透過該增強學習函數所計算之該機率分佈的該分散度，而計算出關於建構該狀態空間的複數個該等狀態之該狀態空間的分散度。該資訊提供函數係設計用以當透過該分散度計算函數所計算之該狀態空間的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出該目標動作，且當透過該分散度計算函數所計算之該狀態空間的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出該目標動作。

依據本發明之上述第三及第四觀點的各者，報酬函數係設定做為表示當使用來自駕駛員對用於車載組件之操作建議的回應之歷史時之用於該車載組件的該操作建議之適當度的指標。然後，關於在每個狀態中之用於車載組件的操作建議之駕駛員的決策模型係透過根據此報酬函數的增強學習而被建構。此外，透過來自駕駛員對每個狀態中之用於車載組件之操作建議的回應而被執行之該車載組件的操作之內容的機率分佈，係使用此建構的模型而予以計算出。此處應注意的是，車載組件之操作的內容之機率分佈的分散度常常根據用於該車載組件之操作建議的目標而有所差別。例如，在其中用於該車載組件之操作建議的目標係聲音再生的情況中，此目標通常易受當時駕駛員之心情及其類似者以及車輛之狀態影響，且存在有各種選項。因此，該車載組件之操作的內容之機率分佈的分散度可能會很大。另一方面，在其中用於該車載組件之操作建議的目標係目的地之設定的情況中，通常比在聲音再生的情況中更容易在每一個場合限制來自車輛狀態之選項的數目。因此，該車載組件之操作的內容之機率分佈的分散度可能會很小。在此方面，依據上述組態，當已從機率分佈之分散度的累計值所獲得之狀態空間的分散值係小於臨限值時，則做成明確操作建議而確定目標動作為操作建議的目標並輸出此目標動作。因此，做成與駕駛員的企圖匹配之用於車載組件的操作建議，而不致使駕駛員煩擾於選擇車載組件之操作的內容。另一方面，在上述組態中，當已從機率分佈之分散度的累計值所獲得之狀態空間的分散值係等於或大於該臨限值時，則做成試誤操作建議而從複數個候選來選擇目標動作為操作建議的目標並輸出此目標動作。因此，更充分地做成與駕駛員的企圖匹配之用於車載組件的操作建議。也就是說，在上述組態中，每次僅輸出車載組件之操作的單一內容做為操作建議的目標，而不管狀態空間的分散度是否大或小。因此，駕駛員僅須表達自己的意志，亦即，表達是否同意在每一個場合所建議的車載組件之操作的內容。所以，可使用相同簡單的使用者介面而一致地進行對諸如，目的地的設定及聲音再生之具有狀態空間的不同分散度之用於車載組件的不同類型之操作建議的回應。從而，可做成與駕駛員的企圖匹配之用於車載組件的操作建議，且同時抑制駕駛員的負擔。

在本發明之上述第二觀點中，該增強學習單元可採用從建構該狀態空間的每個該等狀態到建構該動作空間之每個該等動作的映像做為策略，設定當在每個狀態中遵循該策略時所獲得之累積報酬的期望值作為狀態值函數，估計當在預定動作係選自建構該狀態空間的每個該等狀態中的該狀態空間之後遵循最佳策略時所一直獲得之累積報酬的期望值作為最佳動作值函數，而假設該最佳策略係使建構該狀態空間之所有該等狀態中的該狀態值函數最大化的該策略，及根據該估計的最佳動作值函數而計算出該機率分佈。該資訊提供單元可以當由該分散度計算單元所計算之該狀態空間的該分散度係小於該臨限值時，做成明確操作建議而以使目前狀態中之該最佳動作值函數最大化的動作為目標。

在上述組態中，當該狀態空間的該分散度係小於臨限值時，做成明確操作建議而以使目前狀態中之該最佳動作值函數最大化的動作，亦即，其係最有價值且在目前狀態中最有可能由駕駛員所採取的動作為目標。因此，可以以更高的可靠度實現與駕駛員的企圖匹配之用於車載組件的操作建議。

在上述資訊提供單元中，該資訊提供單元可被組構用於當由該分散度計算單元所計算之該狀態空間的該分散度係等於或大於該臨限值時，以隨著在目前狀態中之該動作的該機率分佈之機率密度上升而增強選擇動作做為目標之頻率的傾向來做成試誤操作建議。

在上述組態中，當該狀態空間的該分散度係等於或大於該臨限值時，以隨著選擇具有在目前狀態中的該機率分佈之高機率密度的動作做為用於車載組件之操作建議的目標之傾向來做成試誤操作建議。因此，即使在其中難以預先就有關用於車載組件的操作建議做為目標來指明駕駛員之動作的情況下，仍可以以更高的可靠度實現與駕駛員的企圖匹配之用於車載組件的操作建議。

在上述資訊提供單元中，該分散度計算單元可被組構用以界定建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作的執行之該機率分佈的該分散度做為熵，且界定該狀態空間的該分散度做為平均熵。該資訊提供單元可被組構用以當使用其中設定該平均熵的值為ε值時，以隨著該ε值增加而增強做成該試誤操作建議之頻率的傾向來選擇該明確操作建議或該試誤操作建議。

在上述組態中，選擇該試誤操作建議的頻率係在做為平均熵的值之ε值增加時，亦即，在狀態空間的分散度增加時增強。在此方式中，同樣地，即使在其中難以就有關用於車載組件的操作建議做為目標來指明駕駛員之動作的情況下，仍可以以更高的可靠度實現與駕駛員的企圖匹配之用於車載組件的操作建議。

在上述資訊提供單元中，該增強學習單元可被組構用以透過對用於該車載組件之該操作建議的駕駛員回應而設定執行該車載組件之該操作的頻率做為該報酬函數，且當該車載組件係依據用於該車載組件之該操作建議而被操作時，則依據該車載組件的該操作之操作歷史中的改變而更新該報酬函數。

在上述組態中，該報酬函數係藉由施加透過對用於車載組件之操作建議的駕駛員回應而被執行之動作的頻率而予以設定，當作表示關於駕駛員企圖之該車載組件的該操作建議之適當度的指標。該報酬函數係每當該回應的歷史改變時更新。因此，建構該狀態空間的每個狀態中之建構該動作空間之每個動作的執行之機率分佈可以以匹配駕駛員之企圖的方式計算。而且，該機率分佈的準確度係隨著駕駛員之回應的頻率增加，而以適合於駕駛員做成個人實際回應的方式獲得增強。

在上述資訊提供單元中，該狀態空間結構單元可被組構用以建構當作一組狀態的該狀態空間做為一群組的資料，其使該車載組件之操作情勢、該車輛的乘客或乘客們之特徵、及該車輛之運轉情勢彼此相關聯。

在上述組態中，建構狀態空間的每個狀態係從各種觀點考慮諸如，車載組件之操作情勢、車輛的乘客或乘客們之特徵、及車輛之運轉情勢之影響到對駕駛員所做成的用於車載組件之操作建議的元素，而予以界定。因此，匹配駕駛員企圖之用於車載組件的操作建議可以以更準確地適合於實際環境的方式做成。附帶地，在上述組態中，建構該狀態空間之狀態的數目亦由於考慮到如上述之各種元素的緣故，而被估計為龐大的。惟，透過其中累積歷史資料及增強準確度的增強學習之方法的使用，可實現匹配駕駛員企圖之用於車載組件的操作建議，即使並未在其中使用例如，教師協助之學習的情況中，預先準備龐大之教師資料的時候。

100‧‧‧代理ECU(電子控制單元)

110‧‧‧控制單元

111‧‧‧增強學習單元

112‧‧‧分散度計算單元

113‧‧‧建議資訊產生單元

114‧‧‧操作偵測單元

115‧‧‧學習更新觸發單元

120‧‧‧儲存單元

130‧‧‧額外的ECU群組

131‧‧‧感測器群組

132‧‧‧開關群組

140‧‧‧聲音輸出單元

141‧‧‧影像輸出單元

142‧‧‧操作輸入單元

下文將參照附圖以敘述本發明之代表性實施例的特徵、優點、及技術和產業重要性，其中相同的符號表示相同的元件，且其中：第1圖係顯示依據本發明第一實施例之資訊提供裝置的一般組態之方塊圖；第2圖係顯示界定狀態空間之車輛資料的屬性之實例視圖；第3圖係顯示狀態空間表之設定內容的實例之視圖；第4圖係顯示界定狀態空間之車輛資料的屬性之另一實例視圖；第5圖係顯示狀態空間表之設定內容的另一實例之視圖；第6圖係顯示動作空間表之設定內容的實例之視圖；第7圖係顯示狀態空間表之設定內容的另一實例之視圖；第8圖係顯示採取建構狀態空間的每個狀態中之建構動作空間之每個動作的躍遷機率矩陣之實例視圖；第9圖係顯示在進行試誤操作建議中所使用之累積分佈函數的實例之圖形；第10A圖係顯示界定當前狀態之車輛資料的屬性之實例視圖；第10B圖係用以描繪選擇使用於第10A圖中所示狀態中之明確操作建議的動作之處理視圖；第11A圖係顯示界定目前狀態之車輛資料的屬性之另一實例視圖；第11B圖係用以描繪選擇使用於第11A圖中所示狀態中之試誤操作建議的動作之處理視圖；第12圖係顯示轉向開關的實例之視圖；第13圖係顯示車載組件之操作建議處理的處理內容做為資訊提供處理的實例之流程圖；第14圖係顯示以包含明確操作建議的方式保持在代理ECU與駕駛員之間的對話內容之實例視圖；第15圖係顯示以包含試誤操作建議的方式保持在代理ECU與駕駛員之間的對話內容之實例視圖；第16圖係用以描繪依據本發明第二實施例之在資訊提供裝置中選擇明確操作建議及試誤操作建議的處理之視圖；第17圖係顯示轉向開關的另一實例之視圖；以及第18圖係顯示轉向開關的再一實例之視圖。

(第一實施例)在下文將敘述依據本發明之第一實施例的資訊提供裝置。依據本發明之本實施例的資訊提供裝置係由代理ECU(電子控制單元)所建構，其係安裝在車輛中，且其提出用於車載組件的操作建議，做為對駕駛員之資訊的提供。在此應注意的是，代理ECU之功能被廣義地分類成為學習系統的該等者、資訊獲取系統的該等者、及使用者介面的該等者。此外，代理ECU根據透過資訊獲取系統所獲取的各種資訊件而執行增強學習，做為學習系統中之學習的模式，且同時依據每個場合上之車輛的狀態而分類車載組件的操作歷史，以及根據透過該增強學習所獲得的學習結果而提出用於車載組件的操作建議。在此應注意的是，增強學習係學習方法，其中當代理ECU根據環境而選擇此動作時，該代理ECU透過試誤以適應環境，因為該環境根據某一動作來改變，而給定一些報酬至該代理ECU。附帶地，在本發明之本實施例中，代理ECU藉由使例如，車載組件之操作情勢、車輛的乘客或乘客們之特徵、車輛之運轉情勢、及其類似者的各種車輛資料彼此相關聯而界定狀態，且建構狀態空間當作一組複數個狀態。此外，因為駕駛員對操作建議給定回應，代理ECU界定可由代理ECU取代駕駛員所執行之車載組件的操作之類型做為動作，且建構動作空間當作一組複數個動作。除此之外，已被執行做為對建構狀態空間的每個狀態中之用於車載組件的操作建議之回應的車載組件之操作的歷史，係等同於在增強學習中的報酬。另外，代理ECU藉由執行上述之增強學習，而計算在建構該狀態空間的每個狀態中之建構該動作空間之每個動作之執行的機率分佈。此外，代理ECU根據所計算出的機率分佈，而從每個場合上之車輛的狀態來預測可能由駕駛員所採取的動作，且以所考慮的預測結果提出用於車載組件的操作建議。

首先，將參照圖式而敘述依據本發明之本實施例的裝置之組態。如第1圖中所示，代理ECU 100具有控制單元110及儲存單元120，該控制單元110控制用於車載組件的操作建議，該儲存單元120儲存資訊提供程式及各種資料，該資訊提供程式係在做成用於車載組件的操作建議中由控制單元110所執行，該等資料係在執行該資訊提供程式中由控制單元110所讀取及寫入。在此應注意的是，儲存在儲存單元120中的各種資料包含界定狀態空間的狀態空間結構表T1及T1α、界定動作空間的動作空間表T2及T2α、以及車載組件的操作歷史RA。每個狀態空間表作用為狀態空間結構單元，以及每個動作空間表作用為動作空間結構單元。附帶地，在本發明之本實施例中，例如，聲音再生、目的地的設定、空調機的設定、座椅位置的設定、鏡子的設定、雨刷的設定、及其類似者之複數個類型的服務可用作操作建議之目標。此外，個別的狀態空間表T1及T1α以及個別的動作空間表T2及T2α係儲存在代理ECU 100的儲存單元120中，以供該等類型之服務的各者之用。

第2圖顯示被使用以在設定目的地中界定狀態的車輛資料之屬性的實例，做為操作建議之實例。在此應注意的是，車輛資料之該等屬性係預先註冊為有助於設定目的地之方式的元素，且包含圖式中所示之實例中的車載組件之操作情勢DA、車輛的乘客或乘客們之特徵DB、及車輛之運轉情勢DC上的車輛資料。附帶地，目的地DA1、時鐘時間DA2、星期幾DA3、及當前位置DA4被提及做為在車載組件之操作情勢DA上的車輛資料之實例。此外，配偶的存在或不存在DB1、孩子或孩子們的存在或不存在DB2、同車旅伴的數目DB3、嗜好的存在或不存在DB4、及目的DB5被提及做為在車輛的乘客(乘客們)之特徵DB上的車輛資料之實例。除此之外，交通情勢(擁擠度)DC1及天氣DC2被提及做為在車輛之運轉情勢DC上的車輛資料之實例。

接著，如第3圖中所示，狀態空間表T1藉由以輪循方式彼此組合第2圖中所示之車輛資料的屬性，而界定狀態，且建構狀態空間當作一組複數個狀態。在此應注意的是，當建構車輛資料之屬性的元素之類型的數目(如在第2圖中所示的實例中，從左邊所順序提及之包含“目的地”及“天氣”的11個類型)，或該等元素的各者之參數的數目(例如，如在第2圖中所示的實例中之“目的地”的參數數目8個)增加時，則包含在狀態空間表T1中之狀態的數目m(例如，大約四百萬個)增加。

另一方面，第4圖顯示被使用以在再生聲音中界定狀態的車輛資料之屬性的實例，做為操作建議之實例。在此應注意的是，車輛資料之該等屬性係預先註冊為有助於再生聲音之方式的元素，且包含圖式中所示之實例中的車載組件之操作情勢DAα、車輛的乘客或乘客們之特徵DBα、及車輛之運轉情勢DCα上的車輛資料。附帶地，聲音來源DA1α、重複之設定DA2α、聲音音量DA3α、時鐘時間DA4α、星期幾DA5α、及當前位置DA6α被提及做為在車載組件之操作情勢DAα上的車輛資料之實例。此外，配偶的存在或不存在DB1α、孩子或孩子們的存在或不存在DB2α、同車旅伴的數目DB3α、及駕駛員的嗜睡程度DB4α被提及做為在車輛的乘客(乘客們)之特徵DBα上的車輛資料之實例。除此之外，包含在車輛周圍之都市化或郊區化程度的環境DC1α及道路環境被提及做為在車輛之運轉情勢DCα上的車輛資料之實例。

接著，如第5圖中所示，狀態空間表T1α藉由以輪循方式彼此組合第4圖中所示之車輛資料的屬性，而界定狀態，且建構狀態空間當作一組複數個狀態。同樣地，在此情況中，當建構車輛資料之屬性的元素之類型的數目，或該等元素的各者之參數的數目增加時，則包含在狀態空間表T1α中之狀態的數目n(例如，大約15億個)增加。

第6圖顯示動作空間表T2的實例，其界定在當代理ECU 100取代駕駛員而設定目的地之時候的動作，做為操作建議之實例，且其建構動作空間當作一組複數個動作。在該圖式中所示的實例中，將被設定的目的地之名稱的列表被提及做為包含在動作空間中之動作的類型。在此應注意的是，做為將被設定之目的地的地點係預先註冊為例如，在過去由駕駛員所特別經常設定的地點名稱。在該圖式中所示的實例中，總計8個地點名稱被註冊，亦即，“地點1”至“地點6”以及“自己的家”及“父母的家”。

此外，第7圖顯示動作空間表T2α的實例，其界定在當代理ECU 100取代駕駛員而再生聲音之時候的動作，做為操作建議之實例，且其建構動作空間當作一組複數個動作。在該圖式中所示的實例中，將被再生之聲音來源的列表被提及做為包含在動作空間中之動作的類型。在此應注意的是，做為將被再生之聲音來源係預先註冊為例如，在過去由駕駛員所特別經常設定的聲音來源。在該圖式中所示的實例中，包含無線電台的名稱及保存在諸如可攜帶式終端機、小型碟片(CD)、及其類似物的儲存媒體中之總計100個聲音來源被註冊。

除此之外，如第1圖中所示，代理ECU 100係經由車輛網路NW而被連接到額外的ECU群組130、感測器群組131、及開關群組132，該車輛網路NW係組構做為例如，控制器區域網路(CAN)或其類似物。

額外的ECU群組130係由控制各種車載組件之操作的車載ECU所組成。額外的ECU群組130包含車輛驅動系統的車載ECU，其控制引擎、制動器、方向盤、及類似物；身體系統的車載ECU，其控制空調機、儀錶、及類似物；以及資訊系統的車載ECU，其控制汽車導航系統、音頻系統、及類似物。

感測器群組131係用以獲取各種汽車資料的感測器群組。感測器群組131包含全球定位系統(GPS)感測器、雷射雷達、紅外線感測器、超音波感測器、雨滴感測器、外面空氣溫度感測器、車內溫度感測器、座椅感測器、安全帶緊固狀態感測器、車內相機、智能鑰匙感測器(智能鑰匙®)、入侵監測感測器、用以監測諸如花粉及其類似物之微小顆粒的感測器、加速度感測器、電場強度感測器、駕駛員監測器、車速感測器、轉向角感測器、偏航率感測器、及生物體感測器。

開關群組132係用以轉換各種車載組件之操作的開關群組。開關群組132包含指示燈桿開關、雨刷操作開關、燈操作開關、轉向開關、導航/音頻操作開關、車窗操作開關、門/行李箱開/關鎖開關、空調機操作開關、座椅加熱器/通風開關、座椅位置調整/預設記憶體開關、入侵監測系統開關、鏡子操作開關、自適應循行控制(ACC)開關、及引擎開關。

接著，當將各種車輛資料從此額外的ECU群組130、此感測器群組131、及此開關群組132經由車輛網路NW而輸入到代理ECU 100的控制單元110時，代理ECU 100的控制單元110參考儲存在儲存單元120中之狀態空間表T1及T1α以找出該車輛的有關聯狀態。此外，每次當預定的動作係透過駕駛員對用於車載組件之操作建議的回應而被選自包含在狀態空間中的動作，且該等車載組件的操作被執行時，則代理ECU 100的控制單元 110累積地添加與有關聯之狀態對應的操作歷史之計數值，做為車載組件的操作歷史RA，其係儲存在儲存單元120中。在此方面，代理ECU 100的控制單元110在建構狀態空間的每個狀態中，累積駕駛員對用於車載組件之操作建議的回應上之歷史資料。

除此之外，代理ECU 100的控制單元110作用為增強學習單元111，其透過以下程序(步驟1)至(步驟7)而執行Q學習當作增強學習的類型，且同時設定當接受操作建議時之車載組件的操作歷史之計數值做為用於如上述所學習之每個狀態的報酬函數。

在(步驟1)中，當策略π係界定為從建構狀態空間的每個狀態到建構動作空間之每個動作的映像時，則任意策略π被初步設定。在(步驟2)中，觀察目前狀態st(t表示時步)。在(步驟3)中，動作at係依據任意動作選擇方法而被執行(t表示時步)。在(步驟4)中，接收報酬rt(t表示時步)。在(步驟5)中，觀察狀態躍遷之後的狀態s(t+1)(在到狀態s(t+1)的躍遷僅根據該時之狀態st及動作at，且對先前之狀態或先前之動作係不可察覺的前提下(所謂馬爾可夫(Markov)性質))。在(步驟6)中，更新動作值函數Q(st，at)。在(步驟7)中，時步t前進到(t+1)而返回至(步驟1)。

附帶地，可使用其中不變化地選擇將於稍後敘述之使動作值函數Q(st，at)的值最大化之貪心法則，或相反地，使用其中以相同的機率選擇所有動作之隨機方法，做為在(步驟3)的程序中之動作選擇方法。此外，亦可使用其中動作係依據具有機率ε的隨機方法而被選擇以及動作係依據具有機率(1-ε)的貪心法則而被選擇之ε貪心法則，其中以高的機率選擇其動作值函數Q(st，at)高的動作以及以低的機率選擇其動作值函數Q(st，at)低的動作之玻爾茲曼(Boltzmann)選擇方法，或其類似方法。

此外，動作值函數Q(st，at)係根據以下所示之式(1)而在(步驟6)的程序中被更新。

附帶地，在式(1)中，學習率α係設定在0<α<1的數字範圍內。此係為了要藉由逐漸減少隨著時間而被更新之動作值函數Q(st，at)的增加量，使得動作值函數Q(st，at)之值可能收斂。此外，由於相同的原因，在式(1)中，Q(st，at)表示上述之動作值函數，且代表其中在增強學習單元111採用一定的策略π而不管時間之流逝的前提下，在狀態st中採取動作at後遵循該策略π的情況中所獲得之折扣累積報酬Rt的期望值。在此應注意的是，折扣累積報酬Rt係當狀態躍遷被重複時所獲得之報酬的總計。該折扣累積報酬Rt係從以下所示之式(2)獲得。

附帶地，在式(2)中(和式(1)一樣地)，折扣率γ係設定在0<γ<1的數字範圍內。此係為了要藉由逐漸減少隨著時間而被獲得之報酬值，使得折扣累積報酬Rt之值可能收斂。

在此之後，增強學習單元111藉由重複執行上述(步驟1)至(步驟7)的程序，而計算出使動作值函數Q(st，at)最大化(最佳化)的最佳動作值函數Q*(st，at)。在此應注意的是，該最佳動作值函數Q*(st，at)代表折扣累積報酬Rt的期望值，其係在其中當狀態值函數V(st)被界定為表示折扣累積報酬Rt的期望值之函數，而該折扣累積報酬Rt的期望值係在其中在狀態st中遵循策略π且最佳策略π*係界定為在所有狀態st中滿足V(st)V'(st)之策略π時的狀態st中，選擇動作at後遵循最佳策略π*之情況中所獲得的。

然後，增強學習單元111將如上述所獲得的最佳動作值函數Q*(st，at)分配至下文所示之式(3)。因此，在從建構狀態空間之每個狀態到建構動作空間之每個動作的躍遷機率矩陣中之使折扣累積報酬Rt最大化的躍遷機率矩陣，亦即，與駕駛員之企圖匹配且同時考慮到用於每個狀態的操作歷史RA之計數值的躍遷機率矩陣P(st，at)被計算出。

第8圖顯示如上述所計算出之躍遷機率矩陣P(st，at)的實例。躍遷機率矩陣P(st，at)之各列對應於建構狀態空間的每個狀態，以及躍遷機率矩陣P(st，at)之各行對應於建構動作空間的每個動作。此外，在該圖式中所示的實例中，例如，採取狀態s1中之動作a1的機率係“0.01”。同一道理，採取狀態s1中之動作a2的機率係“0.10”。同樣地，採取狀態s1中之動作a100的機率係“0.03”。

接著，代理ECU 100的控制單元110計算資訊熵H(s)且同時使用第8圖中所示的式，當機率係由p所表示時。附帶地，資訊熵H(s)係參數，其用作機率分佈之分散度的指數。在此方面，代理ECU 100的控制單元110亦作用為分散度計算單元112，其計算由增強學習單元111所計算出之機率分佈的分散度。然後，此意謂的是，當資訊熵H(s)之值增加時，機率分佈的分散度增加，也就是說，在狀態st中採取建構動作空間的個別動作之機率分佈的均勻度增加。因此，在其中資訊熵H(s)之值係很大的情況中，將難以預測駕駛員從建構動作空間之該等動作所採取的動作。

此外，分散度計算單元112藉由累計所計算出之資訊熵H(s)，而計算關於建構狀態空間之個別狀態的平均熵H(Ω)，如下文所示之式(4)所指示地。

附帶地，平均熵H(Ω)係指示狀態空間之分散度的參數。然後，此意謂的是，當平均熵H(Ω)之值增加時，狀態空間的分散度增加，也就是說，在當狀態空間被視為一個整體時的每個狀態中採取建構動作空間的個別動作之機率分佈的均勻度增加。因此，平均熵H(Ω)之值係指示是否可預測駕駛員從建構當作操作建議目標之服務的動作空間之該等動作所可能採取的動作之指標。

因而，代理ECU 100的控制單元110亦作用為建議之資訊產生單元113，其依據下文所示之演算法，而使用其中使用由增強學習單元111所獲的平均熵H(Ω)做為ε值之ε貪心法則，來產生用於車載組件之操作建議上的資訊。建議之資訊產生單元亦作用為資訊提供單元。

ε=H(Ω)

δ=rand(1)

若δ>ε時，則

否則，δε

τ=rand(2)

附帶地，在上述演算法中，建議之資訊產生單元113設定隨機數δ(臨限值)，其假設數字範圍為0到1，且當滿足“δ>ε”的情形時，則應用式(5)。也就是說，當由增強學習單元111所獲得的平均熵H(Ω)之值減少時，建議之資訊產生單元113增強應用式(5)的頻率。然後，建議之資訊產生單元113透過式(5)而輸出如上述之使藉由增強學習單元111而被獲得的最佳動作值函數Q*(st，at)最大化之動作，亦即，在狀態s中之最有價值的動作，且提出明確操作建議，當作操作建議的目標。

另一方面，在上述演算法中，當滿足“δε”的情形時，建議之資訊產生單元113應用式(6)。也就是說，當由增強學習單元111所獲得的平均熵H(Ω)之值增加時，建議之資訊產生單元113增強應用式(6)的頻率。在應用式(6)中，建議之資訊產生單元113首先藉由添加在一定空間s中採取建構動作空間之個別動作的機率，而獲得累積分佈函數F(s)。然後，當假設數字範圍為0到1的隨機數τ係設定為與上述之隨機數δ不同的變數時，建議之資訊產生單元113做成試誤操作建議，而輸出滿足“F(s)=τ”的情形之動作，做為操作建議的目標。

從當作實例之第9圖中所示的累積分佈函數F(s)可以看出，在累積分佈函數F(s)中之增加的量亦依據採取建構動作空間之每個動作的機率而變動。具體而言，累積分佈函數F(s)的量在沿著與具有相對高機率的動作對應之橫座標軸的部分中急劇地增加，而累積分佈函數F(s)的量在沿著與具有相對低機率的動作對應之橫座標軸的部分中亦平緩地增加。因此，當隨機數τ係在0到1的數字範圍內改變時，具有相對高機率的動作更可能滿足“F(s)=τ”的情形，且具有相對低機率的動作則不太可能滿足“F(s)=τ”的情形。因而，當輸出滿足“F(s)=τ”的情形之每個動作做為操作建議的目標時，此動作係以隨著其機率上升而增強選擇此動作之頻率的傾向輸出。附帶地，在該圖式中所示的實例中，在當滿足F(s)=τ之情形的時候之對應動作係a3’。因此，動作a3’被從建構動作空間之複數個動作選擇做為操作建議的目標動作，且輸出。

第10A及10B圖顯示用以描繪在設定目的地做為操作建議中，透過ε貪心法則之使用而選擇明確操作建議或試誤操作建議的具體實例。

在此實例中，如第10A圖中所示，代理ECU 100首先根據透過車輛網路NM所獲取的各種車輛資料，而在狀態空間表T1中提取與目前狀態有關聯之建構狀態空間的個別狀態之該者(提取此狀態做為圖式中之狀態si)。然後，在此實例中，具有其中由躍遷機率矩陣P(st，at)所獲得的平均熵H(Ω)係相對地高，且施加上述式(5)而做成明確操作建議的頻率變高的情勢。在此情況中，如第10B圖中所示，代理ECU 100在建構動作空間的個別動作中輸出目前狀態中之最有價值的動作(在圖式中所示的實例中之“自己的家”)。

第11A及11B圖顯示用以描繪在再生聲音做為操作建議中，透過ε貪心法則之使用而選擇明確操作建議或試誤操作建議的具體實例。

同樣地，在此實例中，如第11A圖中所示，代理ECU 100首先根據透過車輛網路NW所獲取的各種車輛資料，而在狀態空間表T1α中提取與目前狀態有關聯之建構狀態空間的個別狀態之該者(提取此狀態做為圖式中之狀態Sj)。然後，在此實例中，具有其中由躍遷機率矩陣P(st，at)所獲得的平均熵H(Ω)係相對地低，且施加上述式(6)而做成試誤操作建議的頻率變高的情勢。在此情況中，如第11B圖中所示，代理ECU 100以隨著來自目前狀態的動作之躍遷機率的機率密度上升來增強選擇該動作之頻率的此傾向，而隨機地輸出建構動作空間之動作的各者做為操作建議的目標(在圖式中所示的實例中之“FMD”)。

然後，代理ECU 100藉經由車輛網路NW來傳送輸出做為操作建議目標之動作上的資訊至諸如，揚聲器或其類似物之聲音輸出單元140，或諸如，液晶顯示器(LCD)、抬頭顯示器(HUD)、或其類似物之影像輸出單元141，而透過聲音或影像來提出用於車載組件的操作建議。

此外，代理ECU 100亦作用為操作偵測單元114，其藉經由車輛網路NW來接收經由諸如，轉向開關、微音器、或類似物的操作輸入單元142之操作輸入或聲音輸入的操作信號，而偵測來自駕駛員之對操作建議的回應。

第12圖係用以描繪經由轉向開關的操作輸入之實例視圖。在該圖式中所示的實例中，轉向開關142A具有四個操作按鈕BA1至BA4。在該等操作按鈕中，位於上方的第一操作按鈕BA1及位於下方的第二操作按鈕BA2係分配做為，操作以回應來自代理ECU 100之操作建議的操作按鈕。然後，第一操作按鈕BA1係操作以接受該操作建議，且相反地，第二操作按鈕BA2係操作以拒絕該操作建議。此外，在該等操作按鈕中，位於左邊的第三操作按鈕BA3及位於右邊的第四操作按鈕BA4係分配做為，操作以操作車載組件而與來自代理ECU 100之操作建議無關的操作按鈕。然後，第三操作按鈕BA3係當駕駛員本身透過手動輸入而操作車載組件時操作，以及第四操作按鈕BA4係當駕駛員本身以與每個場合上之車輛的狀態無關之高頻率操作車載組件時操作。附帶地，第四操作按鈕BA4可被分配做為，當在如現在的相同情勢中由另一駕駛員在過去所執行之車載組件的操作上之資訊係從外面伺服器獲取，且被提供到駕駛員本身時，所操作的操作按鈕。

其次，當透過操作偵測單元114而偵測操作信號時，代理ECU 100的控制單元110增進從學習更新觸發單元115到增強學習單元111之觸發信號的傳輸。附帶地，在如上述之本發明的本實施例中，在操作建議之接受時的車載組件之操作歷史的計數值係設定做為增強學習中的報酬函數。因此，若將第12圖中所示的轉向開關142A提述做為實例時，從學習更新觸發單元115到增強學習單元111之觸發信號的傳輸係在將第一操作按鈕BA1操作以接受操作建議時增進。

接著，當從學習更新觸發單元115接收到觸發信號時，增強學習單元111根據該時間點透過車輛網路NW所獲取之各種車輛資料，而在每個狀態空間表T1及T1α中找出建構該狀態空間之狀態的何者與目前的狀態有關聯。然後，增強學習單元111累積地添加與有關聯狀態相對應的操作歷史之計數值於車載組件的操作歷史RA中，其係儲存在儲存單元120中。

除此之外，當更新車載組件的操作歷史RA時，增強學習單元111根據最佳動作值函數Q*(st，at)，且同時使用與操作歷史RA之更新相符的更新後報酬函數，而重新計算最佳動作值函數Q*(st，at)及躍遷機率矩陣P(st，at)。然後，建議之資訊產生單元113根據由增強學習單元111所重新計算出之躍遷機率矩陣P(st，at)，而做成與駕駛員的企圖匹配之用於車載組件的操作建議。

其次，將描述在將儲存於儲存單元120中的資訊提供程式讀出後，依據本發明的本實施例之由代理ECU 100所執行的車載組件之操作建議處理的具體處理程序。在此應注意的是，代理ECU 100在開啟車輛的點火開關之條件下開始第13圖中所示之用於車載組件的操作建議處理。

如第13圖中所示，在用於車載組件之此操作建議處理中，代理ECU 100首先決定儲存在儲存單元120中的操作歷史RA是否已被更新，亦即，決定觸發信號是否已從學習更新觸發單元115被傳送到增強學習單元111(步驟S10)。

然後，若操作歷史RA被更新(在步驟S10中之是(YES))，報酬函數亦被更新時，代理ECU 100透過增強學習單元111且同時使用更新後的報酬函數，而計算最佳動作值函數Q*(st，at)(步驟S11)。

此外，代理ECU 100根據所計算出之最佳動作值函數Q*(st，at)，透過增強學習單元111而從建構狀態空間之每個狀態到建構動作空間之每個動作，計算躍遷機率矩陣P(st，at)(步驟S12)。

除此之外，代理ECU 100根據所計算出之躍遷機率矩陣P(st，at)，透過分散度計算單元112而計算建構狀態空間之每個狀態的資訊熵H(s)(步驟S13)。而且，代理ECU 100透過分散度計算單元112而計算出平均熵H(Ω)，其係藉由累計用於個別狀態之資訊熵H(s)而被獲得(步驟S14)。

接著，若所計算出的平均熵H(Ω)係小於被設定為隨機數的隨機數δ時(在步驟S15中之是(YES))，則代理ECU 100做成明確操作建議，而確定使在上述步驟S11中所計算出之最佳動作值函數Q*(st，at)最大化的動作a做為自動設定之目標，且自建議之資訊產生單元113輸出該動作a至聲音輸出單元140或影像輸出單元141(步驟S16)。

另一方面，若在上述步驟S14中所計算出的平均熵H(Ω)係等於或大於該隨機數δ時(在步驟S15中之否(NO))，則代理ECU 100做成試誤操作建議，而根據在上述步驟S12中所計算出之躍遷機率矩陣P(st，at)，以隨著在目前狀態st中之此動作的執行機率來增強選擇該動作的頻率之傾向，而隨機地輸出動作做為自動設定之目標(步驟S17)。

之後，當有來自駕駛員對上述步驟S16或上述步驟S17中之操作建議的回應時，代理ECU 100透過操作輸入單元142而獲取該回應上的資訊(步驟S18)。然後，代理ECU 100決定所獲取之來自駕駛員的回應是否接受該操作建議(步驟S19)。此決定係根據決策按鈕(在第12圖中所示之實例中的操作按鈕BA1)是否已在經由轉向開關之輸入操作的情況中被按壓，或意指肯定之回應的字(例如，“YES”或其類似者)是否已在經由微音器之聲音輸入的情況中被輸入。

然後，若來自該駕駛員的回應接受該操作建議時(在步驟S19中之是(YES))，則代理ECU 100執行被輸出做為上述步驟S16或步驟S17中的自動設定之目標的動作(步驟S20)。此外，當執行被輸出做為自動設定之目標的動作時，代理ECU 100從學習更新觸發單元115傳送觸發信號到增強學習單元111，透過增強學習單元111而更新車載組件的操作歷史RA(步驟S21)，且將處理轉移到步驟S22。

另一方面，若來自該駕駛員的回應並不接受該操作建議時(在步驟S19中之否(NO))，則代理ECU 100將處理轉移到步驟S22，而無需通過上述步驟S20及步驟S21的處理內容。

其次，當車輛的點火開關係開啟時(在步驟S22中之否(NO))，則代理ECU 100將處理送回到步驟S10，且在預定的週期上重複步驟S10至步驟S22的處理內容。此時，若車載組件的操作歷史RA已在上述步驟S21中被更新時，代理ECU 100重新計算最佳動作值函數Q*(st，at)，並根據該最佳動作值函數Q*(st，at)，且同時使用與操作歷史RA之更新一致的更新後報酬函數以重新計算躍遷機率矩陣P(st，at)(步驟S11及步驟S12)。然後，代理ECU 100根據所重新計算出之躍遷機率矩陣P(st，at)而提出上述之明確操作建議或上述之試誤操作建議，做為用於車載組件的操作建議(步驟S16及步驟S17)。

之後，每次當操作輸入單元142係操作為對用以接受操作建議之操作建議的回應時，則代理ECU 100更新車載組件的操作歷史RA，且依據該更新而重複藉由增強學習單元111的增強學習。因此，當來自駕駛員對用於車載組件的操作建議之回應的頻率增加時，躍遷機率矩陣P(st，at)的準確度係以隨著適合駕駛員個人所執行之實際動作的方式增強。

接著，將在下文中描述依據本發明的本實施例之代理ECU 100的操作，特別地，專注在提出用於車載組件之操作建議中的操作。在提出用於車載組件的操作建議中，依據每一個場合上之車輛的狀態而事先預測可能由駕駛員所採取之動作的困難度，常常根據當作目標之操作建議的類型而有所不同。例如，在車輛運轉時之聲音的再生，例如，收音機之開啟、歌曲之撥放、或其類似者，通常易受當時之駕駛員的心態及其類似者以及車輛的狀態影響，且亦具有各種選項。因此，估計為很難以事先預測可能由駕駛員所採取之動作。另一方面，例如，目的地之設定或其類似者通常比聲音的再生更容易從每一個場合上之車輛的狀態來限制選項的數目，且估計為很容易事先預測可能由駕駛員所採取之動作。

因此，在本發明的本實施例中，代理ECU 100分別記錄當作對操作建議的回應之車載組件的操作歷史RA做為用於每個操作建議之類型的日誌，且執行其中將所記錄之操作歷史RA設定做為報酬函數的增強學習。所以，代理ECU 100以隨著適合駕駛員個人所執行之實際動作的方式，從建構狀態空間的每個狀態到建構動作空間之每個動作來計算躍遷機率矩陣P(st，at)。

在此情況中，如上述，在根據與聲音之再生對應的車載組件之操作歷史RA而被計算出的躍遷機率矩陣P(st，at)中，採取建構狀態空間的每個狀態中之建構動作空間之每個動作的機率將相對可能地被分散。另一方面，在與上述一樣的情況中，在根據與目的地之設定對應的車載組件之操作歷史RA而被計算出的躍遷機率矩陣P(st，at)中，採取建構狀態空間的每個狀態中之建構動作空間之每個動作的機率將相對地不可能被分散。

因而，在本發明的本實施例中，代理ECU 100根據藉由累計用於建構狀態空間的個別狀態中之資訊熵H(s)的值而被獲得之平均熵H(Ω)的值，以評估此狀態空間的分散度。

然後，當平均熵H(Ω)係小於隨機數δ時，則代理ECU 100做成明確操作建議，而確定在目前狀態中之最有價值的動作做為操作建議的目標，且輸出此動作。在此情況中，當平均熵H(Ω)的值減少時，代理ECU 100增強做成明確操作建議的頻率。

第14圖顯示以包含明確操作建議的方式保持在代理ECU 100與駕駛員之間的對話內容之實例。在該圖式中所示的實例中，代理ECU 100確認當作自動設定之目標的目的地是否係“自己的家”，做為明確操作建議。然後，當指示明確操作建議之接受的聲音命令係從駕駛員輸入時(在該圖式中所示的實例中之是(YES))，代理ECU 100自動設定“自己的家”做為目的地。如前所述地，在其中如在例如，目的地之設定的情況中之易於指明建構動作空間的該等動作之何者將在目前狀態中由駕駛員所採取的情勢中，代理ECU 100將做成與駕駛員的企圖匹配之用於車載組件的操作建議，而無需駕駛員費心以選擇動作。

另一方面，當平均熵H(Ω)係等於或大於該隨機數δ時，代理ECU 100做成試誤操作建議，而以隨著來自目前狀態的動作之躍遷機率的機率密度上升來增強選擇該動作之頻率的傾向，輸出所隨機選擇的動作做為操作建議之目標。在此情況中，當平均熵H(Ω)的值增加時，代理ECU 100增強做成試誤操作建議的頻率。

第15圖顯示以包含試誤操作建議的方式保持在代理ECU 100與駕駛員之間的對話內容之實例。在該圖式中所示的實例中，代理ECU 100首先要求駕駛員確認是否要開始試誤操作建議。然後，當指示試誤操作建議之接受的聲音命令係從駕駛員輸入時(在該圖式中所示的實例中之是(YES))，代理ECU 100建議駕駛員選擇“FMA”做為所隨機選自來自目前狀態之其躍遷機率的機率密度相對高之動作的動作。然後，當指示建議的聲音之接受的聲音命令係從駕駛員輸入至代理ECU 100時，代理ECU 100自動設定“FMA”做為聲音。此外，當指示建議的聲音之拒絕的聲音命令(在該圖式中所示的實例中之否(NO))係在該聲音的再生之後輸入至代理ECU 100時，代理ECU 100以隨著來自動作之上述躍遷機率的機率密度上升來增強選擇該動作之頻率的傾向，而建議駕駛員選擇“CD上的歌曲n”做為所隨機選擇的另一動作。接著，直到指示建議的聲音之接受的聲音命令係從駕駛員輸入至代理ECU 100時，代理ECU 100以隨著其躍遷機率的機率密度上升來增強選擇動作之頻率的傾向，而依序地建議另一隨機選擇的動作至駕駛員。然後，當用以選擇“CD上的歌曲2”之建議被接受時，代理ECU 100自動地設定“CD上的歌曲2”做為聲音。以此方式，在其中如在例如，聲音之設定的情況中之難以指明建構動作空間的該等動作之何者將在目前狀態中由駕駛員所採取的情勢中，代理ECU 100更足以藉由從複數個候選來選擇目標動作，而做成與駕駛員的企圖匹配之用於車載組件的操作建議，且輸出此目標動作。

如上述地，依據本發明之本實施例，可獲得以下的功效。(1)當從透過增強學習所計算出的躍遷機率矩陣P(st，at)中之用於個別狀態的資訊熵H(s)之累計值所獲得的平均熵H(Ω)係小於隨機數δ時，代理ECU 100做成明確操作建議，而確定目標動作為操作建議的目標，且輸出此目標動作。因而，做成與駕駛員的企圖匹配之用於車載組件的操作建議，而無需駕駛員費心以選擇動作。另一方面，當從透過增強學習所計算出的躍遷機率矩陣P(st，at)中之用於個別狀態的資訊熵H(s)之累計值所獲得的平均熵H(Ω)係等於或大於隨機數δ時，代理ECU 100做成試誤操作建議，而從複數個候選來選擇目標動作，做為操作建議的目標，且輸出此目標動作。因而，更足以做成與駕駛員的企圖匹配之用於車載組件的操作建議。也就是說，一次僅輸出車載組件之操作的一個內容做為操作建議的目標，而不管平均熵H(Ω)是否大或小。因此，駕駛員僅必須表達他的(或她的)意志，也就是說，是否同意在每一個場合上所建議之車載組件的操作內容。因此，對諸如目的地的設定或聲音的再生之其平均熵H(Ω)的分散度係彼此相異之用於車載組件的不同類型之操作建議的回應，可使用操作輸入單元142做為同一簡單的使用者介面，而被一致地做成。因而，可做成與駕駛員的企圖匹配之用於車載組件的操作建議，且同時保持駕駛員免於負擔。

(2)當平均熵H(Ω)係小於隨機數δ時，則代理ECU 100做成明確操作建議，而以使目前狀態中之最佳動作值函數Q*(st，at)最大化的動作，亦即，在目前狀態中最有價值的且假定為最有可能由駕駛員所採取的動作，做為目標。因此，可以以更高的可靠度實現與駕駛員之企圖匹配的操作建議。

(3)當平均熵H(Ω)係等於或大於該隨機數δ時，代理ECU 100以隨著在目前狀態中的其機率分佈之機率密度高的動作，亦即，在目前狀態中可能由駕駛員所採取的動作，來增強選擇該動作之頻率的傾向做為目標，而做成試誤操作建議。因此，即使在其中難以預先指明目標車載組件之操作的此種情況下，仍可以以更高的可靠度實現與駕駛員之企圖匹配的操作建議。

(4)代理ECU 100以隨著當ε值增加時增強做成試誤操作建議之頻率的傾向，且同時使用其中設定平均熵H(Ω)的值做為ε值之ε貪心法則，來選擇明確操作建議或試誤操作建議。因此，在代理ECU 100中，當做為平均熵H之值的ε值增加時，亦即，當狀態空間的分散度增加時，選擇試誤操作建議之頻率將上升。同樣地，以此方式，在其中難以隨著資訊的提供而指明駕駛員之動作做為目標的此種情況下，仍可以以更高的可靠度實現與駕駛員之企圖匹配的操作建議。

(5)代理ECU 100藉由應用透過對操作建議之回應而從建構動作空間的動作選擇後所執行之動作的頻率，而設定報酬函數，做為關於駕駛員的企圖之用於車載組件的操作建議之適當度的指標，且亦在每次更新回應歷史(車載組件的操作歷史RA)時更新報酬函數。因此，可計算出其中建構動作空間之每個動作係在建構狀態空間的每個狀態中以隨著與駕駛員的企圖匹配之方式被執行的躍遷機率矩陣P(st，at)，且可以以當駕駛員的回應頻率增加時適合駕駛員個人的實際回應之方式來增強躍遷機率矩陣P(st，at)的準確度。

(6)代理ECU 100界定建構狀態空間的每個狀態，且同時考慮到諸如車載組件之操作情勢DA及DAα、車輛的乘客或乘客們之特徵DB及DBα、車輛之運轉情勢DC及DCα、及其類似者之會影響到用於車載組件的操作建議之種種元素。因此，可以以進一步適合實際環境的方式實現與駕駛員之企圖匹配的操作建議。附帶地，由於考慮到如上述之各種元素的緣故，建構狀態空間之狀態的數目亦被估計為極大的。在此方面，依據本發明之上述實施例，即使當極大數目的教師資料並未被事先製備時，與駕駛員之企圖匹配的操作建議亦可藉由使用其中企圖係隨著累積操作歷史RA以增強準確度而被做成之增強學習的方法而予以實現，有如使用例如，教師輔助學習的情況一樣地。

(第二實施例)接著，將參照圖式而敘述依據本發明之第二實施例的資訊提供裝置。附帶地，本發明的第二實施例與本發明的第一實施例不同，其中係根據與目前狀態對應之資訊熵的值以選擇明確操作建議或試誤操作建議，而取代獲得平均熵的值為用於個別狀態之資訊熵的值之總計。從而，在以下說明中，將主要地敘述與本發明的第一實施例之該等者不同的組態細節，以及將省略與本發明的第一實施例之該等者相同或等效的組態細節之冗餘描述。

第16圖顯示在本發明的本實施例中被使用以選擇明確操作建議或試誤操作建議之躍遷機率矩陣P(st，at)的實例。在該圖式中所示的實例中，例如，採取狀態si中之動作a1的機率係“0.03”。同一道理，採取狀態si中之動作a2的機率係“0.04”。同樣地，採取狀態si中之動作a100的機率係“0.02”。此外，當該等機率係由p所表示時，代理ECU 100使用第8圖中所示之表達式以計算出資訊熵H(s)的值。在此情況中，該等機率係均勻地分散，以致使資訊熵H(s)的值相對地大。

此外，由於相同的理由，在該圖式中所示的實例中，例如，採取狀態sj中之動作a1的機率係“0.6”。同一道理，採取狀態sj中之動作a2的機率係“0.02”。同樣地，採取動作a100的機率係“0.04”。此外，當該等機率係由p所表示時，代理ECU 100使用第8圖中所示之表達式以計算出資訊熵H(s)的值。在此情況中，該等機率係局部地(“動作a1”)偏動，以致使資訊熵H(s)的值相對地小。

然後，代理ECU 100大致地依據本發明之上述第一實施例中所使用的演算法，而使用其中與目前狀態對應之資訊熵H(s)的值係ε值之ε貪心法則，以產生用於車載組件的操作建議。因此，當與目前狀態對應之資訊熵 H(s)的值係如在其中目前狀態係第16圖中所示之狀態si的情況中一樣地相對大時，則代理ECU 100透過上述之式(6)的應用而增強做成試誤操作建議的頻率。另一方面，當與目前狀態對應之資訊熵H(s)的值係如在其中目前狀態係第16圖中所示之狀態sj的情況中一樣地相對小時，則代理ECU 100透過上述之式(5)的應用而增強做成明確操作建議的頻率。也就是說，即使在其中如在例如，目的地之設定的情況中當狀態空間被視為一整體時，平均熵H(Ω)的值係相對小的情況中，代理ECU 100仍將決定其中具有難以在目前狀態中指明建構動作空間之動作的何者將由駕駛員所唯一採取之情勢，且若對應目前狀態之資訊熵H(s)的值係等於或大於隨機數δ時，則做成試誤操作建議。此外，相反地，即使在其中如在例如，聲音之設定的情況中當狀態空間被視為一整體時，平均熵H(Ω)的值係相對大的情況中，代理ECU 100仍將決定其中具有易於在目前狀態中指明建構動作空間之動作的何者將由駕駛員所唯一採取之情勢，且若對應目前狀態之資訊熵H(s)的值係小於隨機數δ時，則做成明確操作建議。如前所述，代理ECU 100藉由單獨地及具體地考慮在目前狀態中易於被指明之駕駛員的動作，而以使進一步適合實際環境的方式，做成與駕駛員之企圖匹配之用於車載組件的操作建議。

如上述，依據本發明之第二實施例，可獲得除了本發明第一實施例的上述功效(1)之外的以下功效。(1A)當與目前狀態對應之資訊熵H(s)係在透過增強學習所計算出的躍遷機率矩陣P(st，at)中等於或大於隨機數δ時，代理ECU 100做成試誤操作建議而從複數個候選來選擇目標動作，且輸出此目標動作做為用於車載組件的操作建議。因而，將更充分地做成與駕駛員的企圖匹配之用於車載組件的操作建議。另一方面，當與目前狀態對應之資訊熵H(s)係在透過增強學習所計算出的躍遷機率矩陣P(st，at)中小於隨機數δ時，代理ECU 100做成明確操作建議而確定且輸出此目標動作做為用於車載組件的操作建議。因此，做成與駕駛員的企圖匹配之用於車載組件的操作建議，而無需駕駛員費心以選擇動作。也就是說，一次僅輸出車載組件之操作的一個內容做為操作建議的目標，而不管用於每個狀態之資訊熵H(s)是否大或小。因而，駕駛員僅必須表達他的(或她的)意志，也就是說，是否同意在每一個場合上所建議之車載組件的操作內容。因此，對諸如目的地的設定或聲音的再生之其資訊熵H(s)的分散度係彼此相異之用於車載組件的不同類型之操作建議的回應，可使用操作輸入單元142做為同一簡單的使用者介面，而被做成。因而，可做成與駕駛員的企圖匹配之用於車載組件的操作建議，且同時保持駕駛員免於負擔。此外，代理ECU 100根據與目前狀態對應之資訊熵H(s)的值來選擇試誤操作建議或明確操作建議，而不管當狀態空間被視為一整體時之界定當時之狀態空間的分散度之平均熵H(Ω)的值。因此，代理ECU 100可藉由單獨地及具體地考慮在目前狀態中易於被指明之駕駛員的動作，而以使進一步適合實際環境的方式，做成與駕駛員的企圖匹配之用於車載組件的操作建議。

(其他實施例)附帶地，亦可在以下模式中執行本發明之上述的各實施例。在本發明之上述第一實施例中，界定狀態空間之分散度的平均熵H(Ω)係藉由累計界定狀態空間之所有狀態的資訊熵H(s)，而被計算出。取代地，該平均熵H(Ω)可藉由累計界定狀態空間之一些狀態的資訊熵H(s)，而被計算出。

在本發明之上述第一實施例中，隨機數δ係使用做為將與平均熵H(Ω)比較的臨限值。因此，可做成更多種類的分配。惟，取代地，以減輕處理負荷的觀點而言，可使用固定值做為將與平均熵H(Ω)比較的臨限值。在此情況中，當平均熵H(Ω)係小於該固定值時，則明確操作建議可透過上述之式(5)的應用以予以做成，而當平均熵H(Ω)係等於或大於該固定值時，則試誤操作建議可透過上述之式(6)的應用以予以做成。

同樣地，在本發明之上述第二實施例中，隨機數δ係使用做為將與對應於目前狀態之資訊熵H(s)比較的臨限值。取代地，可使用固定值做為將與對應於目前狀態之資訊熵H(s)比較的臨限值。在此情況中，當資訊熵H(s)係小於該固定值時，則明確操作建議可透過上述之式(5)的應用以予以做成，而當對應於目前狀態之資訊熵H(s)係等於或大於該固定值時，則試誤操作建議可透過上述之式(6)的應用以予以做成。

在本發明之上述第一實施例中，狀態空間的分散度係根據藉由累計對應於建構該狀態空間之個別狀態的資訊熵H(s)所獲得的平均熵H(Ω)，而被評估。取代地，狀態空間的分散度可根據藉由累計用於建構該狀態空間之個別狀態的機率分佈之差異或標準偏差所獲得的值，而被評估。

同樣地，在本發明之上述第二實施例中，在目前狀態中之機率分佈的分散度係根據對應於目前狀態的資訊熵H(s)，而被評估。惟，取代地，在目前狀態中之機率分佈的分散度可根據在目前狀態中的的機率分佈之差異或標準偏差，而被評估。

在本發明之上述實施例的各者中，界定狀態之車輛資料的該等屬性包含車載組件之操作情勢DA及DAα、車輛的乘客(乘客們)之特徵DB及DBα、及車輛之運轉情勢DC及DCα上的車輛資料。本發明並未受限於此。其他元素可被採用做為界定狀態之車輛資料的該等屬性，只要該等元素有助於其中駕駛員操作該等車載組件的方式。

在本發明之上述實施例的各者中，在建構動作空間的個別動作中，使目前狀態中之最佳動作值函數Q*(st，at)最大化的動作，亦即，在目前狀態中最有價值的動作，係輸出做為操作建議的目標，當作明確操作建議。取代地，使目前狀態中之躍遷機率最大化的動作可被輸出做為操作建議的目標。簡言之，以被假定為最可能由駕駛員所採取的動作為目標係足以做成明確操作建議。

在本發明之上述實施例的各者中，滿足“F(s)=τ”的情形之動作係輸出做為操作建議的目標，當作試誤操作建議。取代地，當累積分佈函數F(s)係藉由置換按上升序而在某一狀態s中採取建構動作空間之個別動作的機率且添加該等機率而被獲得時，則滿足“F(s)τ”的情形之動作可被輸出做為操作建議的目標。此外，當累積分佈函數F(s)係藉由置換按下降序而在某一狀態s中採取建構動作空間之個別動作的機率且添加該等機率而被獲得時，則滿足“F(s)τ”的情形之動作可被輸出做為操作建議的目標。簡言之，以隨著目前狀態中的動作之機率分佈的機率密度上升來增強選擇該動作之頻率的此傾向，係足以做成試誤操作建議。

在本發明之上述實施例的各者中，做為對操作建議的回應之第12圖中所示的轉向開關142A中之第一操作按鈕BA1的操作次數，係設定當作增強學習中的報酬函數。取代地，藉由從第12圖中所示的轉向開關中之第一操作按鈕BA1的操作次數減去第二操作按鈕BA2的操作次數而被獲得的值，可予以設定當作增強學習中的報酬函數。此外，藉由從第一操作按鈕BA1的操作次數進一步地減去第三操作按鈕BA3的操作次數，或第四操作按鈕BA4的操作次數，而被獲得的值，亦可予以設定當作增強學習中的報酬函數。除此之外，藉由記錄回應於車載組件的操作建議之駕駛員操作的缺席次數做為日誌，且自第一操作按鈕BA1的操作次數減去被記錄做為日誌之此次數而被獲得的值，亦可予以設定當作增強學習中的報酬函數。而且，由駕駛員對於用於車載組件的操作建議之舒適及不舒服的感覺之發展的次數，可根據該駕駛員之生理信號或其類似者而予以測量，且該駕駛員之舒適的感覺之發展的次數可被設定做為增強學習中的報酬函數。此外，藉由從駕駛員之舒適的感覺之發展的次數減去駕駛員之不舒服的感覺之發展的次數，而被獲得的值，亦可予以設定當作增強學習中的報酬函數。簡言之，表示相對於駕駛員的企圖之用於車載組件的操作建議之適當度的指標可被設定做為增強學習中的報酬函數。

在本發明之上述實施例的各者中，其中轉向開關具有在操作車載組件中操作，而獨立於來自代理ECU 100的操作建議之外，及獨立於在對來自代理ECU 100的操作建議之回應中被操作的第一操作按鈕BA1及第二操作按鈕BA2之外的第三操作按鈕BA3及第四操作按鈕BA4已被描述做為實例。惟，應注意的是，可採用如第17圖中所示之其中僅具有在對來自代理ECU 100的操作建議之回應中被操作的第一操作按鈕BA1及第二操作按鈕BA2之轉向開關142B的組態，做為轉向開關的另一實例。此外，可採用如第18圖中所示之其中具有在啟動私人助理服務中被操作的第三操作按鈕BA3α，而取代第12圖中所示之透過由駕駛員自己的手動輸入而在操作車載組件中被操作之第三操作按鈕BA3的轉向開關142C之組態，做為轉向開關的另一實例。而且，同樣地，在此轉向開關142B或142C的組態中，來自駕駛員之對操作建議的回應可透過轉向開關142B或142C之操作而被偵測出，且被使用做為增強學習中的報酬函數。

在本發明之上述實施例的各者中，Q學習係執行當作增強學習的方法。取代地，例如，SARSA方法、行為者評論家方法、及其類似者之其他方法亦可被使用做為增強學習的方法。

Claims

一種資訊提供裝置，包含：代理電子控制單元(100)，包括狀態空間表(T1，T1α)，其係組構用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態，動作空間表(T2，T2α)，其係組構用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容，增強學習單元(111)，其係組構用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之效能的機率分佈，分散度計算單元(112)，其係組構用以計算該機率分佈的分散度，該機率分佈的該分散度係藉由該增強學習單元而予以計算，以及建議資訊產生單元(113)，其係組構用以當由該分散度計算單元所計算之該機率分佈的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出該目標動作，且當由該分散度計算單元所計算之該機率分佈的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出該目標動作。
一種資訊提供裝置，包含：代理電子控制單元(100)，包括狀態空間表(T1，T1α)，其係組構用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態，動作空間結構表(T2，T2α)，其係組構用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容，增強學習單元(111)，其係組構用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之效能的機率分佈，分散度計算單元(112)，其係組構用以藉由累計由該增強學習單元所計算之該機率分佈的該分散度，而計算出關於建構該狀態空間的複數個該等狀態之該狀態空間的分散度，以及建議資訊產生單元(113)，其係組構用以當由該分散度計算單元所計算之該狀態空間的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出該目標動作，且當由該分散度計算單元所計算之該狀態空間的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出該目標動作。
如申請專利範圍第2項之資訊提供裝置，其中該增強學習單元(111)係組構用以採用從建構該狀態空間的每個該等狀態到建構該動作空間之每個該等動作的映像做為策略，設定當在每個該等狀態中遵循該策略時所獲得之累積報酬的期望值作為狀態值函數(V(st))，假設該最佳策略係使建構該狀態空間之所有該等狀態中的該狀態值函數(V(st))最大化的該策略，而估計當在預定動作係選自建構該狀態空間的每個該等狀態中的該狀態空間之後遵循最佳策略時所一直獲得之累積報酬的期望值作為最佳動作值函數(Q*(st，at))，及根據該估計的最佳動作值函數而計算出該機率分佈，以及該建議資訊產生單元(113)係組構用以當由該分散度計算單元(112)所計算之該狀態空間的該分散度係小於該臨限值時，做成該明確操作建議而以使目前狀態中之該最佳動作值函數最大化的動作為目標。
如申請專利範圍第3項之資訊提供裝置，其中該建議資訊產生單元(113)係組構用於當由該分散度計算單元(112)所計算之該狀態空間的該分散度係等於或大於該臨限值時，以隨著在目前狀態中之該動作的該機率分佈之機率密度上升而增強選擇動作做為目標之頻率的傾向來做成該試誤操作建議。
如申請專利範圍第3或4項之資訊提供裝置，其中該分散度計算單元(112)係組構用以界定建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作的執行之該機率分佈的該分散度做為熵(H(s))，且界定該狀態空間的該分散度做為平均熵(H(Ω))，以及該建議資訊產生單元(113)係組構用以當使用其中設定該平均熵(H(Ω))的值為ε值之ε-貪心法則時，以隨著該ε值增加而增強做成該試誤操作建議之頻率的傾向來選擇該明確操作建議或該試誤操作建議。
如申請專利範圍第1或2項之資訊提供裝置，其中該增強學習單元(111)係組構用以透過對用於該車載組件之該操作建議的該駕駛員回應而設定執行該車載組件之該操作的頻率做為該報酬函數，且當該車載組件係依據用於該車載組件之該操作建議而被操作時，則依據該車載組件的該操作之操作歷史中的改變而更新該報酬函數。
如申請專利範圍第1或2項之資訊提供裝置，其中該狀態空間表(T1，T1α)係組構用以建構當作一組狀態的該狀態空間做為一群組的資料，其使該車載組件之操作情勢(DA，DAα)、該車輛的乘客或乘客們之特徵(DB，DBα)、及該車輛之運轉情勢(DC，DCα)彼此相關聯。
一種非暫態電腦可讀媒體，其儲存提供程式的資訊，包含：該資訊提供的程式，其係程式化以致使電腦實現狀態空間結構函數，用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態，動作空間結構函數，用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容，增強學習函數，用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之效能的機率分佈，分散度計算函數，用以計算該機率分佈的分散度，該機率分佈的該分散度係透過該增強學習函數而予以計算，以及資訊提供函數，用以當透過該分散度計算函數所計算之該機率分佈的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出該目標動作，且當透過該分散度計算函數所計算之該機率分佈的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出該目標動作。
一種非暫態電腦可讀媒體，其儲存提供程式的資訊，包含：該資訊提供的程式，其係程式化以致使電腦實現狀態空間結構函數，用以藉由使複數個類型的車輛資料彼此相關聯而界定車輛的狀態，且建構狀態空間當作一組複數個狀態，動作空間結構函數，用以界定資料做為動作，且建構動作空間當作一組複數個動作，該資料指示透過來自駕駛員對用於車載組件之操作建議的回應而被執行的該車載組件之操作的內容，增強學習函數，用以累積來自該駕駛員對用於該車載組件之該操作建議的該回應之歷史，設定報酬函數做為表示當使用該累積歷史時之用於該車載組件的該操作建議之適當度的指標，及透過根據該報酬函數的增強學習而計算在建構該狀態空間的每個該等狀態中之建構該動作空間之每個該等動作之效能的機率分佈，分散度計算函數，用以藉由累計透過該增強學習函數所計算之該機率分佈的該分散度，而計算出關於建構該狀態空間的複數個該等狀態之該狀態空間的分散度，以及資訊提供函數，用以當透過該分散度計算函數所計算之該狀態空間的該分散度係小於臨限值時，做成明確操作建議而確定目標動作為該操作建議的目標並輸出該目標動作，且當透過該分散度計算函數所計算之該狀態空間的該分散度係等於或大於該臨限值時，做成試誤操作建議而從複數個候選來選擇該目標動作為該操作建議的該目標並輸出該目標動作。