TW202128467A

TW202128467A - 控制車輛的方法、車輛控制器、和伺服器

Info

Publication number: TW202128467A
Application number: TW109142324A
Authority: TW
Inventors: 橋本洋介; 片山章弘; 大城裕太; 杉江和紀; 岡尚哉
Original assignee: 日商豐田自動車股份有限公司
Priority date: 2020-01-29
Filing date: 2020-12-02
Publication date: 2021-08-01
Also published as: SG10202012180WA; AU2020286176A1; CN113187613A; MX2021000952A; CA3102408A1; US20210229689A1; AU2020286176B2; JP2021116782A; PH12021050035A1; JP7314813B2

Abstract

記憶體儲存複數地圖資料片段。控制器的記憶體儲存地圖資料。控制器使用記憶體中之地圖資料執行用於操作內燃機的電子裝置之操作過程、及用於獲取車輛的狀況之獲取過程。控制器和伺服器執行資料改變過程，用於基於車輛的狀況選擇記憶體中所儲存之地圖資料片段的其中一者、並將所選擇之地圖資料儲存在記憶體中。

Description

控制車輛的方法、車輛控制器、和伺服器

本發明有關用於控制車輛的方法、車輛控制器、和伺服器。

日本未審查之專利申請公開案第2013-155632號(JP 2013-155632A)敘述車輛控制器的範例，該車輛控制器意欲當由於加速器踏板和制動踏板之間的錯誤踩踏操作而突然啟動車輛時，抑制車速中之增加。在此車輛控制器中，當加速器踏板於車輛起動處的操作量為等於或大於預定量時，控制車輛之動力源以減小其旋轉驅動力。

在車輛控制器中，當每次滿足於車輛起動處的加速器踏板之操作速率落在預定範圍內的學習條件時，將加速器踏板之操作量按順序地儲存於記憶體中。基於儲存在記憶體中的複數操作量得出學習值，並將其設置為預定量。例如，得出儲存在記憶體中之操作量的平均值作為學習值。

用於車輛行駛之加速器踏板操作中的習慣或偏好因人而異。當一使用者駕駛一台車輛時，如與複數使用者使用一台車輛之案例相比，儲存在記憶體中的操作量中之變動不太可能增加。因此，取決於使用者的習慣或偏好，預定量可集中在適當之值。其結果是，可準確地決定是否發生錯誤的踩踏操作。

當複數使用者依次駕駛車輛時，儲存於記憶體中之操作量可具有各種趨勢。在此案例中，儲存於記憶體中的操作量中之變動增加，且預定量不能設定為適合當前駕駛車輛的使用者之值。因此，有可能無法適當地決定是否發生錯誤的踩踏操作。

近年來，甚至當複數使用者使用一台車輛時，亦需要取決於使用者之習慣或偏好來提供適當的車輛控制。

本發明之第一態樣有關用於控制車輛的方法，所述方法包括：使用儲存在第一記憶體中之操作資料來操作車輛的電子裝置，操作資料係定義所述車輛的狀況和與電子裝置之操作有關的動作變數之間的關係之關係定義資料、或基於所述關係定義資料而創建的控制映射資料，所述關係定義資料係藉由執行以下者所獲得：在電子裝置之操作期間，基於車輛的狀況，當車輛之特性滿足預定準則時比當車輛的特性不滿足預定準則時給予更高效益之過程，其係基於藉由車輛的狀況和關係定義資料所決定的動作變數之值；及藉由將電子裝置之操作期間的車輛狀況輸入預定的更新映射、在電子裝置之操作中所使用的動作變數之值、及與操作相關聯的效益，來更新關係定義資料之過程，更新映射建構為輸出所述關係定義資料，當電子裝置係基於關係定義資料操作時更新所述關係定義資料以增加用於所述效益的期望報酬；基於來自車輛中所設置之感測器的偵測值來獲取車輛之狀況；及基於車輛的獲取狀況，選擇在第二記憶體中所儲存之操作資料片段的其中一者，並將所選擇之操作資料片段儲存於第一記憶體中，在第二記憶體中所儲存的操作資料片段分別係藉由變動預定準則而更新之複數關係定義資料片段、或基於關係定義資料片段而創建的複數控制映射資料片段。

根據上述態樣，第二記憶體分別儲存藉由變動預定準則而經過強化學習輸出之複數關係定義資料片段、或基於關係定義資料片段所創建的複數控制映射資料片段作為操作資料。基於當經過操作過程來操作電子裝置時所獲取之車輛的狀況來選擇儲存在第二記憶體中之操作資料片段的其中一者。所選擇之操作資料係儲存於第一記憶體中。

車輛的狀況反映當前駕駛車輛之使用者的習慣或偏好。因此，基於車輛狀況所選擇之操作資料可被視為取決於當前駕駛車輛的使用者之習慣或偏好的資料。

第一記憶體儲存基於車輛狀況之操作資料，且使用操作資料來操作電子裝置。因此，可取決於當前駕駛車輛的使用者之習慣或偏好來施行車輛控制。

根據上述態樣，甚至當複數使用者使用一台車輛時，可取決於使用者的習慣或偏好來提供適當之車輛控制。在以上態樣中，儲存於第二記憶體中的操作資料片段可包括；第一操作資料，其係使用與加速器響應有關的參數為等於或大於與加速器響應有關之閾值的準則作為預定準則來更新之資料；及第二操作資料，其係使用與車輛的能量使用效率有關之參數為等於或大於與能量使用效率有關的閾值之準則作為預定準則來更新的資料。

根據上述態樣，當駕駛車輛之使用者施行其中加速器響應優先於車輛的能量使用效率之車輛操作時，第一操作資料儲存在第一記憶體中，並可使用第一操作資料來操作電子裝置。當駕駛車輛的使用者施行其中能量使用效率優先於加速器響應之車輛操作時，第二操作資料儲存在第一記憶體中，且可使用第二操作資料來操作電子裝置。

於以上態樣中，車輛的狀況可包括加速器操作量中之變化率。當使用者操作加速器踏板時，加速器操作量中的變化率傾向於反映使用者之習慣或偏好。根據上述態樣，獲取加速器操作量中的變化率作為車輛之狀況，並可基於車輛的狀況選擇在第二記憶體中所儲存之操作資料片段的其中一者，且儲存於第一記憶體中。因此，可向使用者提供反映使用者之習慣或偏好的車輛控制。

在以上態樣中，車輛之狀況可包括車輛的加速度。例如，當使用者操作加速器踏板時，隨著加速器操作量中之變化率增加，車輛的加速度傾向於增加。亦即，當使用者操作加速器踏板以使車輛加速時，車輛之加速度傾向於反映使用者的習慣或偏好。根據上述態樣，獲取車輛之加速度作為車輛的狀況，並可基於車輛之狀況選擇在第二記憶體中所儲存的操作資料片段之其中一者並儲存於第一記憶體中。因此，可向使用者提供反映使用者的習慣或偏好之車輛控制。

在以上態樣中，可使用儲存於車輛中所設置的第一記憶體中之操作資料藉由車輛中所設置的第一處理器來操作車輛之電子裝置；可藉由第一處理器獲取基於來自車輛中所設置的感測器之偵測值的車輛狀況；第二記憶體可提供在車輛外側；可藉由提供於車輛外側之第二處理器來選擇在第二記憶體中所儲存的操作資料片段之其中一者作為所選擇的操作資料片段；第二處理器可將所選擇之操作資料片段傳輸至車輛；第一處理器可執行造成車輛接收從第二處理器所傳輸之操作資料的過程；及第一處理器可執行將所接收之操作資料儲存於第一記憶體中的過程。

根據上述態樣，儲存操作資料片段之第二記憶體未提供在車輛中。因此，如與於車輛中提供第二記憶體的案例相比，可減小車載裝置上之控制載荷。

本發明的第二態樣有關車輛的控制器，所述控制器包括：第一記憶體，提供在車輛中並建構為儲存使用於操作車輛的電子裝置之操作資料，所述操作資料係定義車輛的狀況和與電子裝置之操作有關的動作變數之間的關係之關係定義資料、或基於關係定義資料所創建的控制映射資料；及第一處理器，提供在車輛中，並建構為：使用第一記憶體中所儲存之操作資料來操作車輛的電子裝置；基於來自車輛中所設置之感測器的偵測值來獲取車輛之狀況；造成車輛接收基於車輛所獲取的狀況而選擇並儲存在車輛外側所提供之第二記憶體中的操作資料；及將所接收之操作資料儲存於第一記憶體中。在上述態樣中，選自第二記憶體中所儲存的複數操作資料片段並儲存在第一記憶體中之操作資料可為關係定義資料；第一處理器可建構為：藉由執行以下者來更新第一記憶體中所儲存的關係定義資料：效益計算過程，用於在電子裝置之操作期間，基於車輛的狀況，當車輛之特性滿足預定準則時比當車輛的特性不滿足預定準則時給予更高效益，其係基於藉由車輛的狀況和關係定義資料所決定的動作變數之值；及更新過程，用於藉由將電子裝置之操作期間的車輛狀況輸入預定的更新映射、在電子裝置之操作中所使用的動作變數之值、及與操作相關聯的效益來更新所述關係定義資料；和基於藉由所獲取之車輛狀況和第一記憶體中所儲存的關係定義資料所決定之動作變數的值，來操作電子裝置；和更新映射建構為輸出關係定義資料，當電子裝置係基於關係定義資料操作時更新所述關係定義資料以增加用於效益之期望報酬。

根據上述態樣，在選自第二記憶體中所儲存的關係定義資料片段之資料係儲存於第一記憶體中之後，控制器對第一記憶體中的關係定義資料施行強化學習。因此，可取決於當前駕駛車輛之使用者的習慣或偏好來施行更適當之車輛控制。

本發明的第三態樣有關伺服器，所述伺服器包括：記憶體，建構為儲存複數操作資料片段，所述複數操作資料片段建構為使用於操作車輛之電子裝置，所述操作資料係定義車輛的狀況和與電子裝置之操作有關的動作變數之間的關係之關係定義資料、或基於關係定義資料所創建的控制映射資料，關係定義資料係藉由執行以下者所獲得：在電子裝置之操作期間，基於車輛的狀況，當車輛之特性滿足預定準則時比當車輛的特性不滿足預定準則時給予更高效益之過程，其係基於藉由車輛的狀況和關係定義資料所決定的動作變數之值；及藉由將電子裝置之操作期間的車輛狀況輸入預定的更新映射、在電子裝置之操作中所使用的動作變數之值、及與操作相關聯的效益，來更新關係定義資料之過程，更新映射建構為輸出關係定義資料，當電子裝置係基於關係定義資料操作時更新所述關係定義資料以增加用於效益的期望報酬；及處理器，建構為從複數操作資料片段選擇一操作資料片段，並將所選擇之操作資料片段傳輸至車輛。

第一實施例

下面參考附圖敘述根據第一實施例的用於控制車輛之方法、車輛的控制器、和伺服器。

圖1說明用作車輛之控制器的控制器70和包括控制器70之車輛VC1的驅動系統之組構。如圖1中所說明，車輛VC1包括作為車輛VC1的推進力產生器之內燃機10。內燃機10的進氣通道12從上游側依次設有節流閥14和燃料噴射閥16。藉由打開進氣閥18，吸入進氣通道12之空氣和從燃料噴射閥16噴射的燃料流入藉由汽缸20和活塞22所界定之燃燒室24。在燃燒室24中，含有空氣和燃料的空氣-燃料混合物係藉由點火裝置26經過火花放電而燃燒。藉由燃燒空氣-燃料混合物所產生之能量經由活塞22轉換為曲柄軸28的旋轉能量。所燃燒之空氣-燃料混合物係藉由打開排氣閥30排放進入排氣通道32作為廢氣。排氣通道32設有催化劑34，其作為建構來控制廢氣的後處理裝置。

變速箱50之輸入軸桿52可經由包括鎖止離合器42的扭矩轉換器40機械地耦接至曲柄軸28。變速箱50可改變齒輪比，所述齒輪比係輸入軸桿52之轉速和輸出軸桿54的轉速之間的比值。驅動輪60機械地耦接至輸出軸桿54。

控制器70控制內燃機10，且操作內燃機10之操作單元、例如節流閥14、燃料噴射閥16、和點火裝置26，以控制例如扭矩和廢氣成分比，所述扭矩和廢氣成分比係內燃機10的控制量。控制器70控制扭矩轉換器40，並操作鎖止離合器42以控制鎖止離合器42之嚙合狀況。控制器70控制變速箱50，且操作變速箱50以控制齒輪比作為其控制量。圖1說明用於節流閥14、燃料噴射閥16、點火裝置26、鎖止離合器42、和變速箱50的操作信號MS1至MS5。由控制器70輸入操作信號MS1至MS5之操作單元係“電子裝置”的範例。

為了控制所述控制量，控制器70參考進氣量Ga、節流閥開度TA、和來自曲柄角感測器84之輸出信號Scr。進氣量Ga係藉由空氣流量計80所偵測。節流閥開度TA係藉由節流閥感測器82所偵測的節流閥14之開度。控制器70參考加速器操作量PA和車輛VC1的前後方向中之加速度Gx。加速器操作量PA係加速器踏板86的下壓量，並藉由加速度感測器88所偵測。加速度Gx係藉由加速度感測器90所偵測。控制器70參考齒輪比GR和車速V。齒輪比GR係藉由換檔位置感測器94所偵測。車速V係藉由車速感測器96所偵測。

控制器70包括中央處理單元(CPU)72、唯讀記憶體(ROM)74、作為電可重寫非揮發性記憶體之記憶體76、通訊裝置77、和週邊電路78，它們可經由區域網路79彼此通訊。週邊電路78包括建構為產生用於定義內部操作的時鐘信號之電路、電源電路、和重置電路。

ROM 74儲存控制程式74a。記憶體76儲存地圖資料DM。地圖資料DM的輸出變數係節流閥開度命令值TA*和齒輪比命令值GR*。節流閥開度命令值TA*係節流閥開度TA之命令值。齒輪比命令值GR*係齒輪比GR的命令值。地圖資料DM係其輸入變數為當前齒輪比GR、車速V、和加速器操作量PA之時間序列資料，且其輸出變數為節流閥開度命令值TA*和齒輪比命令值GR*的地圖。

如圖2中所說明，通訊裝置77經由提供在車輛VC1外側之網絡120與提供於車輛VC1外側的伺服器130通訊。伺服器130分析從複數車輛VC1、VC2等所傳輸之資料。伺服器130包括CPU 132、ROM 134、作為電可重寫非揮發性記憶體的記憶體136、週邊電路138、和通訊裝置137，它們可經由區域網路139彼此通訊。ROM 134儲存控制程式134a。記憶體136儲存地圖資料DM。在此實施例中，記憶體136儲存響應導向之地圖資料DM1和能量效率導向的地圖資料DM2作為地圖資料DM。

圖3說明建構為產生地圖資料DM之系統。於圖3所說明的系統中，測力計100係經由扭矩轉換器40和變速箱50機械地耦接至內燃機10之曲柄軸28。感測器單元102當內燃機10操作時偵測各種狀態變數，且將偵測結果輸入至產生器110，產生器係建構為產生地圖資料DM的電腦。感測器單元102包括安裝在圖1中所說明之車輛VC1上的感測器。

產生器110包括CPU 112、ROM 114、作為電可重寫非揮發性記憶體之記憶體116、及週邊電路118，它們可經由區域網路119彼此通訊。記憶體116儲存地圖資料DM。在此實施例中，記憶體116儲存響應導向的地圖資料DM1和能量效率導向之地圖資料DM2作為地圖資料DM。ROM 114儲存用於經過強化學習來訓練稍後敘述的關係定義資料DR之學習程式114a。

圖4說明藉由產生器110所執行的過程之程序。以使得CPU 112執行在ROM 114中所儲存的學習程式114a之方式實現圖4中所說明的一系列過程。於下文中，藉由以“S”前綴之編號表示每一過程的步驟編號。

在圖4中所說明之一系列過程中，CPU 112設定優先因素VA的值(S10)。優先因素VA使用於決定稍後敘述之出自響應導向的定義資料DR1和能量效率導向之定義資料DR2的任何關係定義資料之訓練。例如，當優先因素VA為“1”時，訓練響應導向的定義資料DR1，而當優先因素VA為“2”時，訓練能量效率導向之定義資料DR2。

關係定義資料DR定義作為狀態變數的加速器操作量PA、車速V、和齒輪比GR之時間序列資料與作為動作變數的節流閥開度命令值TA*和齒輪比命令值GR*之間的關係。關係定義資料DR係經過強化學習而得出。響應導向之定義資料DR1係經過強化學習而得出的關係定義資料DR，使得加速器響應中之增加、亦即車輛的加速性能具有優先於車輛之能量使用效率中的增加。能量效率導向之定義資料DR2係經過強化學習而得出的關係定義資料，使得車輛之能量使用效率中的增加具有優先於加速器響應中之增加。

在操作內燃機10的狀態中，CPU 112獲取車速V、當前齒輪比GR、和包括加速器操作量PA(S12)之六個抽樣值“PA(1), PA(2), ...PA(6)”作為狀態“s”。時間序列資料中的抽樣值係於不同的時序抽樣。在本實施例中，當於恆定之抽樣週期中抽樣諸值時，時間序列資料包括在時間序列中彼此相鄰的六個抽樣值。於圖3所說明之系統中，不存在加速器踏板86。因此，產生器110藉由模擬車輛VC1的狀況來產生虛擬之加速器操作量PA，且基於來自感測器的偵測值，將所產生之虛擬的加速器操作量PA視為車輛之狀況。假設車輛實際存在，CPU 112將車速V計算為車輛的行駛速率。於此實施例中，基於來自感測器之偵測值，將車速V視為車輛的狀況。明確地是，CPU 112基於來自曲柄角感測器84之輸出信號Scr來計算曲柄軸28的轉速NE，並基於轉速NE和齒輪比GR來計算車速V。

其次，取決於經過S12之過程所獲取的狀態“s”，基於藉由與經過S10(S14)的過程所設定之優先因素VA的值相關聯之響應導向的定義資料DR1或能量效率導向之定義資料DR2所決定的策略π，CPU 112設定包括節流閥開度命令值TA*和齒輪比命令值GR*之動作“a”。

在此實施例中，關係定義資料DR定義動作值函數Q和策略π。於此實施例中，動作值函數Q係表格型函數，其取決於狀態“s”和動作“a”的10維獨立變數顯示期望收益之值。策略π定義以下規則：當給定狀態“s”時，優先從動作值函數Q選擇最佳動作“a”(渴望的動作)，其中獨立變數指示給定狀態“s”，但是以預定之概率選擇任何其他動作“a”。

明確地是，根據此實施例的動作值函數Q之獨立變數的可能值之數目係狀態“s”和動作“a”的可能值之所有組合為基於人類知識等局部減少。例如，對於加速器操作量PA的時間序列資料中之二相鄰抽樣值的其中一者係加速器操作量PA之最小值且另一者係加速器操作量PA的最大值之案例，沒有定義任何作用值函數Q。這是由於加速器踏板86的人為操作不會發生此案例。例如，當目前之齒輪比GR係第二檔時，用作動作“a”的可能齒輪比命令值GR*限於第一檔、第二檔、和第三檔，以避免從第二檔至第四檔之齒輪比GR中的突然變化。亦即，當用作狀態“s”之齒輪比GR為第二檔時，對於第四檔或更高檔沒有定義任何動作“a”。在本實施例中，經過基於人類知識等的降維，定義作用值函數Q的獨立變數之可能值的數目受限於10⁵ 或更小、或期望地為10⁴ 或更小。

其次，基於所設定之節流閥開度命令值TA*和所設定的齒輪比命令值GR*，CPU 112將操作信號MS1輸出至節流閥14以操縱節流閥開度TA，並向變速箱50輸出操作信號MS5以操縱齒輪比(S16)。其次，CPU 112獲取轉速NE、齒輪比GR、內燃機10之扭矩Trq、用於內燃機10的扭矩命令值Trq*、和加速度Gx(S18)。CPU 112基於藉由測力計100所產生之負載扭矩和變速箱50的齒輪比來計算扭矩Trq。基於加速器操作量PA和齒輪比GR來設定扭矩命令值Trq*。既然齒輪比命令值GR*係加強學習之動作變數，齒輪比命令值GR*並非總是將扭矩命令值Trq*設定為等於或小於最大扭矩的值，所述最大扭矩可在內燃機10中達成。因此，扭矩命令值Trq*並非總是等於或小於可在內燃機10中達成之最大扭矩。CPU 112基於測力計100的負載扭矩等來計算加速度Gx，所述加速度Gx作為當內燃機10等安裝在車輛上時在車輛中產生加速度Gx之假設下所估計的值。亦即，本實施例之加速度Gx亦係虛擬值，但是基於來自感測器的偵測值而認為是車輛之狀況。

其次，CPU 112決定是否由在稍後敘述的S10之過程的執行時序和S22之過程的執行時序之較晚者過去預定週期(S20)。當CPU 112決定預定週期過去時(S20：是)，CPU 112經過強化學習來更新關係定義資料DR(S22)。

圖5說明S22的過程之細節。於圖5中所說明的一系列過程中，CPU 112獲取四組時間序列資料、及狀態“s”和動作“a”之時間序列資料(S30)，所述四組時間序列資料包括一組轉速NE的抽樣值、一組扭矩命令值Trq*之抽樣值、一組扭矩Trq的抽樣值、及一組在預定週期中之加速度Gx的抽樣值。於圖5中，括號中之不同數字表示於不同抽樣時序的變數。例如，就其抽樣時序而論，扭矩命令值Trq*(1)和扭矩命令值Trq*(2)彼此不同。在預定週期中之動作“a”的時間序列資料定義為動作組Aj。於預定週期中之狀態“s”的時間序列資料定義為狀態組Sj。

其次，CPU 112決定狀況(I)和狀況(II)之邏輯積是否為真(S36)。狀況(I)係在預定週期中的任意扭矩Trq和任意扭矩命令值Trq*之間的差之絕對值係等於或小於指定量ΔTrq。狀況(II)係預定週期內中的任意加速度Gx等於或大於下限值GxL，且等於或小於上限值GxH。

CPU 112基於在場景開始時之優先因素VA的值和每單位時間來自加速器操作量PA之變化量ΔPA而可變地設定指定量ΔTrq。當變化量ΔPA的絕對值為大時，CPU 112決定場景係處於暫態期中，並將指定量ΔTrq設定為比場景處於規則週期中之案例更大的值。當優先因素VA之值指示加強學習時，其中車輛的能量使用效率中之增加優先於加速器響應中的增加，則CPU 112將指定量ΔTrq設定為比優先因素VA之值指示強化學習的案例下更大之值，其中加速器響應中的增加優先於車輛之能量使用效率中的增加。在其中加速器響應中之增加具有優先權的強化學習之案例下，於預定週期中的任意扭矩Trq和任意扭矩命令值Trq*之間的差之絕對值係與加速器響應有關的參數之範例，且指定量ΔTrq係與加速器響應有關的參數用之閾值的範例。在能量使用效率中之增加具有優先權的強化學習之案例下，於預定週期中的任意扭矩Trq和任意扭矩命令值Trq*之間的差之絕對值係與能量使用效率有關的參數之範例，且指定量ΔTrq係用於與能量使用效率有關的參數之閾值的範例。

CPU 112基於場景開始時來自加速器操作量PA之變化量ΔPA來可變地設定下限值GxL。當場景處於暫態期且變化量ΔPA為正時，CPU 112將下限值GxL設定為比場景處於規則週期的案例更大之值。當場景處於暫態期且變化量ΔPA為負時，CPU 112將下限值GxL設定為比場景處於規則週期的案例中之下限值小。

CPU 112基於從場景開始時的加速器操作量PA之每單位時間的變化量ΔPA來可變地設定上限值GxH。當場景處於暫態期且變化量ΔPA為正時，CPU 112將上限值GxH設定為比場景處於規則週期之案例更大的值。當場景處於暫態期且變化量ΔPA為負時，CPU 112將上限值GxH設定為比場景處於規則週期之案例下較小的值。

CPU 112基於優先因素VA之值可變地設定下限值GxL和上限值GxH。當優先因素VA的值指示其中加速器響應中之增加優先於車輛的能量使用效率中之增加的強化學習時，CPU 112設定下限值GxL和上限值GxH，使得暫態期中之加速度Gx的絕對值大於優先因素VA之值指示強化學習的案例，其中車輛之能量使用效率中的增加優先於加速器響應中之增加。在其中加速器響應中的增加具有優先權之強化學習的案例下，加速度Gx係與加速器響應有關之參數的範例，且上限值GxH和下限值GxL係與加速器響應有關之參數的閾值之範例。於其中能量使用效率中的增加具有優先權之強化學習的案例下，加速度Gx係與能量使用效率有關之參數的範例，且上限值GxH和下限值GxL係用於與能量使用效率有關之參數的閾值之範例。

當CPU 112決定邏輯積為真(S36：是)時，CPU 112將正值α設定為效益“r”(S38)。當CPU 112決定邏輯積為假時(S36：否)，CPU 112將負值β設定為效益“r”(S40)。S36至S40的過程係用於當滿足預定準則時給予比當不滿足所述準則時之效益更高的效益之過程。在此實施例中，如上所述，取決於優先因素VA的值來改變準則。

CPU 112更新儲存在圖3中所說明之記憶體116中的關係定義資料DR。於此實施例中，使用用於ε-軟策略之策略上的蒙特卡洛(Monte Carlo)方法。亦即，CPU 112將效益“r”添加至藉由每一組狀態和相關聯之動作所決定的每一報酬R(Sj, Aj)，所述狀態和相關聯之動作係經過S30的過程讀取(S46)。符號“R(Sj, Aj)”共同地表示報酬R，每一報酬R藉由作為狀態群組Sj之一元素的狀態和作為動作群組Aj的之一元素的動作所決定。其次，CPU 112對報酬R(Sj, Aj)求平均，每一報酬R(Sj, Aj)藉由經過S30之過程所讀取的一組狀態和相關聯之動作來決定，並將結果代入相關聯的動作值函數Q(Sj, Aj) (S48)。求平均可為將經過S46之過程所計算的報酬R除以執行步驟S46之過程的次數之過程。報酬R的初始值可為“0”。

其次，在與經過S30的過程所讀取之狀態相關聯的動作值函數Q(Sj, Aj)之中的最大值處，CPU 112將作為一組節流閥開度命令值TA*和齒輪比命令值GR*之動作代入動作Aj*。符號“A”表示可能的任意動作。動作Aj*之值取決於經過S30的過程所讀取之狀態的類型而變動，但是為了簡化而使用相同之符號。

當完成S52的過程時，CPU 112暫時終止圖5中所說明之一系列過程。返回圖4，當完成S22的過程時，CPU 112決定動作值函數Q是否收斂(S24)。當經過S22之過程的動作值函數Q之更新量的連續次數係等於或小於抵達預定次數之預定值時，CPU 112可決定動作值函數Q收斂。當CPU 112決定動作值函數Q未收斂時(S24：否)、或當S20的過程中之決定結果為否定時，CPU 112返回至S12的過程。當CPU 112決定動作值函數Q收斂時(S24：是)，CPU 112決定是否滿足終止狀況(S26)。在此實施例中，終止狀況包括當更新響應導向之定義資料DR1時S24的過程中之判定結果為肯定的狀況、及當更新能量效率導向之定義資料DR2時S24的過程中之判定結果為肯定的狀況兩者。

當不滿足終止狀況時(S26：否)，CPU 112返回至S10之過程，並改變優先因素VA。例如，當優先因素VA係“1”時，CPU 112將優先因素VA從“1”改變為“2”。當滿足終止狀況時(S26：是)，CPU 112創建地圖資料DM。亦即，CPU 112基於響應導向的定義資料DR1創建響應導向之地圖資料DM1，並基於能量效率導向的定義資料DR2創建能量效率導向之地圖資料DM2 (S28)。在基於關係定義資料DR所創建的地圖資料DM中，狀態“s”是以一對一之關係而與使期望報酬最大化的動作變數之值相關聯。因此，地圖資料DM使用狀態“s”作為輸入，並輸出使期望報酬最大化的動作變數之值。CPU 112將所創建的地圖資料DM儲存在記憶體116中。當儲存地圖資料DM時，CPU 112終止於圖4中所說明之一系列過程。

在此實施例中，伺服器130的記憶體136儲存地圖資料DM，亦即，經過涉及圖4中所說明之一系列過程的執行之強化學習而創建的響應導向之地圖資料DM1和能量效率導向的地圖資料DM2。亦即，伺服器130可提供藉由用於與伺服器130通訊之車輛VC1、VC2等的產生器110所產生之地圖資料DM。

圖6說明藉由控制器70所執行以控制車輛VC1的過程之程序。圖6中所說明的一系列過程係以使得CPU 72例如在每一預定週期中重複地執行儲存於ROM 74中之控制程式74a的方式實現。

在圖6中所說明之一系列過程中，CPU 72類似於圖4中的S12之過程獲取車速V、當前齒輪比GR、及包括加速器操作量PA的六個抽樣值“PA(l), PA(2), ... PA(6)”之時間序列資料(S60)。CPU 72使用在記憶體76中所儲存的地圖資料DM來計算節流閥開度命令值TA*和齒輪比命令值GR*(S62)。當記憶體76將響應導向之地圖資料DM1儲存作為地圖資料DM，CPU 72使用響應導向的地圖資料DM1施行計算。當記憶體76將能量效率導向之地圖資料DM2儲存作為地圖資料DM時，CPU 72使用能量效率導向的地圖資料DM2施行計算。地圖計算可能以下面之過程施行。例如，當輸入變數的值與地圖資料DM中之輸入變數的任何值匹配時，地圖資料DM中之相關聯的輸出變數之值係輸出作為計算結果。當輸入變數的值不匹配時，則地圖資料DM中的輸出變數之值的複數組之間的內插值係輸出作為計算結果。

CPU 72向節流閥14輸出操作信號MS1以操縱節流閥開度TA，並向變速箱50輸出操作信號MS5以操縱齒輪比(S64)。此實施例示範用於造成節流閥開度TA跟隨節流閥開度命令值TA*之反饋控制。即使節流閥開度命令值TA*相等，操作信號MS1可彼此不同。當完成S64的過程時，CPU 72暫時終止圖6中所說明之一系列過程。

於此實施例中，當啟動內燃機10時，執行估計過程以基於車輛的使用者操作(例如，加速器之操作)來估計使用者的習慣或偏好。在內燃機10之啟動處儲存於記憶體76中的地圖資料DM係例如在車輛VC1之前次行程結束時儲存於記憶體76中的地圖資料DM。當經過估計過程估計當前駕駛車輛VC1之使用者的習慣或偏好時，估計結果係傳輸至伺服器130。車輛VC1接收基於估計結果所創建之地圖資料DM。車輛VC1的控制器70之記憶體76儲存所接收的地圖資料DM。圖7說明藉由控制器70執行過程以達成上述過程之程序。圖7中所說明的一系列過程係以使得CPU 72重複執行ROM 74中所儲存之控制程式74a的方式實現。在此實施例中，當於內燃機10正在操作之情況下操作加速器踏板86且變速檔是係驅動檔(D檔)時執行此過程。

於圖7所說明的一系列過程中，CPU 72決定車輛VC1是否隨著加速器操作量PA中之增加而加速(S70)。例如，當車輛VC1的加速度Gx等於或大於加速度閾值GxTh時，CPU 72決定車輛VC1正在加速，而當車輛VC1之加速度Gx小於加速度閾值GxTh時，CPU 72不決定車輛VC1正在加速。於此案例中，將加速度閾值GxTh設定為當藉由駕駛員未操作加速器踏板86時無法達到的值。當CPU 72未決定車輛VC1正在加速時(S70：否)，CPU 72暫時終止圖7中所說明之一系列過程。當藉由使用者完成加速器踏板86的當前操作且使用者開始下一次操作加速器踏板86時，開始圖7中所說明之一系列過程。

當CPU 72決定車輛VC1正在加速時(S70：是)，CPU 72獲取加速器操作量PA的時間序列資料(S72)。時間序列資料中之抽樣值係於不同的時序抽樣。在此實施例中，當於恆定抽樣週期中抽樣諸值時，時間序列資料包括在時間序列中彼此相鄰之六個抽樣值。此時，CPU 72設定參考時序，所述參考時序係從加速度Gx小於加速度閾值GxTh的狀態轉變至加速度Gx等於或大於加速度閾值GxTh之狀態的時序，並在基準時序獲取包括加速器操作量PA之時序資料。明確地是，CPU 72獲取加速器操作量PA的時序資料，使得所述時序資料包括於參考時序之前的加速器操作量PA及在參考時序處之加速器操作量PA。因此，加速器操作量PA的時間序列資料反映加速器操作量PA如何改變以增加所述加速度Gx。當獲取加速器操作量PA之時間序列資料時，CPU 72將抽樣計數Smp增加“1”(S74)。CPU 72決定抽樣計數Smp是否等於或大於抽樣計數閾值SmpTh(S76)。等於或大於“2”的值(例如，“4”)係預設為抽樣計數閾值SmpTh。當加速器操作量PA之時間序列資料的抽樣計數Smp等於或大於抽樣計數閾值SmpTh時，可決定獲取足夠數量之樣本以估計使用者的習慣或偏好。當抽樣計數Smp小於抽樣計數閾值SmpTh時，可決定樣本數量不足以估計使用者之習慣或偏好。因此，當抽樣計數Smp係小於抽樣計數閾值SmpTh(S76：否)時，CPU 72暫時終止圖7中所說明的一系列過程。當藉由使用者完成加速器踏板86之當前操作且使用者下一次開始加速器踏板86的操作時，開始圖7中所說明之一系列過程。

當抽樣計數Smp等於或大於抽樣計數閾值SmpTh時(S76：是)，CPU 72基於所獲取的加速器操作量PA之系列資料複數片段來估計當前駕駛車輛VC1的使用者之習慣或偏好(S78)。例如，CPU 72估計使用者是否給予加速器響應的等級優先於車輛之能量效率的等級、或給予車輛之能量效率的等級優先於加速器響應之等級。在此案例中，CPU 72可基於加速器操作量PA的所獲取時間序列資料來推導加速器操作量PA中之增加率，並基於推導的結果進行決定。明確地是，當可決定加速器操作量PA中之增加率高時，CPU 72可決定使用者給予加速器響應的等級優先於車輛之能量效率的等級。當可決定加速器操作量PA中之增加率低時，CPU 72可決定使用者給予車輛的能量效率之等級優先於加速器響應的等級。

其次，CPU 72經由通訊裝置77將經過S78之過程所獲得的估計結果傳輸至伺服器130(S80)。CPU 72決定是否從伺服器130接收到地圖資料DM作為對估計結果之傳輸的答复(S82)。當未接收到地圖資料DM時(S82：否)，CPU 72重複S82之過程，直至接收到地圖資料DM。當接收到地圖資料DM時(S82：是)，CPU 72將記憶體76中所儲存的地圖資料DM替換為從伺服器130接收之地圖資料DM(S84)。CPU 72將抽樣計數Smp重置為“0”(S86)，並終止圖7中所說明的一系列過程。當替換記憶體76中之地圖資料DM時，圖7中所說明的一系列過程在車輛之當前行程期間不再執行。

圖8說明藉由與車輛VC1通訊的伺服器130所執行之過程的流程。圖8中所出說明之一系列過程係以使得CPU 132重複地執行ROM 134中所儲存的控制程式134a之方式來實現。

於圖8中所說明的一系列過程中，CPU 132決定是否接收到駕駛車輛VC 1之使用者的習慣或偏好之估計結果、亦即經過圖7中的S80之過程所傳輸的資料(S90)。當未接收到資料時(S90：否)，CPU 132重複S90之過程，直至接收到資料。當接收到資料時(S90：是)，CPU 132從儲存在記憶體136中的複數地圖資料DM1和DM2片段選擇適合於使用者之習慣或偏好的資料(S92)。當駕駛車輛VC1之使用者對加速器響應給予優先權時，CPU 132選擇響應導向的地圖資料DM1。當駕駛車輛VC1之使用者對車輛的能量使用效率給予優先權時，CPU 132選擇能量效率導向之地圖資料DM2。CPU 132經由通訊裝置137將所選擇的地圖資料DM傳輸至車輛VC1(S94)，並暫時地終止圖8中所說明之一系列過程。

敘述此實施例的作用和效果。當藉由操作車輛VC1之電子裝置、例如節流閥14和變速箱50來加速車輛VC1時，獲取加速器操作量PA的時間序列資料。基於所獲取之加速器操作量PA的時間序列資料，估計當前駕駛車輛VC1之使用者的習慣或偏好。當估計結果係傳輸至伺服器130時，伺服器130從儲存在伺服器130之記憶體136中的地圖資料DM(DM1, DM2)片段選擇適合於估計結果之地圖資料DM，並將所選擇的地圖資料DM傳輸至車輛VC1。

加速器操作量PA之時間序列資料反映當前駕駛車輛VC1的使用者之習慣或偏好。因此，基於車輛VC1的狀況之時間序列資料所選擇的地圖資料DM可視為取決於當前駕駛車輛VC1之使用者的習慣或偏好之資料。

在車輛VC1的控制器70中，記憶體76儲存從伺服器130所接收之地圖資料DM。然後，使用新近儲存於記憶體76中的地圖資料DM施行車輛控制。取決於當前駕駛車輛VC1之使用者的習慣或偏好，新近儲存於記憶體76中之地圖資料DM係適當的資料。因此，可取決於當前駕駛車輛VC1之使用者的習慣或偏好來提供適當之車輛控制。

在此實施例中，甚至當複數使用者使用車輛VC1時，可取決於當前使用車輛VC1的使用者之習慣或偏好來提供適當的車輛控制。

在此實施例中，可進一步獲得以下效果。 (1)既然伺服器130之記憶體136儲存複數地圖資料DM片段，不需要將地圖資料DM片段儲存於車輛VC1的控制器70之記憶體76中。因此，可抑制車輛VC1的記憶體76之記憶體容量中的增加。

(2)控制器70之記憶體76儲存地圖資料DM而不是關係定義資料DR。因此，CPU 72基於使用地圖資料DM的計算來設定節流閥開度命令值TA*和齒輪比命令值GR*。其結果是，如與CPU 72執行選擇節流閥開度命令值TA*和齒輪比命令值GR*之過程的案例相比，在動作值函數Q之中的最大值處，可減輕CPU 72之計算負荷。第二實施例

以下參考附圖敘述第二實施例，並聚焦於與第一實施例的不同之處。

如圖9中所說明，本實施例的車輛VC1之控制器70的記憶體76儲存關係定義資料DR和扭矩輸出映射資料DT來代替地圖資料DM。ROM 74儲存除了控制程式74a之外的學習程式74b。與第一實施例中所敘述之學習程式114a類似，學習程式74b使用於經過強化學習來訓練關係定義資料DR。

藉由扭矩輸出映射資料DT所定義的扭矩輸出映射係與例如神經網絡之類的訓練模型有關之資料，其使用轉速NE、充電效率η、和點火正時作為輸入並輸出扭矩Trq。例如，在圖4的過程中，可使用經過S18之過程所獲取的扭矩Trq作為訓練資料來訓練扭矩輸出映射資料DT。可藉由CPU 72基於轉速NE和進氣量Ga來計算充電效率η。

伺服器130之記憶體136儲存響應導向的定義資料DR1和能量效率導向之定義資料DR2作為關係定義資料DR。儲存在記憶體136中的響應導向之定義資料DR1和能量效率導向的定義資料DR2係經過圖4和圖5中所說明之一系列過程而得出關係定義資料片段。明確地是，當S24的過程中之決定結果於一狀態中為正時，記憶體136儲存響應導向的定義資料DR1，在所述狀態中，優先因素VA之值指示強化學習，其中加速器響應中的增加優先於車輛之能源使用效率中的增加。當S24的過程中之決定結果於一狀態中為正時，記憶體136亦儲存能量效率導向的定義資料DR2，在所述狀態中，優先因素VA之值指示強化學習，其中車輛的能源使用效率中之增加優先於加速器響應中的增加。

圖10說明藉由車輛VC1之控制器70所執行的過程之程序，以在操作車輛VC1的電子裝置之同時更新記憶體76中所儲存的關係定義資料DR。圖10中所說明之一系列過程係以使得CPU 72例如每隔預定週期重複地執行ROM 74中所儲存的控制程式74a和學習程式74b之方式來實現。

於圖10所說明的一系列過程中，CPU 72獲取車速V、當前齒輪比GR、和加速器操作量PA之時間序列資料作為狀態“s”(S100)。類似於圖4中的S14，CPU 72取決於經過S100之過程所獲取的狀態“s”來設定包括節流閥開度命令值TA*和齒輪比命令值GR*之動作“a”(S102)。其次，基於所設定的節流閥開度命令值TA*和所設定之齒輪比命令值GR*，CPU 72向節流閥14輸出操作信號MS1以操縱節流閥開度TA，並向變速箱50輸出操作信號MS5以操縱齒輪比(S104)。CPU 72獲取轉速NE、齒輪比GR、內燃機10的扭矩Trq、用於內燃機10之扭矩命令值Trq*、和加速度Gx(S106)。CPU 72藉由將轉速NE、充電效率η、和點火正時輸入至扭矩輸出映射來計算扭矩Trq。類似於圖4中的S20，CPU 72決定預定週期是否從稍後敘述之S110的過程之執行的時序過去(S108)。當CPU 72決定預定週期過去時(S108：是)，CPU 72經過強化學習來更新關係定義資料DR(S110)。當CPU 72未決定預定週期過去時(S108：否)，CPU 72暫時地終止圖10中所說明之一系列過程。

圖10中的S110之過程的細節係等同於圖5中所說明之一系列過程的那些細節。因此，省略圖10中之S110的過程之細節的敘述。在此實施例中，當車輛VC1正行進經過圖10中所說明之一系列過程時，類似於圖7中的S78和S80之過程，估計當前駕駛車輛VC1的使用者之習慣或偏好，且估計結果係傳輸至伺服器130。與圖8中的S92類似，當伺服器130接收到估計結果時，伺服器130選擇要傳輸至車輛VC1之資料。在此實施例中，從儲存在伺服器130的記憶體136中之關係定義資料DR片段選擇適合於使用者習慣或偏好的關係定義資料DR。與圖8中之S94的過程類似，當選擇關係定義資料DR時，所選擇之資料係傳輸至車輛VC1。在此實施例中，關係定義資料DR係傳輸至車輛VC1。類似於圖7中的S84之過程，於車輛VC1中，記憶體76儲存從伺服器130接收的資料。在此實施例中，記憶體76儲存從伺服器130接收之關係定義資料DR。

於此實施例中，關係定義資料DR和學習程式74b係安裝在車輛VC1的控制器70中。在藉由車輛VC1從伺服器130接收到適合於使用者之習慣或偏好的關係定義資料DR之後，車輛VC1經過強化學習來更新關係定義資料DR。其結果是，可使車輛控制更接近取決於使用者的習慣或偏好來控制。第三實施例

以面參考附圖敘述第三實施例，並聚焦於與第一實施例的不同之處。

如圖11中所說明，車輛VC1的控制器70包括電可重寫非揮發性記憶體之記憶體76和記憶體76A。記憶體76儲存待使用於操作車輛VC1的電子裝置之地圖資料DM。記憶體76A將響應導向的地圖資料DM1和能量效率導向之地圖資料DM2儲存為地圖資料DM。儲存在記憶體76A中的地圖資料DM係藉由圖3中所說明之系統所創建。

於此實施例中，當車輛VC1正行駛時，經過圖7中所說明的一系列過程來估計當前駕駛車輛VC1之使用者的習慣或偏好。控制器70之CPU 72從儲存在記憶體76A中的地圖資料DM片段選擇適合於使用者之習慣或偏好的地圖資料DM。CPU 72將所選擇之地圖資料DM儲存在記憶體76中。

於此實施例中，車輛VC1的記憶體76A儲存地圖資料DM片段，在第一實施例中將地圖資料DM片段儲存於伺服器130之記憶體136中。因此，記憶體76可儲存適合於使用者的習慣或偏好之地圖資料，而無需車輛VC1與伺服器130之間的通訊。範例之敘述

圖2之CPU 72和ROM 74係處理器的範例。圖9之CPU 132和ROM 134係處理器的其他範例。圖11之CPU 72和ROM 74係處理器的其他範例。圖2、圖9、和圖11之記憶體76係第一記憶體的範例。圖2和圖9之記憶體136係第二記憶體的範例。圖11之記憶體76A係第二記憶體的另一範例。圖2和圖11之記憶體76的每一者中所儲存之地圖資料DM係儲存在第一記憶體中的操作資料之範例。圖9的記憶體76中所儲存之關係定義資料DR係儲存於第一記憶體中的操作資料之另一範例。儲存在圖2的記憶體136中之地圖資料DM1和DM2片段係儲存於第二記憶體中的複數操作資料片段之範例。儲存在圖9的記憶體136中之關係定義資料DR1和DR2片段係儲存於第二記憶體中的複數操作資料片段之其他範例。儲存在圖11的記憶體76A中之地圖資料DM1和DM2片段係儲存於第二記憶體中的複數操作資料片段之其他範例。在學習程式114a或74b中，藉由執行圖5中的S46至S52之過程的命令所定義之映射係更新映射的範例。地圖資料DM、DM1和DM2片段係控制映射資料之範例。關係定義資料DR、DR1和DR2片段係關係定義資料的範例。圖6中之S64與圖10中的S104係操作過程之範例。圖6中的S60、圖7中之S72、圖10中的S100和S106係獲取過程之範例。圖7中的S78至S84與圖8中之S90至S94係資料改變過程的範例。圖2和圖11之響應導向的地圖資料DM1片段係第一操作資料之範例。圖9的響應導向之定義資料DR1係第一操作資料的另一範例。圖2和圖11之能量效率導向的地圖資料DM2片段係第二操作資料之範例。圖9的能量效率導向之定義資料DR2係第二操作資料的另一範例。圖2和圖9之CPU 72和ROM 74係第一處理器的範例。圖2和圖9之CPU 132和ROM 134係第二處理器的範例。圖2和圖9之控制器70係車輛的控制器之範例。圖5中之S36至S40的過程係效益計算過程之範例。圖5中的S46至S52之過程係更新過程的範例。在學習程式74b中，藉由執行圖5中之S46至S52的過程之命令所定義的映射係更新映射之範例。圖2和圖9的伺服器130係伺服器之範例。修改範例

實施例可修改如下。實施例和以下修改範例可組合而不會造成任何技術矛盾。操作資料

於上述實施例中，敘述第二記憶體儲存二操作資料片段的示範性案例。如果操作資料片段在加速器響應之優先等級和能量使用效率的優先等級之觀點中彼此不同，則第二記憶體可儲存操作資料的三個或更多片段或任意數目之片段。降維

例如，於極少案例下，加速器操作量PA具有最大值。作為用於降維的方法，無作用值函數Q可為定義用於加速器操作量PA係等於或大於指定量之狀態，且在加速器操作量PA等於或大於指定量的案例下，節流閥開度命令值TA*等可為分開地修改。例如，可藉由從動作之可能值排除包括等於或大於指定值的節流閥開度命令值TA*之動作來施行降維。關係定義資料

在上述實施例中，動作值函數Q係表格類型函數，但是本發明不限於此案例。例如，可使用函數逼近器。

例如，代替使用動作值函數Q，策略π可為藉由函數逼近器所表達，其自變數係狀態“s”和動作“a”，且其因變數係動作“a”的概率，且定義函數逼近器之參數可取決於效益“r”來更新。在此案例中，可取決於優先因素VA的值來提供不同之函數逼近器，或可將優先因素VA包括在例如狀態“s”中，其係單一函數逼近器的自變數。操作過程

例如，當將函數逼近器使用於動作值函數時，最大化動作值函數Q之動作“a”能以使得用於動作的所有離散值之組合隨同狀態“s”輸入至動作值函數Q的方式來標識，所述動作係實施例之表格類型函數之自變數。例如，所識別的動作“a”可主要採用作一操作，並能以預定之概率選擇不同的動作。

例如，當藉由函數逼近器表達策略n時，其自變數係狀態“s”和動作“a”，且其因變數係動作“a”之概率，並可基於藉由策略π所示概率來選擇動作“a”。更新映射

在S46至S52的過程中，例示用於ε-軟策略之策略上的蒙特卡洛方法，但是本發明不限於此案例。例如，可使用政策外之蒙特卡洛方法。本發明不限於蒙特卡羅方法。例如，可使用策略外時間差(TD)方法、或策略上TD方法、例如狀態-動作-效益-狀態-動作(SARSA)方法。例如，資格痕跡方法可使用作策略上的學習。

例如，當使用函數逼近器表達策略π且基於效益“r”直接更新函數逼近器時，可使用策略梯度方法來定義更新映射。

基於效益“r”所直接更新之目標係不僅受限於動作-值函數Q或策略π。例如，動作值函數Q和策略π的每一者可如於行為-評判方法中那樣更新。在行為-評判方法中，本發明不限於此案例。例如，可代替動作值函數Q來更新值函數。動作變數

在上述實施例中，節流閥開度命令值TA*係例示為與節流閥之開度有關的動作變數。本發明不限於此案例。例如，節流閥開度命令值TA*對加速器操作量PA之響應可藉由空檔時間和二階滯後濾波器所表達，且空檔時間和定義二階滯後濾波器的二變數之總共三個變數可設定為與節流閥的開度有關之變數。在此案例中，可期望地是，狀態變數係每單位時間的加速器操作量PA之變化量來代替加速器操作量PA的時間序列資料。

於上述實施例中，與節流閥之開度有關的變數和與齒輪比有關之變數例示為動作變數。本發明不限於此案例。例如，除了與節流閥的開度有關之變數和與齒輪比有關的變數以外，可使用與點火正時有關之變數或與空燃比控制有關的變數。

在壓燃式內燃機之案例中，可使用與噴射量有關的變數來代替與節流閥之開度有關的變數。另外，例如，可使用與噴射正時有關之變數、與一燃燒循環中的噴射次數有關之變數、或與二相鄰時間序列燃料噴射之其中一者的結束正時和在一燃燒循環期間於一汽缸中之另一燃料噴射的啟動正時之間的時間間隔有關之變數。

例如，當變速箱50係有級變速箱時，動作變數可為電磁閥的當前值，所述電磁閥建構為使用液壓來調整離合器之嚙合狀況。當基於動作變數來操作的目標包括旋轉電機時，動作變數可包括旋轉電機之扭矩或電流。亦即，作為與推進力產生器的負荷有關之變數的負荷變數係不限於與節流閥之開度或噴射量有關的變數，而是可為旋轉電機之扭矩或電流。

當基於動作變數所操作的目標包括鎖止離合器42時，動作變數可包括指示鎖止離合器42之嚙合狀況的變數。當動作變數包括鎖止離合器42之嚙合狀況時，其取決於請求的優先等級來改變動作變數之值以增加能量使用效率特別有效。估算使用者的習慣或偏好

在第一實施例和第二實施例中，伺服器130可執行估計使用者之習慣或偏好的過程。於此案例中，估計使用者之習慣或偏好所需的資料、例如圖7之S72中所獲取的加速器操作量PA之時間序列資料係傳輸至伺服器130。車輛控制資料的產生方法

在圖4中之S14的過程中，基於動作值函數Q決定動作。本發明不限於此案例。能以相等之概率選擇所有可能的動作。控制映射資料

控制映射資料不僅受限於地圖資料，其中車輛之狀況係與使期望報酬最大化的動作變數之值處於一對一關係地關聯，且其使用車輛的狀況作為輸入和輸出最大化預期報酬之動作變數的值。例如，可使用函數逼近器。此案例可藉由以下方法達成。例如，在策略梯度方法之案例中，策略π係藉由指示動作變數的可能值之概率的高斯分佈所表達。高斯分佈之平均值係藉由函數逼近器所表達，且更新表達所述平均值的函數逼近器之參數。訓練後的平均值係使用作控制映射資料。亦即，由函數逼近器所輸出之平均值被視為使期望報酬最大化的操作變數之值。於此案例中，可取決於優先因素VA的值來提供不同之函數逼近器，或可將優先因素VA包括在作為單一函數逼近器的自變數之狀態“s”中。狀態

於上述實施例中，加速器操作量PA的時間序列資料包括以規則間隔抽樣之六個值。本發明不限於此案例。資料可包括在不同抽樣時序所抽樣的二或更多值。更期望的是所述資料包括三或更多抽樣值，或抽樣間隔係規則間隔。

與加速器操作量有關之狀態變數係不限於加速器操作量PA的時間序列資料。例如，可使用每單位時間之加速器操作量PA的變化量。

估計駕駛車輛VC1之使用者的習慣或偏好所要獲取之車輛的狀況不限於加速器操作量PA之時間序列資料。例如，可獲取車輛VC1的加速度Gx作為車輛之狀況。例如，當使用者操作加速器踏板86時，隨著加速器操作量PA中的變化率增加，車輛之加速度Gx傾向於增加。亦即，當使用者操作加速器踏板86以使車輛加速時，加速度Gx傾向於反映使用者的習慣或偏好。亦即，當在使用者操作加速器踏板86期間之加速度Gx為高時，與加速度Gx為低的案例相比，可估計駕駛車輛VC1之使用者給予加速器響應的更高優先權。

可獲取與除加速器踏板86以外之車載上操作構件的操作量有關之狀態變數，並可施行強化學習，或可基於所獲取的狀態變數估計駕駛車輛VC1之使用者的習慣或偏好。除加速器踏板86以外之車載操作構件的範例包括制動踏板和方向盤。

例如，當動作變數係電磁閥之電流值時，狀態可包括變速箱中的輸入軸桿52之轉速和輸出軸桿54的轉速、及藉由電磁閥所調整之液壓。例如，當動作變數係旋轉電機的扭矩或功率時，狀態可包括充電狀態或電池溫度。例如，當動作包括壓縮機之負載扭矩或空調的功率消耗時，狀態可包括車廂中之溫度。電子裝置

要基於動作變數來操作的內燃機10之操作單元不限於節流閥14。例如，可應用點火裝置26或燃料噴射閥16。

在基於動作變數操作的電子裝置之中，推進力產生器與驅動輪之間的驅動系統裝置不限於變速箱50。例如，可應用鎖止離合器42。

當提供旋轉電機作為推進力產生器時，要基於動作變數所操作之電子裝置可為電力轉換電路、例如連接至旋轉電機的反相器。電子裝置不限於車載驅動系統之電子裝置，並可例如為車載空調。例如，當藉由推進力產生器的旋轉動力來驅動車載空調器時，供應給驅動輪60之推進力產生器的動力取決於車載空調器之負載扭矩。因此，動作變數包括車載空調器的負載扭矩係有效的。例如，當車載空調器不使用推進力產生器的旋轉動力時，能量使用效率受到影響。因此，將車載空調器之功率消耗加至動作變數係有效的。處理器

處理器不限於包括CPU和ROM且執行軟體過程之裝置。例如，處理器可包括專用硬體電路、例如建構為代替實施例中的軟體過程之至少一部分來執行硬體過程的特定應用積體電路(AS1C)。亦即，處理器可具有以下結構(a)、(b)和(c)之其中一者。(a)處理器包括建構為基於程式執行上述所有過程的處理裝置、及儲存所述程式之例如ROM的程式儲存裝置。(b)處理器包括建構為基於程式執行上述所有過程之一部分的處理裝置、程式儲存裝置、和建構為執行其餘過程之專用硬體電路。(c)處理器包括建構為執行上述所有過程的專用硬體電路。可提供複數裝置或電路作為包括處理裝置和程式儲存裝置之軟體處理器、或作為專用的硬體電路。內燃機

內燃機不限於包括建構為將燃料噴射進入進氣通道12之進氣口噴射閥而作為燃料噴射閥的內燃機。內燃機可包括建構為將燃料直接噴射進入燃燒室24之直接噴射閥，或可包括例如端口噴射閥和直接噴射閥兩者。

內燃機不限於火花點火內燃機。例如，內燃機可為使用輕油作為燃料的壓燃式內燃機。車輛車輛不限於僅包括內燃機作為車輛之推進力產生器的車輛。例如，車輛可為既包括內燃機又包括旋轉電機兩者之混合動力車輛。例如，車輛可為僅包括旋轉電機作為推進力產生器的車輛、如藉由電動車輛和燃料電池車輛所代表。

10:內燃機 12:進氣通道 14:節流閥 16:燃料噴射閥 18:進氣閥 20:汽缸 22:活塞 24:燃燒室 26:點火裝置 28:曲柄軸 30:排氣閥 32:排氣通道 34:催化劑 40:扭矩轉換器 42:鎖止離合器 50:變速箱 52:輸入軸桿 54:輸出軸桿 60:驅動輪 70:控制器 72:中央處理單元 74:唯讀記憶體 74a:控制程式 74b:學習程式 76:記憶體 76A:記憶體 77:通訊裝置 78:週邊電路 79:區域網路 80:空氣流量計 82:節流閥感測器 84:曲柄角感測器 86:加速器踏板 88:加速度感測器 90:加速度感測器 94:換檔位置感測器 96:車速感測器 100:測力計 102:感測器單元 110:產生器 112:中央處理單元 114:唯讀記憶體 114a:學習程式 116:記憶體 118:週邊電路 119:區域網路 120:網路 130:伺服器 132:中央處理單元 134:唯讀記憶體 134a:控制程式 136:記憶體 137:通訊裝置 138:週邊電路 139:區域網路 Aj:動作組 ASIC:特定應用積體電路 DM:地圖資料 DM1:地圖資料 DM2:地圖資料 DR:關係定義資料 DR1:定義資料 DR2:定義資料 DT:扭矩輸出映射資料 Ga:進氣量 GR:齒輪比 GR*:齒輪比命令值 Gx:加速度 GxL:下限值 GxH:上限值 GxTh:加速度閾值 MS1:操作信號 MS2:操作信號 MS3:操作信號 MS4:操作信號 MS5:操作信號 NE:轉速 PA:加速器操作量 PA(1)...PA(6):抽樣值 PA(S12):加速器操作量 Q:動作值函數 Q(Sj, A):動作值函數 Q(Sj, Aj):動作值函數 R(Sj, Aj):報酬 Scr:輸出信號 Sj:狀態組 Smp:抽樣計數 SmpTh:抽樣計數閾值 TA:節流閥開度 TA*:節流閥開度命令值 Trq:扭矩 Trq*:扭矩命令值 Trq*(1):扭矩命令值 Trq*(2):扭矩命令值 V:車速 VA:優先因素 VC1:車輛 VC2:車輛

下面將參考附圖敘述本發明的示範實施例之特徵、優點、及技術和工業意義，其中相像符號標記相像的元件，且其中： [圖1]係說明根據第一實施例之控制器和驅動系統的圖解； [圖2]係示意性地說明控制器之組構及與車輛通訊的伺服器之組構的方塊圖； [圖3]係說明建構來根據第一實施例產生地圖資料之系統的圖解； [圖4]係說明藉由根據第一實施例之系統所執行的過程之程序的流程圖； [圖5]係說明根據第一實施例之學習過程的細節之流程圖； [圖6]係說明藉由控制器所執行以操作車輛的電子裝置之過程的程序之流程圖； [圖7]係說明藉由控制器所執行以重寫儲存在控制器的記憶體中之地圖資料的過程之程序的流程圖； [圖8]係說明藉由伺服器所執行以向車輛提供適合於使用者之習慣或偏好的地圖資料之過程的程序之流程圖； [圖9]係示意性地說明根據第二實施例的控制器之組構和伺服器的組構之方塊圖； [圖10]係說明藉由控制器所執行以操作車輛的電子裝置之過程的程序之流程圖；及 [圖11]係說明根據第三實施例的控制器之方塊圖。

70:控制器

72:中央處理單元

74:唯讀記憶體

74a:控制程式

76:記憶體

77:通訊裝置

78:週邊電路

79:區域網路

120:網路

130:伺服器

132:中央處理單元

134:唯讀記憶體

134a:控制程式

136:記憶體

137:通訊裝置

138:週邊電路

139:區域網路

DM:地圖資料

DM1:地圖資料

DM2:地圖資料

VC1:車輛

VC2:車輛

Claims

一種用於控制車輛的方法，該方法包含：使用儲存在第一記憶體中之操作資料來操作該車輛的電子裝置，操作資料係定義該車輛的狀況和與該電子裝置之操作有關的動作變數之間的關係之關係定義資料、或基於該關係定義資料所創建的控制映射資料，該關係定義資料係藉由執行以下者所獲得：在該電子裝置之操作期間，基於該車輛的狀況，當該車輛之特性滿足預定準則時比當該車輛的特性不滿足該預定準則時給予更高效益之過程，其係基於藉由該車輛的狀況和該關係定義資料所決定的動作變數之值；及藉由將該電子裝置之操作期間的車輛狀況輸入預定的更新映射、在該電子裝置之操作中所使用的動作變數之值、及與該操作相關聯的效益，來更新該關係定義資料之過程，該更新映射建構為輸出該關係定義資料，當該電子裝置係基於該關係定義資料操作時更新該關係定義資料以增加用於該效益的期望報酬；基於來自該車輛中所設置之感測器的偵測值來獲取該車輛之狀況；及基於該車輛的獲取狀況，選擇在第二記憶體中所儲存之操作資料片段的其中一者，並將所選擇之操作資料片段儲存於該第一記憶體中，在該第二記憶體中所儲存的操作資料片段分別係藉由變動該預定準則而更新之複數關係定義資料片段、或基於該關係定義資料片段而創建的複數控制映射資料片段。
如請求項1的方法，其中儲存在該第二記憶體中之操作資料片段包括：第一操作資料，其係使用與加速器響應有關的參數為等於或大於與該加速器響應有關之閾值的準則作為該預定準則來更新之資料；及第二操作資料，其係使用與該車輛的能量使用效率有關之參數為等於或大於與該能量使用效率有關的閾值之準則作為該預定準則來更新的資料。
如請求項1或2的方法，其中該車輛之狀況包括加速器操作量中的變化率。
如請求項1或2的方法，其中該車輛之狀況包括該車輛的加速度。
如請求項1至4之任一項的方法，其中：該車輛之電子裝置係藉由該車輛中所設置的第一處理器使用儲存在該車輛中所設置之該第一記憶體中的操作資料來操作；藉由該第一處理器基於來自該車輛中所設置之感測器的偵測值來獲取該車輛之狀況；該第二記憶體設置在該車輛外側；藉由設置在該車輛外側的第二處理器選擇該第二記憶體中所儲存之操作資料片段的其中一者作為所選擇之操作資料片段；該第二處理器將所選擇的操作資料片段傳輸至該車輛；該第一處理器執行造成該車輛接收從該第二處理器所傳輸之操作資料的過程；及該第一處理器執行將所接收之操作資料儲存於該第一記憶體中的過程。
一種車輛之控制器，該控制器包含：第一記憶體，設置在該車輛中並建構為儲存使用於操作該車輛的電子裝置之操作資料，該操作資料係定義該車輛的狀況和與該電子裝置之操作有關的動作變數之間的關係之關係定義資料、或基於該關係定義資料所創建的控制映射資料；及第一處理器，設置在該車輛中，並建構為：使用該第一記憶體中所儲存之操作資料來操作該車輛的電子裝置；基於來自該車輛中所設置之感測器的偵測值來獲取該車輛之狀況；造成該車輛接收基於所獲取之該車輛的狀況而選擇並儲存在該車輛外側所設置之第二記憶體中的操作資料；及將所接收之操作資料儲存於該第一記憶體中。
如請求項6之控制器，其中：選自該第二記憶體中所儲存的複數操作資料片段並儲存在該第一記憶體中之操作資料係該關係定義資料；該第一處理器建構為：藉由執行以下者來更新該第一記憶體中所儲存的關係定義資料：效益計算過程，用於在該電子裝置之操作期間，基於該車輛的狀況，當該車輛之特性滿足預定準則時比當該車輛的特性不滿足預定準則時給予更高效益，其係基於藉由該車輛的狀況和該關係定義資料所決定的動作變數之值；及更新過程，用於藉由將該電子裝置之操作期間的車輛狀況輸入預定的更新映射內、在該電子裝置之操作中所使用的動作變數之值、及與該操作相關聯的效益來更新該關係定義資料；和基於藉由所獲取之車輛狀況和該第一記憶體中所儲存的關係定義資料所決定之動作變數的值，操作該電子裝置；和該更新映射建構為輸出該關係定義資料，當該電子裝置係基於該關係定義資料操作時更新該關係定義資料以增加用於該效益之期望報酬。
一種伺服器，包含：記憶體，建構為儲存複數操作資料片段，該複數操作資料片段建構為使用於操作車輛之電子裝置，該操作資料係定義該車輛的狀況和與該電子裝置之操作有關的動作變數之間的關係之關係定義資料、或基於該關係定義資料所創建的控制映射資料，該關係定義資料係藉由執行以下者所獲得：在該電子裝置之操作期間，基於該車輛的狀況，當該車輛之特性滿足預定準則時比當該車輛的特性不滿足該預定準則時給予更高效益之過程，其係基於藉由該車輛的狀況和該關係定義資料所決定的動作變數之值；及藉由將該電子裝置之操作期間的車輛狀況輸入預定的更新映射內、在該電子裝置之操作中所使用的動作變數之值、及與該操作相關聯的效益，來更新該關係定義資料之過程，該更新映射建構為輸出該關係定義資料，當該電子裝置係基於該關係定義資料操作時更新該關係定義資料以增加用於該效益的期望報酬；及處理器，建構為從該複數操作資料片段選擇一操作資料片段，並將所選擇之操作資料片段傳輸至車輛。