TWI745120B

TWI745120B - 車輛控制系統、車輛控制裝置及用於車輛之控制方法

Info

Publication number: TWI745120B
Application number: TW109135512A
Authority: TW
Inventors: 橋本洋介; 片山章弘; 大城裕太; 杉江和紀; 岡尚哉
Original assignee: 日商豐田自動車股份有限公司
Priority date: 2019-10-18
Filing date: 2020-10-14
Publication date: 2021-11-01
Also published as: US20210114608A1; MX2020010934A; JP2021067194A; JP6744598B1; CN112682198B; US11691639B2; CA3096267A1; SG10202010148UA; PH12020050406A1; TW202118318A; AU2020256347A1; CN112682198A

Abstract

車輛控制系統包括記憶體、安裝在車輛中的第一處理器以及不同於車載裝置的第二處理器。第一處理器和第二處理器被配置以執行獲取處理、操作處理、獎勵計算處理和更新處理。第一處理器被配置以至少執行獲取處理和操作處理，和第二處理器被配置以執行更新處理。

Description

車輛控制系統、車輛控制裝置及用於車輛之控制方法

本發明關於車輛控制系統，車輛控制裝置以及用於車輛之控制方法。

例如，日本未審查專利申請公開案案號16-6327(JP 16-6327A)描述了一種控制裝置，其基於透過對加速器踏板的操作量進行濾波處理獲得的值來操作節流閥作為安裝在車輛中的內燃機的操作單元。

由於過濾器需要根據加速器踏板的操作量將安裝在車輛中的內燃機的節流閥的開度設定為適當的開度，因此需要專家施加許多人力用於適配。這樣，迄今為止，專家已經根據車輛的狀態花費了許多工時來適應車輛中電子設備的操作量等。

本發明的第一態樣關於一種車輛控制系統。該車輛控制系統包括記憶體、安裝在車輛中的第一處理器和不同於車載裝置的第二處理器。該記憶體被配置以儲存定義車輛的狀態與動作變量之間的關係之關係定義資料，該動作變量是與車輛中的電子設備的操作有關的變量。第一處理器和第二處理器被配置以執行用於獲取被配置以檢測車輛的狀態的感測器的檢測值之獲取處理、用於操作電子設備的操作處理、用於基於透過獲取處理獲取的檢測值當車輛的特性滿足標準時提供比車輛的特性不滿足標準時更大的獎勵之獎勵計算處理，以及用於利用基於透過獲取處理獲取的檢測值之車輛的狀態、用於電子設備的操作的動作變量的值以及操作相對應的獎勵作為至事先所確定的更新映射的輸入來更新關係定義資料之更新處理。第一處理器被配置以至少執行獲取處理和操作處理。第二處理器被配置以執行更新處理。操作處理包括用於根據透過更新處理更新的關係定義資料與車輛的狀態來操作電子設備的處理。第二處理器被配置以基於更新映射輸出關係定義資料，該關係定義資料被更新以當電子設備按照關係定義資料被操作時增加獎勵的期望報酬。提供了複數個車輛。更新處理將車輛的狀態、車輛的動作變量的值以及車輛的獎勵作為更新映射的輸入。

在上述配置中，計算伴隨電子設備的操作的獎勵，從而可以確定透過該操作獲得了哪種獎勵。然後，透過與強化學習相適應的更新映射，基於獎勵來更新關係定義數據，從而可以將車輛的狀態與動作變量之間的關係設定為車輛行駛中的適當關係。因此，在將車輛的狀態與作用變量之間的關係設定為車輛行駛中的適當的關係中，可以減少專家所要求的工時。

在上述配置中，基於車輛上的狀態、動作變量和獎勵來更新單一關係定義資料，與基於單一車輛的狀態、操作變量和獎勵更新單一關係定義資料的情況相比，從而可以增加更新頻率。

在上述態樣中，更新處理可以包括針對車輛被分類到的複數個組中的每個組的處理，用於更新屬於同一組的關係定義資料，以用屬於複數個車輛之間同一組的中該等車輛的狀態、屬於同一組的車輛的動作變量的值以及屬於輸入至更新映射的同一組的車輛的獎勵更新關係定義資料。第二處理器可以被配置以執行用於指定車輛的狀態，車輛的動作變量的值以及車輛的獎勵屬於哪個組的指定處理。

車輛的狀態的集合和適當的動作變量的值可以取決於車輛的行駛環境、車輛的消耗程度以及使用者的駕駛偏好等而變化。因此，在上述配置中，針對每個組更新關係定義資料，與更新單一關係定義資料的情況相比，從而可以基於車輛的狀態、動作變量和與系統中包括第一處理器的所有車輛有關的獎勵將關係定義資料更新為更適合於每個組的資料。

在上述態樣中，指定處理可以包括用於根據車輛的位置來指定所屬組的處理。由於車輛的當前狀況取決於區域，所以存在以下可能性：適合於車輛狀態的動作變量取決於區域。因此，在上述配置中，基於位置資訊變量來指定組，從而可以將關係定義資料更新為適合於每個複數個區域的資料。

在上述態樣中，指定處理可以包括用於根據車輛的程度來指定所屬組的處理。由於車輛對使用者的操作的響應度取決於車輛的消耗程度，因此該值可以根據車輛的消耗程度來變化適合於車輛狀態的動作變量的值。因此，在上述配置中，基於車輛的消耗程度來指定組，從而可以根據車輛的消耗程度將關係定義資料更新為適當的關係定義資料。

在上述態樣中，操作處理可以包括探索處理，用於執行與從關係定義資料確定的期望報酬最大化的操作不同的操作。第二處理器可以被配置以執行用於發布第一車輛和第二車輛之間不同的指令處理作為探索處理執行的動作變量的值，第一車輛和第二車輛為多個車輛之間的兩個車輛。

在上述配置中，由於指示了在探索中在第一車輛和第二車輛之間執行不同動作，所以從而可以控制從車輛的探索結果獲得的資訊。

本發明的第二態樣關於一種車輛控制裝置。該車輛控制系統包括記憶體、安裝在車輛中的第一處理器和不同於車載裝置的第二處理器，該記憶體被配置以儲存定義車輛的狀態與動作變量之間的關係之關係定義資料，該動作變量是與車輛中的電子設備的操作有關的變量。第一處理器和第二處理器被配置以執行用於獲取被配置以檢測車輛的狀態的感測器的檢測值之獲取處理、用於操作電子設備的操作處理、用於基於透過獲取處理獲取的檢測值當車輛的特性滿足標準時比車輛的特性不滿足標準時提供更大的獎勵之獎勵計算處理，以及用於利用基於透過獲取處理獲取的檢測值之車輛的狀態、用於電子設備的操作的動作變量的值以及操作相對應的獎勵作為至事先所確定的更新映射的輸入來更新關係定義資料之更新處理。第一處理器被配置以至少執行獲取處理和操作處理，第二處理器被配置以執行更新處理。操作處理包括用於根據透過更新處理更新的關係定義資料與車輛的狀態來操作電子設備的處理。第二處理器被配置以基於更新映射輸出關係定義資料，該關係定義資料被更新以當電子設備按照關係定義資料被操作時增加獎勵的期望報酬，並且提供車輛的數量，以及更新處理將車輛的狀態、車輛的動作變量的值以及車輛的獎勵作為更新映射的輸入。

本發明的第三態樣關於一種用於車輛的控制方法。該車輛包括記憶體、安裝在車輛中的第一處理器和不同於車載裝置的第二處理器，該記憶體被配置以儲存定義車輛的狀態與動作變量之間的關係之關係定義資料，該動作變量是與車輛中的電子設備的操作有關的變量。控制方法包括用於藉由第一處理器和第二處理器獲取被配置以檢測車輛的狀態的感測器的檢測值之獲取處理、用於藉由第一處理器和第二處理器操作電子設備的操作處理、用於基於透過獲取處理獲取的檢測值，藉由第一處理器和第二處理器當車輛的特性滿足標準時提供比車輛的特性不滿足標準時更大的獎勵之獎勵計算處理，以及用於藉由該第一處理器和該第二處理器而利用基於透過獲取處理獲取的檢測值之車輛的狀態、用於電子設備的操作的動作變量的值以及操作相對應的獎勵作為至事先所確定的更新映射的輸入來更新關係定義資料之更新處理。第一處理器被配置以至少執行獲取處理和操作處理，第二處理器被配置以執行更新處理。操作處理包括用於根據透過更新處理更新的關係定義資料與車輛的狀態來操作電子設備的處理，第二處理器被配置以基於更新映射輸出關係定義資料，該關係定義資料被更新以當電子設備按照關係定義資料被操作時增加獎勵的期望報酬，並且提供車輛的數量，以及更新處理將車輛的狀態、車輛的動作變量的值以及車輛的獎勵作為更新映射的輸入。

第一實施方式

首先，將參照圖式描述車輛控制系統的第一實施方式。圖1示出了根據該實施方式的車輛VC1的驅動系統和控制系統的配置。

如圖1所示，在內燃機10的進氣通道12中，從上游側依次設置有節流閥14和燃料噴射閥16，並且空氣被吸入進氣通道12中或當進氣閥18打開時，從燃料噴射閥16噴射的燃料流進由氣缸20和活塞22隔開的燃燒室24。在燃燒室24中，燃料和空氣的空氣-燃料混合物被供應以點火裝置26的火花放電用於燃燒，並且燃燒產生的能量透過活塞22被轉換成曲軸28的旋轉能。當排氣閥30打開時，被供應用於燃燒的空氣-燃料混合物作為廢氣排放到排氣通道32。在排氣通道32中，催化劑34作為去除排氣的後處理裝置。

變速器50的輸入軸52透過包括鎖定離合器42的扭矩轉換器40機械地耦接到曲軸28。變速器50是將作為輸入軸52和輸出軸54的轉速的比之齒輪比改變的裝置。驅動輪60機械地耦接到輸出軸54。

控制裝置70適配內燃機10作為控制目標，並操作內燃機10的操作單元(例如節流閥14、燃料噴射閥16或點火裝置26)以控制作為內燃機的控制量的轉矩、排氣成分比等。控制裝置70還適配扭矩轉換器40作為控制目標，並且操作鎖定離合器42動作來控制鎖定離合器42的接合狀態。控制裝置70還適配變速器50作為控制目標，並且操作變速器50以控制齒輪比作為變速器的控制量。在圖1中，說明節流閥14的各個操作訊號MS1至MS5、燃料噴射閥16、點火裝置26、鎖定離合器42以及變速器50。

控制裝置70指由空氣流量計80檢測到的進氣量Ga、由節流閥感測器82檢測到的節流閥14的開度(節流閥開度TA)以及曲柄角感測器84的輸出訊號Scr以控制該控制量。控制裝置70還指由加速器感測器88檢測到的加速器踏板86的下壓量(加速器操作量PA)和由加速度感測器90檢測到的車輛VC1的橫向加速度Gx。控制裝置70還指來自全球定位系統(GPS 92)的位置資料Pgps。

控制裝置70包括CPU 72、ROM 74、電性可重寫非揮發性記憶體(記憶體76)，通訊設備77和週邊電路78，並且這些單元可透過本地網路79通訊。週邊電路78包括產生用於定義內部操作的時脈訊號的電路、電源電路、復位電路等。

ROM 74儲存用於學習的控制程式74a和子程式74b。另一方面，記憶體76儲存定義加速器操作量PA和節流閥開度TA的指令值(節流閥開度指令值TA*)之間的關係的關係定義資料DR和點火裝置26的延遲量aop。這裡，該延遲量aop是相對於預先確定的基準點火定時的延遲量，並且該基準點火定時是MBT點火定時和爆震極限點之外的延遲側的定時。MBT點火定時是獲得最大轉矩的點火定時(最大轉矩點火定時)。當使用具有較高聚液極限的高辛烷值燃料時，爆震極限點是在假定的最佳條件下可以將爆震限制在允許水平內的點火定時之升級極限值。記憶體76儲存扭矩輸出映射資料DT。由扭矩輸出映射資料DT定義的扭矩輸出映射是用於以曲軸28的轉速NE、填充效率η和點火定時作為輸入來輸出扭矩Trq的映射。

通訊設備77是用於透過車輛VC1的外部網路100與資料分析中心110進行通訊的設備。資料分析中心110分析從複數個車輛VC1，VC2，...發送的資料。資料分析中心110具有CPU 112、ROM 114、電性可重寫非揮發性記憶體(記憶體116)、週邊電路118和通訊設備117，並且這些單元可透過本地網路119進行通訊。ROM 114儲存用於透過強化學習來更新關係定義資料DR的學習的主程式114a。記憶體116儲存關係定義資料DR。

圖2示出了由根據實施方式的控制裝置70執行的處理過程。圖2所示的處理由CPU 72重複執行儲存在ROM 74中的控制程式74a來實現，例如，在預定週期中。在下面的描述中，各個處理的步驟數字由在其前面給出字符“S”的數字表示。

在圖2所示的一系列處理中，CPU 72首先獲取時間序列資料，該時間序列資料包括加速器操作量PA的六個採樣值“PA(1)、PA(2)、...、PA(6)”作為狀態s(S10)。這裡，在每個彼此不同的時間點採樣構成時間序列資料的採樣值。在本實施方式中，時間序列資料由時間序列彼此相鄰的六個採樣值組成在給定的採樣週期內執行採樣。

接下來，CPU 72遵照由關係定義資料DR(S12)確定的策略π，根據透過S10的處理獲取的狀態s，設定包括節流閥開度指令值TA*和延遲量aop的動作a。

在實施方式中，關係定義資料DR是確定動作值函數Q和策略π的資料。在實施方式中，動作值函數Q是以表格式指示根據狀態s和動作a的八維自變量之期望報酬的值的函數。策略π確定一個選擇動作a(貪婪動作)的規則，該動作將具有自變量的動作值函數Q最大化為具有優先級的給定狀態s，並當狀態s被給定時，也以預定的概率ε選擇另一個動作a。

接下來，CPU 72基於設定的節流閥開度指令值TA*和延遲量aop(S14)，將操作訊號MS1輸出到節流閥14以操作節流閥開度TA，並且將操作訊號MS3輸出至點火裝置26以操作點火定時。在此，在本實施方式中，由於示出了節流閥開度TA對節流閥開度指令值TA*的反饋控制，所以即使節流閥開度指令值TA*為相同值，操作信號MS1也可以不同。例如，在進行已知的爆震控制(known knocking control；KCS)等時，點火定時成為由KCS對透過延遲基準點火定時延遲量aop而得到的值進行反饋校正而得到的值。此處，基準點火定時根據曲軸28的旋轉速度NE和利用CPU 72的填充效率η而可變地設定。透過CPU 72基於曲柄角感測器84的輸出訊號Scr來計算轉速NE。透過CPU 72基於轉速NE和進氣量Ga來計算填充效率η。

接下來，CPU 72獲取內燃機10的扭矩Trq、至內燃機10的扭矩指令值Trq*和加速度Gx(S16)。在此，CPU 112透過輸入轉速NE、填充效率η和點火定時至轉矩輸出映射計算扭矩Trq。CPU 72根據加速器操作量PA來設定轉矩指令值Trq*。

接下來，CPU 72確定過渡標記F是否為“1”(S18)。當過渡標記F為“1”時，這指示內燃機處於過渡運轉中，並且當過渡標記F為“0”時，這指示內燃機未處於過渡運轉中。當判定為過渡標記F為“0”時(S18：否)，CPU 72判斷加速器操作量PA的每單位時間的變化量ΔPA的絕對值是否為預定量ΔPAth(S20)以上。在此，變化量ΔPA例如應該設定為在S20的處理的執行時刻的最新的加速器操作量PA與單位時間的同一時刻之前的加速器操作量PA之差。

當確定變化量ΔPA的絕對值等於或大於預定量ΔPAth時(S20：是)，CPU 72將“1”代入過渡標記F(S22)。相較之下，當確定過渡標記F為“1”時(S18：是)，在執行S22的處理之後，CPU 72確定是否經過了預定時間段(S24)。在此，預定時間段設定至直到狀態持續預定時間為止的時間段，在該狀態中加速器操作量PA的每單位時間的變化量ΔPA的絕對值變成等於或小於小於預定量ΔPAth的指定量。在確定經過了預定時間段的情況下(S24：是)，CPU 72將“0”代入過渡標記F(S26)。

當完成S22或S26的處理或在S20或S24的處理中做出否定確定時，CPU 72進行到S28的處理，在S28的處理中，CPU 72將S10的處理中獲取的狀態s、在S12的處理中選擇的動作a、在S16的處理中獲取的轉矩Trq、轉矩指令值Trq*和加速度Gx，以及在記憶體76中過渡標記F的值儲存。

當完成S28的處理時，CPU 72一次結束圖2所示的一系列處理。圖3示出了根據實施方式的強化學習的處理過程。圖3的部分(a)所示出的處理由CPU 72執行儲存在圖1所示的ROM 74中的用於學習的子程式74b來實現。圖3的部分(b)中的處理由CPU 112執行儲存在ROM 114中的用於學習的主程式114a來實現。在下面的描述中，將按時間順序描述圖3所示的處理。

在圖3的部分(a)所示的一系列處理中，CPU 72首先確定行程是否結束(S30)。在此，行程是車輛的行駛許可信號處於開啟狀態的一個期間。在實施方式中，行駛許可訊號對應於點火訊號。

當確定行程結束時(S30：是)，CPU 72操作通訊設備77以發送車輛VCl的識別資訊ID、行駛距離Lt、位置資料Pgps以及透過S28的處理儲存的資料(S32)。

相較之下，如圖3的部分(b)所示，CPU 112接收透過S32的處理發送的資料(S40)。然後，CPU 112選擇一個時段，在該時段期間，接收到的資料中的轉移標誌F為恆定的，即一個事件片段(S42)。每個事件片段是從當執行S26的處理時到執行S22的處理的時段，或者從當執行S22的處理時到執行S26的處理的時段。

接下來，CPU 112獲取時間序列資料，該時間序列資料包括所選事件片段中的扭矩命令值Trq*、扭矩Trq和加速度Gx的三個採樣值的集合以及狀態s和時間序列資料動作a(S44)。圖3表明括號中的不同數字是在不同採樣時刻的變量值。例如，轉矩指令值Trq*(1)和轉矩指令值Trq*(2)不同。將屬於所選事件片段的動作a的時間序列資料定義為動作集Aj，並將屬於同一事件片段的狀態s的時間序列資料定義為狀態集Sj。

接下來，CPU 112確定屬於所選擇的事件片段的任何扭矩Trq和扭矩指令值Trq*之間的差的絕對值等於或小於指定量ΔTrq之條件(A)和加速度Gx等於或大於下限值GxL且等於或小於上限值GxH的條件(B)的邏輯乘積是否為為真(S46)。

這裡，CPU 112在事件片段開始時以加速器操作量PA的每單位時間的變化量ΔPA可變地設定指定量ΔTrq。亦即，CPU 112確定事件片段與當加速器的操作量PA的變化量ΔPA的絕對值在事件片段開始時是大的時的過渡時段有關，並且設定將指定量ΔTrq設定為比正常時段的事件片段大的值。

CPU 112在事件片段開始時以加速器操作量PA的變化量ΔPA可變地設定下限值GxL。亦即，當事件片段與過渡時段有關且變化量ΔPA為正時，CPU 112將下限值GxL設定為比正常時段中的事件片段更大的值。當事件片段與過渡時段有關且變化量ΔPA為負時，CPU 112設定下限值GxL比正常時段中的事件片段更小的值。

CPU 112在事件片段開始時以加速器操作量PA的每單位時間的變化量ΔPA可變地設定上限值GxH。亦即，當事件片段與過渡時段有關且變化量ΔPA為正時，CPU 112將上限值GxH設定為比正常時段中的事件片段更大的值。當事件片段與過渡時段有關且變化量ΔPA為負時，CPU 112設定上限值GxH比正常時段中的事件片段更小的值。

當確定邏輯產生為真時(S46：是)，CPU 112將“10”代入獎勵r(S48)，並且當確定邏輯乘積為假時(S46：否)，CPU 112將“-10”代入獎勵r中(S50)。當完成S48或S50的處理時，CPU 72指定車輛作為透過S40的處理接收的資料的發送源的組，以針對車輛VC1、VC2、…被分類到的每個組更新關係定義資料DR(S52)。

圖4示出了實施方式中的車輛的分類。在實施方式中，透過車輛所處的區域和行進距離Lt來指定組。例如，位於區域1中的車輛與位於區域2中的車輛彼此屬於不同的組。這裡，在按區域分類中，例如，區域1應該是北美，區域2應該是南美等。考慮到針對狀態s的最佳動作a可能會因為針對每個區域的燃料屬性或環境都不同而有所不同，提供由區域的分類。即使車輛屬於同一區域，具有行駛距離Lt相等的車輛等於或小於“L1”且大於“0”和具有行駛距離Lt等於或大於“L1”且小於等於“L2”的車輛屬於不同的組。鑑於考慮到針對狀態s的最佳動作a可以因為，例如，車輛對使用者的駕駛操作的響應性可以取決於車輛的消耗程度的不同而有所不同，提供由行駛距離Lt的分類。

CPU 72用位置資料Pgps指定區域，並用指定的區域和行駛距離Lt指定組。然後，CPU 72更新該指定組共用的關係定義資料DR。在實施方式中，使用ε-軟策略型的蒙特卡羅方法。

即，CPU 112將獎勵r加到由透過S44的處理讀取的每個狀態和與每個狀態相對應的動作的集合所確定的每個報酬R(Sj，Aj)(S54)。這裡，“R(Sj，Aj)”以狀態集Sj的元素之一為狀態和動作集Aj的元素之一為動作來綜合表示報酬R。接下來，由透過S44的處理讀取的每個狀態和相應的動作的集合之報酬R(Sj，Aj)被平均，然後將平均獎勵替換為相應的動作值函數Q(Sj，Aj)(S56)。這裡，應處理平均以用於將透過S54的處理計算出的報酬R除以S54的處理所執行的預定數加上執行次數而獲得的值。報酬值R的初始值應為動作值函數Q相應的初始值。

接下來，當對應的動作值函數Q(Sj，A)具有透過S44的處理讀取的每個狀態的最大值時，CPU 112將作為節流閥開度指令值TA*和延遲量aop的集合的動作代入動作Aj*(S58)。在此，“A”表示任何可能的動作。儘管動作Aj*根據透過S44的處理讀取的狀態的種類而變成單獨的值，但是這裡，動作Aj*在表達上被簡化，並用相同的符號表示。

接著，CPU 112基於透過S40的處理接收到屬於一次旅程的資料的所有事件片段確定是否S44至S60的處理都完成(S62)。然後，當確定存在事件片段尚未完成(S62：否)，則CPU 112返回到S42的處理。

相較之下，當確定在所有事件片段上完成了S44至S60的處理時(S62：是)，CPU 112操作通訊設備117以將更新後的關係定義資料DR發送到透過S40的處理接收到的資料的發送源(S64)。當完成S64的處理時，CPU 112一次結束圖3的部分(b)所示的一系列處理。

相較之下，如圖3的部分(a)所示，CPU 72接收更新的關係定義資料DR(S34)，並用接收到的關係定義資料DR重寫在S12的處理中使用的關係定義資料DR(S36)。當完成S36的處理或在S30的處理中做出否定確定時，CPU 72一次結束圖3的部分(a)所示的一系列處理。

在車輛VC1裝運時儲存在記憶體76中的關係定義資料DR是在透過測試台或類似的進行車輛行駛的模擬的同時透過基於圖2和圖3的處理，將強化學習進行到一定程度之學習模型。注意，關於用於強化學習的動作值函數Q的自變量，狀態s和動作a的可能值的所有組合的一部分藉由在出貨前學習中的人類知識或類似的而減少。即，例如，確定加速器操作量PA的時間序列資料中的相鄰兩個採樣值之一變為加速器操作量PA的最小值並且另一個採樣值變為不是由加速器踏板86上的人為操作引起的最大值，並且動作值函數Q並非僅在裝運前的學習中被定義的情況。在實施方式中，透過基於人類知識或類似的降維，定義動作值函數Q的狀態s的可能值被限制為等於或小於10的四次方，更希望的是，僅在裝運前的學習中等於或小於10的三次方。

這裡，將描述實施方式的操作和效果。CPU 72利用使用者在加速器踏板86上的操作來獲取加速器操作量PA的時間序列資料作為狀態s，並根據策略π設定包括節流閥開度指令值TA*和延遲量aop的動作a。在此，CPU 72基本上基於在關係定義資料DR中定義的動作值函數Q來選擇使期望報酬最大化的動作。注意，CPU 72透過以預定概率ε選擇除了使期望報酬最大化的動作a以外的動作來探索使期望報酬最大化的動作。然後，CPU 72發送狀態s、動作a、轉矩Trq、轉矩指令值Trq*和加速度Gx到資料分析中心110。

這樣，資料分析中心110可以透過隨著使用者駕駛車輛VC1而進行的強化學習來更新關係定義資料DR。因此，根據加速器操作量PA，節流閥開度指令值TA*和延遲量aop可以在不過度增加專家的工時的同時在車輛VC1的行駛中被設定為適當的值。特別是，由於基於從複數個車輛發送來的資料來更新單一關係定義資料DR，因此與基於從一輛車輛發送的資料來更新單一關係定義資料DR的情況相比，資料分析中心110可以增加關係定義資料DR的更新頻率。這意味著用於更新關係定義資料DR的探索次數能夠在短時間內增加。

即，雖然在每個狀態中選擇除了貪婪動作以外的每個動作的概率是“ε/|A|”，但是直到在每個狀態中充分評估了除了貪婪動作以外的動作為止，動作需要被選擇一定的次數。這意味著每個狀態s的發生次數都需要增加。在此，一百萬個車輛中特定狀態s發生的總頻率變成大約該車輛中狀態下狀態s發生頻率的一百萬倍。為此，當來自一百萬輛車輛的資料被使用時，在充分評估透過探索選擇的動作中，直到狀態s發生所請求的次數所需的時間變成大約當僅使用一輛車輛的資料時所需時間的百萬分之一。因此，當不同的使用者駕駛車輛時，可以迅速找到適當的動作。

根據上述實施方式，進一步獲得了以下效果。資料分析中心110更新個別關係定義資料DR用於分組車輛的每條資料代替了使用所有車輛的資料來更新單一關係定義資料DR。由此，例如，即使在裝運車輛時安裝了所有車輛共用的關係定義資料DR，也可以將關係定義資料更新至更適合用於每個組的資料。

在僅透過對裝運前動作值函數Q的自變量的一部分值進行透過增強學習的學習的狀態下，可以基於裝運後車輛VC1的駕駛的所有自變量的值學習動作值函數Q。由此，由於在產品裝運前很難進行學習，因此透過基於具有較大維度的自變量的增強學習，可以基於從車輛VC1、VC2、…發送的大量資料來學習動作值函數Q。

加速器操作量PA的時間序列資料包括在動作值函數Q的自變量中。由此，與當與加速器操作量PA有關的單一採樣值用作自變量時相比，可以精確地調整動作a的值用於加速器操作量PA中的各種變化。

節流閥開度指令值TA*本身包括在動作值函數Q的自變量中。由此，例如，與當節流閥開度指令值TA*的行為進行建模的模型表達式的參數或類似的被用作與節流閥開度有關的自變量時相比，透過增強學習的探索自由度容易提高。第二實施方式

首先，將參考圖式來描述與第一實施方式的不同之處。

在該實施方式中，採取除貪婪動作以外的動作的概率ε隨著時間逐漸減小至零，使得當在車輛裝運後經過一定時間後，僅選擇貪婪動作。在本實施方式中，僅在一個階段中進行行駛距離Lt的分類，並且在行駛距離Lt變大到一定程度的組中臨時執行重新探索。

圖5是表示本實施方式的增強學習的處理步驟。圖5的部分(a)所示的處理透過CPU 72執行圖1所示的ROM 74中儲存的用於學習的子程式74b來實施。透過CPU 112執行儲存在ROM 114中的用於學習的主程式114a來實現圖5的部分(b)所示的處理。在以下描述中，與圖3所示的處理相對應的處理是為了方便起見，用相同的步驟編號表示。在下面的描述中，將按時間順序描述圖5所示的處理。

如圖5的部分(b)所示，CPU 112執行S40至S62的處理。接下來，CPU 112確定行駛距離Lt是否等於或大於消耗下限值LtL(S70)。在此，消耗下限值LtL是確定行駛距離Lt的分類的閾值的值。消耗下限值LtL被設定至除貪婪動作被選擇以外的動作的概率ε被假設為零的值。

當確定行進距離Lt等於或大於消耗下限值LtL時(S70：是)，CPU 112確定在具有行進的一組車輛中是否完成了重新探索距離Lt等於或大於消耗下限值LtL(S72)。在此，重新探索的完成意味著透過下述S60a的處理，選擇了貪婪動作以外的動作的概率ε變為零。當確定重新探索尚未完成時(S72：否)，CPU 112將貪婪動作以外的一個動作ai替換為探索動作ae(S74)。接下來，CPU 112更新貪婪動作以外的該動作的標籤變量i(S76)。然後，CPU 72針對具有行進距離Lt等於或大於消耗下限值LtL的組更新關係定義資料DR(S60a)。選擇貪婪動作的概率為“1-ε”，選擇探索動作ae的概率為“ε”，選擇其他動作的概率為“0”。

然後，當完成S60a的處理時，當在S70的處理中做出否定確定時，或者當在S72的處理中做出肯定確定時，CPU 112確定是否更新了關係定義資料DR(S78)。這裡，即使在S72的處理中做出了肯定確定，當用於具有行駛距離Lt等於或大於消耗下限值LtL的組的關係定義資料DR並未被發送到車輛作為透過S40的處理接收到的資料的發送源時，CPU 112確定存在更新的資料。然後，當確定存在更新的資料時(S78：是)，CPU 72操作通訊設備117以發送關係定義資料DR到車輛作為透過S40的處理接收的資料的發送源(S64)。

當完成S64的處理時或當在S78的處理中做出否定確定時，CPU 112一次結束圖5的部分(b)所示的一系列處理。相較之下，在圖5的部分(a)中，CPU 72確定是否存在更新資料(S80)。然後，當確定存在更新資料時(S80：是)，CPU 72進行到S34的處理。當完成S36的處理時或當在S30或S80的處理中做出否定確定時，CPU 72一次結束圖5的部分(a)所示的一系列處理。

這裡，將描述實施方式的操作和效果。CPU 72根據使用者對加速器踏板86的操作來獲取加速器操作量PA的時間序列資料，並設定包括節流閥開度指令值TA*和延遲量aop的動作a符合策略π。在此，CPU 72基本上基於在關係定義資料DR中定義的動作值函數Q來選擇使期望報酬最大化的動作。應注意到，CPU 72透過以預定概率ε選擇使期望報酬最大化的動作以外的動作來探索使期望報酬最大化的動作。由此，關係定義資料DR可以透過使用者駕駛車輛VC1的強化學習來更新。由此，在不過度增加專家的工時的同時，節流閥開度指令值TA*和根據加速器操作量PA的延遲量aop可被設定至在車輛VC1的行駛中的適當值。

這裡，由於概率ε隨著時間逐漸減小至零，因此當進行一定程度的學習時，作出確定關係定義資料DR適用於實際行駛，並且可以僅選擇貪婪動作。由此，恆定節流閥開度指令值TA*和延遲量aop被恆定地設定。

注意，當車輛的行駛距離Lt變大時，由於車輛的消耗，存在關係定義資料DR不是最佳資料的擔憂。例如，當沉積物沉積在節流閥14中或在進氣通路12中時，由於進氣通路12的流路截面積變小，所以即使節流閥開度TA相同，進氣量Ga也變小。因此，期望根據在關係定義資料DR中定義的加速器操作量PA的時間序列資料使期望報酬最大化的節流閥開度指令值TA*變成用於補償由於沉積物沉積在節流閥14上而導致進氣通道12的流道橫截面面積減小的值。

因此，在該實施方式中，考慮到行駛距離Lt增大到一定程度並且正在消耗車輛，對車輛執行重新探索。由此，在產品裝運之後，隨著若干車輛的行駛距離Lt等於或大於消耗下限值LtL，則可以透過增強學習來學習適合用於消耗車輛的關係定義資料DR。

根據上述實施方式，進一步獲得了以下效果。在重新探索處理期間，每當發送關係定義資料DR時，CPU 112改變探索動作ae。由此，如圖6所示。動作a1被用作車輛VC1中的探索動作ae，動作a2被選擇為車輛VC2中的探索動作，動作a3被選擇為車輛VC3中的探索動作ae。由此，與執行重新探索的車輛隨機選擇動作a相比，可以將貪婪動作以外的其他動作提前預定次數檢測。對應關係

上述實施方式中的事項與本發明之間的對應關係如下。在本發明中，電子設備對應於節流閥14或點火裝置26。第一處理器對應於CPU 72和ROM 74，並且第二處理器對應於CPU 112和ROM 114。記憶體對應於記憶體76或116。獲取處理對應於S10、S16的處理。操作處理對應於S14的處理。獎勵計算處理對應S46至S50的處理。更新處理對應於S54至S60的處理。更新映射對應於由用於學習的主程式114a確定的S54至S60的處理所定義的映射。在本發明中，指定處理對應於S52的處理。在本發明中，消耗程度透過行駛距離Lt來量化。在本發明中，當未採取貪婪動作時，探索處理對應於S12、S14的處理。指令處理對應於S74、S76、S60a、S64的處理。其他實施方式

實施方式可以修改如下。只要不出現技術矛盾，就可以組合實施方式和以下修改示例。可變的消耗程度指示

在上述實施方式中，儘管行駛距離Lt被例示作為指示車輛的消耗程度的變量，但是本發明不限於此。例如，可以使用節流閥14的開度的每百分之一的進氣量Ga的平均值。例如，如在下面描述的“車輛”欄中所描述的，在包括旋轉電機作為車輛的推力產生裝置的車輛的情況下，可以使用向旋轉電機提供電力的電池的完全充滿的電荷量。車輛分類

在上述實施方式中，根據車輛的消耗程度和區域將複數個車輛分為複數個組，本發明不限於此。例如，車輛可以僅根據車輛消耗程度和區域這兩個要素之一進行分類。

作為用於指定組的變量，例如，可以使用加速器操作量PA的最大值或平均值。由此，可以執行根據使用者的駕駛偏好的分類。車輛的分類不限於從預定觀點預先定義。例如，可以透過對從複數個車輛獲得的資訊進行聚類來透過無監督學習自動地生成複數個組。

類似地，車輛的分類本身也不是必不可少的。指令處理指令處理不限於透過S74、S76、S60a、S64的處理而簡化的指令處理。例如，指令處理可以是用於執行以下動作的指令的處理，動作為使節流閥開度指令值TA*大於加速器操作量PA的動作或僅對於具有消耗程度等於或大於預定值的車輛優先地使延遲量aop變小的動作。具體地，例如，可以更新策略π，以使得在探索中不包括使節流閥開度指令值TA*小於當前貪婪動作的動作或使延遲量aop大的動作，並且更新後的關係定義資料DR可以從資料分析中心110發送到目標車輛。

例如，當發現除了當前貪婪動作之外的動作之中存在使期望報酬顯著變大的動作時，指令處理可以是用於指示執行所找到的動作和類似探索處理的動作。在此，在預定的狀態下使期望的獎勵顯著變大的動作例如是動作值函數Q的增加量變成預定時段中的預定值以上所針對的動作。替代地指令處理可以是具體地用於更新策略π的處理，使得僅以下的動作在探索中被包括，其中針對該動作，節流閥開度指令值TA*相對於所找到的動作a的值的差的絕對值是絕對值為等於或小於預定值且相對於所找到的動作a的延遲量aop之差的絕對值等於或小於預定值，並且指令處理可以是用於將更新之後的關係定義資料DR從資料分析中心110發送到每個車輛。動作變量

在上述實施方式中，儘管將節流閥開度指令值TA*被例示作為與如動作變量的節流閥的開度有關的變量相關，但是本發明不限於此。例如，節流閥開度指令值TA*對加速器操作量PA的響應性可以透過浪費時間和二階滯後濾波器來表示，包括浪費時間和定義二階滯後的兩個變量的總共三個變量可以被使用作為與節流閥的開度有關的變量。在這種情況下，期望狀態變量是加速器操作量PA的每單位時間的變化量，而不是將加速器操作量PA的時序資料。

在上述實施方式中，儘管將延遲量aop例示作為與點火定時相關的變量如動作變量，但是本發明不限於此。例如，可用點火定時本身透過KCS進行校正。

在上述實施方式中，儘管與節流閥的開度有關的變量和與點火定時有關的變量例示作為動作變量，但是本發明不限於此。例如，除了與節流閥的開度有關的變量和與點火定時有關的變量之外，還可以使用燃料噴射量。關於這三個值，僅與節流閥的開度和燃料噴射有關的變量可以採用作動作變量，或者僅與點火定時和燃料噴射量有關的變量可以採用作動作變量。關於這三個值，可以僅採用一個值作為動作變量。

如“內燃機”欄中所述，在壓縮點火內燃機中，可以使用與噴射量有關的變量代替與節流閥的開度有關的變量，以及可以使用與噴射定時相關的變量來代替與點火定時有關的變量。理想的是，除了與噴射定時有關的變量之外，還新增了與一個燃燒循環中的噴射次數有關的變量或與兩個時間序列上相鄰的燃料噴射之一的結束定時以及一個燃燒循環中一個汽缸的另一個燃料噴射的開始定時之間的時間間隔有關的變量。

例如，當變速器50是分級變速器時，可以將透過液壓來調整離合器的接合狀態的電磁閥的電流值等用作動作變量。替代地，例如，如“車輛”欄中所述，當採用混合動力車輛、電動車輛或燃料電池車輛作為車輛時，扭矩或旋轉電機的輸出可以用作動作變量。例如，當設置有包括隨著內燃機的曲軸的旋轉動力而旋轉的壓縮機的車載空調裝置時，該壓縮機的負載扭矩可以包括在動作變量中。當設置有電車載空調裝置時，則空調裝置的功耗可以包括在動作變量中。狀態

在上述實施方式中，儘管加速器操作量PA的時間序列資料是包括以規則間隔採樣的六個值的資料，但是本發明不限於此。包括以不同採樣時序的兩個或更多個採樣值的資料應該被使用，在這種情況下，更希望使用包含三個或更多採樣值的資料或具有常規採樣間隔的資料。

與加速器操作量有關的狀態變量不限於加速器操作量PA的時間序列資料，例如，如在“動作變量”欄中所述，加速器操作量PA的每單位時間的變化量等可以被使用。

例如，如“動作變量”一欄中所述，當電磁閥的電流值是動作變量，變速器的輸入軸52的轉速或輸出軸54的轉速、由電磁閥調整的液壓可以包括在該狀態下。替代地，如在“動作變量”欄中所描述的，當旋轉電機的轉矩或輸出是該動作變量時，電池的充電速率或溫度可以被包括在該狀態中。例如，如在“動作變量”欄中所描述的，當壓縮機的負載轉矩或空調裝置的功率消耗包括在動作中時，車廂中的溫度可以包括在該狀態中。表格格式的資料降維

表格格式的資料的降維方法不限於上述實施方式中所示的方法。例如，由於加速器操作量PA很少變為最大值，因此，動作值函數Q在加速器操作量PA變成等於或大於指定量的狀態中未被定義，並且當加速器操作量PA變成等於或大於指定量時即以及節流閥開度指令值TA*等可以被分開地適配。例如，可以透過從動作的可能值中排除節流閥開度指令值TA*等於或大於指定值的值來執行尺寸減小。

車輛裝運後，與裝運前相比，用於強化學習的動作值函數Q的自變量的可能值範圍的擴大不是必不可少的。裝運前的強化學習本身並不是必不可少的。例如，在具有相同排氣量的內燃機中，在動作值函數Q的初始值透過將車輛的自適應資料與已經適應該狀態的動作變量相轉移來設定之後，可以裝運車輛並在裝運後最初可以執行強化學習。關係定義資料

在上述實施方式中，儘管動作值函數Q是表格式的函數，但是本發明不限於此。例如，可以使用函數近似器。

例如，策略π可能是採取動作a而不是使用動作值函數Q的概率，並且策略π本身可以根據獎勵r進行更新。例如，這允許策略π要使用狀態s和動作a為自變量以及將動作a作為應變量的函數近似器來實現。在這種情況下，應根據獎勵r更新確定函數近似器的參數。操作處理

例如，如“關係定義資料”欄中所述，當動作值函數是函數近似器時，最大化動作值函數Q的動作a應透過將動作上的所有離散值的集在上述實施方式中以表格格式輸入作為函數的自變量到動作值函數Q與狀態值s。

例如，如“關係定義資料”欄中所述，在策略π是具有狀態s和動作a作為自變量以及將動作a作為應變量的概率的函數近似器的情況下，應基於策略π指示的概率選擇動作a。更新映射

在S54至S60的處理中，儘管使用ε-軟策略型蒙特卡羅方法的情況，但是本發明不限於此。例如，非策略型蒙特卡羅方法可以使用。當然，本發明不限於蒙特卡羅方法，例如，可以使用非策略類型的TD方法，可以使用策略型TD方法，例如SARSA方法，或者資格追踪方法可以用作策略型學習。

例如，如“關係定義資料”欄中所述，當使用函數近似器表達策略π，並且基於獎勵r直接更新策略π時，可以使用策略梯度方法等來配置更新映射。

基於獎勵r直接更新的目標不限於動作值函數Q和策略π中的任何一個。例如，像動作標準方法一樣，動作值函數Q和策略π可以更新。在動作標準方法中，要更新的目標不限於此，例如，值函數V可以是要更新的目標，而不是動作值函數Q。獎勵計算處理

在圖3的處理中，儘管根據條件(A)和條件(B)的邏輯乘積是否為真來提供獎勵，但是本發明不限於此。例如，可以執行用於根據是否滿足條件(A)提供獎勵的處理以及根據是否滿足條件(B)提供獎勵的處理。例如，關於根據是否滿足條件(A)來提供獎勵的處理以及根據是否滿足條件(B)來提供獎勵的處理之兩種處理，可以僅執行任何一種處理。

例如，代替在滿足條件(A)時均一地提供相同獎勵的處理，可以應用用於當扭矩Trq與扭矩命令值Trq*之間的差的絕對值小於當絕對值大時提供更大獎勵的處理。例如，代替在不滿足條件(A)時均一地提供相同獎勵的處理，可以應用用於當扭矩Trq與扭矩指令值Trq*之間的差的絕對值大於當絕對值小時提供較小獎勵的處理。

例如，代替當滿足條件(B)時均一地提供相同的獎勵，可以應用用於根據加速度Gx的大小來製作獎勵變量的大小的處理。當不滿足條件(B)時，代替均一地獲得相同的獎勵，則可以應用根據加速度Gx的大小來製作獎勵變量的大小的處理。

在上述示例中，儘管根據是否滿足與駕駛性能有關的標準來提供獎勵r，但是與駕駛性能有關的標準不限於上述條件，而是可以根據噪聲或振動強度是否滿足標準而被設定。當然，本發明不限於以下，並且例如，可以使用加速度是否滿足標準、轉矩Trq的追隨性是否滿足標準、噪聲是否滿足標準、振動強度是否滿足標準的四個條件中的任一種。

獎勵計算處理不限於根據是否滿足與駕駛性能有關的標準來提供獎勵r。例如，用於當燃料消耗率滿足標準時提供比當燃料消耗率不滿足標準時更大的獎勵的處理。替代地，也可以應用當排氣特性滿足條件時提供比排氣特性不滿足條件的情況下的報酬更大的處理。應注意到，用於當與駕駛性能有關的標準滿足該標準時提供比當與駕駛性能有關的標準不滿足該標準時更大的獎勵，當燃料消耗率滿足該標準時提供比當燃料消耗率不滿足該標準時更大的獎勵的處理，並且當排氣特性滿足該標準時提供比當排氣特性不滿足該標準時更大獎勵的處理之三種處理中的兩種或三種可以被包括。

例如，如“動作變量”欄中所述，當變速器50的電磁閥的當前值是動作變量時，例如，以下三種處理(a)至(c)可以包括在獎勵計算處理中。

(a)用於當變速器中切換齒輪比所需的時間在預定時間內時提供比當時間超過預定時間時更大的獎勵的處理(b)用於當變速器的輸入軸52的轉速的變化率的絕對值等於或小於當絕對值超過輸入側預定值時的輸入側預定值提供更大的獎勵的處理。

(c)進行用於當變速器的輸出軸54的轉速的變化率的絕對值等於或小於輸出側預定值時提供比當該絕對值超出輸出側預定值時更大的獎勵之處理。例如，如“動作變量”欄中所述，當旋轉電機的轉矩或輸出為動作變量時，用於當電池的充電率處於預定範圍內時提供比當電池的充電率不在預定範圍內時更大獎勵的處理或當電池的溫度在預定範圍內時比當電池的溫度超出預定範圍時提供更大獎勵的處理可以被包括。例如，如“動作變量”一欄中所述，當壓縮機的負載轉矩或空調設備的功耗被包括在動作變量內時，可以添加當車廂中的溫度在預定範圍內時比車廂中的溫度超出預定範圍時提供更大獎勵的處理。車輛控制系統

車輛控制系統不限於由控制裝置70和資料分析中心110組成的車輛控制系統。例如，車輛控制系統可以由控制裝置70、便攜式終端和資料分析中心110構成。這可以透過便攜式終端執行S12的處理來實現。處理器

處理器不限於包括CPU 72(112)和ROM 74(114)並執行軟體處理的處理器。例如，專用硬體電路，例如ASIC，其中由上述實施方式中的軟體執行的處理的至少一部分由硬體執行可以被提供。即，處理器應具有下述(a)至(c)中任一項的配置。(a)提供了一種根據程式執行整個處理的處理裝置，以及儲存該程式的程式儲存裝置，例如ROM。(b)提供一種根據程式執行部分處理的處理裝置、程式儲存裝置以及執行剩餘處理的專用硬體電路。(c)提供執行整個處理的專用硬體電路。在此，可以提供包括處理裝置和程式儲存裝置的複數個軟體處理器或複數個專用硬體電路。記憶體

在上述實施方式中，儘管儲存關係定義資料DR的記憶體和儲存用於學習的子程式74b的記憶體(ROM 74)或控制程式74a是單獨的記憶體，但是本發明不限於此。儘管儲存關係定義資料DR的記憶體和儲存用於學習的主程式114a的記憶體(ROM 114)是分開的記憶體，但是本發明不限於此。內燃機

內燃機不限於包括具有被配置以將燃料噴射到進氣通道12的端口噴射閥作為燃料噴射閥的內燃機，並且可以是具有被配置以將燃料直接噴射到燃燒室24的缸內噴射閥的內燃機，或者可以是用於例如，包括進氣口噴射閥和缸內噴射閥兩者的內燃機。

內燃機不限於火花點火式內燃機，並且可以是例如使用柴油等作為燃料的壓燃式內燃機等。車輛車輛不限於其中推力產生裝置僅是內燃機的車輛，並且例如可以是包括內燃機和旋轉電機的所謂的混合動力車輛。車輛可以是不包括內燃機並且包括旋轉電機作為推力產生裝置的所謂的電動車輛或燃料電池車輛。

10:內燃機 12:進氣通道 14:節流閥 16:燃料噴射閥 18:進氣閥 20:氣缸 22:活塞 24:燃燒室 26:點火裝置 28:曲軸 30:排氣閥 32:排氣通道 34:催化劑 40:扭矩轉換器 42:鎖定離合器 50:變速器 52:輸入軸 54:輸出軸 60:驅動輪 70:控制裝置 72:CPU 74:ROM 76:記憶體 77:通訊設備 78:週邊電路 79:本地網路 80:空氣流量計 82:節流閥感測器 84:曲柄角感測器 86:加速器踏板 88:加速器感測器 90:加速度感測器 92:全球定位系統(GPS) MS1:操作訊號 MS2:操作訊號 MS3:操作訊號 MS4:操作訊號 MS5:操作訊號 S10:步驟 S12:步驟 S14:步驟 S16:步驟 S18:步驟 S20:步驟 S22:步驟 S24:步驟 S26:步驟 S28:步驟 S30:步驟 S32:步驟 S34:步驟 S36:步驟 S40:步驟 S42:步驟 S44:步驟 S46:步驟 S48:步驟 S50:步驟 S52:步驟 S54:步驟 S56:步驟 S58:步驟 S60a:步驟 S60:步驟 S62:步驟 S64:步驟 S70:步驟 S72:步驟 S74:步驟 S76:步驟 S78:步驟 S80:步驟

下面將參照圖式描述本發明的示例性實施方式的特徵、優點以及技術和工業重要性，其中，相同的圖式標記表示相同的元件，並且其中： [圖1]是示出根據第一實施方式的車輛控制系統的結構的圖。 [圖2]是示出根據第一實施方式的控制裝置執行的處理步驟的流程圖。 [圖3]中的部分(a)和部分(b)是示出由根據第一實施方式的系統執行的處理步驟的流程圖。 [圖4]是表示根據第一實施方式的車輛的分類的圖。 [圖5]中的部分(a)和部分(b)是示出由根據第二實施方式的系統執行的處理過程的流程圖；以及 [圖6]是示出根據第二實施方式的用於再探索的動作的設定的圖。

10:內燃機

12:進氣通道

14:節流閥

16:燃料噴射閥

18:進氣閥

20:氣缸

22:活塞

24:燃燒室

26:點火裝置

28:曲軸

30:排氣閥

32:排氣通道

34:催化劑

40:扭矩轉換器

42:鎖定離合器

50:變速器

52:輸入軸

54:輸出軸

60:驅動輪

70:控制裝置

72:CPU

74:ROM

74a:控制程式

74b:用於學習的子程式

76:記憶體

77:通訊設備

78:週邊電路

79:本地網路

80:空氣流量計

82:節流閥感測器

84:曲柄角感測器

86:加速器踏板

88:加速器感測器

90:加速度感測器

92:全球定位系統(GPS)

100:外部網路

110:資料分析中心

112:CPU

114a:用於學習的主程式

114:ROM

116:記憶體

117:通訊設備

118:週邊電路

119:本地網路

DR:關係定義資料

DT:扭矩輸出映射資料

Ga:進氣量

Gx:橫向加速度

MS1:操作訊號

MS2:操作訊號

MS3:操作訊號

MS4:操作訊號

MS5:操作訊號

PA:加速器操作量

Pgps:位置資料

Scr:輸出訊號

TA:節流閥開度

VC1:車輛

VC2:車輛

Claims

一種車輛控制系統，包含：車輛控制裝置；以及與該車輛控制裝置通訊的資料分析中心，該車輛控制裝置包含：記憶體，被配置以儲存定義了車輛的狀態與動作變量之間的關係之關係定義資料，該動作變量是與該車輛中的電子設備的操作有關的變量；安裝在該車輛中的第一處理器；以及與車載裝置不同的第二處理器，其中：該第一處理器和該第二處理器被配置以執行獲取處理，用於獲取被配置以檢測該車輛的該狀態的感測器的檢測值，操作處理，用於操作該電子設備，獎勵計算處理，用於基於透過該獲取處理獲取的該檢測值，當該車輛的特性滿足標準時提供比該車輛的該特性不滿足該標準時更大的獎勵，以及更新處理，用於利用基於透過該獲取處理獲取的該檢測值之該車輛的該狀態、用於該電子設備的該操作的該動作變量的值以及該操作相對應的該獎勵作為至事先所確定的更新映射的輸入來更新該關係定義資料；該第一處理器被配置以執行至少該獲取處理和該操作處理；該第二處理器被配置以執行該更新處理；該操作處理包括用於根據透過該更新處理更新的該關係定義資料與該車輛的該狀態來操作該電子設備的處理；該第二處理器被配置以基於該更新映射輸出該關係定義資料，該關係定義資料被更新以當該電子設備按照該關係定義資料被操作時增加該獎勵的期望報酬；以及提供複數個該等車輛，並且該更新處理使該等車輛的該等狀態、該等車輛的該等動作變量的該等值以及該等車輛的該等獎勵作為至該更新映射的輸入，其中：該操作處理包括探索處理，用於執行與將從該關係定義資料確定的該期望報酬最大化的操作不同的操作；以及該第二處理器被配置以執行指令處理，用於在第一車輛和第二車輛之間發布不同的值作為如該探索處理所要執行的動作變量的該值，其中該第一車輛和該第二車輛為該等車輛中的兩個車輛。
根據請求項1之車輛控制系統，其中：該更新處理包括針對車輛被分類到的複數個組中的每一個的處理，用於更新屬於同一組的該關係定義資料，以利用該等車輛中屬於同一組的複數個車輛的該等狀態、屬於同一組的該等車輛的該等動作變量的該等值以及屬於同一組的該等車輛的該等獎勵作為至該更新映射的輸入來更新該關係定義資料；以及該第二處理器被配置以執行用於指定該等車輛的該等狀態、該等車輛的該等動作變量的該等值以及該等車輛的該等獎勵所屬的該等組的指定處理。
根據請求項2之車輛控制系統，其中，該指定處理包括用於根據該等車輛的位置來指定所屬組的處理。
根據請求項2或3之車輛控制系統，其中，該指定處理包括用於根據該等車輛的消耗程度來指定所屬組的處理。
一種車輛控制裝置，包含：記憶體，被配置以儲存定義了車輛的狀態與動作變量之間的關係之關係定義資料，該動作變量是與該車輛中的電子設備的操作有關的變量；安裝在該車輛中的第一處理器；以及與車載裝置不同的第二處理器，其中：該第一處理器和該第二處理器被配置以執行獲取處理，用於獲取被配置以檢測該車輛的該狀態的感測器的檢測值，操作處理，用於操作該電子設備，獎勵計算處理，用於基於透過該獲取處理獲取的該檢測值，當該車輛的特性滿足標準時提供比該車輛的該特性不滿足該標準時更大的獎勵，以及更新處理，用於利用基於透過該獲取處理獲取的該檢測值之該車輛的該狀態、用於該電子設備的該操作的該動作變量的值以及該操作相對應的該獎勵作為至事先所確定的更新映射的輸入來更新該關係定義資料；該第一處理器被配置以執行至少該獲取處理和該操作處理；該第二處理器被配置以執行該更新處理；該操作處理包括用於根據透過該更新處理更新的該關係定義資料與該車輛的該狀態來操作該電子設備的處理；該第二處理器被配置以基於該更新映射輸出該關係定義資料，該關係定義資料被更新以當該電子設備按照該關係定義資料被操作時增加該獎勵的期望報酬；以及提供複數個該等車輛，並且該更新處理使該等車輛的該等狀態、該等車輛的該等動作變量的該等值以及該等車輛的該等獎勵作為至該更新映射的輸入，其中：該操作處理包括探索處理，用於執行與將從該關係定義資料確定的該期望報酬最大化的操作不同的操作；以及該第二處理器被配置以執行指令處理，用於在第一車輛和第二車輛之間發布不同的值作為如該探索處理所要執行的動作變量的該值，其中該第一車輛和該第二車輛為該等車輛中的兩個車輛。
一種車輛之控制方法，該車輛包括記憶體、安裝在該車輛中的第一處理器和不同於車載裝置的第二處理器，該記憶體被配置以儲存定義了車輛的狀態與動作變量之間的關係之關係定義資料，該動作變量是與該車輛中的電子設備的操作有關的變量，該控制方法包含：獲取處理，用於藉由該第一處理器和該第二處理器獲取被配置以檢測該車輛的該狀態的感測器的檢測值，操作處理，用於藉由該第一處理器和該第二處理器操作該電子設備，獎勵計算處理，用於基於透過該獲取處理獲取的該檢測值，藉由該第一處理器和該第二處理器，當該車輛的特性滿足標準時提供比該車輛的該特性不滿足該標準時更大的獎勵，以及更新處理，用於藉由該第一處理器和該第二處理器而利用基於透過該獲取處理獲取的該檢測值之該車輛的該狀態、用於該電子設備的該操作的該動作變量的值以及該操作相對應的該獎勵作為至事先所確定的更新映射的輸入來更新該關係定義資料，其中該第一處理器被配置以執行至少該獲取處理和該操作處理；該第二處理器被配置以執行該更新處理；該操作處理包括用於根據透過該更新處理更新的該關係定義資料與該車輛的該狀態來操作該電子設備的處理；該第二處理器被配置以基於該更新映射輸出該關係定義資料，該關係定義資料被更新以當該電子設備按照該關係定義資料被操作時增加該獎勵的期望報酬；以及提供複數個該等車輛，並且該更新處理使該等車輛的該等狀態、該等車輛的該等動作變量的該等值以及該等車輛的該等獎勵作為至該更新映射的輸入，其中：該操作處理包括探索處理，用於執行與將從該關係定義資料確定的該期望報酬最大化的操作不同的操作；以及該第二處理器被配置以執行指令處理，用於在第一車輛和第二車輛之間發布不同的值作為如該探索處理所要執行的動作變量的該值，其中該第一車輛和該第二車輛為該等車輛中的兩個車輛。