TW202117179A - 產生車輛控制資料之方法,車輛控制裝置,及車輛控制系統 - Google Patents

產生車輛控制資料之方法,車輛控制裝置,及車輛控制系統 Download PDF

Info

Publication number
TW202117179A
TW202117179A TW109135641A TW109135641A TW202117179A TW 202117179 A TW202117179 A TW 202117179A TW 109135641 A TW109135641 A TW 109135641A TW 109135641 A TW109135641 A TW 109135641A TW 202117179 A TW202117179 A TW 202117179A
Authority
TW
Taiwan
Prior art keywords
value
vehicle
state
reward
data
Prior art date
Application number
TW109135641A
Other languages
English (en)
Inventor
橋本洋介
片山章弘
大城裕太
杉江和紀
岡尚哉
Original Assignee
日商豐田自動車股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商豐田自動車股份有限公司 filed Critical 日商豐田自動車股份有限公司
Publication of TW202117179A publication Critical patent/TW202117179A/zh

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/19Improvement of gear change, e.g. by synchronisation or smoothing gear shift
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D45/00Electrical control not provided for in groups F02D41/00 - F02D43/00
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K7/00Disposition of motor in, or adjacent to, traction wheel
    • B60K7/0007Disposition of motor in, or adjacent to, traction wheel the motor being electric
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/15Control strategies specially adapted for achieving a particular effect
    • B60W20/16Control strategies specially adapted for achieving a particular effect for reducing engine exhaust emissions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/188Controlling power parameters of the driveline, e.g. determining the required power
    • B60W30/1882Controlling power parameters of the driveline, e.g. determining the required power characterised by the working point of the engine, e.g. by using engine output chart
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/002Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D11/00Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated
    • F02D11/06Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance
    • F02D11/10Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type
    • F02D11/105Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type characterised by the function converting demand to actuation, e.g. a map indicating relations between an accelerator pedal position and throttle valve opening or target engine torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/021Introducing corrections for particular conditions exterior to the engine
    • F02D41/0215Introducing corrections for particular conditions exterior to the engine in relation with elements of the transmission
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1405Neural network control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1406Introducing closed-loop corrections characterised by the control or regulation method with use of a optimisation method, e.g. iteration
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2425Particular ways of programming the data
    • F02D41/2429Methods of calibrating or learning
    • F02D41/2451Methods of calibrating or learning characterised by what is learned or calibrated
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02PIGNITION, OTHER THAN COMPRESSION IGNITION, FOR INTERNAL-COMBUSTION ENGINES; TESTING OF IGNITION TIMING IN COMPRESSION-IGNITION ENGINES
    • F02P5/00Advancing or retarding ignition; Control therefor
    • F02P5/04Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions
    • F02P5/145Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions using electrical means
    • F02P5/15Digital data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/11Controlling the power contribution of each of the prime movers to meet required power demand using model predictive control [MPC] strategies, i.e. control methods based on models predicting performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/12Controlling the power contribution of each of the prime movers to meet required power demand using control strategies taking into account route information
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/20Reducing vibrations in the driveline
    • B60W2030/206Reducing vibrations in the driveline related or induced by the engine
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0013Optimal controllers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0014Adaptive controllers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0018Method for the design of a control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0026Lookup tables or parameter maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0604Throttle position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0657Engine torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0666Engine power
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/08Electric propulsion units
    • B60W2510/083Torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/08Electric propulsion units
    • B60W2510/085Power
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1005Transmission ratio engaged
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1015Input shaft speed, e.g. turbine speed
    • B60W2510/102Input speed change rate
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/104Output speed
    • B60W2510/1045Output speed change rate
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1075Change speed gearings fluid pressure, e.g. oil pressure
    • B60W2510/108Change speed gearings fluid pressure, e.g. oil pressure pressure of control fluid
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/24Energy storage means
    • B60W2510/242Energy storage means for electrical energy
    • B60W2510/244Charge state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/10Accelerator pedal position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60YINDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
    • B60Y2300/00Purposes or special features of road vehicle drive control systems
    • B60Y2300/47Engine emissions
    • B60Y2300/474Catalyst warm up
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/002Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus
    • F01N11/005Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus the temperature or pressure being estimated, e.g. by means of a theoretical model
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/007Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring oxygen or air concentration downstream of the exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N13/00Exhaust or silencing apparatus characterised by constructional features ; Exhaust or silencing apparatus, or parts thereof, having pertinent characteristics not provided for in, or of interest apart from, groups F01N1/00 - F01N5/00, F01N9/00, F01N11/00
    • F01N13/008Mounting or arrangement of exhaust sensors in or on exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2590/00Exhaust or silencing apparatus adapted to particular use, e.g. for military applications, airplanes, submarines
    • F01N2590/11Exhaust or silencing apparatus adapted to particular use, e.g. for military applications, airplanes, submarines for hybrid vehicles
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0402Methods of control or diagnosing using adaptive learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0412Methods of control or diagnosing using pre-calibrated maps, tables or charts
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0416Methods of control or diagnosing using the state of a sensor, e.g. of an exhaust gas sensor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0418Methods of control or diagnosing using integration or an accumulated value within an elapsed period
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/08Parameters used for exhaust control or diagnosing said parameters being related to the engine
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/10Parameters used for exhaust control or diagnosing said parameters being related to the vehicle or its components
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/12Parameters used for exhaust control or diagnosing said parameters being related to the vehicle exterior
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/14Parameters used for exhaust control or diagnosing said parameters being related to the exhaust gas
    • F01N2900/1411Exhaust gas flow rate, e.g. mass flow rate or volumetric flow rate
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/16Parameters used for exhaust control or diagnosing said parameters being related to the exhaust apparatus, e.g. particulate filter or catalyst
    • F01N2900/1621Catalyst conversion efficiency
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N9/00Electrical control of exhaust gas treating apparatus
    • F01N9/005Electrical control of exhaust gas treating apparatus using models instead of sensors to determine operating characteristics of exhaust systems, e.g. calculating catalyst temperature instead of measuring it directly
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N9/00Electrical control of exhaust gas treating apparatus
    • F01N9/007Storing data relevant to operation of exhaust systems for later retrieval and analysis, e.g. to research exhaust system malfunctions
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/08Exhaust gas treatment apparatus parameters
    • F02D2200/0802Temperature of the exhaust gas treatment apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/10Parameters related to the engine output, e.g. engine torque or engine speed
    • F02D2200/1002Output torque
    • F02D2200/1004Estimation of the output torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • F02D41/1444Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases
    • F02D41/146Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases the characteristics being an NOx content or concentration
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • F02D41/1444Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases
    • F02D41/1466Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases the characteristics being a soot concentration or content

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Combustion & Propulsion (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Human Computer Interaction (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Control Of Vehicle Engines Or Engines For Specific Uses (AREA)
  • Hybrid Electric Vehicles (AREA)

Abstract

一種產生車輛控制資料之方法,包含:利用儲存裝置儲存關係規定資料;利用執行裝置操作內燃引擎之可操作部分;利用該執行裝置獲取來自偵測該車輛之該狀態之感測器的偵測值;利用該執行裝置計算報酬;及利用該執行裝置使用事先判定之更新映射、使用基於該偵測值之該車輛之該狀態的該更新映射、用以操作該可操作部分之操作量、及對應於該操作之該報酬作為自變數來更新該關係規定資料,且回傳已被更新之該關係規定資料,使得當該可操作部分依照該關係規定資料操作時所計算之該報酬的預期獲利會增加。

Description

產生車輛控制資料之方法,車輛控制裝置,及車輛控制系統
本發明關於產生車輛控制資料之方法、車輛控制裝置、及車輛控制系統。
日本未實審專利申請公開案第2016-6327號(JP2016-6327 A)例如描述一種控制裝置,其基於藉由篩選加速器踏板之操作量所獲得之值來操作節氣閥,該節氣閥係安裝在車輛上之內燃引擎的可操作部分。
上述篩選係需要依照加速器踏板之操作量來將安裝在車輛上之內燃引擎之節氣閥的操作量設定至一適當的操作量,且因此需要專家花費很多人力工時來最佳化該篩選。因此,專家迄今為止花費很多人力工時以依照車輛之狀態來調適諸如內燃引擎之驅動系統之操作量等等。
依照本發明之第一態樣之產生車輛控制資料的方法,其包含利用儲存裝置儲存關係規定資料,該關係規定資料係規定包含內燃引擎之車輛之狀態及該內燃引擎之可操作部分之操作量之間之關係的資料,該車輛之該狀態包含該內燃引擎之狀態;利用執行裝置操作該可操作部分;利用該執行裝置獲取來自偵測該車輛之該狀態之感測器的偵測值;利用該執行裝置基於該偵測值從燃料消耗率、排氣特性及駕駛性能之至少一者的觀點來計算報酬;及利用該執行裝置使用事先判定之更新映射、使用基於該偵測值之該車輛之該狀態的該更新映射、用以操作該可操作部分之操作量、及對應於該操作之該報酬作為自變數來更新該關係規定資料,且回傳已被更新之該關係規定資料,使得當該可操作部分依照該關係規定資料操作時所計算之該報酬的預期獲利會增加。
利用上述之方法,可以藉由計算伴隨可操作部分之操作之報酬來抓取透過此操作可獲得之報酬。車輛之狀態與內燃引擎之可操作部分之操作量之間的關係可藉由使用已經過基於報酬之加強學習的更新映射更新該關係規定資料來設定。因此,可以減少專家在設定車輛之狀態與內燃引擎之可操作部分之操作量之間的關係時所需要的人力工時數量。
在上述第一態樣中,該報酬可在當該排氣特性對應於預定特性時比當該排氣特性未對應於該預定特性時還大。該預定特性可包含以下至少一者:落在一預定範圍內之氮氧化物排放量、落在一預定範圍內之未燃燒的燃料排放量、落在一預定範圍內之顆粒物質排放量、及落在一預定範圍內之被提供在內燃引擎之排氣通道中之觸媒溫度。
利用上述的方法,可適當造成排氣特性對應於該預定特性之該關係規定資料可透過加強學習來學習。
在上述第一態樣中,該執行裝置可計算該報酬,使得滿足以下條件之至少一者:從該駕駛性能之該觀點已被量化之該報酬在當該車輛之加速度落在第一預定範圍內時比當該車輛之該加速度落在該第一預定範圍外時還大;從該駕駛性能之該觀點已被量化之該報酬在當該車輛之急衝度落在第二預定範圍內時比當該急衝度落在該第二預定範圍外時還大;及從該駕駛性能之該觀點已被量化之該報酬在當由該內燃引擎產生之聲音位準落在第三預定範圍內時比當該聲音之位準落在該第三預定範圍外時還大。
利用上述之方法,可適當滿足駕駛性能之需求的該關係規定資料可透過加強學習來學習。
在上述第一態樣中,該方法可進一步包含利用該執行裝置藉由基於被更新之該關係規定資料來形成在該車輛之該狀態與最大化該預期獲利之該操作量之間的一對一對應性而使用該車輛之該狀態作為自變數且回傳最大化該預期獲利之該操作量來產生控制映射資料。
利用上述的方法,該控制映射資料係基於已透過加強學習而學習之該關係規定資料來產生。因此,便可藉由安裝該控制映射資料於該控制裝置中而基於該車輛之狀態來方便地設定可最大化預期獲利之操作量。
依照本發明之第二態樣的車輛控制裝置包含儲存裝置及被組構成用以執行依照第一態樣之方法的執行裝置,其中,該執行裝置被組構成基於依照關係規定資料及該車輛之該狀態判定之操作量來操作該可操作部分。
利用上述之組態,該車輛控制裝置可隨著安裝在該車輛上之內燃引擎之可操作部分的操作來學習關係規定資料。
在上述第二態樣中,該執行裝置可被組構成用以獲取內燃引擎之輸出及扭力之至少一者的所需值及計算值作為偵測值,且計算該報酬,使得該報酬在當該所需值及該計算值之間之差值的絕對值等於或小於預定值時比當該絕對值大於該預定值時還大。
利用上述之組態,便可以學習該關係規定資料,其可適當控制燃料消耗率、排氣特性及駕駛性能之至少一者至一目標,該目標之條件為該內燃引擎之扭力或輸出可更接近該所需值。
在上述第二態樣中,該車輛可包含變速裝置,其被組構成用以改變從該內燃引擎之曲軸輸出之旋轉速度且輸出具有已改變速度的旋轉,且被組構成用以改變速度比。由關係規定資料規定之該關係可包含該變速裝置之狀態與該變速裝置之操作量之間之關係。該執行裝置可被組構成用以獲取由被組構成用以偵測該變速裝置之狀態之感測器所偵測之值作為該偵測值,計算該報酬,使得滿足以下條件之至少一者:該報酬在當該變速裝置切換該速度比所需時間落在一預定時間內時比當該時間超過該預定時間時還大;該報酬在當該變速裝置之輸入軸桿之旋轉速度中之速度改變的絕對值等於或小於預定輸入側值時比當該輸入軸桿之該旋轉速度之該速度改變之該絕對值大於該預定輸入側值時還大;該報酬在當該變速裝置之輸出軸桿之旋轉速度中之速度改變的絕對值等於或小於預定輸出側值時比當該輸出軸桿之該旋轉速度中之該速度改變之該絕對值大於該預定輸出側值還大;及該報酬在當由該變速裝置之電磁閥(80a)調節之液壓壓力滿足預定條件時比當該液壓壓力不滿足該預定條件時還大,且藉由使用該偵測值及有關該變速裝置之該狀態作為該更新映射之該自變數來更新由該關係規定資料規定之該變速裝置之該狀態與該變速裝置之該操作量之間的關係。
利用上述之組態,可基於該變速裝置之該狀態來適當判定該變速裝置之該操作量的該關係規定資料可被學習。
在上述第二態樣中,該車輛可包含旋轉電機,其被組構成用以提供動力給驅動輪。由該關係規定資料規定之該關係可包含供應電力給旋轉電機之電力蓄積裝置之狀態與該旋轉電機之控制量之間的關係。該執行裝置可被組構成用以操作該旋轉電機之驅動電路,獲取該電力蓄積裝置之該狀態作為該偵測值,計算該報酬,使得該報酬在當該電力蓄積裝置之該狀態落在預定範圍內時比當該電力蓄積裝置之該狀態落在該預定範圍外時還大,且藉由使用該電力蓄積裝置之該狀態與該旋轉電機之該控制量作為該更新映射之自變數來更新由該關係規定資料規定之該電力蓄積裝置之該狀態與該旋轉電機之該控制量之間的關係。
利用上述之組態,可基於該電力蓄積裝置之該狀態來適當判定該旋轉電機之該控制量的該關係規定資料可被學習。
在上述第二態樣中,該執行裝置可被組構成用以獲取該車輛之輸出及驅動扭力之至少一者的所需值及計算值作為偵測值,且計算該報酬,使得該報酬在當該車輛之輸出及驅動扭力之至少一者的該所需值及該計算值之間之差值的絕對值等於或小於預定值時比當該絕對值大於該預定值時還大。
利用上述之組態,便可以學習該關係規定資料,其可適當控制燃料消耗率、排氣特性及駕駛性能之至少一者至一目標,該目標之條件為該車輛之該輸出或驅動扭力可更接近該所需值。
在上述第二態樣中,該關係規定資料可包含規定在該車輛之該狀態、該預期獲利、及該操作量當中之關係的資料。該執行裝置可被進一步組構成基於該偵測值及該關係規定資料以優先於會減少該預期獲利之操作量來選擇會增加該預期獲利之操作量。該執行裝置可被組構成基於所選擇之該操作量來操作該可操作部分。
利用上述之組態,可增加預期獲利之操作量在選擇程序中會被優先選擇,且因此可增加預期獲利之該操作在操作程序中會被優先執行。
在上述第二態樣中,該關係規定資料可以係規定函數近似器之資料,該函數近似器使用該車輛之該狀態作為自變數且回傳選擇該操作量之概率。該更新映射可包含回傳規定該函數近似器之參數之更新量的映射。
利用上述之組態,該車輛之該狀態與該操作量之間的關係可藉由使用針對一策略之函數近似器來直接規定。
依照本發明之第三態樣的車輛控制系統包含依照上述第二態樣之車輛控制裝置,其中:該執行裝置包含安裝在該車輛上之第一執行裝置及與車載裝置分開的第二執行裝置;該第一執行裝置至少執行該獲取及該操作;及該第二執行裝置至少執行該更新。
利用上述的組態,該更新程序藉由第二執行裝置執行,且因此相較於其中更新程序亦由該第一執行裝置執行的情況,可降低在第一執行裝置上的運算負載。該第二執行裝置與車載裝置分開係表示該第二執行裝置並非係車載裝置。
在上述第三態樣中,該第一執行裝置可被進一步組構成用以傳輸與該偵測值有關之資料至該第二執行裝置,接收由該第二執行裝置傳輸之該操作量,及基於從該第二執行裝置接收之該操作量來操作該可操作部分。該第二執行裝置可被進一步組構成用以接收由該第一執行裝置傳輸之資料,基於從該第一執行裝置接收之該資料及該關係規定資料來計算該操作量,及傳輸該計算的操作量。
利用上述的組態,該操作量計算程序藉由第二執行裝置執行,且因此相較於其中操作量計算程序亦由該第一執行裝置執行的情況,可降低在第一執行裝置上的運算負載。
第一實施例
依照第一實施例之產生車輛控制資料的方法將參考圖式說明如下。
圖1繪示依照本實施例之控制裝置及驅動系統。如圖1所示,從內燃引擎10之進氣通道12進入的空氣經由增壓器14而朝向進氣通道12之下游側流動。在進氣通道12中在增壓器14下游的一位置處提供一節氣閥16。在該進氣通道12中在節氣閥16下游的一位置處提供一端口噴射閥18。當一進氣閥20打開時,進入該進氣通道12的空氣及從端口噴射閥18噴射之燃料流入至一燃燒室26,該燃燒室26係由一汽缸22及一活塞24所界定。燃料係藉由汽缸內噴射閥28被噴射至燃燒室26中。當一點火裝置30放電火花時,燃料與空氣之混合物在燃燒室26中燃燒。經由燃燒產生之能量經由活塞24而被轉換成曲軸32之旋轉能量。
當排氣閥34打開時,已燃燒之混合物作為排氣被排放至排氣通道36。具有氧氣阻塞能力之三向觸媒(觸媒38)被提供在排氣通道36中位於增壓器14下游。另外,排氣通道36包含圍繞增壓器14迂迴之迂迴通道48。該迂迴通道48設有一廢氣閘閥(WGV)50,其調節迂迴通道48中之流動路徑的截面積。
曲軸32之旋轉動力經由正時鏈條40被轉移至進氣凸輪軸桿42及排氣凸輪軸桿44。在本實施例中,正時鏈條40之動力經由可變閥正時裝置46被轉移至進氣凸輪軸桿42。該可變閥正時裝置46係藉由調節曲軸32與進氣凸輪軸桿42之間之旋轉相位差來調節進氣閥20之打開時序的致動器。
另外,進氣通道12經由廢氣再循環(EGR)通道52被連接至排氣通道36。該EGR通道52設置有EGR閥54,其調節在該EGR通道52中之流動路徑的截面積。儲存在燃料箱60中之燃料藉由引擎驅動泵62被泵抽以供應至端口噴射閥18。同時,儲存在燃料箱60中之燃料藉由電力控制式高壓力燃料泵64被加壓,之後藉由引擎驅動泵62被泵抽以供應至汽缸內噴射閥28。在燃料箱60中產生的燃料蒸汽由濾罐66所捕捉。該濾罐66經由清洗通道67被連接至進氣通道12。該清洗通道67設置有一清洗泵68,其從該濾罐66側(位在清洗泵68上游側)施配流體至進氣通道12側(位在清洗泵68的下游側)。
變速裝置80之輸入軸桿82可經由具有鎖定離合器72之扭力轉換器70而機械式地耦接至曲軸32。該變速裝置80改變速度比,其係輸入軸桿82之旋轉速度與輸出軸桿84之旋轉速度之間的比值。意即,變速裝置80包含電磁閥80a,80b….且可藉由依照由電磁閥80a,80b,…調節之液壓壓力來切換式地接合及脫離離合器來建立不同的速度比。該輸出軸桿84被機械式地耦接至驅動輪88。
控制裝置90控制內燃引擎10,且操作內燃引擎10之可操作部分,諸如節氣閥16、端口噴射閥18、汽缸內噴射閥28、點火裝置30、可變閥正時裝置46、WGV48、EGR閥54、高壓力燃料泵64及清洗泵68,以控制扭力、排氣分量比等等,這些係內燃引擎10的控制量。該控制裝置90亦操作鎖定離合器72及電磁閥80a, 80b, ...以控制作為控制量之鎖定離合器72之接合狀態及變速裝置80之速度比。在圖1中,指示出分別用於節氣閥16、端口噴射閥18、汽缸內噴射閥28、點火裝置30、可變閥正時裝置46、WGV 50、EGR閥54、高壓力燃料泵64、清洗泵68、及鎖定離合器72的操作信號MS1至MS10。另外,在圖1中亦指示分別用於電磁閥80a, 80b, ...之操作信號MS11a、MS11b, …。
在控制該控制量時,控制裝置90參考藉由氣流計100偵測之進氣量Ga、藉由進氣溫度感測器102偵測之進氣溫度Ta、及藉由增壓壓力感測器104偵測之在增壓器14下游的一位置處之進氣通道12的壓力(增壓壓力Pa)。控制裝置90亦參考藉由節氣門感測器106偵測之節氣閥16的開度(節氣門開度Tor)及來自曲柄角度感測器108之輸出信號Scr。控制裝置90亦參考來自凸輪角度感測器112之輸出信號Sca及藉由水溫度感測器114所偵測之在內燃引擎10中的冷卻水的溫度(水溫度THW)。控制裝置90亦參考上游側偵測值Afu,其係來自被設置在觸媒38上游之上游側空氣燃料比感測器116的偵測值,以及下游側偵測值Afd,其係來自被設置在觸媒38下游之下游側空氣燃料比感測器118的偵測值。該控制裝置90亦參考由輸入側速度感測器120偵測之變速裝置80之輸入軸桿82的旋轉速度(輸入旋轉速度ωin),及由輸出側速度感測器122偵測之變速裝置80之輸出軸桿84的旋轉速度(輸出旋轉速度ωout)。該控制裝置90亦參考藉由電磁閥80a調節且藉由液壓壓力感測器124a偵測之液壓壓力Poila、藉由電磁閥80b調節且藉由液壓壓力感測器124b偵測之液壓壓力Poilb,等等。該控制裝置90亦參考藉由機油溫度感測器126偵測之內燃引擎10中之潤滑機油之溫度(機油溫度Toil)、藉由車輛速度感測器130偵測之車輛VC1之行進速度(車輛速度SPD)、及藉由加速器感測器132偵測之加速器踏板之操作量(加速器操作量ACCP)。
控制裝置90包含CPU 92、ROM 94、儲存裝置96(其為電性可重寫的非揮發性記憶體)、及周邊電路98,這些可經由區域網路99而彼此相通信。周邊電路98包含產生規定內部操作之時脈信號之電路、電源電路、重置電路、等等。
該控制裝置90藉由CPU 92執行被儲存在ROM 94中之程式來執行上述的控制量之控制。圖2繪示藉由控制裝置90執行之程序流程。在圖2中所示之程序藉由CPU 92以例如預定週期重複地執行控制程式94b來實施,該控制程式94b被儲存在ROM 94中。在下文中,該程序之各自步驟編號由前綴字母「S」之數字來指示。
在圖2所示之程序序列中,CPU 92首先獲取旋轉速度NE、充氣效率η、增壓壓力Pa、進氣溫度Ta、水溫度THW、機油溫度Toil、下游側偵測值Afd、上游側偵測值Afu、加速器操作量ACCP、車輛速度SPD(S10)。旋轉速度NE藉由CPU 92基於來自於曲柄角度感測器108之輸出信號Scr而計算。同時,充氣效率η藉由CPU 92基於旋轉速度NE及進氣量Ga而計算。充氣效率η係判定可被充入至燃燒室26中之空氣量之參數。
CPU 92使用在程序S10中獲取之值作為輸入而透過程序S12至S28來設定內燃引擎10之各種不同的可操作部分之操作量。該操作量並未侷限於實際操作量。在執行開路控制以達成該操作量的例子中,或例如在執行反饋控制以達成操作量的例子中,針對此等控制之命令值可被視為該操作量。
詳言之,CPU 92在程序S12中設定用於節氣閥16之開度的命令值(節氣門開度命令值Tor*),且在程序S14中設定噴射所需之燃料量(所需噴射量Qf)。CPU 92亦在程序S16中設定進氣相位差命令值DIN*,其係用於曲軸32與進氣凸輪軸桿42之間之旋轉相位差(進氣相位差DIN)之命令值,在程序S18中設定點火正時aig、及在程序S20中設定噴射分配比Kp,其係從端口噴射閥18噴射之燃料量對該所需噴射量Qf之比值。CPU 92亦在程序S22中設定WGV開度命令值Wgvor,其係用於WGV 50之開度的命令值,且在程序S24中設定一命令值(燃料壓力命令值Pf*),其係用於從汽缸內噴射閥28之燃料噴射的噴射壓力。CPU 92亦在程序S26中設定EGR開度命令值Egrvor,其係用於EGR閥54之開度的命令值,且在程序S28中設定清洗泵68之操作量(清洗操作量Pg)。
詳言之,CPU 92使用圖1中之映射資料96b執行程序S12至S28。映射資料96b包含九個映射資料,其包含九個上述之操作量作為輸出變數及對應於在程序S10中獲取之值的變數作為輸入變數。CPU 92使用對應映射資料執行上述九個操作量之映射運算,該對應映射資料使用在程序S10中獲取之值作為輸入。
映射資料係包含輸入變數之離散值及對應於該輸入變數之該值的輸出變數之值的資料集。該映射運算可以係在輸入變數值與映射資料中之輸入變數值的任何者重合的情況中導出映射資料中之輸出變數之對應值作為運算結果,及在其中在映射資料中之該輸入變數值與輸入變數值之任何者不重合的情況中導出在包含於該映射資料中之複數個輸出變數值之間內插以例如作為運算結果之一值的程序。
該CPU 92輸出操作信號MS1至MS9至各自可操作部分(S30),以基於透過程序S12至S28設定的操作量來操作該可操作部分。所有操作信號MS1至MS9並非依照透過程序S12至S28設定之操作量而唯一地判定。舉例而言,在本實施例中,節氣門開度Tor依照節氣門開度命令值Tor*被反饋控制,且因此,即使當節氣門開度命令值Tor*係相同,用於節氣閥16之操作信號MS1可具有各種不同值。
在其中程序S30完成時的情況中,該CPU 92暫時地結束在圖2中所示之程序。該映射資料96b已利用加強學習被產生。映射資料96b之產生將在下文中詳細討論。
圖3繪示產生映射資料96b之系統。在本實施例中,如圖3所示,動力計140經由扭力轉換器70及變速裝置80被機械式地耦接至內燃引擎10之曲軸32。在內燃引擎10操作期間之各種不同的狀態變數係藉由感測器群組142偵測,且該偵測結果被輸入至產生裝置150,其係產生該映射資料96b之電腦。該感測器群組142不僅包含安裝在圖1所示之車輛VC1上的感測器,且亦包含氮氣濃度感測器,其偵測被排放至排氣通道36中之排氣中的氮氣濃度的氮氣濃度感測器,及偵測在排氣中之未燃燒燃料之濃度的未燃燒燃料濃度感測器,及偵測在該排氣中之顆粒物質(PM)量之PM感測器。該感測器群組142亦包含偵測觸媒38之溫度(觸媒溫度Tcat)之觸媒溫度感測器、偵測在內燃引擎10周圍之噪音的麥克風,等等。
產生裝置150包含CPU 152、ROM 154、電性可重寫之非揮發性記憶體(儲存裝置156)、及周邊電路158,這些可經由區域網路159彼此通信。
圖4繪示藉由產生裝置150執行之程序流程。在圖4中所示之程序係藉由CPU 152執行儲存在ROM 154中之學習程式154a來實施。
在圖4中所示之程序序列中,CPU 152首先初始化由儲存在儲存裝置156中之關係規定資料156a規定之動作值函數Q(s, a),如圖3所示(S40)。動作值函數Q係其獨立變數係狀態s及動作a且其輸出變數係預期獲利的函數。在本實施例中,狀態s對應於與在程序S10中獲取之值有關的十個變數。同時,動作a對應於透過程序S12至S28設定的九個操作量。意即,在本實施例中,狀態s及動作a分別係十維度向量及九維度向量,但為方便起見,分別使用小寫字母「s」及「a」來指示。另外,依照本實施例之動作值函數Q(s, a)之表格型函數。然而,在本實施例中,動作值函數Q(s, a)被定義為僅具有藉由離散化狀態s及動作a之變數的值所獲得的某些值集合,以減少動作值函數Q(s, a)之獨立變數的組合數目。
詳言之,首先,包含類似於內燃引擎10的那些可操作部分及其操作量之內燃引擎已透過相關方法被調適以造成可操作以在每個狀態s中指定一動作a。被確實偵測的某些狀態s被選擇作為由映射資料96b規定之輸入變數值,且擷取針對此等狀態之各自動作a。例如,在其中針對一狀態擷取複數個動作a的情況中,被確實偵測之一動作是在此等動作當中最經常被採用的動作。所以,設定該狀態s及動作a之複數個集合的代表性點。然而,應注意的是,狀態s及動作a之成分被定義為藉由劃分一區域所獲得之區域,其係等於或大於針對此等成分之各者所屬之最小值且等於或小於針對此等成分之各者所屬的最大值。進行此設定以補償在其可操作部分之操作量已透過相關方法調適之內燃引擎與依照本實施例之內燃引擎10之間的排氣量差值。
在此一狀態中,CPU 152判定動作值函數Q(s, a)之獨立變數可取用以作為代表性點的值以及藉由將該動作a之每個變數的值在相對於該代表性點的正方向及負方向移位一個單位所獲得的值之範圍。舉例而言,在其中於一預定狀態s0中EGR開度命令值Egrvor之確實量測值係「5」的情況中,即使當EGR開度命令值Egrvor可取用值「0至10」,作為動作值函數Q(s0, a)之一獨立變數的該EGR開度命令值Egrvor僅可取用值「4、5、6」。意即,動作值函數Q(s, a)未針對狀態s0及EGR開度命令值Egrvor 「1」定義。
接下來,該CPU 152獲取一最近狀態st(S42)。該加速器操作量ACCP藉由產生裝置150而產生,且並非係加速器踏板之實際操作量。意即,在圖3中,加速器操作量ACCP被模擬性地產生作為與車輛狀態相關的變數,以模擬該車輛之狀態。同時,車輛速度SPD係在其中內燃引擎10及變速裝置80被安裝在該車輛上的情況中基於旋轉速度NE及變速裝置80之速度比所假設的值,且藉由產生裝置150所計算。
接下來,CPU 152依照由關係規定資料156a規定之策略πt選擇一動作at(S44)。該動作at係表示針對該狀態st選擇之動作a。該策略πt最大化選擇一動作a(貪婪動作)之概率,其最大化在狀態st中之動作值函數Q(st, a)同時未設定選擇其他動作a之可能性為「0」。當未採用貪婪動作時,可實現最佳動作之探索。這可藉由ε-貪婪動作選擇方法或soft-max動作選擇方法來實施。
接下來,該CPU 152基於該動作at操作該可操作部分(S46)。附帶一提,該動作at指定藉由如上述將等於或大於最小值且等於或小於最大值的一區域劃分所獲得之複數個區域中的一者。在操作該可操作部分時,採用對應於由該動作at指定之區域的中位數的值。在此,透過先前操作量及從動作at判定之操作量的指數移動平均程序獲得的一值可被使用作為當前操作量,而非直接使用動作at作為該操作量。該CPU 152獲取最新狀態st+1(S48)。接下來,該CPU 152利用該動作at計算報酬rt(S50)。
圖5繪示程序S50之細節。在圖5所示之程序序列中,該CPU 152首先基於來自於感測器群組142之偵測值獲取車輛之模擬性狀態,包含內燃引擎10之狀態(S60)。詳言之,CPU 152獲取上游側偵測值Afu、下游側偵測值Afd、在排氣中之氮氧化物(Nox)的NOx量Qnox(其係基於來自於氮氣濃度感測器之偵測值)、在排氣中之未燃燒的燃料之未燃燒的燃料量Qch(其係基於來自於未燃燒的燃料濃度感測器之偵測值)、在排氣中之顆粒物質(PM)之PM量Qpm(其係基於來自於PM感測器之偵測值)、及觸媒溫度Tcat(其係由觸媒溫度感測器所偵測)。該CPU 152亦獲取車輛之所需噴射量Qf(1), Qf(2), ...及前後加速度Gx(1), Gx(2), ...。在括弧中之不同數字值係指示這些值係在不同的取樣時序中所取。意即,該所需噴射量Qf(1), Qf(2), ...係所需噴射量Qf上的按時間順序的資料,且該前後加速度Gx(1), Gx(2), ...係在前後加速度Gx上的按時間順序的資料。按時間順序資料包含在從前一執行時序直到圖5程序之當前執行時序一週期期間取樣的值。該前後加速度Gx係假設在其中內燃引擎10等被安裝在車輛上的情況中作用在車輛上的前後加速度,且藉由CPU 152基於動力計140之負載扭力等而計算。該CPU 152亦獲取由麥克風偵測之聲音壓力SP、從藉由動力計140產生之負載扭力及變速裝置80之速度比所抓取之內燃引擎10之扭力(引擎扭力Trqeg)、及其所需值(所需引擎扭力值Trqeg*)。然而,應注意,亦可獲取引擎輸出Peg(其係引擎扭力Trqeg與旋轉速度NE之乘積)及其所需值(所需引擎輸出值Peg*)來取代引擎扭力Trqeg及所需引擎扭力值Trqeg*。該所需引擎扭力值Trqeg*係依照加速器操作量ACCP而設定。
接下來,該CPU 152透過程序S62至S66基於排氣特性之觀點來設定報酬。意即,該CPU 152首先判定以下條件(1)至(6)之邏輯積是否為真(S62)。此程序判定該排氣特性是否對應於預定特性。
條件(1):上游側偵測值Afu等於或大於富油側(rich-side)上限值AfuR且等於或小於貧油側(lean-side)上限值AfuL。該富油側上限值AfuR係相對於理論上的空氣燃料比在富油側上的值。該貧油側上限值AfuL係相對於理論上的空氣燃料比在貧油側上的值。
條件(2):下游側偵測值Afd等於或大於富油側上限值AfdR且等於或小於貧油側上限值AfdL。該富油側上限值AfdR係相對於理論上的空氣燃料比在富油側上的值。該貧油側上限值AfdL係相對於理論上的空氣燃料比在貧油側上的值。
條件(3):NOx量Qnox等於或小於預定量Qnoxth。 條件(4):未燃燒的燃料量Qch等於或小於預定量Qchth。 條件(5):PM量Qpm等於或小於預定量Qpmth。
條件(6):觸媒溫度Tcat等於或大於下限溫度TcatL且等於或小於上限溫度TcatH。在判定條件(1)至(6)之邏輯積為真的情況中(S62:是),該CPU 152視為該排氣特性對應於目標預定特性,且增加「10」給報酬rt(S64)。相反地,在判定上述邏輯積為假的情況中該CPU 152增加「-10」給報酬rt(S66)。這對應於給予負報酬。換言之,其對應的施以處罰。附帶一提,每當圖5中所示之程序序列週期性地開始時,報酬rt之初始值被設定為零。
在程序S64或S66完成的情況中,該CPU 152基於燃料消耗率之觀點透過程序S68及S70來計算報酬。意即,該CPU 152判定在程序S60中獲取之所需噴射量Qf(1), Qf(2), ...之積分值InQf是否等於或小於預定值InQfth(S68)。在判定該積分值InQf等於或小於該預定值InQfth的情況中(S68:是),該CPU 152增加正預定量∆給報酬rt(S70)。相較於在該積分值InQf較大的情況中,在該積分值InQf較小的情況中該預定量∆具有較大值。
在程序S70完成的情況中或在程序S68中作出否定判定的情況中,該CPU 152基於駕駛性能之觀點透過程序S72至S76來計算報酬。意即,該CPU 152首先判定以下條件(7)至(9)之邏輯積是否為真(S72)。
條件(7):前後加速度Gx每預定週期之差異量∆Gx等於或大於下限差異量∆GxthL且等於或小於上限差異量∆GxthH。 條件(8):前後加速度Gx等於或大於下限加速度GxL且等於或小於上限加速度GxH。 該下限加速度GxL及該上限加速度GxH係依照加速器操作量ACCP而可變地設定。
條件(9):聲音壓力SP等於或小於預定值SPth。 在判定條件(7)至(9)之邏輯積為真的情況中(S72:是),該CPU 152視為該駕駛性能滿足一預定準則,且增加「5」給報酬rt(S74)。相反地,在判定上述邏輯積為假的情況中(S72:否),該CPU 152增加「-5」給報酬rt(S76)。
在程序S74或S76完成的情況中,該CPU 152判定引擎扭力Trqeg及所需引擎扭力值Trqeg*之間的差值之絕對值是否等於或小於一預定量∆Trqeg(S78)。在引擎輸出Peg於程序S60中獲取的情況中,則在程序S78中判定是否引擎輸出Peg與所需引擎輸出值Peg*之間之差值的絕對值而非引擎扭力Trqeg及所需引擎扭力值Trqeg*之間之差值的絕對值係等於或小於一預定量∆Peg。
在程序S78中作出肯定判定的情況中,該CPU 152增加「10」給報酬rt(S80)。相反地,在作出否定判定的情況中,該CPU 152增加「-10」給報酬rt(S82)。
在程序S80或S82完成的情況中,該CPU 152完成圖4中之程序S50。接下來,該CPU 152計算誤差δt(S52),以計算用於更新動作值函數Q(st, at)(其係具有狀態st及動作at之動作值函數Q(s, a))之值的更新量。在本實施例中,使用策略外TD方法。意即,計算誤差δt,使用減少率γ,作為藉由從動作值函數Q(st+1, A)之最大值乘以減少率γ及報酬rt獲得之值的總和減去動作值函數Q(st, at)獲得的值。「A」表示動作a之一集合。接下來,該CPU 152藉由將藉由將誤差δt乘以學習率α所得到的一值增加至該動作值函數Q(st, at)來更新該動作值函數Q(st, at)(S54)。意即,由關係規定資料156a規定且具有狀態st及動作at作為獨立變數之動作值函數Q(s, a)的一值係藉由「α∙δt」而改變。程序S52及S54係藉由在學習程式154a中執行一執行命令來實施,以使用更新映射來更新該動作值函數Q,該報酬rt、狀態st及動作at被輸入至該更新映射且其輸出被更新的動作值函數Q。此更新映射更新在程序S10中獲取之值與依照程序S44選擇之操作量(其係由關係規定資料156a所規定)之間的關係,所以可增加預期獲利。這是因為動作值函數Q(st, at)被更新以導出可更精確地表示該實際預期獲利的值。
接下來,該CPU 152判定該動作值函數Q之值是否針對每個獨立變數收歛(S56)。在判定該值未收歛的情況中(S56:否),該CPU 152更新t,使得在程序S48中獲取之狀態st+1對應於狀態st(S58),且返回至程序S44。相反地,在判定該值收歛的情況中(S56:是),該CPU 152暫時地結束圖4中所示之程序序列。
圖6繪示基於透過圖4中之程序學習的動作值函數Q產生映射資料96b之程序流程,特別地,藉由產生裝置150所執行的程序。在圖6中所示之程序係藉由CPU 152執行儲存在ROM 154中之學習程式154a來實施。
在圖6所示之程序序列中,該CPU 152首先選擇一個狀態s(S90)。接下來,該CPU 152從對應於狀態s之動作值函數Q(s, a)選擇可最大化該動作值函數Q之值的動作a(S92)。意即,動作a係透過貪婪策略所選擇。接下來,CPU 152致使儲存裝置156儲存一組狀態s及動作a(S94)。
接下來,CPU 152判定映射資料96b之輸入變數的所有的值是否在程序S90中已被選擇(S96)。在判定存在任何未被選擇之值的情況中(S96:否),該CPU 152返回至程序S90。相反地,在所有的值已被選擇的情況中(S96:是),該CPU 152基於在程序S94中儲存的資料產生映射資料96b(S98)。在此,對應於針對狀態s之映射資料96b之輸入變數的值的輸出變數之值被判定為該對應動作a。
在程序S98完成的情況中,該CPU 152暫時地結束圖6中所示之程序序列。圖7繪示與變速裝置80之操作有關之程序流程,其程序係藉由圖1所示之控制裝置90來執行。在圖7中所示之程序係藉由CPU 92執行儲存在ROM 94中之控制程式94b及學習程式94a來實施。圖7未繪示在由變速裝置80建立之所有的速度比當中的切換,但繪示針對其中從第一速度比切換至第二速度比(其為一對速度比)被執行的情況的程序,以作為實例。在此,為了建立第一速度比,將液壓壓力Poila升高以使第一離合器進入接合狀態,且降低液壓壓力Poilb以使第二離合器進入脫離狀態。同時,為了建立第二速度比,降低液壓壓力Poila以使第一離合器進入脫離狀態,且升高液壓壓力Poilb以使第二離合器進入接合狀態。
在圖7所示之程序序列中,該CPU 92首先判定是否存在從第一速度比換檔至第二速度比的請求(S110)。在判定對於此換檔存在請求的情況中(S110:是),則CPU 92獲取輸入旋轉速度ωin(n)、輸出旋轉速度ωout(n)、液壓壓力Poila(n)及Poilb(n)(S112)。在「(n)」中之變數n係針對當程序S112執行時之時序的標籤變數。此程序係獲取狀態之程序。意即,在圖7之程序中,狀態係使用具有輸入旋轉速度ωin、輸出旋轉速度ωout、液壓壓力Poila及Poilb的四維向量來表示。
接下來,該CPU 92選擇用於電磁閥80a之電流命令值(螺線管電流命令值ia*)及用於電磁閥80b之電流命令值(螺線管電流命令值ib*)作為動作,依照由被儲存在圖1之儲存裝置96中之關係規定資料96a所規定的策略π(S114)。該CPU 152輸出操作信號MS12及MS13(S116),以將流經該電磁閥80a之電流控制至螺線管電流命令值ia*及將流經該電磁閥80b之電流控制至螺線管電流命令值ib*。
該CPU 92判定是否完成換檔(S118)。在判定該換檔未完成的情況中(S118:否),該CPU 92更新在程序S112取樣之值至「n-1」(S119),且返回至程序S112。因此,該CPU 152新獲取輸入旋轉速度ωin、輸出旋轉速度ωout、及液壓壓力Poila及Poilb。
相反地,在判定換檔完成的情況中(S118:是),該CPU 92判定以下條件(10)至(12)之邏輯積是否為真(S120)。 條件(10):速度改變時間Tsft(其係從第一速度比切換至第二速度比所需時間)等於或小於預定時間TsftH。該預定時間TsftH被設定為等於或小於針對換檔所需時間之可允許上限值。
條件(11):每預定週期之輸入旋轉速度ωin之差異量∆ωin的絕對值係等於或小於預定輸入側值∆ωinH。該預定輸入側值∆ωinH係基於在換檔時不會讓使用者感到不舒服之上限值而設定。
條件(12):每預定週期之輸出旋轉速度ωout之差異量∆ωout之絕對值係等於或小於預定輸出側值∆ωoutH。預定輸出側值∆ωoutH係基於在換檔時不會讓使用者感到不舒服之上限值而設定。
在判定條件(10)至(12)之邏輯積為真的情況中(S120:是),該CPU 92將「1」增加給報酬r(S122)。此意謂在條件(10)至(12)之邏輯積為真的情況中會給予正報酬。
在程序S122完成的情況中或在程序S120中作出否定判定的情況中,該CPU 92判定是否存在任何取樣值之集合(Poila(i), Poilb(i))(其液壓壓力Poila及液壓壓力Poilb皆等於或大於臨限值Pth)(S124)。該臨限值Pth被設定為小於下限值之一值,在該下限值處離合器係處在接合狀態。在判定存在任何此集合的情況中(S124:是),該CPU 92增加「-10」(其係負報酬)給報酬r(S126)。意即,在本文討論的換檔中,兩個離合器(亦即,第一離合器,其狀態係依照液壓壓力Poila判定,及第二離合器,其狀態依照液壓壓力Poilb判定)中之一者需要從接合狀態轉變至脫離狀態,且該另一離合器應從脫離狀態轉變至接合狀態。因此,液壓壓力Poila及液壓壓力Poilb兩者同時係高的並非係較佳的。
在程序S126完成的情況中或在程序S124中作出否定判定的情況中,該CPU 92在程序S128至S136中更新儲存在圖1所示之儲存裝置96中的關係規定資料96a。在本實施例中,使用ε-柔性依策略蒙特卡羅法。
意即,該CPU 92首先在輸入旋轉速度ωin、輸出旋轉速度ωout、及液壓壓力Poila及Poilb之集合中讀取按時間順序資料,其係在一個速度改變程序之週期期間在程序S112中獲取的狀態,以及在螺線管電流命令值ia*及ib*之集合上的按時間順序資料,其係對應於該狀態之各自動作(S128)。在此,在程序S128中讀取的狀態係指示為狀態集合Sj,且在程序S128中讀取之該動作係指示為動作集合Aj。
接下來,該CPU 92將報酬r增加至獲利R(Sj, Aj),其係由在程序S128中讀取之各狀態及對應動作之集合所判定(S130)。該獲利R之初始值可以係對應動作值函數Q之初始值。接下來,由在程序S128中讀取之各狀態及對應動作之集合所判定的獲利R(Sj, Aj)被平均且被代入至對應動作值函數Q(Sj, Aj)(S132)。該平均可以係將該獲利R(其係在程序S130中被計算)除以一數目的程序,該數目係藉由將一預定數目加到程序S130被執行之次數而獲得。
接下來,該CPU 92將具有對應於在程序S128中讀取之各狀態的動作值函數Q(Sj, ia*, ib*)的最大值之螺線管電流命令值ia*及ib*代入至螺線管電流命令值ia0*及ib0*中(S134)。雖然螺線管電流命令值ia0*及ib0*具有依照在程序S128中讀取之狀態類型而不同的值,但該螺線管電流命令值ia0*及ib0*由相同的符號指示以簡化符號系統。
接下來,該CPU 92更新對應於在程序S128中讀取之各狀態的策略π(ia*, ib*|Sj)(S136)。意即,當動作總數為「|A|」時,選擇對應於在S134中選擇之動作的螺線管電流命令值ia0*及ib0*之概率係「1-ε+ε/|A|」。另外,選擇除了螺線管電流命令值ia0*及ib0*以外之「|A|-1」個動作之各者的概率係「ε/|A|」。
在程序S136完成的情況中或在程序S110中作出否定判定的情況中,該CPU 92暫時地結束圖7所示之程序序列。在圖7中,程序S110至S119係藉由執行控制程式94b而實施之程序,且程序S120至S136係藉由執行學習程式94a而實施之程序。
附帶一提,被儲存在儲存裝置96中的關係規定資料96a係已在圖3所示之系統中透過類似於圖7中之程序而事先已執行至某一程度的學習之資料。在藉由圖3所示之系統執行之加強學習中,相較於在被儲存於儲存裝置96中之後,「ε」可設定為較大值或臨限值Pth可被設定為較大值。在臨限值Pth被設定為較大值的情況中,最好程序S124應在程序S118之前來執行,使得在程序S124中作出肯定判定的情況中學習結束的情況下給予較大的負報酬。
本實施例之功能及效果將說明如下。在圖3所示之系統中,該CPU 152透過加強學習來學習動作值函數Q。在該動作值函數Q之值收歛的情況中,可適當滿足燃料消耗率、排氣特性及駕駛性能的操作量係在每次藉由選擇可在一狀態中最大化該動作值函數Q的動作時之該狀態中學習。該CPU 152選擇針對各狀態可最大化該動作值函數Q之動作作為映射資料96b之輸入變數,且將該狀態及該動作之一集合儲存在儲存裝置156中。接下來,該CPU 152基於被儲存在儲存裝置156中之該狀態及該動作之集合而產生映射資料96b。因此,可以設定匹配該狀態之適當操作量而不會過度增加專家所花費的人力工時數量。
尤其,在本實施例中,十個相互不同的量值可被用作為該狀態。因此,例如在專家調適對應於該狀態之十個操作量之值的情況中,調適程序可能極為複雜,因為有太多數目的維度。相反地,在本實施例中,該操作量可藉由使用加強學習來設定,同時抑制由專家所花費的人力工時數量的增加,即使在維度數目很大的情況下亦然。
依照上述的本實施例,可進一步達成以下功能及效果。(1)控制裝置90之儲存裝置96儲存映射資料96b,而非與內燃引擎10之可操作部分之操作量相關的動作值函數Q等等。因此,該CPU 92基於使用映射資料96b執行的映射運算來設定內燃引擎10之可操作部分的操作量。因此,相較於執行選擇具有最大值之動作值函數Q的程序的情況,可減少該運算負載。
(2)切換變速裝置80之速度比的操作係可透過加強學習來學習。因此,可以設定匹配變速裝置80之狀態的操作量而不會過度增加專家所花費的人力工時數量。
(3)控制裝置90之儲存裝置96儲存與變速裝置80之操作量有關的動作值函數Q等等作為關係規定資料96a,且該動作值函數Q及策略π在每次執行切換速度比之操作時被更新。因此,相較於未由控制裝置90執行更新的情況,可以增加學習的頻率。 第二實施例
下文將參考圖式來說明第二實施例,主要針對與第一實施例的不同處。
圖8繪示依照本實施例之控制裝置及驅動系統。在圖8中,為方便起見,對應於圖1所示之構件的構件給予相同元件符號。在本實施例中,如圖8所示,並未提供映射資料96b。而是,依照本實施例之關係規定資料96a亦包含規定內燃引擎10之狀態與內燃引擎10之可操作部分之操作量之間之關係的資料。該資料包含透過圖4之程序產生之動作值函數Q等等。
儲存裝置96亦儲存PM量輸出映射資料96c及扭力輸出映射資料96d。另外,在本實施例中,控制裝置90參考藉由偵測來自於驅動系統之聲音的麥克風134所偵測的聲音壓力SP及由加速度感測器136偵測之車輛VC1的前後加速度Gx。
圖9繪示藉由CPU 92執行學習程式94a同時利用PM量輸出映射資料96c及扭力輸出映射資料96d而實施的程序。在圖9中所示之PM量輸出程序M10係接收旋轉速度NE、充氣效率η、點火正時aig、噴射量增加量值Qfi、進氣溫度Ta及水溫度THW作為輸入且輸出該PM量Qpm之程序。噴射量增加量值Qfi係實際噴射量(所需噴射量Qf)相對於用以將欲在燃燒室26中燃燒之混合物的空氣燃料比帶至理論上的空氣燃料比所需要的噴射量的超過部分。然而應注意,在噴射量增加量值Qfi指示實際噴射量相對於將混合物之空氣燃料比帶至該理論上的空氣燃料比所需要的噴射量有短缺量的的情況中,噴射量增加量值Qfi可取負值。該PM量輸出映射資料96c係與經訓練模型(諸如神經網路)有關的資料,該旋轉速度NE、充氣效率η、點火正時aig、噴射量增加量值Qfi、進氣溫度Ta及水溫度THW被輸入至該經訓練模型且其輸出該PM量Qpm。因此,該PM量輸出程序M10係使用旋轉速度NE、充氣效率η、點火正時aig、噴射量增加量值Qfi、進氣溫度Ta及水溫度THW作為至該經訓練模型之輸入來計算該PM量Qpm的程序。舉例來說,當執行圖5中之程序時,該PM量輸出映射資料96c可使用在程序S60中獲取之PM量Qpm作為教訓資料來學習。
同時,扭力輸出程序M12係接收旋轉速度NE、充氣效率η、點火正時aig、所需噴射量Qf、及進氣相位差DIN作為輸入且計算引擎扭力Trqeg的程序。該扭力輸出映射資料96d係與經訓練模型(諸如神經網路)有關的資料,該旋轉速度NE、充氣效率η、點火正時aig、所需噴射量Qf、及進氣相位差DIN被輸入至該經訓練模型且其輸出該引擎扭力Trqeg。因此,該扭力輸出程序M12係使用旋轉速度NE、充氣效率η、點火正時aig、所需噴射量Qf、及進氣相位差DIN作為至該經訓練模型的輸入來計算引擎扭力Trqeg的程序。舉例來說,當執行圖5中之程序時,該扭力輸出映射資料96d可使用在程序S60中獲取之引擎扭力Trqeg作為教訓資料來學習。
圖10繪示依照本實施例與藉由控制裝置90操作內燃引擎10之可操作部分有關的程序流程。圖10所示之程序係藉由CPU 92在發生例如請求啟動內燃引擎10之條件下執行儲存在ROM 94中之控制程式94b及學習程式94a來實施。在圖10中,為方便起見,對應於圖4所示之程序的程序給予相同的步驟符號。
在圖10所示之程序序列中,該CPU 92首先執行類似於圖4所示之程序S42至S48的程序,且之後計算報酬rt(S50a)。圖11繪示程序S50a之細節。在圖11中,為方便起見,對應於圖5所示之程序的程序給予相同的步驟符號。
在圖11所示之程序序列中,該CPU 92首先獲取用以計算報酬rt所需的變數值(S60a)。詳言之,該CPU 92獲取下游側偵測值Afd、PM量Qpm、在所需噴射量Qf上之按時間順序資料、在前後加速度Gx上之按時間順序資料、聲音壓力SP、引擎扭力Trqeg(引擎輸出Peg)、及所需引擎扭力值Trqeg*(所需引擎輸出值Peg*)。引擎輸出Peg可藉由將引擎扭力Trqeg乘以旋轉速度NE來計算。
接下來,該CPU 92判定條件(2)至(5)之邏輯積是否為真(S62a)。在判定邏輯積為真的情況中(S62a:是),該CPU 92進行至程序S64。另一方面,在判定邏輯積為假的情況中(S62a:否),該CPU 92進行至程序S66。在程序S64或S66完成的情況中,該CPU 92執行S68至S82中的程序,且完成圖10中之程序S50a。
返回圖10,在程序S50a完成的情況中,該CPU 92執行程序S52至S54及S58,且返回至程序S44。附帶一提,程序S42至S48係藉由執行由控制程式94b規定之執行命令來實施,且程序S50a、S52至S54及S58係藉由執行由學習程式94a規定之執行命令來實施。
在圖10之程序中的策略π相較於圖3之程序中的策略π可具有選擇貪婪動作之高概率。利用上述的本實施例,關於內燃引擎10之可操作部分之操作量的動作值函數Q亦藉由控制裝置90更新,且因此相較於其中動作值函數Q未藉此更新的情況中可增加學習頻率。 第三實施例
下文將參考圖式來說明第三實施例,主要針對與第二實施例的不同處。
在本實施例中,策略π係直接更新而不使用動作值函數。詳言之,在本實施例中,策略π係多變量高斯分佈,其判定各操作量之概率,該各操作量判定可採取的一動作。該多變量高斯分佈之平均值μ(1)指示節氣門開度命令值Tor*之平均值。平均值μ(2)指示所需噴射量Qf之平均值。平均值μ(3)指示進氣相位差命令值DIN*之平均值。平均值μ(4)指示點火正時aig之平均值。平均值μ(5)指示噴射分配比Kp之平均值。另外,平均值μ(6)指示WGV開度命令值Wgvor之平均值。平均值μ(7)指示燃料壓力命令值pf*之平均值。平均值μ(8)指示EGR開度命令值Egrvor之平均值。平均值μ(9)指示清洗操作量Pg之平均值。另外,在本實施例中,多變量高斯分佈之共變異數矩陣係對角矩陣,且對應於平均值μ(i)之各自變異數σ(i)可採用不同值。
圖12繪示依照本實施例與內燃引擎10之可操作部分之操作有關的程序流程。圖12所示之程序係藉由CPU 92以例如預定週期重複執行被儲存在ROM 94中之控制程式94b來執行。在圖12中,為方便起見,對應於圖4所示之程序的程序給予相同的步驟符號。
在圖12所示之程序序列中,該CPU 92首先執行程序S42(如圖4中之程序)。雖然該狀態在圖12中標示為「s」,其與圖4中所使用的「st」不同,但它們僅是符號系統的變型。
接下來,該CPU 92將狀態s(其係在程序S42中所獲取)代入至函數近似器之輸入變數x(1)至x(10)中用於設定策略π(S140)。詳言之,CPU 92將旋轉速度NE代入至輸入變數x(1)、將充氣效率η代入至輸入變數x(2),將增壓壓力Pa代入至輸入變數x(3)、將進氣溫度Ta代入至輸入變數x(4)、以及將水溫度THW代入至輸入變數x(5)。該CPU 92亦將機油溫度Toil代入至輸入變數x(6)、將下游側偵測值Afd代入至輸入變數x(7)、將上游側偵測值Afu代入至輸入變數x(8)、將加速器操作量ACCP代入至輸入變數x(9)、及將車輛速度SPD代入至輸入變數x(10)。
接下來,該CPU 92針對「i=1至9」之各者平均值計算μ(i)及變異數σ(i)(S142)。在本實施例中,該平均值μ(i)係由神經網路構成,該神經網路具有「p-1」個中間層且用於該中間層之激勵函數h1至hp-1係雙曲正切函數且輸出層之激勵函數hp係整流線性單位函數(ReLU)。該ReLU係輸出在輸入及「0」中非較小者的函數。若m=1,2, ..., p-1,則在第m中間層中之各節點的值係藉由輸入由係數w(m)規定之線性映射之輸出至激勵函數hm而產生。n1, n2, ..., np-1係在第一、第二、…第p-1中間層的各自節點數目。舉例而言,在第一中間層中之各節點的值係藉由將一輸出輸入至激勵函數h1而產生,該輸出係藉由將輸入變數x(1)至x(10)輸入至由係數w(1)ji(j=0 to n1, i=0 to10)規定之線性映射中而獲得。附帶一提,w(1)j0等等係偏移參數,且該輸入變數x(0)被定義為「1」。
當激勵函數hp之輸出被輸入至由係數w(p)iq(i=1 to9, q=0 to np-1)規定之線性映射時,該神經網路輸出平均值μ(i)。
另外,在本實施例中,變異數σ(i)係函數f之值,其係藉由將使用由係數wTik(i=1至9,k=1至10)規定之線性映射來線性變換該輸入變數x(1)至x(10)所獲得之值的各者輸入至該函數f而獲得。在本實施例中,ReLU被使用作為該函數f。
接下來,該CPU 92基於由在程序S142中計算之平均值μ(i)及變異數σ(i)定義之策略π判定動作a*(S144)。在此,選擇平均值μ(i)之概率係最高的,且在相較於變異數σ(i)係高的情況中在該變異數σ(i)係低的情況中選擇平均值μ(i)之概率係高的。
接下來,該CPU 92基於在程序S144中選擇之動作a*來操作內燃引擎10之可操作部分(S146),且暫時地結束圖12所示之程序序列。圖13繪示藉由控制裝置90執行更新該策略π的程序流程。在圖13中所示之程序係藉由CPU 92例如以預定週期重複地執行被儲存在ROM 94中之學習程式94a來實施。
在圖13所示之程序序列中,該CPU 92首先在程序S50a中計算報酬r。接下來,該CPU 92將報酬r增加至獲利R(S152)。該CPU 92判定變數t是否已到達預定時間T-1(S154)。在判定尚未到達預定時間T-1的情況中(S154:否),該CPU 92增量該變數t(S156)。
相反地,在判定預定時間T-1已到達的情況中(S154:是),該CPU 92將獲利R代入至獲利Ri,之後初始化獲利R,且進一步初始化變數t(S158)。接下來,該CPU 92判定變數i是否已到達預定值N(S160)。在判定尚未到達預定值N的情況中(S160:否),該CPU 92增量該變數i(S162)。
相反地,在判定已到達該預定值N的情況中(S160:是),該CPU 92透過策略梯度方法更新變數w(1)至w(p)及係數wT(其規定該策略π)(S164)。在圖13中,該變數w(1)至w(p)及規定策略π之係數wT被整體地指示為參數θ。
具有變數t範圍從0至T-1的狀態s、動作a、及報酬r的T集合被定義為軌跡ht。概率pθ(ht)被定義為該軌跡ht係利用其依照由該參數θ規定之策略π所獲得的概率pθ(ht)。在此,「pθ(ht)Rt」相對於軌跡ht之積分值係獲利R(ht)之預期值(預期獲利J),且該參數θ被更新以最大化該預期獲利J。這是藉由針對參數θ之每個分量將該更新量判定為正比於藉由將預期獲利J相對於該分量偏微分所獲得的值而實施。
該概率pθ(ht)係使用狀態s0, s1, ... sT及動作a0, a1, ...aT表示為pθ(ht)=p(s0)∙p(s1|s0, a0)∙π(a0|s0)∙p(s2|s1, a1)∙π(a1|s1)… p(sT|sT-1, aT-1)∙π(aT-1|sT-1)。然而應注意,初始概率p(s0)係狀態s0之概率,且該轉變概率p(st+1|st, at)係在狀態st及動作at的時間處從狀態st轉變至狀態st+1的概率。
因此,預期獲利J之偏微分可由以下公式(c1)表示。
[Expression1]
Figure 02_image001
該概率pθ(ht)無法得知。因此,在公式(c1)中之積分可利用複數個(預定數目N)軌跡ht由平均值來取代。
因此,預期獲利J之相對於參數θ之每個分量的偏微分係數係藉由針對預定數目N個獲利Ri該獲利Ri與策略π之對數之偏微分係數π(at|ht(i))相對於參數θ之對應分量針對「t=0至T-1」的總和的乘積相加且將該所得總和除以預定數目N所獲得的一值。
該CPU 92使用藉由將預期獲利J相對於參數θ之每個分量的偏微分係數乘以學習率α所獲得的一值作為用於參數θ之對應分量的更新量。程序S152至S164可藉由執行在儲存於ROM 94之學習程式94a中之一執行命令以執行更新映射來實施,其中狀態s0, s1, ...、動作a0, a1, ...、及報酬r被輸入至該更新映射且其輸出該已更新的參數θ。
在程序S164完成的情況中,該CPU 92初始化變數i及獲利R1至RN(S166)。在程序S156、S162或S166完成的情況中,該CPU 92暫時地結束圖13所示之程序序列。
附帶一提,在第一次執行加強學習時,平均值μ(i)之初始值可例如被設定如下。意即,定義在一內燃引擎操作期間之狀態s及動作a,該內燃引擎具有與內燃引擎10相同的排氣量及相同的可操作部分,且其控制規格已被判定為訓練資料,與該平均值μ(i)有關於參數θ可被學習以減少在平均值μ(i)與該訓練資料之間之差值的絕對值。同時,該變異數σ(i)可設定成使得例如大約與該平均值μ(i)相差正/負十個百分比的範圍係可被充分地探查。
以此方式,在本實施例中,由連續變數表示之狀態及動作可藉由使用函數近似器而容易地處置。 第四實施例
下文將參考圖式來說明第四實施例,主要針對與第三實施例的不同處。儘管在第三實施例中所示之車輛VC1僅包含內燃引擎10作為車輛VC1之推力產生裝置,但在本實施例中指示除了內燃引擎10以外還包含馬達/發電機作為推力產生裝置之串並聯式混合動力車輛。
圖14繪示依照本實施例之控制裝置及驅動系統。在圖14中,為方便起見,對應於圖8所示之構件的構件給予相同元件符號。如圖式所示,曲軸32機械式地耦接至用作為動力分離機械的行星齒輪機構160之載具(由圖式中的「C」所示)。第一馬達/發電機162之旋轉軸桿係機械式地耦接至行星齒輪機構160之太陽齒輪(如圖式中以「S」所示)。第二馬達/發電機166之旋轉軸桿係機械式地耦接至行星齒輪機構160之環狀齒輪(如圖式中以「R」所示)。電池170之DC電壓藉由變流器164而被轉換成AC電壓以供應至第一馬達/發電機162之端子。電池170之DC電壓藉由變流器168而被轉換成AC電壓以供應至第二馬達/發電機166之端子。
控制裝置90控制第一馬達/發電機162及第二馬達/發電機166,且操作變流器164及168以控制其控制量(諸如扭力)。在控制該控制量時,控制裝置90參考由電流感測器180偵測之電池170的充電/放電電流I、由電壓感測器182偵測之電池170的終端電壓Vb、及由溫度感測器184偵測之電池溫度Tbatt。該控制裝置90亦參考由第一速度感測器186偵測之第一馬達/發電機162之旋轉軸桿的旋轉速度(第一MG速度ωmg1),及由第二速度感測器188偵測之第二馬達/發電機166之旋轉軸桿的旋轉速度(第二MG速度ωmg2)。
圖15繪示與由控制裝置90操作內燃引擎10之可操作部分與變流器164及168有關的程序流程。在圖15所示之程序可例如藉由CPU 92以預定週期重複地執行儲存在ROM 94中之控制程式94b來實施。在圖15中,為方便起見,對應於圖12所示之程序的程序給予相同的步驟符號。
在圖15所示之程序序列中,該CPU 92首先獲取狀態s(S42a)。在此,除了在程序S42獲取之變數值以外,亦獲取電池170之變化比SOC、電池溫度Thatt、第一MG速度ωmg1、及第二MG速度ωmg2。該變化比SOC係藉由CPU 92基於在當充電/放電電流I係低的時間處依照終端電壓Vb在開端電壓與變化比SOC之間的關係而計算,且依照充電/放電電流I在每次更新。
接下來,該CPU 92將在程序S42a中獲取的值代入至函數近似器之輸入變數x中以判定平均值μ(i)及變異數σ(i)(S140a)。該輸入變數x(1)至x(10)係與程序S140中使用的變數相同。同時,該CPU 92將變化比SOC代入至輸入變數x(11),將該電池溫度Tbatt代入至輸入變數x(12)、將第一MG速度ωmg1代入至輸入變數x(13)、及將第二MG速度ωmg2代入至輸入變數x(14)。
該CPU 92藉由將輸入變數x(1)至x(14)代入至函數近似器中來計算平均值μ(1)至μ(11)及變異數σ(1)至σ(11)(S142a)。平均值μ(10)係第一MG扭力Tmg1(其係第一馬達/發電機162之扭力)的平均值。平均值μ(11)係第二MG扭力Tmg2(其係第二馬達/發電機166之扭力)的平均值。依照本實施例之函數近似器係與程序S142中使用的函數近似器相同,除了輸入變數x之維度數目外。
接下來,該CPU 92基於策略π判定由內燃引擎10之可操作部分的九個操作量組成的動作a*、第一MG扭力Tmg1、及第二MG扭力Tmg2(S144a)。該CPU 92基於動作a*來操作內燃引擎10之可操作部分與變流器164及168(S146)。該CPU 92操作變流器164使得第一馬達/發電機162之扭力被帶至第一MG扭力Tmg1,且操作變流器168使得第二馬達/發電機166之扭力被帶至第二MG扭力Tmg2。在程序S146完成的情況中,該CPU 92暫時地結束圖15所示之程序序列。
該CPU 92透過類似於圖13之程序的程序來更新參數θ。然而應注意,該CPU 92執行圖16所示之程序,取代程序S50a,作為計算報酬r之程序。
圖16繪示依照本實施例之計算報酬r之程序的細節。在圖16中,為方便起見,對應於圖11所示之程序的程序給予相同的步驟符號。
在圖16所示之程序序列中,該CPU 92首先獲取用以計算報酬r所需的變數值(S60b)。除了在程序S60a中獲取之所需引擎扭力值Trqeg*(所需引擎輸出值Peg*)以外的變數值外,該CPU 92亦獲取車輛VC1之所需輸出值Ptot*(所需驅動扭力值Trq*)、輸出Ptot(驅動扭力Trq)、變化比SOC、及電池溫度Tbatt。該輸出Ptot係內燃引擎10之輸出、第一馬達/發電機162之輸出、及第二馬達/發電機166之輸出的總和。然而應注意,由於行星齒輪機構160的特性,該三個輸出包含具有不同正負號的輸出,除非所有三個輸出皆為零。另外,第一馬達/發電機162之輸出可例如藉由將第一MG扭力Tmg1乘以第一MG速度ωmg1而計算。同時,驅動扭力Trq可藉由將引擎扭力Trqeg、第一MG扭力Tmg1、及第二MG扭力Tmg2轉換成驅動輪88之扭力而計算。
在執行程序S62a及S64至S76之後,該CPU 92判定車輛VC1之輸出Ptot與所需輸出值Ptot*之間的差值之絕對值是否等於或小於預定量∆Ptot(S78a)。在驅動扭力Trq及所需驅動扭力值Trq*在程序S60b中獲取的情況中,可在程序S78a中判定驅動扭力Trq與所需驅動扭力值Trq*之間的差值之絕對值是否等於或小於預定量∆Trq。
在程序S78a中作出肯定判定的情況中,該CPU 92進行至程序S80。在另一方面,在程序S78a中作出否定判定的情況中,該CPU 92進行至程序S82。在程序S80或S82完成的情況中,該CPU 92判定變化比SOC是否等於或大於下限值SOCL且等於或小於上限值SOC(S170)。在變化比SOC小於下限值SOCL或大於上限值SOCH的情況中(S172:否),該CPU 92從報酬r減去一預定量∆,以給予負報酬(S172)。在變化比SOC小於下限值SOCL的量係大的相較於此量係小的的情況中,該CPU 92設定預定量∆為較大值。同時,在變化比SOC大於上限值SOCH的量係大的相較於此量係小的情況中,CPU 92設定預定量∆為較大值。
在程序S170中作出肯定判定的情況中或在程序S172完成的情況中,該CPU 92判定電池溫度Tbatt是否等於或小於上限溫度TbattH(S174)。在判定電池溫度Tbatt大於該上限溫度TbattH的情況中(S174:否),該CPU 92增加「-10」給報酬r(S176)。
在程序S174中作出肯定判定的情況中或在程序S176完成的情況中,該CPU 92暫時地結束圖16所示之程序序列。 第五實施例
下文將參考圖式來說明第五實施例,主要針對與第四實施例的不同處。在本實施例中,參數θ係在車輛VC1外面被更新。圖17繪示依照本實施例執行加強學習之控制系統的組態。在圖17中,為方便起見,對應於圖14所示之構件的構件給予相同元件符號。
在圖17所示之車輛VC1中之控制裝置90的ROM 94儲存控制程式94b,但未儲存學習程式94a。同時,儲存裝置96儲存關係規定資料96a,但不儲存PM量輸出映射資料96c或扭力輸出映射資料96d。另外,控制裝置90包含通信裝置97。該通信裝置97係經由在車輛VC1外部之網路190與資料分析中心200通信之裝置。
該資料分析中心200分析從複數個車輛VC1、VC2…傳輸的資料。該資料分析中心200包含CPU 202、ROM 204、儲存裝置206、周邊電路208、及通信裝置207,這些裝置係經由區域網路209而彼此通信。該ROM 204儲存學習程式94a。該儲存裝置206儲存PM量輸出映射資料96c及扭力輸出映射資料96d。
圖18繪示依照本實施例之加強學習的程序流程。在圖18左側的流程圖中所示之程序係藉由CPU 92執行儲存在圖17所示之ROM 94中之控制程式94b來實施。同時,在圖18右側的流程圖中所示之程序係藉由CPU 202執行儲存在ROM 204中之學習程式94a來實施。在圖18中,為方便起見,對應於圖13及15所示之程序的程序給予相同的步驟符號。圖18所示之程序將在下文中順著加強學習之按時間順序來說明。
在圖18左側之流程圖中所示之程序序列中,該CPU 92首先獲取一狀態(S42b)。在本實施例中,獲取與其值在程序S42a中獲取之變數相同的變數值,但針對旋轉速度NE及充氣效率η獲取按時間順序資料。意即,由六個取樣值「NE(1), NE(2), ..., NE(6)」組成之按時間順序資料係被獲取為在旋轉速度NE上的按時間順序資料,且由六個取樣值「η(1), η(2), ...,η(6)」組成之按時間順序資料係被獲取為在充氣效率η上的按時間順序資料。
接下來,該CPU 92將在程序S42b中獲取之變數值代入至函數近似器之輸入變數x(S140b)。意即,該CPU 92將旋轉速度NE(m)代入至輸入變數x(m),且將充氣效率η(m)代入至輸入變數x(6+m),其中「m=1至6」。該CPU 92將增壓壓力Pa代入至輸入變數x(13)、將進氣溫度Ta代入至輸入變數x(14),以及將水溫度THW代入至輸入變數x(15)。該CPU 92亦將機油溫度Toil代入至輸入變數x(16)、將下游側偵測值Afd代入至輸入變數x(17)、將上游側偵測值Afu代入至輸入變數x(18)、將加速器操作量ACCP代入至輸入變數x(19)、及將車輛速度SPD代入至輸入變數x(20)。該CPU 92將變化比SOC代入至輸入變數x(21)、將電池溫度Tbatt代入至輸入變數x(22)、將第一MG速度ωmg1代入至輸入變數x(23)、且將該第二MG速度ωmg2代入至輸入變數x(24)。
該CPU 92藉由將程序S140b中獲取之輸入變數x(1)至x(24)代入至表示平均值μ(1)至μ(11)及變異數σ(1)至σ(11)之函數近似器中來計算平均值μ(1)至μ(11)及變異數σ(1)至σ(11)(S142b)。依照本實施例之函數近似器係與程序S142a中使用的函數近似器相同,除了輸入變數x之維度數目以外。
接下來,該CPU 92基於策略π判定動作a*(S144b),執行程序S146,且操作通信裝置97以將狀態s、動作a*及用以計算報酬r所需的資料傳輸至資料分析中心200(S180a)。用以計算報酬r所需之資料包含在點火正時aig上之按時間順序資料用於計算PM量Qpm之變數的值、在所需噴射量Qf上之按時間順序資料、及進氣相位差DIN作為用於計算引擎扭力Trqeg之變數的值。計算報酬r所需之資料亦包含在前後加速度Gx及聲音壓力SP上之按時間順序資料。針對在圖9所示之程序中的其他的輸入變數,可使用針對狀態s之值。
同時,如圖18右側之流程圖所示,該CPU 202接收傳輸資料(S190)。該CPU 202基於所接收資料透過圖16中之程序來計算報酬(S50b),且執行程序S152至S166。接下來,該CPU 202判定在稍後將討論之程序S194執行之後在程序S164中執行更新之次數或在圖18右側之流程圖中之程序第一次執行之後在程序S164中執行更新的次數是否等於或大於一預定的次數(S192)。在判定該更新次數等於或大於預定次數的情況中(S192:是),該CPU 202操作通信裝置207以傳輸該更新的參數θ(S194)。在程序S156、S162或S194完成的情況中或在程序S192作出否定判定的情況中,該CPU 202暫時地結束圖18右側之流程圖的程序。附帶一提,在車輛VC1, VC2, ...等等的裝運中,儲存在車輛VC1, VC2, ...中之儲存裝置96中的參數θ被儲存在儲存裝置206中。
同時,如圖18左側上之流程圖所示,該CPU 92判定針對參數θ是否有任何更新資料(S182),且在判定存在任何此資料的情況中(S182:是),接收與該參數θ有關的更新資料(S184)。該CPU 92使用所接收的參數θ來更新關係規定資料96a(S186)。在程序S186完成的情況中或在程序S182中作出否定判定的情況中,該CPU 92暫時地結束在圖18左側之流程圖中所示的程序序列。
以此方式,利用本實施例,可藉由資料分析中心200更新參數θ而降低在控制裝置90上之運算負載。依照上述的本實施例,可進一步獲得以下功能及效果。
(4)該資料分析中心200基於來自於複數個車輛VC1, VC2…的資料來更新參數θ。因此,可以增加參數θ更新的頻率。
(5)用於策略π之輸入變數x包含在旋轉速度NE及充氣效率η上的按時間順序資料作為操作點變數,其係規定內燃引擎10之操作點的變數。有鑑於專家花費在用以調適內燃引擎10之狀態與內燃引擎10之可操作部分之操作量之間的關係的人力工時數目會隨著內燃引擎10之狀態的維度數目增加而指數地增加的相關技術,因此針對狀態數量之各者使用單一取樣值作為內燃引擎10之狀態。然而,這僅係鑑於用於調適花費的人力工時數目才如此作,且這對於最大化燃料消耗率、排氣特性、及駕駛性能來說並非必然恰當。相反地,在本實施例中,無法透過相關技術的調適來獲得的解決方案可藉由在設定可操作部分之操作量時使用按時間順序資料來獲得。 第六實施例
下文將參考圖式來說明第六實施例,主要針對與第五實施例的不同處。
在本實施例中,除了參數θ係在車輛VC1外面更新外,該動作a*係在車輛VC1外面計算。圖19繪示執行依照本實施例執行加強學習之控制系統的組態。在圖19中,為方便起見,對應於圖17所示之構件的構件給予相同元件符號。
在車輛VC1中,如圖19所示,ROM 94儲存副控制程式94c。同時,儲存裝置96未儲存關係規定資料96a。另一方面,資料分析中心200之ROM 204除了學習程式94a外亦儲存主控制程式204a。同時,該儲存裝置206儲存關係規定資料96a。
圖20繪示依照本實施例之加強學習的程序流程。在圖20左側的流程圖中所示之程序係藉由CPU 92執行儲存在圖19所示之ROM 94中之副控制程式94c來實施。同時,在圖20右側的流程圖中所示之程序係藉由CPU 202執行儲存在ROM 204中之主控制程式204a及學習程式94a來實施。在圖20中,為方便起見,對應於圖18所示之程序的程序給予相同的步驟符號。圖20所示之程序將在下文中順著加強學習之按時間順序來說明。
在圖20左側之流程圖中所示的程序序列中,以當程序S42b完成時,該CPU 92操作通信裝置97以傳輸在程序S42b中獲取之狀態s(S200)。
同時,如圖20右側的流程圖中所示,該CPU 202接收狀態s(S210)。該CPU 202執行程序S140b、S142b及S144b,且操作通信裝置207以將在程序S144b中判定之動作a*傳輸至在程序S210中接收之資料的發送器中(S212)。
同時,如圖20左側的流程圖所示,該CPU 92接收該動作a*(S202)。該CPU 92基於該接收的動作a*來執行程序S146。該CPU 92操作通信裝置97以傳輸計算報酬r所需的資料(S180b)。在程序S180b完成的情況中,該CPU 92暫時地結束在圖20左側的流程圖中所示之程序序列。
相反地,如圖20右側上的流程圖所示,CPU 202接收該傳輸資料(S214),執行程序S50b及S152至S166,且暫時地結束在圖20右側上的流程圖中所示之程序序列。
以此方式,利用本實施例,可藉由資料分析中心200執行判定該動作a*之程序而降低在車輛VC1側上的運算負載。
本發明之第一模式係關於產生車輛控制資料之方法。該產生車輛控制資料之方法,包含:利用儲存裝置儲存關係規定資料,該關係規定資料係規定包含內燃引擎之車輛之狀態及該內燃引擎之可操作部分之操作量之間之關係的資料,該車輛之該狀態包含該內燃引擎之狀態;利用執行裝置操作該可操作部分;利用該執行裝置獲取來自偵測該車輛之該狀態之感測器的偵測值;利用該執行裝置基於該偵測值從燃料消耗率、排氣特性及駕駛性能之至少一者的觀點來計算報酬;及利用該執行裝置使用事先判定之更新映射、使用基於該偵測值之該車輛之該狀態的該更新映射、用以操作該可操作部分之操作量、及對應於該操作之該報酬作為自變數來更新該關係規定資料,且回傳已被更新之該關係規定資料,使得當該可操作部分依照該關係規定資料操作時所計算之該報酬的預期獲利會增加。該執行裝置及該儲存裝置由在圖1、8及14之情況中的CPU 92及ROM 94與儲存裝置96所例示。該執行裝置及該儲存裝置亦由在圖3之情況中的CPU 152及ROM 154與儲存裝置156所例示。該執行裝置及該儲存裝置亦由在圖17及19之情況中的CPU 92、202及ROM 94、204與儲存裝置96、206所例示。該更新映射藉由圖1中之學習程式94a及圖3中之學習程式154a規定而由在程序S52及S54中使用之映射及在程序S132至S136中使用之映射所例示。該更新映射亦藉由在圖8及14中之學習程式94a規定而由在程序S52及S54中使用之映射、在程序S132至S136中使用之映射、以及在程序S164中使用之映射所例示。該更新映射亦藉由在圖17及19中之學習程式94a規定而由在程序S164中使用之映射所例示。該操作係藉由程序S46、程序S116及程序S146所例示。該獲取係藉由程序S42及S60、程序S112、程序S42及S60a、程序S42a及S60b、以及程序S42b及S60b所例示。該報酬計算係藉由程序S50、程序S120至S126、程序S50a及圖16中之程序所例示。該更新係藉由程序S52及S54、程序S128至S136及程序S164所例示。
在上述第一模式中,該報酬可以在當排氣特性對應於預定特性時比當排氣特性未對應於該預定特性時還大。該預定特性可包含以下至少一者:落在一預定範圍內之氮氧化物排放量、落在一預定範圍內之未燃燒的燃料排放量、落在一預定範圍內之顆粒物質排放量、及落在一預定範圍內之被提供在內燃引擎之排氣通道中之觸媒溫度。上述的組態係藉由程序S62至S66及程序S62a、S64及S66所例示。
在上述第一模式中,該執行裝置計算該報酬使得滿足以下條件之至少一者:從該駕駛性能之該觀點已被量化之該報酬在當該車輛之加速度落在第一預定範圍內時比當該車輛之該加速度落在該第一預定範圍外時還大;從該駕駛性能之該觀點已被量化之該報酬在當該車輛之急衝度落在第二預定範圍內時比當該急衝度落在該第二預定範圍外時還大;及從該駕駛性能之該觀點已被量化之該報酬在當由該內燃引擎產生之聲音位準落在第三預定範圍內時比當該聲音之位準落在該第三預定範圍外時還大。上述組態係藉由程序S72至S76所例示。
依照上述第一模式之產生車輛控制資料之方法可進一步包含利用該執行裝置藉由基於被更新之該關係規定資料來形成在該車輛之該狀態與最大化該預期獲利之該操作量之間的一對一對應性而使用該車輛之該狀態作為自變數且回傳最大化該預期獲利之該操作量來產生控制映射資料。上述組態係藉由圖6中之程序所例示。特定言之,該執行裝置及該儲存裝置係分別藉由CPU 152及ROM 154與儲存裝置156所例示。該控制映射資料係藉由映射資料96b所例示。
本發明之第二模式亦關於一種車輛控制裝置。該車輛控制裝置包含依照上述第一模式之儲存裝置及執行裝置。在該車輛控制裝置,該執行裝置被組構成基於依照該關係規定資料及該車輛之該狀態判定之該操作量來操作該可操作部分。該執行裝置及該儲存裝置係分別藉由CPU 92及ROM 94與儲存裝置96所例示。
在上述第二模式中,該執行裝置可以被組構成用以獲取該內燃引擎之輸出及扭力之至少一者之所需值及計算值作為該偵測值,且計算該報酬,使得該報酬在當該所需值及該計算值之間之差值的絕對值等於或小於預定值時比當該絕對值大於該預定值時還大。該獲取係藉由程序S60a所例示。該報酬計算係藉由程序S78至S82所例示。
在上述第二模式中,該車輛可包含變速裝置,其被組構成用以改變從該內燃引擎之曲軸輸出之旋轉速度且輸出具有已改變速度的旋轉,且被組構成用以改變速度比。由關係規定資料規定之該關係可包含在該變速裝置之狀態與該變速裝置之操作量之間之關係。該執行裝置可被組構成用以獲取藉由被組構成用以偵測該變速裝置之該狀態之感測器所偵測之值作為該偵測值,計算該報酬,使得滿足以下條件之至少一者:該報酬在當該變速裝置切換該速度比所需時間落在一預定時間內時比當該時間超過該預定時間時還大;該報酬在當該變速裝置之輸入軸桿之旋轉速度中之速度改變的絕對值等於或小於預定輸入側值時比當該輸入軸桿之該旋轉速度之該速度改變之該絕對值大於該預定輸入側值時還大;該報酬在當該變速裝置之輸出軸桿之旋轉速度中之速度改變的絕對值等於或小於預定輸出側值時比當該輸出軸桿之該旋轉速度中之該速度改變之該絕對值大於該預定輸出側值還大;及該報酬在當由該變速裝置之電磁閥(80a)調節之液壓壓力滿足預定條件時比當該液壓壓力不滿足該預定條件時還大,及藉由使用該偵測值及有關該變速裝置之該狀態作為該更新映射之該自變數來更新由該關係規定資料規定之該變速裝置之該狀態與該變速裝置之該操作量之間的關係。該關係規定資料係藉由圖1及8中之關係規定資料96a所例示。該變速裝置之該狀態係藉由輸入旋轉速度ωin、輸出旋轉速度ωout、液壓壓力Poila、及液壓壓力Poilb所例示。該操作量係藉由螺線管電流命令值ia*及ib*所例示。
在上述第二模式中,該車輛可包含該車輛可包含旋轉電機,其被組構成用以提供動力給驅動輪。由該關係規定資料規定之該關係可包含供應電力給旋轉電機之電力蓄積裝置之狀態與該旋轉電機之控制量之間的關係。該執行裝置被組構成用以操作該旋轉電機之驅動電路,獲取該電力蓄積裝置之該狀態作為該偵測值,計算該報酬,使得該報酬在當該電力蓄積裝置之該狀態落在預定範圍內時比當該電力蓄積裝置之該狀態落在該預定範圍外時還大,且藉由使用該電力蓄積裝置之該狀態與該旋轉電機之該控制量作為該更新映射之自變數來更新由該關係規定資料規定之該電力蓄積裝置之該狀態與該旋轉電機之該控制量之間的關係。該電力蓄積裝置藉由電池170所例示。該電力蓄積裝置之該狀態係藉由電池溫度Tbatt及變化比SOC所例示。
在上述第二模式中,該執行裝置被組構成用以獲取該車輛之輸出及驅動扭力之至少一者的所需值及計算值作為該偵測值,及計算該報酬,使得該報酬在當該車輛之該輸出及該驅動扭力之該至少一者的該所需值及該計算值之間之差值的絕對值等於或小於預定值時比當該絕對值大於該預定值時還大。該獲取係藉由程序S60b所例示。該報酬計算係藉由程序S78a、S80及S82所例示。
在上述第二模式中,該關係規定資料可包含規定在該車輛之該狀態、該預期獲利、及該操作量當中之關係的資料。該執行裝置被進一步組構成基於該偵測值及該關係規定資料以優先於會減少該預期獲利之操作量來選擇會增加該預期獲利之操作量。該執行裝置被組構成基於所選擇之該操作量來操作該可操作部分。該選擇係藉由程序S44所例示。
在上述第二模式中,該關係規定資料可以係該規定函數近似器之資料,該函數近似器使用該車輛之該狀態作為自變數且回傳選擇該操作量之概率。該更新映射可包含回傳規定該函數近似器之參數之更新量的映射。該函數近似器係藉由輸出平均值μ(i)及變異數σ(i)的函數近似器所例示。
本發明之第三模式亦關於一種車輛控制系統。該車輛控制系統包含依照上述第二模式之執行裝置及儲存裝置。該執行裝置包含安裝在該車輛上之第一執行裝置及與該車載裝置分開的第二執行裝置;該第一執行裝置至少執行該獲取及該操作;且該第二執行裝置至少執行該更新。該第一執行裝置由係藉由CPU 92及ROM 94所例示。該第二執行裝置係藉由CPU 202及ROM 204所例示。
在上述第三模式中,該第一執行裝置可被進一步組構成用以將與該偵測值有關之資料傳輸至該第二執行裝置,接收由該第二執行裝置所傳輸之該操作量,及基於從該第二執行裝置接收之該操作量來操作該可操作部分。該第二執行裝置被進一步組構成用以接收由該第一執行裝置所傳輸之該資料,基於從該第一執行裝置接收之該資料及該關係規定資料來計算該操作量,及傳輸該計算的操作量。藉由第一執行裝置傳輸係由程序S200所例示。藉由第一執行裝置接收係藉由程序S202所例示。藉由第二執行裝置接收係藉由程序S210所例示。該操作量計算係藉由在圖20右側的流程圖中的程序S140b、S142b及S144b所例示。藉由第二執行裝置之傳輸係藉由程序S212所例示。
本發明之第四模式亦關於一種車輛控制裝置。該車輛控制裝置包含依照上述第三模式之第一執行裝置。該車輛控制裝置係藉由圖17及19中之控制裝置90所例示。
本發明之第五模式係關於車輛學習裝置。該車輛學習裝置包含依照上述第三模式之第二執行裝置。該車輛學習裝置係藉由資料分析中心200所例示。
本發明之另一模式提供一種產生車輛控制資料之方法,該方法造成執行裝置執行:操作程序,其利用儲存關係規定資料之儲存裝置操作變速裝置,該變速裝置係改變從內燃引擎之曲軸傳輸之旋轉速度且輸出具有可變速度比之旋轉之裝置,且該關係規定資料規定該變速裝置之狀態與該變速裝置之操作量之間的關係;獲取程序,其獲取來自於偵測該變速裝置之狀態之感測器的偵測值;報酬計算程序,其基於在該獲取程序中獲取之偵測值而基於伴隨該變速裝置之操作的該車輛之駕駛性能計算來計算報酬;及更新程序,其使用基於在該獲取程序中獲取之基於該偵測值之該變速裝置之該狀態、用以操作該變速裝置之操作量、及對應於該操作之報酬作為事先判定之更新映射之輸入來更新該關係規定資料,其中該更新映射輸出已被更新之關係規定資料以增加在該變速裝置依照該關係規定資料操作的情況中針對該報酬之預期獲利。該執行裝置及儲存裝置係藉由圖1及圖8中之CPU 92及ROM 94與儲存裝置96所例示。該操作程序係藉由程序S116所例示。該獲取程序係藉由程序S112所例示。該報酬計算程序係藉由程序S120至S126所例示。該更新程序係藉由程序S128至S136所例示。
藉由上述組態,可以藉由計算伴隨可操作部分之操作之報酬來抓取透過此操作可獲得之報酬。在變速裝置之狀態與變速裝置之操作量之間的關係可藉由使用更新映射來更新關係規定資料來設定,該更新映射已基於報酬而受過加強學習。因此,可以減少專家設定變速裝置之狀態與變速裝置之操作量之間之關係時所需的人力工時數量。
本發明之又另一模式提供一種產生車輛控制資料之方法,該方法可應用於包含內燃引擎及旋轉電機作為推力產生裝置之車輛,且造成執行裝置執行:操作程序,其利用儲存關係規定資料之儲存裝置來操作內燃引擎之可操作部分及旋轉電機之驅動電路;該關係規定資料規定車輛之狀態及內燃引擎之操作量與旋轉電機之控制量之間的關係;獲取程序,其獲取車輛之輸出與車輛之驅動扭力中之至少一者的所需值及計算值;報酬計算程序,其基於在獲取程序中獲取之該所需值及該計算值而在該計算值及該所需值之間之差值的絕對值係較小的情況中相較於此絕對值係較大的情況中給予較大的報酬;及更新程序,其使用該車輛之該狀態、該可操作部分之操作量及對應於在操作程序中之操作的旋轉電機之控制量、及對應於該操作之報酬作為事先判定之更新映射之輸入來更新該關係規定資料,其中該更新映射輸出已被更新之關係規定資料以增加在該可操作部分及該驅動電路依照該關係規定資料操作的情況中針對該報酬之預期獲利。該執行裝置及該儲存裝置係藉由圖14之情況中的CPU 92及ROM 94與儲存裝置96所例示。該執行裝置及該儲存裝置亦藉由圖17及19之情況中的CPU 92、202及ROM 94、204與儲存裝置96、206所例示。該操作程序係藉由程序S146所例示。該獲取程序係藉由程序S42a與程序S42b所例示。該報酬計算程序係藉由圖16中之程序所例示。
藉由上述組態,可以藉由計算伴隨可操作部分之操作之報酬來抓取透過此操作可獲得之報酬。在車輛之狀態與內燃引擎之可操作部分之操作量及旋轉電機之控制量之間的關係可藉由使用更新映射來更新關係規定資料來設定,該更新映射已基於報酬而受過加強學習。因此,可以減少專家設定車輛之狀態與內燃引擎之可操作部分之操作量與旋轉電機之控制量之間之關係時所需的人力工時數量。
本發明又另一模式係提供產生上述車輛控制資料之方法,其中該報酬計算程序包含在車輛之能量消耗率較低的情況相較於車輛之該能量消耗率較高的情況中給予較大的報酬的程序。上述組態係藉由程序S68及S70所例示。
利用上述組態,該關係規定資料可學習以減少車輛之能量消耗率,同時將車輛之輸出或驅動扭力帶至該所需值。
本發明又另一模式係提供產生上述車輛控制資料之方法,其中該報酬計算程序包含供應電力至旋轉電機之電力蓄積裝置的變化比落在預定速率範圍內的情況相較於該電力蓄積裝置的變化比落在預定速率範圍外的情況中給予較大的報酬的程序。上述組態係藉由程序S170及S172所例示。該電力蓄積裝置係藉由電池170所例示。
最好該電力蓄積裝置之變化比應落在預定速率範圍內。因此,利用上述組態,可適當地使電力蓄積裝置之變化比帶至預定速率範圍的關係規定資料可藉由透過報酬計算程序而在電力蓄積裝置的變化比落在預定速率範圍內的情況相較於該電力蓄積裝置的變化比落在預定速率範圍外的情況中給予較大的報酬來學習。
本發明又另一模式係提供產生上述車輛控制資料之方法,其中該報酬計算程序包含供應電力至旋轉電機之電力蓄積裝置的溫度落在預定溫度範圍內的情況相較於該電力蓄積裝置的溫度落在預定溫度範圍外的情況中給予較大的報酬的程序。上述組態係藉由程序S174及S176所例示。該電力蓄積裝置係藉由電池170所例示。
最好該電力蓄積裝置之溫度應落在預定溫度範圍內。因此,利用上述組態,可適當地使電力蓄積裝置之溫度帶至預定溫度範圍的關係規定資料可藉由透過報酬計算程序而在電力蓄積裝置的溫度落在預定溫度範圍內的情況相較於該電力蓄積裝置的溫度落在預定溫度範圍外的情況中給予較大的報酬來學習。
本發明之另一模式係提供包含執行裝置及儲存裝置之車輛控制裝置,其中:該儲存裝置儲存關係規定資料,該關係規定資料規定在其上安裝內燃引擎的車輛之狀態、該內燃引擎之可操作部分的操作量、及從內燃引擎之燃料消耗率、內燃引擎之排氣特性、及其上安裝內燃引擎之該車輛之駕駛性能的至少一者的觀點的報酬之預期獲利當中的關係;且該執行裝置執行獲取來自於偵測該車輛之狀態之感測器的偵測值之獲取程序、選擇基於該車輛之該狀態而最大化該預期獲利之操作量(其係基於在獲取程序中獲取之該偵測值及該關係規定資料)的選擇程序、及基於在選擇程序中選擇之該操作量來操作該可操作部分之操作程序。該執行裝置及該儲存裝置係藉由圖8中之CPU 92及ROM 94及儲存裝置96所例示。該獲取程序係藉由圖10中之程序S42所例示。該選擇程序係藉由圖10中之程序S44所例示。意即,雖然並不一定總是在程序S44中選擇貪婪動作,但在未執行探勘的情況中係選擇貪婪動作。該操作程序係藉由圖10中之程序S46所例示。
該關係規定資料係規定車輛之狀態、可操作部分之操作量、及預期獲利當中之關係的資料,且因此可透過加強學習來學習。因此,利用上述車輛控制裝置,可以減少專家在調適可操作部分之操作量所需的人力工時數量。
本發明之另一模式係提供包含執行裝置及儲存裝置之車輛控制裝置,其中:該儲存裝置儲存關係規定資料,該關係規定資料規定在變速裝置之狀態、變速裝置之操作量、及基於車輛之駕駛性能之報酬的預期獲利當中的關係,該變速裝置係改變從內燃引擎之曲軸傳輸之旋轉速度且輸出具有可變速度比之旋轉的裝置;且該執行裝置執行獲取來自於偵測該變速裝置之狀態之感測器的偵測值的獲取程序、選擇基於在獲取程序中獲取之偵測值之選擇程序及關係規定資料而可最大化預期獲利之操作量,及基於在選擇程序中選擇之操作量來操作該變速裝置之操作程序。該執行裝置及該儲存裝置係藉由圖1及圖8中之CPU 92及ROM 94及儲存裝置96所例示。該獲取程序係藉由程序S112所例示。該選擇程序係藉由程序S114所例示。意即,雖然並不一定總是在程序S114中選擇貪婪動作,但在未執行探勘的情況中係選擇貪婪動作。該操作程序係藉由程序S116所例示。
該關係規定資料係規定變速裝置之狀態、變速裝置之操作量、及預期獲利當中之關係的資料,且因此可透過加強學習來學習。因此,利用上述車輛控制裝置,可以減少專家在調適變速裝置之操作量所需的人力工時數量。
本發明之又另一模式係提供包含執行裝置及儲存裝置之車輛控制裝置,其中:該儲存裝置儲存關係規定資料,該關係規定資料規定在其上安裝內燃引擎的車輛之狀態及該內燃引擎之可操作部分的操作量之間的關係,該車輛之該狀態包含內燃引擎之狀態;及執行獲取來自於偵測車輛之狀態之感測器的偵測值之獲取程序的執行裝置,及依照基於在獲取程序中獲取之偵測值之可操作部分之操作量來操作該可操作部分之操作程序,其中該關係規定資料規定有關車輛之預定狀態與操作量之按時間順序資料之間的關係。該執行裝置及該儲存裝置係藉由圖17中之CPU 92及ROM 94與儲存裝置96所例示。該獲取程序係藉由程序S42b所例示。該操作程序係藉由程序S146所例示。該預定狀態係藉由旋轉速度NE及充氣效率η所例示。
如上文所論述,專家花費大量人力工時來調適內燃引擎之驅動系統之操作量等等,且因此一直存在避免增加欲被輸入來設定該操作量之狀態的維度數量的數目之增加的動機。然而,當操作量基於包含在針對預定狀態按時間順序上彼此相鄰之取樣值之按時間順序資料而設定時比當該操作量係僅基於於針對該狀態之單一取樣值而設定時具有該操作量可更被恰當地設定的較高可能性。因此,利用上述組態,藉由使用基於有關於預定狀態之按時間順序資料之操作量來操作該可操作部分可更恰當地執行目標控制。
本發明又另一模式係提供上述車輛控制裝置,其中該按時間順序資料包含在操作點變數上的按時間順序資料,該操作點變數係規定內燃引擎之操作點之變數。該執行裝置及該儲存裝置係藉由圖17中之CPU 92及ROM 94與儲存裝置96所例示。該獲取程序係藉由程序S42b所例示。該操作程序係藉由程序S146所例示。該預定狀態係藉由旋轉速度NE及充氣效率η所例示。 其他實施例
本實施例可經修改如下。本實施例及以下修改實例可以彼此組合的方式來實施,除非此實施例及修改例在技術上彼此抵觸。 關係規定資料 1. 動作值函數Q
雖然在上述實施例中該動作值函數Q之表格型函數,然而本發明不受限於此。舉例而言,亦可使用函數近似器。 2. 指示操作量的策略
儘管多變量高斯分佈被使用作為欲透過策略梯度方法等等來更新的策略,且該多變量高斯分佈之共變異數矩陣係對角矩陣,其可實現變異數針對動作之各維度被獨立設定,但本發明不受限於此。舉例而言,該變異數可針對一動作之各維度被設定為一共同值。另外,舉例來說,該共變異數矩陣並不一定應該為對角矩陣。另外,亦非必要的是構成一函數近似器,其從線性映射及來自該線性映射之一輸出被輸入至其的一函數f來判定共變異數矩陣之分量。舉例而言,該函數近似器可以由神經網路構成。此外,亦非必要的是該函數近似器(其判定多變量高斯分佈之平均)應該為神經網路。舉例而言,該函數近似器可以係輸入變數被輸入至其等之複數個基礎函數的線性耦合。該函數近似器之初始值(諸如平均值μ(i)及變異數σ(i))之設定方法並未侷限於利用對已被調適且具有與內燃引擎10相同之排氣量及可操作部分之內燃引擎上的控制之方法。 3. 狀態
舉例來說,觸媒38可包含捕捉PM的過濾器,且沈積在該過濾器上之PM量(PM沈積量)可被包含在狀態中。因此,不會造成PM沈積量過大的控制可藉由對於在PM沈積量很大的情況中執行再生該過濾器之程序的動作提供高報酬而可容易地透過加強學習來學習。例如,該PM沈積量可基於內燃引擎10之操作狀態來估計。
另外,舉例來說,觸媒38之硫毒化量亦可以被包含在狀態中。因此,不會造成硫毒化量過大的控制可藉由對於在硫毒化量很大的情況中執行再生該觸媒38之程序的動作提供高報酬而可容易地透過加強學習來學習。例如,該硫毒化量可基於所需噴射量Qf等等來估計。
在可操作部分之操作量受到反饋控制的情況中,在該反饋控制中之控制量可被增加至狀態。意即,儘管例如在上述實施例中節氣門開度命令值Tor*被包含在動作中,但該節氣閥16之開度(節氣門Tor)可被包含在狀態中,因為節氣門開度Tor可透過反饋控制而被控制成該節氣門開度命令值Tor*。因此,將控制量控制成命令值的方式可透過加強學習來學習。
例如,在車輛VC1自動駕駛的情況中,該狀態最好應包含所需引擎扭力值Trqeg*、所需引擎輸出值Peg*、所需輸出值Ptot*、及所需驅動扭力值Trq*作為輸出變數,該輸出變數係指示車輛之推力產生裝置的輸出之變數。在上述實施例中,該所需引擎扭力值Trqeg*、所需引擎輸出值Peg*、所需輸出值Ptot*、及所需驅動扭力值Trq*可包含在該狀態中作為輸出變數,以取代加速器操作量ACCP。 2-1. 由按時間順序資料表達之狀態
儘管在圖18及20之程序中針對旋轉速度NE及充氣效率η的狀態中包含在時間順序上彼此相鄰的六個資料,但構成按時間順序資料之取樣值數目並未侷限於六個。此等值的數目僅需兩個或更多個,且此等值的數目可以係三個或更多個。在此情況中,構成按時間順序資料之旋轉速度NE的取樣值數目及構成按時間順序資料之充氣效率η之取樣值數目並不一定要彼此相等。
儘管在圖18及20中之程序中使用在旋轉速度NE上之按時間順序資料及在充氣效率η上的按時間順序資料,但亦可以僅使用在旋轉速度NE及充氣效率η中之一者上的按時間順序資料,而非在兩者上的按時間順序資料。
欲在加強學習中被使用作為狀態的按時間順序資料並未侷限於操作點變數(其係指示內燃引擎10之操作點的變數)。舉例而言,此按時間順序資料可例如在加速器操作量ACCP等等上,或可在進氣相位差DIN等等上,或例如可在第一MG速度ωmg1、第二MG速度ωmg2等等上。該按時間順序資料並未侷限於被輸入至由函數近似器表示之策略π,且例如可被輸入至由函數近似器所表示之動作值函數Q。 4. 動作
該動作並未侷限於關於上述實施例中所描述的。舉例而言,該動作可包含諸如噴射正時、在一個燃燒循環中的噴射次數、及在一個燃燒循環中的點火次數的操作量。該動作亦可包含例如燃料蒸氣由濾罐66捕捉而造成流出進氣通道12的計時。例如,在內燃引擎10包含可調諧控制閥的情況中,這些閥的操作量可被使用作為一動作。同時,例如,在內燃引擎10包含漩渦控制閥的情況中,這些閥的操作量可被使用作為一動作。例如,在控制裝置90執行內燃引擎10之啟停控制的情況中,用以停止惰轉的計時可被使用作為一動作。在內燃引擎10之進氣通道12包含迂迴環繞增壓器14之通道及調節在通道中流動路徑之截面積的空氣旁通閥的情況中,該空氣旁通閥之開度可被使用作為操作量。在內燃引擎10具有具可改變進氣通道之結構的情況中,此一結構的操作量亦可被使用作為一動作。在內燃引擎10針對各汽缸包含進氣閥20且此等閥中之一者可被選擇性地保持關閉的情況中,任一此閥是否被選擇性關閉,其亦可以被使用作為一動作。在此情況中,該可操作部分包含進氣閥20。例如,在該控制裝置90執行控制以停止針對空氣燃料混合物在特定汽缸中的燃燒控制的情況中,此控制是否正被執行,其亦可以被使用作為一動作。在此情況中,該對應可操作部分包含端口噴射閥18、汽缸內噴射閥28、及點火裝置30。在內燃引擎10具有可變壓縮比的情況中,改變該壓縮比的操作亦可以被使用作為一動作。在內燃引擎中調節用於冷卻水之循環路徑中的流動路徑之截面積的流速控制閥的開度亦可以被使用作為一動作。
該動作並不一定應該係多維度的。舉例而言,在預定可操作部分被新增加至既有內燃引擎的情況中,僅該可操作部分之操作量與該狀態之間的關係可透過加強學習來學習。在此情況中,該狀態可包含其他可操作部分之操作量。
該動作可包含一操作量,諸如變速裝置80之液壓壓力。該動作可包含變速裝置80之控制量(速度比)。該動作並未侷限於內燃引擎10之可操作部分的操作量、變速裝置80之操作量或控制量、及第一馬達/發電機162與第二馬達/發電機166之控制量。舉例而言,該扭力轉換器70之鎖定離合器72是否被接合,其亦可以被使用作為一動作。例如,亦可增加用於透過反饋控制來將節氣門開度Tor控制至節氣門開度命令值Tor*的增益。 更新映射 1. 更新動作值函數Q 1-1. 使用內燃引擎10之操作量作為動作之動作值函數Q的更新
雖然在程序S52及S54中使用策略外TD方法,但本發明不受限於此。舉例而言,亦可使用依策略TD方法(諸如SARSA)。舉例而言,針對依策略學習亦可使用資格跡方法。
然而,本發明不受限於此,例如,亦可使用蒙特卡羅法。 1-2. 使用速度改變裝置80之操作量作為動作之動作值函數Q的更新
儘管在圖7中之變速裝置80有關的動作值函數Q的更新映射係使用ε-柔性依策略蒙特卡羅法,但本發明不受限於此。舉例而言,亦可使用策略外蒙特卡羅法。本發明未侷限於使用蒙特卡羅法。舉例而言,亦可如在程序S52及S54中使用策略外TD方法,例如亦可使用依策略TD方法(諸如SARSA),或者例如針對依策略學習亦可使用資格跡方法。 1-3. 其他
並非必要的是,使用內燃引擎10之操作量作為動作的動作值函數Q及使用變速裝置80之操作量作為動作之動作值函數Q應為分開值函數。該動作值函數Q並未侷限於使用內燃引擎10之操作量作為動作的動作值函數或使用變速裝置80之操作量作為動作的動作值函數,且可以係使用第一馬達/發電機162及第二馬達/發電機166之控制量作為動作的動作值函數。舉例而言,亦可使用一共同動作值函數Q,其使用內燃引擎10之操作量及第一馬達/發電機162與第二馬達/發電機166之控制量。亦可例如使用一共同動作值函數Q,其使用內燃引擎10之操作量及變速裝置80之控制量。亦可例如使用一共同動作值函數Q,其使用內燃引擎10之操作量及變速裝置80之操作量及控制量。
在如「關係規定資料」下之「1. 動作值函數Q」中所描述針對動作值函數Q使用函數近似器情況中,該更新映射可被組構成包含例如基於動作值函數Q相對於一參數之偏微分來輸出規定該動作值函數Q之該參數之更新量的映射。 2. 規定策略之函數近似器的參數之更新
儘管在程序S164中該獲利Ri係針對時間T的簡易平均值,但本發明不受限於此。舉例而言,該獲利Ri可以係使用已藉由預定減少率γ減少之報酬r比更老的報酬r更明顯的值獲得的總和。這對應於指數移動平均程序。
在程序S164中,獲利Ri可由藉由從該獲利Ri減去不取決於參數θ之適當基線函數所獲得的值來取代。詳言之,最好該基線函數例如應該是最小化預期獲利J相對於參數之偏微分的變異數之函數。
由藉由函數近似器所近似之策略指定的動作並未侷限於內燃引擎10之操作量或第一馬達/發電機162及第二馬達/發電機166之控制量。舉例而言,此動作可以係變速裝置80之操作量及控制量。詳言之,策略可例如僅指定變速裝置80之操作量,或可指定內燃引擎10之操作量及變速裝置80之操作量,或例如可指定內燃引擎10之操作量及變速裝置80之操作量與控制量。在將在下文「車輛」中描述之並聯式混合動力車輛包含變速裝置的情況中,該策略例如可以指定馬達/發電機之控制量及變速裝置之操作量,或可以指定馬達/發電機之控制量及變速裝置之控制量,或可以指定馬達/發電機之控制量及變速裝置之操作量與控制量。替代地,舉例來說,該策略可以指定內燃引擎之可操作部分之操作量、馬達/發電機之控制量、及變速裝置之操作量,或可以指定內燃引擎之可操作部分之操作量、馬達/發電機之控制量、及變速裝置之控制量,或可以指定內燃引擎之可操作部分之操作量、馬達/發電機之控制量、及變速裝置之操作量與控制量。 3. 其他
儘管在圖4、7及10中所示之實例中使用動作值函數Q的情況中該策略π由於動作值函數Q之更新而被更新,但本發明不受限於此。舉例而言,動作值函數Q及策略π兩者可如在如行為評判(actor critic)法被更新。該行為評判法並未侷限於此,且例如值函數V可被更新以取代動作值函數Q。
學習率α並未侷限於固定值,且可依照事先依照學習進步程度所判定的規則來改變。用於判定策略π之「ε」並未侷限於固定值,且可依照事先依照學習進步程度所判定的規則來改變。 報酬計算程序 1. 關於燃料消耗率之報酬
儘管在上述實施例中係使用積分值InQf作為輸入且依照其量值來計算報酬,然而本發明不受限於此。舉例而言,可在至排氣通道36之二氧化碳之排放量較小的情況相較於此排放量較大的情況給予較大報酬。同時,即使當積分值InQf及二氧化碳之排放量相同時,可以在進氣量Ga較大的情況相較於進氣量Ga較小的情況給予較大報酬。 2. 關於排氣特性之報酬 2-1. 在裝運之前的學習
儘管在程序S62至S66中報酬係依照條件(1)至(6)之邏輯積是否為真來判定,但本發明不受限於此。舉例而言,在條件(1)至(6)之各者被滿足的情況相較於此一條件不被滿足的情況係給予較大的報酬。
並非必要的是在程序S62至S66中使用所有的條件(1)至(6)。舉例而言,可僅基於該六個條件(1)至(6)中的一至五個來給予報酬。 2-2. 在裝運之後的學習
儘管在程序S62a、S64及S66中報酬係依照條件(2)至(5)之邏輯積是否為真來判定,但本發明不受限於此。舉例而言,在條件(2)及(5)之各者被滿足的情況相較於此一條件不被滿足的情況係給予較大的報酬。
並非必要的是在程序S62a、S64及S66中使用條件(2)及(5)兩者。亦非必要的是僅使用該兩條件(2)及(5)之至少一個。舉例而言,可僅基於四個條件(1)、(3)、(4)及(6)中的一些來計算報酬。在基於條件(3)或(4)來計算報酬的情況中,車輛VC1可具備有專用感測器或映射,其輸出NOx量Qnox或未燃燒的燃料量Qch。舉例來說,該映射可在裝運之前的學習期間以類似於PM量輸出映射資料96c的方式來學習及產生。 2-3. 其他
關於排氣特性之報酬並未侷限於上文所描述的。舉例而言,該報酬可包含排氣溫度Tex。在此情況中,在狀態包含PM沈積量或硫毒化量的情況中,例如如在「關係規定資料」下之「3. 狀態」所描述的,在排氣溫度係可使觸媒38再生之溫度的情況中當PM或硫毒化量係很大時可給予較大的報酬。
在觸媒38之溫度落在預定範圍內的情況中相較於此溫度落在預定範圍外的情況係可給予較大的報酬。該預定範圍可例如係排氣純化率很高的溫度範圍。在狀態包含PM沈積量或硫毒化量的情況中,例如如在「關係規定資料」下之「3. 狀態」所描述的,在排氣溫度係可使觸媒38再生之溫度的情況中當PM或硫毒化量係很大時可給予較大的報酬。
在例如包含旋轉速度NE、充氣效率η等等作為輸入變數且EGR開度命令值Egrvor作為輸出變數之映射資料未透過加強學習來調適的情況中,在設定EGR開度命令值Egrvor中假設之增壓壓力與增壓壓力Pa之間之差值的絕對值等於或小於一預定值的情況相較於此一差值的絕對值大於該預定值的情況係可給予較大的報酬。這是有鑑於在增壓壓力Pa偏離假設值的情況中對EGR量偏離該假設的控制之事實。可以使用在增壓器14之渦輪的實際旋轉速度與在設定EGR開度命令值Egrvor時假設的渦輪之旋轉速度之間的差值來取代該增壓壓力。 3. 關於駕駛性能之報酬
儘管在程序S72至S76中報酬係依照條件(11)至(13)之邏輯積是否為真來判定,但本發明不受限於此。舉例而言,在條件(11)至(13)之各者被滿足的情況相較於此一條件不被滿足的情況可給予較大的報酬。
並非必要的是在程序S72至S76中使用所有的條件(11)至(13)。舉例而言,可僅基於該三個條件(11)至(13)中的一或兩個來給予報酬。
關於駕駛性能之報酬並未侷限於上文所描述的。舉例而言,在驅動系統之各種不同旋轉軸桿(諸如曲軸32及輸出軸桿84)之旋轉的波動量等於或小於預定值的情況相較於此波動量大於該預定值的情況可給予較大的報酬。
關於旋轉之波動量,在車輛之振動落在預定範圍內的情況中相較於該車輛之振動落在預定範圍外的情況係可給予較大的報酬。意即,關於駕駛性能給予報酬的程序可以係以下三個程序中之至少一者。意即,該三個程序包含:在車輛之行為(諸如加速度及加速度的改變率(急衝度))滿足一準則的情況相較於該車輛之行為不滿足該準則的情況給予較大報酬的程序;在噪音落在預定範圍內的情況相較於噪音未落在該預定範圍內的情況給予較大報酬的程序;及在車輛之振動落在預定範圍內的情況相較於該車輛之振動未落在該預定範圍內的情況給予較大報酬的程序。 4. 關於內燃引擎的一般事項
在水溫度THW落在預定溫度範圍內的情況中相較於水溫度THW落在預定溫度範圍外的情況係可給予較大的報酬。另外,在機油溫度Toil落在預定溫度範圍內的情況中相較於機油溫度Toil落在預定溫度範圍外的情況係可給予較大的報酬。
本發明未侷限於給予所有關於燃料消耗率之報酬、關於排氣特性之報酬、關於駕駛性能之報酬、及關於所需引擎扭力值Trqeg*之報酬(所需引擎輸出值Peg*)的組態。舉例而言,可以給予四個報酬中之僅一個、僅兩個、或僅三個報酬。
在未給予關於所需引擎扭力值Trqeg*(所需引擎輸出值Peg*)之報酬的情況中,該節氣門開度命令值Tor*可例如基於加速器操作量ACCP來設定,未透過加強學習。
附帶一提,在給予有關燃料消耗率之報酬的情況中,最好該動作應包含所需噴射量Qf、點火正時aig、噴射分配比Kp、每燃燒循環之噴射次數、進氣相位差命令值DIN*、WGV開度命令值Wgvor、及EGR開度命令值Egrvor中之至少一者。
在給予關於排氣特性之報酬的情況中,最好該動作應包含以下至少一者。意即,最好該動作應包含所需噴射量Qf、點火正時aig、噴射分配比Kp、每燃燒循環之噴射次數、進氣相位差命令值DIN*、WGV開度命令值Wgvor、EGR開度命令值Egrvor、燃料壓力命令值pf*、清洗操作量Pg及每燃燒循環之點火次數中之至少一者。本發明並未侷限於此,且該動作可包含當燃料蒸氣由濾罐66捕捉而造成流出進氣通道12的計時、可調諧控制閥之操作量、漩渦控制閥之操作量、及用以停止惰轉之計時中之至少一者,如在「關係規定資料」下之「4. 動作」中所描述的。該動作亦可包含例如空氣旁通閥之開度、具有可改變進氣通道之結構的操作量(在內燃引擎10具有此一結構的情況中)、及在內燃引擎10針對每個汽缸包含一對進氣閥20的情況中是否一對進氣閥20中之一者被選擇性地關閉且此對閥中之一者可被選擇性地保持關閉。該動作亦可包含是否用於執行停止針對空氣燃料混合物在特定汽缸中的燃燒控制的控制在此控制正執行的情況中將被執行,及針對內燃引擎10之壓縮比(針對此一壓縮比係可變的)的操作。該動作亦可例如包含流速控制閥之開度。
同時,在給予有關駕駛性能之報酬的情況中,最好該動作應包含節氣門開度命令值Tor*、WGV開度命令值Wgvor、及液壓壓力Poila、Poilb…之至少一者。 5. 伴隨速度改變裝置之報酬
儘管在程序S120及S122中報酬係依照條件(10)至(12)之邏輯積是否為真來判定,但本發明不受限於此。舉例而言,在條件(10)至(12)之各者被滿足的情況相較於此一條件不被滿足的情況可給予較大的報酬。
並非必要的是在程序S120至S122中使用所有的條件(10)至(12)。舉例而言,可僅基於該三個條件(10)至(12)中的一或兩個來給予報酬。
基於條件(11)及(12)的報酬可在正在執行換檔的期間的週期期間連續地給予。伴隨變速裝置之操作的報酬並未侷限於上述基於駕駛性能觀點的報酬。舉例而言,在動作包含變速裝置80之控制量的情況中,如在「關係規定資料」下之「4. 動作」的所描述,亦可使用有關燃料消耗率之報酬。 5. 關於混合動力車輛之報酬
儘管在上述實施例中在執行在電池溫度Tbatt落在預定範圍內相較於在該電池溫度Tbatt落在該預定範圍外給予較大報酬的程序中未判定該預定範圍的下限值,但本發明不受限於此。
本發明並侷限於使用匹配該變化比SOC之報酬及匹配該電池溫度Tbatt之報酬兩者。舉例而言,可以僅使用兩個此報酬中之一者。
匹配變化比SOC之報酬及匹配電池溫度Tbatt之報酬中沒有一個可使用。舉例而言,在所需輸出值Ptot*及輸出Ptot之間的差值之絕對值較小的情況相較於此一差值之絕對值較大的情況係可以給予較大報酬,或者在所需驅動扭力值Trq*與驅動扭力Trq之間的差值之絕對值較小的情況目較於此一差值之絕對值較大的情況係可以給予較大報酬。在此等情況下,在內燃引擎10與第一馬達/發電機162及第二馬達/發電機166之間用於達成所需輸出值Tot*與所需驅動扭力值Trq*的動力分佈係可透過加強學習來學習。 6. 其他報酬
例如,在動作包含鎖定離合器72是否接合的情況中,如在「關係規定資料」下之「4. 動作」中所描述的,在聲音壓力等於或小於預定值的情況相較於該聲音壓力大於預定值的情況係可以給予較大報酬。 7. 用以計算報酬之時序
在圖4及10的程序中,報酬rt係緊接在基於動作at被執行之操作之後計算。在此情況中,緊接在基於動作at之操作之後在穩定狀態中獲取之上游側偵測值Afu等等之事實可被視為伴隨動作at被使用,因為在動作at之結果被反映在上游側偵測值Afu或下游側偵測值Afd中係需要花費時間的。然而,本發明不受限於此技術,且伴隨動作at且被用以計算報酬rt之上游側偵測值Afu等等可在相對於基於動作at之操作的時序挪移的時序處被取樣,例如藉由挪移基於所選擇動作at之操作的時序及動作值函數Q之更新。
取而代之的是,可使用蒙特卡羅法來處理此問題,以替化連續給予報酬。 選擇程序 在圖10之程序S44中可能無法避免地選擇貪婪動作,且程序S42至S46可重複地執行而刪除程序S50a至S54及S58。在動作值函數由函數近似器表示的情況中,程序S44可以係基於相對於動作a之各分量偏微分等等來探求最大值的程序。替代地,僅離散值可針對動作a被定義,且針對一動作之候選者可被輸入至函數近似器,在程序S42中獲取之狀態已被輸入至該函數近似器,以選擇可最大化該函數近似器之輸出值的動作。在此情況中,函數近似器之輸出值可藉由在選擇之前事先藉由soft-max函數來標準化。 產生車輛控制資料之方法
儘管在圖4之程序S44中指示基於動作值函數Q來判定一動作的程序,但本發明不受限於此。所有可能被採取之動作在車輛裝運之前可在產生車輛控制資料的程序中以相同概率被選擇。 控制映射資料
儘管在圖2的程序中所有操作量的輸入變數係相同的,但本發明不受限於此。舉例而言,可以刪除與操作量之設定低度相關的狀態。這可藉由當使用函數近似器執行加強學習時例如使用L1正規化項來更新參數θ來適當地達成。
該控制映射資料(車輛之狀態被輸入至其且其輸出內燃引擎10之可操作部分的操作量,該操作量係藉由在車輛之狀態與此操作量之間產生一對一對應性來最大化預期獲利)並未侷限於映射資料96b。舉例而言,策略π之參數θ可透過策略梯度方法來更新,以取代在圖4之程序中更新動作值函數Q,且判定平均值μ(1), μ(2), ...的函數近似器本身在學習之後可被安裝在控制裝置90中作為該控制映射資料。因此,僅需要CPU 92使用狀態s作為至函數近似器的輸入來計算平均值μ(1), μ(2), ...,且使用此平均值作為操作量來操作操作信號MS1, MS2, ...。
該控制映射資料並未侷限於規定該車輛之狀態被輸入至其且其輸出內燃引擎10之可操作部分之操作量之映射的資料,且例如可以係規定該車輛之狀態被輸入至其且其輸出變速裝置80之操作量及控制量之映射的資料。該控制映射資料亦可以例如係規定該車輛之狀態被輸入至其且其輸出第一馬達/發電機162及第二馬達/發電機166之控制量之映射的資料。 產生控制映射資料之方法
在圖4之程序中,在程序S56中作出肯定判定的情況中,各狀態s及貪婪動作a之一組可被定義為代表點,在動作值函數之獨立變數的定義域中的動作可被重新定義為從該代表點偏移一個單位的代表點及值,且可重複程序S42至S56。並非必要的是,從該代表點偏移一個單位的代表點及值應在該定義域本身中。
儘管最大化動作值函數Q(其為表格型函數)之值的動作a係依照狀態s來選擇且映射資料係基於在圖6所示之程序中的一組狀態s及動作a而產生,但本發明不受限於此。舉例而言,亦可以使用由函數近似器來表示之動作值函數Q。本發明亦未侷限於使用動作值函數Q。舉例而言,策略π之參數θ可透過策略梯度方法來更新,以取代在圖4之程序中更新動作值函數Q,且在圖6之程序中依照狀態s判定之平均值μ可被使用作為一動作。 車輛控制系統
儘管在圖20所示之實例中一報酬係藉由資料分析中心200來計算,但本發明不受限於此。報酬亦可以在控制裝置90側上計算,且傳輸至資料分析中心200。
儘管在圖18及圖20所示之實例中係使用策略梯度方法,但本發明不受限於此。舉例而言,亦可以使用表格型式之動作值函數Q或由函數近似器所示之動作值函數Q。 執行裝置
執行裝置並未侷限於包含CPU 92(152、202)及ROM 94(154、204)以執行軟體處理的裝置。舉例而言,該執行裝置可包含專用硬體電路(例如,ASIC),其對上述實施例中受到軟體處理之至少一些程序執行硬體處理。意即,該執行裝置可具有以下組態(a)至(c)中之任一者。 (a)該執行裝置包含依照程式執行所有上述程序的處理裝置及儲存該程式之程式儲存裝置(諸如ROM)。 (b)該執行裝置包含依照程式執行一些上述程序的處理裝置、程式儲存裝置、及執行剩餘程序的專用硬體電路。 (c)該執行裝置包含專用硬體電路,其執行所有上述的程序。該執行裝置可包含複數個軟體執行裝置,其各包含處理裝置及程式儲存裝置,或專用硬體電路。 儲存裝置
儘管儲存關係規定資料96a、156a之儲存裝置及儲存學習程式94a、154a、控制程式94b、副控制程式94c、主控制程式204a之儲存裝置(ROM 94、154、204)在上述實施例中係分開的儲存裝置,但本發明不受限於此。另外,儘管在上述實施例中學習程式94a、154a未包含在學習率α上的資料且學習程式94a、154a本身被儲存在ROM 94、154、204,但該學習率α亦可例如被儲存在儲存裝置96、156、206中。 內燃引擎
內燃引擎並未侷限於包含端口噴射閥18及汽缸內噴射閥28兩者,且可僅包含兩種類型的燃料噴射閥中之一個。該內燃引擎10並非一定要包含增壓器14。另外,內燃引擎10可例如不包含EGR通道52或EGR閥54。在未提供增壓器14的情況中,可以使用清洗閥,以取代清洗泵68,作為調節燃料蒸氣從濾罐66至進氣通道12的流速之調節裝置。在此情況中,該動作可包含清洗閥之開度等等。
內燃引擎並未侷限於火花點火型內燃引擎,且可例如係使用輕質原油等等作為燃料之壓縮點火型內燃引擎。 混合動力車輛 混合動力車輛並未侷限於串並聯式混合動力車輛,且亦可以例如係串聯式混合動力車輛或並聯式混合動力車輛。 其他
旋轉電機之驅動驅動電路並未侷限於變流器,例如在旋轉電機係DC旋轉電機的情況中,亦可使用H電橋電路。該電力蓄積裝置並未侷限於電池170,且可以例如係電容器。
10:內燃引擎 12:進氣通道 14:增壓器 16:節氣閥 18:端口噴射閥 20:進氣閥 22:汽缸 24:活塞 26:燃燒室 28:汽缸內噴射閥 30:點火裝置 32:曲軸 34:排氣閥 36:排氣通道 38:觸媒 40:正時鏈條 42:進氣凸輪軸桿 44:排氣凸輪軸桿 46:可變閥正時裝置 48:迂迴通道 50:廢氣閘閥(WGV) 52:廢氣再循環(EGR)通道 54:EGR閥 60:燃料箱 62:引擎驅動泵 64:高壓力燃料泵 66:濾罐 67:清洗通道 68:清洗泵 70:扭力轉換器 72:鎖定離合器 80:變速裝置 80a:電磁閥 80b:電磁閥 82:輸入軸桿 84:輸出軸桿 88:驅動輪 90:控制裝置 92:中央處理單元(CPU) 94:唯讀記憶體(ROM) 94a:學習程式 94b:控制程式 94c:副控制程式 96:儲存裝置 96a:關係規定資料 96b:映射資料 96c:PM量輸出映射資料 96d:扭力輸出映射資料 97:通信裝置 98:周邊電路 99:區域網路 100:氣流計 102:進氣溫度感測器 104:增壓壓力感測器 106:節氣門感測器 108:曲柄角度感測器 112:凸輪角度感測器 114:水溫度感測器 116:上游側空氣燃料比感測器 118:下游側空氣燃料比感測器 120:輸入側速度感測器 122:輸出側速度感測器 124a:液壓壓力感測器 124b:液壓壓力感測器 126:機油溫度感測器 130:車輛速度感測器 132:加速器感測器 134:麥克風 136:加速度感測器 140:動力計 142:感測器群組 150:產生裝置 152:中央處理單元(CPU) 154:唯讀記憶體(ROM) 154a:學習程式 156:儲存裝置 158:周邊電路 160:行星齒輪機構 162:變數 162:第一馬達/發電機 164:變流器 166:第二馬達/發電機 168:變流器 170:電池 180:電流感測器 182:電壓感測器 184:溫度感測器 186:第一速度感測器 188:第二速度感測器 190:網路 200:資料分析中心 202:中央處理單元(CPU) 204:唯讀記憶體(ROM) 204a:主控制程式 206:儲存裝置 207:通信裝置 208:周邊電路 209:區域網路 MS1-MS11:操作信號 ACCP:加速器操作量 SPD:車輛速度 Scr:輸出信號 Sca:輸出信號 NE:旋轉速度 Ga:進氣量 Toil:機油溫度 Poila:液壓壓力 Poilb:液壓壓力 ωout:輸出旋轉速度 ωin:輸入旋轉速度 Tor:節氣門開度 Tor*:節氣門開度命令值 Pa:增壓壓力 Egrvor:EGR開度命令值 Sca:輸出信號 THW:水溫度 Afu:上游側偵測值 Afd:下游側偵測值 Pf*:燃料壓力命令值 Kp:噴射分配比 Pg:清洗操作量 Kp:噴射分配比 Ta:進氣溫度 x:輸入變數 π:策略 η:充氣效率 Q:動作值函數 Qnox:NOx量 Qch:未燃燒的燃料量 VC:車輛 Qpm:顆粒物質(PM)量 PM:顆粒物質 Gx:前後加速度 Tcat:觸媒溫度 Qf:所需噴射量 InQf:積分值 InQfth:預定值 rt:報酬 Trqeg:引擎扭力 Trqeg*:所需引擎扭力值 Peg:引擎輸出 Peg*:所需引擎輸出值 DIN:進氣相位差 Trq*:所需驅動扭力值 Trq:驅動扭力 Qfi:噴射量增加量值 aig:點火正時 μ:平均值 σ:變異數 Tmg1:第一MG扭力 Tmg2:第二MG扭力 a*:動作 SP:聲音壓力 SOC:變化比 I:充電/放電電流 Vb:終端電壓 ωmg1:第一MG速度 ωmg2:第二MG速度 SOCL:下限值 SOCH:上限值 Tbatt:電池溫度 TbattH:上限溫度 ia*:螺線管電流命令值 ib*:螺線管電流命令值 AfuR:富油側上限值 AfuL:貧油側上限值 AfdR:富油側上限值 AfdL:貧油側上限值 Qnoxth:預定量 Qchth:預定量 Qpmth:預定量 TcatL:下限溫度 TcatH:上限溫度 GxH:上限加速度 GxL:下限加速度 Tsft:速度改變時間 TsftH:預定時間 Ptot*:所需輸出值 Ptot:輸出
本發明之例示性實施例的特徵、優點及技術與工業重要性將在下文中參考附圖來描述,其中相同元件符號表示相同元件,且其中: [圖1]繪示依照第一實施例之車輛的控制裝置及驅動系統; [圖2]係繪示依照該實施例由控制裝置執行之程序的流程的流程圖; [圖3]繪示依照該實施例產生映射資料之系統; [圖4]繪示依照該實施例之學習程序之流程的流程圖; [圖5]繪示依照該實施例之學習程序之一部分細節的流程圖; [圖6]係繪示依照該實施例產生該映射資料之程序流程的流程圖; [圖7]係繪示依照該實施例由控制裝置執行之程序的流程的流程圖; [圖8]繪示依照第二實施例之車輛的控制裝置及驅動系統; [圖9]係繪示依照該實施例之藉由控制裝置執行之程序的方塊圖; [圖10]係繪示依照該實施例由控制裝置執行之程序的流程的流程圖; [圖11]係繪示依照該實施例由控制裝置執行之程序的流程的流程圖; [圖12]係繪示依照第三實施例由控制裝置執行之程序流程的流程圖; [圖13]係繪示依照該實施例由控制裝置執行之程序的流程的流程圖; [圖14]繪示依照第四實施例之車輛之控制裝置及驅動系統; [圖15]係繪示依照該實施例由控制裝置執行之程序的流程的流程圖; [圖16]係繪示依照該實施例由控制裝置執行之程序的流程的流程圖; [圖17]繪示依照第五實施例之系統的組態; [圖18]繪示依照該實施例之藉由該系統執行之程序流程的流程圖; [圖19]繪示依照第六實施例之系統的組態;及 [圖20]繪示依照該實施例之藉由該系統執行之程序流程的流程圖。

Claims (13)

  1. 一種產生車輛控制資料之方法,包括: 利用儲存裝置儲存關係規定資料,該關係規定資料係規定包含內燃引擎之車輛之狀態及該內燃引擎之可操作部分之操作量之間之關係的資料,該車輛之該狀態包含該內燃引擎之狀態; 利用執行裝置操作該可操作部分; 利用該執行裝置獲取來自偵測該車輛之該狀態之感測器的偵測值; 利用該執行裝置基於該偵測值從燃料消耗率、排氣特性及駕駛性能之至少一者的觀點來計算報酬;及 利用該執行裝置使用事先判定之更新映射、使用基於該偵測值之該車輛之該狀態的該更新映射、用以操作該可操作部分之操作量、及對應於該操作之該報酬作為自變數來更新該關係規定資料,且回傳已被更新之該關係規定資料,使得當該可操作部分依照該關係規定資料操作時所計算之該報酬的預期獲利會增加。
  2. 如請求項1之產生車輛控制資料之方法,其中: 該報酬在當該排氣特性對應於預定特性時比當該排氣特性未對應於該預定特性時還大;且 該預定特性包含以下至少一者:落在一預定範圍內之氮氧化物排放量、落在一預定範圍內之未燃燒的燃料排放量、落在一預定範圍內之顆粒物質排放量、及落在一預定範圍內之被提供在該內燃引擎之排氣通道中之觸媒溫度。
  3. 如請求項1或2之產生車輛控制資料之方法,其中,該執行裝置計算該報酬使得滿足以下條件之至少一者:從該駕駛性能之該觀點已被量化之該報酬在當該車輛之加速度落在第一預定範圍內時比當該車輛之該加速度落在該第一預定範圍外時還大;從該駕駛性能之該觀點已被量化之該報酬在當該車輛之急衝度落在第二預定範圍內時比當該急衝度落在該第二預定範圍外時還大;及從該駕駛性能之該觀點已被量化之該報酬在當由該內燃引擎產生之聲音位準落在第三預定範圍內時比當該聲音之位準落在該第三預定範圍外時還大。
  4. 如請求項1至3中任一項之產生車輛控制資料之方法,其進一步包括:利用該執行裝置藉由基於被更新之該關係規定資料來形成在該車輛之該狀態與最大化該預期獲利之該操作量之間的一對一對應性而使用該車輛之該狀態作為自變數且回傳最大化該預期獲利之該操作量來產生控制映射資料。
  5. 一種車輛控制裝置,包括儲存裝置及被組構成用以執行如請求項1至3中任一項之方法的執行裝置,其中,該執行裝置被組構成基於依照該關係規定資料及該車輛之該狀態判定之該操作量來操作該可操作部分。
  6. 如請求項5之車輛控制裝置,其中,該執行裝置被組構成用以 獲取該內燃引擎之輸出及扭力之至少一者之所需值及計算值作為該偵測值,且 計算該報酬,使得該報酬在當該所需值及該計算值之間之差值的絕對值等於或小於預定值時比當該絕對值大於該預定值時還大。
  7. 如請求項5或6之車輛控制裝置,其中: 該車輛包含變速裝置,其被組構成用以改變從該內燃引擎之曲軸輸出之旋轉速度且輸出具有已改變速度的旋轉,且被組構成用以改變速度比; 由關係規定資料規定之該關係包含在該變速裝置之狀態與該變速裝置之操作量之間之關係;且 該執行裝置被組構成用以 獲取藉由被組構成用以偵測該變速裝置之該狀態之感測器所偵測之值作為該偵測值, 計算該報酬,使得滿足以下條件之至少一者:該報酬在當該變速裝置切換該速度比所需時間落在一預定時間內時比當該時間超過該預定時間時還大;該報酬在當該變速裝置之輸入軸桿之旋轉速度中之速度改變的絕對值等於或小於預定輸入側值時比當該輸入軸桿之該旋轉速度中之該速度改變之該絕對值大於該預定輸入側值時還大;該報酬在當該變速裝置之輸出軸桿之旋轉速度中之速度改變的絕對值等於或小於預定輸出側值時比當該輸出軸桿之該旋轉速度中之該速度改變之該絕對值大於該預定輸出側值還大;及該報酬在當由該變速裝置之電磁閥調節之液壓壓力滿足預定條件時比當該液壓壓力不滿足該預定條件時還大, 藉由使用該偵測值及有關該變速裝置之該狀態作為該更新映射之該自變數來更新由該關係規定資料規定之該變速裝置之該狀態與該變速裝置之該操作量之間的關係。
  8. 如請求項5至7中任一項之車輛控制裝置,其中: 該車輛包含旋轉電機,其被組構成用以提供動力給驅動輪; 由該關係規定資料規定之該關係包含供應電力給旋轉電機之電力蓄積裝置之狀態與該旋轉電機之控制量之間的關係;及 該執行裝置被組構成用以 操作該旋轉電機之驅動電路, 獲取該電力蓄積裝置之該狀態作為該偵測值, 計算該報酬,使得該報酬在當該電力蓄積裝置之該狀態落在預定範圍內時比當該電力蓄積裝置之該狀態落在該預定範圍外時還大,且 藉由使用該電力蓄積裝置之該狀態與該旋轉電機之該控制量作為該更新映射之自變數來更新由該關係規定資料規定之該電力蓄積裝置之該狀態與該旋轉電機之該控制量之間的關係。
  9. 如請求項8之車輛控制裝置,其中,該執行裝置被組構成用以 獲取該車輛之輸出及驅動扭力之至少一者的所需值及計算值作為該偵測值,及 計算該報酬,使得該報酬在當該車輛之該輸出及該驅動扭力之該至少一者的該所需值及該計算值之間之差值的絕對值等於或小於預定值時比當該絕對值大於該預定值值時還大。
  10. 如請求項5至9中任一項之車輛控制裝置,其中: 該關係規定資料包含規定在該車輛之該狀態、該預期獲利、及該操作量當中之關係的資料; 該執行裝置被進一步組構成基於該偵測值及該關係規定資料以優先於會減少該預期獲利之操作量來選擇會增加該預期獲利之操作量;及 該執行裝置被組構成基於所選擇之該操作量來操作該可操作部分。
  11. 如請求項5至10中任一項之車輛控制裝置,其中: 該關係規定資料係規定函數近似器之資料,該函數近似器使用該車輛之該狀態作為自變數且回傳選擇該操作量之概率;及 該更新映射包含回傳規定該函數近似器之參數之更新量的映射。
  12. 一種車輛控制系統,包括: 如請求項5至11中任一項之車輛控制裝置,其中: 該執行裝置包含安裝在該車輛上之第一執行裝置及與該車載裝置分開的第二執行裝置; 該第一執行裝置至少執行該獲取及該操作;且該第二執行裝置至少執行該更新。
  13. 如請求項12之車輛控制系統,其中: 該第一執行裝置被進一步組構成用以 將與該偵測值有關之資料傳輸至該第二執行裝置, 接收由該第二執行裝置所傳輸之該操作量,及 基於從該第二執行裝置接收之該操作量來操作該可操作部分;及 該第二執行裝置被進一步組構成用以 接收由該第一執行裝置所傳輸之該資料, 基於從該第一執行裝置接收之該資料及該關係規定資料來計算該操作量,及 傳輸該計算的操作量。
TW109135641A 2019-10-18 2020-10-15 產生車輛控制資料之方法,車輛控制裝置,及車輛控制系統 TW202117179A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-191092 2019-10-18
JP2019191092A JP6970156B2 (ja) 2019-10-18 2019-10-18 車両の制御に用いるデータの生成方法、車両用制御装置、車両用制御システム、車載装置および車両用学習装置

Publications (1)

Publication Number Publication Date
TW202117179A true TW202117179A (zh) 2021-05-01

Family

ID=72885418

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109135641A TW202117179A (zh) 2019-10-18 2020-10-15 產生車輛控制資料之方法,車輛控制裝置,及車輛控制系統

Country Status (13)

Country Link
US (1) US11673556B2 (zh)
EP (1) EP3809340A1 (zh)
JP (1) JP6970156B2 (zh)
KR (1) KR20210046557A (zh)
CN (1) CN112677984A (zh)
AU (1) AU2020256407B2 (zh)
BR (1) BR102020020775A2 (zh)
CA (1) CA3096152A1 (zh)
MX (1) MX2020010940A (zh)
PH (1) PH12020050409A1 (zh)
RU (1) RU2747276C1 (zh)
SG (1) SG10202010147SA (zh)
TW (1) TW202117179A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11603111B2 (en) * 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
JP7205503B2 (ja) 2020-01-22 2023-01-17 トヨタ自動車株式会社 内燃機関の制御装置
JP7222366B2 (ja) * 2020-01-27 2023-02-15 トヨタ自動車株式会社 内燃機関の制御装置
JP7359011B2 (ja) 2020-02-05 2023-10-11 トヨタ自動車株式会社 内燃機関の制御装置
US11459962B2 (en) * 2020-03-02 2022-10-04 Sparkcognitton, Inc. Electronic valve control
JP7409345B2 (ja) * 2021-03-31 2024-01-09 横河電機株式会社 学習処理装置、制御装置、学習処理方法、制御方法、学習プログラムおよび制御プログラム
CN113638812B (zh) * 2021-08-30 2023-04-25 深圳天鹰兄弟无人机创新有限公司 一种混合动力无人机增程器控制系统
CN114148343A (zh) * 2021-12-23 2022-03-08 盛瑞传动股份有限公司 一种车辆控制方法、装置、电子设备及计算机存储介质
DE102022103270A1 (de) * 2022-02-11 2023-08-17 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Assistenzsystem zur automatischen Geräuschoptimierung und Kraftfahrzeug
WO2024012655A1 (en) * 2022-07-11 2024-01-18 Volvo Truck Corporation Improved estimation of effective wheel rolling radius

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250604A (ja) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
EP1033637A3 (en) 1999-03-02 2001-05-02 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristic of device, using heuristic method
US6879054B2 (en) * 2002-03-15 2005-04-12 Azure Dynamics Inc. Process, apparatus, media and signals for controlling operating conditions of a hybrid electric vehicle to optimize operating characteristics of the vehicle
US7415389B2 (en) * 2005-12-29 2008-08-19 Honeywell International Inc. Calibration of engine control systems
GB0605069D0 (en) * 2006-03-14 2006-04-26 Airmax Group Plc Method and system for driver style monitoring and analysing
JP4245626B2 (ja) * 2006-10-11 2009-03-25 トヨタ自動車株式会社 車両およびその制御方法
JP5162998B2 (ja) * 2006-10-12 2013-03-13 日産自動車株式会社 ハイブリッド車両のモード切り替え制御装置
US7954579B2 (en) * 2008-02-04 2011-06-07 Illinois Institute Of Technology Adaptive control strategy and method for optimizing hybrid electric vehicles
US7945370B2 (en) * 2008-02-07 2011-05-17 Caterpillar Inc. Configuring an engine control module
MX2010009878A (es) * 2008-03-19 2010-09-28 Zero Emission Systems Inc Sistema y metodo de traccion electrica.
US8060290B2 (en) * 2008-07-17 2011-11-15 Honeywell International Inc. Configurable automotive controller
JP5225322B2 (ja) 2010-04-21 2013-07-03 ジヤトコ株式会社 自動変速機の制御装置及び制御方法
JP4975158B2 (ja) * 2010-11-08 2012-07-11 本田技研工業株式会社 プラントの制御装置
KR101371461B1 (ko) * 2012-09-06 2014-03-10 기아자동차주식회사 하이브리드 차량의 엔진클러치의 토크전달 시작점 학습 제어 방법 및 시스템
US9371792B2 (en) * 2013-06-27 2016-06-21 Hondata, Inc. Active tuning system for engine control unit
JP5864510B2 (ja) * 2013-10-18 2016-02-17 富士通株式会社 修正プログラム確認方法、修正プログラム確認プログラム、及び情報処理装置
US9182764B1 (en) * 2014-08-04 2015-11-10 Cummins, Inc. Apparatus and method for grouping vehicles for cooperative driving
CA2907299A1 (en) * 2014-10-06 2016-04-06 Shem, Llc Vehicle operator incentive system and vehicle fleet management platform
US20160131062A1 (en) 2014-11-10 2016-05-12 Caterpillar Inc. Engine system utilizing selective engine optimization
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置
JP6414143B2 (ja) * 2016-06-16 2018-10-31 トヨタ自動車株式会社 内燃機関の制御装置
US10902347B2 (en) * 2017-04-11 2021-01-26 International Business Machines Corporation Rule creation using MDP and inverse reinforcement learning
JP6950524B2 (ja) 2017-12-28 2021-10-13 トヨタ自動車株式会社 ハイブリッド車両の制御装置
US10746123B2 (en) * 2018-08-21 2020-08-18 Cummins Inc. Deep reinforcement learning for air handling and fuel system referencing
CN109709956B (zh) 2018-12-26 2021-06-08 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
JP6547991B1 (ja) * 2019-02-20 2019-07-24 トヨタ自動車株式会社 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置
CN110254418B (zh) 2019-06-28 2020-10-09 福州大学 一种混合动力汽车增强学习能量管理控制方法
JP7439680B2 (ja) * 2020-07-28 2024-02-28 トヨタ自動車株式会社 変速制御データの生成方法、変速制御装置、変速制御システム、および車両用学習装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Also Published As

Publication number Publication date
US11673556B2 (en) 2023-06-13
KR20210046557A (ko) 2021-04-28
BR102020020775A2 (pt) 2021-07-13
CA3096152A1 (en) 2021-04-18
RU2747276C1 (ru) 2021-05-04
JP2021067191A (ja) 2021-04-30
US20210115834A1 (en) 2021-04-22
CN112677984A (zh) 2021-04-20
PH12020050409A1 (en) 2021-08-23
AU2020256407A1 (en) 2021-05-06
EP3809340A1 (en) 2021-04-21
MX2020010940A (es) 2021-04-19
AU2020256407B2 (en) 2022-03-03
SG10202010147SA (en) 2021-05-28
JP6970156B2 (ja) 2021-11-24

Similar Documents

Publication Publication Date Title
TW202117179A (zh) 產生車輛控制資料之方法,車輛控制裝置,及車輛控制系統
JP6590097B1 (ja) Pm量推定装置、pm量推定システム、データ解析装置、内燃機関の制御装置、および受信装置
JP2021067196A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
US11225924B2 (en) Imbalance detection device, imbalance detection system, data analysis device, and controller for internal combustion engine
JP7302466B2 (ja) 車両用内燃機関の劣化判定装置
JP7314831B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7331704B2 (ja) 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
JP6624319B1 (ja) 触媒劣化検出装置、触媒劣化検出システム、データ解析装置、内燃機関の制御装置、および中古車の状態情報提供方法
JP2021032114A (ja) 車両用学習制御システム、車両用制御装置、および車両用学習装置
CN113006951B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
US20210213966A1 (en) Vehicle control data generation method, vehicle controller, vehicle control system, vehicle learning device, vehicle control data generation device, and memory medium
JP2021067194A (ja) 車両用制御システム、車両用制御装置、および車両用学習装置
CN112682196B (zh) 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
JP7327198B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021066418A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021067260A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021116781A (ja) 車両制御方法、車両用制御装置及びサーバ
JP2021067256A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7205456B2 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
JP7205460B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021067259A (ja) 車両用制御システム、車両用制御装置、および車両用学習装置
JP2021116782A (ja) 車両制御方法、車両用制御装置及びサーバ
JP2020133620A (ja) 触媒劣化検出装置、触媒劣化検出システム、データ解析装置、内燃機関の制御装置、および中古車の状態情報提供方法
JP2021032246A (ja) 車両用学習制御システム、車両用制御装置、および車両用学習装置