KR20210046557A - 차량용 제어 데이터의 생성 방법, 차량용 제어 장치, 차량용 제어 시스템 - Google Patents

차량용 제어 데이터의 생성 방법, 차량용 제어 장치, 차량용 제어 시스템 Download PDF

Info

Publication number
KR20210046557A
KR20210046557A KR1020200131983A KR20200131983A KR20210046557A KR 20210046557 A KR20210046557 A KR 20210046557A KR 1020200131983 A KR1020200131983 A KR 1020200131983A KR 20200131983 A KR20200131983 A KR 20200131983A KR 20210046557 A KR20210046557 A KR 20210046557A
Authority
KR
South Korea
Prior art keywords
value
vehicle
data
state
amount
Prior art date
Application number
KR1020200131983A
Other languages
English (en)
Inventor
요스케 하시모토
아키히로 가타야마
유타 오시로
가즈키 스기에
나오야 오카
Original Assignee
도요타 지도샤(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도요타 지도샤(주) filed Critical 도요타 지도샤(주)
Publication of KR20210046557A publication Critical patent/KR20210046557A/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/19Improvement of gear change, e.g. by synchronisation or smoothing gear shift
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D45/00Electrical control not provided for in groups F02D41/00 - F02D43/00
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K7/00Disposition of motor in, or adjacent to, traction wheel
    • B60K7/0007Disposition of motor in, or adjacent to, traction wheel the motor being electric
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/15Control strategies specially adapted for achieving a particular effect
    • B60W20/16Control strategies specially adapted for achieving a particular effect for reducing engine exhaust emissions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/188Controlling power parameters of the driveline, e.g. determining the required power
    • B60W30/1882Controlling power parameters of the driveline, e.g. determining the required power characterised by the working point of the engine, e.g. by using engine output chart
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/002Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D11/00Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated
    • F02D11/06Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance
    • F02D11/10Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type
    • F02D11/105Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type characterised by the function converting demand to actuation, e.g. a map indicating relations between an accelerator pedal position and throttle valve opening or target engine torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/021Introducing corrections for particular conditions exterior to the engine
    • F02D41/0215Introducing corrections for particular conditions exterior to the engine in relation with elements of the transmission
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1405Neural network control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1406Introducing closed-loop corrections characterised by the control or regulation method with use of a optimisation method, e.g. iteration
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2425Particular ways of programming the data
    • F02D41/2429Methods of calibrating or learning
    • F02D41/2451Methods of calibrating or learning characterised by what is learned or calibrated
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02PIGNITION, OTHER THAN COMPRESSION IGNITION, FOR INTERNAL-COMBUSTION ENGINES; TESTING OF IGNITION TIMING IN COMPRESSION-IGNITION ENGINES
    • F02P5/00Advancing or retarding ignition; Control therefor
    • F02P5/04Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions
    • F02P5/145Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions using electrical means
    • F02P5/15Digital data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/11Controlling the power contribution of each of the prime movers to meet required power demand using model predictive control [MPC] strategies, i.e. control methods based on models predicting performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/12Controlling the power contribution of each of the prime movers to meet required power demand using control strategies taking into account route information
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/20Reducing vibrations in the driveline
    • B60W2030/206Reducing vibrations in the driveline related or induced by the engine
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0013Optimal controllers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0014Adaptive controllers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0018Method for the design of a control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0026Lookup tables or parameter maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0604Throttle position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0657Engine torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0666Engine power
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/08Electric propulsion units
    • B60W2510/083Torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/08Electric propulsion units
    • B60W2510/085Power
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1005Transmission ratio engaged
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1015Input shaft speed, e.g. turbine speed
    • B60W2510/102Input speed change rate
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/104Output speed
    • B60W2510/1045Output speed change rate
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1075Change speed gearings fluid pressure, e.g. oil pressure
    • B60W2510/108Change speed gearings fluid pressure, e.g. oil pressure pressure of control fluid
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/24Energy storage means
    • B60W2510/242Energy storage means for electrical energy
    • B60W2510/244Charge state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/10Accelerator pedal position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60YINDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
    • B60Y2300/00Purposes or special features of road vehicle drive control systems
    • B60Y2300/47Engine emissions
    • B60Y2300/474Catalyst warm up
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/002Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus
    • F01N11/005Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus the temperature or pressure being estimated, e.g. by means of a theoretical model
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/007Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring oxygen or air concentration downstream of the exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N13/00Exhaust or silencing apparatus characterised by constructional features ; Exhaust or silencing apparatus, or parts thereof, having pertinent characteristics not provided for in, or of interest apart from, groups F01N1/00 - F01N5/00, F01N9/00, F01N11/00
    • F01N13/008Mounting or arrangement of exhaust sensors in or on exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2590/00Exhaust or silencing apparatus adapted to particular use, e.g. for military applications, airplanes, submarines
    • F01N2590/11Exhaust or silencing apparatus adapted to particular use, e.g. for military applications, airplanes, submarines for hybrid vehicles
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0402Methods of control or diagnosing using adaptive learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0412Methods of control or diagnosing using pre-calibrated maps, tables or charts
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0416Methods of control or diagnosing using the state of a sensor, e.g. of an exhaust gas sensor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0418Methods of control or diagnosing using integration or an accumulated value within an elapsed period
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/08Parameters used for exhaust control or diagnosing said parameters being related to the engine
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/10Parameters used for exhaust control or diagnosing said parameters being related to the vehicle or its components
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/12Parameters used for exhaust control or diagnosing said parameters being related to the vehicle exterior
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/14Parameters used for exhaust control or diagnosing said parameters being related to the exhaust gas
    • F01N2900/1411Exhaust gas flow rate, e.g. mass flow rate or volumetric flow rate
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/16Parameters used for exhaust control or diagnosing said parameters being related to the exhaust apparatus, e.g. particulate filter or catalyst
    • F01N2900/1621Catalyst conversion efficiency
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N9/00Electrical control of exhaust gas treating apparatus
    • F01N9/005Electrical control of exhaust gas treating apparatus using models instead of sensors to determine operating characteristics of exhaust systems, e.g. calculating catalyst temperature instead of measuring it directly
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N9/00Electrical control of exhaust gas treating apparatus
    • F01N9/007Storing data relevant to operation of exhaust systems for later retrieval and analysis, e.g. to research exhaust system malfunctions
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/08Exhaust gas treatment apparatus parameters
    • F02D2200/0802Temperature of the exhaust gas treatment apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/10Parameters related to the engine output, e.g. engine torque or engine speed
    • F02D2200/1002Output torque
    • F02D2200/1004Estimation of the output torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • F02D41/1444Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases
    • F02D41/146Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases the characteristics being an NOx content or concentration
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • F02D41/1444Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases
    • F02D41/1466Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases the characteristics being a soot concentration or content

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Combustion & Propulsion (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Human Computer Interaction (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Control Of Vehicle Engines Or Engines For Specific Uses (AREA)
  • Hybrid Electric Vehicles (AREA)

Abstract

차량용 제어 데이터의 생성 방법은, 기억 장치 (96 ; 156) 가, 관계 규정 데이터 (96a ; 156a) 를 기억하는 것 ; 실행 장치 (92, 94 ; 152, 154) 가, 내연 기관의 조작부 (16, 18, 28, 30, 46, 50, 54, 64, 68) 를 조작하는 것, 상기 실행 장치가, 상기 차량의 상태를 검출하는 센서의 검출값을 취득하는 것, 상기 실행 장치가, 상기 검출값에 기초하여, 보수를 산출하는 것, 및 상기 실행 장치가, 상기 검출값에 기초하는 상기 차량의 상태, 상기 조작부의 조작에 사용된 조작량, 및 그 조작에 대응하는 상기 보수를 인수로 하고, 상기 관계 규정 데이터에 따라서 상기 조작부가 조작되는 경우에 산출되는 상기 보수에 대한 기대 수익이 증가하도록 갱신된 상기 관계 규정 데이터를 반환하는, 미리 정해진 갱신 사상을 사용하여, 상기 관계 규정 데이터를 갱신하는 것을 포함한다.

Description

차량용 제어 데이터의 생성 방법, 차량용 제어 장치, 차량용 제어 시스템{METHOD OF GENERATING VEHICLE CONTROL DATA, VEHICLE CONTROL DEVICE, AND VEHICLE CONTROL SYSTEM}
본 발명은 차량용 제어 데이터의 생성 방법, 차량용 제어 장치, 차량용 제어 시스템에 관한 것이다.
예를 들어 하기 일본 공개특허공보 2016-6327 에는, 액셀 페달의 조작량을 필터 처리한 값에 기초하여, 차량에 탑재되는 내연 기관의 조작부로서의 스로틀 밸브를 조작하는 제어 장치가 기재되어 있다.
그런데, 상기 필터는, 액셀 페달의 조작량에 따라 차량에 탑재되는 내연 기관의 스로틀 밸브의 조작량을 적절한 조작량으로 설정하는 것일 필요가 있기 때문에, 그 적합에는 숙련자가 많은 공수 (工數) 를 들일 필요가 생긴다. 이와 같이, 차량 내의 상태에 따른 내연 기관 등의 구동계의 조작량 등의 적합에는, 숙련자가 많은 공수를 들이고 있었다.
본 발명의 제 1 양태에 관련된 차량용 제어 데이터의 생성 방법은, 기억 장치가, 내연 기관의 상태를 포함한 상기 내연 기관을 구비하는 차량의 상태와 상기 내연 기관의 조작부의 조작량의 관계를 규정하는 데이터인 관계 규정 데이터를 기억하는 것 ;
실행 장치가, 상기 조작부를 조작하는 것, 상기 실행 장치가, 상기 차량의 상태를 검출하는 센서의 검출값을 취득하는 것, 상기 실행 장치가, 상기 검출값에 기초하여, 연료 소비율, 배기 특성, 및 드라이버빌리티의 적어도 1 개의 관점으로 이루어지는 보수를 산출하는 것, 및 상기 실행 장치가, 상기 검출값에 기초하는 상기 차량의 상태, 상기 조작부의 조작에 사용된 조작량, 및 그 조작에 대응하는 상기 보수를 인수 (引數) 로 하고, 상기 관계 규정 데이터에 따라서 상기 조작부가 조작되는 경우에 산출되는 상기 보수에 대한 기대 수익이 증가하도록 갱신된 상기 관계 규정 데이터를 반환하는, 미리 정해진 갱신 사상 (寫像) 을 사용하여, 상기 관계 규정 데이터를 갱신하는 것을 포함한다.
상기 방법으로는, 조작부의 조작에 수반하는 보수를 산출함으로써, 당해 조작에 의해 어떠한 보수가 얻어지는지를 파악할 수 있다. 그리고, 보수에 기초하여, 강화 학습에 따른 갱신 사상에 의해 관계 규정 데이터를 갱신함으로써, 차량의 상태와 내연 기관의 조작부의 조작량의 관계를 설정할 수 있다. 따라서, 차량의 상태와 내연 기관의 조작부의 조작량의 관계의 설정 시에, 숙련자에게 요구되는 공수를 저감할 수 있다.
상기 제 1 양태에 있어서, 상기 보수는, 상기 배기 특성이 소정의 특성인 경우, 상기 배기 특성이 소정의 특성이 아닌 경우보다 커도 된다. 상기 소정의 특성은, 질소산화물의 배출량이 소정 범위 내에 있는 것, 미연 연료의 배출량이 소정 범위 내에 있는 것, 입자상 물질의 배출량이 소정 범위 내에 있는 것, 및 상기 내연 기관의 배기 통로에 형성된 촉매의 온도가 소정 범위 내에 있는 것 중의 적어도 1 개를 포함해도 된다.
상기 방법으로는, 배기 특성을 소정의 특성으로 하는 데 있어서 적절한 관계 규정 데이터를 강화 학습에 의해 학습할 수 있다.
상기 제 1 양태에 있어서, 상기 실행 장치는, 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 차량의 가속도가 제 1 소정 범위 내에 있는 경우, 상기 차량의 가속도가 상기 제 1 소정 범위 외인 경우보다 큰 것 ; 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 차량의 가가속도가 제 2 소정 범위 내에 있는 경우, 상기 가가속도가 상기 제 2 소정 범위 외인 경우보다 큰 것 ; 및, 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 내연 기관이 발생하는 소리의 크기가 제 3 소정 범위 내에 있는 경우, 상기 소리의 크기가 상기 제 3 소정 범위 외인 경우보다 큰 것 중의 적어도 1 개를 만족하도록, 상기 보수를 산출해도 된다.
상기 방법으로는, 드라이버빌리티의 요구를 만족하는 데 있어서 적절한 관계 규정 데이터를 강화 학습에 의해 학습할 수 있다.
상기 제 1 양태에 있어서, 차량용 제어 데이터의 생성 방법은, 상기 실행 장치가, 갱신된 상기 관계 규정 데이터에 기초하여, 상기 차량의 상태와 상기 기대 수익을 최대화하는 상기 조작량을 1 대 1 로 대응지음으로써, 상기 차량의 상태를 인수로 하고 상기 기대 수익을 최대화하는 상기 조작량을 반환하는 제어용 사상 데이터를 생성하는 것을 추가로 포함해도 된다.
상기 방법으로는, 강화 학습에 의해 학습된 관계 규정 데이터에 기초하여, 제어용 사상 데이터를 생성한다. 그 때문에, 그 제어용 사상 데이터를 제어 장치에 실장함으로써, 차량 상태에 기초하여, 기대 수익을 최대화하는 조작량을 간이하게 설정하는 것이 가능해진다.
본 발명의 제 2 양태에 관련된 차량용 제어 장치는, 상기 제 1 양태에 관련된 생성 방법을 실행하도록 구성된 기억 장치 및 실행 장치를 포함하고, 상기 실행 장치는, 상기 관계 규정 데이터와 상기 차량의 상태에 의해 정해지는 상기 조작량에 기초하여 상기 조작부를 조작하도록 구성되어 있다.
상기 구성에서는, 차량용 제어 장치가, 차량에 탑재된 내연 기관의 조작부의 조작에 수반하여, 관계 규정 데이터를 학습할 수 있다.
상기 제 2 양태에 있어서, 상기 실행 장치는, 상기 검출값으로서, 상기 내연 기관의 출력 및 토크의 2 개 중의 적어도 1 개의 요구값 및 산출값을 취득하고, 상기 요구값 및 상기 산출값의 차의 절대값이 소정값 이하인 경우, 상기 절대값이 상기 소정값보다 큰 경우보다 상기 보수가 커지도록 상기 보수를 산출하도록 구성되어도 된다.
상기 구성에서는, 내연 기관의 토크나 출력을 요구값에 가깝게 한다라는 조건 아래, 연료 소비율, 배기 특성, 및 드라이버빌리티의 적어도 1 개를 목표로 하는 것으로 제어하는 데 있어서 적절한 관계 규정 데이터를 학습할 수 있다.
상기 제 2 양태에 있어서, 상기 차량은, 상기 내연 기관의 크랭크축의 회전 속도를 변속하여 출력하도록 구성되고, 또한, 변속비를 변경 가능하게 구성된 변속 장치를 구비해도 된다. 상기 관계 규정 데이터에 의해 규정되는 관계는, 상기 변속 장치의 상태와 상기 변속 장치의 조작량의 관계를 포함해도 된다. 상기 실행 장치는, 상기 변속 장치의 상태를 검출하도록 구성된 센서가 검출한 값을 상기 검출값으로서 취득하고, 상기 보수는, 상기 변속 장치에 의한 변속비의 전환에 필요로 하는 시간이 소정 시간 이내인 경우, 상기 시간이 상기 소정 시간을 초과하는 경우의 상기 보수보다 큰 것 ; 상기 보수는, 상기 변속 장치의 입력축의 회전 속도의 변화 속도의 절대값이 입력측 소정값 이하인 경우, 상기 입력축의 회전 속도의 변화 속도의 절대값이 상기 입력측 소정값을 초과하는 경우보다 큰 것 ; 상기 보수는, 상기 변속 장치의 출력축의 회전 속도의 변화 속도의 절대값이 출력측 소정값 이하인 경우, 상기 출력축의 회전 속도의 속도 변화의 절대값이 상기 출력측 소정값을 초과하는 경우의 상기 보수보다 큰 것 ; 및, 상기 보수는, 상기 변속 장치의 솔레노이드 밸브 (80a) 에 의해 조정되는 유압이 소정의 조건을 만족하는 경우, 상기 유압이 상기 소정의 조건을 만족하지 않는 경우보다 큰 것 중 적어도 1 개를 만족하도록 상기 보수를 산출하고, 상기 변속 장치의 상태에 관한 상기 검출값을 인수로 하는 상기 갱신 사상을 사용하여, 상기 관계 규정 데이터에 의해 규정된 상기 변속 장치의 상태와 상기 변속 장치의 조작량의 관계를 갱신하도록 구성되어도 된다.
상기 구성에서는, 변속 장치 상태에 기초하여 변속 장치의 조작량을 정하는데 있어서 적절한 관계 규정 데이터를 학습할 수 있다.
상기 제 2 양태에 있어서, 상기 차량은, 구동륜에 동력을 부여하도록 구성된 회전 전기 (電機) 를 구비해도 된다. 상기 관계 규정 데이터에 의해 규정되는 관계는, 상기 회전 전기에 전력을 공급하는 축전 장치의 상태와 상기 회전 전기의 제어량의 관계를 포함해도 된다. 상기 실행 장치는, 상기 회전 전기의 구동 회로를 조작하고, 상기 검출값으로서, 상기 축전 장치의 상태를 취득하고, 상기 보수가, 상기 축전 장치의 상태가 소정 범위 내에 있는 경우, 상기 축전 장치의 상태가 소정 범위 외가 되는 경우보다 커지도록, 상기 보수를 산출하고, 상기 상기 축전 장치의 상태와, 상기 회전 전기의 제어량을 상기 갱신 사상의 인수로 함으로써, 상기 관계 규정 데이터에 의해 규정되는 상기 축전 장치의 상태와 상기 회전 전기의 제어량의 관계를 갱신하도록 구성되어도 된다.
상기 구성에서는, 축전 장치 상태에 기초하여 회전 전기의 제어량을 정하는데 있어서 적절한 관계 규정 데이터를 학습할 수 있다.
상기 제 2 양태에 있어서, 상기 실행 장치는, 검출값으로서, 상기 차량의 출력 및 구동 토크의 2 개 중의 적어도 1 개의 요구값 및 산출값을 취득하고, 상기 보수가, 상기 차량의 출력 및 상기 구동 토크의 2 개 중 상기 적어도 1 개에 대한 상기 요구값 및 상기 산출값의 차의 절대값이 소정값 이하인 경우, 상기 절대값이 상기 소정값보다 큰 경우보다 커지도록, 상기 보수를 산출하도록 구성되어도 된다.
상기 구성에서는, 차량의 출력이나 구동 토크를 요구값에 가깝게 한다라는 조건 아래, 연료 소비율, 배기 특성, 및 드라이버빌리티의 적어도 1 개를 목표로 하는 것으로 제어하는 데 있어서 적절한 관계 규정 데이터를 학습할 수 있다.
상기 제 2 양태에 있어서, 상기 관계 규정 데이터는, 상기 차량의 상태와, 상기 기대 수익과, 상기 조작량의 관계를 규정하는 데이터를 포함해도 된다. 상기 실행 장치는 또한, 상기 검출값과 상기 관계 규정 데이터에 기초하여, 상기 기대 수익을 크게 하는 조작량을 작게 하는 조작량보다 우선하여 선택하도록 구성되어도 된다. 상기 실행 장치는, 선택된 상기 조작량에 기초하여 상기 조작부를 조작하도록 구성되어도 된다.
상기 구성에서는, 기대 수익이 커지는 조작량이 우선적으로 선택되기 때문에, 기대 수익이 커지는 조작을 우선하여 실행할 수 있다.
상기 제 2 양태에 있어서, 상기 관계 규정 데이터는, 상기 차량의 상태를 인수로 하고, 상기 조작량의 선택 확률을 반환하는 함수 근사기를 규정하는 데이터여도 된다. 상기 갱신 사상은, 상기 함수 근사기를 규정하는 파라미터의 갱신량을 반환하는 사상을 포함해도 된다.
상기 구성에서는, 방책에 대한 함수 근사기를 사용함으로써, 차량의 상태와 조작량의 관계를 직접적으로 규정할 수 있다.
본 발명의 제 3 양태에 관련된 차량용 제어 시스템은, 상기 제 2 양태에 관련된 차량용 제어 장치를 포함하고, 상기 실행 장치는, 상기 차량에 탑재되는 제 1 실행 장치와, 차재 장치와는 다른 제 2 실행 장치를 포함하고, 상기 제 1 실행 장치는, 적어도 상기 취득하는 것과 상기 조작하는 것을 실행하고, 상기 제 2 실행 장치는, 적어도 상기 갱신하는 것을 실행한다.
상기 구성에서는, 제 2 실행 장치가 갱신을 실행함으로써, 갱신도 제 1 실행 장치가 실행하는 경우와 비교하여, 제 1 실행 장치의 연산 부하를 경감할 수 있다. 또한, 제 2 실행 장치가 차재 장치와는 다른 장치인 것은, 제 2 실행 장치가 차재 장치는 아닌 것을 의미한다.
상기 제 3 양태에 있어서, 상기 제 1 실행 장치는, 또한, 상기 검출값에 관한 데이터를 상기 제 2 실행 장치에 송신하는 것, 상기 제 2 실행 장치에 의해 송신된 상기 조작량을 수신하는 것, 상기 제 2 실행 장치로부터 수신한 상기 조작량에 기초하여 상기 조작부를 조작하는 것을 실행하도록 구성되어도 된다. 상기 제 2 실행 장치는, 또한, 상기 제 1 실행 장치에 의해 송신된 데이터를 수신하는 것, 상기 제 1 실행 장치로부터 수신한 상기 데이터와 상기 관계 규정 데이터에 기초하여 상기 조작량을 산출하는 것, 산출한 상기 조작량을 송신하는 것을 실행하도록 구성되어도 된다.
상기 구성에서는, 조작량 산출을 제 2 실행 장치에 의해 실행함으로써, 조작량 산출도 제 1 실행 장치가 실행하는 경우와 비교하여, 제 1 실행 장치의 연산 부하를 경감할 수 있다.
본 발명의 예시적인 실시형태들의 특징들, 장점들, 그리고 기술적 및 산업적 중요성은 첨부되는 도면들을 참조하여 이하에서 설명될 것이고, 동일한 도면 부호들은 동일한 엘리먼트들을 나타낸다.
도 1 은, 제 1 실시형태에 관련된 제어 장치 및 차량의 구동계를 나타내는 도면.
도 2 는, 동 (同) 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 3 은, 동 실시형태에 관련된 맵 데이터를 생성하는 시스템을 나타내는 도면.
도 4 는, 동 실시형태에 관련된 학습 처리의 순서를 나타내는 흐름도.
도 5 는, 동 실시형태에 관련된 학습 처리의 일부의 상세한 내용을 나타내는 흐름도.
도 6 은, 동 실시형태에 관련된 맵 데이터의 생성 처리의 순서를 나타내는 흐름도.
도 7 은, 동 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 8 은, 제 2 실시형태에 관련된 제어 장치 및 차량의 구동계를 나타내는 도면.
도 9 는, 동 실시형태에 관련된 제어 장치가 실행하는 처리를 나타내는 블록도.
도 10 은, 동 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 11 은, 동 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 12 는, 제 3 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 13 은, 동 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 14 는, 제 4 실시형태에 관련된 제어 장치 및 차량의 구동계를 나타내는 도면.
도 15 는, 동 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 16 은, 동 실시형태에 관련된 제어 장치가 실행하는 처리의 순서를 나타내는 흐름도.
도 17 은, 제 5 실시형태에 관련된 시스템의 구성을 나타내는 도면.
도 18 은, 동 실시형태에 관련된 시스템이 실행하는 처리의 순서를 나타내는 흐름도.
도 19 는, 제 6 실시형태에 관련된 시스템의 구성을 나타내는 도면.
도 20 은, 동 실시형태에 관련된 시스템이 실행하는 처리의 순서를 나타내는 흐름도.
제 1 실시형태
이하, 차량용 제어 데이터의 생성 방법에 관련된 제 1 실시형태에 대해서 도면을 참조하면서 설명한다.
도 1 에, 본 실시형태에 관련된 제어 장치 및 구동계를 나타낸다. 도 1 에 나타내는 바와 같이, 내연 기관 (10) 의 흡기 통로 (12) 로부터 흡입된 공기는, 과급기 (14) 를 통해서 흡기 통로 (12) 의 하류측으로 유입한다. 흡기 통로 (12) 중 과급기 (14) 의 하류에는, 스로틀 밸브 (16) 가 형성되어 있고, 흡기 통로 (12) 중 스로틀 밸브 (16) 의 하류에는, 포트 분사 밸브 (18) 가 형성되어 있다. 흡기 통로 (12) 에 흡입된 공기나 포트 분사 밸브 (18) 로부터 분사된 연료는, 흡기 밸브 (20) 의 개변 (開弁) 에 수반하여, 실린더 (22) 및 피스톤 (24) 에 의해 구획되는 연소실 (26) 에 유입한다. 연소실 (26) 에는, 통내 분사 밸브 (28) 에 의해 연료가 분사된다. 연소실 (26) 에 있어서 연료와 공기의 혼합기는, 점화 장치 (30) 의 불꽃 방전에 의해, 연소에 제공된다. 연소에 의해 생긴 에너지는, 피스톤 (24) 을 개재하여 크랭크축 (32) 의 회전 에너지로 변환된다.
연소에 제공된 혼합기는, 배기 밸브 (34) 의 개변에 수반하여, 배기로서 배기 통로 (36) 에 배출된다. 배기 통로 (36) 중 과급기 (14) 의 하류에는, 산소 흡장 능력을 갖는 삼원 촉매 (촉매 (38)) 가 형성되어 있다. 또, 배기 통로 (36) 는, 과급기 (14) 를 우회하는 우회 통로 (48) 를 구비하고 있고, 우회 통로 (48) 에는, 그 유로 단면적을 조정하는 웨스트 게이트 밸브 (WGV) (50) 가 형성되어 있다.
크랭크축 (32) 의 회전 동력은, 타이밍 체인 (40) 을 통해서, 흡기측 캠축 (42) 및 배기측 캠축 (44) 에 전달된다. 또한, 본 실시형태에서는, 흡기측 캠축 (42) 에는, 가변 밸브 타이밍 장치 (46) 를 통해서 타이밍 체인 (40) 의 동력이 전달된다. 가변 밸브 타이밍 장치 (46) 는, 크랭크축 (32) 과 흡기측 캠축 (42) 의 회전 위상차를 조정함으로써, 흡기 밸브 (20) 의 개변 타이밍을 조정하는 액추에이터이다.
또, 흡기 통로 (12) 는, EGR (exhaust gas recirculation) 통로 (52) 를 통해서 배기 통로 (36) 에 접속되어 있다. EGR 통로 (52) 에는, 그 유로 단면적을 조정하는 EGR 밸브 (54) 가 형성되어 있다. 포트 분사 밸브 (18) 에는, 연료 탱크 (60) 에 저장된 연료가, 기관 구동식 펌프 (62) 에 의해 퍼 올려져 공급된다. 또, 통내 분사 밸브 (28) 에는, 연료 탱크 (60) 에 저장된 연료가, 기관 구동식 펌프 (62) 에 의해 퍼 올려진 후, 전자 제어식의 고압 연료 펌프 (64) 에 의해 가압되어 공급된다. 연료 탱크 (60) 에서 발생한 연료 증기는, 캐니스터 (66) 에 포집된다. 캐니스터 (66) 는, 퍼지 통로 (67) 를 통해서 흡기 통로 (12) 에 접속되어 있다. 퍼지 통로 (67) 에는, 그 상류측인 캐니스터 (66) 측의 유체를 하류측인 흡기 통로 (12) 측에 토출시키는 퍼지 펌프 (68) 가 형성되어 있다.
크랭크축 (32) 에는, 로크 업 클러치 (72) 를 구비한 토크 컨버터 (70) 를 개재하여 변속 장치 (80) 의 입력축 (82) 이 기계적으로 연결 가능하게 되어 있다. 변속 장치 (80) 는, 입력축 (82) 의 회전 속도와 출력축 (84) 의 회전 속도의 비인 변속비를 가변으로 한다. 즉, 변속 장치 (80) 는, 솔레노이드 밸브 (80a, 80b, …) 를 구비하고 있고, 솔레노이드 밸브 (80a, 80b, …) 에 의해 조정되는 유압에 따라, 클러치의 체결, 해제가 전환됨으로써, 서로 상이한 변속비를 실현 가능하게 되어 있다. 또한, 출력축 (84) 은, 구동륜 (88) 에 기계적으로 연결되어 있다.
제어 장치 (90) 는, 내연 기관 (10) 을 제어 대상으로 하고, 그 제어량인 토크나 배기 성분 비율 등을 제어하기 위해서, 스로틀 밸브 (16) 나, 포트 분사 밸브 (18), 통내 분사 밸브 (28), 점화 장치 (30), 가변 밸브 타이밍 장치 (46), WGV (50), EGR 밸브 (54), 고압 연료 펌프 (64), 퍼지 펌프 (68) 등의 내연 기관 (10) 의 조작부를 조작한다. 또, 제어 장치 (90) 는, 로크 업 클러치 (72) 의 걸어맞춤 상태나, 변속 장치 (80) 의 변속비를 제어량으로 하여, 로크 업 클러치 (72) 나, 솔레노이드 밸브 (80a, 80b, …) 를 조작한다. 또한, 도 1 에는, 스로틀 밸브 (16), 포트 분사 밸브 (18), 통내 분사 밸브 (28), 점화 장치 (30), 가변 밸브 타이밍 장치 (46), WGV (50), EGR 밸브 (54), 고압 연료 펌프 (64), 퍼지 펌프 (68), 및 로크 업 클러치 (72) 의 각각의 조작 신호 (MS1 ∼ MS10) 를 기재하고 있다. 또, 도 1 에 나타내는 조작 신호 (MS11a, MS11b, …) 는, 각각, 솔레노이드 밸브 (80a, 80b, …) 의 조작 신호이다.
제어 장치 (90) 는, 제어량의 제어 시에, 에어플로 미터 (100) 에 의해 검출되는 흡입 공기량 (Ga) 이나, 흡기온 센서 (102) 에 의해 검출되는 흡기온 (Ta), 과급압 센서 (104) 에 의해 검출되는 흡기 통로 (12) 중 과급기 (14) 의 하류의 압력 (과급압 (Pa)) 을 참조한다. 또 제어 장치 (90) 는, 스로틀 센서 (106) 에 의해 검출되는 스로틀 밸브 (16) 의 개구도 (스로틀 개구도 (Tor)) 나, 크랭크각 센서 (108) 의 출력 신호 (Scr) 를 참조한다. 또, 제어 장치 (90) 는, 캠각 센서 (112) 의 출력 신호 (Sca) 나, 수온 센서 (114) 에 의해 검출되는 내연 기관 (10) 의 냉각수의 온도 (수온 (THW)) 를 참조한다. 또 제어 장치 (90) 는, 촉매 (38) 의 상류측에 형성된 상류측 공연비 센서 (116) 의 검출값인 상류측 검출값 (Afu), 촉매 (38) 의 하류측에 형성된 하류측 공연비 센서 (118) 의 검출값인 하류측 검출값 (Afd) 을 참조한다. 또, 제어 장치 (90) 는, 입력측 속도 센서 (120) 에 의해 검출되는 변속 장치 (80) 의 입력축 (82) 의 회전 속도 (입력 회전 속도 (ωin)) 나, 출력측 속도 센서 (122) 에 의해 검출되는 변속 장치 (80) 의 출력축 (84) 의 회전 속도 (출력 회전 속도 (ωout)) 를 참조한다. 또, 제어 장치 (90) 는, 솔레노이드 밸브 (80a) 에 의해 조정되고 유압 센서 (124a) 에 의해 검출되는 유압 (Poila) 이나, 솔레노이드 밸브 (80b) 에 의해 조정되고 유압 센서 (124b) 에 의해 검출되는 유압 (Poilb) 등을 참조한다. 또, 제어 장치 (90) 는, 유온 센서 (126) 에 의해 검출되는 내연 기관 (10) 의 윤활유의 온도 (유온 (Toil)) 나, 차속 센서 (130) 에 의해 검출되는 차량 (VC1) 의 주행 속도 (차속 (SPD)), 액셀 센서 (132) 에 의해 검출되는 액셀 페달의 조작량 (액셀 조작량 (ACCP)) 을 참조한다.
제어 장치 (90) 는, CPU (92), ROM (94), 전기적으로 다시 쓰기 가능한 불휘발성 메모리인 기억 장치 (96), 및 주변 회로 (98) 를 구비하고, 그것들이 로컬 네트워크 (99) 에 의해 통신 가능하게 된 것이다. 또한, 주변 회로 (98) 는, 내부의 동작을 규정하는 클록 신호를 생성하는 회로나, 전원 회로, 리셋 회로 등을 포함한다.
제어 장치 (90) 는, ROM (94) 에 기억된 프로그램을 CPU (92) 가 실행함으로써, 상기 제어량의 제어를 실행한다. 도 2 에, 제어 장치 (90) 가 실행하는 처리의 순서를 나타낸다. 도 2 에 나타내는 처리는, ROM (94) 에 기억된 제어 프로그램 (94b) 을 CPU (92) 가 예를 들어 소정 주기로 반복 실행함으로써 실현된다. 또한, 이하에서는, 선두에 「S」 가 부여된 숫자에 의해, 각 처리의 스텝 번호를 기재한다.
도 2 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저 회전 속도 (NE), 충전 효율 (η), 과급압 (Pa), 흡기온 (Ta), 수온 (THW), 유온 (Toil), 하류측 검출값 (Afd), 상류측 검출값 (Afu), 액셀 조작량 (ACCP), 및 차속 (SPD) 을 취득한다 (S10). 여기서, 회전 속도 (NE) 는, 크랭크각 센서 (108) 의 출력 신호 (Scr) 에 기초하여 CPU (92) 에 의해 산출된다. 또, 충전 효율 (η) 은, 회전 속도 (NE) 및 흡입 공기량 (Ga) 에 기초하여 CPU (92) 에 의해 산출된다. 또한, 충전 효율 (η) 은, 연소실 (26) 내에 충전되는 공기량을 정하는 파라미터이다.
그리고, CPU (92) 는, S10 의 처리에 의해 취득한 값을 입력으로 하고, S12 ∼ S28 의 처리에 의해, 내연 기관 (10) 의 각종 조작부의 조작량을 설정한다. 또한, 여기서 조작량이란, 실제의 조작량에 한정되지 않고, 예를 들어 조작량이 되도록 개(開) 루프 제어하는 경우나, 조작량이 되도록 피드백 제어하는 경우에는, 그 지령값을 조작량으로 간주하기도 한다.
상세하게는, CPU (92) 는, S12 의 처리에 의해, 스로틀 밸브 (16) 의 개구도의 지령값 (스로틀 개구도 지령값 (Tor*)) 을 설정하고, S14 의 처리에 의해 분사가 요구되는 연료량 (요구 분사량 (Qf)) 을 설정한다. 또, CPU (92) 는, S16 의 처리에 의해 크랭크축 (32) 과 흡기측 캠축 (42) 의 회전 위상차 (흡기 위상차 (DIN)) 의 지령값인 흡기 위상차 지령값 (DIN*) 을 설정하고, S18 의 처리에 의해 점화 시기 (aig) 를 설정하고, S20 의 처리에 의해 요구 분사량 (Qf) 중 포트 분사 밸브 (18) 로부터 분사되는 연료량의 비율인 분사 분배율 (Kp) 을 설정한다. 또, CPU (92) 는, S22 의 처리에 의해, WGV (50) 의 개구도의 지령값인 WGV 개구도 지령값 (Wgvor) 을 설정하고, S24 의 처리에 의해 통내 분사 밸브 (28) 에 의한 연료 분사의 분사압의 지령값 (연료압 지령값 (Pf*)) 을 설정한다. 또, CPU (92) 는, S26 의 처리에 의해, EGR 밸브 (54) 의 개구도의 지령값인 EGR 개구도 지령값 (Egrvor) 을 설정하고, S28 의 처리에 의해, 퍼지 펌프 (68) 의 조작량 (퍼지 조작량 (Pg)) 을 설정한다.
상세하게는, CPU (92) 는, 도 1 에 나타내는 맵 데이터 (96b) 를 사용하여, S12 ∼ S28 의 처리를 실행한다. 맵 데이터 (96b) 는, 상기 9 개의 조작량의 각각을 출력 변수로 하고, S10 의 처리에 의해 취득되는 값에 대응하는 변수를 입력 변수로 하는, 9 개의 맵 데이터를 포함한다. CPU (92) 는, S10 의 처리에 의해 취득한 값을 입력으로 하고, 상기 9 개의 조작량의 각각을 대응하는 맵 데이터를 사용하여 맵 연산한다.
또한, 맵 데이터란, 입력 변수의 이산적인 값과, 입력 변수의 값의 각각에 대응하는 출력 변수의 값의 세트 데이터이다. 또 맵 연산은, 예를 들어, 입력 변수의 값이 맵 데이터의 입력 변수의 값의 어느 것에 일치하는 경우, 대응하는 맵 데이터의 출력 변수의 값을 연산 결과로 하는 데 반해, 일치하지 않는 경우, 맵 데이터에 포함되는 복수의 출력 변수의 값의 보간에 의해 얻어지는 값을 연산 결과로 하는 처리로 하면 된다.
그리고, CPU (92) 는, S12 ∼ S28 의 처리에 의해 설정한 조작량에 기초하여 각 조작부를 조작하기 위해서, 각 조작부에, 각각 조작 신호 (MS1 ∼ MS9) 를 출력한다 (S30). 여기서, 조작 신호 (MS1 ∼ MS9) 는, S12 ∼ S28 의 처리에 의해 설정된 조작량에 의해 일의적으로 정해지는 것만은 아니다. 예를 들어 본 실시형태에서는, 스로틀 개구도 (Tor) 를 스로틀 개구도 지령값 (Tor*) 에 피드백 제어하기 때문에, 스로틀 밸브 (16) 의 조작 신호 (MS1) 는, 스로틀 개구도 지령값 (Tor*) 이 동일해도, 다양한 값이 될 수 있다.
또한, CPU (92) 는, S30 의 처리가 완료하는 경우, 도 2 에 나타내는 처리를 일단 종료한다. 상기 맵 데이터 (96b) 는, 강화 학습을 이용하여 생성된 것이다. 이하, 이것에 대해서 상세히 서술한다.
도 3 에, 맵 데이터 (96b) 를 생성하는 시스템을 나타낸다. 도 3 에 나타내는 바와 같이, 본 실시형태에서는, 내연 기관 (10) 의 크랭크축 (32) 에 토크 컨버터 (70) 및 변속 장치 (80) 를 개재하여 다이너모미터 (140) 를 기계적으로 연결한다. 그리고 내연 기관 (10) 을 가동시켰을 때의 다양한 상태 변수가 센서군 (142) 에 의해 검출되고, 검출 결과가, 맵 데이터 (96b) 를 생성하는 컴퓨터인 생성 장치 (150) 에 입력된다. 또한, 센서군 (142) 에는, 도 1 에 나타낸 차량 (VC1) 이 탑재하는 센서 뿐만 아니라, 배기 통로 (36) 에 배출되는 배기 중의 질소 농도를 검출하는 질소 농도 센서나, 배기 중의 미연 연료 농도를 검출하는 미연 연료 농도 센서, 배기 중의 입자상 물질 (PM) 의 양을 검출하는 PM 센서가 포함된다. 또, 센서군 (142) 에는, 촉매 (38) 의 온도 (촉매 온도 (Tcat)) 를 검출하는 촉매 온도 센서나, 내연 기관 (10) 의 주변의 소음을 검지하는 마이크 등이 포함된다.
생성 장치 (150) 는, CPU (152), ROM (154), 전기적으로 다시 쓰기 가능한 불휘발성 메모리 (기억 장치 (156)), 주변 회로 (158) 를 구비하고 있고, 그것들이 로컬 네트워크 (159) 에 의해 통신 가능하게 된 것이다.
도 4 에, 생성 장치 (150) 가 실행하는 처리의 순서를 나타낸다. 도 4 에 나타내는 처리는, ROM (154) 에 기억된 학습 프로그램 (154a) 을 CPU (152) 가 실행함으로써 실현된다.
도 4 에 나타내는 일련의 처리에 있어서, CPU (152) 는, 먼저, 도 3 에 나타낸 기억 장치 (156) 에 기억되어 있는 관계 규정 데이터 (156a) 에 의해 규정되는 행동 가치 함수 (Q (s, a)) 를 초기화한다 (S40). 여기서, 행동 가치 함수 (Q) 는, 상태 (s) 와 행동 (a) 을 독립 변수로 하고, 기대 수익을 출력 변수로 하는 함수이다. 본 실시형태에서는, 상태 (s) 를, S10 의 처리에 의해 취득하는 값에 관한 10 개의 변수로 한다. 또, 행동 (a) 을, S12 ∼ S28 의 처리에 의해 설정되는 9 개의 조작량으로 한다. 즉, 본 실시형태에서는, 상태 (s) 가 10 차원 벡터이고, 행동 (a) 이 9 차원 벡터이지만, 편의상, 소문자의 「s」, 「a」 를 사용하고 있다. 또, 본 실시형태에 관련된 행동 가치 함수 (Q (s, a)) 는, 테이블 형식의 함수로 한다. 단, 본 실시형태에서는, 행동 가치 함수 (Q (s, a)) 의 독립 변수의 조합의 수를 삭감하기 위해서, 상태 (s) 및 행동 (a) 의 각 변수의 값을 이산화한 각 값의 세트의 일부에 의해서만 행동 가치 함수 (Q (s, a)) 를 정의한다.
상세하게는, 먼저, 내연 기관 (10) 과 동일한 조작부를 구비하고, 관련 수법으로 이미 조작부의 조작량이 적합되어 있는 내연 기관을 가동시킴으로써, 그 각 상태 (s) 에 있어서의 행동 (a) 을 특정한다. 그리고, 실제로 검출된 상태 (s) 의 일부를 맵 데이터 (96b) 가 규정하는 입력 변수의 값으로서 선택하고, 그들 상태의 각각에 대한 행동 (a) 을 추출한다. 또한, 상태에 대하여 복수의 행동 (a) 이 추출되는 경우, 그들 중 실측된 빈도가 큰 쪽 등을 채용하면 된다. 이에 따라, 상태 (s) 및 행동 (a) 의 복수의 세트인 대표점이 설정된다. 단, 여기에서의 상태 (s) 나 행동 (a) 의 성분은, 각각, 최소값 이상 최대값 이하의 영역을 복수로 분할했을 때의 분할된 영역 중 어느 것에 속하는지를 정의하는 것으로 한다. 이것은, 관련 수법으로 이미 조작부의 조작량이 적합되어 있는 내연 기관과, 본 실시형태에 관련된 내연 기관 (10) 의 배기량의 상이를 보상하기 위한 설정이다.
이러한 상태에 있어서, CPU (152) 는, 행동 가치 함수 (Q (s, a)) 의 독립 변수가 취할 수 있는 범위를, 대표점과, 대표점에 대하여 행동 (a) 의 각 변수의 값을 플러스 방향 및 마이너스 방향으로 1 단위만큼 어긋나게 한 값으로 한다. 예를 들어, EGR 개구도 지령값 (Egrvor) 이 취할 수 있는 값이 「0 ∼ 10」 의 10 단계였다고 해도, 소정의 상태 (s0) 에 있어서의 EGR 개구도 지령값 (Egrvor) 의 실측값이 「5」 인 경우, 행동 가치 함수 (Q (s0, a)) 의 독립 변수 중 EGR 개구도 지령값 (Egrvor) 은, 「4, 5, 6」 만이 취할 수 있는 값이 된다. 즉, 상태 (s0) 로서 EGR 개구도 지령값 (Egrvor) 이 「1」 인 것에는, 행동 가치 함수 (Q (s0, a)) 가 정의되어 있지 않다.
다음으로 CPU (152) 는, 최신 상태 (st) 를 취득한다 (S42). 여기서, 액셀 조작량 (ACCP) 은, 생성 장치 (150) 에 의해 생성되는 것이며, 실제의 액셀 페달의 조작량은 아니다. 즉, 도 3 에 있어서는, 차량의 상태를 모의하기 위해서, 액셀 조작량 (ACCP) 을 차량의 상태에 관한 변수로서 의사적으로 생성하고 있다. 또, 차속 (SPD) 은, 회전 속도 (NE) 와 변속 장치 (80) 의 변속비에 기초하여, 내연 기관 (10) 및 변속 장치 (80) 가 차량에 탑재되어 있었을 경우에 상정되는 값이며, 생성 장치 (150) 에 의해 산출된다.
다음으로, CPU (152) 는, 관계 규정 데이터 (156a) 에 규정된 방책 (πt) 에 따라서, 행동 (at) 을 선택한다 (S44). 여기서, 행동 (at) 은, 상태 (st) 에 대하여 선택된 행동 (a) 인 것을 의미한다. 또, 방책 (πt) 은, 상태 (st) 에 있어서, 행동 가치 함수 (Q (st, a)) 를 최대화하는 행동 (a) (그리디 행동) 을 선택하는 확률을 최대로 하면서도, 그 이외의 행동 (a) 의 선택 확률도 「0」 으로 하지 않는다. 여기서, 그리디한 행동이 취해지지 않음으로써, 최적인 행동을 찾기 위한 탐색이 가능해진다. 이것은, ε 그리디 행동 선택 수법이나, 소프트 맥스 행동 선택 수법에 의해 실현할 수 있다.
다음으로 CPU (152) 는, 행동 (at) 에 기초하여 조작부를 조작한다 (S46). 덧붙여서, 행동 (at) 은, 상기 서술한 바와 같이, 상기 최소값 이상 최대값 이하의 영역이 복수로 분할된 복수의 영역 중 어느 1 개의 영역을 지정하는 것이지만, 조작부의 조작 시에는, 행동 (at) 이 지정하는 영역의 중앙값에 대응하는 값이 채용된다. 또한, 여기서는, 행동 (at) 을 직접적인 조작량으로 하는 대신에, 전회의 조작량과 행동 (at) 으로부터 정해지는 조작량의 지수 이동 평균 처리값을 이번 조작량으로 해도 된다. 그리고, CPU (152) 는, 최신 상태 (st+1) 를 취득한다 (S48). 다음으로, CPU (152) 는, 행동 (at) 에 의한 보수 (rt) 를 산출한다 (S50).
도 5 에, S50 의 처리의 상세한 내용을 나타낸다. 도 5 에 나타내는 일련의 처리에 있어서, CPU (152) 는, 먼저, 센서군 (142) 의 검출값에 기초하여, 내연 기관 (10) 의 상태를 포함하는 차량의 모의적인 상태를 취득한다 (S60). 상세하게는, 상류측 검출값 (Afu), 하류측 검출값 (Afd), 질소 농도 센서의 검출값에 기초하는 배기 중의 NOx 량 (Qnox), 미연 연료 농도 센서의 검출값에 기초하는 배기 중의 미연 연료량 (Qch), PM 센서의 검출값에 기초하는 배기 중의 PM (particulate matter) 량 (Qpm), 촉매 온도 센서에 의해 검출되는 촉매 온도 (Tcat) 를 취득한다. 또, CPU (152) 는, 요구 분사량 (Qf(1), Qf(2), …) 이나 차량의 전후 가속도 (Gx(1), Gx(2), …) 를 취득한다. 여기서, 괄호 안의 숫자가 상이한 것은, 서로 상이한 샘플링 타이밍인 것을 나타낸다. 즉, 요구 분사량 (Qf(1), Qf(2), …) 은, 요구 분사량 (Qf) 의 시계열 데이터이며, 전후 가속도 (Gx(1), Gx(2), …) 는, 전후 가속도 (Gx) 의 시계열 데이터이다. 시계열 데이터는, 도 5 의 처리의 전회 실행 타이밍으로부터 이번 실행 타이밍까지의 기간에 있어서의 샘플링값으로 한다. 여기서, 전후 가속도 (Gx) 는, 다이너모미터 (140) 의 부하 토크 등에 기초하여 CPU (152) 에 의해 산출되는, 만일 내연 기관 (10) 등이 차량에 탑재되어 있었을 경우에 차량에 발생하는 것으로 상정되는 전후 가속도이다. 또, CPU (152) 는, 마이크에 의해 검지된 음압 (SP) 이나, 다이너모미터 (140) 가 생성하는 부하 토크와 변속 장치 (80) 의 변속비로부터 파악되는 내연 기관 (10) 의 토크 (기관 토크 (Trqeg)) 및 그 요구값 (기관 토크 요구값 (Trqeg*)) 을 취득한다. 단, 기관 토크 (Trqeg) 및 기관 토크 요구값 (Trqeg*) 대신에, 기관 토크 (Trqeg) 및 회전 속도 (NE) 의 곱인 기관 출력 (Peg) 및 그 요구값 (기관 출력 요구값 (Peg*)) 을 취득해도 된다. 여기서, 기관 토크 요구값 (Trqeg*) 은, 액셀 조작량 (ACCP) 에 따라 설정된다.
다음으로 CPU (152) 는, S62 ∼ S66 의 처리에 의해, 배기 특성의 관점에 기초하는 보수를 산출한다. 즉, CPU (152) 는, 먼저, 이하의 조건 (1) ∼ 조건 (6) 의 논리곱이 참인지 여부를 판정한다 (S62). 이 처리는, 배기 특성이 소정의 특성인지 여부를 판정하는 처리이다.
조건 (1) : 상류측 검출값 (Afu) 이, 리치측 상한값 (AfuR) 이상이고 또한 린측 상한값 (AfuL) 이하인 취지의 조건이다. 여기서, 리치측 상한값 (AfuR) 은, 이론 공연비보다 리치측의 값으로 되어 있고, 린측 상한값 (AfuL) 은, 이론 공연비보다 린측의 값으로 되어 있다.
조건 (2) : 하류측 검출값 (Afd) 이, 리치측 상한값 (AfdR) 이상이고 또한 린측 상한값 (AfdL) 이하인 취지의 조건이다. 여기서, 리치측 상한값 (AfdR) 은, 이론 공연비보다 리치측의 값으로 되어 있고, 린측 상한값 (AfdL) 은, 이론 공연비보다 린측의 값으로 되어 있다.
조건 (3) : NOx 량 (Qnox) 이 소정량 (Qnoxth) 이하인 취지의 조건이다.
조건 (4) : 미연 연료량 (Qch) 이 소정량 (Qchth) 이하인 취지의 조건이다.
조건 (5) : PM 량 (Qpm) 이 소정량 (Qpmth) 이하인 취지의 조건이다.
조건 (6) : 촉매 온도 (Tcat) 가 하한 온도 (TcatL) 이상이고 또한 상한 온도 (TcatH) 이하인 취지의 조건이다. CPU (152) 는, 조건 (1) ∼ 조건 (6) 의 논리곱이 참이라고 판정하는 경우 (S62 : 예), 배기 특성이 목표로 하는 소정의 특성에 있다고 하여, 보수 (rt) 에 「10」 을 가산한다 (S64). 이에 반해, CPU (152) 는, 상기 논리곱이 거짓이라고 판정하는 경우, 보수 (rt) 에 「-10」 을 가산한다 (S66). 이것은, 부 (負) 의 보수를 주는 것에 대응한다. 바꾸어 말하면, 패널티를 부과하는 것에 대응한다. 덧붙여서, 도 5 에 나타내는 일련의 처리가 주기적으로 개시될 때마다, 보수 (rt) 의 초기값은 제로로 간주된다.
CPU (152) 는, S64, 66 의 처리가 완료하는 경우, S68, S70 의 처리에 의해, 연료 소비율의 관점에 의한 보수를 산출한다. 즉, CPU (152) 는, S60 의 처리에 의해 취득한 요구 분사량 (Qf(1), Qf(2), …) 의 적산값 (InQf) 이 소정값 (InQfth) 이하인지 여부를 판정한다 (S68). 그리고, CPU (152) 는, 소정값 (InQfth) 이하라고 판정하는 경우 (S68 : 예), 보수 (rt) 에, 정 (正) 의 소정량 (Δ) 을 가산한다 (S70). 여기서, 소정량 (Δ) 은, 적산값 (InQf) 이 작은 경우에 큰 경우보다 큰 값으로 한다.
CPU (152) 는, S70 의 처리를 완료하는 경우나, S68 의 처리에 있어서 부정 판정하는 경우에는, S72 ∼ S76 의 처리에 의해, 드라이버빌리티의 관점에 의한 보수를 산출한다. 즉, CPU (152) 는, 먼저, 이하의 조건 (7) ∼ 조건 (9) 의 논리곱이 참인지 여부를 판정한다 (S72).
조건 (7) : 전후 가속도 (Gx) 의 소정 기간당 변화량 (ΔGx) 이, 하한 변화량 (ΔGxthL) 이상이고 또한 상한 변화량 (ΔGxthH) 이하인 취지의 조건이다.
조건 (8) : 전후 가속도 (Gx) 가 하한 가속도 (GxL) 이상이고 또한 상한 가속도 (GxH) 이하인 취지의 조건이다.
또한, 하한 가속도 (GxL) 나 상한 가속도 (GxH) 는, 액셀 조작량 (ACCP) 에 따라 가변 설정된다.
조건 (9) : 음압 (SP) 이 소정값 (SPth) 이하인 취지의 조건이다.
CPU (152) 는, 조건 (7) ∼ 조건 (9) 의 논리곱이 참이라고 판정하는 경우 (S72 : 예), 드라이버빌리티가 소정의 기준을 만족한다고 하여, 보수 (rt) 에 「5」 를 가산한다 (S74). 이에 반해, CPU (152) 는, 상기 논리곱이 거짓이라고 판정하는 경우 (S72 : 아니오), 보수에 「-5」 를 가산한다 (S76).
CPU (152) 는, S74, S76 의 처리가 완료하는 경우, 기관 토크 (Trqeg) 와 기관 토크 요구값 (Trqeg*) 의 차의 절대값이 소정량 (ΔTrqeg) 이하인지 여부를 판정한다 (S78). 또한, S60 의 처리에 있어서 기관 출력 (Peg) 을 취득하고 있는 경우에는, S78 의 처리에 있어서는, 기관 토크 (Trqeg) 와 기관 토크 요구값 (Trqeg*) 의 차의 절대값 대신에, 기관 출력 (Peg) 과 기관 출력 요구값 (Peg*) 의 차의 절대값이 소정량 (ΔPeg) 이하인지 여부를 판정한다.
그리고 CPU (152) 는, S78 의 처리에 있어서 긍정 판정하는 경우, 보수 (rt) 에 「10」 을 가산하는 한편 (S80), 부정 판정하는 경우, 보수 (rt) 에 「-10」 을 가산한다 (S82).
또한, CPU (152) 는, S80, S82 의 처리를 완료하는 경우, 도 4 의 S50 의 처리를 완료한다. 다음으로, CPU (152) 는, 행동 가치 함수 (Q (s, a)) 중 상태 (st), 행동 (at) 의 경우의 행동 가치 함수 (Q (st, at)) 의 값을 갱신하는 갱신량을 산출하기 위해서, 오차 (δt) 를 산출한다 (S52). 본 실시형태에서는, 방책 오프형 TD 법을 예시한다. 즉, 할인율 (γ) 을 사용하여, 오차 (δt) 를, 행동 가치 함수 (Q (st+1, A)) 중 최대값에 할인율 (γ) 을 곱셈한 값 및 보수 (rt) 의 합으로부터 행동 가치 함수 (Q (st, at)) 를 감산한 값으로 한다. 또한, 「A」 는, 행동 (a) 의 집합을 의미한다. 다음으로, CPU (152) 는, 오차 (δt) 에 학습율 (α) 을 곱셈한 값을 행동 가치 함수 (Q (st, at)) 에 가산함으로써, 행동 가치 함수 (Q (st, at)) 를 갱신한다 (S54). 즉, 관계 규정 데이터 (156a) 에 의해 규정되어 있는 행동 가치 함수 (Q (s, a)) 중, 독립 변수가 상태 (st) 및 행동 (at) 이 되는 것의 값을, 「α·δt」 만큼 변화시킨다. 또한, S52, S54 의 처리는, 학습 프로그램 (154a) 중, 보수 (rt), 상태 (st), 행동 (at) 을 입력으로 하고, 갱신된 행동 가치 함수 (Q) 를 출력하는 사상인 갱신 사상을 사용하여, 행동 가치 함수 (Q) 를 갱신하는 실행 지령의 실행에 의해 실현된다. 이 갱신 사상에 의해, 관계 규정 데이터 (156a) 에 규정된 관계인, S10 의 처리에 의해 취득되는 값과 S44 의 처리에 따라서 선택되는 조작량의 관계가, 기대 수익을 증가시키도록 갱신된 것이 된다. 이것은, 행동 가치 함수 (Q (st, at)) 가 갱신됨으로써, 행동 가치 함수 (Q (st, at)) 가 실제의 기대 수익을 보다 고정밀도로 표현하는 값으로 갱신되기 때문이다.
다음으로 CPU (152) 는, 각 독립 변수에 대해 행동 가치 함수 (Q) 의 값이 수속되었지 여부를 판정한다 (S56). 그리고, CPU (152) 는, 수속되어 있지 않다고 판정하는 경우 (S56 : 아니오), S48 의 처리에 의해 취득한 상태 (st+1) 가 상태 (st) 가 되도록 t 를 갱신하고 (S58), S44 의 처리로 되돌아간다. 이에 반해, CPU (152) 는, 수속되었다고 판정하는 경우 (S56 : 예), 도 4 에 나타내는 일련의 처리를 일단 종료한다.
도 6 에, 생성 장치 (150) 가 실행하는 처리 중, 특히 도 4 의 처리에 의해 학습된 행동 가치 함수 (Q) 에 기초하여, 맵 데이터 (96b) 를 생성하는 처리의 순서를 나타낸다. 도 6 에 나타내는 처리는, ROM (154) 에 기억된 학습 프로그램 (154a) 을, CPU (152) 가 실행함으로써 실현된다.
도 6 에 나타내는 일련의 처리에 있어서, CPU (152) 는, 먼저, 상태 (s) 를 1 개 선택한다 (S90). 다음으로, CPU (152) 는, 상태 (s) 에 대응하는 행동 가치 함수 (Q (s, A)) 중, 행동 가치 함수 (Q) 의 값을 최대로 하는 행동 (a) 을 선택한다 (S92). 즉, 여기서는, 그리디 방책에 의해 행동 (a) 을 선택한다. 다음으로, CPU (152) 는, 상태 (s) 와 행동 (a) 의 세트를 기억 장치 (156) 에 기억시킨다 (S94).
다음으로 CPU (152) 는, 맵 데이터 (96b) 의 입력 변수의 값으로 하는 것 전부가 S90 의 처리에 의해 선택되었는지 여부를 판정한다 (S96). 그리고, CPU (152) 는, 선택되어 있지 않은 것이 있다고 판정하는 경우 (S96 : 아니오), S90 의 처리로 되돌아간다. 이에 반해, CPU (152) 는, 모두가 선택되었다고 판정하는 경우 (S96 : 예), S94 의 처리에 의해 기억된 데이터에 기초하여, 맵 데이터 (96b) 를 생성한다 (S98). 여기서는, 맵 데이터 (96b) 의 입력 변수의 값이 상태 (s) 인 것에 대응하는 출력 변수의 값을, 대응하는 행동 (a) 으로 한다.
또한, CPU (152) 는, S98 의 처리가 완료하는 경우, 도 6 에 나타내는 일련의 처리를 일단 종료한다. 도 7 에, 도 1 에 나타내는 제어 장치 (90) 가 실행하는 처리 중, 변속 장치 (80) 의 조작에 관한 처리의 순서를 나타낸다. 도 7 에 나타내는 처리는, ROM (94) 에 기억되어 있는 제어 프로그램 (94b) 및 학습 프로그램 (94a) 을 CPU (92) 가 실행함으로써 실현된다. 또한, 도 7 에 있어서는, 변속 장치 (80) 가 실현 가능한 모든 변속비의 전환을 나타내는 것은 아니고, 일례로서, 1 쌍의 변속비인 제 1 변속비로부터 제 2 변속비로 전환하는 경우의 처리를 나타낸다. 여기서는, 제 1 변속비로 하기 위해서는, 유압 (Poila) 을 높게 하여 제 1 클러치를 체결 상태로 하고 또한 유압 (Poilb) 을 낮게 하여 제 2 클러치를 해방 상태로 하는 것으로 한다. 또 제 2 변속비로 하기 위해서는, 유압 (Poila) 을 낮게 하여 제 1 클러치를 해방 상태로 하고 또한 유압 (Poilb) 을 높게 하여 제 2 클러치를 체결 상태로 하는 것으로 한다.
도 7 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저, 제 1 변속비로부터 제 2 변속비로의 변속 요구가 있는지 여부를 판정한다 (S110). 그리고 CPU (92) 는, 변속 요구가 있다고 판정하는 경우 (S110 : 예), 입력 회전 속도 (ωin (n)), 출력 회전 속도 (ωout (n)), 및 유압 (Poila (n), Poilb (n)) 을 취득한다 (S112). 또한, 「(n)」 의 변수 n 은, S112 의 처리가 이루어지는 타이밍에 대한 라벨 변수이다. 이 처리는, 상태를 취득하는 처리이다. 즉, 도 7 의 처리에 있어서는, 상태는, 입력 회전 속도 (ωin), 출력 회전 속도 (ωout), 및 유압 (Poila, Poilb) 의 4 차원 벡터에 의해 표현된다.
다음으로, CPU (92) 는, 도 1 의 기억 장치 (96) 에 기억된 관계 규정 데이터 (96a) 에 의해 규정되는 방책 (π) 에 따라서, 행동으로서의, 솔레노이드 밸브 (80a) 의 전류 지령값 (솔레노이드 전류 지령값 (ia*)) 과, 솔레노이드 밸브 (80b) 의 전류 지령값 (솔레노이드 전류 지령값 (ib*)) 을 선택한다 (S114). 그리고, CPU (152) 는, 솔레노이드 밸브 (80a) 에 흐르는 전류를 솔레노이드 전류 지령값 (ia*) 으로 제어하고, 또한, 솔레노이드 밸브 (80b) 에 흐르는 전류를 솔레노이드 전류 지령값 (ib*) 으로 제어하기 위해서, 조작 신호 (MS12, MS13) 를 출력한다 (S116).
그리고, CPU (92) 는, 변속이 완료되었지 여부를 판정한다 (S118). CPU (92) 는, 변속이 완료되어 있지 않다고 판정하는 경우 (S118 : 아니오), S112 의 처리에 의한 샘플링값을, 「n-1」 로 갱신하고 (S119), S112 의 처리로 되돌아간다. 이에 따라, CPU (152) 는, 새롭게 입력 회전 속도 (ωin), 출력 회전 속도 (ωout), 및 유압 (Poila, Poilb) 을 취득하게 된다.
이에 반해 CPU (92) 는, 변속이 완료되었다고 판정하는 경우 (S118 : 예), 이하의 조건 (10) ∼ 조건 (12) 의 논리곱이 참인지 여부를 판정한다 (S120).
조건 (10) : 제 1 변속비로부터 제 2 변속비로의 전환에 필요로 한 시간인 변속 시간 (Tsft) 이 소정 시간 (TsftH) 이하인 취지의 조건이다. 여기서, 소정 시간 (TsftH) 은, 변속에 필요로 하는 시간으로서 허용 상한값 이하로 설정되어 있다.
조건 (11) : 입력 회전 속도 (ωin) 의 소정 기간당 변화량 (Δωin) 의 절대값이 입력측 소정값 (ΔωinH) 이하인 취지의 조건이다. 여기서, 입력측 소정값 (ΔωinH) 은, 변속에 수반하여 사용자에게 위화감을 주는 일이 없는 상한값에 기초하여 설정되어 있다.
조건 (12) : 출력 회전 속도 (ωout) 의 소정 기간당 변화량 (Δωout) 의 절대값이 출력측 소정값 (ΔωoutH) 이하인 취지의 조건이다. 여기서, 출력측 소정값 (ΔωoutH) 은, 변속에 수반하여 사용자에게 위화감을 주는 일이 없는 상한값에 기초하여 설정되어 있다.
CPU (92) 는, 상기 조건 (10) ∼ 조건 (12) 의 논리곱이 참이라고 판정하는 경우 (S120 : 예), 보수 (r) 에 「1」 을 가산한다 (S122). 이것은, 조건 (10) ∼ 조건 (12) 의 논리곱이 참인 경우에 정의 보수를 주는 것을 의미한다.
CPU (92) 는, S122 의 처리가 완료하는 경우나, S120 의 처리에 있어서 부정 판정하는 경우에는, 유압 (Poila) 과 유압 (Poilb) 의 쌍방이 임계값 (Pth) 이상이 되는 샘플링값의 세트 (Poila (i), Poilb (i)) 가 있는지 여부를 판정한다 (S124). 여기서, 임계값 (Pth) 은, 클러치가 체결 상태가 되는 하한값보다 작은 값으로 설정되어 있다. CPU (92) 는, 상기의 세트가 있다고 판정하는 경우 (S124 : 예), 보수 (r) 에 부의 보수인 「-10」 을 가산한다 (S126). 즉, 여기서 대상으로 하는 변속에 있어서는, 유압 (Poila) 에 의해 상태가 정해지는 제 1 클러치와 유압 (Poilb) 에 의해 상태가 정해지는 제 2 클러치의 2 개의 클러치 중 일방이 체결 상태로부터 해방 상태로 이행하고, 타방이 해방 상태로부터 체결 상태로 이행할 필요가 있다. 그 때문에, 유압 (Poila) 과 유압 (Poilb) 의 쌍방이 동시에 높아지는 것은 바람직하지 않다.
CPU (92) 는, S126 의 처리가 완료하는 경우나, S124 의 처리에 있어서 부정 판정하는 경우에는, S128 ∼ S136 의 처리에 있어서, 도 1 에 나타낸 기억 장치 (96) 에 기억되어 있는 관계 규정 데이터 (96a) 를 갱신한다. 본 실시형태에서는, ε 소프트 방책 온형 몬테 카를로법을 사용한다.
즉, CPU (92) 는, 먼저, 한 번의 변속 처리의 기간에 있어서의 S112 의 처리에 의해 취득된 상태인 입력 회전 속도 (ωin), 출력 회전 속도 (ωout), 유압 (Poila, Poilb) 의 세트의 시계열 데이터와, 각 상태에 대응하는 행동인 솔레노이드 전류 지령값 (ia*, ib*) 의 세트의 시계열 데이터를 읽어낸다 (S128). 여기서는, S128 의 처리에 있어서 읽어낸 상태를, 상태 집합 (Sj) 이라고 기재하고, S128 의 처리에 있어서 읽어낸 행동을, 행동 집합 (Aj) 이라고 기재한다.
다음으로, CPU (92) 는, 상기 S128 의 처리에 의해 읽어낸 각 상태와 대응하는 행동과의 세트에 의해 정해지는 수익 (R (Sj, Aj)) 에, 각각, 보수 (r) 를 가산한다 (S130). 여기서, 수익 (R) 의 초기값은, 대응하는 행동 가치 함수 (Q) 의 초기값으로 하면 된다. 다음으로, 상기 S128 의 처리에 의해 읽어낸 각 상태와 대응하는 행동의 세트에 의해 정해지는 수익 (R (Sj, Aj)) 의 각각에 대해, 평균화하여 대응하는 행동 가치 함수 (Q (Sj, Aj)) 에 대입한다 (S132). 여기서, 평균화는, S130 의 처리가 이루어진 횟수에 소정 수를 가산한 수에 의해, S130 의 처리에 의해 산출된 수익 (R) 을 나눗셈하는 처리로 하면 된다.
다음으로 CPU (92) 는, 상기 S128 의 처리에 의해 읽어낸 상태에 대해, 각각, 대응하는 행동 가치 함수 (Q (Sj, ia*, ib*)) 중, 최대값이 될 때의 솔레노이드 전류 지령값 (ia*, ib*) 을, 솔레노이드 전류 지령값 (ia0*, ib0*) 에 대입한다 (S134). 또한, 솔레노이드 전류 지령값 (ia0*, ib0*) 은, 상기 S128 의 처리에 의해 읽어낸 상태의 종류에 따라 각각 다른 값이 되는 것이지만, 여기서는, 표기를 간소화하여, 동일한 기호로 기재하고 있다.
다음으로, CPU (92) 는, 상기 S128 의 처리에 의해 읽어낸 상태의 각각에 대해, 대응하는 방책 (π (ia*, ib*|Sj)) 을 갱신한다 (S136). 즉, 행동의 총수를, 「|A|」 라고 하면, S134 에 의해 선택된 행동인 솔레노이드 전류 지령값 (ia0*, ib0*) 의 선택 확률을, 「1 - ε+ε/|A|」 라고 한다. 또, 솔레노이드 전류 지령값 (ia0*, ib0*) 이외의 「|A|- 1」 개의 행동의 선택 확률을, 각각 「ε/|A|」 라고 한다.
또한, CPU (92) 는, S136 의 처리가 완료하는 경우나, S110 의 처리에 있어서 부정 판정하는 경우에는, 도 7 에 나타내는 일련의 처리를 일단 종료한다. 도 7 에 있어서, S110 ∼ S119 의 처리가, 제어 프로그램 (94b) 의 실행에 의해 실현되는 처리이고, S120 ∼ S136 의 처리가, 학습 프로그램 (94a) 의 실행에 의해 실현되는 처리이다.
덧붙여서, 기억 장치 (96) 에 기억하는 관계 규정 데이터 (96a) 는, 도 3 에 나타낸 시스템에 있어서, 미리 도 7 과 동일한 처리에 의해 학습이 어느 정도 이루어진 데이터로 한다. 도 3 에 나타낸 시스템에 의한 강화 학습에 있어서는, 기억 장치 (96) 에 대한 기억 후와 비교하여, 「ε」 을 큰 값으로 설정하거나, 임계값 (Pth) 을 큰 값으로 설정하거나 해도 된다. 또한, 임계값 (Pth) 을 큰 값으로 설정하는 경우, S124 의 처리를 S118 의 처리보다 전에 실행하여, S124 의 처리에 있어서 긍정 판정하는 경우, 학습을 종료하여 큰 부의 보수를 주는 것이 바람직하다.
여기서, 본 실시형태의 작용 및 효과에 대해서 설명한다. 도 3 에 나타내는 시스템에 있어서, CPU (152) 는, 강화 학습에 의해, 행동 가치 함수 (Q) 를 학습한다. 그리고, 행동 가치 함수 (Q) 의 값이 수속하는 경우, 그 때마다의 상태에 있어서 행동 가치 함수 (Q) 를 최대화하는 행동을 선택함으로써, 그 상태에 있어서, 연료 소비율, 배기 특성, 및 드라이버빌리티의 요구를 만족하는 데 있어서 적절한 조작량이 학습되었다고 한다. 그리고, CPU (152) 는, 맵 데이터 (96b) 의 입력 변수가 되는 상태의 각각에 대해, 행동 가치 함수 (Q) 를 최대화하는 행동을 선택하고, 상태와 행동의 세트를 기억 장치 (156) 에 기억한다. 다음으로, CPU (152) 는, 기억 장치 (156) 에 기억된 상태와 행동의 세트에 기초하여, 맵 데이터 (96b) 를 생성한다. 이에 따라, 상태에 따른 적절한 조작량을, 숙련자에 의한 공수를 과도하게 크게 하는 일 없이 설정할 수 있다.
특히, 본 실시형태에서는, 상태로서 10 개의 서로 상이한 양을 사용하였다. 그 때문에, 예를 들어 10 개의 상태에 대응하는 각 조작량의 값을 숙련자가 적합하는 경우에는, 차원수가 큰 것에 기인하여 적합 공정이 매우 번잡한 것이 된다. 이에 대해, 본 실시형태에서는, 강화 학습을 사용함으로써, 차원이 큰 경우이더라도, 숙련자에 의한 공수의 증가를 억제하면서도, 조작량을 설정할 수 있다.
이상 설명한 본 실시형태에 의하면, 또한 이하에 기재하는 작용 효과를 발휘한다.
(1) 제어 장치 (90) 가 구비하는 기억 장치 (96) 에, 내연 기관 (10) 의 조작부의 조작량에 관한 행동 가치 함수 (Q) 등이 아니라, 맵 데이터 (96b) 를 기억하였다. 이에 따라, CPU (92) 는, 맵 데이터 (96b) 를 사용한 맵 연산에 기초하여, 내연 기관 (10) 의 조작부의 조작량을 설정하기 때문에, 행동 가치 함수 (Q) 중 최대값이 되는 것을 선택하는 처리를 실행하는 경우와 비교하여, 연산 부하를 경감할 수 있다.
(2) 변속 장치 (80) 의 변속비의 전환 조작을, 강화 학습에 의해 학습하였다. 이에 따라, 숙련자에 의한 공수를 과도하게 크게 하는 일 없이, 변속 장치 (80) 의 상태에 따른 조작량을 설정할 수 있다.
(3) 제어 장치 (90) 가 구비하는 기억 장치 (96) 에, 변속 장치 (80) 의 조작량에 관한 행동 가치 함수 (Q) 등을 관계 규정 데이터 (96a) 로서 기억하고, 변속비의 전환 조작이 실행될 때마다, 행동 가치 함수 (Q) 나 방책 (π) 을 갱신하였다. 이에 따라, 제어 장치 (90) 에 의해서는 갱신을 실시하지 않는 경우와 비교하여, 학습 빈도를 증가시킬 수 있다.
제 2 실시형태
이하, 제 2 실시형태에 대해서, 제 1 실시형태와의 상이점을 중심으로 도면을 참조하면서 설명한다.
도 8 에, 본 실시형태에 관련된 제어 장치 및 구동계를 나타낸다. 또한, 도 8 에 있어서, 도 1 에 나타낸 구성 요소에 대응하는 구성 요소에 대해서는, 편의상, 동일한 부호를 붙이고 있다. 도 8 에 나타내는 바와 같이, 본 실시형태에서는, 맵 데이터 (96b) 를 구비하고 없다. 대신에, 본 실시형태에 관련된 관계 규정 데이터 (96a) 에는, 내연 기관 (10) 의 상태와 내연 기관 (10) 의 조작부의 조작량의 관계를 규정하는 데이터도 포함되어 있다. 이 데이터는, 도 4 의 처리에 의해 생성된 행동 가치 함수 (Q) 등을 포함한다.
또, 기억 장치 (96) 에는, PM 량 출력 사상 데이터 (96c) 와, 토크 출력 사상 데이터 (96d) 가 기억되어 있다. 또, 본 실시형태에 있어서, 제어 장치 (90) 는, 구동계의 소리를 감지하는 마이크 (134) 에 의해 검출된 음압 (SP) 이나, 가속도 센서 (136) 에 의해 검출되는 차량 (VC1) 의 전후 가속도 (Gx) 를 참조한다.
도 9 에, CPU (92) 가, PM 량 출력 사상 데이터 (96c) 와, 토크 출력 사상 데이터 (96d) 를 이용하면서 학습 프로그램 (94a) 을 실행함으로써 실현되는 처리를 나타낸다. 도 9 에 나타내는 PM 량 출력 처리 (M10) 는, 회전 속도 (NE), 충전 효율 (η), 점화 시기 (aig), 분사량 증량값 (Qfi), 흡기온 (Ta) 및 수온 (THW) 을 입력으로 하고, PM 량 (Qpm) 을 출력하는 처리이다. 여기서, 분사량 증량값 (Qfi) 은, 연소실 (26) 내에 있어서 연소 대상으로 여겨지는 혼합기의 공연비를 이론 공연비로 하는 데에 필요한 분사량에 대한 실제의 분사량 (요구 분사량 (Qf)) 의 과잉분이다. 단, 분사량 증량값 (Qfi) 은, 부의 값을 취할 수 있고, 그 경우, 혼합기의 공연비를 이론 공연비로 하는 데에 필요한 분사량에 대한 실제의 분사량의 부족량을 나타낸다. 상기 PM 량 출력 사상 데이터 (96c) 는, 회전 속도 (NE), 충전 효율 (η), 점화 시기 (aig), 분사량 증량값 (Qfi), 흡기온 (Ta) 및 수온 (THW) 을 입력으로 하고, PM 량 (Qpm) 을 출력하는 뉴럴 네트워크 등의 학습이 끝난 모델에 관한 데이터이다. 따라서, PM 량 출력 처리 (M10) 는, 회전 속도 (NE), 충전 효율 (η), 점화 시기 (aig), 분사량 증량값 (Qfi), 흡기온 (Ta) 및 수온 (THW) 을 학습이 끝난 모델에 대한 입력으로서 PM 량 (Qpm) 을 산출하는 처리이다. 또한, 상기 PM 량 출력 사상 데이터 (96c) 는, 예를 들어 도 5 의 처리를 실행할 때, S60 의 처리에 의해 취득되는 PM 량 (Qpm) 을 교사 데이터로서 학습된 것으로 하면 된다.
한편, 토크 출력 처리 (M12) 는, 회전 속도 (NE), 충전 효율 (η), 점화 시기 (aig), 요구 분사량 (Qf), 및 흡기 위상차 (DIN) 를 입력으로 하고, 기관 토크 (Trqeg) 를 산출하는 처리이다. 상기 토크 출력 사상 데이터 (96d) 는, 회전 속도 (NE), 충전 효율 (η), 점화 시기 (aig), 요구 분사량 (Qf), 및 흡기 위상차 (DIN) 를 입력으로 하고, 기관 토크 (Trqeg) 를 출력하는 뉴럴 네트워크 등의 학습이 끝난 모델에 관한 데이터이다. 따라서, 토크 출력 처리 (M12) 는, 회전 속도 (NE), 충전 효율 (η), 점화 시기 (aig), 요구 분사량 (Qf), 및 흡기 위상차 (DIN) 를 학습이 끝난 모델에 대한 입력으로서 기관 토크 (Trqeg) 를 산출하는 처리이다. 또한, 상기 토크 출력 사상 데이터 (96d) 는, 예를 들어 도 5 의 처리를 실행할 때, S60 의 처리에 의해 취득되는 기관 토크 (Trqeg) 를 교사 데이터로서 학습된 것으로 하면 된다.
도 10 에, 본 실시형태에 있어서의 제어 장치 (90) 에 의한 내연 기관 (10) 의 조작부의 조작에 관한 처리의 순서를 나타낸다. 도 10 에 나타내는 처리는, ROM (94) 에 기억된 제어 프로그램 (94b) 및 학습 프로그램 (94a) 을, CPU (92) 가 예를 들어 내연 기관 (10) 의 기동 요구가 발생하는 것을 조건으로 실행함으로써 실현된다. 또한, 도 10 에 있어서, 도 4 에 나타낸 처리에 대응하는 처리에 대해서는, 편의상, 동일한 스텝 번호를 붙이고 있다.
도 10 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저 도 4 에 나타낸 S42 ∼ S48 의 처리와 동일한 처리를 실행한 후, 보수 (rt) 를 산출한다 (S50a). 도 11 에, S50a 의 처리의 상세한 내용을 나타낸다. 또한, 도 11 에 있어서, 도 5 에 나타낸 처리에 대응하는 처리에 대해서는, 편의상 동일한 스텝 번호를 부여한다.
도 11 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저, 보수 (rt) 의 산출에 필요한 변수의 값을 취득한다 (S60a). 상세하게는, CPU (92) 는, 하류측 검출값 (Afd), PM 량 (Qpm), 요구 분사량 (Qf) 의 시계열 데이터, 전후 가속도 (Gx) 의 시계열 데이터, 음압 (SP), 기관 토크 (Trqeg) (기관 출력 (Peg)) 및 기관 토크 요구값 (Trqeg*) (기관 출력 요구값 (Peg*)) 을 취득한다. 또한, 기관 출력 (Peg) 은, 기관 토크 (Trqeg) 에 회전 속도 (NE) 를 곱셈하여 구할 수 있다.
다음으로 CPU (92) 는, 상기 조건 (2) 및 조건 (5) 의 논리곱이 참인지 여부를 판정한다 (S62a). 그리고 CPU (92) 는, 논리곱이 참이라고 판정하는 경우 (S62a : 예), S64 의 처리로 이행하는 한편, 논리곱이 거짓이라고 판정하는 경우 (S62a : 아니오), S66 의 처리로 이행한다. 또한, CPU (92) 는, S64, S66 의 처리를 완료하는 경우, S68 ∼ S82 의 처리를 실행하여, 도 10 의 S50a 의 처리를 완료한다.
도 10 으로 되돌아와, CPU (92) 는, S50a 의 처리를 완료하는 경우, S52 ∼ S54, S58 의 처리를 실행하고, S44 의 처리로 되돌아간다. 덧붙여서, S42 ∼ S48 의 처리는, 제어 프로그램 (94b) 에 규정되어 있는 실행 지령의 실행에 의해 실현되고, S50a, S52 ∼ S54, S58 의 처리는, 학습 프로그램 (94a) 에 규정되어 있는 실행 지령의 실행에 의해 실현된다.
또한, 도 10 의 처리에 있어서의 방책 (π) 은, 도 3 의 처리에 있어서의 방책 (π) 과 비교하여, 그리디 행동의 선택 확률이 높은 것으로 해도 된다. 이상 설명한 본 실시형태에 의하면, 제어 장치 (90) 에 있어서도 내연 기관 (10) 의 조작부의 조작량에 관한 행동 가치 함수 (Q) 를 갱신하기 때문에, 갱신하지 않는 경우와 비교하여, 학습 빈도를 높일 수 있다.
제 3 실시형태
이하, 제 3 실시형태에 대해서, 제 2 실시형태와의 상이점을 중심으로 도면을 참조하면서 설명한다.
본 실시형태에서는, 행동 가치 함수를 사용하지 않고, 방책 (π) 을 직접 갱신 대상으로 한다. 상세하게는, 본 실시형태에서는, 방책 (π) 을, 행동을 정하는 각 조작량이 취할 수 있는 확률을 정하는 다변량 가우스 분포로 한다. 여기서, 다변량 가우스 분포의 평균값 μ(1) 은, 스로틀 개구도 지령값 (Tor*) 의 평균값을 나타내고, 평균값 μ(2) 는, 요구 분사량 (Qf) 의 평균값을 나타내고, 평균값 μ(3) 은, 흡기 위상차 지령값 (DIN*) 의 평균값을 나타내고, 평균값 μ(4) 는, 점화 시기 (aig) 의 평균값을 나타내고, 평균값 μ(5) 는, 분사 분배율 (Kp) 의 평균값을 나타낸다. 또, 평균값 μ(6) 은, WGV 개구도 지령값 (Wgvor) 의 평균값을 나타내고, 평균값 μ(7) 은, 연료압 지령값 (Pf*) 의 평균값을 나타내고, 평균값 μ(8) 은, EGR 개구도 지령값 (Egrvor) 의 평균값을 나타내고, 평균값 μ(9) 는, 퍼지 조작량 (Pg) 의 평균값을 나타낸다. 또, 본 실시형태에서는, 다변량 가우스 분포의 공분산 행렬을 대각 행렬로 하고, 각 평균값 (μ(i)) 에 대응하는 분산 (σ(i)) 이 각 다른 값이 될 수 있는 것으로 한다.
도 12 에, 본 실시형태에 관련된 내연 기관 (10) 의 조작부의 조작에 관한 처리의 순서를 나타낸다. 도 12 에 나타내는 처리는, ROM (94) 에 기억된 제어 프로그램 (94b) 을 CPU (92) 가 예를 들어 소정 주기로 반복 실행함으로써 실현된다. 또한, 도 12 에 있어서, 도 4 에 나타낸 처리에 대응하는 처리에 대해서는, 편의상 동일한 스텝 번호를 붙이고 있다.
도 12 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저, 도 4 의 처리와 마찬가지로, S42 로 처리를 실행한다. 또한, 도 12 에 있어서는, 상태를 「s」 라고 기재하고 있고, 도 4 에 있어서의 「st」 와는 상이하기는 하지만, 이것은 표기상의 문제에 불과하다.
다음으로 CPU (92) 는, 방책 (π) 을 설정하기 위한 함수 근사기의 입력 변수 x(1) ∼ x(10) 에 S42 의 처리에 의해 취득한 상태 (s) 를 대입한다 (S140). 상세하게는, CPU (92) 는, 입력 변수 x(1) 에 회전 속도 (NE) 를 대입하고, 입력 변수 x(2) 에 충전 효율 (η) 을 대입하고, 입력 변수 x(3) 에 과급압 (Pa) 을 대입하고, 입력 변수 x(4) 에 흡기온 (Ta) 을 대입하고, 입력 변수 x(5) 에 수온 (THW) 을 대입한다. 또 CPU (92) 는, 입력 변수 x(6) 에 유온 (Toil) 을 대입하고, 입력 변수 x(7) 에 하류측 검출값 (Afd) 을 대입하고, 입력 변수 x(8) 에 상류측 검출값 (Afu) 을 대입하고, 입력 변수 x(9) 에 액셀 조작량 (ACCP) 을 대입하고, 입력 변수 x(10) 에 차속 (SPD) 을 대입한다.
다음으로, CPU (92) 는, 「i = 1 ∼ 9」 의 각각에 대해, 평균값 (μ(i)) 및 분산 (σ(i)) 을 산출한다 (S142). 본 실시형태에서는, 평균값 (μ(i)) 을, 중간층의 층수가 「p-1」 개이고, 또한, 각 중간층의 활성화 함수 (h1 ∼ hp-1) 가 하이퍼볼릭 탄젠트이며, 출력의 활성화 함수 (hp) 가 ReLU 인 뉴럴 네트워크에 의해 구성되어 있다. 여기서, ReLU 는, 입력과 「0」 중 작지 않은 쪽을 출력하는 함수이다. 또, m = 1, 2, …, p-1 로 하면, 제 m 의 중간층의 각 노드의 값은, 계수 (w(m)) 에 의해 규정되는 선형 사상의 출력을 활성화 함수 (hm) 에 입력함으로써 생성된다. 여기서, n1, n2, …, np-1 은, 각각, 제 1, 제 2, …, 제 p-1 중간층의 노드수이다. 예를 들어, 제 1 중간층의 각 노드의 값은, 계수 w(1)ji (j = 0 ∼ n1, i = 0 ∼ 10) 에 의해 규정되는 선형 사상에 상기 입력 변수 x(1) ∼ x(10) 을 입력했을 때의 출력을 활성화 함수 (h1) 에 입력함으로써 생성된다. 덧붙여서, wm(1)j0 등은, 바이어스 파라미터이며, 입력 변수 x(0) 은, 「1」 로 정의하고 있다.
상기 뉴럴 네트워크는, 활성화 함수 (hp) 의 출력을 계수 w(p)iq (i = 1 ∼ 9, q = 0 ∼ np-1) 에 의해 규정되는 선형 사상에 입력했을 때의 출력을 평균값 (μ(i)) 으로 한다.
또, 본 실시형태에서는, 분산 (σ(i)) 을, 계수 wTik (i = 1 ∼ 9, k = 1 ∼ 10) 에 의해 규정되는 선형 사상에 의해 입력 변수 x(1) ∼ x(10) 을 선형 변환한 값의 각각을 함수 (f) 에 입력했을 때의 함수 (f) 의 값으로 한다. 본 실시형태에서는, 함수 (f) 로서 ReLU 를 예시한다.
다음으로 CPU (92) 는, S142 의 처리에 의해 산출된 평균값 (μ(i)) 및 분산 (σ(i)) 으로 정의되는 방책 (π) 에 기초하여, 행동 (a*) 을 결정한다 (S144). 여기서는, 평균값 (μ(i)) 을 선택하는 확률이 가장 높고, 또한, 평균값 (μ(i)) 을 선택하는 확률은, 분산 (σ(i)) 이 작은 경우에 큰 경우보다 커진다.
다음으로, CPU (92) 는, S144 의 처리에 있어서 선택한 행동 (a*) 에 기초하여, 내연 기관 (10) 의 조작부를 조작하고 (S146), 도 12 에 나타내는 일련의 처리를 일단 종료한다. 도 13 에, 제어 장치 (90) 에 의한 방책 (π) 의 갱신 처리의 순서를 나타낸다. 도 13 에 나타내는 처리는, ROM (94) 에 기억된 학습 프로그램 (94a) 을 CPU (92) 가 예를 들어 소정 주기로 반복 실행함으로써 실현된다.
도 13 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저, S50a 의 처리에 의해 보수 (r) 를 산출한다. 다음으로 CPU (92) 는, 수익 (R) 에 보수 (r) 를 가산한다 (S152). 그리고, CPU (92) 는, 변수 (t) 가 소정 시간 (T-1) 에 이르렀는지 여부를 판정한다 (S154). CPU (92) 는, 소정 시간 (T-1) 에 이르지 않았다고 판정하는 경우 (S154 : 아니오), 변수 (t) 를 인크리먼트한다 (S156).
이에 대해 CPU (92) 는, 소정 시간 (T-1) 에 이르렀다고 판정하는 경우 (S154 : 예), 수익 (Ri) 에 수익 (R) 을 대입한 후, 수익 (R) 을 초기화하고, 또한, 변수 (t) 를 초기화한다 (S158). 다음으로 CPU (92) 는, 변수 (i) 가 소정값 (N) 에 이르렀는지 여부를 판정한다 (S160). 그리고, CPU (92) 는, 소정값 (N) 에 이르지 않았다고 판정하는 경우 (S160 : 아니오), 변수 (i) 를 인크리먼트한다 (S162).
이에 대해, CPU (92) 는, 소정값 (N) 에 이르렀다고 판정하는 경우 (S160 : 예), 방책 구배법에 의해, 방책 (π) 을 규정하는 변수 (w(1) ∼ w(p)) 나 계수 (wT) 를 갱신한다 (S164). 도 13 에는, 방책 (π) 을 규정하는 변수 (w(1) ∼ w(p)) 나 계수 (wT) 를 총괄하여 파라미터 (θ) 라고 기재하고 있다.
여기서, 변수 (t) 가 0 ∼ T-1 이 될 때까지에 있어서의, 상태 (s), 행동 (a) 및 보수 (r) 의, T 개의 세트를, 트래젝터리 (ht) 로 하고, 확률 (pθ(ht)) 을, 파라미터 (θ) 에 의해 규정되는 방책 (π) 에 따라서 트래젝터리 (ht) 가 되는 확률 (pθ(ht)) 로 한다. 여기서는, 「pθ(ht)·Rt」 의 트래젝터리 (ht) 에 의한 적분값은, 수익 (R(ht)) 의 기대값 (기대 수익 (J)) 이고, 이것을 최대화하도록, 파라미터 (θ) 를 갱신한다. 이것은, 파라미터 (θ) 의 각 성분의 갱신량을, 동 성분에 의해 상기 기대 수익 (J) 을 편미분한 값에 비례한 양으로 함으로써 실현할 수 있다.
여기서, 확률 (pθ(ht)) 은, 상태 (s0, s1, … sT), 행동 (a0, a1, … aT) 을 사용하면, pθ(ht) = p(s0) · p(s1 | s0, a0) · π(a0 | s0) · p(s2 | s1, a1) · π(a1 | s1) … p(sT | sT-1, aT-1) · π(aT-1 | sT-1) 이 된다. 단, 초기 확률 (p(s0)) 은, 상태 (s0) 가 되는 확률이며, 천이 확률 (p(st+1|st, at)) 은, 상태 (st), 행동 (at) 일 때에 상태 (st) 로부터 상태 (st+1) 로 천이하는 확률이다.
따라서, 기대 수익 (J) 의 편미분은, 하기의 식 (c1) 이 된다.
Figure pat00001
여기서, 확률 (pθ(ht)) 에 대해서는 알 수 없기 때문에, 상기의 식 (c1) 에 있어서의 적분을, 복수 (여기서는, 소정값 N 개) 의 트래젝터리 (ht) 에 의한 평균값으로 치환한다.
이에 따라, 기대 수익 (J) 의 파라미터 (θ) 의 각 성분에 의한 편미분 계수는, 방책 (π(at|ht(i))) 의 대수 (對數) 의 파라미터 (θ) 의 해당하는 성분에 의한 편미분 계수의 「t = 0 ∼ T-1」 에 있어서의 합과 수익 (Ri) 의 곱을, 소정값 N 개의 수익 (Ri) 에 대해 가산하고, 소정값 (N) 으로 나눗셈한 값이 된다.
CPU (92) 는, 파라미터 (θ) 의 각 성분에 의한 기대 수익 (J) 의 편미분 계수에 학습율 (α) 을 곱셈한 값을, 파라미터 (θ) 중 해당하는 성분의 갱신량으로 한다. 또한, S152 ∼ S164 의 처리는, ROM (94) 에 기억된 학습 프로그램 (94a) 중, 상태 (s0, s1, …), 행동 (a0, a1, …) 및 보수 (r) 를 입력으로 하고, 갱신된 파라미터 (θ) 를 출력하는 갱신 사상의 실행 지령이 실행됨으로써 실현된다.
CPU (92) 는, S164 의 처리가 완료하는 경우, 변수 (i) 및 수익 (R1 ∼ RN) 을 초기화한다 (S166). 또한, CPU (92) 는, S156, S162, S166 의 처리가 완료하는 경우, 도 13 에 나타내는 일련의 처리를 일단 종료한다.
덧붙여서, 강화 학습을 최초로 실행할 때에, 평균값 (μ(i)) 의 초기값은, 예를 들어, 다음과 같이 하여 설정하면 된다. 즉, 내연 기관 (10) 과 동일한 배기량 및 동일한 조작부를 구비하는 내연 기관으로서, 이미 제어 사양이 결정되어 있는 내연 기관을 가동시켰을 때의 상태 (s) 및 행동 (a) 을 훈련 데이터로 하고, 평균값 (μ(i)) 과 훈련 데이터의 차의 절대값을 저감하도록, 평균값 (μ(i)) 에 관한 파라미터 (θ) 를 학습하면 된다. 또, 분산 (σ(i)) 에 대해서는, 예를 들어, 평균값 (μ(i)) 에 대하여 플러스마이너스 10 퍼센트 정도 벗어난 값에 의한 탐색이 충분히 이루어지도록 설정하면 된다.
이와 같이, 본 실시형태에서는, 함수 근사기를 사용함으로써, 상태나 행동이 연속 변수이더라도, 이것을 용이하게 취급할 수 있다.
제 4 실시형태
이하, 제 4 실시형태에 대해서, 제 3 실시형태와의 상이점을 중심으로 도면을 참조하면서 설명한다. 상기 제 3 실시형태에서는, 차량 (VC1) 으로서, 내연 기관 (10) 만을 차량 (VC1) 의 추력 생성 장치로 하는 것을 예시했지만, 본 실시형태에서는, 추력 생성 장치로서, 내연 기관 (10) 에 더하여 모터 제너레이터를 구비하는 시리즈·패러렐 하이브리드 차를 예시한다.
도 14 에, 본 실시형태에 관련된 제어 장치 및 구동계를 나타낸다. 또한, 도 14 에 있어서, 도 8 에 나타낸 부재에 대응하는 부재에 대해서는, 편의상, 동일한 부호를 붙이고 있다. 도시되는 바와 같이, 크랭크축 (32) 은, 동력 분할 기구로서의 유성 기어 기구 (160) 의 캐리어 (도 중, 「C」 라고 기재) 에 기계적으로 연결되어 있다. 유성 기어 기구 (160) 의 선 기어 (도 중, 「S」 라고 기재) 에는, 제 1 모터 제너레이터 (162) 의 회전축이 기계적으로 연결되어 있고, 유성 기어 기구 (160) 의 링 기어 (도 중, 「R」 이라고 기재) 에는, 제 2 모터 제너레이터 (166) 의 회전축이 기계적으로 연결되어 있다. 제 1 모터 제너레이터 (162) 의 단자에는, 배터리 (170) 의 직류 전압이 인버터 (164) 에 의해 교류 전압으로 변환되어 인가된다. 제 2 모터 제너레이터 (166) 의 단자에는, 배터리 (170) 의 직류 전압이 인버터 (168) 에 의해 교류 전압으로 변환되어 인가된다.
제어 장치 (90) 는, 제 1 모터 제너레이터 (162) 나 제 2 모터 제너레이터 (166) 를 제어 대상으로 하고, 그 제어량 (토크 등) 을 제어하기 위해서, 인버터 (164, 168) 를 조작한다. 제어 장치 (90) 는, 제어량을 제어할 때, 전류 센서 (180) 에 의해 검출되는 배터리 (170) 의 충방전 전류 (I) 나, 전압 센서 (182) 에 의해 검출되는 배터리 (170) 의 단자 전압 (Vb), 온도 센서 (184) 에 의해 검출되는 배터리 온도 (Tbatt) 를 참조한다. 또, 제어 장치 (90) 는, 제 1 속도 센서 (186) 에 의해 검출되는 제 1 모터 제너레이터 (162) 의 회전축의 회전 속도 (제 1 MG 속도 (ωmg1)) 나, 제 2 속도 센서 (188) 에 의해 검출되는 제 2 모터 제너레이터 (166) 의 회전축의 회전 속도 (제 2 MG 속도 (ωmg2)) 를 참조한다.
도 15 에, 제어 장치 (90) 에 의한 내연 기관 (10) 의 조작부나, 인버터 (164, 168) 의 조작에 관한 처리의 순서를 나타낸다. 도 15 에 나타내는 처리는, ROM (94) 에 기억된 제어 프로그램 (94b) 을 CPU (92) 가 예를 들어 소정 주기로 반복 실행함으로써 실현된다. 또한, 도 15 에 있어서, 도 12 에 나타낸 처리에 대응하는 처리에 대해서는, 편의상 동일한 스텝 번호를 부여하고 있다.
도 15 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저 상태 (s) 를 취득한다 (S42a). 여기서는, S42 의 처리에 있어서 취득한 변수의 값에 더하여, 배터리 (170) 의 충전율 (SOC) 이나, 배터리 온도 (Tbatt), 제 1 MG 속도 (ωmg1), 제 2 MG 속도 (ωmg2) 를 취득한다. 또한, 충전율 (SOC) 은, CPU (92) 에 의해, 충방전 전류 (I) 가 작을 때의 단자 전압 (Vb) 에 따라, 개방단 전압과 충전율 (SOC) 의 관계에 기초하여 산출되고, 또, 그때마다의 충방전 전류 (I) 에 따라 갱신된다.
다음으로 CPU (92) 는, 평균값 (μ(i)) 및 분산 (σ(i)) 을 정하기 위한 함수 근사기의 입력 변수 (x) 에, S42a 에 의해 취득한 값을 대입한다 (S140a). 여기서, 입력 변수 x(1) ∼ x(10) 에 대해서는, S140 의 처리에 있어서 대입한 것과 동일하다. 이에 대해, CPU (92) 는, 입력 변수 x(11) 에 충전율 (SOC) 을 대입하고, 입력 변수 x(12) 에 배터리 온도 (Tbatt) 를 대입하고, 입력 변수 x(13) 에 제 1 MG 속도 (ωmg1) 를 대입하고, 입력 변수 x(14) 에, 제 2 MG 속도 (ωmg2) 를 대입한다.
그리고, CPU (92) 는, 함수 근사기에 입력 변수 x(1) ∼ x(14) 를 대입함으로써, 평균값 μ(1) ∼ μ(11) 및 분산 σ(1) ∼ σ(11) 을 산출한다 (S142a). 여기서, 평균값 μ(10) 은, 제 1 모터 제너레이터 (162) 의 토크인 제 1 MG 토크 (Tmg1) 의 평균값이고, 평균값 μ(11) 은, 제 2 모터 제너레이터 (166) 의 토크인 제 2 MG 토크 (Tmg2) 의 평균값이다. 본 실시형태에 관련된 함수 근사기는, 입력 변수 (x) 의 차원수가 S142 의 처리에 있어서 사용한 것과는 상이한 것을 제외하고, S142 의 처리에서 사용한 것과 동일하다.
다음으로 CPU (92) 는, 방책 (π) 에 기초하여, 내연 기관 (10) 의 조작부의 9 개의 조작량과, 제 1 MG 토크 (Tmg1), 제 2 MG 토크 (Tmg2) 로 이루어지는 행동 (a*) 을 결정한다 (S144a). 그리고, CPU (92) 는, 행동 (a*) 에 기초하여, 내연 기관 (10) 의 조작부나, 인버터 (164, 168) 를 조작한다 (S146). 여기서, CPU (92) 는, 제 1 모터 제너레이터 (162) 의 토크가 제 1 MG 토크 (Tmg1) 가 되도록 인버터 (164) 를 조작하고, 제 2 모터 제너레이터 (166) 의 토크가 제 2 MG 토크 (Tmg2) 가 되도록 인버터 (168) 를 조작한다. 또한, CPU (92) 는, S146 의 처리가 완료하는 경우, 도 15 에 나타내는 일련의 처리를 일단 종료한다.
CPU (92) 는, 도 13 의 처리와 동일한 처리에 의해, 파라미터 (θ) 를 갱신한다. 단, CPU (92) 는, 보수 (r) 의 산출 처리로서, S50a 의 처리 대신에, 도 16 에 나타내는 처리를 실행한다.
도 16 에, 본 실시형태에 관련된 보수 (r) 의 산출 처리의 상세한 내용을 나타낸다. 또한, 도 16 에 있어서, 도 11 에 나타낸 처리에 대응하는 처리에 대해서는, 편의상, 동일한 스텝 번호를 붙이고 있다.
도 16 에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저, 보수 (r) 의 산출에 사용하는 변수의 값을 취득한다 (S60b). 여기서, CPU (92) 는, S60a 의 처리에 의해 취득한 변수의 값 중 기관 토크 요구값 (Trqeg*) (기관 출력 요구값 (Peg*)) 이외의 것에 더하여, 또한, 차량 (VC1) 의 출력 요구값 (Ptot*) (구동 토크 요구값 (Trq*)) 이나, 출력 (Ptot) (구동 토크 (Trq)), 충전율 (SOC), 배터리 온도 (Tbatt) 를 취득한다. 여기서, 출력 (Ptot) 은, 내연 기관 (10) 의 출력과, 제 1 모터 제너레이터 (162) 의 출력과, 제 2 모터 제너레이터 (166) 의 출력의 합이다. 단, 유성 기어 기구 (160) 의 성질로부터, 그들 3 개의 출력이 모두 제로는 아닌 경우에는, 그들 3 개의 출력에는, 서로 상이한 부호를 갖는 것이 포함된다. 또, 예를 들어, 제 1 모터 제너레이터 (162) 의 출력은, 제 1 MG 토크 (Tmg1) 에 제 1 MG 속도 (ωmg1) 를 곱셈함으로써 산출할 수 있다. 한편, 구동 토크 (Trq) 는, 기관 토크 (Trqeg) 나, 제 1 MG 토크 (Tmg1), 제 2 MG 토크 (Tmg2) 를, 각각 구동륜 (88) 의 토크로 환산함으로써 산출할 수 있다.
그리고 CPU (92) 는, S62a, S64 ∼ S76 의 처리를 실행하고, 그 후, 차량 (VC1) 의 출력 (Ptot) 과 출력 요구값 (Ptot*) 의 차의 절대값이 소정량 (ΔPtot) 이하인지 여부를 판정한다 (S78a). 또한, S60b 의 처리에 있어서, 구동 토크 (Trq) 및 구동 토크 요구값 (Trq*) 을 취득하는 경우에는, S78a 의 처리로서, 구동 토크 (Trq) 와 구동 토크 요구값 (Trq*) 의 차의 절대값이 소정량 (ΔTrq) 이하인지 여부를 판정하면 된다.
CPU (92) 는, S78a 의 처리에 있어서 긍정 판정하는 경우, S80 의 처리로 이행하는 한편, S78a 의 처리에 있어서 부정 판정하는 경우, S82 의 처리로 이행한다. CPU (92) 는, S80, S82 의 처리가 완료하는 경우, 충전율 (SOC) 이 하한값 (SOCL) 이상이고 또한 상한값 (SOCH) 이하인지 여부를 판정한다 (S170). 그리고, CPU (92) 는, 충전율 (SOC) 이 하한값 (SOCL) 미만인지, 상한값 (SOCH) 을 상회하는지 하는 경우 (S172 : 아니오), 마이너스의 보수를 주기 위해서, 보수 (r) 로부터 소정량 (Δ) 을 감산한다 (S172). 여기서, CPU (92) 는, 충전율 (SOC) 이 하한값 (SOCL) 을 하회하는 양이 큰 경우에 작은 경우보다 소정량 (Δ) 을 큰 값으로 한다. 또, CPU (92) 는, 충전율 (SOC) 이 상한값 (SOCH) 을 상회하는 양이 큰 경우에 작은 경우보다 소정량 (Δ) 을 큰 값으로 한다.
CPU (92) 는, S170 의 처리에 있어서 긍정 판정하는 경우나, S172 의 처리를 완료하는 경우에는, 배터리 온도 (Tbatt) 가 상한 온도 (TbattH) 이하인지 여부를 판정한다 (S174). 그리고 CPU (92) 는, 상한값 (TbattH) 을 초과한다고 판정하는 경우 (S174 : 아니오), 보수 (r) 에 「-10」 을 더한다 (S176).
또한, CPU (92) 는, S174 의 처리에 있어서 긍정 판정하는 경우나, S176 의 처리가 완료하는 경우에는, 도 16 에 나타내는 일련의 처리를 일단 종료한다.
제 5 실시형태
이하, 제 5 실시형태에 대해서, 제 4 실시형태와의 상이점을 중심으로 도면을 참조하면서 설명한다. 본 실시형태에서는, 파라미터 (θ) 의 갱신을, 차량 (VC1) 의 밖에서 실행한다. 도 17 에, 본 실시형태에 있어서, 강화 학습을 실행하는 제어 시스템의 구성을 나타낸다. 또한, 도 17 에 있어서, 도 14 에 나타낸 부재에 대응하는 부재에 대해서는, 편의상, 동일한 부호를 붙이고 있다.
도 17 에 나타내는 차량 (VC1) 내의 제어 장치 (90) 에 있어서의 ROM (94) 은, 제어 프로그램 (94b) 을 기억하고 있기는 하지만, 학습 프로그램 (94a) 을 기억하고 있지 않다. 또, 기억 장치 (96) 는, 관계 규정 데이터 (96a) 를 기억하고 있기는 하지만, PM 량 출력 사상 데이터 (96c) 나, 토크 출력 사상 데이터 (96d) 에 대해서는 기억하고 있지 않다. 또, 제어 장치 (90) 는, 통신기 (97) 를 구비하고 있다. 통신기 (97) 는 차량 (VC1) 의 외부의 네트워크 (190) 를 통해서 데이터 해석 센터 (200) 와 통신하기 위한 기기이다.
데이터 해석 센터 (200) 는, 복수의 차량 (VC1, VC2, …) 으로부터 송신되는 데이터를 해석한다. 데이터 해석 센터 (200) 는, CPU (202), ROM (204), 기억 장치 (206), 주변 회로 (208) 및 통신기 (207) 를 구비하고 있고, 그것들이 로컬 네트워크 (209) 에 의해 통신 가능하다고 여겨지는 것이다. ROM (204) 에는, 학습 프로그램 (94a) 이 기억되어 있고, 기억 장치 (206) 에는, PM 량 출력 사상 데이터 (96c) 나, 토크 출력 사상 데이터 (96d) 가 기억되어 있다.
도 18 에, 본 실시형태에 관련된 강화 학습의 처리 순서를 나타낸다. 도 18 의 좌측의 플로 차트에 나타내는 처리는, 도 17 에 나타내는 ROM (94) 에 기억된 제어 프로그램 (94b) 을 CPU (92) 가 실행함으로써 실현된다. 또, 도 18 의 우측의 플로 차트에 나타내는 처리는, ROM (204) 에 기억되어 있는 학습 프로그램 (94a) 을 CPU (202) 가 실행함으로써 실현된다. 또한, 도 18 에 있어서 도 13 및 도 15 에 나타낸 처리에 대응하는 처리에 대해서는, 편의상 동일한 스텝 번호를 붙이고 있다. 이하에서는, 강화 학습의 시계열을 따라, 도 18 에 나타내는 처리를 설명한다.
도 18 의 좌측의 플로 차트에 나타내는 일련의 처리에 있어서, CPU (92) 는, 먼저, 상태를 취득한다 (S42b). 여기서, 본 실시형태에서는, S42a 의 처리에 의해 취득한 변수의 값과 동일한 변수의 값을 취득하기는 하지만, 회전 속도 (NE) 및 충전 효율 (η) 에 대해서는, 시계열 데이터를 취득한다. 즉, 회전 속도 (NE) 의 시계열 데이터로서, 「NE(1), NE(2), …, NE(6)」 의 6 개의 샘플링값으로 이루어지는 시계열 데이터를 취득하고, 충전 효율 (η) 의 시계열 데이터로서, 「η(1), η(2), …, η(6)」 의 6 개의 샘플링값으로 이루어지는 시계열 데이터를 취득한다.
다음으로, CPU (92) 는, S42b 의 처리에 의해 취득한 변수의 값을, 함수 근사기의 입력 변수 (x) 에 대입한다 (S140b). 즉, CPU (92) 는, 「m = 1 ∼ 6」 으로서, 입력 변수 x(m) 에 회전 속도 (NE(m)) 를 대입하고, 입력 변수 x(6+m) 에 충전 효율 (η(m)) 을 대입한다. 또, CPU (92) 는, 입력 변수 x(13) 에 과급압 (Pa) 을 대입하고, 입력 변수 x(14) 에 흡기온 (Ta) 을 대입하고, 입력 변수 x(15) 에 수온 (THW) 을 대입한다. 또 CPU (92) 는, 입력 변수 x(16) 에 유온 (Toil) 을 대입하고, 입력 변수 x(17) 에 하류측 검출값 (Afd) 을 대입하고, 입력 변수 x(18) 에 상류측 검출값 (Afu) 을 대입하고, 입력 변수 x(19) 에 액셀 조작량 (ACCP) 을 대입하고, 입력 변수 x(20) 에 차속 (SPD) 을 대입한다. 또, CPU (92) 는, 입력 변수 x(21) 에 충전율 (SOC) 을 대입하고, 입력 변수 x(22) 에 배터리 온도 (Tbatt) 를 대입하고, 입력 변수 x(23) 에 제 1 MG 속도 (ωmg1) 를 대입하고, 입력 변수 x(24) 에 제 2 MG 속도 (ωmg2) 를 대입한다.
그리고, CPU (92) 는, 평균값 μ(1) ∼ μ(11) 및 분산 σ(1) ∼ σ(11) 을 표현하는 함수 근사기에, S140b 의 처리에 의해 취득한 입력 변수 x(1) ∼ x(24) 를 대입함으로써, 평균값 μ(1) ∼ μ(11) 및 분산 σ(1) ∼ σ(11) 을 산출한다 (S142b). 본 실시형태에 관련된 함수 근사기는, 입력 변수 (x) 의 차원수가 S142a 의 처리에 있어서 사용한 것과는 상이한 것을 제외하고, S142 의 처리에서 사용한 것과 동일하다.
다음으로 CPU (92) 는, 방책 (π) 에 기초하여 행동 (a*) 을 결정하고 (S144b), S146 의 처리를 실행하고, 통신기 (97) 를 조작하여, 데이터 해석 센터 (200) 에, 상태 (s), 행동 (a*), 및 보수 (r) 의 산출에 필요한 데이터를 송신한다 (S180a). 여기서, 보수 (r) 의 산출에 필요한 데이터에는, PM 량 (Qpm) 을 산출하기 위한 변수의 값으로서의 점화 시기 (aig) 의 시계열 데이터나, 요구 분사량 (Qf) 의 시계열 데이터, 기관 토크 (Trqeg) 를 산출하기 위한 변수의 값으로서의 흡기 위상차 (DIN) 가 포함된다. 또, 보수 (r) 의 산출에 필요한 데이터에는, 전후 가속도 (Gx) 의 시계열 데이터나, 음압 (SP) 이 포함된다. 또한, 도 9 에 나타낸 처리에 있어서의 입력 변수 중 그 밖의 것에 대해서는, 상태 (s) 의 값을 사용한다.
이에 대해, 도 18 의 우측의 플로 차트에 나타내는 바와 같이, CPU (202) 는, 송신된 데이터를 수신한다 (S190). 그리고, CPU (202) 는, 수신한 데이터에 기초하여 도 16 의 처리에 의해 보수를 산출하고 (S50b), S152 ∼ S166 의 처리를 실행한다. 다음으로, CPU (202) 는, 후술하는 S194 의 처리가 실행되고 나서의 S164 의 처리에 의한 갱신 횟수 또는 도 18 의 우측의 플로 차트의 처리가 최초로 이루어지고 나서의 S164 의 처리에 의한 갱신 횟수가 소정 횟수 이상인지 여부를 판정한다 (S192). 그리고 CPU (202) 는, 소정 횟수 이상이라고 판정하는 경우 (S192 : 예), 통신기 (207) 를 조작하여, 갱신한 파라미터 (θ) 를 송신한다 (S194). 또한, CPU (202) 는, S156, 162, S194 의 처리가 완료하는 경우나, S192 의 처리에 있어서 부정 판정하는 경우에는, 도 18 의 우측의 플로 차트의 처리를 일단 종료한다. 덧붙여서, 차량 (VC1, VC2, …) 등을 출하할 때에는, 차량 (VC1, VC2, …) 내의 기억 장치 (96) 가 기억하는 파라미터 (θ) 를, 기억 장치 (206) 에 기억해 둔다.
이에 대해, 도 18 의 좌측의 플로 차트에 나타내는 바와 같이, CPU (92) 는, 파라미터 (θ) 의 갱신 데이터가 있는지 여부를 판정하고 (S182), 있다고 판정하는 경우 (S182 : 예), 파라미터 (θ) 에 관한 갱신 데이터를 수신한다 (S184). 그리고 CPU (92) 는, 수신한 파라미터 (θ) 에 의해, 관계 규정 데이터 (96a) 를 갱신한다 (S186). 또한, CPU (92) 는, S186 의 처리가 완료하는 경우나, S182 의 처리에 있어서 부정 판정하는 경우에는, 도 18 의 좌측의 플로 차트에 나타내는 일련의 처리를 일단 종료한다.
이와 같이, 본 실시형태에 의하면, 파라미터 (θ) 의 갱신을 데이터 해석 센터 (200) 에서 실시함으로써, 제어 장치 (90) 의 연산 부하를 경감할 수 있다. 이상 설명한 본 실시형태에 의하면, 또한 이하에 기재하는 작용 효과가 얻어진다.
(4) 데이터 해석 센터 (200) 에 있어서, 복수의 차량 (VC1, VC2, …) 으로부터의 데이터에 기초하여 파라미터 (θ) 를 갱신하였다. 이에 따라, 파라미터 (θ) 의 갱신 빈도를 높일 수 있다.
(5) 방책 (π) 의 입력 변수 (x) 에, 내연 기관 (10) 의 동작점을 규정하는 변수인 동작점 변수로서의 회전 속도 (NE) 및 충전 효율 (η) 에 대한 시계열 데이터를 포함하였다. 관련 기술에서는, 내연 기관 (10) 의 상태와 내연 기관 (10) 의 조작부의 조작량의 관계를 적합할 때, 내연 기관 (10) 의 상태의 차원수가 많아질수록, 숙련자의 공수가 지수 함수적으로 증가하는 것에 감안하여, 내연 기관 (10) 의 상태는, 각종 상태량마다 단일의 샘플링값이 사용되고 있었다. 그러나, 이것은 적합 공수를 감안한 것에 지나지 않고, 연료 소비율이나, 배기 특성, 드라이버빌리티를 최적화하는 데에 적절한 설정이라고는 할 수 없다. 이에 반해, 본 실시형태에서는, 시계열 데이터를 사용함으로써, 조작부의 조작량의 설정에 관하여, 관련 기술에 의한 적합에 의해서는 얻어지지 않는 해 (解) 를 얻는 것이 가능해진다.
제 6 실시형태
이하, 제 6 실시형태에 대해서, 제 5 실시형태와의 상이점을 중심으로 도면을 참조하면서 설명한다.
본 실시형태에서는, 파라미터 (θ) 의 갱신을, 차량 (VC1) 의 외부에서 실행하는 것에 더하여, 행동 (a*) 을 차량 (VC1) 의 외부에서 구한다. 도 19 에, 본 실시형태에 있어서, 강화 학습을 실행하는 제어 시스템의 구성을 나타낸다. 또한, 도 19 에 있어서, 도 17 에 나타낸 부재에 대응하는 부재에 대해서는, 편의상, 동일한 부호를 붙이고 있다.
도 19 에 나타내는 바와 같이, 차량 (VC1) 에 있어서, ROM (94) 에는, 제어 서브 프로그램 (94c) 이 기억되어 있다. 또, 기억 장치 (96) 에는, 관계 규정 데이터 (96a) 는 기억되어 있지 않다. 한편, 데이터 해석 센터 (200) 의 ROM (204) 에는, 학습 프로그램 (94a) 에 더하여, 제어 메인 프로그램 (204a) 이 기억되어 있다. 또, 기억 장치 (206) 에는, 관계 규정 데이터 (96a) 가 기억되어 있다.
도 20 에, 본 실시형태에 관련된 강화 학습의 처리 순서를 나타낸다. 도 20 의 좌측의 플로 차트에 나타내는 처리는, 도 19 에 나타내는 ROM (94) 에 기억된 제어 서브 프로그램 (94c) 을 CPU (92) 가 실행함으로써 실현된다. 또, 도 20 의 우측의 플로 차트에 나타내는 처리는, ROM (204) 에 기억되어 있는 제어 메인 프로그램 (204a) 및 학습 프로그램 (94a) 을 CPU (202) 가 실행함으로써 실현된다. 또한, 도 20 에 있어서 도 18 에 나타낸 처리에 대응하는 처리에 대해서는, 편의상 동일한 스텝 번호를 붙이고 있다. 이하에서는, 강화 학습의 시계열을 따라, 도 20 에 나타내는 처리를 설명한다.
도 20 의 좌측의 플로 차트에 나타내는 일련의 처리에 있어서, CPU (92) 는, S42b 의 처리를 완료하면, 통신기 (97) 를 조작하여 S42b 의 처리에 의해 취득한 상태 (s) 를 송신한다 (S200).
이에 대해, 도 20 의 우측의 플로 차트에 나타내는 바와 같이, CPU (202) 는, 상태 (s) 를 수신한다 (S210). 그리고 CPU (202) 는, S140b, S142b, S144b 의 처리를 실행하고, 통신기 (207) 를 조작하여 S144b 의 처리에 의해 결정된 행동 (a*) 을 S210 의 처리에 의해 수신한 데이터의 송신원으로 송신한다 (S212).
이에 대해, 도 20 의 좌측의 플로 차트에 나타내는 바와 같이, CPU (92) 는, 행동 (a*) 을 수신한다 (S202). 그리고, CPU (92) 는, 수신한 행동 (a*) 에 기초하여 S146 의 처리를 실행한다. 그리고, CPU (92) 는, 통신기 (97) 를 조작하여 보수 (r) 의 산출에 필요한 데이터를 송신한다 (S180b). 또한, CPU (92) 는, S180b 의 처리를 완료하는 경우, 도 20 의 좌측의 플로 차트에 나타내는 일련의 처리를 일단 종료한다.
이에 반해, 도 20 의 우측의 플로 차트에 나타내는 바와 같이, CPU (202) 는, 송신된 데이터를 수신하고 (S214), S50b, S152 ∼ S166 의 처리를 실행하고, 도 20 의 우측의 플로 차트에 나타내는 일련의 처리를 일단 종료한다.
이와 같이, 본 실시형태에 의하면, 행동 (a*) 을 결정하는 처리를 데이터 해석 센터 (200) 에 있어서 실행함으로써, 차량 (VC1) 측의 연산 부하를 경감할 수 있다.
본 발명의 제 1 형태는, 차량용 제어 데이터의 생성 방법에 관한 것이다. 상기 차량용 제어 데이터의 생성 방법은, 기억 장치가, 내연 기관의 상태를 포함한 상기 내연 기관을 구비하는 차량의 상태와, 상기 내연 기관의 조작부의 조작량의 관계를 규정하는 데이터인 관계 규정 데이터를 기억하는 것 ; 실행 장치가, 상기 조작부를 조작하는 것, 상기 실행 장치가, 상기 차량의 상태를 검출하는 센서의 검출값을 취득하는 것, 상기 실행 장치가, 상기 검출값에 기초하여, 연료 소비율, 배기 특성, 및 드라이버빌리티의 적어도 1 개의 관점으로 이루어지는 보수를 산출하는 것 ; 및 상기 실행 장치가, 상기 검출값에 기초하는 상기 차량의 상태, 상기 조작부의 조작에 사용된 조작량, 및 그 조작에 대응하는 상기 보수를 인수로 하고, 상기 관계 규정 데이터에 따라서 상기 조작부가 조작되는 경우에 산출되는 상기 보수에 대한 기대 수익이 증가하도록 갱신된 상기 관계 규정 데이터를 반환하는, 미리 정해진 갱신 사상을 사용하여, 상기 관계 규정 데이터를 갱신하는 것을 포함한다. 실행 장치와 기억 장치는, 도 1, 도 8 및 도 14 의 경우, 각각, CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다. 또, 실행 장치와 기억 장치는, 도 3 의 경우, 각각, CPU (152) 및 ROM (154) 과 기억 장치 (156) 를 그 일례로서 들 수 있다. 또, 실행 장치와 기억 장치는, 도 17 및 도 19 의 경우, 각각, CPU (92, 202) 및 ROM (94, 204) 과 기억 장치 (96, 206) 를 그 일례로서 들 수 있다. 갱신 사상은, 도 1 의 학습 프로그램 (94a) 이나 도 3 의 학습 프로그램 (154a) 에 의해 규정되는 S52, S54 의 처리에서 사용되는 사상, 또는 S132 ∼ S136 의 처리에서 사용되는 사상을 그 일례로서 들 수 있다. 또, 갱신 사상은, 도 8 나 도 14 의 학습 프로그램 (94a) 에 의해 규정되는 S52, S54 의 처리에서 사용되는 사상이나, S132 ∼ S136 의 처리에서 사용되는 사상, S164 의 처리에서 사용되는 사상을 그 일례로서 들 수 있다. 또, 갱신 사상은, 도 17 이나 도 19 의 학습 프로그램 (94a) 에 의해 규정되는 S164 의 처리에 사용되는 사상을 그 일례로서 들 수 있다. 조작 처리는, S46 의 처리나, S116 의 처리, S146 의 처리를 그 일례로서 들 수 있다. 취득은, S42, S60 의 처리나, S112 의 처리, S42, S60a 의 처리, S42a, S60b 의 처리, S42b, S60b 의 처리를 그 일례로서 들 수 있다. 보수 산출은, S50 의 처리나, S120 ∼ S126 의 처리, S50a 의 처리, 도 16 의 처리를 그 일례로서 들 수 있다. 갱신은, S52, S54 의 처리나, S128 ∼ S136 의 처리, S164 의 처리를 그 일례로서 들 수 있다.
상기 제 1 형태에 있어서, 상기 보수는, 상기 배기 특성이 소정의 특성인 경우, 상기 배기 특성이 소정의 특성이 아닌 경우보다 커도 된다. 상기 소정의 특성은, 질소산화물의 배출량이 소정 범위 내에 있는 것, 미연 연료의 배출량이 소정 범위 내에 있는 것, 입자상 물질의 배출량이 소정 범위 내에 있는 것, 및 상기 내연 기관의 배기 통로에 형성된 촉매의 온도가 소정 범위 내에 있는 것 중의 적어도 1 개를 포함해도 된다. 상기 구성은, S62 ∼ S66 의 처리나, S62a, S64, S66 의 처리를 그 일례로서 들 수 있다.
상기 제 1 형태에 있어서, 상기 실행 장치는, 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 차량의 가속도가 제 1 소정 범위 내에 있는 경우, 상기 차량의 가속도가 상기 제 1 소정 범위 외인 경우보다 큰 것 ; 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 차량의 가가속도가 제 2 소정 범위 내에 있는 경우, 상기 가가속도가 상기 제 2 소정 범위 외인 경우보다 큰 것 ; 및, 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 내연 기관이 발생하는 소리의 크기가 제 3 소정 범위 내에 있는 경우, 상기 소리의 크기가 상기 제 3 소정 범위 외인 경우보다 큰 것 중의 적어도 1 개를 만족하도록, 상기 보수를 산출해도 된다. 상기 구성은, S72 ∼ S76 의 처리를 그 일례로서 들 수 있다.
상기 제 1 형태의 차량용 제어 데이터의 생성 방법은, 상기 실행 장치가, 갱신된 상기 관계 규정 데이터에 기초하여, 상기 차량의 상태와 상기 기대 수익을 최대화하는 상기 조작량을 1 대 1 로 대응지음으로써, 상기 차량의 상태를 인수로 하고 상기 기대 수익을 최대화하는 상기 조작량을 반환하는 제어용 사상 데이터를 생성하는 것을 추가로 포함해도 된다. 상기 구성은, 도 6 의 처리를 그 일례로서 들 수 있고, 특히, 실행 장치와 기억 장치는, 각각, CPU (152) 및 ROM (154) 과 기억 장치 (156) 를 그 일례로서 들 수 있다. 또한, 제어용 사상 데이터는, 맵 데이터 (96b) 를 그 일례로서 들 수 있다.
본 발명의 제 2 형태는, 차량용 제어 장치에 관한 것이다. 상기 차량용 제어 장치는, 상기 제 1 형태에 관련된 상기 기억 장치 및 상기 실행 장치를 구비한다. 상기 차량용 제어 장치에 있어서, 상기 실행 장치는, 상기 관계 규정 데이터와 상기 차량의 상태에 의해 정해지는 상기 조작량에 기초하여 상기 조작부를 조작하도록 구성되어 있다. 실행 장치와 기억 장치는, 각각, CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다.
상기 제 2 형태에 있어서, 상기 실행 장치는 상기 검출값으로서, 상기 내연 기관의 출력 및 토크의 2 개 중의 적어도 1 개의 요구값 및 산출값을 취득하고, 상기 요구값 및 상기 산출값의 차의 절대값이 소정값 이하인 경우, 상기 절대값이 상기 소정값보다 큰 경우보다 상기 보수가 커지도록 상기 보수를 산출하도록 구성되어도 된다. 취득은, S60a 의 처리를 그 일례로서 들 수 있고, 보수 산출은, S78 ∼ S82 의 처리를 그 일례로서 들 수 있다.
상기 제 2 형태에 있어서, 상기 차량은, 상기 내연 기관의 크랭크축의 회전 속도를 변속하여 출력하도록 구성되고, 또한, 변속비를 변경 가능하게 구성된 변속 장치를 구비해도 된다. 상기 관계 규정 데이터에 의해 규정되는 관계는, 상기 변속 장치의 상태와 상기 변속 장치의 조작량의 관계를 포함해도 된다. 상기 실행 장치는, 상기 변속 장치의 상태를 검출하도록 구성된 센서가 검출한 값을 상기 검출값으로서 취득하고, 상기 보수는, 상기 변속 장치에 의한 변속비의 전환에 필요로 하는 시간이 소정 시간 이내인 경우, 상기 시간이 상기 소정 시간을 초과하는 경우의 상기 보수보다 큰 것 ; 상기 보수는, 상기 변속 장치의 입력축의 회전 속도의 변화 속도의 절대값이 입력측 소정값 이하인 경우, 상기 입력축의 회전 속도의 변화 속도의 절대값이 상기 입력측 소정값을 초과하는 경우보다 큰 것 ; 상기 보수는, 상기 변속 장치의 출력축의 회전 속도의 변화 속도의 절대값이 출력측 소정값 이하인 경우, 상기 출력축의 회전 속도의 속도 변화의 절대값이 상기 출력측 소정값을 초과하는 경우의 상기 보수보다 큰 것 ; 및, 상기 보수는, 상기 변속 장치의 솔레노이드 밸브 (80a) 에 의해 조정되는 유압이 소정의 조건을 만족하는 경우, 상기 유압이 상기 소정의 조건을 만족하지 않는 경우보다 큰 것 중 적어도 1 개를 만족하도록 상기 보수를 산출하고, 상기 변속 장치의 상태에 관한 상기 검출값을 인수로 하는 상기 갱신 사상을 사용하여, 상기 관계 규정 데이터에 의해 규정된 상기 변속 장치의 상태와 상기 변속 장치의 조작량의 관계를 갱신하도록 구성되어도 된다. 관계 규정 데이터는, 도 1 및 도 8 의 관계 규정 데이터 (96a) 를 그 일례로서 들 수 있다. 변속 장치의 상태는, 입력 회전 속도 (ωin), 출력 회전 속도 (ωout), 유압 (Poila), 유압 (Poilb) 을 그 일례로서 들 수 있다. 조작량은, 솔레노이드 전류 지령값 (ia*, ib*) 을 그 일례로서 들 수 있다.
상기 제 2 형태에 있어서, 상기 차량은, 구동륜에 동력을 부여하도록 구성된 회전 전기를 구비해도 된다. 상기 관계 규정 데이터에 의해 규정되는 관계는, 상기 회전 전기에 전력을 공급하는 축전 장치의 상태와 상기 회전 전기의 제어량의 관계를 포함해도 된다. 상기 실행 장치는, 상기 회전 전기의 구동 회로를 조작하고, 상기 검출값으로서, 상기 축전 장치의 상태를 취득하고, 상기 보수가, 상기 축전 장치의 상태가 소정 범위 내에 있는 경우, 상기 축전 장치의 상태가 소정 범위 외가 되는 경우보다 커지도록, 상기 보수를 산출하고, 상기 축전 장치의 상태와, 상기 회전 전기의 제어량을 상기 갱신 사상의 인수로 함으로써, 상기 관계 규정 데이터에 의해 규정되는 상기 축전 장치의 상태와 상기 회전 전기의 제어량의 관계를 갱신하도록 구성되어도 된다. 축전 장치는, 배터리 (170) 를 그 일례로서 들 수 있고, 축전 장치의 상태는, 배터리 온도 (Tbatt) 및 충전율 (SOC) 을 그 일례로서 들 수 있다.
상기 제 2 형태에 있어서, 상기 실행 장치는 검출값으로서, 상기 차량의 출력 및 구동 토크의 2 개 중의 적어도 1 개의 요구값 및 산출값을 취득하고, 상기 보수가, 상기 차량의 출력 및 상기 구동 토크의 2 개 중 상기 적어도 1 개에 대한 상기 요구값 및 상기 산출값의 차의 절대값이 소정값 이하인 경우, 상기 절대값이 상기 소정값보다 큰 경우보다 커지도록, 상기 보수를 산출하도록 구성되어도 된다. 취득은, S60b 의 처리를 그 일례로서 들 수 있다. 보수 산출은, S78a, S80, S82 의 처리를 그 일례로서 들 수 있다.
상기 제 2 형태에 있어서, 상기 관계 규정 데이터는, 상기 차량의 상태와, 상기 기대 수익과, 상기 조작량의 관계를 규정하는 데이터를 포함해도 된다. 상기 실행 장치는 또한, 상기 검출값과 상기 관계 규정 데이터에 기초하여, 상기 기대 수익을 크게 하는 조작량을 작게 하는 조작량보다 우선하여 선택하도록 구성되어도 된다. 상기 실행 장치는, 선택된 상기 조작량에 기초하여 상기 조작부를 조작하도록 구성되어도 된다. 선택은, S44 의 처리를 그 일례로서 들 수 있다.
상기 제 2 형태에 있어서, 상기 관계 규정 데이터는, 상기 차량의 상태를 인수로 하고, 상기 조작량의 선택 확률을 반환하는 함수 근사기를 규정하는 데이터여도 된다. 상기 갱신 사상은, 상기 함수 근사기를 규정하는 파라미터의 갱신량을 반환하는 사상을 포함해도 된다. 함수 근사기는, 평균값 (μ(i)) 이나 분산 (σ(i)) 을 출력하는 함수 근사기를 그 일례로서 들 수 있다.
본 발명의 제 3 형태는, 차량용 제어 시스템에 관한 것이다. 상기 차량용 제어 시스템은, 상기 제 2 형태에 관련된 상기 실행 장치 및 상기 기억 장치를 구비한다. 상기 실행 장치는, 상기 차량에 탑재되는 제 1 실행 장치와, 차재 장치와는 다른 제 2 실행 장치를 포함하고, 상기 제 1 실행 장치는, 적어도 상기 취득하는 것과 상기 조작하는 것을 실행하고, 상기 제 2 실행 장치는, 적어도 상기 갱신하는 것을 실행한다. 제 1 실행 장치는, CPU (92) 및 ROM (94) 을 그 일례로서 들 수 있고, 제 2 실행 장치는, CPU (202) 및 ROM (204) 을 그 일례로서 들 수 있다.
상기 제 3 형태에 있어서, 상기 제 1 실행 장치는, 또한, 상기 검출값에 관한 데이터를 상기 제 2 실행 장치에 송신하는 것, 상기 제 2 실행 장치에 의해 송신된 상기 조작량을 수신하는 것, 상기 제 2 실행 장치로부터 수신한 상기 조작량에 기초하여 상기 조작부를 조작하는 것을 실행하도록 구성되어도 된다. 상기 제 2 실행 장치는, 또한, 상기 제 1 실행 장치에 의해 송신된 데이터를 수신하는 것, 상기 제 1 실행 장치로부터 수신한 상기 데이터와 상기 관계 규정 데이터에 기초하여 상기 조작량을 산출하는 것, 산출한 상기 조작량을 송신하는 것을 실행하도록 구성되어도 된다. 상기 제 1 실행 장치에 의한 송신은, S200 의 처리를 그 일례로서 들 수 있고, 상기 제 1 실행 장치에 의한 수신은, S202 의 처리를 그 일례로서 들 수 있다. 상기 제 2 실행 장치에 의한 수신은, S210 의 처리를 그 일례로서 들 수 있고, 조작량 산출은, 도 20 의 우측의 플로 차트의 S140b, 142b, S144b 의 처리를 그 일례로서 들 수 있고, 상기 제 2 실행 장치에 의한 송신은, S212 의 처리를 그 일례로서 들 수 있다.
본 발명의 제 4 형태는, 차량용 제어 장치에 관한 것이다. 상기 차량용 제어 장치는, 상기 제 3 형태에 관련된 제 1 실행 장치를 구비한다. 차량용 제어 장치는, 도 17 및 도 19 의 제어 장치 (90) 를 그 일례로서 들 수 있다.
본 발명의 제 5 형태는, 차량용 학습 장치에 관한 것이다. 상기 차량용 학습 장치는, 상기 제 3 형태에 관련된 제 2 실행 장치를 구비한다. 차량용 학습 장치는, 데이터 해석 센터 (200) 를 그 일례로서 들 수 있다.
본 발명의 다른 형태는, 차량에 탑재된 내연 기관의 크랭크축의 회전 속도를 변속하여 출력하는 장치이고 또한 변속비를 가변으로 하는 변속 장치의 상태와, 상기 변속 장치의 조작량의 관계를 규정하는 관계 규정 데이터가 기억 장치에 기억된 상태에서, 상기 변속 장치를 조작하는 조작 처리와, 상기 변속 장치의 상태를 검출하는 센서의 검출값을 취득하는 취득 처리와, 상기 취득 처리에 의해 취득된 상기 검출값에 기초하여, 상기 변속 장치의 조작에 수반하는 상기 차량의 드라이버빌리티에 기초하는 보수를 산출하는 보수 산출 처리와, 상기 취득 처리에 의해 취득된 상기 검출값에 기초하는 상기 변속 장치의 상태, 상기 변속 장치의 조작에 이용된 상기 조작량, 및 그 조작에 대응하는 상기 보수를 미리 정해진 갱신 사상에 대한 입력으로 하고, 상기 관계 규정 데이터를 갱신하는 갱신 처리를 실행 장치에 실행시키고, 상기 갱신 사상은, 상기 관계 규정 데이터에 따라서 상기 변속 장치가 조작되는 경우의 상기 보수에 대한 기대 수익을 증가시키도록 갱신된 상기 관계 규정 데이터를 출력하는 차량용 제어 데이터의 생성 방법이다. 실행 장치와 기억 장치는, 각각, 도 1 및 도 8 에 있어서의 CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다. 조작 처리는, S116 의 처리를 그 일례로서 들 수 있다. 취득 처리는, S112 의 처리를 그 일례로서 들 수 있고, 보수 산출 처리는, S120 ∼ S126 의 처리를 그 일례로서 들 수 있다. 갱신 처리는, S128 ∼ S136 의 처리를 그 일례로서 들 수 있다.
상기 구성에서는, 조작부의 조작에 수반하는 보수를 산출함으로써, 당해 조작에 의해 어떠한 보수가 얻어지는지를 파악할 수 있다. 그리고, 보수에 기초하여, 강화 학습에 따른 갱신 사상에 의해 관계 규정 데이터를 갱신함으로써, 변속 장치의 상태와 변속 장치의 조작량의 관계를 설정할 수 있다. 따라서, 변속 장치의 상태와 변속 장치의 조작량의 관계의 설정 시에, 숙련자에게 요구되는 공수를 저감할 수 있다.
본 발명의 또 다른 형태는, 추력 생성 장치로서 내연 기관 및 회전 전기를 구비한 차량에 적용되고, 상기 차량의 상태와, 상기 내연 기관의 조작량 및 상기 회전 전기의 제어량의 관계를 규정하는 관계 규정 데이터가 기억 장치에 기억된 상태에서, 상기 내연 기관의 조작부 및 상기 회전 전기의 구동 회로를 조작하는 조작 처리와, 상기 차량의 출력 및 상기 차량의 구동 토크의 2 개 중의 적어도 1 개의 요구값 및 산출값을 취득하는 취득 처리와, 상기 취득 처리에 의해 취득된 상기 요구값 및 상기 산출값에 기초하여, 상기 산출값과 상기 요구값의 차의 절대값이 작은 경우에 큰 경우보다 큰 보수를 주는 보수 산출 처리와, 상기 차량의 상태, 상기 조작 처리의 조작에 대응하는 상기 조작부의 조작량 및 상기 회전 전기의 제어량, 그리고 그 조작에 대응하는 상기 보수를 미리 정해진 갱신 사상에 대한 입력으로 하고, 상기 관계 규정 데이터를 갱신하는 갱신 처리를 실행 장치에 실행시키고, 상기 갱신 사상은, 상기 관계 규정 데이터에 따라서 상기 조작부 및 상기 구동 회로가 조작되는 경우의 상기 보수에 대한 기대 수익을 증가시키도록 갱신된 상기 관계 규정 데이터를 출력하는 차량용 제어 데이터의 생성 방법이다. 실행 장치와 기억 장치는, 도 14 의 경우, 각각, CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다. 또, 실행 장치와 기억 장치는, 도 17 및 도 19 의 경우, 각각, CPU (92, 202) 및 ROM (94, 204) 과 기억 장치 (96, 206) 를 그 일례로서 들 수 있다. 조작 처리는, S146 의 처리를 그 일례로서 들 수 있다. 취득 처리는, S42a 의 처리나, S42b 의 처리를 그 일례로서 들 수 있다. 보수 산출 처리는, 도 16 의 처리를 그 일례로서 들 수 있다.
상기 구성에서는, 조작부의 조작에 수반하는 보수를 산출함으로써, 당해 조작에 의해 어떠한 보수가 얻어지는지를 파악할 수 있다. 그리고, 보수에 기초하여, 강화 학습에 따른 갱신 사상에 의해 관계 규정 데이터를 갱신함으로써, 차량의 상태와 내연 기관의 조작부의 조작량 및 회전 전기의 제어량의 관계를 설정할 수 있다. 따라서, 차량의 상태와 내연 기관의 조작부의 조작량 및 회전 전기의 제어량의 관계의 설정 시에, 숙련자에게 요구되는 공수를 저감할 수 있다.
본 발명의 또 다른 형태는, 상기 보수 산출 처리는, 상기 차량에 있어서의 에너지 소비율이 작은 경우에 큰 경우보다 큰 보수를 주는 처리를 포함하는 상기 기재의 차량용 제어 데이터의 생성 방법이다. 상기 구성은, S68, S70 의 처리를 그 일례로서 들 수 있다.
상기 구성에서는, 차량의 출력이나 구동 토크를 요구값에 가깝게 하면서도, 차량에 있어서의 에너지 소비율이 작아지도록, 관계 규정 데이터를 학습할 수 있다.
본 발명의 또 다른 형태는, 상기 보수 산출 처리는, 상기 회전 전기에 전력을 공급하는 축전 장치의 충전율이 소정 비율 범위 내에 있는 경우에 상기 소정 비율 범위로부터 벗어나는 경우보다 큰 보수를 주는 처리를 포함하는 상기 기재의 차량용 제어 데이터의 생성 방법이다. 상기 구성은, S170, S172 의 처리를 그 일례로서 들 수 있다. 축전 장치는, 배터리 (170) 를 그 일례로서 들 수 있다.
축전 장치의 충전율은 소정 비율 범위로 하는 것이 바람직하다. 그래서, 상기 구성에서는, 보수 산출 처리에 의해, 축전 장치의 충전율이 소정 비율 범위 내에 있는 경우에 소정 비율 범위로부터 벗어나는 경우보다 큰 보수를 줌으로써, 축전 장치의 충전율을 소정 비율 범위로 하는 데 있어서 적절한 관계 규정 데이터를 학습할 수 있다.
본 발명의 다른 형태는, 상기 보수 산출 처리는, 상기 회전 전기에 전력을 공급하는 축전 장치의 온도가 소정 온도 범위 내에 있는 경우에 상기 소정 온도 범위로부터 벗어나는 경우보다 큰 보수를 주는 처리를 포함하는 상기 기재의 차량용 제어 데이터의 생성 방법이다. 상기 구성은, S174, S176 의 처리를 그 일례로서 들 수 있다. 축전 장치는, 배터리 (170) 를 그 일례로서 들 수 있다.
축전 장치의 온도는, 소정 온도 범위로 하는 것이 바람직하다. 그래서 상기 구성에서는, 보수 산출 처리에 의해, 축전 장치의 온도가 소정 온도 범위 내에 있는 경우에 소정 온도 범위로부터 벗어나는 경우보다 큰 보수를 줌으로써, 축전 장치의 온도를 소정 온도 범위로 하는 데 있어서 적절한 관계 규정 데이터를 학습할 수 있다.
본 발명의 다른 형태는, 실행 장치와, 기억 장치를 구비하고, 상기 기억 장치에는, 내연 기관이 탑재되는 차량의 상태와, 상기 내연 기관의 조작부의 조작량과, 상기 내연 기관의 연료 소비율, 상기 내연 기관의 배기 특성, 및 상기 내연 기관이 탑재되는 차량의 드라이버빌리티의 적어도 1 개의 관점으로 이루어지는 보수에 대한 기대 수익의 관계를 규정하는 관계 규정 데이터가 기억되어 있고, 상기 실행 장치는, 상기 차량의 상태를 검출하는 센서의 검출값을 취득하는 취득 처리와, 상기 취득 처리에 의해 취득된 상기 검출값에 기초하는 상기 차량의 상태와 상기 관계 규정 데이터에 기초하여, 상기 기대 수익을 최대화하는 상기 조작량을 선택하는 선택 처리와, 상기 선택 처리에 의해 선택된 상기 조작량에 기초하여 상기 조작부를 조작하는 조작 처리를 실행하는 차량용 제어 장치이다. 실행 장치와 기억 장치는, 각각, 도 8 의 CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다. 취득 처리는, 도 10 의 S42 의 처리를 그 일례로서 들 수 있다. 선택 처리는, 도 10 의 S44 의 처리를 그 일례로서 들 수 있다. 즉, S44 의 처리에 있어서는, 매회 반드시 그리디 행동이 선택되는 것은 아니지만, 탐색을 실시하지 않는 경우에는 그리디 행동을 선택하고 있다. 조작 처리는, 도 10 의 S46 의 처리를 그 일례로서 들 수 있다.
상기 관계 규정 데이터는, 차량의 상태와, 조작부의 조작량과, 기대 수익의 관계를 규정하는 데이터이기 때문에, 강화 학습에 의해 학습 가능하다. 따라서, 상기 차량용 제어 장치는, 조작부의 조작량의 적합 시에, 숙련자에게 요구되는 공수를 저감할 수 있다.
본 발명의 다른 형태는, 실행 장치와, 기억 장치를 구비하고, 상기 기억 장치에는, 차량에 탑재되는 내연 기관의 크랭크축의 회전 속도를 변속하여 출력하는 장치이고 또한 변속비를 가변으로 하는 변속 장치의 상태와, 상기 변속 장치의 조작량과, 상기 차량의 드라이버빌리티에 기초하는 보수에 대한 기대 수익의 관계를 규정하는 관계 규정 데이터가 기억되어 있고, 상기 실행 장치는, 상기 변속 장치의 상태를 검출하는 센서의 검출값을 취득하는 취득 처리와, 상기 취득 처리에 의해 취득된 상기 검출값과 상기 관계 규정 데이터에 기초하여, 상기 기대 수익을 최대화하는 상기 조작량을 선택하는 선택 처리와, 상기 선택 처리에 의해 선택된 상기 조작량에 기초하여 상기 변속 장치를 조작하는 조작 처리를 실행하는 차량용 제어 장치이다. 실행 장치와 기억 장치는, 각각, 도 1 및 도 8 의 CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다. 취득 처리는, S112 의 처리를 그 일례로서 들 수 있다. 선택 처리는, S114 의 처리를 그 일례로서 들 수 있다. 즉, S114 의 처리에 있어서는, 매회 반드시 그리디 행동이 선택되는 것은 아니지만, 탐색을 실시하지 않는 경우에는 그리디 행동을 선택한다. 조작 처리는, S116 의 처리를 그 일례로서 들 수 있다.
상기 관계 규정 데이터는, 변속 장치의 상태와, 변속 장치의 조작량과, 기대 수익의 관계를 규정하는 데이터이기 때문에, 강화 학습에 의해 학습 가능하다. 따라서, 상기 차량용 제어 장치는, 변속 장치의 조작량의 적합 시에, 숙련자에게 요구되는 공수를 저감할 수 있다.
본 발명의 또 다른 형태는, 실행 장치와, 기억 장치를 구비하고, 상기 기억 장치에는, 내연 기관의 상태를 포함하고 또한 상기 내연 기관을 탑재한 차량의 상태와, 상기 내연 기관의 조작부의 조작량의 관계를 규정하는 관계 규정 데이터가 기억되어 있고, 상기 실행 장치는, 상기 차량의 상태를 검출하는 센서의 검출값을 취득하는 취득 처리와, 상기 취득 처리에 의해 취득된 상기 검출값과 상기 관계 규정 데이터에 기초하는 상기 조작부의 조작량에 의해 상기 조작부를 조작하는 조작 처리를 실행하는 것이고, 상기 관계 규정 데이터는, 상기 차량의 소정의 상태에 관한 시계열 데이터와 상기 조작량의 관계를 규정하는 차량용 제어 장치이다. 실행 장치와 기억 장치는, 각각, 도 17 의 CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다. 취득 처리는, S42b 의 처리를 그 일례로서 들 수 있다. 조작 처리는, S146 의 처리를 그 일례로서 들 수 있다. 소정의 상태는, 회전 속도 (NE) 및 충전 효율 (η) 을 그 일례로서 들 수 있다.
상기 서술한 바와 같이, 내연 기관 등의 구동계의 조작량의 적합에는 숙련자가 많은 공수를 들이고 있었기 때문에, 조작량을 설정하기 위한 입력이 되는 상태에 대해서는, 차원수가 커지는 것을 피하는 인센티브가 작용하고 있었다. 그러나, 소정의 상태에 대해 1 개의 샘플링값에만 기초하여 조작량을 설정하는 것보다도, 시계열적으로 전후하는 복수 상태의 샘플링값의 시계열 데이터에 기초하여 조작량을 설정하는 쪽이, 조작량을 보다 적절히 설정할 수 있을 가능성이 있다. 그래서 상기 구성에서는, 소정의 상태에 관한 시계열 데이터에 기초하는 조작량에 의해 조작부를 조작함으로써, 목표로 하는 제어를 보다 적절히 실행하는 것이 가능해진다.
본 발명의 또 다른 형태는, 상기 시계열 데이터는, 상기 내연 기관의 동작점을 규정하는 변수인 동작점 변수의 시계열 데이터를 포함하는 상기 기재의 차량용 제어 장치이다. 실행 장치와 기억 장치는, 각각, 도 17 의 CPU (92) 및 ROM (94) 과 기억 장치 (96) 를 그 일례로서 들 수 있다. 취득 처리는, S42b 의 처리를 그 일례로서 들 수 있다. 조작 처리는, S146 의 처리를 그 일례로서 들 수 있다. 소정의 상태는, 회전 속도 (NE) 및 충전 효율 (η) 을 그 일례로서 들 수 있다.
그 밖의 실시형태
또한, 본 실시형태는, 이하와 같이 변경하여 실시할 수 있다. 본 실시형태 및 이하의 변경예는, 기술적으로 모순되지 않는 범위에서 서로 조합하여 실시할 수 있다.
관계 규정 데이터에 대해서
1. 행동 가치 함수 (Q) 에 대해서
상기 실시형태에서는, 행동 가치 함수 (Q) 를, 테이블 형식의 함수로 했지만, 이것에 한정되지 않는다. 예를 들어, 함수 근사기를 사용해도 된다.
2. 조작량을 지시하는 방책에 대해서
상기 실시형태에서는, 방책 구배법 등에 의해 갱신되는 방책으로서, 다변량 가우스 분포를 사용하고, 그 공분산 행렬을, 행동의 차원마다 분산이 독립적으로 설정 가능한 대각 행렬로 했지만, 이것에 한정되지 않는다. 예를 들어, 행동의 각 차원의 분산을 공통의 값으로 해도 된다. 또 예를 들어, 공분산 행렬이 대각 행렬인 것도 필수는 아니다. 또, 공분산 행렬의 성분을 정하는 함수 근사기를 선형 사상과 선형 사상의 출력을 입력으로 하는 함수 (f) 에 의해 구성하는 것도 필수는 아니다. 예를 들어 뉴럴 네트워크에 의해 구성해도 된다. 또한, 다변량 가우스 분포의 평균을 정하는 함수 근사기를, 뉴럴 네트워크로 하는 것도 필수는 아니다. 예를 들어, 입력 변수를 입력으로 하는 복수의 기저 함수의 선형 결합이어도 된다. 또한, 평균값 (μ(i)) 이나 분산 (σ(i)) 등의 함수 근사기의 초기값의 설정 수법으로는, 내연 기관 (10) 과 동일 배기량 또한 동일한 조작부를 구비한 적합이 끝난 내연 기관의 제어를 이용하는 것에 한정되지 않는다.
3. 상태에 대해서
예를 들어, 촉매 (38) 에 PM 을 포집하는 필터를 구비하고, 그 필터에 퇴적된 PM 량 (PM 퇴적량) 을 상태에 포함해도 된다. 이에 따라, PM 퇴적량이 많아지는 경우에 필터의 재생 처리를 실행하는 행동에 대하여 높은 보수를 부여함으로써, PM 퇴적량이 과도하게 많아지지 않는 제어를 강화 학습에 의해 학습하는 것이 용이해진다. 또한, PM 퇴적량은, 예를 들어 내연 기관 (10) 의 운전 상태 등에 기초하여 추정하면 된다.
또 예를 들어, 촉매 (38) 의 황 피독량을 상태에 포함해도 된다. 이에 따라, 황 피독량이 많아지는 경우에 촉매 (38) 의 재생 처리를 실행하는 행동에 대하여 높은 보수를 부여함으로써, 황 피독량이 과도하게 많아지지 않는 제어를 강화 학습에 의해 학습하는 것이 용이해진다. 또한, 황 피독량은, 예를 들어 요구 분사량 (Qf) 등에 기초하여 추정하면 된다.
조작부의 조작량을 피드백 제어하는 경우, 동 피드백 제어에 있어서의 제어량을 상태에 더해도 된다. 즉, 예를 들어 상기 실시형태에서는, 스로틀 개구도 지령값 (Tor*) 이 행동에 포함되어 있지만, 스로틀 개구도 (Tor) 가 스로틀 개구도 지령값 (Tor*) 에 피드백 제어되기 때문에, 상태로서 스로틀 밸브 (16) 의 개구도 (스로틀 Tor) 를 포함해도 된다. 이에 따라, 제어량의 지령값에 대한 제어의 방법을 강화 학습에 의한 학습 대상으로 할 수 있다.
예를 들어 차량 (VC1) 이 자동 조타를 실시하는 것인 경우, 상태에, 차량의 추력 생성 장치에 대한 출력을 나타내는 변수인 출력 변수로서, 기관 토크 요구값 (Trqeg*) 이나 기관 출력 요구값 (Peg*), 출력 요구값 (Ptot*), 구동 토크 요구값 (Trq*) 을 포함하는 것이 바람직하다. 무엇보다, 상기 실시형태에 있어서, 출력 변수로서, 액셀 조작량 (ACCP) 대신에, 기관 토크 요구값 (Trqeg*) 이나 기관 출력 요구값 (Peg*), 출력 요구값 (Ptot*), 구동 토크 요구값 (Trq*) 을 상태에 포함해도 된다.
2-1. 시계열 데이터로 표현되는 상태에 대해서
도 18 및 도 20 의 처리에서는, 회전 속도 (NE) 및 충전 효율 (η) 에 대해, 시계열적으로 전후하는 6 개의 데이터를 상태에 포함했지만, 시계열 데이터를 구성하는 샘플링 수로는, 6 개에 한정되지 않고, 2 개 이상이면 되고, 또 3 개 이상이어도 된다. 이 때, 시계열 데이터를 구성하는 회전 속도 (NE) 의 샘플링 수와 시계열 데이터를 구성하는 충전 효율 (η) 의 샘플링 수가 동등한 것도 필수는 아니다.
도 18 및 도 20 의 처리에서는, 회전 속도 (NE) 의 시계열 데이터와, 충전 효율 (η) 의 시계열 데이터를 사용했지만, 그들 2 개의 시계열 데이터에 관해서는, 그들 중 1 개만의 시계열 데이터를 사용해도 된다.
강화 학습에 있어서의 상태로 하는 시계열 데이터로는, 내연 기관 (10) 의 동작점을 나타내는 변수인 동작점 변수에 한정되지 않는다. 예를 들어 액셀 조작량 (ACCP) 등이어도 되고, 또 예를 들어 흡기 위상차 (DIN) 등이어도 되며, 또 예를 들어 제 1 MG 속도 (ωmg1) 나 제 2 MG 속도 (ωmg2) 등이어도 된다. 또한, 시계열 데이터로는, 함수 근사기에 의해 표현된 방책 (π) 의 입력으로 하는 것에 한정되지 않고, 예를 들어 함수 근사기에 의해 표현된 행동 가치 함수 (Q) 의 입력으로 해도 된다.
4. 행동에 대해서
행동으로는, 상기 실시형태에 있어서 예시한 것에 한정되지 않는다. 예를 들어, 분사 시기나, 1 연소 사이클에 있어서의 분사 횟수, 1 연소 사이클의 점화 횟수를 행동으로서의 조작량으로 해도 된다. 또, 예를 들어, 캐니스터 (66) 에 포집되어 있는 연료 증기를 흡기 통로 (12) 에 유출시키는 타이밍이어도 된다. 또 예를 들어, 내연 기관 (10) 이 텀블 컨트롤 밸브를 구비하고 있는 경우에는, 그 조작량을 행동으로 해도 된다. 또 예를 들어, 내연 기관 (10) 이 스월 컨트롤 밸브를 구비하고 있는 경우에는, 그 조작량을 행동으로 해도 된다. 또, 예를 들어 제어 장치 (90) 가 내연 기관 (10) 의 아이들링 스톱 제어를 실행하는 경우, 아이들링 스톱의 타이밍을 행동으로 해도 된다. 또, 내연 기관 (10) 의 흡기 통로 (12) 에 과급기 (14) 를 우회하는 통로와, 그 통로의 유로 단면적을 조정하는 에어 바이패스 밸브를 구비하는 경우, 에어 바이패스 밸브의 개구도를 조작량으로 해도 된다. 또, 내연 기관 (10) 이, 흡기 통로를 변경하는 구조를 갖는 경우, 그 조작량을 행동으로 해도 된다. 또, 내연 기관 (10) 이 각 기통에 1 쌍의 흡기 밸브 (20) 를 구비하고, 그 중의 일방을 선택적으로 폐변 (閉弁) 상태로 유지할 수 있는 경우에는, 선택적으로 폐변 상태로 할지 여부를 행동으로 해도 된다. 그 경우, 조작부는, 흡기 밸브 (20) 가 된다. 또, 예를 들어 제어 장치 (90) 가 특정한 기통에 있어서의 혼합기의 연소 제어를 정지하는 제어를 실행하는 경우, 그 제어의 실행의 유무를 행동으로 해도 된다. 그 경우, 대응하는 조작부는, 포트 분사 밸브 (18) 나, 통내 분사 밸브 (28), 점화 장치 (30) 가 된다. 또, 내연 기관 (10) 이 압축비를 가변으로 하는 것인 경우, 압축비의 조작을 행동으로 해도 된다. 또, 내연 기관의 냉각수의 순환 경로의 유로 단면적을 조정하는 유량 제어 밸브의 개구도를 행동으로 해도 된다.
또한, 행동이 다차원인 것은 필수는 아니다. 예를 들어, 기존의 내연 기관에 소정의 조작부를 새롭게 추가하는 경우, 그 조작부의 조작량과 상태의 관계만, 강화 학습에 의해 학습해도 된다. 이 경우, 상태에 다른 조작부의 조작량을 포함해도 된다.
또, 변속 장치 (80) 의 유압을 행동으로서의 조작량으로 해도 된다. 또, 변속 장치 (80) 의 제어량 (변속비) 을 행동으로 해도 된다. 또한, 행동으로는, 내연 기관 (10) 의 조작부의 조작량이나, 변속 장치 (80) 의 조작량이나 제어량, 제 1 모터 제너레이터 (162) 나 제 2 모터 제너레이터 (166) 의 제어량에 한정되지 않는다. 예를 들어, 토크 컨버터 (70) 의 로크 업 클러치 (72) 의 체결 유무여도 된다. 또 예를 들어, 스로틀 개구도 (Tor) 를 스로틀 개구도 지령값 (Tor*) 으로 피드백 제어하는 게인을 더해도 된다.
갱신 사상에 대해서
1. 행동 가치 함수 (Q) 의 갱신에 대해서
1-1. 내연 기관 (10) 의 조작량을 행동으로 하는 행동 가치 함수 (Q) 의 갱신에 대해서
S52, S54 의 처리에 있어서는, 방책 오프형 TD 법을 예시했지만, 이것에 한정되지 않는다. 예를 들어 SARSA 법과 같이 방책 온형 TD 법으로 해도 된다. 또, 방책 온형의 학습으로서 적격도 트레이스법을 사용해도 된다.
무엇보다, 이것에 한정되지 않고, 예를 들어 몬테 카를로법에 의한 것으로 해도 된다.
1-2. 변속 장치 (80) 의 조작량을 행동으로 하는 행동 가치 함수 (Q) 의 갱신에 대해서
도 7 에 있어서는, 변속 장치 (80) 에 관한 행동 가치 함수 (Q) 의 갱신 사상으로서, ε 소프트 방책 온형 몬테 카를로법에 의한 것을 예시했지만, 이것에 한정되지 않는다. 예를 들어, 방책 오프형 몬테 카를로법에 의한 것이어도 된다. 무엇보다, 몬테 카를로법에도 한정되지 않고, 예를 들어 S52, S54 의 처리와 같이 방책 오프형 TD 법을 사용하거나, 또 예를 들어 SARSA 법과 같이 방책 온형 TD 법을 사용하거나, 또 예를 들어, 방책 온형의 학습으로서 적격도 트레이스법을 사용해도 된다.
1-3. 그 외
행동 가치 함수 (Q) 로서, 내연 기관 (10) 의 조작량을 행동으로 하는 것과 변속 장치 (80) 의 조작량을 행동으로 하는 것을 각별한 가치 함수로 하는 것은 필수는 아니다. 또, 내연 기관 (10) 의 조작량을 행동으로 하는 것이나, 변속 장치 (80) 의 조작량을 행동으로 하는 것에 한정되지 않고, 예를 들어 제 1 모터 제너레이터 (162) 나 제 2 모터 제너레이터 (166) 의 제어량을 행동으로 하는 것이어도 된다. 또, 예를 들어, 내연 기관 (10) 의 조작량, 제 1 모터 제너레이터 (162) 및 제 2 모터 제너레이터 (166) 의 제어량을 행동으로 하는 그것들에 공통의 행동 가치 함수 (Q) 를 사용해도 된다. 또 예를 들어, 내연 기관 (10) 의 조작량 및 변속 장치 (80) 의 제어량을 행동으로 하는 그것들에 공통의 행동 가치 함수 (Q) 를 사용해도 된다. 또 예를 들어, 내연 기관 (10) 의 조작량, 그리고 변속 장치 (80) 의 조작량 및 제어량을 행동으로 하는 그것들에 공통의 행동 가치 함수 (Q) 를 사용해도 된다.
또한, 「관계 규정 데이터에 대해서」 의 「1. 행동 가치 함수 (Q) 에 대해서」 의 란에 기재한 바와 같이, 행동 가치 함수 (Q) 의 함수 근사기를 사용하는 경우에는, 갱신 사상은, 예를 들어, 행동 가치 함수 (Q) 를 규정하는 파라미터에 의한 행동 가치 함수 (Q) 의 편미분에 기초하여 동 파라미터의 갱신량을 출력하는 사상을 포함하여 구성하면 된다.
2. 방책을 규정하는 함수 근사기의 파라미터의 갱신에 대해서
S164 의 처리에 있어서는, 수익 (Ri) 을, 시간 (T) 사이의 단순 평균으로 했지만, 이것에 한정되지 않는다. 예를 들어, 소정의 할인율 (γ) 에 의해 과거의 보수 (r) 만큼 크게 할인된 값을 사용한 합으로 해도 된다. 이것은, 지수 이동 평균 처리에 상당한다.
S164 의 처리에 있어서, 수익 (Ri) 대신에, 수익 (Ri) 으로부터, 파라미터 (θ) 에 의존하지 않는 적절한 베이스 라인 함수를 뺀 것으로 해도 된다. 구체적으로는, 베이스 라인 함수는, 예를 들어, 기대 수익 (J) 의 파라미터에 의한 편미분의 분산을 최소화하는 함수로 하는 것이 바람직하다.
함수 근사기에 의해 근사되는 방책에 의해 지정되는 행동으로는, 내연 기관 (10) 의 조작량이나, 제 1 모터 제너레이터 (162) 및 제 2 모터 제너레이터 (166) 의 제어량에 한정되지 않는다. 예를 들어 변속 장치 (80) 의 조작량이나 제어량이어도 된다. 구체적으로는, 변속 장치 (80) 의 조작량만을 지정하는 방책이어도 되고, 또 예를 들어, 내연 기관 (10) 의 조작량 및 변속 장치 (80) 의 조작량을 지정하는 방책이어도 되며, 또 예를 들어, 내연 기관 (10) 의 조작량, 변속 장치 (80) 의 조작량 및 제어량을 지정하는 방책이어도 된다. 또 예를 들어, 하기 「차량에 대해서」 의 란에 기재한 패러렐 하이브리드 차가 변속 장치를 구비하는 경우, 모터 제너레이터의 제어량과 변속 장치의 조작량을 지정하는 방책이나, 모터 제너레이터의 제어량과 변속 장치의 제어량을 지정하는 방책, 모터 제너레이터의 제어량과 변속 장치의 조작량 및 제어량을 지정하는 방책이어도 된다. 또 예를 들어, 내연 기관의 조작부의 조작량과 모터 제너레이터의 제어량과 변속 장치의 조작량을 지정하는 방책이나, 내연 기관의 조작부의 조작량과 모터 제너레이터의 제어량과 변속 장치의 제어량을 지정하는 방책, 내연 기관의 조작부의 조작량과 모터 제너레이터의 제어량과 변속 장치의 조작량 및 제어량을 지정하는 방책이어도 된다.
3. 그 외
도 4, 도 7 및 도 10 에 있어서는, 행동 가치 함수 (Q) 를 사용하는 경우, 방책 (π) 에 대해서는, 행동 가치 함수 (Q) 의 갱신의 결과로서 갱신되는 예를 나타냈지만, 이것에 한정되지 않는다. 예를 들어, 액터·크리틱법과 같이, 행동 가치 함수 (Q) 및 방책 (π) 을 각각 갱신해도 된다. 또, 액터·크리틱법에 있어서는, 이것에 한정되지 않고, 예를 들어 행동 가치 함수 (Q) 대신에 가치 함수 (V) 를 갱신 대상으로 해도 된다.
또한, 학습율 (α) 은, 고정값에 한정되지 않고, 학습의 진행 정도에 따라 미리 정해진 규칙에 따라 변경해도 된다. 또, 방책 (π) 을 정하는 「ε」 에 대해서도, 고정값에 한정되지 않고, 학습의 진행 정도에 따라 미리 정해진 규칙에 따라 변경해도 된다.
보수 산출 처리에 대해서
1. 연료 소비율에 관한 보수에 대해서
상기 실시형태에서는, 적산값 (InQf) 을 입력으로 하고, 그 대소에 따라 보수를 산출했지만, 이것에 한정되지 않는다. 예를 들어, 배기 통로 (36) 에 대한 이산화탄소의 배출량이 작은 경우에 큰 경우보다 큰 보수를 주어도 된다. 또 예를 들어, 적산값 (InQf) 이나 이산화탄소의 배출량이 동일해도, 흡입 공기량 (Ga) 이 큰 경우에는 작은 경우보다 큰 보수를 주도록 해도 된다.
2. 배기 특성에 관한 보수에 대해서
2-1. 출하 전의 학습에 대해서
S62 ∼ S66 의 처리에 있어서는, 상기 조건 (1) ∼ 조건 (6) 의 논리곱이 참인지 여부에 따라 보수를 정했지만, 이것에 한정되지 않는다. 예를 들어, 조건 (1) ∼ 조건 (6) 의 각각에 대해, 조건이 성립하는 경우에 성립하지 않는 경우보다 큰 보수를 주어도 된다.
S62 ∼ S66 의 처리에 있어서, 조건 (1) ∼ 조건 (6) 을 모두 사용하는 것도 필수는 아니다. 예를 들어, 조건 (1) ∼ 조건 (6) 의 6 개의 조건에 관해서는, 그들 중 1 개 내지 5 개에만 기초하여 보수를 주어도 된다.
2-2. 출하 후의 학습에 대해서
S62a, S64, S66 의 처리에 있어서는, 조건 (2) 및 조건 (5) 의 논리곱이 참인지 여부에 따라 보수를 정했지만, 이것에 한정되지 않는다. 예를 들어, 조건 (2) 및 조건 (5) 의 각각에 대해, 조건이 성립하는 경우에 성립하지 않는 경우보다 큰 보수를 주어도 된다.
S62a, S64, S66 의 처리에 있어서, 조건 (2) 및 조건 (5) 의 쌍방을 사용하는 것도 필수는 아니다. 또, 조건 (2) 및 조건 (5) 의 2 개 중의 적어도 1 개만을 사용하는 것도 필수는 아니다. 예를 들어, 상기 조건 (1), 조건 (3), 조건 (4), 및 조건 (6) 의 4 의 조건 중 몇 개인가에 기초하여 보수를 산출해도 된다. 여기서, 조건 (3) 이나 조건 (4) 에 기초하여 보수를 산출하는 경우, 차량 (VC1) 에 전용 센서를 구비하거나, 또는, NOx 량 (Qnox) 이나, 미연 연료량 (Qch) 을 출력하는 사상을 탑재하면 된다. 또한, 사상에 대해서는, 예를 들어, PM 량 출력 사상 데이터 (96c) 의 요령으로 출하 전의 학습 시에 학습하여 생성하면 된다.
2-3. 그 외
배기 특성에 관한 보수로는, 상기의 것에 한정되지 않는다. 예를 들어, 배기온 (Tex) 을 보수에 포함해도 된다. 이 경우, 예를 들어, 「관계 규정 데이터에 대해서」 의 「3. 상태에 대해서」 의 란에 기재한 바와 같이, 상태에 PM 퇴적량이나 황 피독량을 포함하는 경우, 그들의 양이 많을 때에, 배기온이 촉매 (38) 의 재생이 가능한 온도인 경우에, 큰 보수를 주면 된다.
또, 예를 들어, 촉매 (38) 의 온도가 소정 범위 내에 있는 경우에, 소정 범위로부터 벗어나는 경우보다 큰 보수를 주어도 된다. 여기서, 소정 범위는, 예를 들어, 배기의 정화율이 높아지는 온도 범위로 하면 된다. 무엇보다, 「관계 규정 데이터에 대해서」 의 「3. 상태에 대해서」 의 란에 기재한 바와 같이, 상태에 PM 퇴적량이나 황 피독량을 포함하는 경우, 그들의 양이 많을 때에, 배기온이 촉매 (38) 의 재생이 가능한 온도인 경우에, 큰 보수를 주어도 된다.
또, 예를 들어 강화 학습에 의하지 않고 회전 속도 (NE) 및 충전 효율 (η) 등을 입력 변수로 하여 EGR 개구도 지령값 (Egrvor) 을 출력 변수로 하는 맵 데이터를 적합하는 경우, EGR 개구도 지령값 (Egrvor) 의 설정에 있어서 상정한 과급압과 과급압 (Pa) 의 차의 절대값이 소정값 이하인 경우에, 소정값을 초과하는 경우보다 큰 보수를 주어도 된다. 이것은, 과급압 (Pa) 이 상정한 값으로부터 벗어나는 경우, EGR 량의 제어가 상정으로부터 벗어나는 것을 감안한 것이다. 또, 과급압 대신에, 과급기 (14) 의 실제의 터빈 회전 속도와 EGR 개구도 지령값 (Egrvor) 의 설정에 있어서 상정한 터빈 회전 속도의 차를 사용해도 된다.
3. 드라이버빌리티에 관한 보수에 대해서
S72 ∼ S76 의 처리에 있어서는, 상기 조건 (11) ∼ 조건 (13) 의 논리곱이 참인지 여부에 따라 보수를 정했지만, 이것에 한정되지 않는다. 예를 들어, 조건 (11) ∼ 조건 (13) 의 각각에 대해, 조건이 성립하는 경우에 성립하지 않는 경우보다 큰 보수를 주어도 된다.
S72 ∼ S76 의 처리에 있어서, 조건 (11) ∼ 조건 (13) 을 모두 사용하는 것도 필수는 아니다. 예를 들어, 조건 (11) ∼ 조건 (13) 의 3 개의 조건에 관해서는, 그들 중 1 개 또는 2 개에만 기초하여 보수를 주어도 된다.
드라이버빌리티에 관한 보수로는, 상기에 한정되지 않는다. 예를 들어, 크랭크축 (32) 이나, 출력축 (84) 등의 구동계의 각종 회전축의 회전 변동량의 크기가 소정값 이하인 경우에 소정값을 초과하는 경우보다 큰 보수를 주어도 된다.
여기서 회전 변동량은, 차량의 진동이 소정 범위에 있는 경우에 없는 경우보다 큰 보수를 주는 처리로도 될 수 있다. 즉, 드라이버빌리티에 관한 보수를 주는 처리는, 다음의 3 개 중 적어도 1 개여도 된다. 즉, 가속도나 가속도의 변화 속도 (가가속도) 등의 차량의 거동이 기준을 만족하는 경우에 만족하지 않는 경우보다 큰 보수를 주는 처리와, 소음이 소정 범위 내에 있는 경우에 없는 경우보다 큰 보수를 주는 처리와, 차량의 진동이 소정 범위 내에 있는 경우에 없는 경우보다 큰 보수를 주는 처리, 3 개이다.
4. 내연 기관 전반
수온 (THW) 이 소정 온도 범위 내인 경우에, 소정 온도 범위로부터 벗어나는 경우보다 큰 보수를 주어도 된다. 또, 유온 (Toil) 이 소정 온도 범위 내인 경우에, 소정 온도 범위로부터 벗어나는 경우보다 큰 보수를 주어도 된다.
연료 소비율에 관한 보수, 배기 특성에 관한 보수, 드라이버빌리티에 관한 보수, 및 기관 토크 요구값 (Trqeg*) (기관 출력 요구값 (Peg*)) 에 관한 보수를 모두 주는 것에 한정되지 않는다. 예를 들어 그들 4 개의 보수에 대해서는, 그 중의 1 개만을 주거나, 2 개만을 주거나, 3 개만을 주거나 해도 된다.
또한, 기관 토크 요구값 (Trqeg*) (기관 출력 요구값 (Peg*)) 에 관한 보수를 주지 않는 경우에는, 예를 들어 액셀 조작량 (ACCP) 에 기초하여, 강화 학습에 의하지 않고 스로틀 개구도 지령값 (Tor*) 을 설정하면 된다.
덧붙여서, 연료 소비율에 관한 보수를 주는 경우에는, 요구 분사량 (Qf), 점화 시기 (aig), 분사 분배율 (Kp), 1 연소 사이클당의 분사 횟수, 흡기 위상차 지령값 (DIN*), WGV 개구도 지령값 (Wgvor), EGR 개구도 지령값 (Egrvor) 중의 적어도 1 개를 행동에 포함하는 것이 바람직하다.
또, 배기 특성에 관한 보수를 주는 경우에는, 다음에 예시하는 것 중 적어도 1 개를 행동에 포함하는 것이 바람직하다. 즉, 요구 분사량 (Qf), 점화 시기 (aig), 분사 분배율 (Kp), 1 연소 사이클당의 분사 횟수, 흡기 위상차 지령값 (DIN*), WGV 개구도 지령값 (Wgvor), EGR 개구도 지령값 (Egrvor), 연료압 지령값 (Pf*), 퍼지 조작량 (Pg), 1 연소 사이클당의 점화 횟수 중의 적어도 1 개를 포함하는 것이 바람직하다. 무엇보다, 그것들에 한정되지 않고, 상기 「관계 규정 데이터에 대해서」 의 「4. 행동에 대해서」 의 란에 기재한, 캐니스터 (66) 에 포집되어 있는 연료 증기를 흡기 통로 (12) 에 유출시키는 타이밍이나, 텀블 컨트롤 밸브의 조작량, 스월 컨트롤 밸브의 조작량, 아이들링 스톱의 타이밍 중의 적어도 1 개를 포함해도 된다. 또 예를 들어, 에어 바이패스 밸브의 개구도나, 내연 기관 (10) 이 흡기 통로를 변경하는 구조를 갖는 경우의 그 조작량, 내연 기관 (10) 이 각 기통에 1 쌍의 흡기 밸브 (20) 를 구비하고 또한 그 중의 일방을 선택적으로 폐변 상태로 유지할 수 있는 경우의 선택적으로 폐변 상태로 할지 여부를 행동에 포함해도 된다. 또 예를 들어, 특정한 기통에 있어서의 혼합기의 연소 제어를 정지하는 제어를 실행하는 경우, 그 제어의 실행 유무나, 내연 기관 (10) 이 압축비를 가변으로 하는 것인 경우의 압축비의 조작을 행동에 포함해도 된다. 또, 예를 들어 유량 제어 밸브의 개구도를 행동에 포함해도 된다.
또, 드라이버빌리티에 관한 보수를 주는 경우에는, 스로틀 개구도 지령값 (Tor*) 과, WGV 개구도 지령값 (Wgvor) 과, 유압 (Poila, Poilb, …) 중 적어도 1 개를 행동에 포함하는 것이 바람직하다.
5. 변속 장치의 조작에 수반하는 보수에 대해서
S120, S122 의 처리에 있어서는, 상기 조건 (10) ∼ 조건 (12) 의 논리곱이 참인지 여부에 따라 보수를 정했지만, 이것에 한정되지 않는다. 예를 들어, 조건 (10) ∼ 조건 (12) 의 각각에 대해, 조건이 성립하는 경우에 성립하지 않는 경우보다 큰 보수를 주어도 된다.
S120, S122 의 처리에 있어서, 조건 (10) ∼ 조건 (12) 를 모두 사용하는 것도 필수는 아니다. 예를 들어, 조건 (10) ∼ 조건 (12) 의 3 개의 조건에 관해서는, 그들 중 1 개 또는 2 개에만 기초하여 보수를 주어도 된다.
또한, 상기 조건 (11) 및 조건 (12) 에 기초하는 보수에 대해서는, 변속이 이루어지고 있는 기간에 있어서 축차 주도록 해도 된다. 또한, 변속 장치의 조작에 수반하는 보수로는, 상기 서술한 바와 같이 드라이버빌리티의 관점에 기초하는 보수에 한정되지 않는다. 예를 들어, 「관계 규정 데이터에 대해서」 의 「4. 행동에 대해서」 의 란에 기재한 바와 같이, 행동에 변속 장치 (80) 의 제어량을 포함시키는 경우 등에는, 연료 소비율에 관한 보수를 사용해도 된다.
5. 하이브리드 차량에 관한 보수에 대해서
상기 실시형태에서는, 배터리 온도 (Tbatt) 가 소정 범위 이내에 있는 경우에 소정 범위로부터 벗어나는 경우보다 큰 보수를 주는 처리를 실행할 때, 소정 범위의 하한값을 정하지 않았지만, 이것에 한정되지 않는다.
충전율 (SOC) 에 따른 보수와 배터리 온도 (Tbatt) 에 따른 보수의 쌍방을 사용하는 것에 한정되지 않는다. 예를 들어, 그들 2 개의 보수에 관해서는, 그 중의 하나만을 사용해도 된다.
무엇보다, 충전율 (SOC) 에 따른 보수와 배터리 온도 (Tbatt) 에 따른 보수 양쪽 모두 사용하지 않아도 된다. 예를 들어, 출력 요구값 (Ptot*) 과 출력 (Ptot) 의 차의 절대값이 작은 경우에 큰 경우보다 큰 보수를 주거나, 구동 토크 요구값 (Trq*) 과 구동 토크 (Trq) 의 차의 절대값이 작은 경우에 큰 경우보다 큰 보수를 주거나 할 뿐이어도 된다. 그 경우, 출력 요구값 (Tot*) 이나 구동 토크 요구값 (Trq*) 을 실현하는 데 있어서의, 내연 기관 (10) 과 제 1 모터 제너레이터 (162), 제 2 모터 제너레이터 (166) 와의 동력 배분을 강화 학습에 의해 학습할 수 있다.
6. 그 밖의 보수에 대해서
예를 들어, 「관계 규정 데이터에 대해서」 의 「4. 행동에 대해서」 의 란에 기재한 바와 같이, 로크 업 클러치 (72) 의 체결 유무가 행동인 경우, 음압이 소정값 이하인 경우에 소정값을 초과하는 경우보다 큰 보수를 주어도 된다.
7. 보수의 산출 타이밍에 대해서
도 4 나 도 10 의 처리에서는, 행동 (at) 에 기초하는 조작이 이루어지고 나서 즉시 보수 (rt) 를 산출하였다. 이 경우, 행동 (at) 의 결과가 상류측 검출값 (Afu) 이나 하류측 검출값 (Afd) 에 반영될 때까지는 시간이 걸리기 때문에, 정상 상태에 있어서 행동 (at) 에 기초하는 조작 후 즉시 취득되는 상류측 검출값 (Afu) 등을 행동 (at) 에 수반하는 것으로 간주할 수 있는 것을 이용하고 있게 된다. 그러나 이와 같은 수법에 한정되지 않고, 예를 들어, 선택된 행동 (at) 에 기초하는 조작과, 행동 가치 함수 (Q) 의 갱신의 타이밍을 어긋나게 함으로써, 행동 (at) 에 수반하여 보수 (rt) 의 산출에 사용하는 상류측 검출값 (Afu) 등을, 행동 (at) 에 기초하는 조작의 타이밍에 대하여 어긋나게 한 타이밍으로 샘플링 된 것으로 해도 된다.
무엇보다 이것을 대신해서, 보수를 축차 주는 대신에, 몬테 카를로법을 사용함으로써 이러한 문제에 대처해도 된다.
·「선택 처리에 대해서」
도 10 의 S44 의 처리에 있어서, 반드시 그리디 행동을 선택하는 것으로 하고, S50a ∼ S54, S58 의 처리를 삭제하고, S42 ∼ S46 의 처리를 반복하도록 해도 된다. 또한, 행동 가치 함수를 함수 근사기에 의해 표현하는 경우, S44 의 처리는, 행동 (a) 의 각 성분에 의한 편미분 등에 기초하여 최대값을 탐색하는 처리로 하면 된다. 무엇보다, 이것을 대신해서, 행동 (a) 에 대해서는, 이산적인 값만 정의하고, S42 의 처리에 의해 취득된 상태가 입력된 함수 근사기에 행동의 후보를 입력하고, 함수 근사기의 출력값이 최대가 되는 행동을 선택해도 된다. 이 경우, 선택에 앞서, 함수 근사기의 출력값을 미리 소프트 맥스 함수에 의해 규격화해도 된다.
차량용 제어 데이터의 생성 방법에 대해서
도 4 의 S44 의 처리에서는, 행동 가치 함수 (Q) 에 기초하여 행동을 결정하는 처리를 예시했지만, 이것에 한정되지 않고, 차량의 출하 전에 있어서의 차량용 제어 데이터의 생성 공정 등에 있어서는, 취할 수 있는 모든 행동을 등확률로 선택해도 된다.
제어용 사상 데이터에 대해서
도 2 의 처리에서는, 모든 조작량의 입력 변수가 동일했지만 이것에 한정되지 않는다. 예를 들어, 조작량의 설정에 있어서 상관이 낮은 상태를 삭제해도 된다. 이것은, 예를 들어, 함수 근사기를 사용하여 강화 학습을 실행할 때, L1 정칙화 (正則化) 항을 사용하는 것 등에 의해, 파라미터 (θ) 를 갱신함으로써, 적합하게 실현할 수 있다.
차량의 상태와 기대 수익을 최대화하는 내연 기관 (10) 의 조작부의 조작량을 1 대 1 로 대응지음으로써 차량의 상태를 입력으로 하여 기대 수익을 최대화하는 조작량을 출력하는 제어용 사상 데이터로는, 맵 데이터 (96b) 에 한정되지 않는다. 예를 들어, 도 4 의 처리에 있어서 행동 가치 함수 (Q) 를 갱신하는 대신에, 방책 구배법으로 방책 (π) 의 파라미터 (θ) 를 갱신하는 것으로 하고, 학습 후의 평균값 (μ(1), μ(2), …) 을 정하는 함수 근사기 자체를, 제어용 사상 데이터로서 제어 장치 (90) 에 실장해도 된다. 이에 따라, CPU (92) 는, 상태 (s) 를 함수 근사기에 대한 입력으로서 평균값 (μ(1), μ(2), …) 을 구하고, 이것을 각 조작량으로서 조작 신호 (MS1, MS2, …) 를 조작하면 된다.
또한, 제어용 사상 데이터로는, 차량의 상태를 입력으로 하고 내연 기관 (10) 의 조작부의 조작량을 출력으로 하는 사상을 규정하는 데이터에 한정되지 않고, 예를 들어 차량의 상태를 입력으로 하고 변속 장치 (80) 의 조작량이나 제어량을 출력으로 하는 사상을 규정하는 데이터여도 된다. 또 예를 들어, 차량의 상태를 입력으로 하고 제 1 모터 제너레이터 (162) 및 제 2 모터 제너레이터 (166) 의 제어량을 출력으로 하는 사상을 규정하는 데이터여도 된다.
제어용 사상 데이터의 생성 방법에 대해서
도 4 의 처리에 있어서, S56 의 처리에 있어서 긍정 판정되는 경우, 각 상태 (s) 와 그리디 행동 (a) 의 세트를 대표점으로 정의하여, 행동 가치 함수의 독립 변수의 정의역에 있어서의 행동을, 대표점 및 대표점으로부터 1 단위만큼 어긋난 값으로 재정의하고, S42 ∼ S56 의 처리를 반복해도 된다. 무엇보다, 대표점 및 대표점으로부터 1 단위만큼 어긋난 값을 정의역으로 하는 것 자체, 필수는 아니다.
도 6 에 예시한 처리에서는, 상태 (s) 에 따라 테이블 형식의 함수로서의 행동 가치 함수 (Q) 의 값이 최대가 되는 행동 (a) 을 선택하고, 상태 (s) 및 행동 (a) 의 세트에 기초하여, 맵 데이터를 생성했지만, 이것에 한정되지 않는다. 예를 들어, 함수 근사기에 의해 표현된 행동 가치 함수 (Q) 를 사용해도 된다. 무엇보다, 행동 가치 함수 (Q) 를 사용하는 것에도 한정되지 않는다. 예를 들어 도 4 의 처리에 있어서 행동 가치 함수 (Q) 를 갱신하는 대신에, 방책 구배법으로 방책 (π) 의 파라미터 (θ) 를 갱신하는 것으로 하고, 도 6 의 처리에 있어서는, 상태 (s) 에 따라 정해지는 평균값 (μ) 을 행동으로 해도 된다.
차량용 제어 시스템에 대해서
도 20 에 나타낸 예에서는, 보수를, 데이터 해석 센터 (200) 로 산출했지만, 이것에 한정되지 않고, 제어 장치 (90) 측에서 산출하고, 데이터 해석 센터 (200) 에 송신해도 된다.
도 18 및 도 20 에 나타낸 예에서는, 방책 구배법을 사용했지만, 이것에 한정되지 않는다. 예를 들어, 테이블 형식의 행동 가치 함수 (Q) 나, 함수 근사기에 의해 표현된 행동 가치 함수 (Q) 를 사용해도 된다.
실행 장치에 대해서
실행 장치로는, CPU (92 (152, 202)) 와 ROM (94 (154, 204)) 을 구비하여, 소프트웨어 처리를 실행하는 것에 한정되지 않는다. 예를 들어, 상기 실시형태에 있어서 소프트웨어 처리된 것의 적어도 일부를, 하드웨어 처리하는 전용의 하드웨어 회로 (예를 들어 ASIC 등) 를 구비해도 된다. 즉, 실행 장치는, 이하의 (a) ∼ (c) 중 어느 것의 구성이면 된다.
(a) 상기 처리 전부를, 프로그램에 따라서 실행하는 처리 장치와, 프로그램을 기억하는 ROM 등의 프로그램 격납 장치를 구비한다.
(b) 상기 처리의 일부를 프로그램에 따라서 실행하는 처리 장치 및 프로그램 격납 장치와, 나머지 처리를 실행하는 전용 하드웨어 회로를 구비한다.
(c) 상기 처리 전부를 실행하는 전용 하드웨어 회로를 구비한다. 여기서, 처리 장치 및 프로그램 격납 장치를 구비한 소프트웨어 실행 장치나, 전용 하드웨어 회로는 복수여도 된다.
기억 장치에 대해서
상기 실시형태에서는, 관계 규정 데이터 (96a, 156a) 가 기억되는 기억 장치와, 학습 프로그램 (94a, 154a) 이나 제어 프로그램 (94b), 제어 서브 프로그램 (94c), 제어 메인 프로그램 (204a) 이 기억되는 기억 장치 (ROM (94, 154, 204)) 를 다른 기억 장치로 했지만, 이것에 한정되지 않는다. 또, 예를 들어, 상기 실시형태에 있어서, 학습 프로그램 (94a, 154a) 에 학습율 (α) 의 데이터를 포함시키지 않고, 학습 프로그램 (94a, 154a) 자체는 ROM (94, 154, 204) 에 기억하기는 하지만, 학습율 (α) 에 대해서는, 기억 장치 (96, 156, 206) 에 기억해도 된다.
내연 기관에 대해서
내연 기관으로는, 포트 분사 밸브 (18) 및 통내 분사 밸브 (28) 의 쌍방을 구비하는 것에 한정되지 않고, 그들 2 종류의 연료 분사 밸브 중 어느 1 종류만을 구비하는 것이어도 된다. 내연 기관 (10) 이 과급기 (14) 를 구비하고 있는 것은 필수는 아니다. 또 예를 들어, EGR 통로 (52) 나 EGR 밸브 (54) 를 구비하지 않아도 된다. 또한, 과급기 (14) 를 구비하지 않는 경우, 캐니스터 (66) 로부터 흡기 통로 (12) 에 대한 연료 증기의 유량을 조정하는 조정 장치로서, 퍼지 펌프 (68) 대신에 퍼지 밸브를 사용해도 된다. 그 경우, 행동에 퍼지 밸브의 개구도 등을 사용해도 된다.
내연 기관으로는, 불꽃 점화식 내연 기간에 한정되지 않고, 예를 들어 연료로서 경유 등을 사용하는 압축 착화식 내연 기관 등이어도 된다.
·「하이브리드 차량에 대해서」
하이브리드 차량으로는, 시리즈·패러렐 하이브리드 차에 한정되지 않고, 예를 들어 시리즈 하이브리드 차나, 패러렐 하이브리드 차여도 된다.
그 외
회전 전기의 구동 회로로는, 인버터에 한정되지 않고, 예를 들어 회전 전기가 직류 회전 전기인 경우, H 브릿지 회로를 사용해도 된다. 축전 장치로는, 배터리 (170) 에 한정되지 않고, 예를 들어, 캐패시터여도 된다.

Claims (13)

  1. 차량용 제어 데이터의 생성 방법으로서,
    기억 장치 (96 ; 156) 가, 내연 기관 (10) 의 상태를 포함한 상기 내연 기관을 구비하는 차량의 상태와 상기 내연 기관의 조작부 (16, 18, 28, 30, 46, 50, 54, 64, 68) 의 조작량의 관계를 규정하는 데이터인 관계 규정 데이터 (96a ; 156a) 를 기억하는 것 ;
    실행 장치 (92, 94 ; 152, 154) 가, 상기 조작부를 조작하는 것,
    상기 실행 장치가, 상기 차량의 상태를 검출하는 센서의 검출값을 취득하는 것,
    상기 실행 장치가, 상기 검출값에 기초하여, 연료 소비율, 배기 특성, 및 드라이버빌리티의 적어도 1 개의 관점으로 이루어지는 보수를 산출하는 것 ; 및
    상기 실행 장치가, 상기 검출값에 기초하는 상기 차량의 상태, 상기 조작부의 조작에 사용된 조작량, 및 그 조작에 대응하는 상기 보수를 인수 (引數) 로 하고, 상기 관계 규정 데이터에 따라서 상기 조작부가 조작되는 경우에 산출되는 상기 보수에 대한 기대 수익이 증가하도록 갱신된 상기 관계 규정 데이터를 반환하는, 미리 정해진 갱신 사상 (寫像) 을 사용하여, 상기 관계 규정 데이터를 갱신하는 것을 포함하는, 차량용 제어 데이터의 생성 방법.
  2. 제 1 항에 있어서,
    상기 보수는, 상기 배기 특성이 소정의 특성인 경우, 상기 배기 특성이 소정의 특성이 아닌 경우보다 크고,
    상기 소정의 특성은, 질소산화물의 배출량이 소정 범위 내에 있는 것, 미연 연료의 배출량이 소정 범위 내에 있는 것, 입자상 물질의 배출량이 소정 범위 내에 있는 것, 및 상기 내연 기관의 배기 통로에 형성된 촉매의 온도가 소정 범위 내에 있는 것 중의 적어도 1 개를 포함하는, 차량용 제어 데이터의 생성 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 실행 장치는, 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 차량의 가속도가 제 1 소정 범위 내에 있는 경우, 상기 차량의 가속도가 상기 제 1 소정 범위 외인 경우보다 큰 것 ; 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 차량의 가가속도가 제 2 소정 범위 내에 있는 경우, 상기 가가속도가 상기 제 2 소정 범위 외인 경우보다 큰 것 ; 및, 상기 드라이버빌리티의 관점에 의해 정량화된 보수는, 상기 내연 기관이 발생하는 소리의 크기가 제 3 소정 범위 내에 있는 경우, 상기 소리의 크기가 상기 제 3 소정 범위 외인 경우보다 큰 것 중의 적어도 1 개를 만족하도록, 상기 보수를 산출하는, 차량용 제어 데이터의 생성 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 실행 장치가, 갱신된 상기 관계 규정 데이터에 기초하여, 상기 차량의 상태와 상기 기대 수익을 최대화하는 상기 조작량을 1 대 1 로 대응지음으로써, 상기 차량의 상태를 인수로 하고 상기 기대 수익을 최대화하는 상기 조작량을 반환하는 제어용 사상 데이터를 생성하는 것을 추가로 포함하는, 차량용 제어 데이터의 생성 방법.
  5. 차량용 제어 장치로서,
    제 1 항 내지 제 3 항 중 어느 한 항에 기재된 차량용 제어 데이터의 생성 방법을 실행하도록 구성된 기억 장치 및 실행 장치를 구비하고,
    상기 실행 장치는, 상기 관계 규정 데이터와 상기 차량의 상태에 의해 정해지는 상기 조작량에 기초하여 상기 조작부를 조작하도록 구성되어 있는, 차량용 제어 장치.
  6. 제 5 항에 있어서,
    상기 실행 장치는,
    상기 검출값으로서, 상기 내연 기관의 출력 및 토크의 2 개 중의 적어도 1 개의 요구값 및 산출값을 취득하고,
    상기 요구값 및 상기 산출값의 차의 절대값이 소정값 이하인 경우, 상기 절대값이 상기 소정값보다 큰 경우보다 상기 보수가 커지도록 상기 보수를 산출하도록 구성되어 있는, 차량용 제어 장치.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 차량은, 상기 내연 기관의 크랭크축의 회전 속도를 변속하여 출력하도록 구성되고, 또한, 변속비를 변경 가능하게 구성된 변속 장치 (80) 를 구비하고,
    상기 관계 규정 데이터 (96a) 에 의해 규정되는 관계는, 상기 변속 장치의 상태와 상기 변속 장치의 조작량의 관계를 포함하고,
    상기 실행 장치 (92, 94) 는,
    상기 변속 장치의 상태를 검출하도록 구성된 센서가 검출한 값을 상기 검출값으로서 취득하고,
    상기 보수는, 상기 변속 장치에 의한 변속비의 전환에 필요로 하는 시간이 소정 시간 이내인 경우, 상기 시간이 상기 소정 시간을 초과하는 경우의 상기 보수보다 큰 것 ; 상기 보수는, 상기 변속 장치의 입력축의 회전 속도의 변화 속도의 절대값이 입력측 소정값 이하인 경우, 상기 입력축의 회전 속도의 변화 속도의 절대값이 상기 입력측 소정값을 초과하는 경우보다 큰 것 ; 상기 보수는, 상기 변속 장치의 출력축의 회전 속도의 변화 속도의 절대값이 출력측 소정값 이하인 경우, 상기 출력축의 회전 속도의 속도 변화의 절대값이 상기 출력측 소정값을 초과하는 경우의 상기 보수보다 큰 것 ; 및, 상기 보수는, 상기 변속 장치의 솔레노이드 밸브 (80a) 에 의해 조정되는 유압이 소정의 조건을 만족하는 경우, 상기 유압이 상기 소정의 조건을 만족하지 않는 경우보다 큰 것 중 적어도 1 개를 만족하도록 상기 보수를 산출하고,
    상기 변속 장치의 상태에 관한 상기 검출값을 인수로 하는 상기 갱신 사상을 사용하여, 상기 관계 규정 데이터에 의해 규정된 상기 변속 장치의 상태와 상기 변속 장치의 조작량의 관계를 갱신하도록 구성되는, 차량용 제어 장치.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 차량은, 구동륜 (88) 에 동력을 부여하도록 구성된 회전 전기 (電機) (162, 166) 를 구비하고,
    상기 관계 규정 데이터에 의해 규정되는 관계는, 상기 회전 전기에 전력을 공급하는 축전 장치 (170) 의 상태와 상기 회전 전기의 제어량의 관계를 포함하고,
    상기 실행 장치는,
    상기 회전 전기의 구동 회로를 조작하고,
    상기 검출값으로서, 상기 축전 장치의 상태를 취득하고,
    상기 보수가, 상기 축전 장치의 상태가 소정 범위 내에 있는 경우, 상기 축전 장치의 상태가 소정 범위 외가 되는 경우보다 커지도록, 상기 보수를 산출하고,
    상기 상기 축전 장치의 상태와, 상기 회전 전기의 제어량을 상기 갱신 사상의 인수로 함으로써, 상기 관계 규정 데이터에 의해 규정되는 상기 축전 장치의 상태와 상기 회전 전기의 제어량의 관계를 갱신하도록 구성되는, 차량용 제어 장치.
  9. 제 8 항에 있어서,
    상기 실행 장치는,
    검출값으로서, 상기 차량의 출력 및 구동 토크의 2 개 중 적어도 1 개의 요구값 및 산출값을 취득하고,
    상기 보수가, 상기 차량의 출력 및 상기 구동 토크의 2 개 중 상기 적어도 1 개에 대한 상기 요구값 및 상기 산출값의 차의 절대값이 소정값 이하인 경우, 상기 절대값이 상기 소정값보다 큰 경우보다 커지도록, 상기 보수를 산출하도록 구성되는, 차량용 제어 장치.
  10. 제 5 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 관계 규정 데이터는, 상기 차량의 상태와, 상기 기대 수익과, 상기 조작량의 관계를 규정하는 데이터를 포함하고,
    상기 실행 장치는 또한, 상기 검출값과 상기 관계 규정 데이터에 기초하여, 상기 기대 수익을 크게 하는 조작량을 작게 하는 조작량보다 우선하여 선택하도록 구성되고,
    상기 실행 장치는, 선택된 상기 조작량에 기초하여 상기 조작부를 조작하도록 구성되는, 차량용 제어 장치.
  11. 제 5 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 관계 규정 데이터는, 상기 차량의 상태를 인수로 하고, 상기 조작량의 선택 확률을 반환하는 함수 근사기를 규정하는 데이터이며,
    상기 갱신 사상은, 상기 함수 근사기를 규정하는 파라미터의 갱신량을 반환하는 사상을 포함하는, 차량용 제어 장치.
  12. 차량용 제어 시스템으로서,
    제 5 항 내지 제 11 항 중 어느 한 항에 기재된 차량용 제어 장치를 구비하고,
    상기 실행 장치는, 상기 차량에 탑재되는 제 1 실행 장치와, 차재 장치와는 다른 제 2 실행 장치를 포함하고,
    상기 제 1 실행 장치는, 적어도 상기 취득하는 것과 상기 조작하는 것을 실행하고,
    상기 제 2 실행 장치는, 적어도 상기 갱신하는 것을 실행하는, 차량용 제어 시스템.
  13. 제 12 항에 있어서,
    상기 제 1 실행 장치는, 또한,
    상기 검출값에 관한 데이터를 상기 제 2 실행 장치에 송신하는 것,
    상기 제 2 실행 장치에 의해 송신된 상기 조작량을 수신하는 것,
    상기 제 2 실행 장치로부터 수신한 상기 조작량에 기초하여 상기 조작부를 조작하는 것을 실행하도록 구성되고,
    상기 제 2 실행 장치는, 또한,
    상기 제 1 실행 장치에 의해 송신된 데이터를 수신하는 것,
    상기 제 1 실행 장치로부터 수신한 상기 데이터와 상기 관계 규정 데이터에 기초하여 상기 조작량을 산출하는 것,
    산출한 상기 조작량을 송신하는 것을 실행하도록 구성되는, 차량용 제어 시스템.
KR1020200131983A 2019-10-18 2020-10-13 차량용 제어 데이터의 생성 방법, 차량용 제어 장치, 차량용 제어 시스템 KR20210046557A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019191092A JP6970156B2 (ja) 2019-10-18 2019-10-18 車両の制御に用いるデータの生成方法、車両用制御装置、車両用制御システム、車載装置および車両用学習装置
JPJP-P-2019-191092 2019-10-18

Publications (1)

Publication Number Publication Date
KR20210046557A true KR20210046557A (ko) 2021-04-28

Family

ID=72885418

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200131983A KR20210046557A (ko) 2019-10-18 2020-10-13 차량용 제어 데이터의 생성 방법, 차량용 제어 장치, 차량용 제어 시스템

Country Status (13)

Country Link
US (1) US11673556B2 (ko)
EP (1) EP3809340A1 (ko)
JP (1) JP6970156B2 (ko)
KR (1) KR20210046557A (ko)
CN (1) CN112677984A (ko)
AU (1) AU2020256407B2 (ko)
BR (1) BR102020020775A2 (ko)
CA (1) CA3096152A1 (ko)
MX (1) MX2020010940A (ko)
PH (1) PH12020050409A1 (ko)
RU (1) RU2747276C1 (ko)
SG (1) SG10202010147SA (ko)
TW (1) TW202117179A (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11603111B2 (en) * 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7205503B2 (ja) 2020-01-22 2023-01-17 トヨタ自動車株式会社 内燃機関の制御装置
JP7222366B2 (ja) * 2020-01-27 2023-02-15 トヨタ自動車株式会社 内燃機関の制御装置
JP7359011B2 (ja) 2020-02-05 2023-10-11 トヨタ自動車株式会社 内燃機関の制御装置
US11459962B2 (en) * 2020-03-02 2022-10-04 Sparkcognitton, Inc. Electronic valve control
JP7409345B2 (ja) * 2021-03-31 2024-01-09 横河電機株式会社 学習処理装置、制御装置、学習処理方法、制御方法、学習プログラムおよび制御プログラム
CN113638812B (zh) * 2021-08-30 2023-04-25 深圳天鹰兄弟无人机创新有限公司 一种混合动力无人机增程器控制系统
CN114148343A (zh) * 2021-12-23 2022-03-08 盛瑞传动股份有限公司 一种车辆控制方法、装置、电子设备及计算机存储介质
DE102022103270A1 (de) * 2022-02-11 2023-08-17 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Assistenzsystem zur automatischen Geräuschoptimierung und Kraftfahrzeug
WO2024012655A1 (en) * 2022-07-11 2024-01-18 Volvo Truck Corporation Improved estimation of effective wheel rolling radius

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6549815B1 (en) 1999-03-02 2003-04-15 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristics of device, using heuristic method
JP2000250604A (ja) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
US6879054B2 (en) * 2002-03-15 2005-04-12 Azure Dynamics Inc. Process, apparatus, media and signals for controlling operating conditions of a hybrid electric vehicle to optimize operating characteristics of the vehicle
US7415389B2 (en) * 2005-12-29 2008-08-19 Honeywell International Inc. Calibration of engine control systems
GB0605069D0 (en) * 2006-03-14 2006-04-26 Airmax Group Plc Method and system for driver style monitoring and analysing
JP4245626B2 (ja) * 2006-10-11 2009-03-25 トヨタ自動車株式会社 車両およびその制御方法
JP5162998B2 (ja) * 2006-10-12 2013-03-13 日産自動車株式会社 ハイブリッド車両のモード切り替え制御装置
US7954579B2 (en) * 2008-02-04 2011-06-07 Illinois Institute Of Technology Adaptive control strategy and method for optimizing hybrid electric vehicles
US7945370B2 (en) * 2008-02-07 2011-05-17 Caterpillar Inc. Configuring an engine control module
KR20140132775A (ko) * 2008-03-19 2014-11-18 클린 에미션스 테크놀로지스, 인코포레이티드 전기 견인 시스템 및 방법
US8060290B2 (en) * 2008-07-17 2011-11-15 Honeywell International Inc. Configurable automotive controller
JP5225322B2 (ja) 2010-04-21 2013-07-03 ジヤトコ株式会社 自動変速機の制御装置及び制御方法
JP4975158B2 (ja) * 2010-11-08 2012-07-11 本田技研工業株式会社 プラントの制御装置
KR101371461B1 (ko) * 2012-09-06 2014-03-10 기아자동차주식회사 하이브리드 차량의 엔진클러치의 토크전달 시작점 학습 제어 방법 및 시스템
US9371792B2 (en) * 2013-06-27 2016-06-21 Hondata, Inc. Active tuning system for engine control unit
JP5864510B2 (ja) * 2013-10-18 2016-02-17 富士通株式会社 修正プログラム確認方法、修正プログラム確認プログラム、及び情報処理装置
US9182764B1 (en) * 2014-08-04 2015-11-10 Cummins, Inc. Apparatus and method for grouping vehicles for cooperative driving
CA2907299A1 (en) * 2014-10-06 2016-04-06 Shem, Llc Vehicle operator incentive system and vehicle fleet management platform
US20160131062A1 (en) 2014-11-10 2016-05-12 Caterpillar Inc. Engine system utilizing selective engine optimization
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置
JP6414143B2 (ja) * 2016-06-16 2018-10-31 トヨタ自動車株式会社 内燃機関の制御装置
US10902347B2 (en) * 2017-04-11 2021-01-26 International Business Machines Corporation Rule creation using MDP and inverse reinforcement learning
JP6950524B2 (ja) 2017-12-28 2021-10-13 トヨタ自動車株式会社 ハイブリッド車両の制御装置
US10746123B2 (en) * 2018-08-21 2020-08-18 Cummins Inc. Deep reinforcement learning for air handling and fuel system referencing
CN109709956B (zh) 2018-12-26 2021-06-08 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
JP6547991B1 (ja) * 2019-02-20 2019-07-24 トヨタ自動車株式会社 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置
CN110254418B (zh) 2019-06-28 2020-10-09 福州大学 一种混合动力汽车增强学习能量管理控制方法
JP7439680B2 (ja) * 2020-07-28 2024-02-28 トヨタ自動車株式会社 変速制御データの生成方法、変速制御装置、変速制御システム、および車両用学習装置

Also Published As

Publication number Publication date
US11673556B2 (en) 2023-06-13
AU2020256407B2 (en) 2022-03-03
CA3096152A1 (en) 2021-04-18
US20210115834A1 (en) 2021-04-22
RU2747276C1 (ru) 2021-05-04
JP6970156B2 (ja) 2021-11-24
TW202117179A (zh) 2021-05-01
AU2020256407A1 (en) 2021-05-06
EP3809340A1 (en) 2021-04-21
SG10202010147SA (en) 2021-05-28
PH12020050409A1 (en) 2021-08-23
BR102020020775A2 (pt) 2021-07-13
MX2020010940A (es) 2021-04-19
CN112677984A (zh) 2021-04-20
JP2021067191A (ja) 2021-04-30

Similar Documents

Publication Publication Date Title
KR20210046557A (ko) 차량용 제어 데이터의 생성 방법, 차량용 제어 장치, 차량용 제어 시스템
US11225924B2 (en) Imbalance detection device, imbalance detection system, data analysis device, and controller for internal combustion engine
US11473477B2 (en) Catalyst deterioration detection device, catalyst deterioration detection system, data analysis device, control device of internal combustion engine, and method for providing state information of used vehicle
JP7302466B2 (ja) 車両用内燃機関の劣化判定装置
JP2021067196A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN101438046A (zh) 内燃机装置和内燃机的失火判定方法
JP7331704B2 (ja) 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
US20210188276A1 (en) Vehicle control data generating method, vehicle controller, vehicle control system, and vehicle learning device
US11436488B2 (en) Control device
US11125179B2 (en) Vehicle controller, vehicle control system, vehicle learning device, vehicle learning method, vehicle control method, and memory medium
US20210213966A1 (en) Vehicle control data generation method, vehicle controller, vehicle control system, vehicle learning device, vehicle control data generation device, and memory medium
Vermillion et al. Model predictive engine torque control with real-time driver-in-the-loop simulation results
Thibault et al. Reduction of pollutant emissions of diesel mild hybrid vehicles with an innovative energy management strategy
CN112682196A (zh) 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
CN113266481A (zh) 车辆控制方法、车辆用控制装置以及服务器
CN113217204A (zh) 车辆控制方法、车辆用控制装置以及服务器
JP2021067260A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021066418A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7205456B2 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
JP7276110B2 (ja) パワートレーンシステム
JP7205460B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021067256A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2020133620A (ja) 触媒劣化検出装置、触媒劣化検出システム、データ解析装置、内燃機関の制御装置、および中古車の状態情報提供方法
Yildiz et al. Automotive powertrain control problems involving time delay: An adaptive control approach
Radmilovic et al. Vibration comfort control for HEV based on machine learning

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right