WO2021214852A1 - 情報処理装置および空調システム - Google Patents

情報処理装置および空調システム Download PDF

Info

Publication number
WO2021214852A1
WO2021214852A1 PCT/JP2020/017134 JP2020017134W WO2021214852A1 WO 2021214852 A1 WO2021214852 A1 WO 2021214852A1 JP 2020017134 W JP2020017134 W JP 2020017134W WO 2021214852 A1 WO2021214852 A1 WO 2021214852A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
temperature
stage
air
open
Prior art date
Application number
PCT/JP2020/017134
Other languages
English (en)
French (fr)
Inventor
昂樹 七條
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2022516501A priority Critical patent/JP7305041B2/ja
Priority to PCT/JP2020/017134 priority patent/WO2021214852A1/ja
Publication of WO2021214852A1 publication Critical patent/WO2021214852A1/ja

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data

Definitions

  • This disclosure relates to an information processing device and an air conditioning system.
  • Japanese Patent Application Laid-Open No. 2019-522163 discloses a controller that controls the operation of an air conditioning system that regulates an indoor space.
  • This controller includes a processor that transmits control commands by using a reinforcement learning algorithm, and a data output unit that receives control commands from the processor and transmits control signals to an air conditioning system.
  • the controller disclosed in Japanese Patent Publication No. 2019-522163 performs learning based on the evaluation of comfort by individual experience.
  • the information from the temperature sensor is acquired to grasp the spatial information, but since the disturbance that changes the temperature cannot be considered, the set temperature may not be reached due to the influence of the disturbance even after learning for a long time. is assumed. If the information acquired in learning is not accurate, there is a high possibility that learning will diverge, and it is assumed that the conventional controller will perform control that is not intended by the user.
  • the information processing device and the air conditioning system of the present disclosure solve the above-mentioned problems and acquire appropriate air conditioning control even when used in an environment where there are a plurality of users such as offices and there is a lot of disturbance. ..
  • the present disclosure relates to an information processing device that learns an estimation model for estimating control parameters of an air conditioner.
  • the information processing device has first data indicating the state of the target space for air conditioning, second data indicating whether or not the target space is stable, and a setting that is a target value of the temperature of the target space set in the air conditioning device. It includes an acquisition unit that acquires the third data indicating the temperature, and a model generation unit that generates an estimation model based on the learning data including the first to third data acquired by the acquisition unit.
  • the model generation unit performs the first stage learning when the second data acquired by the acquisition unit indicates the stability of the target space.
  • the model generation unit takes over the estimation model generated in the first stage learning when the second data acquired by the acquisition unit does not show the stability of the target space after the completion of the first stage learning. Perform the second stage of learning.
  • FIG. 1 shows the schematic block diagram of the air-conditioning system of this embodiment. It is the figure of the environment assuming the actual use of the air conditioning system. It is a flowchart for demonstrating control in 1st stage learning. It is a block diagram of the machine learning apparatus realized by the CPU and the memory of the remote controller 1. It is a flowchart about the learning process of a learning device. It is a block diagram of the inference device realized by the CPU and the memory of the remote controller 1. It is a flowchart about inference processing of a learning device. It is a flowchart (first half) for explaining the control in the 2nd stage of learning. It is a flowchart (second half) for explaining the control in the 2nd stage of learning. It is a figure which shows an example of the temperature correction value of a temperature sensor.
  • FIG. 1 is a diagram showing a schematic configuration diagram of the air conditioning system of the present embodiment.
  • FIG. 2 is a diagram of an environment assuming actual use of an air conditioning system.
  • the air-conditioning system 10 shown in FIG. 1 includes an air-conditioning device 20 for air-conditioning the target space 30 for air-conditioning, a remote controller 1, a plurality of temperature sensors 2A and 2B, and a plurality of open / close pairs paired with the temperature sensors 2A and 2B, respectively. It includes sensors 3A and 3B.
  • the air conditioner 20 includes indoor units 4A and 4B and outdoor units 5A and 5B.
  • the indoor unit 4A and the outdoor unit 5A constitute a refrigeration cycle device that circulates the refrigerant.
  • the indoor unit 4B and the outdoor unit 5B form a refrigeration cycle device that circulates the refrigerant.
  • one outdoor unit common to the indoor units 4A and 4B may be provided.
  • the remote controller 1 capable of wirelessly or wired communication with respect to the temperature sensors 2A and 2B, the open / close sensors 3A and 3B, the indoor units 4A and 4B, and the outdoor units 5A and 5B will be described.
  • One of the features of the remote controller 1 is to control the indoor units 4A and 4B based on the sensor information acquired by wireless communication.
  • the remote controller 1 acquires temperature information at an arbitrary time by the temperature sensors 2A and 2B.
  • the remote controller 1 learns based on the acquired temperature information, the set temperature and the control content, and the temperature information after the lapse of an arbitrary time, and acquires the appropriate control content for the target space 30 of the air conditioning to reach the set temperature. do.
  • the remote controller 1 is a control device that controls the air conditioner 20, and includes a CPU 11, a memory 12, a temperature sensor 13, an input device 14, and a communication device 15.
  • the remote controller 1 transmits control signals (A1 to A3, B1 to B3) from the communication device 15 to the indoor units 4A and 4B, respectively.
  • the temperature sensor 13 detects the temperature Tr in the room.
  • the remote controller 1 is for generating a model that outputs control signals (A1 to A3, B1 to B3) based on the temperature information obtained from the temperature sensors 2A and 2B and the disturbance information obtained from the open / close sensors 3A and 3B. It is also an information processing device that performs learning.
  • the input device 14 of the remote controller 1 includes a push button for the user to switch ON / OFF of the indoor unit, a button for inputting a set temperature, and the like.
  • the communication device 15 is for communicating with the indoor units 4A and 4B.
  • the memory 12 includes, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), and a flash memory.
  • the flash memory stores the operating system, application programs, and various types of data.
  • the CPU 11 controls the overall operation of the air conditioner 20.
  • the remote controller 1 shown in FIG. 1 is realized by the CPU 11 executing an operating system and an application program stored in the memory 12. When executing the application program, various data stored in the memory 12 are referred to.
  • a receiving device for receiving the control signal from the communication device 15 is provided in each of the indoor units 4A and 4B.
  • the open / close sensor 3A detects the open / closed state OSA of the window 32, and the remote controller 1 receives the open / closed state OSA of the window 32 via the communication device 15.
  • the open / close sensor 3B detects the open / closed state OSB of the door 31, and the remote controller 1 receives the open / closed state OSB of the door 31 via the communication device 15.
  • a signal indicating the ON / OFF state of the ventilation fan may be transmitted to the remote controller 1 instead of the detection signal of the open / close sensor.
  • the temperature sensor 2A is installed near the window 32, detects the temperature TA in the room near the window 32, and transmits the detected temperature TA to the remote controller 1.
  • the temperature sensor 2B is installed near the door 31, detects the temperature TB in the room near the door 31, and transmits the detected temperature TB to the remote controller 1.
  • the remote controller 1 is installed on the wall of the room, which is the target space 30 for air conditioning, for example.
  • Signal transmission / reception between the indoor units 4A and 4B and each sensor and the communication device 15 of the remote controller 1 is performed by a wireless transmission method such as Bluetooth (registered trademark).
  • the remote controller 1 for air conditioning of the present embodiment acquires information indicating the state of the target space 30 for air conditioning from the temperature sensors 2A, 2B, the open / close sensors 3A, 3B, and the like, and learns based on the information. , Acquire control contents suitable for the installation environment.
  • the remote controller 1 for air conditioning improves the comfort of the air conditioning system 10.
  • the remote controller 1 realizes optimum control of the air conditioning system with respect to the set contents by the learned model obtained by learning.
  • the air conditioning system 10 operates only with the indoor units 4A and 4B, the outdoor units 5A and 5B, and the remote controller 1.
  • the set temperature Tset which is the target temperature of the air-conditioning target space 30, is set in the remote controller 1 during each operation of the cooling operation and the heating operation.
  • the control by the remote controller is performed based on the room temperature Tr acquired by the temperature sensor 13.
  • the control method executed by the remote controller 1 in the present embodiment will be described below.
  • the remote controller 1 acquires control suitable for the environment in which it is used by learning.
  • the inputs for learning are the temperatures TA and TB obtained from the temperature sensors 2A and 2B, the open / closed states OSA and OSB obtained from the open / close sensors 3A and 3B, the set temperature Tset, the blowout temperature A1 of the indoor unit 4A, and the air volume.
  • A2, the wind direction A3, the blowout temperature B1 of the indoor unit 4B, the air volume B2, and the wind direction B3 are used.
  • the temperature sensor 2A and the open / close sensor 3A are paired, and the temperature sensor 2B and the open / close sensor 3B are paired. Disturbances such as inflow of outside air with respect to the temperature acquired by the temperature sensors 2A and 2B are detected by the open / close sensors 3A and 3B.
  • the pairing of the temperature sensor and the corresponding open / close sensor can be changed by setting the remote controller 1 so that the arrangement of the temperature sensors 2A and 2B and the open / close sensors 3A and 3B can be changed.
  • the remote controller 1 is also equipped with a temperature sensor 13 that detects the room temperature.
  • the detected temperatures TA and TB are transmitted from the temperature sensors 2A and 2B to the remote controller 1.
  • the open / close state OSA and OSB are transmitted from the open / close sensors 3A and 3B to the remote controller 1.
  • the remote controller 1 may be like a system controller.
  • the user sets a mode for designating cooling operation, heating operation, or automatic operation, and a set temperature Tset which is a target temperature of room temperature.
  • the wind direction and air volume may be set, but in a typical example, the wind direction and air volume are set automatically, and the remote controller 1 determines for each indoor unit by learning.
  • An indoor unit 4A and an indoor unit 4B are installed in the air-conditioning target space 30.
  • Outdoor units 5A and 5B are installed outdoors corresponding to the indoor units 4A and 4B, respectively.
  • one outdoor unit may be provided in a plurality of indoor units. Further, although the configuration in which a plurality of indoor units are illustrated is illustrated, the number of indoor units may be one.
  • the remote controller 1 wirelessly transmits individual control signals to the indoor units 4A and 4B.
  • the control signal for the indoor unit 4A includes information indicating the blowout temperature A1, the air volume A2, and the wind direction A3, and the control signal for the indoor unit 4B includes information indicating the blowout temperature B1, the air volume B2, and the wind direction B3.
  • the remote controller 1 learns air conditioning control for setting the target space 30 to the set temperature Tset from the acquired information of various sensors.
  • the remote controller 1 learns air conditioning control in two stages. In the first stage, learning that eliminates disturbances is performed, and in the second stage, learning that also considers disturbances is performed.
  • the disturbance mentioned here mainly assumes the inflow of outside air due to the opening and closing of doors (windows).
  • the influence of disturbance is large and highly accurate learning cannot be performed. Therefore, first, when the state of the target space 30 for air conditioning is stable for a certain period of time or longer, learning of air conditioning control for reaching the set temperature by using the information of the temperature sensors arranged at a plurality of places in the room is learned. Do it. The learning at this time will be called the first stage learning.
  • Signals from various sensors are used to determine whether the state of the air-conditioned target space 30 is stable for a certain period of time or longer. From the information of the open / close sensors 3A and 3B shown in FIGS. 1 and 2, it is possible to determine whether or not outdoor air is coming in and out. Further, although not shown, information obtained from a switch signal of a ventilation fan, an outside air temperature sensor, a motion sensor, an illuminance sensor for determining the weather, and the like can be used for learning.
  • the remote controller 1 After completing the first stage learning, the remote controller 1 performs learning including the influence of disturbance. That is, learning is performed not only when the state of the target space 30 for air conditioning is stable for a certain period of time or longer, and even in various cases, learning of air conditioning control for reaching an applicable set temperature is performed. The learning at this time will be called the second stage learning.
  • the results of the first stage learning are also used, and in the first stage learning, the open / close sensors 3A and 3B used to judge whether the state of the target space 30 for air conditioning is stable for a certain period of time or longer.
  • Information is used as learning information.
  • sensor information such as an outside air temperature sensor, a motion sensor, and an illuminance sensor for determining the weather can be used.
  • learning under the influence of all the learned disturbances may be performed, and the learning may be further divided into steps.
  • the transition from the first stage learning to the second stage learning is executed depending on the number of driving days or the number of times the learning flow is executed. For example, the first stage of learning is executed for three days after the air conditioning system 10 is installed. Then, the model generated in the first stage learning is taken over as it is in the second stage learning, and further learning is performed.
  • the transition from the second stage learning to the first stage learning is when the deviation between the set temperature Tset and the temperatures TA and TB detected by the temperature sensors 2A and 2B exceeds the threshold value or the cooling operation. It occurs when the mode is switched between the heating operation and the heating operation.
  • FIG. 3 is a flowchart for explaining the control in the first stage learning.
  • the learning of the first stage is performed. It will be started. After that, the first stage learning is executed during a predetermined number of driving days or while the learning is executed a certain number of times.
  • step S1 the remote controller 1 acquires the temperatures TA, TB, and Tr from the temperature sensors 2A, 2B, and 13, and also acquires the open / closed states OSA and OSB of the door or window from the open / close sensors 3A and 3B.
  • step S2 the remote controller 1 determines whether or not all the doors and the like are in the open state based on the open / closed states OSA and OSB obtained from the open / close sensors 3A and 3B.
  • the information obtained from the open / close sensors 3A and 3B indicates that the door or window is closed
  • the information of the temperature sensor paired with the open / close sensor is used for learning in the first stage. If the door open / close sensor information indicates that the door or window is open, the information from the temperature sensor paired with the door open / close sensor is not used for learning in the first stage.
  • step S2 if it is determined that all the doors and the like are open (YES in S2), the information of all the temperature sensors connected to the remote controller 1 cannot be used. In that case, after waiting for n seconds (n is a natural number) in step S3, information is acquired again in step S1.
  • step S4 the current environment and control contents, which are the starting points for learning, are determined.
  • the remote controller 1 acquires the temperatures TA, TB, and Tr of the target space 30 from the temperature sensors 2A and 2B and the temperature sensor 13, and acquires the set temperature Tset, the air volume, the wind direction, and the like set by the user on the remote controller 1.
  • step S5 the remote controller 1 transmits a control signal to the indoor units 4A and 4B, and executes the operation of the air conditioner 20 for m minutes (m is a natural number). For example, at the first time, the operation is started at a blowout temperature which is a constant temperature lower than the set temperature Tset set in the remote controller 1 during cooling and a constant temperature higher during heating.
  • step S6 the remote controller 1 acquires the temperature from the temperature sensors 2A, 2B, 13 and acquires the open / closed states OSA, OSB of the door or window from the open / close sensors 3A, 3B. do.
  • step S7 the remote controller 1 determines from the open / close sensors 3A and 3B whether or not all the doors and the like are in the open state. If it is determined that all the doors and the like are in the open state (YES in S7), the time of n seconds is waited in step S8, and then the information is acquired again in step S6.
  • step S9 when the open / closed state from the open / close sensor indicates that the door or the like is closed, the remote controller 1 extracts the information of the temperature sensor paired with the open / close sensor, and sets the set temperature Tset and the extracted temperature. Compare with the information, and if the deviation is small, strengthen (learn) the control contents (blowing temperature, air volume, wind direction, etc.). For learning, for example, Q-learning is used, and the evaluation function is updated.
  • the remote controller 1 learns the control contents to be transmitted to each of the indoor units 4A and 4B.
  • FIG. 4 is a configuration diagram of a machine learning device realized by the CPU and memory of the remote controller 1.
  • the learning device 100 includes a data acquisition unit 110 and a model generation unit 120.
  • the data acquisition unit 110 includes blowout temperatures A1, B1, air volume A2, B2, wind directions A3, and B3 set in the indoor units 4A and 4B, open / close states OSA and OSB detected by open / close sensors 3A and 3B, and open / close sensors.
  • the temperatures TA and TB from the temperature sensors 2A and 2B paired with the 3A and 3B and the set temperature Tset set in the remote control 1 are acquired as learning data.
  • the blowout temperature, air volume, and wind direction set in the indoor unit correspond to "behavior" in reinforcement learning. Further, the set temperature and the temperature information from the temperature sensor extracted by the state of the open / close sensor correspond to the "state” in the reinforcement learning.
  • the model generation unit 120 sets the blowing temperature A1, the air volume A2, and the wind direction A3 in the indoor unit 4A, and the blowing temperature B1 and the air volume set in the indoor unit 4B, based on the learning data including the “behavior” and the “state”. Learn B2 and wind direction B3.
  • the blowout temperature, air volume, and wind direction set in the indoor unit correspond to the "control output" in reinforcement learning.
  • the model generation unit 120 sets the blowout temperature, air volume, and wind direction (output) set in the indoor unit from the set temperature set in the remote controller 1 and the temperature information (state) extracted from the temperature sensor extracted by the state of the open / close sensor. Generate a trained model that infers.
  • the learning algorithm used by the model generation unit 120 known algorithms such as supervised learning, unsupervised learning, and reinforcement learning can be used.
  • reinforcement learning an agent (behavior) in a certain environment observes the current state (environmental parameters) and decides the action to be taken. The environment changes dynamically depending on the behavior of the agent, and the agent is rewarded according to the change in the environment. The agent repeats this process and learns the action policy that gives the most reward through a series of actions.
  • Q-learning and TD-learning are known as typical methods of reinforcement learning.
  • the general update formula of the action value function Q (s, a) is expressed by the formula (1).
  • s t represents the state of the environment at time t
  • a t represents the behavior in time t.
  • the state is changed to s t + 1.
  • rt + 1 represents the reward received by the change of the state
  • represents the discount rate
  • represents the learning coefficient. Note that ⁇ is in the range of 0 ⁇ ⁇ 1 and ⁇ is in the range of 0 ⁇ ⁇ 1.
  • Outlet temperature is set to the indoor unit, air volume, wind direction action a t becomes the set temperature and the temperature information and the next state s t from the temperature sensor that is extracted by the state of the opening and closing sensor, the time t the state s t to learn the best of the action a t in.
  • the action value Q of the action a having the highest Q value at time t + 1 is larger than the action value Q of the action a executed at time t, the action value Q is increased. However, in the opposite case, the action value Q is reduced. In other words, the action value function Q (s, a) is updated so that the action value Q of the action a at time t approaches the best action value at time t + 1. As a result, the best behavioral value in a certain environment is sequentially propagated to the behavioral value in the previous environment.
  • the model generation unit 120 includes a reward calculation unit 121 and a function update unit 122.
  • the reward calculation unit 121 calculates the reward based on the "behavior" and "state".
  • the remuneration calculation unit 121 calculates the remuneration r based on the remuneration standard (general term for the remuneration increase standard and the remuneration decrease standard described later). For example, if the reward increase criterion is met, the reward is increased (for example, a reward of "1" is given), while if the reward decrease criterion is met, the reward is decreased (for example, a reward of "-1"). give.).
  • the reward standard is set so that the closer the temperature detected by the extracted temperature sensor is to the set temperature, the higher the reward is given.
  • the reward is determined based on, for example, the average value of the difference between the detected temperature and the set temperature, or the average value of the sum of squares of the differences. do.
  • the function update unit 122 updates the function for determining the "control output” according to the reward calculated by the reward calculation unit 121, and outputs the function to the trained model storage unit 101. For example, in the case of Q-learning, using action value represented by the formula (1) function Q (s t, a t) as a function for calculating the "control output".
  • Learned model storage unit 101 action value is updated by the function updating unit 122 function Q (s t, a t) , i.e., storing the learned model.
  • FIG. 5 is a flowchart relating to the learning process of the learning device.
  • step S11 the data acquisition unit 110 acquires "behavior” and "state” as learning data.
  • step S12 the model generation unit 120 calculates the reward based on the "behavior” and "state”. Specifically, the reward calculation unit 121 acquires "behavior” and “state”, and determines whether to increase the reward or decrease the reward based on a predetermined reward standard.
  • the reward calculation unit 121 determines that the reward is to be increased, the reward calculation unit 121 increases the reward in step S13. On the other hand, when the reward calculation unit 121 determines that the reward is to be reduced, the reward calculation unit 121 reduces the reward in step S14.
  • step S15 the function updating unit 122, based on the compensation calculated by compensation calculation unit 121, action value learned model storage unit 101 is represented by the formula (1) for storing function Q (s t, to update a t).
  • Learning apparatus 100 repeatedly performs the processing up to S15 step S11 above, and stores the generated action-value function Q (s t, a t) as a learned model.
  • FIG. 6 is a configuration diagram of an inference device realized by the CPU and memory of the remote controller 1.
  • the inference device 200 includes a data acquisition unit 201 and an inference unit 202.
  • the data acquisition unit 201 acquires the "state” of the air conditioning system 10.
  • the “state” includes the set temperature Tset and the temperatures extracted by the open / close states OSA and OSB of the open / close sensor among the temperatures TA and TB from the temperature sensor.
  • the inference unit 202 infers the "control output” using the learned model stored in the learned model storage unit 101.
  • the "control output” includes the blowout temperatures A1 and B1, the air volume A2 and B2, and the wind directions A3 and B3 set in the indoor units 4A and 4B, respectively.
  • control output is output using the learned model learned by the model generation unit 120 of the remote controller 1 of the air conditioning system 10, but it has been learned from the remote controllers of other air conditioning systems.
  • the model may be acquired and the "control output” may be output based on the learned model acquired by the remote controller 1.
  • FIG. 7 is a flowchart relating to the inference processing of the learning device.
  • step S21 the data acquisition unit 201 acquires the "state”. Subsequently, in step S22, the inference unit 202 inputs a "state” to the trained model stored in the trained model storage unit 101, and obtains a "control output”. The inference unit 202 outputs the obtained "control output” to the indoor units 4A and 4B.
  • step S23 the indoor units 4A and 4B control the blowout temperature, the wind direction, and the air volume by using the "control output". As a result, the target space 30 for air conditioning can be uniformly brought close to the set temperature.
  • the present invention is not limited to this.
  • the learning algorithm in addition to reinforcement learning, supervised learning, unsupervised learning, semi-supervised learning, and the like can also be applied.
  • the learning algorithm may be switched between the first stage and the second stage. For example, a learning algorithm of supervised learning may be adopted in the first stage and reinforcement learning may be adopted in the second stage.
  • model generation unit 120 As a learning algorithm used in the model generation unit 120, deep learning, which learns the extraction of the feature amount itself, can also be used, and other known methods such as neural networks, genetic programming, and functions can be used. Machine learning may be performed according to logical programming, support vector machines, and the like.
  • the learning device 100 and the inference device 200 may be connected to the remote controller 1 via a network and may be separate devices from the remote controller 1. Further, the learning device 100 and the inference device 200 may be built in any of the indoor units or outdoor units. Further, the learning device 100 and the inference device 200 may exist on the cloud server.
  • the model generation unit 120 uses the learning data acquired from the pair of temperature sensors and the open / close sensor, or the learning data acquired from the three or more pairs of the temperature sensor and the open / close sensor to "control output". You may try to learn. It is also possible to add or remove a temperature sensor and an open / close sensor for collecting learning data from the target on the way. It is also possible to add or remove indoor units to be controlled from the target on the way.
  • FIG. 8 is a flowchart (first half) for explaining the control in the second stage of learning.
  • FIG. 9 is a flowchart (second half) for explaining the control in the second stage of learning.
  • step S31 the remote controller 1 acquires the temperatures TA, TB, and Tr from the temperature sensors 2A, 2B, and 13, and also acquires the open / closed states OSA and OSB of the door or window from the open / close sensors 3A and 3B.
  • step S32 the remote controller 1 determines from the open / close sensors 3A and 3B whether or not there is an open door or the like.
  • the remote controller 1 corrects the temperature of the information from the temperature sensor corresponding to the open door or the like in step S33.
  • FIG. 10 is a diagram showing an example of the temperature correction value of the temperature sensor.
  • an example of the temperature correction value has the following relationship.
  • the temperature compensation value of the temperature sensor 2A installed near the window is set to -4 ° C
  • the temperature compensation value of the temperature sensor 2B installed near the door is set to -1.5 ° C.
  • the temperature correction value is set to -4 ° C and the detection temperature, which was 29 ° C, is corrected to 25 ° C. ..
  • the air in the corridor is considered to have a smaller difference from the set temperature than the outside air, so the absolute value of the temperature correction value is also set smaller.
  • the outside air directly enters from the window, it is large as a disturbance, and the door can be considered as a small disturbance because the air that is closer to the room temperature than the outside air enters.
  • the temperature correction value of the temperature sensor 2A is set to + 4 ° C
  • the temperature correction value of the temperature sensor 2B is set to + 1.5 ° C.
  • step S33 the remote controller 1 stores the temperature sensor to which the temperature correction value is applied.
  • the above temperature correction values are constant at the start of control, but change to adapt to the environment in which air conditioning is controlled.
  • step S42 The specific change of the correction value will be described later in step S42, but the temperature at the time of detecting the door opening in each temperature sensor information is compared with the temperature at the time of detecting the door closing after a short period of time.
  • step S33 If the temperature correction is executed in step S33, or if it is determined in step S32 that there is no open door or the like, the process proceeds to step S34.
  • step S34 the current environment and control contents, which are the starting points for learning, are determined.
  • the remote controller 1 acquires the temperatures TA, TB, and Tr of the air conditioning target space 30 from the temperature sensors 2A and 2B and the temperature sensor 13, and acquires the set temperature Tset, air volume, wind direction, and the like set by the user in the remote controller 1.
  • step S35 the remote controller 1 transmits a control signal to the indoor units 4A and 4B, and executes the operation of the air conditioning system for m minutes (m is a natural number).
  • step S4 of FIG. 3 since it was the first time, the operation was started at a blowing temperature lower than the set temperature Tset set in the remote control by a constant temperature during cooling and higher by a constant temperature during heating.
  • step S35 the operation was started.
  • the blowout temperatures A1 and B1 are estimated by a learning model that reflects the learning result of the first stage, and the indoor units 4A and 4B operate so as to realize the estimated blowout temperature.
  • step S36 the remote controller 1 acquires the temperature from the temperature sensors 2A, 2B, 13 and acquires the open / closed states OSA, OSB of the door or window from the open / close sensors 3A, 3B. do.
  • step S37 the remote controller 1 determines from the open / close sensors 3A and 3B whether or not each of the doors and the like is in the open state at the time of the previous information acquisition.
  • the remote controller 1 determines in step S38 whether or not each of the doors and the like is currently in the open state from the open / close sensors 3A and 3B. to decide.
  • the remote controller 1 waits for n seconds in step S39, and then acquires information again in step S36. If there is a door or the like that is open both at the time of the previous information acquisition and at the present time, it is considered that the target space 30 for air conditioning is being ventilated, and the acquired information is used as information for learning and controlling. This is because it is better not to use it.
  • step S40 whether each of the doors and the like from the open / close sensors 3A and 3B is currently in the open state. Judge whether or not. If the door that was closed last time is opened (YES in S40), the temperature correction value is applied to the temperature sensor corresponding to the opened door.
  • the remote controller 1 performs temperature correction of the information from the temperature sensor corresponding to the door or the like in the open state in step S41. This correction is the same process as in step S33, and the description is not repeated.
  • step S38 the case where it is determined that the door or the like is not currently in the open state (NO in S38) corresponds to the case where the state with the disturbance to which the temperature correction value is applied is changed to the state without the disturbance. ..
  • the remote controller 1 evaluates the temperature correction value of the temperature sensor corresponding to the door or the like that was in the open state at the time of the previous information acquisition and is currently closed, and corrects the temperature correction value. Specifically, the detected value of the current temperature sensor that does not require correction is compared with the detected value after the correction of the previous temperature sensor to which the temperature corrected value is applied due to disturbance. In other words, if the door or the like that was opened at the time of the previous information acquisition is currently closed, it is determined whether or not the correction value is appropriate.
  • the temperature correction value is considered to be appropriate and is not corrected.
  • the temperature correction value is corrected. More specifically, when the temperature correction value is -4 ° C, it is considered that the previously detected temperature was 29 ° C, which was corrected to 25 ° C. At this time, when the disturbance disappeared, the uncorrected detection temperature became 21 ° C. Since the corrected temperature of 25 ° C. was actually lower, it is probable that the temperature correction range was insufficient.
  • the temperature correction value is corrected from -4 ° C to -4.1 ° C and the correction amount is increased.
  • the temperature correction value is adjusted to an appropriate value by gradually correcting the temperature correction value in the direction of reducing the deviation. Calm down.
  • the accuracy of the correction value is set to 0.1 ° C. in the above example, but it may be set to 0.05 ° C. depending on the temperature sensor used.
  • step S40 If it is determined in step S40 that the door or the like is not currently open, learning similar to the learning in the first stage excluding disturbance is executed in step S43. Further, when the temperature correction value is applied in step S41 or step S42, the process proceeds to step S43.
  • step S43 when the door or the like is closed from the open / closed state from the open / close sensor, the temperature information of the temperature sensor paired with the open / close sensor is extracted, the set temperature is compared with the extracted temperature information, and the deviation is obtained. When the amount is small, the control contents (blow-out temperature, air volume, wind direction, etc.) are strengthened (learned).
  • step S43 The details of the learning process in step S43 are the same as in step S9, so the description is not repeated here.
  • the remote controller 1 learns the control contents to be transmitted to each of the indoor units 4A and 4B.
  • the remote controller 1 has a temperature sensor paired with the door open / close sensor even when the information from the door open / close sensor indicates that the door or the like is open. Use information for learning. However, the temperature acquired when the door or the like is open is used for learning after applying the temperature correction value.
  • the temperature correction value and the learned control content are separately stored and saved according to the cooling operation and heating operation modes.
  • the air conditioning system described in the present embodiment is supposed to be applied to an environment where many people exist, such as an office space, but can also be applied to a house or the like where the number of users is limited. be.
  • the present disclosure relates to a remote controller 1 which is an information processing device that learns an estimation model for estimating a control parameter of an air conditioner 20.
  • the information processing device includes first data indicating the state of the target space for air conditioning, second data indicating whether or not the target space 30 is stable, and the target space set in the air conditioning device.
  • An estimation model based on the data acquisition unit 110 that acquires the third data indicating the set temperature Tset, which is the target value of the temperature of 30, and the training data including the first to third data acquired by the data acquisition unit 110. It is provided with a model generation unit 120 for generating the above.
  • the model generation unit 120 performs the first stage learning when the second data acquired by the data acquisition unit 110 indicates the stability of the target space 30.
  • the model generation unit 120 is an estimation model generated in the first stage learning when the second data acquired by the data acquisition unit 110 does not show the stability of the target space 30 after the completion of the first stage learning.
  • the second stage of learning is carried out by taking over.
  • the estimation model without disturbance is generated in the first stage learning, it is developed into an estimation model that can be applied even if a disturbance occurs in the second stage learning, so that the target space is maintained at the set temperature. It can be expected that the final estimation model will be completed at an early stage.
  • the first data is output from the state detection unit 2.
  • the state detection unit 2 includes at least one temperature sensor 2A, 2B.
  • the model generation unit 120 performs reinforcement learning in which the reward is determined based on the degree of deviation between the outputs of the temperature sensors 2A and 2B and the set temperature Tset.
  • the first data is output from the state detection unit 2.
  • the state detection unit 2 includes a plurality of temperature sensors 2A and 2B.
  • the second data is output from the disturbance detection unit 3.
  • the disturbance detection unit 3 includes a plurality of open / close sensors 3A and 3B corresponding to the plurality of temperature sensors 2A and 2B, respectively.
  • Each of the plurality of open / close sensors 3A and 3B detects the open / closed state OSA and OSB of the door 31 or the window 32 provided in the target space.
  • the reward is determined by using the set temperature and temperature sensor information and the opening / closing sensor information as inputs necessary for learning, instead of the external evaluation by the user, so that the user's work (labor) is not required.
  • Appropriate control of the air conditioner 20 can be realized.
  • the remote controller 1 further includes a storage device (memory 12).
  • the correspondence between the plurality of temperature sensors 2A and 2B and the plurality of open / close sensors 3A and 3B is rewritably stored in the storage device (memory 12).
  • the remote controller 1 uses the trained estimation model to obtain the first to third data (state detection unit 2 acquired by the data acquisition unit 201) acquired by the data acquisition unit 201.
  • the inference unit 202 that outputs control parameters from the output of the above, the output of the disturbance detection unit 3 and the set temperature Tset) is further provided.
  • the control parameters include at least one of the blowing temperature A1, the air volume A2, and the wind direction A3 for the indoor unit 4A, and at least one of the blowing temperature B1, the air volume B2, and the wind direction B3 for the indoor unit 4B.
  • the second stage learning may include a third stage learning and a fourth stage learning executed after the completion of the third stage learning.
  • the model generation unit 120 executes the learning in a situation where the amount of disturbance indicated by the second data is equal to or less than the determination value.
  • the model generation unit 120 executes the learning in a situation where the amount of disturbance is larger than the determination value.
  • the model generation unit 120 is the third when any one of the open / closed states OSA and OSB of the door 31 or the window 32 included in the second data shows an open state and the rest shows a closed state. Perform step-by-step learning.
  • the amount of disturbance in this case is the number of open / closed states indicating the open state, and the determination value is 1.
  • the model generation unit 120 performs the learning of the fourth stage when both the open / closed states OSA and OSB show the open state.
  • the learning of the second stage may be further divided into multiple stages.
  • the air conditioner 20 includes at least one indoor unit, and the control parameters are the blow-out temperatures A1 and B1 of the air blown from the indoor units 4A and 4B, and the air volumes A2 and B2. , At least one of wind directions A3 and B3 is included.
  • the air conditioner 20 includes a plurality of indoor units 4A and 4B.
  • the control parameters include at least one of the air blowing temperatures A1 and B1 set in each of the plurality of indoor units 4A and 4B, the air volumes A2 and B2, and the wind directions A3 and B3.
  • 1 remote control 2 state detection unit, 2A, 2B, 13 temperature sensor, 3 disturbance detection unit, 3A, 3B open / close sensor, 4A, 4B indoor unit, 5A, 5B outdoor unit, 7A control signal, 10 air conditioning system, 12 memory, 14 input device, 15 communication device, 20 air conditioner, 30 target space, 31 door, 32 window, 100 learning device, 101 learned model storage unit, 110, 201 data acquisition unit, 120 model generation unit, 121 reward calculation unit, 122 function update unit, 200 inference device, 202 inference unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

情報処理装置は、空調の対象空間の状態を示す第1データと、対象空間が安定しているか否かを示す第2データと、空調装置に設定される対象空間の温度の目標値である設定温度(Tset)を示す第3データを取得するデータ取得部(110)と、データ取得部(110)によって取得された、第1~第3データを含む学習用データに基づき、推定モデルを生成するモデル生成部(120)とを備える。モデル生成部(120)は、第2データが対象空間(30)の安定を示す場合に第1段階の学習を行なう。モデル生成部(120)は、第1段階の学習の終了後において、第2データが対象空間の安定を示さない場合に、第1段階の学習で生成された推定モデルを引き継いで、第2段階の学習を行なう。

Description

情報処理装置および空調システム
 本開示は、情報処理装置および空調システムに関する。
 従来の空調装置では、限られた使用者の快適性を向上させるため、空調制御自体の評価をスマートフォンなどの外部端末から使用者自身が入力していた。特表2019-522163号公報は、室内空間を調整する空調システムの動作を制御させるコントローラを開示する。このコントローラは、強化学習アルゴリズムを用いることによって制御コマンドを送信するプロセッサと、プロセッサから制御コマンドを受信し、空調システムに制御信号を送信するデータ出力部とを備える。
特表2019-522163号公報
 特表2019-522163号公報に開示されるコントローラは、個人の体感による快適性の評価などに基づいて学習を行なう。
 しかし、オフィス等多数の使用者が存在する空調制御においては、快適性の指標が使用者によって異なるため、従来のコントローラでは、学習を行なっても学習済みの制御内容が意図しないものになってしまう可能性があった。
 また、オフィスなどでは外気の流入が多く、取得する温度の情報の正確性を保てない場合がある。従来のコントローラでは、温度センサからの情報を取得して空間情報を把握するが、温度を変化させる外乱を考慮できていないため、長時間学習しても外乱の影響により設定温度へ達しないことが想定される。学習において取得する情報が正確でない場合、学習が発散してしまう可能性が高く、従来のコントローラでは、使用者が意図するものではない制御を行なってしまうことが想定される。
 本開示の情報処理装置および空調システムは、上記のような問題を解決し、オフィス等複数の使用者が存在し、外乱の多い環境で使用する場合でも、適切な空調制御を獲得するものである。
 本開示は、空調装置の制御パラメータを推定する推定モデルを学習する情報処理装置に関する。情報処理装置は、空調の対象空間の状態を示す第1データと、対象空間が安定しているか否かを示す第2データと、空調装置に設定される対象空間の温度の目標値である設定温度を示す第3データを取得する取得部と、取得部によって取得された、第1~第3データを含む学習用データに基づき、推定モデルを生成するモデル生成部とを備える。モデル生成部は、取得部によって取得された第2データが対象空間の安定を示す場合に第1段階の学習を行なう。モデル生成部は、第1段階の学習の終了後において、取得部によって取得された第2データが対象空間の安定を示さない場合に、第1段階の学習で生成された推定モデルを引き継いで、第2段階の学習を行なう。
 本開示の情報処理装置および空調システムは、外乱の多い環境で使用する場合でも、空調の対象空間を設定温度にするための適切な空調制御が実行される。
本実施の形態の空調システムの概略構成図を示す図である。 空調システムの実使用を想定した環境の図である。 第1段階学習における制御を説明するためのフローチャートである。 リモコン1のCPUおよびメモリで実現される機械学習装置の構成図である。 学習装置の学習処理に関するフローチャートである。 リモコン1のCPUおよびメモリで実現される推論装置の構成図である。 学習装置の推論処理に関するフローチャートである。 学習の第2段階における制御を説明するためのフローチャート(前半部)である。 学習の第2段階における制御を説明するためのフローチャート(後半部)である。 温度センサの温度補正値の一例を示す図である。
 以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。
 図1は、本実施の形態の空調システムの概略構成図を示す図である。図2は、空調システムの実使用を想定した環境の図である。
 図1に示す空調システム10は、空調の対象空間30を空調する空調装置20と、リモコン1と、複数の温度センサ2A,2Bと、温度センサ2A,2Bにそれぞれペアリングされている複数の開閉センサ3A,3Bとを備える。空調装置20は、室内ユニット4A,4Bと、室外ユニット5A,5Bとを備える。
 室内ユニット4Aと室外ユニット5Aは、冷媒を循環させる冷凍サイクル装置を構成する。室内ユニット4Bと室外ユニット5Bは、冷媒を循環させる冷凍サイクル装置を構成する。なお、室内ユニット4Aおよび4Bに対して共通の1台の室外ユニットが設けられる構成であっても良い。
 本実施の形態では、温度センサ2A,2B、開閉センサ3A,3B、室内ユニット4A,4B、室外ユニット5A,5Bに対して、無線または有線による通信が可能なリモコン1について説明する。このリモコン1の特徴の1つは、無線通信により取得したセンサ情報をもとに、室内ユニット4A,4Bを制御することである。
 リモコン1は、温度センサ2A,2Bにより任意の時間の温度情報を取得する。リモコン1は、取得した温度情報と、設定温度及び制御内容と、任意時間経過後の温度情報とをもとに学習し、空調の対象空間30が設定温度になるための適切な制御内容を獲得する。
 リモコン1は、空調装置20を制御する制御装置であり、CPU11と、メモリ12と、温度センサ13と、入力装置14と、通信装置15とを備える。リモコン1は、通信装置15から室内ユニット4Aおよび4Bにそれぞれ制御信号(A1~A3,B1~B3)を送信する。温度センサ13は、室内の温度Trを検出する。リモコン1は、温度センサ2A,2Bから得られる温度情報と、開閉センサ3A,3Bから得られる外乱情報とに基づいて制御信号(A1~A3,B1~B3)を出力するモデルを生成するための学習を行なう情報処理装置でもある。
 リモコン1の入力装置14は、ユーザが室内機のON/OFFを切り替える押しボタン、設定温度を入力するボタン等を含む。通信装置15は、室内ユニット4Aおよび4Bと通信を行なうためのものである。
 メモリ12は、たとえば、ROM(Read Only Memory)と、RAM(Random Access Memory)と、フラッシュメモリとを含んで構成される。なお、フラッシュメモリには、オペレーティングシステム、アプリケーションプログラム、各種のデータが記憶される。
 CPU11は、空調装置20の全体の動作を制御する。なお、図1に示したリモコン1は、CPU11がメモリ12に記憶されたオペレーティングシステムおよびアプリケーションプログラムを実行することにより実現される。なお、アプリケーションプログラムの実行の際には、メモリ12に記憶されている各種のデータが参照される。通信装置15からの制御信号を受信する受信装置が、室内ユニット4A,4Bの各々に設けられる。
 開閉センサ3Aは、窓32の開閉状態OSAを検知し、リモコン1は、通信装置15を介して窓32の開閉状態OSAを受信する。開閉センサ3Bは、ドア31の開閉状態OSBを検知し、リモコン1は、通信装置15を介してドア31の開閉状態OSBを受信する。なお、換気扇が設けられている場合は、開閉センサの検出信号に代わり、換気扇のON/OFF状態を示す信号がリモコン1に送信されていても良い。
 温度センサ2Aは、窓32付近に設置され、窓32付近の室内の温度TAを検知し、リモコン1に検知した温度TAを送信する。温度センサ2Bは、ドア31付近に設置され、ドア31付近の室内の温度TBを検知し、リモコン1に検知した温度TBを送信する。
 リモコン1は、例えば空調の対象空間30である部屋の壁に設置される。室内ユニット4A,4Bおよび各センサとリモコン1の通信装置15との間の信号の送受信は、たとえば、Bluetooth(登録商標)などの無線送信方式で行なわれる。
 本実施の形態の空調用のリモコン1は、温度センサ2A,2Bおよび開閉センサ3A,3Bなどから空調の対象空間30の状態を示す情報を取得し、その情報をもとに学習を行なうことで、設置環境に適した制御内容を獲得する。空調用のリモコン1により、空調システム10の快適性を向上させる。リモコン1は、学習によって得られた学習済みモデルによって、設定内容に対する空調システムの最適な制御を実現する。
 次に基本的な動作について説明する。
 一般的には、空調システム10は、室内ユニット4A,4B、室外ユニット5A,5Bとリモコン1のみで動作する。冷房運転、暖房運転の各動作時には通常、空調の対象空間30の目標温度である設定温度Tsetがリモコン1に設定されている。リモコンによる制御は、温度センサ13で取得した室温Trに基づいて行なわれる。
 以下に、本実施の形態においてリモコン1で実行される制御方法について説明する。リモコン1は、使用する環境に適した制御を学習により獲得する。学習のための入力は、温度センサ2A,2Bから得た温度TA,TBと、開閉センサ3A,3Bから得た開閉状態OSA、OSBと、設定温度Tsetと、室内ユニット4Aの吹き出し温度A1、風量A2、風向A3と、室内ユニット4Bの吹き出し温度B1、風量B2、風向B3とが使用される。
 図1、図2に示すように、温度センサ2Aと開閉センサ3Aとはペアリングされており、温度センサ2Bと開閉センサ3Bとはペアリングされている。温度センサ2A,2Bが取得する温度に対する、外気の流入のような外乱が、開閉センサ3A,3Bによって感知される。
 なお、温度センサ2A,2Bおよび開閉センサ3A,3Bの配置の変更が可能なように、温度センサとこれに対応する開閉センサとのペアリングは、リモコン1の設定によって変更が可能である。
 リモコン1にも室温を検出する温度センサ13が設置されている。温度センサ2A,2Bからは検出した温度TA,TBがリモコン1に送信される。開閉センサ3A,3Bからは、開閉状態OSA、OSBがリモコン1に送信される。リモコン1は、システムコントローラのようなものであってもよい。
 リモコン1には、冷房運転か暖房運転か自動運転かを指定するモードと、室温の目標温度である設定温度Tsetとを使用者が設定する。風向および風量を設定しても良いが、典型的な例では、風向および風量は、自動に設定され、学習によってリモコン1が室内ユニットごとに決定する。
 空調の対象空間30には、室内ユニット4Aと室内ユニット4Bとが設置されている。室内ユニット4A,4Bにそれぞれ対応して室外ユニット5A,5Bが屋外に設置されている。なお、複数の室内ユニットに1台の室外ユニットが設けられていても良い。また、室内ユニットが複数台の構成を例示したが、室内ユニットは1台であっても良い。
 リモコン1は、室内ユニット4A,4Bに対して無線で個別の制御信号を送信する。室内ユニット4Aに対する制御信号は、吹き出し温度A1、風量A2、風向A3を示す情報を含み、室内ユニット4Bに対する制御信号は、吹き出し温度B1、風量B2、風向B3を示す情報を含む。
 <学習フェーズ>
 リモコン1は、各種センサの取得情報から、対象空間30を設定温度Tsetにするための空調制御を学習する。リモコン1は、2段階に分けて空調制御の学習を行なう。第1段階では外乱を排除した学習、第2段階では外乱も考慮した学習を行なう。ここで言う外乱とは主にドア(窓)の開閉による外気の流入を想定している。
 たとえば、空気の出入りが激しい場合、または空調の対象空間30の人の数がいつもよりもかなり多い場合、などの非定常状態では、外乱の影響が大きく、精度の高い学習ができない。このため、まずは空調の対象空間30の状態が一定時間以上安定しているときに、室内の複数の箇所に配置された温度センサの情報を利用して設定温度に達するための空調制御の学習を行なう。この時の学習を、第1段階学習と呼ぶことにする。
 空調の対象空間30の状態が一定時間以上安定しているかどうかの判断として、各種のセンサからの信号を使用する。図1、図2に示した開閉センサ3A,3Bの情報から室外空気の出入りの有無を判断できる。さらに、図示しないが、換気扇のスイッチ信号、外気温度センサ、人感センサ、天気を判断する照度センサ、などから得られる情報を学習に使うことができる。
 第1段階学習を終えると、リモコン1は、外乱の影響も含めた学習を行なう。つまり、空調の対象空間30の状態が一定時間以上安定しているときに限らずに学習を行ない、様々なケースにおいても、適用可能な設定温度に達するための空調制御の学習を行なう。この時の学習を、第2段階学習と呼ぶことにする。
 第2段階学習では、第1段階学習の結果も利用するとともに、第1段階学習では空調の対象空間30の状態が一定時間以上安定しているかどうかの判断として使用していた開閉センサ3A,3Bの情報を学習情報として利用する。さらに、第2段階学習においても、図示しないが、外気温度センサ、人感センサ、天気を判断する照度センサ、などのセンサ情報を使うことができる。
 このように複数段階に分けて学習を行なう方が、精度の高い空調制御の学習済みモデルを早期に得ることができる。
 なお、外乱の影響を一つずつ確認する学習を行なった後に、学習を行なったすべての外乱の影響下での学習を行なう、のようにさらに細かく段回に分けて行なってもよい。
 第1段階学習から第2段階学習への遷移は、運転日数または学習フロー実行回数によって実行される。たとえば、空調システム10を設置してから3日間は第1段階の学習が実行される。そして、第1段階の学習で生成されたモデルは、そのまま第2段階の学習に引き継がれ、さらなる学習が行なわれる。
 逆に、第2段階学習から第1段階学習への遷移は、設定温度Tsetと温度センサ2A,2Bで検知された温度TA,TBとの乖離がしきい値以上になった場合または冷房運転と暖房運転との間でモードの切り替えが行なわれた場合に発生する。
 以下、第1段階学習および第2段階学習の詳細について説明する。図3は、第1段階学習における制御を説明するためのフローチャートである。
 空調システム10を設置して、冷房運転または暖房運転が初回に運転された場合、もしくは、冷房運転から暖房運転に、または暖房運転から冷房運転にモードが切り替えられた場合、第1段階の学習が開始される。その後、予め定められた運転日数の間、または学習が一定回数実行される間は、第1段階の学習が実行される。
 ステップS1において、リモコン1は、温度センサ2A,2B,13から温度TA,TB,Trを取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS2において、リモコン1は、開閉センサ3A,3Bから得た開閉状態OSA,OSBに基づいてドア等がすべて開放状態か否かを判断する。
 開閉センサ3A,3Bから得た情報がドアまたは窓が閉じていることを示す場合、その開閉センサとペアリングされている温度センサの情報を第1段階において学習に使用する。ドア開閉センサ情報がドアまたは窓が開いていることを示す場合、そのドア開閉センサとペアリングされている温度センサの情報は第1段階では学習に使用しない。
 したがって、ドア等がすべて開放状態であると判断された場合(S2でYES)、リモコン1と接続されているすべての温度センサの情報が使用できない。その場合には、ステップS3においてn秒(nは自然数)の時間を待ってから、再度ステップS1において情報取得をする。
 ドア等のいずれかが閉じていると判断された場合(S2でNO)、ステップS4に処理が進められる。ステップS4では、学習を行なうための出発点である現在の環境および制御内容を確定させる。リモコン1は、温度センサ2A,2Bおよび温度センサ13から、対象空間30の温度TA,TB,Trを取得し、ユーザがリモコン1に設定した設定温度Tset、風量、風向などを取得する。
 続いて、ステップS5において、リモコン1は、室内ユニット4A,4Bに制御信号を送信し、m分間(mは自然数)の空調装置20の運転を実行する。たとえば、初回は、リモコン1に設定された設定温度Tsetよりも冷房時は一定温度低め、暖房時には一定温度高めの吹出し温度で運転が開始される。
 そしてm分間の運転が行なわれた後、ステップS6において、リモコン1は、温度センサ2A,2B,13から温度を取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS7において、リモコン1は、開閉センサ3A,3Bからドア等がすべて開放状態か否かを判断する。ドア等がすべて開放状態であると判断された場合(S7でYES)、ステップS8においてn秒の時間を待ってから、再度ステップS6において情報取得をする。
 ドア等のいずれかが閉じていると判断された場合(S7でNO)、ステップS9に処理が進められる。ステップS9では、開閉センサからの開閉状態がドア等が閉じていることを示す場合、リモコン1は、その開閉センサとペアリングされている温度センサの情報を抽出し、設定温度Tsetと抽出した温度情報とを比較し、乖離が少ないときはその制御内容(吹き出し温度、風量、風向等)を強化する(学習する)。学習には、例えばQ学習が用いられ、評価関数が更新される。
 そして再びステップS5~S9の処理が繰返し実行されることによって、リモコン1は、室内ユニット4A,4Bの各々に送信する制御内容を学習する。
 図4は、リモコン1のCPUおよびメモリで実現される機械学習装置の構成図である。学習装置100は、データ取得部110と、モデル生成部120とを備える。
 データ取得部110は、室内ユニット4A,4Bに設定されている吹き出し温度A1,B1、風量A2,B2、風向A3,B3と、開閉センサ3A,3Bが検出した開閉状態OSA,OSBと、開閉センサ3A,3Bにペアリングされている温度センサ2A,2Bからの温度TA,TBと、リモコン1に設定されている設定温度Tsetとを学習用データとして取得する。
 室内ユニットに設定されている吹き出し温度、風量、風向は、強化学習における「行動」に相当する。また、設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報とは、強化学習における「状態」に相当する。
 モデル生成部120は、「行動」、「状態」を含む学習用データに基づいて、室内ユニット4Aに設定する吹き出し温度A1、風量A2、風向A3と、室内ユニット4Bに設定する吹き出し温度B1、風量B2、風向B3とを学習する。室内ユニットに設定する吹き出し温度、風量、風向は、強化学習における「制御出力」に相当する。
 すなわち、モデル生成部120は、リモコン1に設定された設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報(状態)から室内ユニットに設定する吹き出し温度、風量、風向(出力)を推論する学習済モデルを生成する。
 モデル生成部120が用いる学習アルゴリズムは教師あり学習、教師なし学習、強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習(Reinforcement Learning)を適用した場合について説明する。強化学習では、ある環境内におけるエージェント(行動主体)が、現在の状態(環境のパラメータ)を観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Q学習(Q-learning)およびTD学習(TD-learning)が知られている。例えば、Q学習の場合、行動価値関数Q(s,a)の一般的な更新式は式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、sは時刻tにおける環境の状態を表し、aは時刻tにおける行動を表す。行動aにより、状態はst+1に変わる。rt+1はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは0<γ≦1、αは0<α≦1の範囲とする。
 室内ユニットに設定されている吹き出し温度、風量、風向が行動aとなり、設定温度と、開閉センサの状態によって抽出された温度センサからの温度情報とが状態sとなり、時刻tの状態sにおける最良の行動aを学習する。
 式(1)で表される更新式は、時刻t+1における最もQ値の高い行動aの行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ、行動価値Qを大きくし、逆の場合は、行動価値Qを小さくする。換言すれば、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるように、行動価値関数Q(s,a)を更新する。それにより、或る環境における最良の行動価値が、それ以前の環境における行動価値に順次伝播していくようになる。
 上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部120は、報酬計算部121と、関数更新部122と、を備えている。
 報酬計算部121は、「行動」、「状態」に基づいて報酬を計算する。報酬計算部121は、報酬基準(後述の報酬増大基準と報酬減少基準の総称)に基づいて、報酬rを計算する。例えば、報酬増大基準に該当する場合には報酬を増大させ(例えば「1」の報酬を与える。)、他方、報酬減少基準に該当する場合には報酬を低減する(例えば「-1」の報酬を与える。)。
 たとえば、抽出された温度センサで検出された温度が設定温度に近いほど、高い報酬を与えるように報酬基準が設定される。具体的には、温度センサが複数の場合には、たとえば、検出温度と設定温度との差の大きさの平均値、または差の二乗和の平均値などに基づいて報酬が決定されるようにする。
 関数更新部122は、報酬計算部121によって計算される報酬に従って、「制御出力」を決定するための関数を更新し、学習済モデル記憶部101に出力する。例えばQ学習の場合、式(1)で表される行動価値関数Q(s,a)を「制御出力」を算出するための関数として用いる。
 以上のような学習を繰り返し実行する。学習済モデル記憶部101は、関数更新部122によって更新された行動価値関数Q(s,a)、すなわち、学習済モデルを記憶する。
 次に、図5を用いて、学習装置が学習する処理について説明する。図5は学習装置の学習処理に関するフローチャートである。
 ステップS11において、データ取得部110は、「行動」、「状態」を学習用データとして取得する。
 ステップS12において、モデル生成部120は「行動」、「状態」に基づいて報酬を計算する。具体的には、報酬計算部121は、「行動」、「状態」を取得し、予め定められた報酬基準に基づいて報酬を増加させるか又は報酬を減じるかを判断する。
 報酬計算部121は、報酬を増大させると判断した場合に、ステップS13において報酬を増大させる。一方、報酬計算部121は、報酬を減少させると判断した場合に、ステップS14において報酬を減少させる。
 そして、ステップS15において、関数更新部122は、報酬計算部121によって計算された報酬に基づいて、学習済モデル記憶部101が記憶する式(1)で表される行動価値関数Q(s,a)を更新する。
 学習装置100は、以上のステップS11からS15までの処理を繰り返し実行し、生成された行動価値関数Q(s,a)を学習済モデルとして記憶する。
 なお、本実施の形態に係る学習装置100は、学習済モデルを学習装置の外部に設けられた学習済モデル記憶部101に記憶するものとしたが、学習済モデル記憶部101を学習装置の内部に備えていてもよい。
<活用フェーズ>
 図6は、リモコン1のCPUおよびメモリで実現される推論装置の構成図である。推論装置200は、データ取得部201と、推論部202とを備える。
 データ取得部201は、空調システム10の「状態」を取得する。「状態」は、設定温度Tsetと、温度センサからの温度TA,TBのうち開閉センサの開閉状態OSA,OSBによって抽出された温度を含む。
 推論部202は、学習済モデル記憶部101に記憶されている学習済モデルを利用して「制御出力」を推論する。「制御出力」は、室内ユニット4A,4Bにそれぞれ設定する吹き出し温度A1,B1、風量A2,B2、風向A3,B3を含む。学習済モデルにデータ取得部201が取得した「状態」を入力することで、「状態」に適した「制御出力」を推論することができる。
 なお、本実施の形態では、空調システム10のリモコン1のモデル生成部120で学習した学習済モデルを用いて「制御出力」を出力するものとして説明したが、他の空調システムのリモコンから学習済モデルを取得し、リモコン1が取得した学習済モデルに基づいて「制御出力」を出力するようにしてもよい。
 次に、図7を用いて、学習装置を使って「制御出力」を得るための処理を説明する。図7は学習装置の推論処理に関するフローチャートである。
 ステップS21において、データ取得部201は「状態」を取得する。
 続いて、ステップS22において、推論部202は学習済モデル記憶部101に記憶された学習済モデルに「状態」を入力し、「制御出力」を得る。推論部202は得られた「制御出力」を室内ユニット4A,4Bに出力する。
 ステップS23において、室内ユニット4A,4Bは、「制御出力」を用いて、吹き出し温度、風向、風量を制御する。これにより、空調の対象空間30を均一に設定温度に近づけることができる。
 なお、本実施の形態では、推論部202が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、又は半教師あり学習等を適用することも可能である。なお、第1段階と第2段階で学習アルゴリズムを切り替えても良い。たとえば、第1段階は教師あり学習、第2段階は強化学習の学習アルゴリズムを採用しても良い。
 また、モデル生成部120に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習(Deep Learning)を用いることもでき、他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、サポートベクターマシンなどに従って機械学習を実行してもよい。
 なお、学習装置100及び推論装置200は、例えば、ネットワークを介してリモコン1に接続され、このリモコン1とは別個の装置であってもよい。また、学習装置100及び推論装置200は、何れかの室内ユニットまたは室外ユニットに内蔵されていてもよい。さらに、学習装置100及び推論装置200は、クラウドサーバ上に存在していてもよい。
 また、モデル生成部120は、1対の温度センサおよび開閉センサから取得される学習用データを用いて、または3対以上の温度センサおよび開閉センサから取得される学習用データを用いて「制御出力」を学習するようにしてもよい。また、学習用データを収集する温度センサおよび開閉センサを途中で対象に追加したり、対象から除去したりすることも可能である。また制御の対象となる室内ユニットを途中で対象に追加したり、対象から除去したりすることも可能である。
 次に、第2段階の学習について説明する。図8は、学習の第2段階における制御を説明するためのフローチャート(前半部)である。図9は、学習の第2段階における制御を説明するためのフローチャート(後半部)である。
 リモコンのスイッチON時には、S31~S34において、第1段階の学習と同様にセンサからの情報取得と初期状態の確定が行なわれる。
 ステップS31において、リモコン1は、温度センサ2A,2B,13から温度TA,TB,Trを取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS32において、リモコン1は、開閉センサ3A,3Bから開放状態のドア等があるか否かを判断する。
 開放状態のドア等があった場合(S32でYES)、リモコン1は、ステップS33において、開放状態のドア等に対応する温度センサからの情報の温度補正を行なう。
 図10は、温度センサの温度補正値の一例を示す図である。たとえば、温度センサ2Aを窓、温度センサ2Bをドア付近に設置している場合、温度補正値の一例は、以下のような関係となる。
 冷房運転時には、窓付近に設置された温度センサ2Aの温度補正値は、-4℃、ドア付近に設置された温度センサ2Bの温度補正値は、-1.5℃に設定される。
 たとえば、冷房運転中に窓が開いたとすると、開く前は、25℃であった温度が一時的に外気温度29℃を検出する場合がある。したがって、窓が閉じられて外乱が収まったあとは、検出温度が下がるだろうと予想されるので、温度補正値が-4℃に設定され、29℃であった検出温度が25℃に補正される。なお、ドアの場合には外気よりも廊下の空気の方が設定温度との差が小さいと考えられるので、温度補正値の絶対値も小さく設定されている。言い換えると、窓からは外気が直接侵入するので、外乱としては大きく、ドアは、外気よりも室温に近い空気が入るため、外乱としては少ないと考えることができる。
 同様な考えで、暖房運転時には、温度センサ2Aの温度補正値は、+4℃、温度センサ2Bの温度補正値は、+1.5℃に設定される。
 ステップS33では、リモコン1は、温度補正値を適用した温度センサを記憶しておく。以上の温度補正値に関しては制御開始時には一定の値とするが、空調制御を行なう環境に適応していくよう変化するものとする。
 具体的な補正値の変更は、後にステップS42で説明するが、それぞれの温度センサ情報におけるドア開放検知時の温度と短時間経過後のドア閉鎖検知時の温度を比較して行なう。
 ステップS33において温度補正が実行された場合、またはステップS32において開放状態のドア等が無いと判断された場合には、ステップS34に処理が進められる。
 ステップS34では、学習を行なうための出発点である現在の環境および制御内容を確定させる。リモコン1は、温度センサ2A,2Bおよび温度センサ13から、空調の対象空間30の温度TA,TB,Trを取得し、ユーザがリモコン1に設定した設定温度Tset、風量、風向などを取得する。
 続いて、ステップS35において、リモコン1は、室内ユニット4A,4Bに制御信号を送信し、m分間(mは自然数)の空調システムの運転を実行する。図3のステップS4では、初回であったので、リモコンに設定された設定温度Tsetよりも冷房時は一定温度低め、暖房時には一定温度高めの吹出し温度で運転が開始されたが、ステップS35では、第1段階の学習結果を反映した学習モデルによって吹き出し温度A1,B1が推定され、推定された吹き出し温度を実現するように室内ユニット4A,4Bが運転を行なう。
 そしてm分間の運転が行なわれた後、ステップS36において、リモコン1は、温度センサ2A,2B,13から温度を取得するとともに、開閉センサ3A,3Bからドアまたは窓の開閉状態OSA,OSBを取得する。ステップS37において、リモコン1は、開閉センサ3A,3Bからドア等の各々が、前回情報取得時に開放状態だったか否かを判断する。
 ドア等の各々が、前回情報取得時に開放状態だった場合(S37でYES)、リモコン1は、ステップS38において、開閉センサ3A,3Bからドア等の各々が、現在開放状態であるか否かを判断する。
 現在ドア等が開放状態であると判断された場合(S38でYES)、リモコン1は、ステップS39においてn秒の時間を待ってから、再度ステップS36において情報取得をする。前回情報取得時および現在の両方において開放状態であるドア等がある場合は、空調の対象空間30が換気中などであると考えられ、取得した情報は、学習および制御を行なうための情報としては使用しない方が良いからである。
 すなわち、前回情報取得時も今回情報取得時もドアまたは窓が開放状態であった場合には、換気中であるなど学習のための情報収集に不適切な状況であるため、取得した温度は学習には使用しない。
 一方、ドア等の各々が、前回情報取得時に開放状態でなかった場合(S37でNO)、リモコン1は、ステップS40において、開閉センサ3A,3Bからドア等の各々が、現在開放状態であるか否かを判断する。前回閉じていたドアの開放がある場合には(S40でYES)、開放されているドアに対応する温度センサには温度補正値が適用される。
 すなわち、現在ドア等が開放状態であると判断された場合(S40でYES)、リモコン1は、ステップS41において、開放状態のドア等に対応する温度センサからの情報の温度補正を行なう。この補正については、ステップS33と同様な処理であり、説明は繰返さない。
 また、ステップS38において、現在ドア等が開放状態でないと判断された場合(S38でNO)は、温度補正値を適用していた外乱ありの状態から、外乱なしの状態に遷移した場合に該当する。この場合、リモコン1は、ステップS42において、前回情報取得時に開放状態であり、現在閉じているドア等に対応する温度センサの温度補正値を評価し、温度補正値を修正する。具体的には、補正が不要な現在の温度センサの検出値と、外乱のために温度補正値を適用した前回の温度センサの補正後の検出値とを比較する。言い換えると、前回情報取得時に開放されていたドア等が現在閉じている場合には、補正値が適切か否かが判断される。
 たとえば、前回補正後の検出温度が25℃で、今回補正しない検出温度が25℃であった場合には、温度補正値は適切と考えられるため修正されない。一方、前回補正後の検出温度が25℃で、今回補正しない検出温度が21℃であった場合には、温度補正値が修正される。より具体的には、温度補正値が-4℃であった場合、前回検出温度が29℃で、これが25℃に補正されたと考えられる。このとき、外乱が無くなると補正していない検出温度が21℃となった。補正後の温度25℃は、実際にはもっと低かったので、温度補正幅が不足していたと考えられる。そこで、ズレを小さくするために温度補正値は-4℃から-4.1℃に修正され補正量が増加される。このように、温度補正値を使用する外乱ありの状態から外乱なしの状態に遷移した場合に、ズレを小さくする方向に温度補正値をすこしずつ修正することによって、温度補正値も適切な値に落ち着いていく。なお、補正値の精度は、上記の例では0.1℃単位としているが、使用する温度センサによって、0.05℃単位とするなど任意の設定を可能としても良い。
 ステップS40で現在ドア等が開放状態でないと判断された場合は、外乱を排除した第1段階の学習と同様な学習がステップS43で実行される。また、ステップS41またはステップS42で温度補正値が適用された場合も、ステップS43に処理が進められる。ステップS43では、開閉センサからの開閉状態から当該ドア等が閉じている場合、その開閉センサとペアリングされている温度センサの温度情報を抽出し、設定温度と抽出した温度情報を比較し、乖離が少ないときはその制御内容(吹き出し温度、風量、風向等)を強化する(学習する)。
 ステップS43の学習処理の詳細は、ステップS9と同様であるので、ここでは説明は繰返さない。
 そして再びステップS35~S43の処理が繰返し実行されることによって、リモコン1は、室内ユニット4A,4Bの各々に送信する制御内容を学習する。
 以上説明したように、リモコン1は、第2段階の学習では、ドア開閉センサからの情報が当該ドア等が開いていることを示す場合でも、そのドア開閉センサとペアリングされている温度センサの情報を学習に使用する。ただし、ドア等が開いていた場合に取得した温度は温度補正値を適用してから学習に使用する。
 なお、温度補正値、および学習される制御内容は、冷房運転、暖房運転のモードにより別々に記憶され、保存される。
 また、本実施の形態で説明した空調システムは、オフィス空間のように多くの人が存在する環境に適用することを想定しているが使用者が限られている住宅等への適用も可能である。
 (まとめ)
 本開示は、空調装置20の制御パラメータを推定する推定モデルを学習する情報処理装置であるリモコン1に関する。情報処理装置は、図4に示すように、空調の対象空間の状態を示す第1データと、対象空間30が安定しているか否かを示す第2データと、空調装置に設定される対象空間30の温度の目標値である設定温度Tsetを示す第3データを取得するデータ取得部110と、データ取得部110によって取得された、第1~第3データを含む学習用データに基づき、推定モデルを生成するモデル生成部120とを備える。モデル生成部120は、データ取得部110によって取得された第2データが対象空間30の安定を示す場合に第1段階の学習を行なう。モデル生成部120は、第1段階の学習の終了後において、データ取得部110によって取得された第2データが対象空間30の安定を示さない場合に、第1段階の学習で生成された推定モデルを引き継いで、第2段階の学習を行なう。
 このように、第1段階の学習で外乱が無い状態の推定モデルを生成してから、第2段階の学習で外乱が生じても適用できる推定モデルに発展させるので、対象空間を設定温度に維持する最終的な推定モデルが早期に完成することが期待できる。
 好ましくは、図1、図2に示すように、第1データは、状態検出部2から出力される。状態検出部2は、少なくとも1つの温度センサ2A,2Bを備える。モデル生成部120は、温度センサ2A,2Bの出力と設定温度Tsetとの乖離度に基づいて報酬が決定される強化学習を行なう。
 好ましくは、図1、図2に示すように、第1データは、状態検出部2から出力される。図1、図2に示すように、状態検出部2は、複数の温度センサ2A,2Bを含む。第2データは、外乱検出部3から出力される。外乱検出部3は、複数の温度センサ2A,2Bにそれぞれ対応する複数の開閉センサ3A,3Bを含む。複数の開閉センサ3A,3Bの各々は、対象空間に設けられたドア31または窓32の開閉状態OSA,OSBを検出する。
 このように、使用者による外部評価ではなく、設定温度と温度センサの情報及び開閉のセンサ情報を学習に必要な入力として用いて報酬を決定するため、使用者の作業(手間)を必要とせず、空調装置20の適切な制御が実現できる。
 図1に示すように、より好ましくは、リモコン1は、記憶装置(メモリ12)をさらに備える。複数の温度センサ2A,2Bと複数の開閉センサ3A,3Bの対応関係は、記憶装置(メモリ12)に書き換え可能に記憶されている。
 このように、温度センサと開閉センサの対応関係を変更することができるため、設置または移設時などに温度センサと開閉センサの組み合わせの制限がない。
 好ましくは、図6に示すように、リモコン1は、学習済の推定モデルを用いて、データ取得部201によって取得された、第1~第3データ(データ取得部201で取得した状態検出部2の出力、外乱検出部3の出力および設定温度Tset)から制御パラメータを出力する推論部202をさらに備える。制御パラメータは、室内ユニット4Aに対する吹き出し温度A1、風量A2、風向A3の少なくとも1つと、室内ユニット4Bに対する吹き出し温度B1、風量B2、風向B3のうち少なくとも1つとを含む。
 好ましくは、第2段階の学習は、第3段階の学習と、第3段階の学習の終了後に実行される第4段階の学習とを含んでもよい。モデル生成部120は、第3段階の学習を行なう場合には、第2データが示す外乱の量が判定値以下の状況で学習を実行する。モデル生成部120は、第4段階の学習を行なう場合には、外乱の量が判定値より多い状況で学習を実行する。具体的には、モデル生成部120は、第2データに含まれるドア31または窓32の開閉状態OSA,OSBのうちいずれか1つが開状態を示し、残りが閉状態を示す場合に、第3段階の学習を行なう。この場合の外乱の量は、開状態を示す開閉状態の数であり、判定値は1である。第3段階の学習によってモデルに変更が加えられた後に、モデル生成部120は、開閉状態OSA,OSBの両方が開状態を示す場合に、第4段階の学習を行なう。開閉センサの数を3以上に増やした場合には、第2段階の学習をさらに多段階に分割しても良い。
 好ましくは、図1に示すように、空調装置20は、少なくとも1つの室内ユニットを備え、制御パラメータは、室内ユニット4A,4Bから送風される空気の吹き出し温度A1,B1と、風量A2,B2と、風向A3,B3のうち少なくとも1つを含む。
 図1に示すように、空調装置20は、複数の室内ユニット4A,4Bを備える。制御パラメータは、複数の室内ユニット4A,4Bの各々に設定される空気の吹き出し温度A1,B1と、風量A2,B2と、風向A3,B3のうち少なくとも1つを含む。
 今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本開示の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
 1 リモコン、2 状態検出部、2A,2B,13 温度センサ、3 外乱検出部、3A,3B 開閉センサ、4A,4B 室内ユニット、5A,5B 室外ユニット、7A 制御信号、10 空調システム、12 メモリ、14 入力装置、15 通信装置、20 空調装置、30 対象空間、31 ドア、32 窓、100 学習装置、101 学習済モデル記憶部、110,201 データ取得部、120 モデル生成部、121 報酬計算部、122 関数更新部、200 推論装置、202 推論部。

Claims (9)

  1.  空調装置の制御パラメータを推定する推定モデルを学習する情報処理装置であって、
     空調の対象空間の状態を示す第1データと、前記対象空間が安定しているか否かを示す第2データと、前記空調装置に設定される前記対象空間の温度の目標値である設定温度を示す第3データを取得する取得部と、
     前記取得部によって取得された、前記第1~第3データを含む学習用データに基づき、前記推定モデルを生成するモデル生成部とを備え、
     前記モデル生成部は、
     前記取得部によって取得された前記第2データが前記対象空間の安定を示す場合に第1段階の学習を行ない、
     前記第1段階の学習の終了後において、前記取得部によって取得された前記第2データが前記対象空間の安定を示さない場合に、前記第1段階の学習で生成された前記推定モデルを引き継いで、第2段階の学習を行なう、情報処理装置。
  2.  前記第1データは、状態検出部から出力され、
     前記状態検出部は、少なくとも1つの温度センサを備え、
     前記モデル生成部は、前記温度センサの出力と前記設定温度との乖離度に基づいて報酬が決定される強化学習を行なう、請求項1に記載の情報処理装置。
  3.  前記第1データは、状態検出部から出力され、
     前記状態検出部は、複数の温度センサを含み、
     前記第2データは、外乱検出部から出力され、
     前記外乱検出部は、前記複数の温度センサにそれぞれ対応する複数の開閉センサを含み、前記複数の開閉センサの各々は、前記対象空間に設けられたドアまたは窓の開閉状態を検出する、請求項1に記載の情報処理装置。
  4.  記憶装置をさらに備え、
     前記複数の温度センサと前記複数の開閉センサの対応関係は、前記記憶装置に書き換え可能に記憶されている、請求項3に記載の情報処理装置。
  5.  前記推定モデルを用いて、前記取得部によって取得された、前記第1~第3データから前記制御パラメータを出力する推論部をさらに備える、請求項1に記載の情報処理装置。
  6.  前記第2段階の学習は、第3段階の学習と、前記第3段階の学習の終了後に実行される第4段階の学習とを含み、
     前記モデル生成部は、前記第3段階の学習を行なう場合には、前記第2データが示す外乱の量が判定値以下の状況で学習を実行し、
     前記モデル生成部は、前記第4段階の学習を行なう場合には、前記外乱の量が判定値より多い状況で学習を実行する、請求項1に記載の情報処理装置。
  7.  前記空調装置は、少なくとも1つの室内ユニットを備え、
     前記制御パラメータは、前記室内ユニットから送風される空気の吹き出し温度と、風量と、風向のうち少なくとも1つを含む、請求項1~6のいずれか1項に記載の情報処理装置。
  8.  前記空調装置は、複数の室内ユニットを備え、
     前記制御パラメータは、前記複数の室内ユニットの各々に設定される空気の吹き出し温度と、風量と、風向のうち少なくとも1つを含む、請求項1~6のいずれか1項に記載の情報処理装置。
  9.  前記空調装置と、
     請求項1~8のいずれか1項に記載の情報処理装置とを備える、空調システム。
PCT/JP2020/017134 2020-04-21 2020-04-21 情報処理装置および空調システム WO2021214852A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022516501A JP7305041B2 (ja) 2020-04-21 2020-04-21 情報処理装置および空調システム
PCT/JP2020/017134 WO2021214852A1 (ja) 2020-04-21 2020-04-21 情報処理装置および空調システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/017134 WO2021214852A1 (ja) 2020-04-21 2020-04-21 情報処理装置および空調システム

Publications (1)

Publication Number Publication Date
WO2021214852A1 true WO2021214852A1 (ja) 2021-10-28

Family

ID=78270915

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/017134 WO2021214852A1 (ja) 2020-04-21 2020-04-21 情報処理装置および空調システム

Country Status (2)

Country Link
JP (1) JP7305041B2 (ja)
WO (1) WO2021214852A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022026452A (ja) * 2020-07-31 2022-02-10 ダイキン工業株式会社 空調システム
JP7228074B1 (ja) * 2022-10-28 2023-02-22 東京瓦斯株式会社 遠隔制御方法、遠隔制御装置、及び遠隔制御プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05264086A (ja) * 1992-03-19 1993-10-12 Hitachi Ltd 空気調和装置およびその制御装置
JPH07228126A (ja) * 1994-02-17 1995-08-29 Nissan Motor Co Ltd 車両用空調装置
JP2012251731A (ja) * 2011-06-03 2012-12-20 Sumitomo Forestry Co Ltd 空調システム
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4746349B2 (ja) * 2005-05-18 2011-08-10 日本電信電話株式会社 ロボット行動選択装置及びロボット行動選択方法
JP5321165B2 (ja) * 2009-03-13 2013-10-23 オムロン株式会社 フィードフォワード量推定装置および制御装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05264086A (ja) * 1992-03-19 1993-10-12 Hitachi Ltd 空気調和装置およびその制御装置
JPH07228126A (ja) * 1994-02-17 1995-08-29 Nissan Motor Co Ltd 車両用空調装置
JP2012251731A (ja) * 2011-06-03 2012-12-20 Sumitomo Forestry Co Ltd 空調システム
CN110968866A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种面向深度强化学习模型对抗攻击的防御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022026452A (ja) * 2020-07-31 2022-02-10 ダイキン工業株式会社 空調システム
JP7208538B2 (ja) 2020-07-31 2023-01-19 ダイキン工業株式会社 空調システム
JP7228074B1 (ja) * 2022-10-28 2023-02-22 東京瓦斯株式会社 遠隔制御方法、遠隔制御装置、及び遠隔制御プログラム

Also Published As

Publication number Publication date
JP7305041B2 (ja) 2023-07-07
JPWO2021214852A1 (ja) 2021-10-28

Similar Documents

Publication Publication Date Title
KR102553299B1 (ko) 데이터 학습 서버 및 이의 학습 모델 생성 및 이용 방법
EP3029389B1 (en) Controlling system for environmental comfort degree and controlling method of the controlling system
CN110410964B (zh) 空调器的控制方法及控制系统
US20180195752A1 (en) Air-conditioning control method, air-conditioning control apparatus, and storage medium
CN110895011B (zh) 一种空调控制方法、装置、存储介质及空调
WO2021214852A1 (ja) 情報処理装置および空調システム
US20200166230A1 (en) Controller for hvac unit
CN110486904B (zh) 风阀开度动态调节方法、装置及空调设备
EP3832220B1 (en) Blower control device
CN108131789B (zh) 空调的换气控制方法及系统
AU2019357534A1 (en) Air conditioner, data transmission method, and air conditioning system
CN113359502B (zh) 一种基于人工智能的智能家居多传感器检测方法、系统及存储介质
CN110895012A (zh) 一种空调控制方法、装置、存储介质及空调
CA3035593A1 (en) Training server and method for generating a predictive model for controlling an appliance
CN114413420A (zh) 空调的控制方法以及空调
CN112432345A (zh) 空调器及其开机模式的控制方法、存储介质
US10598401B2 (en) Controller, method and computer program product using a neural network for adaptively controlling an environmental condition in a building
CN114556027B (zh) 空调控制装置、空调系统、空调控制方法和记录介质
CN115264787A (zh) 用于控制空调的方法及装置、空调、存储介质
CN116256980B (zh) 一种室内环境自学习控制方法及系统
EP3771957A1 (en) Method and system for controlling of heating, ventilation and air conditioning
JP2017220229A (ja) 応答時間の推定及び自動的動作パラメータの調節を行う制御システム
US20220044127A1 (en) Method and environment controller for validating a predictive model of a neural network through interactions with the environment controller
CN112380761B (zh) 一种基于强化学习的建筑环境控制器和控制方法
CN113310176B (zh) 信息处理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20932419

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022516501

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20932419

Country of ref document: EP

Kind code of ref document: A1