KR102512506B1 - Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control - Google Patents

Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control Download PDF

Info

Publication number
KR102512506B1
KR102512506B1 KR1020210152551A KR20210152551A KR102512506B1 KR 102512506 B1 KR102512506 B1 KR 102512506B1 KR 1020210152551 A KR1020210152551 A KR 1020210152551A KR 20210152551 A KR20210152551 A KR 20210152551A KR 102512506 B1 KR102512506 B1 KR 102512506B1
Authority
KR
South Korea
Prior art keywords
air conditioner
information
machine learning
learning model
sample information
Prior art date
Application number
KR1020210152551A
Other languages
Korean (ko)
Inventor
이학경
Original Assignee
콩테크 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콩테크 주식회사 filed Critical 콩테크 주식회사
Priority to KR1020210152551A priority Critical patent/KR102512506B1/en
Application granted granted Critical
Publication of KR102512506B1 publication Critical patent/KR102512506B1/en

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • F24F11/64Electronic processing using pre-stored data
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/30Control or safety arrangements for purposes related to the operation of the system, e.g. for safety or monitoring
    • F24F11/46Improving electric energy efficiency or saving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/10Temperature
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/50Air quality properties
    • F24F2110/64Airborne particle content
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2110/00Control inputs relating to air properties
    • F24F2110/50Air quality properties
    • F24F2110/65Concentration of specific substances or contaminants
    • F24F2110/70Carbon dioxide
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F2120/00Control inputs relating to users or occupants

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

The present invention relates to an air conditioner automatic comfort control method, system, and computer-readable medium using a machine learning model. According to the present invention, by using multiple machine learning models learned based on the state value function and state-action value function, learning the user's operation of the air conditioner during automatic control using the multiple machine learning models, considering environmental information at the time of the operation, considering the individuality of the user and the spatial environment by the machine learning model that controls the air conditioner, automatic control of the air conditioner improves comfort while simultaneously saving energy.

Description

기계학습모델을 이용한 에어컨 자동 쾌적제어방법, 시스템, 및 컴퓨터-판독가능 매체 {Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control}Air conditioner automatic comfort control method, system, and computer-readable medium using machine learning model {Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control}

본 발명은 기계학습모델을 이용한 에어컨 자동 쾌적제어방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것으로서, 상태가치함수와 상태-행동가치함수에 기반하여 학습된 복수의 기계학습모델을 이용하여, 복수의 기계학습모델을 이용한 자동제어 중의 사용자의 에어컨의 조작을 해당 조작시기의 환경정보를 고려하여 학습하여, 에어컨의 제어를 수행하는 기계학습모델이 해당 사용자 및 공간환경의 개별성을 고려하여, 에어컨의 자동제어가 보다 쾌적성이 개선되면서 동시에 에너지 절감을 수행할 수 있도록 하는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법, 시스템, 및 컴퓨터-판독가능 매체에 관한 것이다.The present invention relates to a method, system, and computer-readable medium for automatically controlling comfort of an air conditioner using a machine learning model, using a plurality of machine learning models learned based on a state value function and a state-action value function, The user's operation of the air conditioner during automatic control using the machine learning model is learned in consideration of the environmental information at the time of operation, and the machine learning model that controls the air conditioner takes into account the individuality of the user and the space environment. A method, system, and computer-readable medium for automatically controlling comfort of an air conditioner using a machine learning model, enabling automatic control to improve comfort and save energy at the same time.

온난화 등으로 인한 기온의 급격한 변화와 더욱 쾌적하게 생활하고자 하는 수요에 의해 각 가정의 냉난방기, 특히 에어컨의 보유대수가 점차적으로 늘어나고 있으며, 이에 따라 냉난방기 가동에 따라 전력소비량이 크게 증가하는 문제점이 발생하고 있다.Due to the rapid change in temperature due to global warming and the demand for more comfortable living, the number of air conditioners, especially air conditioners, in each home is gradually increasing. there is.

또한, 사무실이나, 매장과 같이 큰 공간에 냉난방기를 설치하고자 하는 경우에는 전문업체에 시공을 의뢰하고 있으나, 전문업체들은 해당 공간에 적정한 수의 냉난방기를 설치하지 않고, 적정 개수 보다 더 많은 수의 냉난방기를 설치하는 경우가 다수 발생하고 있으며, 이에 따라 냉난방기의 가동에 따른 전력소비량이 증가하여, 유지비가 과도하게 발생하고 있는 상황이다.In addition, if you want to install an air conditioner in a large space such as an office or store, you request the installation from a professional company, but the professional company does not install an appropriate number of air conditioners in the space and installs more air conditioners than the appropriate number. There are many cases of installing air conditioners, and as a result, power consumption due to the operation of air conditioners increases, resulting in excessive maintenance costs.

더불어, 사무실이나, 매장과 같은 상업시설의 경우에는 아르바이트생과 같이 피고용인들이 전력소비를 고려하지 않고, 무분별하게 냉난방기를 가동하는 경우도 발생하고 있어, 해당 시설의 소유주의 비용 부담이 가중되고 있다.In addition, in the case of commercial facilities such as offices and stores, there are cases in which employees, such as part-timers, operate air conditioners indiscriminately without considering power consumption, increasing the cost burden of the owner of the facility.

따라서, 공간에 설치되어 있는 복수의 냉난방기들의 가동을 제어하여 해당 공간의 온도를 신속하게 조절함과 동시에, 냉난방기의 전력소비를 절감할 수 있는 제어방법에 대한 개발이 필요한 상황이다.Therefore, it is necessary to develop a control method capable of rapidly adjusting the temperature of the space by controlling the operation of a plurality of air conditioners installed in the space and at the same time reducing power consumption of the air conditioner and heater.

본 발명의 출원인의 선행특허 1(한국특허공보 10-2287293)은 복수의 에어컨을 제어하는 시스템으로서, 상기 시스템은, 1 이상의 구역 각각에 설치된 1 이상의 온도센서; 상기 1 이상의 구역 각각에 설치된 복수의 에어컨 각각을 제어하는 복수의 컨트롤러; 상기 온도센서로부터 온도정보를 수신하고, 상기 컨트롤러에 에어컨제어정보를 송신하는 1 이상의 중계기; 및 상기 중계기와 통신을 수행하는 서비스서버;를 포함하는 시스템을 개시하고 있다.Prior Patent 1 (Korean Patent Publication No. 10-2287293) of the applicant of the present invention is a system for controlling a plurality of air conditioners, the system comprising: one or more temperature sensors installed in each of one or more zones; a plurality of controllers controlling each of a plurality of air conditioners installed in each of the one or more zones; one or more repeaters receiving temperature information from the temperature sensor and transmitting air conditioner control information to the controller; Discloses a system including; and a service server that communicates with the repeater.

선행특허 1의 상기 서비스서버는, 상기 복수의 에어컨 각각이 기설정된 시간동안에 기설정된 출력으로 동작할 수 있는 제1에어컨제어정보를 상기 중계기를 통하여 상기 컨트롤러로 송신하는 제1에어컨제어정보송신단계; 상기 기설정된 시간동안 상기 1 이상의 구역 각각에 설치된 1 이상의 온도센서로부터 수신한 온도정보에 기초하여 상기 1 이상의 구역 각각에 대한 구역온도정보를 도출하는 구역온도정보도출단계; 상기 구역온도정보에 기초하여 상기 1 이상의 구역별로 설치되어 있는 복수의 에어컨의 동작우선순위를 결정하는 동작우선순위결정단계; 및 상기 1 이상의 구역 각각에 대한 설정온도정보, 상기 1 이상의 구역 각각의 현재의 구역온도정보 및 상기 1 이상의 구역 각각에 대한 복수의 에어컨의 동작우선순위에 기초하여 제2에어컨제어정보를 도출하고, 상기 제2에어컨제어정보를 상기 중계기를 통하여 상기 컨트롤러로 송신하는 제2에어컨제어정보송신단계;를 수행한다.The service server of Prior Patent 1 includes a first air conditioner control information transmission step of transmitting first air conditioner control information allowing each of the plurality of air conditioners to operate with a preset output for a preset time to the controller through the repeater; a zone temperature information derivation step of deriving zone temperature information for each of the one or more zones based on temperature information received from one or more temperature sensors installed in each of the one or more zones during the predetermined time period; an operation priority determination step of determining operation priorities of a plurality of air conditioners installed for each of the one or more zones based on the zone temperature information; And based on set temperature information for each of the one or more zones, current zone temperature information for each of the one or more zones, and operation priorities of a plurality of air conditioners for each of the one or more zones, second air conditioner control information is derived, A second air conditioner control information transmission step of transmitting the second air conditioner control information to the controller through the repeater.

본 발명은 상태가치함수와 상태-행동가치함수에 기반하여 학습된 복수의 기계학습모델을 이용하여, 복수의 기계학습모델을 이용한 자동제어 중의 사용자의 에어컨의 조작을 해당 조작시기의 환경정보를 고려하여 학습하여, 에어컨의 제어를 수행하는 기계학습모델이 해당 사용자 및 공간환경의 개별성을 고려하여, 에어컨의 자동제어가 보다 쾌적성이 개선되면서 동시에 에너지 절감을 수행할 수 있도록 하는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법, 시스템, 및 컴퓨터-판독가능 매체를 제공하는 것을 그 목적으로 한다.The present invention uses a plurality of machine learning models learned based on a state value function and a state-action value function, and considers environmental information at the time of operation of a user's operation of an air conditioner during automatic control using a plurality of machine learning models. A machine learning model that allows the automatic control of the air conditioner to improve comfort and save energy at the same time by considering the individuality of the user and the space environment. Its purpose is to provide a method, system, and computer-readable medium for automatically controlling the comfort of an air conditioner.

상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예는, 1 이상의 프로세서, 및 1 이상의 메모리를 갖는 컴퓨팅 시스템에서 수행되는 기계학습모델을 이용한 에어컨 자동 쾌적제어방법으로서, 기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 사무실공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보를 포함하는 환경정보를 LSTM기반의 제1기계학습모델에 입력하여 현재 시점에서의 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강시 각각에 대한 사용자의 쾌적도 및 에너지절감의 요소를 포함하는 상태가치정보를 도출하는 상태가치정보도출단계; 기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보;를 포함하는 환경정보를 LSTM기반의 제2기계학습모델에 입력하여 사용자의 쾌적도 및 에너지절감의 요소를 고려하여 최적으로 제어시, 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 각각에 해당할 확률정보를 포함하는 행동가치정보 및 상기 확률정보에 기반하여 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 중 어느 하나에 속하는 에어컨자동제어정보를 도출하는 제어정보도출단계; 기설정된 시간간격으로, 상기 상태가치정보; 확률정보 및 상기 에어컨자동제어정보 중 1 이상; 상기 환경정보;를 포함하는 각각의 샘플정보를 누적하여 샘플큐를 업데이트하는 샘플큐업데이트단계; 및 상기 샘플큐의 연속된 샘플정보에서, 각각의 샘플정보 이후에 사용자의 에어컨조작이 기설정된 시간구간 동안 있었는지 여부를 고려하여, 각각의 샘플정보에 대하여 보상값을 부여하여 학습데이터를 도출하는 학습데이터도출단계; 상기 학습데이터를 이용하여, 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시키는, 모델학습단계;를 포함하는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법을 제공한다.In order to solve the above problems, an embodiment of the present invention is an air conditioner automatic comfort control method using a machine learning model performed in a computing system having one or more processors and one or more memories, at predetermined time intervals, room temperature; And environmental information, including additional information including at least one of carbon dioxide concentration, office space size, fine dust concentration, and outdoor temperature, is input into the LSTM-based first machine learning model to maintain the air conditioner temperature at the current time and increase the air conditioner temperature , a state value information derivation step of deriving state value information including elements of user's comfort level and energy saving for each air conditioner when the temperature of the air conditioner decreases; At predetermined time intervals, room temperature; And additional information including at least one of carbon dioxide concentration, space size, fine dust concentration, and outdoor temperature; inputting environmental information including the LSTM-based second machine learning model to consider user comfort and energy saving factors. When optimally controlled, action value information including probability information corresponding to each of air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease, and any one of air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease based on the probability information Control information derivation step of deriving the air conditioner automatic control information belonging to; At a predetermined time interval, the state value information; At least one of probability information and the air conditioner automatic control information; a sample queue update step of updating a sample queue by accumulating each sample information including the environment information; And in the continuous sample information of the sample queue, considering whether the user's air conditioner operation was during a preset time period after each sample information, a compensation value is given to each sample information to derive learning data. Learning data derivation step; A model learning step of learning the first machine learning model and the second machine learning model using the learning data; provides a method for automatically controlling comfort of an air conditioner using a machine learning model.

본 발명의 몇 실시예에서는, 상기 에어컨자동제어정보는 상기 환경정보와 관련된 공간에서 동작하는 에어컨에 입력되어, 기설정된 시간간격으로 상기 에어컨의 자동제어에 사용되고, 상기 에어컨자동제어정보는, 에어컨온도 유지, 기설정된 온도로 에어컨온도 상승, 기설정된 온도로 에어컨온도 하강 중 어느 하나에 속할 수 있다.In some embodiments of the present invention, the air conditioner automatic control information is input to an air conditioner operating in a space related to the environment information and used for automatic control of the air conditioner at predetermined time intervals, and the air conditioner automatic control information includes the air conditioner temperature It may belong to any one of maintaining, raising the temperature of the air conditioner to a preset temperature, and lowering the temperature of the air conditioner to a preset temperature.

본 발명의 몇 실시예에서는, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 보상값을 부여하고, 상기 모델학습단계에서는 각각의 샘플정보에 대하여 상기 환경정보, 상기 상태가치정보; 상기 확률정보 및 상기 에어컨자동제어정보 중 1 이상, 및 보상값을 이용하여 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시킬 수 있다.In some embodiments of the present invention, in the step of deriving the learning data, after the air conditioner automatic control information becomes any one of maintenance, air conditioner temperature rise, and air conditioner temperature fall in the n th sample information, in the n th sample information If there is no user operation of the air conditioner during the period up to the n+pth sample information, a positive compensation value is given to the nth sample information, and in the model learning step, the environment information and the state for each sample information value information; The first machine learning model and the second machine learning model may be trained using at least one of the probability information and the air conditioner automatic control information and a compensation value.

본 발명의 몇 실시예에서는, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 있는 경우에는, n번째 샘플정보에 대해서 음의 보상값 혹은 0의 보상값을 부여하고, 상기 모델학습단계에서는 각각의 샘플정보에 대하여 상기 환경정보, 상기 상태가치정보; 상기 확률정보 및 상기 에어컨자동제어정보 중 1 이상, 및 보상값을 이용하여 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시킬 수 있다.In some embodiments of the present invention, in the step of deriving the learning data, after the air conditioner automatic control information becomes any one of maintenance, air conditioner temperature rise, and air conditioner temperature fall in the n th sample information, in the n th sample information If there is an air conditioner operation by the user during the section up to the n+pth sample information, a negative compensation value or a compensation value of 0 is given to the nth sample information, and in the model learning step, the above for each sample information environmental information, the state value information; The first machine learning model and the second machine learning model may be trained using at least one of the probability information and the air conditioner automatic control information and a compensation value.

본 발명의 몇 실시예에서는, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 에어컨온도 상승이 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 제1보상값을 부여하고, n번째 샘플정보에서 상기 에어컨자동제어정보가 에어컨온도 유지, 혹은 하강이 된 후에, n번째 샘플정보에서 n+q번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 제2보상값을 부여하고, 상기 양의 제1보상값은 상기 양의 제2보상값보다 크고, 샘플정보의 보상값이 높을수록, 상기 모델학습단계에서는 해당 샘플정보의 제1기계학습모델 및 제2기계학습모델에 대한 학습영향은 긍정적으로 높아질 수 있다.In some embodiments of the present invention, the step of deriving the learning data may be performed during a period from the n-th sample information to the n+p-th sample information after the air conditioner automatic control information in the n-th sample information has increased the temperature of the air conditioner. When the user does not operate the air conditioner, a positive first compensation value is given to the nth sample information, and after the air conditioner automatic control information in the nth sample information maintains or drops the air conditioner temperature, the nth sample information If there is no user operation of the air conditioner during the interval from to the n+q-th sample information, a positive second compensation value is given to the n-th sample information, and the positive first compensation value is the positive second compensation value. As the compensation value of the sample information is larger than the value and the compensation value of the sample information is higher, the learning influence of the sample information on the first machine learning model and the second machine learning model can be positively increased in the model learning step.

본 발명의 몇 실시예에서는, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 보상값을 부여하고, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 있는 경우에는, n번째 샘플정보에 대해서 음의 보상값 혹은 0의 보상값을 부여하고, 상기 모델학습단계에서는, 학습데이터의 샘플정보 각각이 양의 보상값을 갖는 경우에는 해당 샘플정보의 확률정보, 상태가치정보를 긍정적인 방향으로 피드백하여, 제1기계학습모델 및 제2기계학습모델을 학습시키고, 학습데이터의 샘플정보 각각이 0의 보상값 혹은 음의 보상값을 갖는 경우에는 해당 샘플정보는 제1기계학습모델 및 제2기계학습모델의 학습에 사용하지 않거나 해당 샘플정보의 확률정보, 상태가치정보를 부정적인 방향으로 피드백하여, 제1기계학습모델 및 제2기계학습모델을 학습시킬 수 있다.In some embodiments of the present invention, in the step of deriving the learning data, after the air conditioner automatic control information becomes any one of maintenance, air conditioner temperature rise, and air conditioner temperature fall in the n th sample information, in the n th sample information If there is no user operation of the air conditioner during the period up to the n+pth sample information, a positive compensation value is given to the nth sample information, the air conditioner automatic control information is maintained in the nth sample information, the air conditioner temperature rises, and when the user operates the air conditioner during the interval from the nth sample information to the n+pth sample information after one of the air conditioner temperature drops, a negative compensation value or a compensation value of 0 for the nth sample information In the model learning step, when each sample information of the training data has a positive compensation value, the probability information and state value information of the corresponding sample information are fed back in a positive direction, so that the first machine learning model and the first machine learning model 2 When the machine learning model is trained and each sample information of the learning data has a reward value of 0 or a negative reward value, the sample information is not used for learning the first machine learning model and the second machine learning model, or The first machine learning model and the second machine learning model may be trained by feeding back the probability information and the state value information of the sample information in a negative direction.

본 발명의 몇 실시예에서는, 상기 제1기계학습모델은 제1LSTM모델을 포함하고, 상기 제2기계학습모델은 제2LSTM모델을 포함하고, 상기 제1기계학습모델은 상기 제2기계학습모델의 학습에 사용이 될 수 있다.In some embodiments of the present invention, the first machine learning model includes a first LSTM model, the second machine learning model includes a second LSTM model, and the first machine learning model includes a second machine learning model. can be used for learning.

본 발명의 몇 실시예에서는, 상기 모델학습단계는, 상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제1기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 상태가치정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제1오차를 감소시키도록, 상기 제1기계학습모델을 학습시키고, 상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제2기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 상태가치정보, 해당 샘플정보의 상기 확률정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제2오차를 감소시킴으로써, 상기 제2기계학습모델을 학습시킬 수 있다.In some embodiments of the present invention, the model learning step may include an output value obtained by inputting environmental information of each sample information included in the learning data to the first machine learning model, the state value information of the corresponding sample information, and the corresponding The first machine learning model is trained to reduce the first error derived based on the compensation value of the sample information, and the environmental information of each sample information included in the learning data is input to the second machine learning model. The second machine learning model can be trained by reducing a second error derived based on the output value, the state value information of the sample information, the probability information of the sample information, and the compensation value of the sample information. .

상기와 같은 과제를 해결하기 위하여, 본 발명의 일 실시예에서는, 1 이상의 프로세서, 및 1 이상의 메모리를 갖는 컴퓨팅 시스템으로 구현되는 기계학습모델을 이용한 에어컨 자동 쾌적제어장치로서, 상기 컴퓨팅 시스템은, 기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 사무실공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보를 포함하는 환경정보를 LSTM기반의 제1기계학습모델에 입력하여 현재 시점에서의 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강시 각각에 대한 사용자의 쾌적도 및 에너지절감의 요소를 포함하는 상태가치정보를 도출하는 상태가치정보도출단계; 기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보;를 포함하는 환경정보를 LSTM기반의 제2기계학습모델에 입력하여 사용자의 쾌적도 및 에너지절감의 요소를 고려하여 최적으로 제어시, 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 각각에 해당할 확률정보를 포함하는 행동가치정보 및 상기 확률정보에 기반한 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 중 어느 하나에 속하는 에어컨자동제어정보를 도출하는 제어정보도출단계; 기설정된 시간간격으로, 상기 상태가치정보; 확률정보 및 상기 에어컨자동제어정보 중 1 이상; 상기 환경정보;를 포함하는 각각의 샘플정보를 누적하여 샘플큐를 업데이트하는 샘플큐업데이트단계; 및 상기 샘플큐의 연속된 샘플정보에서, 각각의 샘플정보 이후에 사용자의 에어컨조작이 기설정된 시간구간 동안 있었는지 여부를 고려하여, 각각의 샘플정보에 대하여 보상값을 부여하여 학습데이터를 도출하는 학습데이터도출단계; 상기 학습데이터를 이용하여, 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시키는, 모델학습단계;를 수행하는, 기계학습모델을 이용한 에어컨 자동 쾌적제어장치를 제공한다.In order to solve the above problems, in one embodiment of the present invention, an automatic comfort control device for an air conditioner using a machine learning model implemented as a computing system having one or more processors and one or more memories, the computing system comprising: At set time intervals, room temperature; And environmental information, including additional information including at least one of carbon dioxide concentration, office space size, fine dust concentration, and outdoor temperature, is input into the LSTM-based first machine learning model to maintain the air conditioner temperature at the current time and increase the air conditioner temperature , a state value information derivation step of deriving state value information including elements of user's comfort level and energy saving for each air conditioner when the temperature of the air conditioner decreases; At predetermined time intervals, room temperature; And additional information including at least one of carbon dioxide concentration, space size, fine dust concentration, and outdoor temperature; inputting environmental information including the LSTM-based second machine learning model to consider user comfort and energy saving factors. When optimally controlled, action value information including probability information corresponding to each of air conditioner temperature maintenance, air conditioner temperature increase, air conditioner temperature decrease, and air conditioner temperature maintenance based on the probability information, air conditioner temperature increase, air conditioner temperature decrease Control information derivation step of deriving the air conditioner automatic control information belonging to; At a predetermined time interval, the state value information; At least one of probability information and the air conditioner automatic control information; a sample queue update step of updating a sample queue by accumulating each sample information including the environment information; And in the continuous sample information of the sample queue, considering whether the user's air conditioner operation was during a preset time period after each sample information, a compensation value is given to each sample information to derive learning data. Learning data derivation step; An air conditioner automatic comfort control device using a machine learning model is provided, which performs a model learning step of learning the first machine learning model and the second machine learning model using the learning data.

본 발명의 일 실시예에 따르면, 상태가치함수와 상태-행동가치함수에 기반하여 학습된 복수의 기계학습모델을 이용하여, 사용자의 조작히스토리, 환경히스토리, 이전의 기계학습모델에서의 동작에 대한 보상을 고려하여, 기계학습모델을 학습시킴으로써, 사용자 및 환경의 개별적 특성을 고려한 자동 에어컨 제어 기능을 제공하는 효과를 발휘할 수 있다.According to an embodiment of the present invention, by using a plurality of machine learning models learned based on the state value function and the state-action value function, the user's operation history, environment history, and the operation in the previous machine learning model By learning the machine learning model in consideration of compensation, it is possible to exert an effect of providing an automatic air conditioner control function considering the individual characteristics of the user and the environment.

본 발명의 일 실시예에 따르면, 복수의 기계학습모델을 이용한 자동제어 중의 사용자의 에어컨의 조작을 해당 조작시기의 환경정보를 고려하여 학습하여, 에어컨의 제어를 수행하는 기계학습모델이 해당 사용자 및 공간환경의 개별성을 고려하여 자동적인 제어정보를 도출할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, a user's operation of an air conditioner during automatic control using a plurality of machine learning models is learned in consideration of environmental information at the corresponding operation time, and a machine learning model that controls the air conditioner is configured to be used by the user and the user. Considering the individuality of the spatial environment, it is possible to exert an effect of deriving automatic control information.

본 발명의 일 실시예에 따르면, 에어컨의 자동제어가 보다 쾌적성이 개선되면서 동시에 에너지 절감을 수행할 수 있도록 하는 효과를 발휘할 수 있다.According to an embodiment of the present invention, the automatic control of the air conditioner can achieve an effect of improving comfort and at the same time saving energy.

도 1은 본 발명의 일 실시예에 에어컨 자동 쾌적제어방법이 수행되는 환경에 대하여 개략적으로 도시한다.
도 2는 본 발명의 일 실시예에 따른 에어컨 자동 쾌적제어방법의 전체 단계 및 이를 수행하는 컴퓨팅 시스템의 내부 구성을 개략적으로 도시한다.
도 3은 본 발명의 일 실시예에 따른 에어컨 자동 쾌적제어방법의 전체적인 동작과정을 내부 구성요소 및 데이터를 기준으로 개략적으로 도시한다.
도 4는 본 발명의 일 실시예에 따른 샘플큐 데이터를 개략적으로 도시한다.
도 5는 본 발명의 일 실시예에 따른 학습데이터의 도출과정에 대하여 예시적으로 도시한다.
도 6는 본 발명의 일 실시예에 따른 학습데이터의 도출과정에 대하여 예시적으로 도시한다.
도 7은 본 발명의 일 실시예에 따른 학습데이터에 의한 기계학습모델의 학습과정을 개략적으로 도시한다.
도 8은 본 발명의 일 실시예에 따른 제1기계학습모델 및 제2기계학습모델의 구조를 개략적으로 도시한다.
도 9은 본 발명의 일 실시예에 따른 제1기계학습모델의 내부 신경망 구조를 예시적으로 도시한다.
도 10는 본 발명의 일 실시예에 따른 에어컨 자동 쾌적제어방법에 따른 에너지 절감효과를 예시적으로 도시한다.
도 11은 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 개략적으로 도시한다.
1 schematically illustrates an environment in which an automatic comfort control method for an air conditioner according to an embodiment of the present invention is performed.
FIG. 2 schematically illustrates all steps of an air conditioner automatic comfort control method according to an embodiment of the present invention and an internal configuration of a computing system performing the method.
3 schematically shows the overall operation process of the method for automatically controlling comfort of an air conditioner according to an embodiment of the present invention based on internal components and data.
4 schematically illustrates sample queue data according to an embodiment of the present invention.
5 illustratively illustrates a process of deriving learning data according to an embodiment of the present invention.
6 illustratively illustrates a process of deriving learning data according to an embodiment of the present invention.
7 schematically illustrates a learning process of a machine learning model based on learning data according to an embodiment of the present invention.
8 schematically illustrates structures of a first machine learning model and a second machine learning model according to an embodiment of the present invention.
9 illustratively illustrates the internal neural network structure of the first machine learning model according to an embodiment of the present invention.
10 illustratively shows an energy saving effect according to an automatic comfort control method for an air conditioner according to an embodiment of the present invention.
11 schematically illustrates the internal configuration of a computing device according to an embodiment of the present invention.

이하에서는, 다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나 이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.In the following, various embodiments and/or aspects are disclosed with reference now to the drawings. In the following description, for purposes of explanation, numerous specific details are set forth in order to facilitate a general understanding of one or more aspects. However, it will also be appreciated by those skilled in the art that such aspect(s) may be practiced without these specific details. The following description and accompanying drawings describe in detail certain illustrative aspects of one or more aspects. However, these aspects are exemplary and some of the various methods in principle of the various aspects may be used, and the described descriptions are intended to include all such aspects and their equivalents.

또한, 다양한 양상들 및 특징들이 다수의 디바이스들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있는 시스템에 의하여 제시될 것이다. 다양한 시스템들이, 추가적인 장치들, 컴포넌트들 및/또는 모듈들 등을 포함할 수 있다는 점 그리고/또는 도면들과 관련하여 논의된 장치들, 컴포넌트들, 모듈들 등 전부를 포함하지 않을 수도 있다는 점 또한 이해되고 인식되어야 한다.Moreover, various aspects and features will be presented by a system that may include a number of devices, components and/or modules, and the like. It should also be noted that various systems may include additional devices, components and/or modules, and/or may not include all of the devices, components, modules, etc. discussed in connection with the figures. It must be understood and recognized.

본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다. 아래에서 사용되는 용어들 '~부', '컴포넌트', '모듈', '시스템', '인터페이스' 등은 일반적으로 컴퓨터 관련 엔티티(computer-related entity)를 의미하며, 예를 들어, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어를 의미할 수 있다."Example", "example", "aspect", "exemplary", etc., used herein should not be construed as preferring or advantageous to any aspect or design being described over other aspects or designs. . The terms '~unit', 'component', 'module', 'system', 'interface', etc. used below generally mean a computer-related entity, and for example, hardware, hardware It may mean a combination of and software, software.

또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나 이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다.Also, the terms "comprises" and/or "comprising" mean that the feature and/or element is present, but excludes the presence or addition of one or more other features, elements and/or groups thereof. It should be understood that it does not.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.In addition, terms including ordinal numbers, such as first and second, may be used to describe various components, but the components are not limited by the terms. These terms are only used for the purpose of distinguishing one component from another. For example, a first element may be termed a second element, and similarly, a second element may be termed a first element, without departing from the scope of the present invention. The terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.

또한, 본 발명의 실시예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 실시예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In addition, in the embodiments of the present invention, unless otherwise defined, all terms used herein, including technical or scientific terms, are generally understood by those of ordinary skill in the art to which the present invention belongs. has the same meaning as Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and unless explicitly defined in the embodiments of the present invention, an ideal or excessively formal meaning not be interpreted as

도 1은 본 발명의 일 실시예에 에어컨 자동 쾌적제어방법이 수행되는 환경에 대하여 개략적으로 도시한다.1 schematically illustrates an environment in which an automatic comfort control method for an air conditioner according to an embodiment of the present invention is performed.

본 발명의 실시예들에 따른 에어컨 자동 쾌적제어방법 1 이상의 프로세서, 및 1 이상의 메모리를 갖는 컴퓨팅 시스템에서 수행된다.A method for automatically controlling comfort of an air conditioner according to embodiments of the present invention is performed in a computing system having one or more processors and one or more memories.

도 1에 도시된 바와 같이 방 등의 공간에는 에어컨 및 환경정보센서가 구비된다. 이와 컴퓨팅시스템에서는 에어컨에 대하여 에어컨의 동작제어신호를 송신하고, 에어컨은 상기 컴퓨팅시스템에서 수신한 동작제어신호에 따라 동작한다.As shown in FIG. 1, an air conditioner and an environment information sensor are provided in a space such as a room. In this computing system, an operation control signal of the air conditioner is transmitted to the air conditioner, and the air conditioner operates according to the operation control signal received by the computing system.

이와 같은 에어컨은 사용자의 조작에 의하여도 동작상태가 변경될 수 있다.An operating state of such an air conditioner may be changed even by a user's manipulation.

한편, 환경정보센서는 실내온도, 이산화탄소농도, 미세먼지농도, 외부온도 등을 수집하여 컴퓨팅시스템에 전달한다. 환경정보센서의 일부 기능은 에어컨에서 수행될 수 있다. 예를들어, 실내온도 정보는 에어컨에서 센싱되어 컴퓨팅시스템에 전송될 수 있다. 또한, 환경정보센서의 일부 기능은 네트워크로 연결된 외부시스템으로부터 전송 받는 형태에 해당한다. 예를들어, 실외온도는 외부의 서버로부터 인터넷망을 통하여 수신할 수도 있다.On the other hand, the environmental information sensor collects indoor temperature, carbon dioxide concentration, fine dust concentration, external temperature, etc. and transmits them to the computing system. Some functions of the environment information sensor can be performed by the air conditioner. For example, indoor temperature information may be sensed by an air conditioner and transmitted to a computing system. In addition, some functions of the environment information sensor correspond to the form of receiving data from an external system connected through a network. For example, the outdoor temperature may be received from an external server through the Internet.

이와 같은 환경정보센서는 개념적인 구성으로서, 컴퓨팅시스템에 공간의 정보를 제공하는 것이면 위치에 관계없이 다양한 형태로 구현이 될 수 있고, 물리적으로도 일부 기능은 에어컨에 통합될 수도 있다.Such an environment information sensor is a conceptual configuration, and can be implemented in various forms regardless of location as long as it provides space information to a computing system, and some functions may be physically integrated into an air conditioner.

컴퓨팅시스템은 도 1에 도시된 바와 같이 복수의 공간에 대한 에어컨제어정보를 생성하여, 에어컨을 제어할 수 있으나, 본 발명의 일 실시예에서는 단일의 공간에 대한 제어를 수행할 수도 있다.As shown in FIG. 1, the computing system may create air conditioner control information for a plurality of spaces to control the air conditioner, but in one embodiment of the present invention, it may also perform control for a single space.

도 2는 본 발명의 일 실시예에 따른 에어컨 자동 쾌적제어방법의 전체 단계 및 이를 수행하는 컴퓨팅 시스템의 내부 구성을 개략적으로 도시한다.FIG. 2 schematically illustrates all steps of an air conditioner automatic comfort control method according to an embodiment of the present invention and an internal configuration of a computing system performing the method.

본 발명의 실시예들에 따른 에어컨 자동 쾌적제어방법은 1 이상의 프로세서, 및 1 이상의 메모리를 갖는 컴퓨팅 시스템에서 수행된다.An air conditioner automatic comfort control method according to embodiments of the present invention is performed in a computing system having one or more processors and one or more memories.

단계 S100에서는, 기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 사무실공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보를 포함하는 환경정보를 LSTM기반의 제1기계학습모델에 입력하여 현재 시점에서의 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강시 각각에 대한 사용자의 쾌적도 및 에너지절감의 요소를 포함하는 상태가치정보를 도출하는 상태가치정보도출단계가 수행된다.In step S100, at a predetermined time interval, room temperature; And environmental information, including additional information including at least one of carbon dioxide concentration, office space size, fine dust concentration, and outdoor temperature, is input into the LSTM-based first machine learning model to maintain the air conditioner temperature at the current time and increase the air conditioner temperature , a state value information derivation step of deriving state value information including user comfort and energy saving factors for each air conditioner temperature is lowered.

상기 환경정보는 기설정된 시간간격으로 연속적으로 수신되고, 이는 LSTM기반의 제1기계학습모델에 순차적으로 입력되고, 제1기계학습모델의 LSTM모듈은 현재 시점에서 에어컨이 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 각각으로 동작시, 사용자의 쾌적함 및 에너지 비용을 고려한 상태가치정보를 도출한다. 제1기계학습모델은 과거를 포함한 시퀀스로 입력된 환경정보로부터 에너지비용 및 사용자쾌적성을 고려하여 시계열적으로 입력된 환경정보를 기반으로 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 각각에서의 가치값을 도출한다. 이와 같은 상기 상태가치정보는 [X1, X2, X3] 와 같은 벡터값을 포함할 수 있고, X1은 에어컨온도 유지시의 가치값으로서 실수로 표현될 수 있고, X2는 에어컨온도 상승시의 가치값으로서 실수로 표현될 수 있고, X3은 에어컨온도 하상시의 가치값으로서 실수로 표현될 수 있다.The environmental information is continuously received at predetermined time intervals, which is sequentially input to the 1st machine learning model based on LSTM, and the LSTM module of the 1st machine learning model maintains the temperature of the air conditioner at the current time and increases the temperature of the air conditioner. , when the air conditioner temperature is lowered, the state value information is derived considering the user's comfort and energy cost. The first machine learning model considers the energy cost and user comfort from the environmental information input in sequence including the past, and based on the environmental information input in time series, the value at each of the air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease derive a value The state value information may include vector values such as [X1, X2, X3], where X1 is a value when the temperature of the air conditioner is maintained and can be expressed as a real number, and X2 is a value when the temperature of the air conditioner rises. It can be expressed as a real number, and X3 can be expressed as a real number as a value when the air conditioner temperature is lowered or lowered.

예를들어, 8시부터 5분 시간간격으로 본 발명의 쾌적제어방법이 동작하고, 현재 시간이 9시인경우에는, 8:00, 8:05, 8:10, 8:15, 8:20, 8:25, 8:30, 8:35, 8:40, 8:45, 8:50, 8:55, 9:00에서의 환경정보가 제1기계학습모델에 입력이 되고, 9:00에서의 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강시 각각에 대한 사용자의 쾌적도 및 에너지절감의 요소를 포함하는 상태가치정보 각각을 의미하는 실수 집합의 벡터를 도출할 수 있다.For example, if the comfort control method of the present invention operates at 5-minute time intervals from 8:00 and the current time is 9:00, 8:00, 8:05, 8:10, 8:15, 8:20, The environmental information at 8:25, 8:30, 8:35, 8:40, 8:45, 8:50, 8:55, and 9:00 is input to the first machine learning model, and at 9:00 A vector of a set of real numbers representing each state value information including elements of user's comfort level and energy saving for each of air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease can be derived.

단계 S200에서는, 기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보;를 포함하는 환경정보를 LSTM기반의 제2기계학습모델에 입력하여 사용자의 쾌적도 및 에너지절감의 요소를 고려하여 최적으로 제어시, 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 각각에 해당할 확률정보를 포함하는 행동가치정보 및 상기 확률정보에 기반하여 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 중 어느 하나에 속하는 에어컨자동제어정보를 도출하는 제어정보도출단계가 수행된다.In step S200, at a predetermined time interval, room temperature; And additional information including at least one of carbon dioxide concentration, space size, fine dust concentration, and outdoor temperature; inputting environmental information including the LSTM-based second machine learning model to consider user comfort and energy saving factors. When optimally controlled, action value information including probability information corresponding to each of air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease, and any one of air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease based on the probability information A control information derivation step of deriving the air conditioner automatic control information belonging to is performed.

상기 제어정보도출단계도 단계 S100에서와 마찬가지로, 시계열에 따른 환경정보를 수신하고, 이에 따라 에어컨자동제어정보를 도출한다.In the control information derivation step, as in step S100, environment information according to time series is received, and air conditioner automatic control information is derived accordingly.

에어컨자동제어정보의 일예로는 에어컨온도 유지, 섭씨 1도 에어컨온도 상승, 섭씨 1도 에어컨온도 하강, 혹은 에어컨온도 유지, 섭씨 2도 에어컨온도 상승, 섭씨 2도 에어컨온도 하강, 혹은 에어컨온도 유지, 섭씨 X도 에어컨온도 상승, 섭씨 X도 에어컨온도 하강에 해당할 수 있다. 즉, 에어컨온도 상승 혹은 하강인 경우에는 기설정된 온도만큼 상승, 혹은 하강을 도출하거나 혹은 온도범위까지도 상황에 따라 가변적으로 도출할 수 있다.An example of the air conditioner automatic control information is to maintain the air conditioner temperature, increase the temperature of the air conditioner by 1 degree Celsius, decrease the temperature of the air conditioner by 1 degree Celsius, or maintain the temperature of the air conditioner, increase the temperature of the air conditioner by 2 degrees Celsius, decrease the temperature of the air conditioner by 2 degrees Celsius, or maintain the temperature of the air conditioner, Celsius X may correspond to an air conditioner temperature increase, and Celsius X may correspond to an air conditioner temperature decrease. That is, in the case of an increase or decrease in the air conditioner temperature, an increase or decrease by a predetermined temperature may be derived, or even a temperature range may be variably derived according to circumstances.

상기 제2기계학습모델은 과거를 포함한 시퀀스로 입력된 환경정보로부터 에너지비용 및 사용자쾌적성을 고려하여 최적의 에어컨자동제어정보를 도출하는 딥러닝 기반 학습된 추론모델에 해당한다. 마찬가지로, 제2기계학습모델은 LSTM모듈을 포함할 수 있다.The second machine learning model corresponds to a deep learning-based learned reasoning model that derives optimal air conditioner automatic control information in consideration of energy cost and user comfort from environmental information input in sequence including the past. Similarly, the second machine learning model may include an LSTM module.

단계 S200에서 도출된 에어컨자동제어정보는 해당 공간의 에어컨에 입력이 되고, 에어컨은 에어컨자동제어정보에 따라 에어컨을 구동시킨다. 이와 같은 에어컨자동제어정보에 따른 에어컨 제어는 에어컨 자체로 에어컨자동제어정보가 직접적으로 입력되어 제어되거나 혹은 중간의 별도의 컨트롤러로 에어컨자동제어정보가 입력되고, 컨트롤러가 해당 에어컨을 제어하는 형태로도 구현될 수 있다.The air conditioner automatic control information derived in step S200 is input to the air conditioner of the corresponding space, and the air conditioner drives the air conditioner according to the air conditioner automatic control information. The air conditioner control according to the air conditioner automatic control information can be controlled by directly inputting the air conditioner automatic control information into the air conditioner itself, or by inputting the air conditioner automatic control information into a separate controller in the middle and controlling the air conditioner by the controller. can be implemented

단계 S300에서는, 기설정된 시간간격으로, 상기 상태가치정보; 확률정보 및 상기 에어컨자동제어정보 중 1 이상; 상기 환경정보;를 포함하는 각각의 샘플정보를 누적하여 샘플큐를 업데이트하는 샘플큐업데이트단계;가 수행된다.In step S300, at a preset time interval, the state value information; At least one of probability information and the air conditioner automatic control information; A sample queue update step of updating the sample queue by accumulating each sample information including the environment information; is performed.

샘플정보는 상기 S100, S200에서의 동작시간 간격에 따라서, 제1기계학습모델 및 제2기계학습모델의 출력정보, 및 환경정보를 포함한다. 각각의 샘플정보는 직접적 혹은 간접적으로 해당 시간 및 사용자의 에어컨 조작여부에 대한 정보를 포함할 수도 있다.The sample information includes output information of the first machine learning model and the second machine learning model, and environment information according to the operation time interval in S100 and S200. Each sample information may directly or indirectly include information about the corresponding time and whether or not the user operated the air conditioner.

단계 S400에서는, 상기 샘플큐의 샘플정보에서, 각각의 샘플정보 이후에 사용자의 에어컨조작이 기설정된 시간구간 동안 있었는지 여부를 고려하여, 각각의 샘플정보에 대하여 보상값을 부여하여 학습데이터를 도출하는 학습데이터도출단계;가 수행된다.In step S400, in the sample information of the sample queue, learning data is derived by assigning a compensation value to each sample information in consideration of whether or not the user's air conditioning operation was performed for a preset time period after each sample information. learning data derivation step; is performed.

바람직하게는, 상기 학습데이터는 각각의 샘플정보 및 각각의 샘플정보에 부여된 보상값을 포함할 수 있고, 보상값의 구체적인 도출과정에 대해서는 후술하도록 한다.Preferably, the learning data may include each sample information and a compensation value given to each sample information, and a detailed derivation process of the compensation value will be described later.

본 발명의 일 실시예에서는, 단계 S400에서는 스택된 샘플큐에 대하여, 기설정된 규칙을 적용하여, 보상값을 부여하고,학습데이터로 사용될 샘플정보를 도출한다.In one embodiment of the present invention, in step S400, a preset rule is applied to the stacked sample queue, a compensation value is assigned, and sample information to be used as training data is derived.

단계 S500에서는, 상기 학습데이터를 이용하여, 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시키는, 모델학습단계;가 수행된다.In step S500, a model learning step of learning the first machine learning model and the second machine learning model using the learning data is performed.

바람직하게는, 상기 제1기계학습모델 및 상기 제2기계학습모델은 특정 공간에 대한 기계학습모델로서, 해당 공간 및 해당 공간의 사용자의 특수성이 학습됨으로써, 사용자 및 공간 맞춤형으로 에어컨 최적 제어를 수행할 수 있는 효과를 발휘할 수 있다. 각각의 공간에 대하여 제1기계학습모델 및 제2기계학습모델이 구비될 수 있다.Preferably, the first machine learning model and the second machine learning model are machine learning models for a specific space, and perform optimal control of the air conditioner tailored to the user and space by learning the specificity of the space and the user of the space. You can exert the effect you can. A first machine learning model and a second machine learning model may be provided for each space.

도 2의 (B)는 본 발명의 쾌적제어방법을 수행하는 컴퓨팅 시스템의 내부 구성을 개략적으로 도시한다.Figure 2 (B) schematically shows the internal configuration of a computing system that performs the comfort control method of the present invention.

컴퓨팅시스템은 상태가치정보도출도출부, 제어정보도출부, 샘플큐업데이트부, 학습데이터도출부, 및 모델학습부를 포함하고, 이들 각각은 전술한 목표온도도출단계, 제어정보도출단계, 샘플큐업데이트단계, 학습데이터도출단계, 및 모델학습단계를 수행한다.The computing system includes a state value information derivation unit, a control information derivation unit, a sample queue update unit, a learning data derivation unit, and a model learning unit, each of which includes the above-described target temperature derivation step, control information derivation step, and sample queue update unit. step, learning data derivation step, and model learning step are performed.

도 3은 본 발명의 일 실시예에 따른 에어컨 자동 쾌적제어방법의 전체적인 동작과정을 내부 구성요소 및 데이터를 기준으로 개략적으로 도시한다.3 schematically shows the overall operation process of the method for automatically controlling comfort of an air conditioner according to an embodiment of the present invention based on internal components and data.

에어컨, 환경정보센서, 외부서버, 혹은 사용자의 입력(예를들어 해당 공간의 면적 정보 등 )으로부터 기설정된 시간 간격으로 수집되는 환경정보는 제1기계학습모델, 및 제2기계학습모델로 입력된다.Environmental information collected at predetermined time intervals from air conditioners, environmental information sensors, external servers, or user input (eg, area information of the corresponding space, etc.) is input to the first machine learning model and the second machine learning model. .

바람직하게는, 상기 제1기계학습모델은 가치신경망에 해당할 수 있고, 제2기계학습모델은 정책신경망에 해당할 수 있다.Preferably, the first machine learning model may correspond to a value neural network, and the second machine learning model may correspond to a policy neural network.

상기 제1기계학습모델에서 출력되는 값은 실질적으로 에어컨을 제어하는 데 사용되지는 않고, 이는 샘플큐에서 사용이 되고, 상기 제2기계학습모델을 학습시키는 데 사용된다. 이와 같은 제1기계학습모델은 강화학습에서의 일종의 CRITIC 역할을 수행한다. 이와 같은 제1기계학습모델은 전술한 바와 같은 샘플큐의 샘플정보에 보상값이 부여되어, 모델학습단계에서 학습이 된다.The value output from the first machine learning model is not actually used to control the air conditioner, but is used in the sample queue and used to train the second machine learning model. Such a first machine learning model plays a kind of CRITIC role in reinforcement learning. Such a first machine learning model is learned in the model learning step by assigning a compensation value to the sample information of the sample queue as described above.

한편, 제2기계학습모델에서 출력되는 값은 일차적으로 에어컨의 자동제어에 사용되고, 동시에 이는 샘플큐의 샘플정보에 포함되게 된다.Meanwhile, the value output from the second machine learning model is primarily used for automatic control of the air conditioner, and at the same time, it is included in the sample information of the sample queue.

샘플큐의 샘플정보에 보상값이 부여되어 제2기계학습모델이 학습된다. 이 경우, 에러함수에 제1기계학습모델의 추론결과 혹은 특성이 제2기계학습모델의 학습에 반영됨으로써, 제1기계학습모델의 학습(일부 추론모델)이 결과적으로 제2기계학습모델을 학습시키는 결과를 가져온다.A compensation value is given to the sample information of the sample queue, and the second machine learning model is learned. In this case, the inference result or characteristic of the first machine learning model is reflected in the learning of the second machine learning model in the error function, so that the learning of the first machine learning model (some inference models) eventually learns the second machine learning model. results in

상기 에어컨자동제어정보는 상기 환경정보와 관련된 공간에서 동작하는 에어컨에 입력되어, 기설정된 시간간격으로 상기 에어컨의 자동제어에 사용되고, 상기 에어컨자동제어정보는, 에어컨온도 유지, 기설정된 온도로 에어컨온도 상승, 기설정된 온도로 에어컨온도 하강 중 어느 하나에 속한다.The air conditioner automatic control information is input to an air conditioner operating in a space related to the environment information and used for automatic control of the air conditioner at a preset time interval, and the air conditioner automatic control information maintains the air conditioner temperature and maintains the air conditioner temperature at a preset temperature. It belongs to either rising or lowering the temperature of the air conditioner to a preset temperature.

도 4는 본 발명의 일 실시예에 따른 샘플큐 데이터를 개략적으로 도시한다.4 schematically illustrates sample queue data according to an embodiment of the present invention.

샘플큐 데이터는 기설정된 시간주기에 따라 수집되는 환경정보, 제1기계학습모델의 추론결과, 제2기계학습모델의 추론결과를 포함하는 복수의 샘플정보를 포함한다. 본 발명에서는 상기 컴퓨팅시스템에서 이와 같은 샘플정보를 누적하여 샘플큐 데이터를 생성한다.The sample queue data includes a plurality of sample information including environmental information collected according to a preset time period, inference results of the first machine learning model, and inference results of the second machine learning model. In the present invention, sample queue data is generated by accumulating such sample information in the computing system.

본 발명의 실시예들에서는, 상기 학습데이터를 도출하는 단계는, 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, 기설정된 시간 이상 사용자의 에어컨조작이 있는지 여부를 판단하여 각각의 샘플정보에 대하여 보상값을 부여한다.In embodiments of the present invention, the step of deriving the learning data may include determining whether the user operates the air conditioner for a predetermined time or more after the air conditioner automatic control information becomes one of maintenance, air conditioner temperature rise, and air conditioner temperature fall. A compensation value is given to each sample information by determining whether the

제1기계학습모델과 제2기계학습모델은 결과적으로 연동되어 있고, 시계열적인 과거의 히스토리를 포함하는 환경정보가 입력되는 제2기계학습모델에 의하여 도출되는 에어컨자동제어정보에 따라 에어컨이 제어되고 있고, 이와 같이 제어되고 있는 에어컨에 있어서, 사용자의 조작이 없었던 경우에는, 제1기계학습모델 및 제2기계학습모델의 추론결과는 사용자의 쾌적성을 만족시키는 추론결과로 판단하여, 이때의 추론결과 및 환경정보를 기반으로 제1기계학습모델 및 제2기계학습모델을 학습시킴으로써, 개별 공간, 환경정보, 사용자의 개별성을 고려하여, 제1기계학습모델 및 제2기계학습모델을 별도의 라벨링 작업 혹은 업데이트 없이 지속적으로 학습시킬 수 있는 효과를 발휘할 수 있다. 사용자의 에어컨 조작은 일종의 라벨링의 역할을 수행할 수 있다.The first machine learning model and the second machine learning model are linked as a result, and the air conditioner is controlled according to the air conditioner automatic control information derived by the second machine learning model in which environmental information including time-series past history is input. In the air conditioner controlled as described above, when there is no user manipulation, the inference results of the first machine learning model and the second machine learning model are judged to be inference results that satisfy the user's comfort, and the inference at this time By learning the first machine learning model and the second machine learning model based on the result and environment information, the first machine learning model and the second machine learning model are separately labeled in consideration of the individual space, environment information, and individuality of the user. It can exert the effect of continuously learning without work or updating. The user's operation of the air conditioner may serve as a kind of labeling.

도 5는 본 발명의 일 실시예에 따른 학습데이터의 도출과정에 대하여 예시적으로 도시한다. 도 6은 본 발명의 일 실시예에 따른 학습데이터의 도출과정에 대하여 예시적으로 도시한다.5 illustratively illustrates a process of deriving learning data according to an embodiment of the present invention. 6 illustratively illustrates a process of deriving learning data according to an embodiment of the present invention.

본 발명의 일 실시예에서는, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 보상값을 부여하고, 상기 모델학습단계에서는 각각의 샘플정보에 대하여 상기 환경정보, 상기 상태가치정보; 상기 확률정보 및 상기 에어컨자동제어정보 중 1 이상, 및 보상값을 이용하여 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시킨다.In an embodiment of the present invention, in the step of deriving the learning data, after the air conditioner automatic control information becomes any one of maintenance, air conditioner temperature rise, and air conditioner temperature fall in the n th sample information, in the n th sample information If there is no user operation of the air conditioner during the period up to the n+pth sample information, a positive compensation value is given to the nth sample information, and in the model learning step, the environment information and the state for each sample information value information; The first machine learning model and the second machine learning model are trained using at least one of the probability information and the air conditioner automatic control information and a compensation value.

바람직하게는, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 있는 경우에는, n번째 샘플정보에 대해서 음의 보상값 혹은 0의 보상값을 부여하고, 상기 모델학습단계에서는 각각의 샘플정보에 대하여 상기 환경정보, 상기 상태가치정보; 상기 확률정보 및 상기 에어컨자동제어정보 중 1 이상, 및 보상값을 이용하여 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시킨다.Preferably, in the step of deriving the learning data, after the air conditioner automatic control information becomes any one of maintenance, air conditioner temperature rise, and air conditioner temperature fall in the nth sample information, n+pth from the nth sample information If there is an operation of the air conditioner by the user during the period up to the sample information, a negative compensation value or a compensation value of 0 is given to the nth sample information, and in the model learning step, the environmental information, the above state value information; The first machine learning model and the second machine learning model are trained using at least one of the probability information and the air conditioner automatic control information and a compensation value.

바람직하게는, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 에어컨온도 상승이 된 후에, n번째 샘플정보에서 n+p1번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 제1보상값을 부여한다. Preferably, in the step of deriving the learning data, after the air conditioner automatic control information in the nth sample information has increased the temperature of the air conditioner, the user operates the air conditioner during a period from the nth sample information to the n+p1th sample information. If there is no , a positive first compensation value is given to the n-th sample information.

이를 도 5를 참조하여 설명하면, p1이 7이라고 가정하면, T1의 샘플정보는 T2에서 사용자의 조작이 있었기 때문에 보상값은 0 혹은 음의 보상값을 갖는다.Referring to FIG. 5, assuming that p1 is 7, the sample information of T1 has a compensation value of 0 or a negative compensation value because there is a user's manipulation in T2.

마찬가지로, T2의 샘플정보는 T2에서 사용자의 조작이 있었기 때문에 보상값은 0 혹은 음의 보상값을 갖는다.Similarly, the sample information of T2 has a compensation value of 0 or a negative compensation value because there was a user's manipulation in T2.

반면, T3번째 샘플정보의 경우, T3 내지 T10까지 사용자의 조작이 없음이 확인되고 이에 따라 T3샘플정보의 경우 제1보상값이 부여된다. 이는 에어컨 절감을 하는 에어컨온도 상승을 함에도 불구하고, 기설정된 주기 동안 사용자의 조작이 없었다는 것은 당시의 샘플정보에 속한 에어컨자동제어정보는 매우 정확한 조작에 해당함을 인식하고 이에 대해 큰 보상값을 부여하는 것이다.On the other hand, in the case of the T3th sample information, it is confirmed that there is no user manipulation from T3 to T10, and accordingly, in the case of the T3 sample information, a first compensation value is given. This is despite the increase in air conditioner temperature that reduces air conditioning, recognizing that there was no user operation during the preset period corresponds to very accurate operation of the air conditioner automatic control information belonging to the sample information at the time, and giving a large compensation value for this. will be.

이후, T4번째 샘플정보의 경우, T4 내지 T11까지 사용자의 조작이 없음이 확인되고 이에 따라 T4샘플정보의 경우 제1보상값이 부여된다.Then, in the case of the T4th sample information, it is confirmed that there is no user manipulation from T4 to T11, and accordingly, in the case of the T4 sample information, a first compensation value is given.

이후, T5번째 샘플정보의 경우, T5 내지 T12까지 사용자의 조작이 없음이 확인되고 이에 따라 T5샘플정보의 경우 제1보상값이 부여된다.Then, in the case of the T5 th sample information, it is confirmed that there is no user manipulation from T5 to T12, and accordingly, in the case of the T5 sample information, a first compensation value is given.

이후, T6번째 샘플정보의 경우, T6 내지 T13까지 사용자의 조작이 없음이 확인되고 이에 따라 T6샘플정보의 경우 제1보상값이 부여된다.Then, in the case of the T6th sample information, it is confirmed that there is no user manipulation from T6 to T13, and accordingly, in the case of the T6 sample information, a first compensation value is given.

이후, T7번째 샘플정보의 경우, T7 내지 T14까지 사용자의 조작이 없음이 확인되고 이에 따라 T7샘플정보의 경우 제1보상값이 부여된다.Then, in the case of the T7 th sample information, it is confirmed that there is no user manipulation from T7 to T14, and accordingly, in the case of the T7 sample information, a first compensation value is given.

이후, T8번째 샘플정보의 경우, T15에서 사용자의 조작이 있었기 때문에, 음 혹은 0의 보상값이 부여된다.Thereafter, in the case of the T8 th sample information, a compensation value of negative or 0 is given because there was a user's manipulation at T15.

본 발명의 일 실시예에서는 할인율을 고려하지 않고, 제1보상값은 양의 상수로 고정될 수 있다 (예를들어 +2), 그러나, 본 발명의 바람직한 실시예에서는 T3 내지 T7까지에 대해서 제1보상값에 대하여 할인율을 적용한다.In one embodiment of the present invention, the first compensation value may be fixed as a positive constant (for example, +2) without considering the discount rate. However, in a preferred embodiment of the present invention, T3 to T7 are 1A discount rate is applied to the compensation value.

예를들어 할인율이 0.1라고 하는 경우, T3의 보상값이 2라고 한다면, T4의 보상값은 2*0.9가 되고 T5의 보상값은 2*0.9*0.9이 되고, T6의 보상값은 2*0.9*0.9*0.9가 되고, T7의 보상값은 2*0.9*0.9*0.9*0.9가 된다.For example, if the discount rate is 0.1 and the reward value of T3 is 2, the reward value of T4 is 2*0.9, the reward value of T5 is 2*0.9*0.9, and the reward value of T6 is 2*0.9 *0.9*0.9, and the compensation value of T7 becomes 2*0.9*0.9*0.9*0.9.

한편, n번째 샘플정보에서 상기 에어컨자동제어정보가 에어컨온도 유지, 혹은 하강이 된 후에, n번째 샘플정보에서 n+p2번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 제2보상값을 부여한다.On the other hand, after the air conditioner automatic control information in the nth sample information maintains or decreases the air conditioner temperature, when there is no user operation of the air conditioner during the period from the nth sample information to the n+p2th sample information, the nth sample A positive second compensation value is assigned to the information.

이를 도 6을 참조하여 설명하면, p1이 12이라고 가정하면, T1의 샘플정보는 T2에서 사용자의 조작이 있었기 때문에 보상값은 0 혹은 음의 보상값을 갖는다.Referring to FIG. 6, assuming that p1 is 12, the sample information of T1 has a compensation value of 0 or a negative compensation value because there is a user's manipulation in T2.

마찬가지로, T2의 샘플정보는 T2에서 사용자의 조작이 있었기 때문에 보상값은 0 혹은 음의 보상값을 갖는다.Similarly, the sample information of T2 has a compensation value of 0 or a negative compensation value because there was a user's manipulation in T2.

반면, T3번째 샘플정보의 경우, T3 내지 T15까지 사용자의 조작이 없음이 확인되고 이에 따라 T3샘플정보의 경우 제2보상값이 부여된다. 이는 자동제어 이후에 기설정된 주기 동안 사용자의 조작이 없었다는 것은 당시의 샘플정보에 속한 에어컨자동제어정보는 매우 정확한 조작에 해당함을 인식하고 이에 대해 큰 보상값을 부여하는 것이다.On the other hand, in the case of the T3th sample information, it is confirmed that there is no user manipulation from T3 to T15, and accordingly, in the case of the T3 sample information, a second compensation value is given. This is to recognize that no manipulation by the user during a predetermined period after the automatic control corresponds to very accurate manipulation of the air conditioner automatic control information belonging to the sample information at the time, and to give a large compensation value for this.

도 5를 참조하여 설명한 바와 같이, 이와 같은 제2보상값은 이후 샘플정보의 시퀀스에 대해서도 적용이 될 수 있다. 또한, 연속된 제2보상값에 대해서도 제1보상값과 같이 할인율이 적용될 수 있다.As described with reference to FIG. 5, such a second compensation value may be applied to a sequence of sample information thereafter. Also, the same discount rate as the first compensation value may be applied to consecutive second compensation values.

더욱 바람직하게는, 상기 양의 제1보상값은 상기 양의 제2보상값보다 크고, 샘플정보의 보상값이 높을수록, 상기 모델학습단계에서는 해당 샘플정보의 제1기계학습모델 및 제2기계학습모델에 대한 학습영향은 긍정적으로 높아진다.More preferably, the first compensation value of the quantity is greater than the second compensation value of the quantity, and the higher the compensation value of the sample information, the first machine learning model and the second machine learning model of the corresponding sample information in the model learning step. The learning effect on the learning model is positively increased.

즉, 제1보상값은 에어컨온도 상승이라는 에너지 절감을 수행하는 자동제어 결과에 해당한다. 따라서, 해당 샘플정보에 대해서는 보다 높은 가중치를 두어 제1기계학습모델 및 제2기계학습모델을 학습시킴으로써, 제1기계학습모델 및 제2기계학습모델에 대하여 에너지 절감 특성을 보유할 수 있다.That is, the first compensation value corresponds to an automatic control result of energy saving such as an air conditioner temperature rise. Accordingly, energy saving characteristics may be maintained for the first and second machine learning models by training the first and second machine learning models with a higher weight on the corresponding sample information.

더욱 바람직하게는, p1은 p2보다 작게 설정한다. 이는 에너지 절감을 수행하는 에어컨온도 상승의 경우 이후 사용자의 에어컨 조작이 이루어질 가능성이 높고 따라서 p2와 동일하게 한다면 적절한 제어임에도 불구하고 보상을 받지 못할 가능성이 있다. 따라서, 도 5, 6의 실시예에서와 같이 p1을 p2보다 작게 설정함으로써, 보다 에너지절감적 라벨링 데이터를 정확하게 확보할 수 있는 효과를 발휘할 수 있다.More preferably, p1 is set smaller than p2. In the case of an increase in the air conditioner temperature for energy saving, there is a high possibility that the user will operate the air conditioner afterwards, and therefore, if it is equal to p2, there is a possibility that compensation will not be received even though the control is appropriate. Therefore, by setting p1 smaller than p2 as in the embodiments of FIGS. 5 and 6, it is possible to achieve an effect of more accurately securing energy-saving labeling data.

즉, 상기 모델학습단계는, 학습데이터로 도출된 상기 시간구간의 연속된 샘플정보에서 초기의 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어디에 해당하는 지에 따라서, 해당 학습데이터를 이용한 상기 제1기계학습모델 및 상기 제2기계학습모델의 학습정도 혹은 학습방식이 상이해진다.That is, in the model learning step, according to whether the initial air conditioner automatic control information corresponds to maintenance, air conditioner temperature rise, or air conditioner temperature decrease in the continuous sample information of the time section derived as learning data, the corresponding learning data The learning degree or learning method of the first machine learning model and the second machine learning model using

더욱 바람직하게는, 초기의 상기 에어컨자동제어정보가 상승인 경우, 에어컨온도 유지, 및 에어컨온도 하강에 비하여, 보다 높은 학습정도 혹은 학습가중치를 부여한다. More preferably, when the initial air conditioner automatic control information is increased, a higher learning degree or learning weight is assigned compared to air conditioner temperature maintenance and air conditioner temperature decrease.

즉, 예를들어, 초기의 상기 에어컨자동제어정보가 유지인 경우의 학습데이터를 유지학습데이터로 하고, 상승인 경우, 초기의 상기 에어컨자동제어정보가 상승인 경우의 학습데이터를 상승학습데이터로 하고, 초기의 상기 에어컨자동제어정보가 하강인 경우의 학습데이터를 하강학습데이터로 하는 경우에, 각각 1개의 유지학습데이터, 상승학습데이터, 하강학습데이터로 제1기계학습모델 및 제2기계학습모델로 학습을 하는 경우에, 제1기계학습모델 및 제2기계학습모델은 상승학습데이터에 의한 학습영향을 유지학습데이터 혹은 하강학습데이터에 의한 학습영향 보다 크게 한다.That is, for example, the learning data when the initial air conditioner automatic control information is maintained is maintained learning data, and when the air conditioner automatic control information is initially increased, the learning data when the air conditioner automatic control information is increased is set to increase learning data. In the case where the learning data when the initial air conditioner automatic control information is descending is set as descending learning data, the first machine learning model and the second machine learning are respectively one maintenance learning data, ascending learning data, and descending learning data. In the case of learning with the model, the first machine learning model and the second machine learning model have a greater learning effect by the ascending learning data than the learning effect by the maintenance learning data or the descending learning data.

즉, 동일한 학습데이터라도 상승학습데이터의 경우, 보다 더 제1기계학습모델 및 제2기계학습모델의 학습에 큰 영향을 준다.That is, even if the same learning data, in the case of ascending learning data, it has a greater influence on the learning of the first machine learning model and the second machine learning model.

이는, 상승학습데이터의 경우, 에너지 절감을 수행함에도 불구하고, 사용자의 쾌적성을 만족시킨 데이터로서, 다른 유지학습데이터 혹은 하강학습데이터보다 더 큰 학습비중을 줌으로써, 제1기계학습모델 및 제2기계학습모델이 사용자의 개별적 특성을 쾌적성을 만족시키면서 에너지 절감하는 방향으로 학습될 수 있다.In the case of ascending learning data, this is data that satisfies the user's comfort despite performing energy saving, and by giving a larger learning weight than other maintenance learning data or descending learning data, the first machine learning model and the second machine learning data A machine learning model can be learned in the direction of saving energy while satisfying individual characteristics of the user.

바람직하게는, 상기 모델학습단계는, 학습데이터로 도출된 상기 시간구간의 연속된 샘플정보에서 초기의 상기 에어컨자동제어정보가 에어컨온도 상승에 해당하는 경우, 초기의 상기 에어컨자동제어정보가 에어컨온도 유지, 혹은 에어컨온도 하강에 비하여, 해당 학습데이터를 이용한 상기 제1기계학습모델 및 상기 제2기계학습모델의 학습가중치가 높아진다.Preferably, in the model learning step, when the initial air conditioner automatic control information corresponds to an air conditioner temperature increase in the continuous sample information of the time section derived as learning data, the initial air conditioner automatic control information is the air conditioner temperature The learning weights of the first machine learning model and the second machine learning model using the corresponding learning data are higher than when the temperature is maintained or the temperature of the air conditioner is lowered.

도 7은 본 발명의 일 실시예에 따른 학습데이터에 의한 기계학습모델의 학습과정을 개략적으로 도시한다.7 schematically illustrates a learning process of a machine learning model based on learning data according to an embodiment of the present invention.

샘플큐의 샘플정보 중 일부는 전술한 바와 같은 과정을 거쳐서 학습데이터로 도출된다. 이와 같은 학습데이터는 시계열에 따른 복수의 환경정보, 제1기계학습모델의 추론결과, 제2기계학습모델의 추론결과(에어컨자동제어정보), 및 보상값을 포함한다.Some of the sample information of the sample queue is derived as learning data through the process described above. Such learning data includes a plurality of environment information according to time series, a reasoning result of the first machine learning model, a reasoning result of the second machine learning model (air conditioner automatic control information), and a compensation value.

바람직하게는, 시계열에 따른 복수의 상기 학습데이터에 포함된 샘플정보 각각의 환경정보, 상태가치정보, 보상값을 이용하여, 제1기계학습모델을 학습시킨다. Preferably, the first machine learning model is trained using environment information, state value information, and compensation value of each sample information included in the plurality of learning data according to time series.

바람직하게는, 시계열에 따른 복수의 상기 학습데이터에 포함된 샘플정보 각각의 환경정보, 상태가치정보, 확률정보 및/또는 에어컨자동제어정보, 보상값을 이용하여, 제2기계학습모델을 학습시킨다. Preferably, the second machine learning model is trained using environment information, state value information, probability information, and/or air conditioner automatic control information and compensation values of each of the sample information included in the plurality of learning data according to the time series. .

전술한 바와 같이, 상기 학습데이터를 도출하는 단계는, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 보상값을 부여하고, n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 있는 경우에는, n번째 샘플정보에 대해서 음의 보상값 혹은 0의 보상값을 부여한다.As described above, in the step of deriving the learning data, after the air conditioner automatic control information becomes one of maintenance, air conditioner temperature rise, and air conditioner temperature fall in the nth sample information, n+p in the nth sample information. If there is no user operation of the air conditioner during the period up to the sample information, a positive compensation value is given to the nth sample information, the air conditioner automatic control information is maintained in the nth sample information, the air conditioner temperature rises, and the air conditioner temperature After one of the descents, if there is an air conditioner operation by the user during the interval from the nth sample information to the n+pth sample information, a negative compensation value or a compensation value of 0 is given to the nth sample information. .

상기 모델학습단계에서는, 학습데이터의 샘플정보 각각이 양의 보상값을 갖는 경우에는 해당 샘플정보의 확률정보, 상태가치정보를 긍정적인 방향으로 피드백하여, 제1기계학습모델 및 제2기계학습모델을 학습시킨다. 즉, 유사한 환경정보가 시계열적으로 입력되는 경우, 당시의 제1기계학습모델 및 제2기계학습모델의 추론결과(학습데이터의 샘플정보)의 재현할 수 있도록 제1기계학습모델 및 제2기계학습모델을 학습시킨다.In the model learning step, when each sample information of the learning data has a positive compensation value, the probability information and state value information of the corresponding sample information are fed back in a positive direction, so that the first machine learning model and the second machine learning model learn That is, when similar environmental information is input in time series, the first machine learning model and the second machine learning model can reproduce the inference results (sample information of the learning data) of the first machine learning model and the second machine learning model at the time. Train the learning model.

반면, 학습데이터의 샘플정보 각각이 0의 보상값 혹은 음의 보상값을 갖는 경우에는 해당 샘플정보는 제1기계학습모델 및 제2기계학습모델의 학습에 사용하지 않거나 해당 샘플정보의 확률정보, 상태가치정보를 부정적인 방향으로 피드백하여, 제1기계학습모델 및 제2기계학습모델을 학습시킨다. 즉, 유사한 환경정보가 시계열적으로 입력되는 경우, 당시의 제1기계학습모델 및 제2기계학습모델의 추론결과(학습데이터의 샘플정보)가 재현되지 않도록 혹은 반대로 재현할 수 있도록 제1기계학습모델 및 제2기계학습모델을 학습시킨다.On the other hand, if each sample information of the learning data has a compensation value of 0 or a negative compensation value, the sample information is not used for learning the first machine learning model and the second machine learning model, or the probability information of the sample information, By feeding back the state value information in a negative direction, the first machine learning model and the second machine learning model are trained. That is, when similar environmental information is input in time series, the first machine learning model prevents the inference results (sample information of the learning data) of the first machine learning model and the second machine learning model at the time from being reproduced or vice versa. The model and the second machine learning model are trained.

도 8은 본 발명의 일 실시예에 따른 제1기계학습모델 및 제2기계학습모델의 구조를 개략적으로 도시한다.8 schematically illustrates structures of a first machine learning model and a second machine learning model according to an embodiment of the present invention.

바람직하게는, 상기 제1기계학습모델은 제1LSTM모델을 포함하고, 상기 제2기계학습모델은 제2LSTM모델을 포함하고, 상기 제1기계학습모델은 상기 제2기계학습모델의 학습에 사용이 된다.Preferably, the first machine learning model includes a first LSTM model, the second machine learning model includes a second LSTM model, and the first machine learning model is used for learning the second machine learning model. do.

상기 모델학습단계는, 상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제1기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 상태가치정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제1오차를 감소시키도록, 상기 제1기계학습모델을 학습시킨다. The model learning step is based on the output value obtained by inputting the environmental information of each sample information included in the learning data to the first machine learning model, the state value information of the corresponding sample information, and the compensation value of the corresponding sample information. The first machine learning model is trained to reduce the derived first error.

예를들어, 본 발명의 일 실시예에서는, 도 8의 환경정보 1은 학습데이터의 샘플정보1의 환경정보에 해당한다. 이와 같은 샘플정보 1의 환경정보를 제1LSTM에 입력하여 나오는 추론값1과 GT1(그라운드트루스)과의 차이(에러)를 갑소시키도록 제1LSTM이 학습된다.For example, in one embodiment of the present invention, environment information 1 of FIG. 8 corresponds to environment information of sample information 1 of learning data. The 1st LSTM is learned to narrow the difference (error) between the inference value 1 and GT1 (ground truth), which is obtained by inputting the environment information of sample information 1 into the 1st LSTM.

이와 같은 에러 혹은 그라운드트루스를 결정함에 있어서, 해당 샘플정보의 상기 상태가치정보, 및 해당 샘플정보의 보상값이 이용된다. In determining such an error or ground truth, the state value information of the corresponding sample information and the compensation value of the corresponding sample information are used.

가장 간단한 실시예에서는, 상기 샘플정보의 보상값이 양을 갖는 경우에는, GT를 해당 상태가치정보로 지정할 수 있다. 바람직하게는, 보상값이 양의 값에서 커질수록 보상값이 에어함수에 반영되어 차이가 커지게 되고 이에 따라 LSTM모델의 학습효과를 높일 수 있다. 즉 이와 같은 방식으로, 에너지 절감 특성을 부여할 수 있다. In the simplest embodiment, when the compensation value of the sample information has a positive value, GT can be designated as the state value information. Preferably, as the compensation value increases from a positive value, the compensation value is reflected in the Air function to increase the difference, and accordingly, the learning effect of the LSTM model can be increased. That is, in this way, energy saving characteristics can be imparted.

혹은, 가장 간단한 실시예에서는, 상기 샘플정보의 보상값이 음 혹은 0을 갖는 경우에는, 해당 샘플정보는 학습에서 제외하거나, GT를 해당 상태가치정보의 역으로 지정할 수 있다. 즉 이와 같은 방식으로, 에너지 절감 특성을 부여할 수 있다.Alternatively, in the simplest embodiment, when the compensation value of the sample information is negative or 0, the sample information may be excluded from learning or GT may be designated as the reverse of the state value information. That is, in this way, energy saving characteristics can be imparted.

상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제2기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 상태가치정보, 해당 샘플정보의 상기 확률정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제2오차를 감소시킴으로써, 상기 제2기계학습모델을 학습시킨다.The output value obtained by inputting the environmental information of each sample information included in the learning data to the second machine learning model, the state value information of the corresponding sample information, the probability information of the corresponding sample information, and the compensation value of the corresponding sample information The second machine learning model is learned by reducing the second error derived based on the second error.

예를들어, 본 발명의 일 실시예에서는, 도 8의 환경정보 1은 학습데이터의 샘플정보1의 환경정보에 해당한다. 이와 같은 샘플정보 1의 환경정보를 제2LSTM에 입력하여 나오는 추론값2와 GT2(그라운드트루스)과의 차이(에러)를 갑소시키도록 제2LSTM이 학습된다.For example, in one embodiment of the present invention, environment information 1 of FIG. 8 corresponds to environment information of sample information 1 of learning data. The second LSTM is learned to reduce the difference (error) between the inference value 2 and GT2 (ground truth), which is obtained by inputting the environment information of the sample information 1 into the 2 LSTM.

이와 같은 에러 혹은 그라운드트루스를 결정함에 있어서, 해당 샘플정보의 상기 상태가치정보, 확률정보(혹은 에어컨자동제어정보) 및 해당 샘플정보의 보상값이 이용된다. In determining such an error or ground truth, the state value information of the corresponding sample information, probability information (or air conditioner automatic control information), and the compensation value of the corresponding sample information are used.

가장 간단한 실시예에서는, 상기 샘플정보의 보상값이 양을 갖는 경우에는, GT2를 해당 확률정보로 지정할 수 있다. 바람직하게는, 보상값이 양의 값에서 커질수록 보상값이 에어함수에 반영되어 차이가 커지게 되고 이에 따라 LSTM모델의 학습효과를 높일 수 있다. 즉 이와 같은 방식으로, 에너지 절감 특성을 부여할 수 있다. In the simplest embodiment, when the compensation value of the sample information has a positive value, GT2 can be designated as the corresponding probability information. Preferably, as the compensation value increases from a positive value, the compensation value is reflected in the Air function to increase the difference, and accordingly, the learning effect of the LSTM model can be increased. That is, in this way, energy saving characteristics can be imparted.

혹은, 가장 간단한 실시예에서는, 상기 샘플정보의 보상값이 음 혹은 0을 갖는 경우에는, 해당 샘플정보는 학습에서 제외하거나, GT를 해당 확률정보의 역으로 지정할 수 있다. 즉 이와 같은 방식으로, 에너지 절감 특성을 부여할 수 있다.Alternatively, in the simplest embodiment, when the compensation value of the sample information is negative or 0, the corresponding sample information may be excluded from learning or GT may be designated as the reverse of the corresponding probability information. That is, in this way, energy saving characteristics can be imparted.

본 발명의 바람직한 실시예에서는, 상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제2기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 상태가치정보, 해당 샘플정보의 상기 확률정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제2오차를 감소시킴으로써, 상기 제2기계학습모델을 학습시킨다. 이는 학습된 제1기계학습모델이 제2기계학습모델의 학습에 사용이 됨으로써, 제2기계학습모델의 추론의 정확도를 보다 높일 수 있는 효과를 발휘할 수 있다. 이는, 해당 샘플정보에서의 제1기계학습모델의 추론값을 제2오차를 계산하는 데 사용함으로써, 이루어질 수 있다.In a preferred embodiment of the present invention, the output value obtained by inputting the environmental information of each sample information included in the learning data to the second machine learning model, the state value information of the corresponding sample information, the probability information of the corresponding sample information, and learning the second machine learning model by reducing a second error derived based on the compensation value of the corresponding sample information. In this case, the learned first machine learning model is used to learn the second machine learning model, so that the accuracy of reasoning of the second machine learning model can be further increased. This can be done by using the inference value of the first machine learning model in the corresponding sample information to calculate the second error.

본 발명의 다른 실시예에서는, 제1기계학습모델 없이 제2기계학습모델로만 동작을 할 수도 있다. 이 경우, 상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제2기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 확률정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제2오차를 감소시킴으로써, 상기 제2기계학습모델을 학습시킨다. In another embodiment of the present invention, operation may be performed only with the second machine learning model without the first machine learning model. In this case, the second machine learning model is derived based on the output value obtained by inputting the environment information of each sample information included in the learning data to the second machine learning model, the probability information of the corresponding sample information, and the compensation value of the corresponding sample information. By reducing the error, the second machine learning model is trained.

강화학습(reinforcement learning)은 머신러닝의 한 종류로 어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 행동인지 잘못된 행동인지를 나중에 판단하고 보상(또는 벌칙)을 줌으로써 반복을 통해 스스로 학습한다.Reinforcement learning is a type of machine learning. When an action is taken in an environment, it later judges whether it is a good action or a wrong action, and then rewards (or punishes) to learn on its own through repetition.

강화학습에는 다음과 같이 두 가지 구성 요소로 환경(environment)과 에이전트(agent)가 있음을 가정한다.Reinforcement learning assumes that there are two components, an environment and an agent, as follows.

에이전트는 특정 환경에서 행동(action)을 결정하고 환경은 그 결정에 대한 보상을 내린다. 이 보상은 행동 즉시 결정되기보다는 여러 행동들을 취한 후에 한꺼번에 결정되는 경우가 많다. 특정 행동을 취했을 때 바로 그 행동에 대한 평가를 내릴 수 없는 경우가 많기 때문이다.An agent decides an action in a particular environment, and the environment rewards that decision. This reward is often determined all at once after multiple actions are taken, rather than immediately. This is because in many cases, when a particular action is taken, it is not possible to evaluate the action immediately.

이와 같은 강화학습에서는, 에이전트가 행동을 결정하고 환경이 주는 보상으로 스스로 학습할 때 주로 딥러닝에 따른 인공 신경망을 사용한다. 환경과 에이전트의 상태 등을 입력값으로 인공 신경망이 행동을 결정하고 보상이 있으면 이전의 입력값과 행동들을 긍정적으로 학습한다.In such reinforcement learning, artificial neural networks based on deep learning are mainly used when an agent determines an action and learns by itself with a reward given by the environment. The artificial neural network determines an action using the environment and the state of the agent as input values, and if there is a reward, it learns the previous input values and actions positively.

마르코프 의사 결정과정(Markov decision process, MDP)은 마르코프 과정을 기반으로 한 의사 결정 모델이다. MDP는 아래 수식과 같이 상태(state) 집합 S, 행동(action) 집합 A, 상태 전이 확률(state transition probability) 행렬 P, 보상(reward) 함수 R, 할인 요인(discount factor) γ로 구성되어 있다.A Markov decision process (MDP) is a decision-making model based on a Markov process. The MDP is composed of a state set S, an action set A, a state transition probability matrix P, a reward function R, and a discount factor γ, as shown in the formula below.

Figure 112021128677008-pat00001
Figure 112021128677008-pat00001

상태 집합은 MDP에서 가질 수 있는 모든 상태의 집합 S={s_1,s_2,…,s_|S|}이다. 아래 식과 같이 어떠한 시점에서의 상태 S_t는 상태 집합 S에 포함된 특정 상태가 된다.The state set is the set of all possible states in MDP S={s_1,s_2,… ,s_|S|}. As shown in the equation below, the state S_t at any point in time becomes a specific state included in the state set S.

Figure 112021128677008-pat00002
Figure 112021128677008-pat00002

행동 집합은 행동 주체인 에이전트가 할 수 있는 모든 행동들의 집합 A=a1,a2,…,a|A|이다. 에이전트는 어떠한 시점에서 행동 At=a,a∈A를 취하는 것이다. MDP에서의 상태 전이 확률 수식은 아래와 같습니다.The action set is the set of all actions that the agent, the action subject, can perform A=a1,a2,... ,a|A|. The agent takes the action At=a,a∈A at some point. The state transition probability formula in MDP is shown below.

Figure 112021128677008-pat00003
Figure 112021128677008-pat00003

Pas,s′는 에이전트가 어떠한 상태 s에서 행동 a를 취했을 때 상태 s′으로 변할 확률이다. Pas,s′ is the probability that an agent will change to state s′ when it takes action a in state s.

보상 함수는 에이전트가 어떠한 상태에서 취한 행동에 대한 보상을 내리기 위한 함수입니다. 그 수식은 아래와 같다.A reward function is a function that gives an agent a reward for an action taken in a certain state. The formula is as follows.

Figure 112021128677008-pat00004
Figure 112021128677008-pat00004

보상 함수 Ras 상태 s에서 행동 a를 했을 때의 보상의 기대값을 수치로 반환한다.Reward function Ras Returns the expected value of the reward when action a is taken in state s as a number.

할인 요인은 과거의 행동들을 얼마나 반영할지를 정하는 값으로 0에서 1 사이의 값입니다. 과거 5번의 행동에 대한 보상을 1씩 받았다고 했을 때 할인 요인 γ이 1이면 <1,1,1,1,1>이 되고 할인 요인 γ이 0.9이면 <1,0.9,0.81,0.729,0.6561>이 된다. 즉 먼 과거에 대한 보상일수록 깎아서 반영한다.The discount factor is a value between 0 and 1 that determines how much past behavior is reflected. If the discount factor γ is 1, then <1,1,1,1,1>, and if the discount factor γ is 0.9, <1,0.9,0.81,0.729,0.6561> do. In other words, compensation for the distant past is reduced and reflected.

상태 가치 함수(state-value function)는 에어컨 등에서 에이전트가 주어진 환경에서 어떠한 행동(에어컨목표온도)을 하고 얻게 되는 가치를 말한다. 이와 같은 가치는 사용자의 쾌적도 및 에너지절감효과를 내포할 수 있다. 에이전트는 행동을 통해 상태가 변화하면서 보상을 받게 되고, 보상을 받기까지 얼마의 시간이 소요되었는지에 대한 요소를 더해 최종으로 얻게 되는 가치는 다음 식과 같이 정리될 수 있다.The state-value function refers to the value that an agent in an air conditioner performs in a given environment (air conditioner target temperature). Such a value may include user comfort and energy saving effect. The agent receives a reward as the state changes through actions, and the final value obtained by adding the element of how long it took to receive the reward can be summarized as the following equation.

Figure 112021128677008-pat00005
Figure 112021128677008-pat00005

(여기서 s는 상태, R은 보상, St는 t시점에서의 상태, r은 할인요인(discount factor)를 지칭함)(Where s is the state, R is the reward, S t is the state at time t, and r is the discount factor)

위와 같은 상태가치함수에서는, 에이전트가 어떠한 행동을 수행하면서 상태가 시간에 따라 변하게 됨을 가정하고, 이 때 보상을 받게 되고 시간에 따라 할인된 보상을 더해서 얻게 되는 가치는 위의 식과 같이 표현될 수 있다. In the above state value function, it is assumed that the state changes over time while the agent performs certain actions, and at this time, a reward is received, and the value obtained by adding the discounted reward over time can be expressed as the above expression. .

정책 π에 의해서 행동들이 결정되고 결정된 행동들에 의해서 상태들도 정해진다. 즉, 상태 가치 함수는 현재 상태 s에서 정책 π를 따랐을 때의 가치를 반환한다.Actions are determined by policy π, and states are determined by determined actions. That is, the state value function returns the value when policy π is followed in the current state s.

한편, 상태-행동 가치함수(action-value function)는 큐함수(Q Function)라고도 부르며 어떠한 상태 s에서 행동 a를 수행하였을 경우의 가치를 반환하며 이는 총 보상의 기대 값이다. 큐함수의 공식은 다음 식과 같다.On the other hand, the state-action-value function, also called the Q function, returns the value when action a is performed in a certain state s, which is the expected value of the total reward. The formula of the Q function is as follows.

Figure 112021128677008-pat00006
Figure 112021128677008-pat00006

위의 수식에서와 같이, 상태 가치 함수에서 행동 a에 대한 조건이 추가되었음을 알 수 있다. 상태-행동 가치 함수는 현재 상태 s에서 정책 π를 따라 행동 a를 수행했을 때의 가치를 의미한다.As in the above formula, we can see that the condition for action a is added in the state value function. The state-action value function is the value of performing action a in accordance with policy π in the current state s.

도 9은 본 발명의 일 실시예에 따른 제1기계학습모델 및 제2기계학습모델의 내부 신경망 구조를 예시적으로 도시한다.9 illustratively illustrates internal neural network structures of a first machine learning model and a second machine learning model according to an embodiment of the present invention.

도 10는 본 발명의 일 실시예에 따른 에어컨 자동 쾌적제어방법에 따른 에너지 절감효과를 예시적으로 도시한다.10 illustratively shows an energy saving effect according to an automatic comfort control method for an air conditioner according to an embodiment of the present invention.

도 11은 본 발명의 일 실시예에 따른 컴퓨팅장치의 내부 구성을 개략적으로 도시한다.11 schematically illustrates the internal configuration of a computing device according to an embodiment of the present invention.

상술한 도 2에 도시된 컴퓨팅장치(1000)는 상기 도 11에 도시된 컴퓨팅장치(11000)의 구성요소들을 포함할 수 있다.The computing device 1000 illustrated in FIG. 2 may include components of the computing device 11000 illustrated in FIG. 11 .

도 11에 도시된 바와 같이, 컴퓨팅장치(11000)는 적어도 하나의 프로세서(processor)(11100), 메모리(memory)(11200), 주변장치 인터페이스(peripheral interface)(11300), 입/출력 서브시스템(I/Osubsystem)(11400), 전력 회로(11500) 및 통신 회로(11600)를 적어도 포함할 수 있다. 이때, 컴퓨팅장치(11000)는 도 2에 도시된 서비스서버(100)에 해당될 수 있다.As shown in FIG. 11, a computing device 11000 includes at least one processor 11100, a memory 11200, a peripheral interface 11300, an input/output subsystem ( I/O subsystem 11400, a power circuit 11500, and a communication circuit 11600 may be included at least. At this time, the computing device 11000 may correspond to the service server 100 shown in FIG. 2 .

메모리(11200)는 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(11200)는 컴퓨팅장치(11000)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 그밖에 다양한 데이터를 포함할 수 있다.The memory 11200 may include, for example, high-speed random access memory, magnetic disk, SRAM, DRAM, ROM, flash memory, or non-volatile memory. . The memory 11200 may include a software module, a command set, or other various data necessary for the operation of the computing device 11000.

이때, 프로세서(11100)나 주변장치 인터페이스(11300) 등의 다른 컴포넌트에서 메모리(11200)에 액세스하는 것은 프로세서(11100)에 의해 제어될 수 있다.In this case, access to the memory 11200 from other components, such as the processor 11100 or the peripheral device interface 11300, may be controlled by the processor 11100.

주변장치 인터페이스(11300)는 컴퓨팅장치(11000)의 입력 및/또는 출력 주변장치를 프로세서(11100) 및 메모리 (11200)에 결합시킬 수 있다. 프로세서(11100)는 메모리(11200)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 컴퓨팅장치(11000)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.Peripheral interface 11300 may couple input and/or output peripherals of computing device 11000 to processor 11100 and memory 11200 . The processor 11100 may execute various functions for the computing device 11000 and process data by executing software modules or command sets stored in the memory 11200 .

입/출력 서브시스템은 다양한 입/출력 주변장치들을 주변장치 인터페이스(11300)에 결합시킬 수 있다. 예를 들어, 입/출력 서브시스템은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서 등의 주변장치를 주변장치 인터페이스(11300)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 입/출력 주변장치들은 입/출력 서브시스템을 거치지 않고 주변장치 인터페이스(11300)에 결합될 수도 있다.The input/output subsystem can couple various input/output peripherals to peripheral interface 11300. For example, the input/output subsystem may include a controller for coupling a peripheral device such as a monitor, keyboard, mouse, printer, or touch screen or sensor to the peripheral device interface 11300 as needed. According to another aspect, input/output peripherals may be coupled to the peripheral interface 11300 without going through the input/output subsystem.

전력 회로(11500)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어 전력 회로(11500)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.The power circuit 11500 may supply power to all or some of the terminal's components. For example, power circuit 11500 may include a power management system, one or more power sources such as a battery or alternating current (AC), a charging system, a power failure detection circuit, a power converter or inverter, a power status indicator or power It may contain any other components for creation, management and distribution.

통신 회로(11600)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨팅장치와 통신을 가능하게 할 수 있다.The communication circuit 11600 may enable communication with another computing device using at least one external port.

또는 상술한 바와 같이 필요에 따라 통신 회로(11600)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨팅장치와 통신을 가능하게 할 수도 있다.Alternatively, as described above, the communication circuit 11600 may include an RF circuit and transmit/receive an RF signal, also known as an electromagnetic signal, to enable communication with other computing devices.

이러한 도 11의 실시예는, 컴퓨팅장치(11000)의 일례일 뿐이고, 컴퓨팅장치(11000)는 도 11에 도시된 일부 컴포넌트가 생략되거나, 도 11에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨팅장치는 도 11에 도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 통신 회로(11600)에 다양한 통신방식(WiFi, 3G, LTE, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 컴퓨팅장치(11000)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.The embodiment of FIG. 11 is just one example of the computing device 11000, and the computing device 11000 may omit some components shown in FIG. 11, further include additional components not shown in FIG. It may have a configuration or arrangement combining two or more components. For example, a computing device for a communication terminal in a mobile environment may further include a touch screen or a sensor in addition to the components shown in FIG. , Bluetooth, NFC, Zigbee, etc.) may include a circuit for RF communication. Components that may be included in the computing device 11000 may be implemented as hardware including one or more signal processing or application-specific integrated circuits, software, or a combination of both hardware and software.

본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 발명이 적용되는 어플리케이션은 파일 배포 시스템이 제공하는 파일을 통해 서비스서버(100) 혹은 사용자단말(500)에 설치될 수 있다. 일 예로, 파일 배포 시스템은 서비스서버(100) 혹은 사용자단말(500)의 요청에 따라 상기 파일을 전송하는 파일 전송부(미도시)를 포함할 수 있다.Methods according to embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computing devices and recorded in computer readable media. In particular, the program according to the present embodiment may be composed of a PC-based program or a mobile terminal-specific application. An application to which the present invention is applied may be installed in the service server 100 or the user terminal 500 through a file provided by the file distribution system. For example, the file distribution system may include a file transmission unit (not shown) for transmitting the file according to a request of the service server 100 or the user terminal 500 .

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a combination of hardware components and software components. For example, devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may run an operating system (OS) and one or more software applications running on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of software. For convenience of understanding, there are cases in which one processing device is used, but those skilled in the art will understand that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include. For example, a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅장치 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. The device can be commanded. Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or to provide instructions or data to a processing device. , or may be permanently or temporarily embodied in a transmitted signal wave. Software may be distributed on networked computing devices and stored or executed in a distributed manner. Software and data may be stored on one or more computer readable media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

본 발명의 일 실시예에 따르면, 복수의 에어컨을 제어하는 시스템은 구역별로 복수의 에어컨에 대한 동작우선순위를 설정하고, 동작우선순위에 기초하여 해당 구역의 온도를 조절하기 위한 복수의 에어컨의 동작 순서가 결정되므로, 전력소비를 최소화하여 냉방을 수행할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, a system for controlling a plurality of air conditioners sets operation priorities for the plurality of air conditioners for each zone, and operates the plurality of air conditioners to adjust the temperature of the corresponding zone based on the operation priorities. Since the order is determined, it is possible to exert an effect of performing cooling by minimizing power consumption.

본 발명의 일 실시예에 따르면, 복수의 에어컨을 제어하는 시스템은 구역에 설치된 1 이상의 온도센서에 기초하여 해당 구역의 구역온도정보를 도출하므로, 에어컨 부근의 온도가 아닌 해당 구역에 대한 온도정보를 산출하여 해당 구역의 온도에 상응하여 복수의 에어컨의 동작을 제어할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, since the system for controlling a plurality of air conditioners derives zone temperature information of a corresponding zone based on one or more temperature sensors installed in the zone, the temperature information of the corresponding zone rather than the temperature near the air conditioner is obtained. It is possible to exert an effect of controlling the operation of a plurality of air conditioners in accordance with the temperature of the corresponding zone by calculating the temperature.

본 발명의 일 실시예에 따르면 동작우선순위결정단계는, 특정 에어컨만 가동시켜 기설정된 시간동안의 구역온도정보의 변화량을 산출하여 각 에어컨에 대한 동작우선순위를 결정하므로, 각 에어컨의 종류, 사용기간, 냉난방가능 범위 등 냉난방성능에 관련된 다양한 요소들을 모두 고려하여 동작우선순위를 결정할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, the operation priority determination step determines the operation priority for each air conditioner by operating only a specific air conditioner and calculating the amount of change in zone temperature information for a predetermined time, It is possible to exert an effect of determining operation priorities by considering all various factors related to cooling and heating performance, such as the period and the available range of cooling and heating.

본 발명의 일 실시예에 따르면, 제2에어컨제어정보는 소정의 시간동안 해당 구역에 대해 가장 높은 제1우선순위를 갖는 에어컨이 최대 출력으로 동작하도록 제어하므로, 빠른 시간내에 설정온도까지 냉방을 수행함과 동시에 전력소비량을 최적화할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, the second air conditioner control information controls the air conditioner having the highest first priority for a corresponding zone to operate at maximum output for a predetermined time, so that cooling is performed to a set temperature within a short time. At the same time, it can exert the effect of optimizing power consumption.

본 발명의 일 실시예에 따르면, 제2에어컨제어정보는 가장 높은 제1우선순위를 갖는 에어컨을 최대 출력으로 소정의 시간동안 동작하도록 하고, 이후에 설정온도정보보다 해당 구역의 구역온도정보가 높은 경우에, 추가적으로 후순위의 에어컨들을 동작하도록 하므로, 복수의 에어컨의 전력소비량을 줄일 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, the second air conditioner control information causes the air conditioner having the highest first priority to operate at maximum output for a predetermined period of time, after which the zone temperature information of the corresponding zone is higher than the set temperature information. In this case, since the lower priority air conditioners are additionally operated, the effect of reducing the power consumption of the plurality of air conditioners can be exerted.

본 발명의 일 실시예에 따르면, 동작우선순위결정단계는 해당 구역에 설치된 복수의 에어컨뿐만 아니라, 해당 구역에 영향을 미치는 타 구역에 설치된 1 이상의 에어컨까지 고려하여 동작우선순위를 결정하므로, 해당 구역에 대한 냉난방을 용이하게 수행할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, the operation priority determination step determines the operation priority by considering not only a plurality of air conditioners installed in the corresponding area, but also one or more air conditioners installed in other areas that affect the corresponding area. It can exert an effect that can easily perform cooling and heating for.

본 발명의 일 실시예에 따르면, 동작우선순위결정단계는, 해당 구역에 대한 복수의 에어컨에 대하여 2 이상의 에어컨을 그룹화하여 동작우선순위를 결정하므로, 해당 구역에 대하여 설정된 온도까지 냉방 하는데 있어서 더욱 신속하게 냉방이 이루어질 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, in the operation prioritization step, since the operation priority is determined by grouping two or more air conditioners with respect to a plurality of air conditioners for the corresponding zone, cooling to the set temperature for the corresponding zone is more rapid. It can exert a cooling effect that can be achieved.

본 발명의 일 실시예에 따르면, 서비스서버는 사용자단말에 각 구역별 현재의 구역온도정보 및 각 구역별로 설치된 복수의 에어컨의 상태정보를 제공하므로, 사용자가 현재 냉난방상태 등을 용이하게 파악할 수 있는 효과를 발휘할 수 있다.According to an embodiment of the present invention, since the service server provides current zone temperature information for each zone and state information of a plurality of air conditioners installed for each zone to the user terminal, the user can easily grasp the current heating and cooling state, etc. can be effective.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with limited examples and drawings, those skilled in the art can make various modifications and variations from the above description. For example, the described techniques may be performed in an order different from the method described, and/or components of the described system, structure, device, circuit, etc. may be combined or combined in a different form than the method described, or other components may be used. Or even if it is replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents of the claims are within the scope of the following claims.

Claims (9)

1 이상의 프로세서, 및 1 이상의 메모리를 갖는 컴퓨팅 시스템에서 수행되는 기계학습모델을 이용한 에어컨 자동 쾌적제어방법으로서,
기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 사무실공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보를 포함하는 환경정보를 LSTM기반의 제1기계학습모델에 입력하여 현재 시점에서의 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강시 각각에 대한 사용자의 쾌적도 및 에너지절감의 요소를 포함하는 상태가치정보를 도출하는 상태가치정보도출단계;
기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보;를 포함하는 환경정보를 LSTM기반의 제2기계학습모델에 입력하여 사용자의 쾌적도 및 에너지절감의 요소를 고려하여 최적으로 제어시, 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 각각에 해당할 확률정보를 포함하는 행동가치정보 및 상기 확률정보에 기반하여 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 중 어느 하나에 속하는 에어컨자동제어정보를 도출하는 제어정보도출단계;
기설정된 시간간격으로, 상기 상태가치정보; 확률정보 및 상기 에어컨자동제어정보 중 1 이상; 상기 환경정보;를 포함하는 각각의 샘플정보를 누적하여 샘플큐를 업데이트하는 샘플큐업데이트단계; 및
상기 샘플큐의 샘플정보에서, 각각의 샘플정보 이후에 사용자의 에어컨조작이 기설정된 시간구간 동안 있었는지 여부를 고려하여, 각각의 샘플정보에 대하여 보상값을 부여하여 학습데이터를 도출하는 학습데이터도출단계;
상기 학습데이터를 이용하여, 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시키는, 모델학습단계;를 포함하는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
An automatic comfort control method for an air conditioner using a machine learning model performed in a computing system having one or more processors and one or more memories, the method comprising:
At predetermined time intervals, room temperature; And environmental information, including additional information including at least one of carbon dioxide concentration, office space size, fine dust concentration, and outdoor temperature, is input into the LSTM-based first machine learning model to maintain the air conditioner temperature at the current time and increase the air conditioner temperature , a state value information derivation step of deriving state value information including elements of user's comfort level and energy saving for each air conditioner when the temperature of the air conditioner decreases;
At predetermined time intervals, room temperature; And additional information including at least one of carbon dioxide concentration, space size, fine dust concentration, and outdoor temperature; inputting environmental information including the LSTM-based second machine learning model to consider user comfort and energy saving factors. When optimally controlled, action value information including probability information corresponding to each of air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease, and any one of air conditioner temperature maintenance, air conditioner temperature increase, and air conditioner temperature decrease based on the probability information Control information derivation step of deriving the air conditioner automatic control information belonging to;
At a predetermined time interval, the state value information; At least one of probability information and the air conditioner automatic control information; a sample queue update step of updating a sample queue by accumulating each sample information including the environment information; and
In the sample information of the sample queue, learning data derivation for deriving learning data by assigning a compensation value to each sample information in consideration of whether or not the user's air conditioner operation was during a preset time period after each sample information step;
A method for automatically controlling comfort of an air conditioner using a machine learning model, including a model learning step of learning the first machine learning model and the second machine learning model using the learning data.
청구항 1에 있어서,
상기 에어컨자동제어정보는 상기 환경정보와 관련된 공간에서 동작하는 에어컨에 입력되어, 기설정된 시간간격으로 상기 에어컨의 자동제어에 사용되고,
상기 에어컨자동제어정보는, 에어컨온도 유지, 기설정된 온도로 에어컨온도 상승, 기설정된 온도로 에어컨온도 하강 중 어느 하나에 속하는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
The method of claim 1,
The air conditioner automatic control information is input to an air conditioner operating in a space related to the environment information and is used for automatic control of the air conditioner at predetermined time intervals,
The air conditioner automatic control information belongs to any one of maintaining the temperature of the air conditioner, raising the temperature of the air conditioner to a preset temperature, and lowering the temperature of the air conditioner to a preset temperature.
청구항 1에 있어서,
상기 학습데이터를 도출하는 단계는,
n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 보상값을 부여하고,
상기 모델학습단계에서는 각각의 샘플정보에 대하여 상기 환경정보, 상기 상태가치정보; 상기 확률정보 및 상기 에어컨자동제어정보 중 1 이상, 및 보상값을 이용하여 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시키는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
The method of claim 1,
The step of deriving the learning data,
When the user does not operate the air conditioner during the period from the nth sample information to the n+pth sample information after the air conditioner automatic control information is maintained, the air conditioner temperature rises, or the air conditioner temperature falls in the nth sample information In, a positive compensation value is given to the nth sample information,
In the model learning step, the environment information and the state value information for each sample information; An air conditioner automatic comfort control method using a machine learning model, wherein the first machine learning model and the second machine learning model are learned using at least one of the probability information and the air conditioner automatic control information and a compensation value.
청구항 1에 있어서,
상기 학습데이터를 도출하는 단계는,
n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 있는 경우에는, n번째 샘플정보에 대해서 음의 보상값 혹은 0의 보상값을 부여하고,
상기 모델학습단계에서는 각각의 샘플정보에 대하여 상기 환경정보, 상기 상태가치정보; 상기 확률정보 및 상기 에어컨자동제어정보 중 1 이상, 및 보상값을 이용하여 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시키는. 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
The method of claim 1,
The step of deriving the learning data,
When the user operates the air conditioner during the interval from the nth sample information to the n+pth sample information after the air conditioner automatic control information is maintained, the air conditioner temperature rises, or the air conditioner temperature falls in the nth sample information In, a negative compensation value or a compensation value of 0 is given to the nth sample information,
In the model learning step, the environment information and the state value information for each sample information; Learning the first machine learning model and the second machine learning model using at least one of the probability information and the air conditioner automatic control information and a compensation value. Air conditioner automatic comfort control method using machine learning model.
청구항 1에 있어서,
상기 학습데이터를 도출하는 단계는,
n번째 샘플정보에서 상기 에어컨자동제어정보가 에어컨온도 상승이 된 후에, n번째 샘플정보에서 n+p1번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 제1보상값을 부여하고,
n번째 샘플정보에서 상기 에어컨자동제어정보가 에어컨온도 유지, 혹은 하강이 된 후에, n번째 샘플정보에서 n+p2번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 제2보상값을 부여하고,
상기 양의 제1보상값은 상기 양의 제2보상값보다 크고, 샘플정보의 보상값이 높을수록, 상기 모델학습단계에서는 해당 샘플정보의 제1기계학습모델 및 제2기계학습모델에 대한 학습영향은 긍정적으로 높아지는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
The method of claim 1,
The step of deriving the learning data,
After the air conditioner automatic control information in the nth sample information has risen in the air conditioner temperature, if there is no user operation of the air conditioner during the period from the nth sample information to the n+p1th sample information, the nth sample information is positive. A first compensation value is given,
After the air conditioner automatic control information in the nth sample information maintains or decreases the air conditioner temperature, if there is no user operation of the air conditioner during the period from the nth sample information to the n+p2th sample information, the nth sample information A positive second compensation value is given to
The first compensation value of the quantity is greater than the second compensation value of the quantity, and the higher the compensation value of the sample information, the learning of the first machine learning model and the second machine learning model of the corresponding sample information in the model learning step. A method for automatically controlling comfort of an air conditioner using a machine learning model with a positive effect.
청구항 1에 있어서,
상기 학습데이터를 도출하는 단계는,
n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 없는 경우에는, n번째 샘플정보에 대해서 양의 보상값을 부여하고,
n번째 샘플정보에서 상기 에어컨자동제어정보가 유지, 에어컨온도 상승, 및 에어컨온도 하강 중 어느 하나가 된 후에, n번째 샘플정보에서 n+p번째 샘플정보까지의 구간동안 사용자의 에어컨조작이 있는 경우에는, n번째 샘플정보에 대해서 음의 보상값 혹은 0의 보상값을 부여하고,
상기 모델학습단계에서는,
학습데이터의 샘플정보 각각이 양의 보상값을 갖는 경우에는 해당 샘플정보의 확률정보, 상태가치정보를 긍정적인 방향으로 피드백하여, 제1기계학습모델 및 제2기계학습모델을 학습시키고,
학습데이터의 샘플정보 각각이 0의 보상값 혹은 음의 보상값을 갖는 경우에는 해당 샘플정보는 제1기계학습모델 및 제2기계학습모델의 학습에 사용하지 않거나 해당 샘플정보의 확률정보, 상태가치정보를 부정적인 방향으로 피드백하여, 제1기계학습모델 및 제2기계학습모델을 학습시키는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
The method of claim 1,
The step of deriving the learning data,
When the user does not operate the air conditioner during the period from the nth sample information to the n+pth sample information after the air conditioner automatic control information is maintained, the air conditioner temperature rises, or the air conditioner temperature falls in the nth sample information In, a positive compensation value is given to the nth sample information,
When the user operates the air conditioner during the interval from the nth sample information to the n+pth sample information after the air conditioner automatic control information is maintained, the air conditioner temperature rises, or the air conditioner temperature falls in the nth sample information In, a negative compensation value or a compensation value of 0 is given to the nth sample information,
In the model learning step,
When each sample information of the learning data has a positive compensation value, the probability information and state value information of the corresponding sample information are fed back in a positive direction to learn the first machine learning model and the second machine learning model,
If each sample information of the training data has a compensation value of 0 or a negative compensation value, the corresponding sample information is not used for learning the first and second machine learning models, or the probability information and state value of the corresponding sample information An automatic comfort control method for an air conditioner using a machine learning model to learn a first machine learning model and a second machine learning model by feeding back information in a negative direction.
청구항 1에 있어서,
상기 제1기계학습모델은 제1LSTM모델을 포함하고,
상기 제2기계학습모델은 제2LSTM모델을 포함하고,
상기 제1기계학습모델은 상기 제2기계학습모델의 학습에 사용이 되는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
The method of claim 1,
The first machine learning model includes a first LSTM model,
The second machine learning model includes a second LSTM model,
The automatic comfort control method for an air conditioner using a machine learning model, wherein the first machine learning model is used for learning the second machine learning model.
청구항 7에 있어서,
상기 모델학습단계는,
상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제1기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 상태가치정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제1오차를 감소시키도록, 상기 제1기계학습모델을 학습시키고,
상기 학습데이터에 포함된 샘플정보 각각의 환경정보를 상기 제2기계학습모델에 입력하여 나오는 출력값, 해당 샘플정보의 상기 상태가치정보, 해당 샘플정보의 상기 확률정보, 및 해당 샘플정보의 보상값에 기초하여 도출되는 제2오차를 감소시킴으로써, 상기 제2기계학습모델을 학습시키는, 기계학습모델을 이용한 에어컨 자동 쾌적제어방법.
The method of claim 7,
In the model learning step,
A first error derived based on the output value obtained by inputting the environmental information of each sample information included in the learning data to the first machine learning model, the state value information of the corresponding sample information, and the compensation value of the corresponding sample information To reduce, training the first machine learning model,
The output value obtained by inputting the environmental information of each sample information included in the learning data to the second machine learning model, the state value information of the corresponding sample information, the probability information of the corresponding sample information, and the compensation value of the corresponding sample information A method for automatically controlling comfort of an air conditioner using a machine learning model, wherein the second machine learning model is learned by reducing a second error derived based thereon.
1 이상의 프로세서, 및 1 이상의 메모리를 갖는 컴퓨팅 시스템으로 구현되는 기계학습모델을 이용한 에어컨 자동 쾌적제어장치로서,
상기 컴퓨팅 시스템은,
기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 사무실공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보를 포함하는 환경정보를 LSTM기반의 제1기계학습모델에 입력하여 현재 시점에서의 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강시 각각에 대한 사용자의 쾌적도 및 에너지절감의 요소를 포함하는 상태가치정보를 도출하는 상태가치정보도출단계;
기설정된 시간간격으로, 실내온도; 및 이산화탄소농도, 공간크기, 미세먼지농도, 실외온도 중 1 이상을 포함하는 추가정보;를 포함하는 환경정보를 LSTM기반의 제2기계학습모델에 입력하여 사용자의 쾌적도 및 에너지절감의 요소를 고려하여 최적으로 제어시, 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 각각에 해당할 확률정보를 포함하는 행동가치정보 및 상기 확률정보에 기반한 에어컨온도 유지, 에어컨온도 상승, 에어컨온도 하강 중 어느 하나에 속하는 에어컨자동제어정보를 도출하는 제어정보도출단계;
기설정된 시간간격으로, 상기 상태가치정보; 확률정보 및 상기 에어컨자동제어정보 중 1 이상; 상기 환경정보;를 포함하는 각각의 샘플정보를 누적하여 샘플큐를 업데이트하는 샘플큐업데이트단계; 및
상기 샘플큐의 연속된 샘플정보에서, 각각의 샘플정보 이후에 사용자의 에어컨조작이 기설정된 시간구간 동안 있었는지 여부를 고려하여, 각각의 샘플정보에 대하여 보상값을 부여하여 학습데이터를 도출하는 학습데이터도출단계;
상기 학습데이터를 이용하여, 상기 제1기계학습모델 및 상기 제2기계학습모델을 학습시키는, 모델학습단계;를 수행하는, 기계학습모델을 이용한 에어컨 자동 쾌적제어장치.
An automatic comfort control device for an air conditioner using a machine learning model implemented as a computing system having one or more processors and one or more memories,
The computing system,
At predetermined time intervals, room temperature; And environmental information, including additional information including at least one of carbon dioxide concentration, office space size, fine dust concentration, and outdoor temperature, is input into the LSTM-based first machine learning model to maintain the air conditioner temperature at the current time and increase the air conditioner temperature , a state value information derivation step of deriving state value information including elements of user's comfort level and energy saving for each air conditioner when the temperature of the air conditioner decreases;
At predetermined time intervals, room temperature; and additional information including at least one of carbon dioxide concentration, space size, fine dust concentration, and outdoor temperature; inputting the environmental information including the into the LSTM-based second machine learning model to consider the user's comfort and energy saving factors. When optimally controlled, action value information including probability information corresponding to each of air conditioner temperature maintenance, air conditioner temperature increase, air conditioner temperature decrease, and air conditioner temperature maintenance based on the probability information, air conditioner temperature increase, air conditioner temperature decrease Control information derivation step of deriving the air conditioner automatic control information belonging to;
At a predetermined time interval, the state value information; At least one of probability information and the air conditioner automatic control information; a sample queue update step of updating a sample queue by accumulating each sample information including the environment information; and
In the continuous sample information of the sample queue, learning to derive learning data by assigning a compensation value to each sample information in consideration of whether or not the user's air conditioner operation was during a preset time period after each sample information data extraction step;
An air conditioner automatic comfort control device using a machine learning model, performing a model learning step of learning the first machine learning model and the second machine learning model using the learning data.
KR1020210152551A 2021-11-08 2021-11-08 Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control KR102512506B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210152551A KR102512506B1 (en) 2021-11-08 2021-11-08 Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210152551A KR102512506B1 (en) 2021-11-08 2021-11-08 Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control

Publications (1)

Publication Number Publication Date
KR102512506B1 true KR102512506B1 (en) 2023-03-22

Family

ID=86006019

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210152551A KR102512506B1 (en) 2021-11-08 2021-11-08 Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control

Country Status (1)

Country Link
KR (1) KR102512506B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190096310A (en) * 2019-04-23 2019-08-19 엘지전자 주식회사 Artificial intelligence device
KR20200039964A (en) * 2018-10-08 2020-04-17 에스케이텔레콤 주식회사 Method and Apparatus for Operating Optimal of Equipment based on Machine Learning Model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200039964A (en) * 2018-10-08 2020-04-17 에스케이텔레콤 주식회사 Method and Apparatus for Operating Optimal of Equipment based on Machine Learning Model
KR20190096310A (en) * 2019-04-23 2019-08-19 엘지전자 주식회사 Artificial intelligence device

Similar Documents

Publication Publication Date Title
CN111795484B (en) Intelligent air conditioner control method and system
Zhang et al. Building HVAC scheduling using reinforcement learning via neural network based model approximation
US9651929B2 (en) HVAC system control integrated with demand response, on-site energy storage system and on-site energy generation system
KR20190140810A (en) An apparatus for hvac system input power control based on target temperature and method thereof
Fu et al. ED-DQN: An event-driven deep reinforcement learning control method for multi-zone residential buildings
US11506413B2 (en) Method and controller for controlling a chiller plant for a building and chiller plant
Yu et al. Online tuning of a supervisory fuzzy controller for low-energy building system using reinforcement learning
Maasoumy et al. Selecting building predictive control based on model uncertainty
CN102301288A (en) Systems And Methods To Control Energy Consumption Efficiency
WO2013133967A1 (en) System and method of controlling energy consumption in a building based on occupancy data, weather data and energy price data
CN104075402A (en) Intelligent air conditioner control method and system
KR102544265B1 (en) Electronic device and control method thereof
JP2020154785A (en) Prediction method, prediction program, and model learning method
CN114556027B (en) Air conditioner control device, air conditioner system, air conditioner control method, and recording medium
Dawood et al. Trade-off decisions in a novel deep reinforcement learning for energy savings in HVAC systems
KR101345125B1 (en) HVAC Control Method and System to Improve Occupant Comfort and Energy Efficiency
Nagy et al. Reinforcement learning for intelligent environments: A Tutorial
Kotevska et al. Methodology for interpretable reinforcement learning model for HVAC energy control
WO2021038759A1 (en) Model selection method, model selection program, and information processing device
CN113821903B (en) Temperature control method and equipment, modularized data center and storage medium
KR102512506B1 (en) Method, System, and Computer-Readable Medium for Automatic Air-Conditioner Control
Mansur et al. A learning approach for energy efficiency optimization by occupancy detection
Putta et al. A distributed approach to efficient model predictive control of building HVAC systems
KR102130464B1 (en) System for managing building with smart user orientation
KR102287293B1 (en) Method, System, and Computer-Readable Medium for Controlling Multiple Air Conditioners in Space

Legal Events

Date Code Title Description
GRNT Written decision to grant