KR102605858B1 - Pid 제어 방법 및 장치 - Google Patents

Pid 제어 방법 및 장치 Download PDF

Info

Publication number
KR102605858B1
KR102605858B1 KR1020200171331A KR20200171331A KR102605858B1 KR 102605858 B1 KR102605858 B1 KR 102605858B1 KR 1020200171331 A KR1020200171331 A KR 1020200171331A KR 20200171331 A KR20200171331 A KR 20200171331A KR 102605858 B1 KR102605858 B1 KR 102605858B1
Authority
KR
South Korea
Prior art keywords
error
reward
value
pid
current error
Prior art date
Application number
KR1020200171331A
Other languages
English (en)
Other versions
KR20220081628A (ko
Inventor
윤상혁
Original Assignee
세메스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세메스 주식회사 filed Critical 세메스 주식회사
Priority to KR1020200171331A priority Critical patent/KR102605858B1/ko
Publication of KR20220081628A publication Critical patent/KR20220081628A/ko
Application granted granted Critical
Publication of KR102605858B1 publication Critical patent/KR102605858B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B11/00Automatic controllers
    • G05B11/01Automatic controllers electric
    • G05B11/36Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
    • G05B11/42Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P.I., P.I.D.
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/021Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a variable is automatically adjusted to optimise the performance

Abstract

PID 제어 파라미터를 자동으로 튜닝하기 위한 PID 제어 방법 및 장치가 제공된다. 상기 PID 제어 방법은, 에러, 제어신호 및 출력값을 제공받되, 상기 에러는 타겟값과 상기 출력값의 차이이고, 상기 제어신호는 상기 에러를 기초로 PID 제어기에 의해 생성된 신호이고, 상기 출력값은 상기 제어신호에 따라 프로세스가 진행된 결과이고, 리워드 산출방식에 따라 산출된 리워드를 제공받고, 상기 에러, 제어신호, 출력값 및 리워드를 기초로, 상기 PID 제어기의 제어 파라미터를 결정하는 것을 포함하되, 상기 리워드 산출방식은 상기 출력값의 피크(peak)를 최소화하기 위한 제1 방식을 포함하고, 상기 제1 방식에 대응되는 제1 리워드는, 현재 에러와 이전 에러를 기초로 한 합 연산값을 이용하여 산출된다.

Description

PID 제어 방법 및 장치{Method and apparatus for controlling PID}
본 발명은 PID 제어 파라미터를 자동으로 튜닝하기 위한 PID 제어 방법 및 장치에 관한 것이다.
PID 제어기(비례-적분-미분 제어기, Proportional-Integral-Differential controller)는 피드백(feedback) 제어 형태를 갖는다. PID 제어기는 제어 대상(예를 들어, 반도체 제조장치)의 출력값과 타겟값을 서로 비교하여 에러를 계산한 후, 에러를 이용하여 제어에 필요한 제어값(또는 제어신호)을 계산한다.
한편, 제어 대상은 일정시간이 경과하면, 그 특성이 변경될 수 있다. 종래에는 PID 제어 파라미터(또는 PID 게인(gain))가 한번 결정되면, 과도한 세틀링 시간(settling time), 오버슛(overshoot) 등 이상이 발생하기 전까지는 계속 사용되었다. 이러한 이상을 발견하면 작업자는 PID 제어 파라미터를 다시 튜닝하였는데, 작업자가 수동으로 튜닝 작업을 하였기 때문에 튜닝시간이 오래 걸리고, 작업자의 숙련도에 따라 튜닝시간이 달라졌다.
본 발명이 해결하고자 하는 과제는, PID 제어 파라미터를 자동으로 튜닝하기 위한 PID 제어 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는, PID 제어 파라미터를 자동으로 튜닝하기 위한 PID 제어 장치를 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위한 본 발명의 PID 제어 방법의 일 면(aspect)은, 에러, 제어신호 및 출력값을 제공받되, 상기 에러는 타겟값과 상기 출력값의 차이이고, 상기 제어신호는 상기 에러를 기초로 PID 제어기에 의해 생성된 신호이고, 상기 출력값은 상기 제어신호에 따라 프로세스가 진행된 결과이고, 리워드 산출방식에 따라 산출된 리워드를 제공받고, 상기 에러, 제어신호, 출력값 및 리워드를 기초로, 상기 PID 제어기의 제어 파라미터를 결정하는 것을 포함하되, 상기 리워드 산출방식은 상기 출력값의 피크(peak)를 최소화하기 위한 제1 방식을 포함하고, 상기 제1 방식에 대응되는 제1 리워드는, 현재 에러와 이전 에러를 기초로 한 합 연산값을 이용하여 산출된다.
상기 제1 리워드는 현재 에러의 제곱값과 이전 에러의 제곱값의 가중합일을 이용하여 결정될 수 있다.
상기 리워드 산출방식은 현재 에러가 기준값 이하로 떨어지도록 설계된 제2 방식을 포함할 수 있다. 상기 제2 방식에 대응되는 상기 제2 리워드는, 상기 현재 에러가 제1 기준값보다 작으면 증가될 수 있다. 상기 제2 리워드는, 상기 현재 에러가 제2 기준값보다 크면 감소되고, 상기 제2 기준값은 상기 제1 기준값보다 클 수 있다. 또는, 상기 제2 리워드는, 상기 현재 에러가 상기 제1 기준값보다 크고 제2 기준값보다 작으면 그대로 유지되고, 상기 제2 기준값은 상기 제1 기준값보다 클 수 있다.
상기 리워드 산출방식은 현재 에러가 이전 에러보다 증가하지 않도록 설계된 제3 방식을 포함할 수 있다. 상기 제3 방식에 대응되는 제3 리워드는, 상기 현재 에러가 상기 이전 에러보다 크면 감소될 수 있다.
상기 PID 제어기의 제어 파라미터를 결정한 후에, 상기 출력값과 상기 타겟값의 차이가 기설정된 값 이상이 될 경우, 상기 PID 제어기의 제어 파라미터를 다시 결정하는 것을 더 포함할 수 있다.
상기 PID 제어기의 제어 파라미터를 결정한 후에, 주기적으로 또는 운영자의 지시에 따라, 상기 PID 제어기의 제어 파라미터를 다시 결정하는 것을 더 포함할 수 있다.
상기 과제를 달성하기 위한 본 발명의 PID 제어 방법의 다른 면은, 에러, 제어신호 및 출력값을 제공받되, 상기 에러는 타겟값과 상기 출력값의 차이이고, 상기 제어신호는 상기 에러를 기초로 PID 제어기에 의해 생성된 신호이고, 상기 출력값은 상기 제어신호에 따라 프로세스가 진행된 결과이고, 리워드 산출방식에 따라 산출된 리워드를 제공받고, 상기 에러, 제어신호, 출력값 및 리워드를 기초로, 상기 PID 제어기의 제어 파라미터를 결정하는 것을 포함하되, 상기 리워드 산출방식은 상기 출력값의 피크(peak)를 최소화하기 위한 제1 방식과, 현재 에러가 기준값 이하로 떨어지도록 설계된 제2 방식과, 현재 에러가 이전 에러보다 증가하지 않도록 설계된 제3 방식을 포함하고, 상기 리워드는, 상기 제1 방식 내지 제3 방식에 각각 대응되는 제1 리워드 내지 제3 리워드의 가중합이고, 상기 제1 리워드는 현재 에러와 이전 에러를 기초로 한 합 연산값을 이용하여 산출되고, 상기 제2 리워드는 현재 에러와 기준값의 비교 결과에 따라 변경되고, 상기 제3 리워드는 현재 에러와 이전 에러의 비교 결과에 따라 변경될 수 있다.
상기 제1 리워드는 현재 에러의 제곱값과 이전 에러의 제곱값의 가중합을 이용하여 결정될 수 있다.
상기 제2 리워드는, 상기 현재 에러가 제1 기준값보다 작으면 증가되고, 상기 현재 에러가, 상기 제1 기준값보다 큰 제2 기준값보다 크면 감소되고, 상기 현재 에러가, 상기 제1 기준값보다 크고 제2 기준값보다 작으면 그대로 유지될 수 있다.
상기 다른 과제를 달성하기 위한 본 발명의 PID 제어 장치의 일 면은, 타겟값과 출력값의 차이인 에러와, 제어 파라미터를 기초로 제어신호를 생성하는 PID 제어기; 상기 제어신호에 따라 프로세스를 진행하고 상기 출력값을 생성하는 시스템; 리워드 산출방식에 따라 리워드를 산출하는 리워드 생성기; 및 상기 에러, 상기 제어신호, 상기 출력값 및 상기 리워드를 제공받고, 상기 제어 파라미터를 결정하여 상기 PID 제어기에 제공하는 PID 러너를 포함하되, 상기 리워드 산출방식은 상기 출력값의 피크(peak)를 최소화하기 위한 제1 방식을 포함하고, 상기 제1 방식에 대응되는 제1 리워드는, 현재 에러와 이전 에러를 기초로 한 합 연산값을 이용하여 산출될 수 있다.
상기 제1 리워드는 현재 에러의 제곱값과 이전 에러의 제곱값의 가중합을 이용하여 결정될 수 있다.
상기 리워드 산출방식은 현재 에러가 기준값 이하로 떨어지도록 설계된 제2 방식을 포함할 수 있다.
상기 제2 방식에 대응되는 상기 제2 리워드는, 상기 현재 에러가 제1 기준값보다 작으면 증가되고, 상기 현재 에러가, 상기 제1 기준값보다 큰 제2 기준값보다 크면 감소되고, 상기 현재 에러가, 상기 제1 기준값보다 크고 제2 기준값보다 작으면 그대로 유지될 수 있다.
상기 리워드 산출방식은 현재 에러가 이전 에러보다 증가하지 않도록 설계된 제3 방식을 포함할 수 있다.
상기 제3 방식에 대응되는 제3 리워드는, 상기 현재 에러가 상기 이전 에러보다 크면 감소될 수 있다.
상기 PID 제어기의 제어 파라미터를 결정한 후에, 상기 출력값과 상기 타겟값의 차이가 기설정된 값 이상이 될 경우, 상기 PID 제어기의 제어 파라미터를 다시 결정하는 것을 더 포함할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
도 1은 본 발명의 몇몇 실시예에 따른 PID(Proportional-Integral-Differential) 제어 장치를 설명하기 위한 도면이다.
도 2는 도 1의 PID 러너의 일 예를 설명하기 위한 도면이다.
도 3은 도 1의 PID 러너의 다른 예를 설명하기 위한 도면이다.
도 4는 도 1의 출력값(y)을 설명하기 위한 도면이다.
도 5는 도 1의 제어신호(u)를 설명하기 위한 도면이다.
도 6은 도 1의 에러(e)를 설명하기 위한 도면이다.
도 7은 리워드 산출 동작을 설명하기 위해, 튜닝 과정에서 출력값(y)의 변화를 도시한 것이다.
도 8은 본 발명의 일 실시예에 따른 PID 제어 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 다른 실시예에 따른 PID 제어 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 또 다른 실시예에 따른 PID 제어 방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
도 1은 본 발명의 몇몇 실시예에 따른 PID(Proportional-Integral-Differential) 제어 장치를 설명하기 위한 도면이다. 도 2는 도 1의 PID 러너의 일 예를 설명하기 위한 도면이고, 도 3은 도 1의 PID 러너의 다른 예를 설명하기 위한 도면이다. 도 4는 도 1의 출력값(y)을 설명하기 위한 도면이고, 도 5는 도 1의 제어신호(u)를 설명하기 위한 도면이고, 도 6은 도 1의 에러(e)를 설명하기 위한 도면이다.
우선 도 1을 참고하면, 본 발명의 몇몇 실시예에 따른 PID 제어 장치(1)는 환경(environment)와 에이전트(agent)로 구분된다. 환경은 연산기(10), PID 제어기(20), 시스템(30), 리워드 생성기(40)를 포함한다. 에이전트는 PID 러너(learner)(50)를 포함한다.
환경은 에이전트로부터 액션(action)을 제공받고 액션에 대응하는 스테이트(state)와 리워드(reward)를 에이전트에 제공한다. 에이전트는 환경에 액션을 제공한 뒤 그 결과로써 전달받은 스테이트와 리워드 기반으로 다음 액션을 취하게 된다. 즉, 에이전트는 환경으로부터 피드백을 받아서, 액션을 수정하게 된다.
우선, 환경이 제공하는 스테이트는, 에러(e), 제어신호(u) 및 출력값(y)일 수 있다.
에러(e)는 연산기(10)에 의해 연산되는, 타겟값(목표값 또는 레퍼런스값)(r)과 출력값(y)의 차이를 의미한다. 연산기(10)는 타겟값(r)을 제공받고, 시스템(30)에 의해 생성된 출력값(y)을 제공받아, 타겟값(r)과 출력값(y) 사이의 차이를 계산한다.
출력값(y)은 제어신호(u)에 따라 시스템(30)이 특정 프로세스를 진행한 결과를 의미한다. 시스템(30)은 단일 프로세스 또는 다양한 프로세스에 대응되도록 구현될 수 있다. 또한, 시스템(30)은 실제 시스템일 수도 있고, 시뮬레이션 시스템일 수도 있다. 시뮬레이션 시스템일 경우에는 실제 시스템을 간소화하여 구성될 수 있다.
제어신호(u)는 PID 제어기(20)에 의해 생성된다. 구체적으로, PID 제어기(20)는 비례-적분-미분 제어기 (Proportional-Integral-Differential controller)를 의미하고, PID 제어기(20)는 [수학식 1]과 같이 3개의 항을 더해서 제어신호(u)([수학식 1]에서 MV(t))를 계산할 수 있다.
[수학식 1]
여기서, e(t)는 시간(t)에 따른 에러값(즉, 타겟값과 출력값의 차이)을 의미하고, 는 비례항이고, 는 적분항이고, 는 미분항을 의미한다. 비례항은 제어신호(u)가 현재 상태에서 에러값의 크기에 비례하여 생성되도록 하고, 적분항은 정상 상태(steady-state)에서의 에러를 제거하는 역할을 하고, 미분항은 출력값(y)의 급격한 변화에 제동을 걸어 오버슛(overshoot)을 줄이고 안정성(stability)을 향상시키는 역할을 한다. 여기서, Kp, Ki, Kd는 각각 비례항, 적분항, 미분항의 계수로서, PID 제어 파라미터(또는 PID 게인)에 해당한다.
한편, PID 제어기(20)는 [수학식 1]을 변형하여 사용할 수도 한다. 예를 들어, 비례항만을 가지거나, 혹은 비례-적분, 비례-미분항만을 가진 제어기의 형태로 단순화하여 사용할 수 있다. 이러한 변형예도 본 발명에서 지칭하는 PID 제어기(20)에 모두 포함된다.
한편, 환경이 에이전트에 제공하는 리워드는, 리워드 생성기(40)에 의해서 리워드 산출방식에 의해 산출된 리워드(RWD)일 수 있다.
구체적으로 후술하겠으나, 리워드 산출방식은 출력값의 피크(peak)를 최소화하기 위한 제1 방식, 현재 에러가 기준값 이하로 떨어지도록 설계된 제2 방식, 현재 에러가 이전 에러보다 증가하지 않도록 설계된 제3 방식 중 적어도 하나를 포함한다. 리워드(RWD)는 이러한 다양한 방식에 의해서 산출된 값들의 조합일 수 있다. 이러한 리워드의 산출방식은 도 7을 이용하여 구체적으로 설명하도록 한다.
한편, 에이전트(즉, PID 러너(50))가 스테이트(즉, 에러(e), 제어신호(u) 및 출력값(y))와 리워드(RWD)를 제공받아 생성하는 액션은, PID 제어기(20)에서 사용할 PID 제어 파라미터(또는 PID 게인(gain))일 수 있다. 즉, PID 제어 파라미터는 전술한 [수학식1]의 Kp, Ki, Kd를 의미할 수 있다. 본 발명의 몇몇 실시예에 따른 PID 제어 장치(1)에서, Kp, Ki, Kd 는 상수가 아니라 변수로서, 현재의 시스템(또는, 제조설비)(30) 상태를 반영하여 조절될 수 있다. Kp, Ki, Kd는 시스템(30) 사용 중에 경고(alarm)가 발생되거나, 주기적으로 또는 운영자의 지시(instruction)에 따라 재결정될 수 있다.
구체적으로, PID 러너(50)는 기계학습 모델에 따라 학습을 하고, 학습 결과를 기초로 액션을 취하게 된다. 기계학습은 인공지능의 한 분야로서 컴퓨터가 학습할 수 있는 알고리즘/기술을 의미하고, 기계학습 모델은 예를 들어, ANN(Artificial Neural Network), DNN(Deep Neural Network), CNN(Convolution Neural Network), RNN(Recurrent Neural Network) 등을 포함할 수 있으나, 이에 한정되지 않는다.
ANN은 사람의 신경망 원리와 구조를 모방하여 만든 기계학습 알고리즘으로, 입력 레이어(input layer), 히든 레이어(hidden layer), 출력 레이어(output layer) 등으로 구성된다. 히든 레이어의 개수와 노드 개수를 구성하는 것이 모델 구성의 핵심이 된다.
DNN은 ANN과 비교할 때 히든 레이어를 2개 이상 늘려서 학습 결과를 향상시킨 방법이다. 컴퓨터가 스스로 분류레이블을 만들고, 공간 왜곡 및 데이터 구분 과정을 반복하여 최적을 구분선을 도출하는 방식이다. DNN을 응용한 알고리즘으로 CNN, RNN, LSTM, GRU 등이 있다.
CNN(합성곱신경망)은, 데이터의 특징을 추출하여 패턴을 파악하는 방법으로, 컨볼루션(convolution) 과정과 풀링(pooling) 과정으로 이루어진다. CNN은 컨볼루션 레이어와 풀링 레이어의 반복으로 구성된다. 컨볼루션 과정은 데이터의 특징을 추출하는 과정으로, 데이터의 각 성분의 인접 성분을 조사해 특징을 파악하고, 파악된 특징을 하나의 레이어로 도출하는 과정이다. 여기서 도출된 하나의 레이어를 컨볼루션 레이어(convolution layer)라고 한다. 이 과정은 하나의 압축 과정이고, 파라미터 개수를 효과적으로 줄여주는 역할을 한다. 또한, 풀링 과정은 컨볼루션 과정을 거친 레이어의 사이즈를 줄이고, 노이즈를 상쇄하는 과정이다.
RNN(순환신경망)은, 반복적이고 순차적인 데이터(sequential data)의 학습에 특화된 인공신경망의 한 종류로서, 내부에 순환구조가 들어있는 특징이 있다. 순환구조를 이용하여, 과거 학습에 가중치(weight)를 부여하여 현재 학습에 반영한다. 과거 학습과 현재 학습을 연결시키고, 시간에 종속되는 특징을 갖는다.
도 2 및 도 3에 도시된 것과 같이, PID 러너(50)는 이산적인(discrete) 액션을 취하도록 설계될 수도 있고, 연속적인(continuous) 액션을 취하도록 설계될 수 있다.
도 2를 참고하면, PID 러너(50)는 비례항의 계수인 Kp를 결정하기 위한 제1 에이전트(51), 적분항의 계수인 Ki를 결정하기 위한 제2 에이전트(52), 미분항의 계수인 Kd를 결정하기 위한 제3 에이전트(53)을 포함한다.
제1 내지 제3 에이전트(51~53) 각각은, 전술한 학습모델에 의해 구현된 신경망을 포함할 수 있다.
PID 러너(50)가 이산적인 액션을 취할 경우에, 제1 에이전트(51)는 에러(e), 제어신호(u), 출력값(y), 리워드(RWD)를 제공받고, Kp를 증가(up)시킬지, 감소(down)시킬지, 유지(hold)시킬지를 결정한다. 마찬가지로, 제2 에이전트(52)는 에러(e), 제어신호(u), 출력값(y), 리워드(RWD)를 제공받고, Ki를 증가(up)시킬지, 감소(down)시킬지, 유지(hold)시킬지를 결정한다. 제3 에이전트(53)는 에러(e), 제어신호(u), 출력값(y), 리워드(RWD)를 제공받고, Kd를 증가(up)시킬지, 감소(down)시킬지, 유지(hold)시킬지를 결정한다. 여기서 에러(e)는 이전 에러(e(t-1)) 및/또는 현재 에러(e(t))를 포함할 수 있고, 제어신호(u)는 이전 제어신호(u(t-1)) 및/또는 현재 제어신호(u(t))를 포함할 수 있고, 출력값(y)은 이전 출력값(y(t-1)) 및/또는 현재 출력값(y(t))를 포함할 수 있다.
도 3을 참고하면, PID 러너(50)는 연속적인 액션을 취하고, 비례항의 계수인 Kp를 결정하기 위한 제1 에이전트(51a), 적분항의 계수인 Ki를 결정하기 위한 제2 에이전트(52a), 미분항의 계수인 Kd를 결정하기 위한 제3 에이전트(53a)을 포함한다.
제1 내지 제3 에이전트(51a~53a) 각각은, 전술한 학습모델에 의해 구현된 신경망을 포함할 수 있다. PID 러너(50)는 연속적인 액션을 취하는 경우, 제1 내지 제3 에이전트(51a~53a) 각각은, 에러(e), 제어신호(u), 출력값(y), 리워드(RWD)를 제공받고, 현재 상태에서 가장 적절하다고 판단되는 Kp, Ki, Kd를 곧바로 출력할 수 있다.
여기서 도 4 내지 도 6을 참고하여, 도 1에서 설명된 출력값(y), 제어신호(u) 및 에러(e)의 예를 설명한다.
도 4에서 x축은 시간(t)을 의미하고, y축은 출력값(y)를 의미한다. 도 4에 도시된 것과 같이, 튜닝 과정(예를 들어, 시간(t)의 0~130s)을 거쳐서 출력값(y)가 안정화되고 있음을 알 수 있다. 이전 출력값(y(t-1)) 및 현재 출력값(y(t))은 이전 시간(t-1) 및 현재 시간(t)에 대응되는 값이다.
도 5에서 x축은 시간(t)을 의미하고, y축은 제어신호(u)를 의미한다. 도 5에 도시된 것과 같이, 소정 구간(예를 들어, 시간(t)의 0~130s) 동안 제어신호(u)는 변화가 없고, 시간(t)이 130s를 지나면서 제어신호(u)가 급격히 떨어지기 시작함을 알 수 있다. 이전 제어신호(u(t-1)) 및 현재 제어신호(u(t))은 이전 시간(t-1) 및 현재 시간(t)에 대응되는 값이다.
도 6에서 x축은 시간(t)을 의미하고, y축은 에러(e)를 의미한다. 도 6에 도시된 것과 같이, 튜닝 과정(예를 들어, 시간(t)의 0~140)을 거치는 동안 에러(e)는 꾸준히 작아지고 있음을 알 수 있다. 이전 에러(e(t-1)) 및 현재 에러(e(t))은 이전 시간(t-1) 및 현재 시간(t)에 대응되는 값이다.
도 4 내지 도 6을 참고하면, 튜닝 과정(예를 들어, 시간(t)의 0~130s)에서 출력값(y)이 타겟값에 가까워지면서 에러(e)가 점차적으로 줄어들고, 시간(t) 130s 부근에서 제어신호(u)가 급격히 바뀌면서, 출력값(y)이 타겟값에 도달하였음을 알 수 있다.
이하에서, 도 7 및 도 8을 참고하여, 도 1의 리워드 산출기의 동작 방법을 구체적으로 설명한다.
도 7은 리워드 산출 동작을 설명하기 위해, 튜닝 과정에서 출력값(y)의 변화를 도시한 것이다.
전술한 것과 같이, 리워드 산출방식은 다양한 방식에 의해서 산출된 값들의 조합일 수 있다. 리워드 산출방식은 이하에서 설명할 3개의 방식을 모두 포함하지 않고, 3개의 방식 들 중 적어도 하나를 포함할 수 있다.
[수학식 2]에서와 같이, 전체 리워드(Total Reward)(도 1의 RWD에 대응)는 3개의 방식에 의해 산출되는 제1 리워드(RWD1), 제2 리워드(RWD2) 및 제3 리워드(RWD3)의 가중합일 수 있다. α, β, γ는 각각 제1 리워드(RWD1), 제2 리워드(RWD2) 및 제3 리워드(RWD3)의 계수(또는 가중치(weight))일 수 있다.
[수학식 2]
제1 방식은 출력값(y)의 피크(peak)(도 7의 PK 참고)를 최소화하기 위한 것이다. 제1 방식에 대응되는 제1 리워드(RWD1)는, 현재 에러(e(t))와 이전 에러(e(t-1))를 기초로 한 합 연산값을 이용하여 산출된다. 예를 들어, 제1 리워드(RWD1)는 현재 에러(e(t))의 제곱값과 이전 에러(e(t-1))의 제곱값의 가중합을 이용하여 결정될 수 있다. 또는, 예를 들어, 제1 리워드(RWD1)는 현재 에러(e(t))와 이전 에러(e(t-1))의 가중합을 이용하여 결정될 수 있다. 에러(e(t), e(t-1))는 타겟값(도 7의 TV)과 출력값(y)의 차이를 의미하고, 항상 양의 값을 갖는다. 즉, 에러(e(t), e(t-1))는 출력값(y)에서 타겟값(TV)을 뺀 후 이의 절대값을 구함으로 얻어질 수 있다. δ1, δ2는 각각 에러(e(t), e(t-1))의 계수이다.
후술할 제2 방식 또는 제3 방식과는 달리, 에러(e(t), e(t-1))의 수치가 제1 리워드(RWD1)를 계산하는 데 그대로 사용되기 때문에, 전체 리워드(RWD)에도 제1 리워드(RWD1)가 많은 영향을 미치게 된다. 따라서, 제1 방식의 제1 리워드(RWD1)를 사용하면, 에러(e(t), e(t-1)) 자체의 값이 작아지는 방향으로 튜닝 동작이 진행되기 때문에, 출력값(y)의 피크(도 7의 PK 참고)가 작아지는 방향으로 튜닝 동작이 진행된다.
제2 방식은 현재 에러(e(t))가 기준값(TS1, TS2) 이하로 떨어지도록 설계된다. 제2 방식에 대응되는 제2 리워드(RWD2)는, 현재 에러(e(t))와 기준값(TS1, TS2)을 비교하여 비교결과에 따라서 결정된다.
예를 들어, 제2 리워드(RWD2)는, 현재 에러(e(t))가 제1 기준값(TS1)보다 작으면 증가되고, 현재 에러(e(t))가 (제1 기준값(TS1)보다 큰) 제2 기준값(TS2)보다 크면 감소되고, 현재 에러(e(t))가 제1 기준값(TS1)보다 크고 제2 기준값(TS2)보다 작으면 그대로 유지될 수 있다. 이를 정리하면 다음과 같다.
현재 에러(e(t))가 제1 기준값(TS1)보다 작게 제어하는 것은, 출력값(y)이 도 7의 구간 A 내에 들어오도록 하는 것에 대응된다. 현재 에러(e(t))가 제2 기준값(TS2)보다 작게 제어하는 것은, 출력값(y)이 도 7의 구간 B 내에 들어오도록 하는 것에 대응된다. 도 7을 이용하여 설명하면, 현재 에러(e(t))가 구간 A 내에 들어오면 제2 리워드(RWD2)는 증가되고, 현재 에러(e(t))가 구간 B 밖으로 벗어나면 제2 리워드(RWD2)는 감소되고, 현재 에러(e(t))가 구간 A에는 속하지 않지만 구간 B에 속하면 제2 리워드(RWD2)는 유지된다.
제3 방식은 현재 에러(e(t))가 이전 에러(e(t-1))보다 증가하지 않도록 설계된 것이다. 제3 방식에 대응되는 제3 리워드(RWD3)는 현재 에러(e(t))와 이전 에러(e(t-1))를 비교하여 그 결과에 따라 결정된다. 예를 들어, 제3 리워드(RWD3)는 현재 에러(e(t))가 이전 에러(e(t-1))보다 크면 감소되고, 현재 에러(e(t))가 이전 에러(e(t-1))보다 작으면 유지된다. 이를 정리하면 다음과 같다.
또는, 제3 리워드(RWD3)는 현재 에러(e(t))가 이전 에러(e(t-1))보다 크면 감소되고, 현재 에러(e(t))가 이전 에러(e(t-1))보다 작으면 증가될 수도 있다.
도 8은 본 발명의 일 실시예에 따른 PID 제어 방법을 설명하기 위한 흐름도이다. 도 1 내지 도 7을 이용하여 설명한 것과 실질적으로 다른 점을 위주로 설명한다.
도 1 및 도 8을 참고하면, PID 러너(50)는 에러(e), 제어신호(u) 및 출력값(y)을 제공받는다(S110). 여기서, 에러(e)는 타겟값(r)과 출력값(y)의 차이이고, 제어신호(u)는 에러(e)를 기초로 PID 제어기(20)에 의해 생성된 신호이고, 출력값(y)은 제어신호(u)에 따라 프로세스가 진행된 결과이다.
이어서, PID 러너(50)는 리워드 산출방식에 따라 산출된 리워드를 제공받는다(S120).
예를 들어, 전체 리워드(도 1의 RWD에 대응)는 제1 내지 제3 방식에 의해 각각 산출되는 제1 리워드(RWD1), 제2 리워드(RWD2) 및 제3 리워드(RWD3)의 가중합일 수 있다.
제1 방식은 출력값(y)의 피크(peak)(도 7의 PK 참고)를 최소화하기 위한 것이다. 제1 방식에 대응되는 제1 리워드(RWD1)는, 현재 에러(e(t))와 이전 에러(e(t-1))를 기초로 한 합 연산값을 이용하여 산출된다. 제2 방식은 현재 에러(e(t))가 기준값(TS1, TS2) 이하로 떨어지도록 설계된다. 제2 방식에 대응되는 제2 리워드(RWD2)는, 현재 에러(e(t))와 기준값(TS1, TS2)을 비교하여 비교결과에 따라서 결정된다. 제3 방식은 현재 에러(e(t))가 이전 에러(e(t-1))보다 증가하지 않도록 설계된 것이다. 제3 방식에 대응되는 제3 리워드(RWD3)는 현재 에러(e(t))와 이전 에러(e(t-1))를 비교하여 그 결과에 따라 결정된다.
이어서, PID 러너(50)는 에러(e), 제어신호(u), 출력값(y) 및 리워드(RWD)를 기초로, PID 제어기(20)의 제어 파라미터(Kp, Ki, Kd)를 결정한다(S130).
구체적으로, PID 러너(50)는 기계학습 모델에 따라 학습을 하고, 학습 결과를 기초로 액션을 취한다. PID 러너(50)는 이산적인(discrete) 액션을 취하도록 설계될 수도 있고, 연속적인(continuous) 액션을 취하도록 설계될 수 있다.
이와 같은 방식으로, PID 러너(50)는 데이터(즉, 에러(e), 제어신호(u), 출력값(y) 및 리워드(RWD))를 기반으로 실시간으로 PID 제어기(20)의 제어 파라미터(Kp, Ki, Kd)를 수정할 수 있다. 따라서, 시스템(도 1의 30)의 동작 중에도 언제든지 제어 파라미터(Kp, Ki, Kd)를 수정할 수 있다.
또한, 제어 파라미터(Kp, Ki, Kd)를 자동으로 찾아주기 때문에, 운영자의 숙련도와 상관없이 튜닝 시간을 감축시킬 수 있다.
또한, 데이터를 기반으로 처리하기 때문에, 다수의 PID 제어기(20)의 제어 파라미터(Kp, Ki, Kd)를 동시에 찾을 수도 있다.
또한, 데이터 기반으로 제어 파라미터(Kp, Ki, Kd)의 수정이 필요한 시점을 판단하여, 그 상황에서 최적의 제어 파라미터(Kp, Ki, Kd)를 찾을 수 있다. 이에 대해서는 도 9 및 도 10을 이용하여 후술한다.
도 9는 본 발명의 다른 실시예에 따른 PID 제어 방법을 설명하기 위한 흐름도이다.
도 9를 참고하면, 시간 t0에서 시간 t1까지는, 첫번째 튜닝이 진행된다.
구체적으로, 도 8을 이용하여 설명한 튜닝 과정이 진행된다. PID 러너(50)는 에러(e), 제어신호(u) 및 출력값(y)을 제공받는다. 이어서, PID 러너(50)는 리워드 산출방식에 따라 산출된 리워드(RWD)를 제공받는다. 이어서, PID 러너(50)는 에러(e), 제어신호(u), 출력값(y) 및 리워드(RWD)를 기초로, PID 제어기(20)의 제어 파라미터(Kp, Ki, Kd)를 결정한다. 이러한 튜닝 과정을 통해서, 시스템(30)(즉, 제조설비)의 출력값(y)이 타겟값(TV)에 맞게 된다.
이어서, 시간 t1 부터는, 결정된 제어 파라미터(Kp, Ki, Kd)가 고정된 상태에서, 프로세스가 진행된다.
이어서, 시간 t2에는, 출력값(y)과 타겟값(TV)의 차이가 기설정된 값 이상이 됨으로써 알람이 발생된다.
구체적으로, 시스템(즉, 제조설비)을 일정시간 이상 사용하면, 시스템 및 그 부품도 일종의 소모품이기 때문에, 그 특성이 변경될 수 있다. 따라서, 출력값(y)과 타겟값(TV)의 차이가 기설정된 값 이상이 될 수 있다.
여기서, 출력값(y)과 타겟값(TV)의 차이가 기설정된 값 이상인지 여부를 체크하는 것은, 주기적으로 진행하거나 또는 운영자의 지시를 받으면 진행될 수 있다.
이어서, 다시 두번째 튜닝이 시작된다. PID 러너(50)는 에러(e), 제어신호(u), 출력값(y) 및 리워드(RWD)를 기초로, PID 제어기(20)의 새로운 제어 파라미터(Kp, Ki, Kd)를 결정한다. 이러한 새로운 튜닝 과정을 통해서, 시간 t3부터는 시스템(30)(즉, 제조설비)의 출력값(y)이 타겟값(TV)에 다시 맞게 된다.
도 10은 본 발명의 또 다른 실시예에 따른 PID 제어 방법을 설명하기 위한 흐름도이다.
도 10을 참고하면, 시간 t0에서 시간 t1까지는, 첫번째 튜닝이 진행된다.
구체적으로, 도 8을 이용하여 설명한 튜닝 과정이 진행된다. PID 러너(50)는 에러(e), 제어신호(u) 및 출력값(y)을 제공받는다. 이어서, PID 러너(50)는 리워드 산출방식에 따라 산출된 리워드(RWD)를 제공받는다. 이어서, PID 러너(50)는 에러(e), 제어신호(u), 출력값(y) 및 리워드(RWD)를 기초로, PID 제어기(20)의 제어 파라미터(Kp, Ki, Kd)를 결정한다. 이러한 튜닝 과정을 통해서, 시스템(30)(즉, 제조설비)의 출력값(y)이 제1 타겟값(TV1)에 맞게 된다.
이어서, 시간 t1 부터는, 결정된 제어 파라미터(Kp, Ki, Kd)가 고정된 상태에서, 프로세스가 진행된다.
이어서, 시간 t4에서, 운영자의 지시에 따라 제1 타겟값(TV1)이 제2 타겟값(TV2)으로 변경된다. 출력값(y)을 변경된 타겟값(TV2)에 맞추기 위해서, 다시 두번째 튜닝이 시작된다. 즉, PID 러너(50)는 에러(e), 제어신호(u), 출력값(y) 및 리워드(RWD)를 기초로, PID 제어기(20)의 새로운 제어 파라미터(Kp, Ki, Kd)를 결정한다. 이러한 새로운 튜닝 과정을 통해서, 시스템(30)(즉, 제조설비)의 출력값(y)이 제2 타겟값(TV2)에 다시 맞게 된다.
이상과 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10: 연산기 20: PID 제어기
30: 시스템 40: 리워드 생성기
50: PID 러너 51, 51a: 제1 에이전트
52, 52a: 제2 에이전트 53, 53a: 제3 에이전트

Claims (20)

  1. PID 제어장치에 의해 수행되는 PID 제어 방법에 있어서,
    에러, 제어신호 및 출력값을 제공받되, 상기 에러는 타겟값과 상기 출력값의 차이이고, 상기 제어신호는 상기 에러를 기초로 PID 제어기에 의해 생성된 신호이고, 상기 출력값은 상기 제어신호에 따라 프로세스가 진행된 결과이고,
    리워드 산출방식에 따라 산출된 리워드를 제공받고,
    상기 에러, 제어신호, 출력값 및 리워드를 기초로, 상기 PID 제어기의 제어 파라미터를 결정하는 것을 포함하되,
    상기 리워드 산출방식은 상기 출력값의 피크(peak)를 최소화하기 위한 제1 방식과, 현재 에러가 기준값 이하로 떨어지도록 설계된 제2 방식을 포함하고,
    상기 제1 방식에 대응되는 제1 리워드는, 현재 에러와 이전 에러를 기초로 한 합 연산값을 이용하여 산출되고,
    상기 제2 방식에 대응되는 제2 리워드는 상기 현재 에러가 제1 기준값보다 작으면 증가되고, 상기 현재 에러가 제2 기준값보다 크면 감소되고, 상기 현재 에러가 상기 제1 기준값보다 크고 제2 기준값보다 작으면 그대로 유지되되, 상기 제2 기준값은 상기 제1 기준값보다 큰, PID 제어 방법.
  2. 제 1항에 있어서,
    상기 제1 리워드는 현재 에러의 제곱값과 이전 에러의 제곱값의 가중합을 이용하여 결정되는, PID 제어 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제 1항에 있어서,
    상기 리워드 산출방식은 현재 에러가 이전 에러보다 증가하지 않도록 설계된 제3 방식을 포함하는, PID 제어 방법.
  8. 제 7항에 있어서,
    상기 제3 방식에 대응되는 제3 리워드는, 상기 현재 에러가 상기 이전 에러보다 크면 감소되는, PID 제어 방법.
  9. 제 1항에 있어서,
    상기 PID 제어기의 제어 파라미터를 결정한 후에,
    상기 출력값과 상기 타겟값의 차이가 기설정된 값 이상이 될 경우, 상기 PID 제어기의 제어 파라미터를 다시 결정하는 것을 더 포함하는, PID 제어 방법.
  10. 제 1항에 있어서,
    상기 PID 제어기의 제어 파라미터를 결정한 후에,
    주기적으로 또는 운영자의 지시에 따라, 상기 PID 제어기의 제어 파라미터를 다시 결정하는 것을 더 포함하는, PID 제어 방법.
  11. PID 제어장치에 의해 수행되는 PID 제어 방법에 있어서,
    에러, 제어신호 및 출력값을 제공받되, 상기 에러는 타겟값과 상기 출력값의 차이이고, 상기 제어신호는 상기 에러를 기초로 PID 제어기에 의해 생성된 신호이고, 상기 출력값은 상기 제어신호에 따라 프로세스가 진행된 결과이고,
    리워드 산출방식에 따라 산출된 리워드를 제공받고,
    상기 에러, 제어신호, 출력값 및 리워드를 기초로, 상기 PID 제어기의 제어 파라미터를 결정하는 것을 포함하되,
    상기 리워드 산출방식은
    상기 출력값의 피크(peak)를 최소화하기 위한 제1 방식과,
    현재 에러가 기준값 이하로 떨어지도록 설계된 제2 방식과,
    현재 에러가 이전 에러보다 증가하지 않도록 설계된 제3 방식을 포함하고,
    상기 리워드는,
    상기 제1 방식 내지 제3 방식에 각각 대응되는 제1 리워드 내지 제3 리워드의 가중합이고,
    상기 제1 리워드는 현재 에러와 이전 에러를 기초로 한 합 연산값을 이용하여 산출되고,
    상기 제2 리워드는 현재 에러와 제1 기준값 및 제2 기준값과의 비교 결과에 따라 변경되고, 상기 제2 기준값은 상기 제1 기준값보다 크고, 상기 제2 리워드는 상기 현재 에러가 제1 기준값보다 작으면 증가되고, 상기 현재 에러가 제2 기준값보다 크면 감소되고, 상기 현재 에러가 상기 제1 기준값보다 크고 제2 기준값보다 작으면 그대로 유지되고,
    상기 제3 리워드는 현재 에러와 이전 에러의 비교 결과에 따라 변경되는, PID 제어 방법.
  12. 제 11항에 있어서,
    상기 제1 리워드는 현재 에러의 제곱값과 이전 에러의 제곱값의 가중합을 이용하여 결정되는, PID 제어 방법.
  13. 삭제
  14. 타겟값과 출력값의 차이인 에러와, 제어 파라미터를 기초로 제어신호를 생성하는 PID 제어기;
    상기 제어신호에 따라 프로세스를 진행하고 상기 출력값을 생성하는 시스템;
    리워드 산출방식에 따라 리워드를 산출하는 리워드 생성기; 및
    상기 에러, 상기 제어신호, 상기 출력값 및 상기 리워드를 제공받고, 상기 제어 파라미터를 결정하여 상기 PID 제어기에 제공하는 PID 러너를 포함하되,
    상기 리워드 산출방식은 상기 출력값의 피크(peak)를 최소화하기 위한 제1 방식과, 현재 에러가 기준값 이하로 떨어지도록 설계된 제2 방식을 포함하고,
    상기 제1 방식에 대응되는 제1 리워드는, 현재 에러와 이전 에러를 기초로 한 합 연산값을 이용하여 산출되고,
    상기 제2 방식에 대응되는 제2 리워드는 상기 현재 에러가 제1 기준값보다 작으면 증가되고, 상기 현재 에러가 제2 기준값보다 크면 감소되고, 상기 현재 에러가 상기 제1 기준값보다 크고 제2 기준값보다 작으면 그대로 유지되되, 상기 제2 기준값은 상기 제1 기준값보다 큰, PID 제어 장치.
  15. 제 14항에 있어서,
    상기 제1 리워드는 현재 에러의 제곱값과 이전 에러의 제곱값의 가중합을 이용하여 결정되는, PID 제어 장치.
  16. 삭제
  17. 삭제
  18. 제 14항에 있어서,
    상기 리워드 산출방식은 현재 에러가 이전 에러보다 증가하지 않도록 설계된 제3 방식을 포함하는, PID 제어 장치.
  19. 제 18항에 있어서,
    상기 제3 방식에 대응되는 제3 리워드는, 상기 현재 에러가 상기 이전 에러보다 크면 감소되는, PID 제어 장치.
  20. 제 14항에 있어서,
    상기 PID 제어기의 제어 파라미터를 결정한 후에,
    상기 출력값과 상기 타겟값의 차이가 기설정된 값 이상이 될 경우, 상기 PID 제어기의 제어 파라미터를 다시 결정하는 것을 더 포함하는, PID 제어 장치.
KR1020200171331A 2020-12-09 2020-12-09 Pid 제어 방법 및 장치 KR102605858B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200171331A KR102605858B1 (ko) 2020-12-09 2020-12-09 Pid 제어 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200171331A KR102605858B1 (ko) 2020-12-09 2020-12-09 Pid 제어 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220081628A KR20220081628A (ko) 2022-06-16
KR102605858B1 true KR102605858B1 (ko) 2023-11-23

Family

ID=82217611

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200171331A KR102605858B1 (ko) 2020-12-09 2020-12-09 Pid 제어 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102605858B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190187631A1 (en) 2017-12-15 2019-06-20 Exxonmobil Research And Engineering Company Adaptive pid controller tuning via deep reinforcement learning

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101242678B1 (ko) * 2011-02-28 2013-03-12 고려대학교 산학협력단 제어 파라미터를 적응적으로 변화시키는 pid 제어 방법 및 이를 이용한 pid 제어 장치
KR20200010973A (ko) * 2018-06-27 2020-01-31 엘지전자 주식회사 자동 제어 인공지능 장치 및 제어 함수의 업데이트 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190187631A1 (en) 2017-12-15 2019-06-20 Exxonmobil Research And Engineering Company Adaptive pid controller tuning via deep reinforcement learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jesús Enrique Sierra-García 외 1인, Exploring Reward Strategies for Wind Turbine Pitch Control by Reinforcement Learning(2020.10.) 1부.*
Leszek Koszalka 외 2인, An Idea of Using Reinforcement Learning in Adaptive Control Systems(2006) 1부.

Also Published As

Publication number Publication date
KR20220081628A (ko) 2022-06-16

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN110376965B (zh) 机器学习装置、控制装置以及机器学习方法
US10442023B2 (en) Simulation apparatus of wire electric discharge machine having function of determining welding positions of core using machine learning
US10796226B2 (en) Laser processing apparatus and machine learning device
JP2000510265A (ja) 予測、制御および最適化のための動的および定常状態プロセスをモデル化する方法および装置
KR102035389B1 (ko) 히스토리 데이터 기반 뉴럴 네트워크 학습을 통한 공정 제어 방법 및 시스템
Schaal et al. Assessing the quality of learned local models
JP2011003186A (ja) 連続的にスケジュールされるモデルパラメータに基づく適応制御装置
Bianchi et al. Heuristically Accelerated Reinforcement Learning: Theoretical and Experimental Results.
CN110389556A (zh) 控制装置以及控制方法
JP2020119295A (ja) フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法
Vien et al. Reinforcement learning combined with human feedback in continuous state and action spaces
Walczak Neural networks with robust backpropagation learning algorithm
KR102605858B1 (ko) Pid 제어 방법 및 장치
Lakhani et al. Stability-preserving automatic tuning of PID control with reinforcement learning
Medjghou et al. Improved feedback linearization control based on PSO optimization of an extended Kalman filter
Seng et al. Adaptive neuro-fuzzy control system by RBF and GRNN neural networks
KR20180032453A (ko) 인공 신경망을 이용한 pid 제어기 게인 조정 시스템 및 방법
JP3629760B2 (ja) Rovの自動制御方法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN114378820B (zh) 一种基于安全强化学习的机器人阻抗学习方法
Ikemoto et al. Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems
Bao et al. Model-free control design using policy gradient reinforcement learning in lpv framework
Oliveira et al. Granular evolving fuzzy robust feedback linearization
US20240103503A1 (en) A controller

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant