KR102560482B1 - 비선형 최적 제어 방법 - Google Patents

비선형 최적 제어 방법 Download PDF

Info

Publication number
KR102560482B1
KR102560482B1 KR1020210158500A KR20210158500A KR102560482B1 KR 102560482 B1 KR102560482 B1 KR 102560482B1 KR 1020210158500 A KR1020210158500 A KR 1020210158500A KR 20210158500 A KR20210158500 A KR 20210158500A KR 102560482 B1 KR102560482 B1 KR 102560482B1
Authority
KR
South Korea
Prior art keywords
function
lyapunov
control
equation
optimal
Prior art date
Application number
KR1020210158500A
Other languages
English (en)
Other versions
KR20230072107A (ko
Inventor
김연수
Original Assignee
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광운대학교 산학협력단 filed Critical 광운대학교 산학협력단
Priority to KR1020210158500A priority Critical patent/KR102560482B1/ko
Priority to PCT/KR2022/017511 priority patent/WO2023090749A1/ko
Publication of KR20230072107A publication Critical patent/KR20230072107A/ko
Application granted granted Critical
Publication of KR102560482B1 publication Critical patent/KR102560482B1/ko

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

비선형 최적 제어 방법이 제공된다. 상기 비선형 최적 제어 방법은 제어 리아푸노프 함수에 배리어 함수를 적용한 리아푸노프 배리어 함수 및 손타크 식을 이용하여 정책 반복 알고리즘을 진행하는 단계를 포함한다.

Description

비선형 최적 제어 방법{METHOD FOR NONLINEAR OPTIMAL CONTROL}
본 발명은 비선형 최적 제어 방법에 관한 것이다.
최근 컴퓨터 공학 분야에서 인공지능 기술에 기반하여 최적 정책을 학습하는 강화학습 기술에 대한 연구가 활발히 진행되고 있다. 해당 알고리즘이 많이 활용되고 있는 알파고 등의 게임 분야의 경우 안정성에 대한 우려가 적은 분야로 알고리즘 적용에 있어 주로 최적성에 초점을 맞추어 진행되었다. 그러나 화학 공장이나 로봇 등과 같은 실제 시스템의 경우 최적성에 앞서 안정성이 보장되어야 한다. 기존 연구들의 경우 안정성 보장을 위하여 크리틱(critic) 네트워크 이외에 추가적인 액터(actor) 네트워크를 도입하여 안정성을 보장하고자 하였다. 그러나 기존 알고리즘의 대부분은 단일층(single-layer)의 신경망에 대한 액터 네트워크의 업데이트 룰 설계에 그쳤으며 실제 시스템에 적용하기가 어렵다. 또, 실제 시스템은 제한 조건을 벗어나지 않도록 제어되어야 하지만 기존 알고리즘은 제한 조건을 깨지 않는데 한계가 있다.
본 발명은 우수한 성능을 갖는 비선형 최적 제어 방법을 제공한다.
본 발명의 다른 목적들은 다음의 상세한 설명과 첨부한 도면으로부터 명확해 질 것이다.
본 발명의 실시예들에 따른 비선형 최적 제어 방법은 제어 리아푸노프 함수에 배리어 함수를 적용한 리아푸노프 배리어 함수 및 손타크 식을 이용하여 정책 반복 알고리즘을 진행하는 단계를 포함한다.
상기 정책 반복 알고리즘은, 제어 리아푸노프 함수들 중에서 최적 가치 함수와 같은 레벨세트 형태를 가지는 제어 리아푸노프 함수를 찾으면서 최적 제어기를 학습하고, 손타크 식을 활용하여 상기 학습 과정 및 상기 학습 후의 안정성 및 제한 조건 만족을 보장할 수 있다.
상기 배리어 함수는 부등식 제한 조건의 경계에서 무한대에 도달할 수 있다. 상기 배리어 함수에 의해 최적 가치 함수의 제한 조건을 목적 함수에 포함시킬 수 있다.
상기 정책 반복 알고리즘은 하기 정밀 안전 정책 반복 알고리즘일 수 있다.
[정밀 안전 정책 반복 알고리즘]
상기 정밀 안전 정책 반복 알고리즘은, 정책을 평가하는 부분에서 리아푸노프 방정식을 풀어 현재의 안정화 제어 입력 하에서의 발생하는 비용과 제한 조건 위배 여부를 평가하는 제어 리아푸노프 함수 를 계산할 수 있고, 상기 정책을 업데이트하는 부분에서 손타크 식을 사용하여 학습 과정 및 학습 후의 안정성 및 제한 조건 만족을 보장할 수 있다.
상기 정책 반복 알고리즘은 하기 근사 안전 정책 반복 알고리즘일 수 있다.
[근사 안전 정책 반복 알고리즘]
상기 근사 안전 정책 반복 알고리즘은 신경망을 학습할 수 있으며, 상기 신경망은 제어 리아푸노프 함수(control Lyapunov function) 성질을 만족할 수 있다.
상기 근사 안전 정책 반복 알고리즘은, 정책을 평가하는 부분에서 안정화 제어 입력 에 의해 결정되는 상태들을 모아 벨만 에러를 감소하는 방향으로 심층 신경망으로 근사된 가치 함수()의 웨이트 업데이트를 진행할 수 있고, 상기 배리어 함수를 포함하는 증강 목적 함수를 통하여 제한 조건을 고려할 수 있으며, 상기 정책을 업데이트하는 부분에서 손타크 식을 사용하여 학습 과정 및 학습 후의 안정성 및 제한 조건 만족을 보장할 수 있다.
상기 웨이트 업데이트된 가치 함수가 제어 리아푸노프 함수 조건을 만족하지 않으면 상기 함수 조건을 만족하도록 웨이트 업데이트를 다시 진행할 수 있다.
본 발명의 실시예들에 따른 비선형 최적 제어 방법은 우수한 성능을 가질 수 있다. 예를 들어, 상기 비선형 최적 제어 방법은 제한 조건 만족과 안정성을 모두 보장할 수 있다.
도 1은 본 발명의 일 실시예에 따른 비선형 최적 제어 방법을 설명하기 위한 4 탱크 구성을 나타낸다.
도 2는 학습된 제어기와 모델예측제어기의 비용 간 절대 오차를 나타낸다.
이하, 실시예들을 통하여 본 발명을 상세하게 설명한다. 본 발명의 목적, 특징, 장점은 이하의 실시예들을 통해 쉽게 이해될 것이다. 본 발명은 여기서 설명되는 실시예들에 한정되지 않고, 다른 형태로 구체화될 수도 있다. 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다. 따라서, 이하의 실시예들에 의하여 본 발명이 제한되어서는 안 된다.
본 발명의 실시예들에 따른 비선형 최적 제어 방법은 제어 리아푸노프 함수에 배리어 함수를 적용한 리아푸노프 배리어 함수 및 손타크 식을 이용하여 정책 반복 알고리즘을 진행하는 단계를 포함한다.
상기 정책 반복 알고리즘은, 제어 리아푸노프 함수들 중에서 최적 가치 함수와 같은 레벨세트 형태를 가지는 제어 리아푸노프 함수를 찾으면서 최적 제어기를 학습하고, 손타크 식을 활용하여 상기 학습 과정 및 상기 학습 후의 안정성 및 제한 조건 만족을 보장할 수 있다.
[배리어 함수(barrier function)]
배리어 함수는 내부점 방법(interior-point method)을 기반으로 하는 최적화 솔버(optimization solver)에 사용될 수 있다. 배리어 함수는 부등식 제한 조건을 목적 함수에서 고려하는데 사용되며, 그 결과 부등식 제한 최적화 문제가 등식 제한 최적화 문제로 변환된다. 배리어 함수는 부등식 제한 조건 세트(inequality constraints set)의 경계에서 무한대에 도달하고 최적화 솔버는 원래 목적 함수와 배리어 함수의 합을 최소화하는 최적의 솔루션을 찾는다. 따라서, 최적화 솔버는 실현 가능한 영역 내에서 솔루션을 찾을 수 있다. 제어 입력이 있는 시스템에 대한 배리어 함수의 자연스러운 확장은 제어 배리어 함수(control barrier function)이다. 이를 명확하게 하기 위해 수학적 표현을 사용하여 설명한다. 제어 배리어 함수는 확장 상태 로 정의된다.
정의 1 : 제어 배리어 함수
인 경우에 장벽 함수는 세트를 갖는 동적 시스템(dynamic system)에 대하여 제어 배리어 함수이다. 클래스 함수 α1, α2, 및 α3이 존재하면 다음 부등식을 따른다.
[식 1]
[식 2]
리아푸노프 유사 조건(식 1)은 BF()가 어떤 클래스 함수 α를 갖는 와 유사하다는 것을 나타낸다.
이것은 BF()가 배리어 함수의 중요한 성질을 만족시킨다는 것을 의미한다.
또, 식 2는 동역학(dynamics)과 관련하여 의 전진 제어 불변성(forward control invariance)를 보장한다. 이것은 의 원래 조건(original condition)의 완화이다. 는 BF()가 동역학에 따라 감소하거나 일정하게 유지되도록 한다. 즉, 상태 는 내부에 머문다. 완화된 조건(식 2)은 상기 상태가 제한 경계에서 멀어질 때 BF()가 증가하는 것을 허용한다. 이렇게 완화된 조건 하에서도 가 모든 t에 대하여 실현 가능한 영역 내에 머무는 것을 의미한다. 식 1의 하한, 는 모든 t에 대하여 성립한다. 이것은 가 모든 에 대하여 성립한다는 것을 나타낸다. 는 적절한 제어 입력을 갖는 제어 배리어 함수의 후보가 될 수 있다.
제어 입력은 제어 배리어 함수 값의 허용 증가 속도가 경계 근처에서 감소하고 상태가 경계로 이동함에 따라 0에 접근하도록 설계되어야 한다. 제어 배리어 함수 값이 적어도 제안된 알고리즘의 경계 근처에서 감소하도록 보장하기 위해 이 완화된 속성을 더 엄격하게 된다. 이는 실제 응용에서 데이터는 유한한 간격으로 샘플링 시간에만 얻어지기 때문이다. 이러한 실제 상황에서 전진 제어 불변성인 안전을 보장하려면 동역학에 따라 제어 배리어 함수 값이 적어도 경계 근처에서 감소해야 한다.
[제어 리아푸노프 함수(Control Lyapunov function)와 손타크 식(Sontag's formula)]
제어 리아푸노프 함수는 안정화를 위한 리아푸노프 함수의 확장으로, 그 정의는 다음과 같다.
정의 2 : 제어 리아푸노프 함수
는 양의 값으로 적절하면 제어 리아푸노프 함수이며, 다음 성질을 만족하는 연속 미분 함수이다.
는 각각 을 나타낸다. 상기 성질이 전반적으로 성립하고, 가 방사상으로 무한이면 는 전역 제어 리아푸노프 함수이다.
제어 리아푸노프 함수를 이용하여 손타크 식으로 제어 입력을 설계하면 다음과 같다.
손타크 식 입력은 제어 리아푸노프 함수 성질로 인해 점근적 안정화 제어기를 제공한다. 역 리아푸노프 이론 및 손타크 식을 고려하면, 제어 리아푸노프 함수의 존재는 시스템을 점근적으로 안정화시키는 제어기의 존재와 동일하다.
손타크 식의 중요한 성질로서, 제어 리아푸노프 함수가 최적 가치 함수 와 같은 레벨 세트 형태(level-set shapes)를 가지면 다음과 같이 는 사용자 정의 비용 함수 에 대한 최적 제어기와 동일하다.
즉, 미분 가능한 클래스 함수 αc에 대하여 일 때 는 최적 제어기 와 동일하다. 이것은 가 HJB(Hamilton-Jacobi-Bellman) 식의 솔루션(solution)이기 때문에 성립한다.
에 대하여,
첫번째 등식은 (는 양의 스칼라 함수)인 것에 기인하고, 두번째 및 세번째 등식은 HJP 식에 기인한다. 인 경우 는 0이다.
두 스칼라 함수 사이의 레벨 세트 형태의 유사성은 기울기 벡터의 요소별 분할의 표준편차를 계산하여 나타낼 수 있다. 최적 가치 함수를 정확하게 안다면 이 측정은 훈련된 제어 리아푸노프 함수와 최적 가치 함수의 유사도를 입증하는데 사용될 수 있다. 그러나 최적 가치 함수를 결정하는 것은 어려운데 이는 최적 가치 함수와 함께 최적 제어 정책을 학습하는 강화 학습을 사용하는 이유다.
상기 식을 고려할 때 손타크 식을 최적 식 입력과 비교하여 레벨 세트 형태의 유사성을 실질적으로 체크할 수 있다. 손타크 식 입력이 최적 식 입력 과 얼마나 유사한지 조사하여 시뮬레이션 결과를 분석한다. 간결화를 위해 최적 식은 LgV형 식으로 호칭된다.
[리아푸노프 신경망]
제어 리아푸노프 함수에 필요한 조건은 양의 정부호성과 연속적인 미분 가능성이다. 따라서, 근사 함수가 모든 파라미터 값에 대하여 이러한 성질을 갖도록 보장할 필요가 있다. 이를 위해, 리아푸노프 신경망을 사용한다.
리아푸노프 신경망 는 피드포워드 신경망 과 그 자신과의 내적에 의해 구해진다. 즉, 이다. 유한의 파라미터를 갖는 는 임의 정확도로 컴팩트 세트의 연속 함수를 근사할 수 있다. 내적이기 때문에 의 양성(positiveness)은 보장된다. =0에서만 가 영의 값을 갖도록 하기 위해, 의 널 스페이스(null space)는 트리비얼(trivial)이어야 한다. 이를 위해 의 각 층은 트리비얼 널 스페이스를 가져야 한다. 이는 L 층의 출력이 (는 활성화 함수이고, 은 웨이트 매트릭스임)로 표현될 때 에 대한 특정 구조로 구해질 수 있다.
은 L 층의 치수이고, 어떤 정수 에 대하여 , , 및 는 양의 상수이다. 의 항등행렬(identity matrix)을 나타낸다. 훈련할 파라미터는 모든 층들의 의 요소들이다. 는 연속적으로 미분 가능하다.
[제한된 비선형 시스템을 위한 안전한 강화 학습]
본 발명에 따른 안전한 강화 학습은 제한 조건 만족을 보장하기 위해 수정된 배리어 함수와 손타크 식을 이용한다. 최적 제어 문제는 목적 함수에 리아푸노프 배리어 함수, 를 도입하는 것에 의해 수정된다.
, 이다. 는 경계 근처에서 충분한 배리어를 제공하면서 최적 성능을 방해하지 않도록 충분히 작게 설정된다.
리아푸노프 배리어 함수(LBF)를 도입하기 전에 최적 제어 문제에 대한 몇가지 가정이 필요하다.
가정 1 : 허용 입력(admissible input)의 존재
의 어떠한 초기 확장 상태에 대하여 a(0)=0인 시스템을 점근적으로 안정화하는 연속 제어 정책 가 존재하고, 그것의 비용 는 유한하다.
이 가정은 최적 제어 문제가 영역 에 대하여 실현 가능하다는 것을 의미한다. 허용 제어 정책이 존재하지 않으면 시스템을 안전한 영역에서 유지하는 가능한 제어 정책을 획득할 수 없다.
가정 2 : 리아푸노프 배리어 함수
는 클래스 함수 α1 및 α2에 대하여 다음 성질을 만족하는 연속적으로 미분 가능한 함수이다.
리아푸노프 배리어 함수는 추가 성질, 을 충족해야 한다. 이를 충족하지 않으면 목적 함수는 무한 값을 갖게 된다. 따라서, 가정 2는 리아푸노프 배리어 함수의 양의 정부호성 없이 성립할 수 없다. 와 함께 양의 정부호성을 갖는다. 제어 배리어 함수(CBF)의 시간 미분의 조건은 손타크 식을 이용하여 얻어지므로 그 성질을 가정할 필요가 없다.
가정 3 : 양의 정부호성을 갖고 연속적으로 미분 가능한 함수 ()가 존재한다. 이는 증강 목적 함수를 갖는 HJB 식의 솔루션이다.
원래의 최적 제어 문제의 HJB 식과 유사하게, 상기 식은 가 연속적으로 미분 가능할 때 고유 솔루션을 갖는다. 또, 가치 함수 (= )는 연속적으로 미분 가능하고, 다음 리아푸노프 방정식을 충족한다.
시스템이 안정하고 가 제로 상태 관찰 가능하면 HJB의 솔루션 및 리아푸노프 방정식은 양의 정부호성을 갖는다. 제로 상태 관찰 가능한 에 대한 충분 조건은 원래 목적 의 제로 상태 관찰 가능이다. 추적 문제의 안정화에 대한 일반적인 목적 함수는 솔루션이 이외에서 에 존재할 수 없기 때문에 제로 상태 관찰 가능하다. 원래의 목적 함수를 갖는 증강 목적 함수 에 대하여 의 양의 정부호성때문에 만이 에 존재할 수 있다.
가정 1 ~ 3에 따라 안전과 안정화를 보장하는 고유의 최적 제어 정책이 존재한다. 가정들 하에서 알고리즘 1의 리아푸노프 배리어 함수를 갖는 정밀 정책 반복 알고리즘은 최적 가치 함수 및 최적 제어 정책으로의 수렴을 보장한다. 이는 q대신 qaug로 원래의 정책 반복처럼 쉽게 증명된다.
비선형 시스템에서 리아푸노프 방정식을 푸는 것은 어렵다. 따라서, 근사 정책 반복이 심층 신경망과 같은 근사 함수와 아담 옵티마이저와 같은 기울기 기반 최적화 솔버와 함께 사용된다. 근사 함수 는 리아푸노프 방정식의 정밀 솔루션이 아니고, 편차, 벨만 에러 를 야기한다.
는 근사 함수의 파라미터를 나타낸다. 근사 에러때문에 성능 지향 제어식(performance-oriented control formula)이 사용되면 훈련 동안 안정화가 보장되지 않는다. 이것은 안정화 지향 제어식인 손타크 식을 이용하고, 제어 리아푸노프 함수에 제한된 근사 함수로 해결될 수 있다. 안전은 리아푸노프 배리어 함수를 도입하는 것에 의해 보장될 수 있다. 리아푸노프 배리어 함수, 제어 리아푸노프 함수, 및 손타크 식을 이용한 근사 안전 강화 학습은 알고리즘 2에 나타나있다. 근사 함수 는 제한 조건 만족을 위해 리아푸노프 배리어 함수의 성질을 가져야 한다. 또, 최적 가치 함수도 증강 목적 함수를 고려할 때 경계 근처에서 큰 값을 갖는다. 따라서, 다음과 같이 리아푸노프 신경망과 리아푸노프 배리어 함수의 함이 근사 함수로 사용된다.
의 형태는 시스템의 실질적으로 점근적 안정화 및 전진 불변성을 보장할 때 제어 리아푸노프 조건과 손타크 식에 따른 중요 인자이다.
NMB 및 NRB는 각각 미니배치(minibatch)와 리플레이 버퍼(replay buffers)의 크기를 나타낸다. 저장된 데이터의 수가 NRB를 초과하면 리플레이 버퍼의 과거 데이터는 제거된다. Ne는 훈련 동안 사용되는 다른 초기 상태들이 있는 에피소드의 총수를 나타낸다. Tf는 단일 에피소드의 기간을 나타낸다. 그리드 포인트에서 제어 리아푸노프 조건을 확인하기 위한 계산 로드는 시스템의 치수가 증가함에 따라 증가한다. 그러나, 이러한 문제는 조건이 병렬로 확인될 수 있기 때문에 다중 프로세서를 이용하여 해결될 수 있다.
[실질적으로 점근적 안정성]
실질적으로 점근적 안정성에 대한 정의는 본 발명의 시스템에 적용하여 도입된다. 이를 위해 먼저 경계층 을 충분히 작은 으로 정의한다. 그리고, 세트 는 컴팩트하고, 에서 가장 큰 볼 의 반경으로 설정할 수 있다.
정의 3 : 볼에 대한 점근적 안정성
보다 작은 양의 수로 둔다. 클래스 함수 가 존재하면 다음 식과 같이 시스템은 영역 에서 에 대하여 점근적으로 안정하다.
정의 4 : 실질적 점근적 안정성
을 파라미터의 세트로 둔다. 이 존재하고, 어떤 에 대하여 파라미터화된 제어기 에 대하여 시스템이 점근적으로 안정화되도록 하는 P가 존재하면 시스템은 실질적인 점근적 안정성이 있다.
로부터 임의의 얇은 경계층을 제외하는 에서 아래 정리 1의 모든 에 대하여 하에서 시스템의 실질적인 점근적 안정성이 입증된다. 즉, 훈련하는 동안 및 훈련이 끝날 때 실질적인 점근적 안정성이 본 발명의 알고리즘에 의해 보장된다.
어떤 및 어떤 에 대하여, 영역 에서 제어 리아푸노프 조건을 만족하는, 양의 정부호성을 갖고 연속적으로 미분 가능한 함수가 존재한다고 가정한다. 그러면, 가 영역 그리드 포인트에서 제어 리아푸노프 함수 조건을 만족하면 가 영역 에서 제어 리아푸노프 함수가 되도록 하는 가 존재한다.
제한 영역 는 컴팩트한 것으로 가정되므로 는 프리컴팩트(precompact)하다. 프리컴패트 세트 는 완전히 경계지어진다. 따라서, 임의의 작은 에 대하여 로부터 임의의 얇은 경계층을 배제함으로써 컴팩트 세트 를 설정할 수 있다. 그러면, 그리드 포인트에서 제어 리아푸노프 함수 조건을 만족하면 가 영역 에서 제어 리아푸노프 함수가 되도록 하는 가 존재한다.
정리 1 : 제한 세트 가 주어지고, 연속적으로 미분 가능한 함수를 사용하면 시스템은 임의의 작은 에 대하여 그리고 모든 에 대하여 제어기 하에서 에서 실질적으로 점근적으로 안정하다. 가장 큰 는 ROA(region of attraction)의 추정이다. 또, 에 따라 이다.
위에서 증명된 바와 같이, 에서 제어 리아푸노프 함수이다. 따라서, 는 주어진 양의 와 임의의 작은 으로 에서 모든 에 대하여 성립한다. 따라서, 는 ROA의 추정이다.
이 0으로 감에 따라 에서 의 값은 로 간다. 따라서, ROA의 가장 큰 추정 에 따라 에 근접해지고, 전진 불변성이 에서 보장된다.
상술한 바와 같이 최적화 문제의 최적 가치함수를 학습하여 최적 제어기를 학습하는 리아푸노프 방정식을 푸는 정밀 안전 정책 반복 알고리즘은 다음과 같다.
[정밀 안전 정책 반복 알고리즘]
상기 정밀 안전 정책 반복 알고리즘은 다음과 같은 2개의 주요 요소로 이루어진다.
1) 정책을 평가하는 부분에서 리아푸노프 방정식을 풀어 현재의 안정화 제어 입력 하에서 발생하는 비용과 제한 조건 위배 여부를 평가하는 제어 리아푸노프 함수 를 계산한다. 이때 증강 목적 함수 를 통하여 제한 조건이 고려된다.
2) 정책을 업데이트하는 부분에서 손타크 식을 사용함으로써 추가적인 액터-네트워크 도입 없이 학습 과정 및 학습 후의 안정성 및 제한 조건 만족을 보장한다.
리아푸노프 방정식의 해인 는 경계 근방의 x에서 상당히 큰 값을 가지므로 이러한 특성을 모사할 수 있는 근사 함수를 제어 리아푸노프 함수에 한정하여 가치 함수를 사용하며, 손타크 식을 적용한 제어기는 항상 제한 조건 만족과 안정성을 보장한다. 반면, 기존에 사용되던 LgV-타입 최적 공식을 적용하여 시스템을 안정화시키고, 제한 조건을 만족하도록 하려면 가치 함수가 제어 리아푸노프 함수 조건을 만족하는 동시에 부가적인 조건들이 더 필요하다. 이러한 사실로 제한 조건 만족과 안정성 보장 용이성에서 손타크 식을 사용하는 것이 월등하다는 것과 배리어 함수의 사용이 필수적이라는 것을 확인하였다.
리아푸노프 방정식의 해를 찾기는 매우 어렵기 때문에 신경망을 학습하는 근사 정책 반복 알고리즘(approximate policy iteration algorithm)을 사용한다. 여기서 신경망은 제어에서 가장 중요한 제어 리아푸노프 함수(control Lyapunov function) 성질을 만족하는 것을 사용하며, 이 신경망에 배리어 함수를 더함으로써 경계를 넘어서는(즉, 제한조건을 깨뜨리는) 일이 발생하지 않도록 할 수 있다. 이는 신경망에 배리어 함수가 더해진 형태와 함께 손타크 식을 함께 사용함으로써 확보되는 성질이다.
[근사 안전 정책 반복 알고리즘]
최종적으로 제안되는 위 알고리즘은 다음과 같은 3개의 주요 요소로 이루어진다.
1) 정책을 평가하는 부분에서 안정화 제어 입력 에 의해 결정되는 상태들을 모아 벨만 에러를 감소하는 방향으로 심층 신경망으로 근사된 가치 함수()의 웨이트 업데이트를 진행한다. 이때, 업데이트된 가치 함수가 제어 리아푸노프 함수 조건을 만족하지 않으면 함수 조건을 만족하도록 웨이트 업데이트를 다시 진행한다. 그리고, 배리어 함수를 포함하는 증강 목적 함수 를 통하여 제한 조건이 고려된다.
2) 정책 업데이트하는 부분에서 손타크 식을 사용함으로써 추가적인 액터-네트워크 도입과 표준으로 정해지지 않은 업데이트 룰 없이 학습 과정 및 학습 후의 제한 조건 만족 및 안정성을 보장한다.
3) 심층 인공신경망을 사용하는 경우에는 최적 가치 함수와 같은 레벨세트 형태를 갖는 함수를 학습하게 되며 손타크 식에 사용하는 함수가 최적 가치 함수와 같은 레벨세트 형태를 가지는 경우에는 최적 제어와 동일하기 때문에 결과적으로 최적 제어기를 근사한다.
도 1은 본 발명의 일 실시예에 따른 비선형 최적 제어 방법을 설명하기 위한 4 탱크 구성을 나타낸다.
도 1을 참조하면, xi는 각 탱크 i의 액위를 나타내고, u1, u2는 밸브 유속(valve flow rate)을 나타내며, γ1, γ2는 밸브의 특성 파라미터를 나타낸다. 각 탱크 액위에 대한 경계(bound), 조작 변수에 해당하는 u1, u2에 대한 경계(bound)는 아래와 같다.
상기 제한 조건들을 고려하고, 안정화(stabilization) 문제는 정상 상태 포인트(steady state point)(밑첨자 ss)로 안정화시키는 것이기 때문에 xi에 대한 모델 식 대신 세트포인트(setpoint)로부터의 편차(deviation)(밑첨자 dev)에 대한 모델 식을 활용해야 한다. 또, 이미 모델 식이 제어-어파인(control-affine) 형태이기는 하지만, u에 대한 제한 조건을 배리어 함수를 통하여 고려하기 위하여 최종적으로 모델 식을 다음과 같이 정리할 수 있다.
이를 F, G 표기(notation)를 사용하여 간단하게 표현하면 다음과 같다.
신경망 학습에 있어서, 변수의 크기 차이가 클 경우 학습이 잘 되지 않으므로 정규화(normalization)(upper bound -lower bound로 나누어 줌)된 를 아규먼트(argument)로 갖는 최적 가치 함수 를 학습하게 되고, 이때 알고리즘에서 사용하는 F, G도 에 대한 역학 관계(dynamics)를 표현해야 하므로 아래 식을 사용하게 된다.
상기 식에서 는 엘리멘터리 디비전(elementary division)을 나타낸다.
근사 함수 는 제어 리아푸노프 함수에 배리어 함수 를 더하여 구성되며, 손타크 식과 함께 사용되어 시스템을 정상 상태 포인트로 안정화시키기 위해서는 배리어 함수 도 포지티브 데피니트(positive definite) 특성을 가져야 한다. 즉, 에서만 함수값이 0이 되어야 하고, 나머지는 0보다 큰 값을 가져야 한다. 이를 위하여 리아푸노프 배리어 함수 LB는 다음과 같이 구축될 수 있다.
상기 LB가 더해진 신경망이 학습되어지며, 목적 함수에도 상기 LB가 더해지게 된다. 최종적으로 알고리즘에 나와있는 몇 가지 튜닝 파라미터(tuning parameter)는 다음과 같이 세팅되었다.
도 2는 학습된 제어기와 모델예측제어기의 비용 간 절대 오차를 나타낸다. 1000개의 에피소드가 세트포인트(setpoint) 근방 +- 50% 범위에서 임의로 결정된 초기 조건(initial condition)에서 시작한 것으로 설정되었다. 이 중 총 100개의 에피소드를 활용하여 학습을 진행하며, 나머지 에피소드를 통하여 그 성능을 테스트하였다. 최적 제어기의 비용(cost)은 충분히 긴 예측 범위(prediction horizon)를 가지는 모델예측제어기를 사용하여 계산하였으며, 해당 값과의 차이가 도 2에 도시되어 있다.
도 2를 참조하면, 초반 100개의 학습 에피소드를 통하여 최적에 가까운 제어기가 학습됨을 확인할 수 있다. 또, 무한대의 비용(cost) 값을 갖는 에피소드가 없는 것도 확인할 수 있다. 즉, 본 발명의 비선형 최적 제어 방법에 따른 알고리즘은 항상 제한 조건을 만족하면서 최적 제어기를 학습할 수 있다.
상술한 바와 같이, 본 발명은 컴퓨터 공학을 중심으로 발전해온 인공지능 기술을 안정성이 요구되는 실제 시스템으로의 적용을 가능하게 하는 중요한 알고리즘을 제공한다. 상기 알고리즘은 안정화 제어기와 최적 제어기와의 상관관계를 활용하여 제한 조건 만족과 안정성을 보장하는 동시에 최적 제어기를 학습한다. 제한 조건 만족은 배리어 함수가 더해진 제어 리아푸노프 함수를 사용하는 손타크 식을 활용함으로 확보되는 성질이다. 최적성은 해당 제어 리아푸노프 함수가 최적 가치 함수와 같은 레벨세트 형태를 가지는 경우 정확히 손타크 식과 최적 제어기가 동일하다는 사실을 활용하였다. 해당 사실과 기존 최적 가치 함수를 찾는 정책 반복 알고리즘을 결합하여 제한 조건 만족과 안정성을 우선적으로 확보하면서 최적 제어기를 학습하는 알고리즘을 개발하였다. 상기 알고리즘을 실제 시스템 적용을 위해서는 필수적인 비선형 심층 인공 신경망을 근사함수로서 사용하는 경우, 그리고 축적한 데이터를 활용하여 빠른 학습을 가능하게 하는 기울기 하강(gradient descent) 알고리즘 하에서도 단순히 크리틱-네트워크와 표준적인 벨만 에러(Bellman error) 감소 방향으로의 웨이트 업데이트룰을 사용하면서도 제한 조건 만족과 안정성을 보장할 수 있다. 본 발명은 인공지능 기반의 최적 제어 학습 알고리즘을 실제 시스템으로 확대 적용하기 위해 필요한 기술이다.
이제까지 본 발명에 대한 구체적인 실시예들을 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (10)

  1. 제어 리아푸노프 함수에 배리어 함수를 적용한 리아푸노프 배리어 함수 및 손타크 식을 이용하여 제어 시스템에 정책 반복 알고리즘을 진행하는 단계를 포함하고,
    상기 정책 반복 알고리즘은, 제어 리아푸노프 함수들 중에서 최적 가치 함수와 같은 레벨세트 형태를 가지는 제어 리아푸노프 함수를 찾으면서 최적 제어기를 학습하고, 상기 손타크 식을 활용하여 상기 학습 과정 및 상기 학습 후의 안정성 및 제한 조건 만족을 보장하는 것을 특징으로 하는 비선형 최적 제어 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 배리어 함수는 부등식 제한 조건의 경계에서 무한대에 도달하는 것을 특징으로 하는 비선형 최적 제어 방법.
  4. 제 1 항에 있어서,
    상기 배리어 함수에 의해 최적 가치 함수의 제한 조건이 목적 함수에 포함되는 것을 특징으로 하는 비선형 최적 제어 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020210158500A 2021-11-17 2021-11-17 비선형 최적 제어 방법 KR102560482B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210158500A KR102560482B1 (ko) 2021-11-17 2021-11-17 비선형 최적 제어 방법
PCT/KR2022/017511 WO2023090749A1 (ko) 2021-11-17 2022-11-09 비선형 최적 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210158500A KR102560482B1 (ko) 2021-11-17 2021-11-17 비선형 최적 제어 방법

Publications (2)

Publication Number Publication Date
KR20230072107A KR20230072107A (ko) 2023-05-24
KR102560482B1 true KR102560482B1 (ko) 2023-07-26

Family

ID=86397422

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210158500A KR102560482B1 (ko) 2021-11-17 2021-11-17 비선형 최적 제어 방법

Country Status (2)

Country Link
KR (1) KR102560482B1 (ko)
WO (1) WO2023090749A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102231799B1 (ko) 2019-10-11 2021-03-23 서울대학교산학협력단 안정화된 비선형 최적 제어 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10061876B2 (en) * 2014-12-23 2018-08-28 Board Of Trustees Of The University Of Illinois Bounded verification through discrepancy computations
JP6954553B2 (ja) * 2016-11-22 2021-10-27 学校法人立命館 自律走行車両、コントローラ、コンピュータプログラム、自律走行車両の制御方法
JP2020035182A (ja) * 2018-08-30 2020-03-05 トヨタ自動車株式会社 制御装置及び制御方法
US11164085B2 (en) * 2019-04-25 2021-11-02 Booz Allen Hamilton Inc. System and method for training a neural network system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102231799B1 (ko) 2019-10-11 2021-03-23 서울대학교산학협력단 안정화된 비선형 최적 제어 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Aaron D. Ames 외 3인, Control Barrier Function Based Quadratic Programs for Safety Critical Systems(2016) 1부.
J.Á. Acosta 외 2인, Stabilisation of state-and-input constrained nonlinear systems via diffeomorphisms: A Sontag's formula approach with an actual application(2018) 1부.
Yeonsoo Kim 외 1인, Safe model-based reinforcement learning for nonlinear optimal control with state and input constraints(2022) 1부.
Zahra Marvi 외 1인, Safe reinforcement learning: A control barrier function optimization approach(2021.10.11.) 1부.

Also Published As

Publication number Publication date
KR20230072107A (ko) 2023-05-24
WO2023090749A1 (ko) 2023-05-25

Similar Documents

Publication Publication Date Title
Tong et al. Observed-based adaptive fuzzy decentralized tracking control for switched uncertain nonlinear large-scale systems with dead zones
Chen et al. Identification recurrent type 2 fuzzy wavelet neural network and L2‐gain adaptive variable sliding mode robust control of electro‐hydraulic servo system (EHSS)
KR102231799B1 (ko) 안정화된 비선형 최적 제어 방법
Xu et al. Observer-based event-triggered adaptive containment control for multiagent systems with prescribed performance
Song et al. Stable value iteration for two-player zero-sum game of discrete-time nonlinear systems based on adaptive dynamic programming
Wu et al. H∞ fuzzy adaptive tracking control design for nonlinear systems with output delays
Kim et al. Safe model‐based reinforcement learning for nonlinear optimal control with state and input constraints
Li et al. Reinforcement learning control method for real‐time hybrid simulation based on deep deterministic policy gradient algorithm
Liu et al. Multiperson zero‐sum differential games for a class of uncertain nonlinear systems
Liu et al. Online event-based adaptive critic design with experience replay to solve partially unknown multi-player nonzero-sum games
Kanellopoulos et al. Temporal-logic-based intermittent, optimal, and safe continuous-time learning for trajectory tracking
KR102560482B1 (ko) 비선형 최적 제어 방법
CN116892866B (zh) 一种火箭子级回收轨迹规划方法、设备及存储介质
Yu et al. Inherent robustness properties of quasi-infinite horizon MPC
Lu et al. Continuous‐time receding‐horizon reinforcement learning and its application to path‐tracking control of autonomous ground vehicles
Gerasimenko et al. The maximum lexicographic contraflow finding in a fuzzy dynamic network
Ramírez et al. Computational burden reduction in min–max MPC
Han et al. Iterative learning model predictive control with fuzzy neural network for nonlinear systems
Zhang et al. Robust sliding mode predictive control of uncertain networked control system with random time delay
Qin et al. Safe adaptive learning algorithm with neural network implementation for H∞ control of nonlinear safety‐critical system
Ait Sahed et al. Constrained fuzzy predictive control using particle swarm optimization
Derhami et al. Applying reinforcement learning in formation control of agents
Matei et al. Deep learning for control: a non-reinforcement learning view
Amari et al. Natural gradient learning and its dynamics in singular regions
Hassan et al. Training ANFIS using catfish-particle swarm optimization for classification

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant