KR20210045759A - 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치 - Google Patents

강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치 Download PDF

Info

Publication number
KR20210045759A
KR20210045759A KR1020190129178A KR20190129178A KR20210045759A KR 20210045759 A KR20210045759 A KR 20210045759A KR 1020190129178 A KR1020190129178 A KR 1020190129178A KR 20190129178 A KR20190129178 A KR 20190129178A KR 20210045759 A KR20210045759 A KR 20210045759A
Authority
KR
South Korea
Prior art keywords
frequency control
automatic frequency
linear accelerator
reflected power
state
Prior art date
Application number
KR1020190129178A
Other languages
English (en)
Other versions
KR102362228B1 (ko
Inventor
채종서
김희수
하동협
이종철
남궁호
신승욱
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020190129178A priority Critical patent/KR102362228B1/ko
Publication of KR20210045759A publication Critical patent/KR20210045759A/ko
Application granted granted Critical
Publication of KR102362228B1 publication Critical patent/KR102362228B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05HPLASMA TECHNIQUE; PRODUCTION OF ACCELERATED ELECTRICALLY-CHARGED PARTICLES OR OF NEUTRONS; PRODUCTION OR ACCELERATION OF NEUTRAL MOLECULAR OR ATOMIC BEAMS
    • H05H7/00Details of devices of the types covered by groups H05H9/00, H05H11/00, H05H13/00
    • H05H7/02Circuits or systems for supplying or feeding radio-frequency energy
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05HPLASMA TECHNIQUE; PRODUCTION OF ACCELERATED ELECTRICALLY-CHARGED PARTICLES OR OF NEUTRONS; PRODUCTION OR ACCELERATION OF NEUTRAL MOLECULAR OR ATOMIC BEAMS
    • H05H9/00Linear accelerators

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Plasma & Fusion (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Particle Accelerators (AREA)
  • Feedback Control In General (AREA)

Abstract

에이전트(agent)가, 공동(cavity)으로부터의 반사 전력(Pr) 및 스텝 모터의 위치(Pm)를 포함하는, 현재 상태(state)에 기초하여 액션(action)을 배포하는 단계, 및 에이전트(agent)가 다음 상태와 보상(reward)을 획득하고, 인공신경망을 업데이트하는 단계를 포함하는, 강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator)의 자동 주파수 제어(automatic frequency control) 방법 및 이를 수행하는 장치가 제공된다. 반사 전력(Pr)을 이용해 자동 주파수 제어를 수행함으로써 데이터 수집이 쉽고, 민감도가 낮으며, 비용 효율성이 우수한 자동 주파수 제어가 가능하다.

Description

강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치{AUTOMATIC FREQUENCY CONTROL METHOD OF LINEAR ACCELERATOR USING REINFORCEMENT LEARNING AND APPARATUS PERFORMING THE SAME}
본 발명은 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치에 관한 것이다.
선형가속기(Linear Accelerator, LINAC)는 비파괴 시험과 같은 산업분야 또는 방사선 치료와 같은 의료분야에서 널리 사용된다. 이러한 선형가속기의 공동(cavity)에 RF 파워를 공급하는 장치 중의 하나로서 마그네트론이 널리 이용된다. 마그네트론의 출력주파수는 스텝 모터와 같은 기계적인 장치에 의해 조정될 수 있는데, 전자가속기의 출력을 최대로 하기 위해서는 선형가속기의 공진주파수와 마그네트론의 주파수를 일치시켜야 한다.
종래의 자동 주파수 제어(Automatic Frequency Control, AFC) 방법은 크게 아날로그 부분과 디지털 부분으로 구성된다. 순방향 전력과 반사된 전력은 아날로그 부분에서 수집되고, RF 공진주파수 추적 알고리즘 및 스텝 모터 제어는 디지털 부분에서 구현된다. 이때 AFC는 입력신호의 상대 위상에 따라 진폭이 달라지는 출력신호를 생성하기 위해 3dB 직교 하이브리드(quadrature hybrid) 또는 위상 검출기를 이용하며, 출력신호는 입력신호의 위상차에 비례한다.
그러나 종래 기술에 따르면 추가적인 위상천이기(phase shifter), 딜레이 라인, 3dB 하이브리드 커플러 등이 필요하고, 정확한 제어를 위해 섬세한 PCB 설계가 요구된다는 문제점이 있다.
한국 등록특허공보 제10-1611232호 ("고주파 전자가속기의 자동 주파수 제어 장치 및 그 방법", 한국원자력연구원, 2016.04.05.)
상술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 RF 하드웨어 및 데이터 수집 프로세스에 대한 요구사항을 최소화할 수 있는 자동 주파수 제어 방법 및 이를 수행하는 장치를 제공하는 것이다.
본 발명의 다른 목적은 종래의 위상 검출에 의한 방법보다 데이터 수집이 쉽고, 민감도가 낮으며, 비용 효율성이 우수한 자동 주파수 제어 방법 및 이를 수행하는 장치를 제공하는 것이다.
본 발명의 일 측면에 의하면, 강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC) 방법은, 에이전트(agent)가 현재 상태(state, St)에 기초하여 액션(action)을 배포하는 단계와, 상기 에이전트가 다음 상태(St+1)와 보상(reward, Rt+1)을 획득하고, 인공신경망(artificial neural network)을 업데이트하는 단계를 포함한다.
이때, 상기 액션을 배포하는 단계 이전에, 상기 인공신경망을 학습시키는 단계를 더 포함할 수 있다.
상기 상태는 공동(cavity)으로부터의 반사 전력(Pr) 및 스텝 모터의 위치(Pm)를 포함할 수 있다.
상기 액션은 스텝 모터의 위치 커맨드일 수 있다.
상기 보상은 다음 스텝에서의 반사 전력(Prt + 1)이 현재 스텝에서의 반사 전력(Prt)보다 작으면 긍정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt + 1)이 상기 현재 스텝에서의 반사 전력(Prt)보다 크거나 같으면 부정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt +1) 및 상기 현재 스텝에서의 반사 전력(Prt)이 3dB 대역폭보다 작으면 긍정적인 보상일 수 있다.
상기 업데이트는 가중치(weight)와 편향(bias)을 초기화하는 단계와, 손실함수(loss function)와 상기 상태(state)에 따라 역전파에 의해 상기 가중치와 상기 편향의 경사(gradient)를 획득하는 단계와, 최적화 방법에 의해 상기 가중치 및 상기 편향의 감소치를 계산하고, 상기 가중치 및 상기 편향을 업데이트하는 단계를 포함할 수 있다.
상기 최적화 방법은 아담 옵티마이저(Adam optimizer)일 수 있다.
상기 강화학습은 A2C(Advantage Actor-Critic)일 수 있다.
이때, 액터(actor)는 정책신경망을 포함하고, 상기 정책신경망은 복수 개의 뉴런으로 구성된 적어도 하나의 은닉층을 포함할 수 있다.
또한, 크리틱(critic)은 가치신경망을 포함하고, 상기 가치신경망은 복수 개의 뉴런으로 구성된 적어도 두 개의 은닉층을 포함할 수 있다.
본 발명의 다른 측면에 의하면, 강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC) 장치는, 현재 상태(state, St)에 기초하여 액션(action)을 배포하는 액션 출력부와, 양방향 커플러(bi-directional coupler)와 스텝 모터의 엔코더(encoder)로부터 다음 상태(St+1)를 수신하는 상태 수신부와, 공동(cavity)으로부터의 반사 전력(Pr)을 이용해 보상(reward)을 결정하는 보상 결정부와, 상기 상태와 상기 보상에 따라 인공신경망(artificial neural network)을 업데이트하는 학습부를 포함한다.
상기 상태는 상기 공동으로부터의 반사 전력(Pr) 및 상기 스텝 모터의 위치(Pm)를 포함할 수 있다.
상기 액션은 스텝 모터의 위치 커맨드일 수 있다.
상기 보상은 다음 스텝에서의 반사 전력(Prt + 1)이 현재 스텝에서의 반사 전력(Prt)보다 작으면 긍정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt + 1)이 상기 현재 스텝에서의 반사 전력(Prt)보다 크거나 같으면 부정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt +1) 및 상기 현재 스텝에서의 반사 전력(Prt)이 3dB 대역폭보다 작으면 긍정적인 보상일 수 있다.
상기 업데이트는 가중치(weight)와 편향(bias)을 초기화하는 단계와, 손실함수(loss function)와 상기 상태(state)에 따라 역전파(back propagation)에 의해 상기 가중치와 상기 편향의 경사(gradient)를 획득하는 단계와, 최적화 방법에 의해 상기 가중치 및 상기 편향의 감소치를 계산하고, 상기 가중치 및 상기 편향을 업데이트하는 단계를 포함할 수 있다.
상기 최적화 방법은 아담 옵티마이저(Adam optimizer)일 수 있다.
상기 강화학습은 A2C(Advantage Actor-Critic)일 수 있다.
이때, 액터(actor)는 정책신경망을 포함하고, 상기 정책신경망은 복수 개의 뉴런으로 구성된 적어도 하나의 은닉층을 포함할 수 있다.
또한, 크리틱(critic)은 가치신경망을 포함하고, 상기 가치신경망은 복수 개의 뉴런으로 구성된 적어도 두 개의 은닉층을 포함할 수 있다.
본 발명의 또 다른 측면에 의하면, 강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC)를 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능한 저장 매체에 있어서, 상기 컴퓨터 프로그램은 에이전트(agent)가 현재 상태(state, St)에 기초하여 액션(action)을 배포하도록 하는 명령과, 상기 에이전트가 다음 상태(St+1)와 보상(reward, Rt + 1)을 획득하고, 인공신경망(artificial neural network)을 업데이트하도록 하는 명령을 포함한다.
본 발명의 실시예들에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치에 따르면, 공동으로부터의 반사 전력만을 이용해 자동 주파수 제어를 수행함으로써 RF 하드웨어 및 데이터 수집 프로세스에 대한 요구사항을 최소화할 수 있고, 종래의 위상 검출에 의한 방법보다 데이터 수집이 쉽고, 민감도가 낮으며, 비용 효율성이 우수한 자동 주파수 제어가 가능하다.
도 1은 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법의 개념도이다.
도 2는 인공신경망의 가중치와 편향의 업데이트 과정을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법의 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 장치의 구성도이다.
도 5는 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동주파수 제어 방법을 검증하기 위한 실험에 사용된 파라미터를 나타낸 표이다.
도 6 내지 도 7은 실험 결과를 나타낸 그래프이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술적 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 기재된 항목들의 조합 또는 복수의 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하에서는 첨부된 도면을 참조하여 본 발명에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람이 본 발명을 쉽게 실시할 수 있도록 명확하고 상세하게 설명하기로 한다.
선형가속기(Linear Accelerator, LINAC)는 입자가속기(particle accelerator)의 일종으로서, 전하를 띤 입자에 전기장을 걸어줌으로써 입자를 가속시킨다. 일반적으로, 선형가속기는 전자빔을 방출하는 전자총, 전자빔을 가속시키는 공동(cavity), 및 상기 공동에 고주파 에너지를 공급하는 RF 소스를 포함하여 구성된다. 자동 주파수 제어(Automatic Frequency Control, AFC)는 선형가속기가 최적의 상태에서 운전할 수 있도록 상기 공동의 주파수와 상기 RF 소스의 주파수를 일치시키는 것이다.
종래의 자동 주파수 제어(AFC)는 공동으로부터 반사되는 반사파(REF)의 주파수 및/또는 위상을 검출하여 RF 소스의 주파수를 제어하였으나, 상술한 바와 같이 추가적인 하드웨어가 필요하고 데이터 수집 프로세스의 난이도가 높다는 문제점이 있다. 이에 본 발명에서는 하드웨어 및 데이터 수집 프로세스에 대한 요구사항을 최소화하고, 종래 기술보다 데이터 수집이 쉽고, 민감도가 낮으며, 비용 효율성이 우수한 자동 주파수 제어(AFC)를 위해 공동으로부터의 반사 전력만을 이용하여 RF 소스의 주파수를 제어한다.
다만, 반사 전력을 이용하여 자동 주파수 제어(AFC)를 하는 경우 공동과 RF 소스의 주파수 차이가 반사 전력에 비례하지 않고 항상 양수이기 때문에 정합 주파수에 대한 튜닝의 방향성을 얻는 것이 어렵다는 문제가 있다. 이에 본 발명에서는 강화학습(reinforcement learning)을 이용하여 위 문제를 해결하였다.
강화학습은 기계학습(machine learning)의 한 종류로서 에이전트(agent)가 액션(action)을 결정하는 방법을 학습시키는 것이다. 구체적으로, 에이전트의 액션은 환경(environment)의 상태(state)에 영향을 미치고, 이에 따라 에이전트는 보상(reward)을 받는다. 에이전트는 이러한 보상을 최대화하기 위해, 주어진 상황에서 어떤 액션을 취할지를 의미하는, 정책(policy)을 결정한다. 강화학습의 알고리즘으로는, 예를 들어, 몬테-카를로(Monte-Carlo), Q-러닝(Q-learning), 살사(SARSA), DQN(Deep Q Network), DDQN(Double DQN), 듀얼링 DQN(Dueling DQN), A3C(Asynchronous Advantage Actor-Critic), A2C(Advantage Actor-Critic) 등이 있다. 이하에서는 A2C를 적용하는 경우를 예로 들어 설명한다.
A2C는 2개의 인공신경망(정책신경망 및 가치신경망)을 이용하여 정책과 가치함수(value function)를 근사하는 강화학습 알고리즘이다. 구체적으로, A2C는 수학식 1의 어드밴티지 함수(advantage function, δV)를 이용해 인공신경망을 업데이트 하는데, 액터(actor)는 수학식 2의 손실함수(loss function)(LActor)를 이용해 정책신경망을 업데이트 함으로써 정책을 근사하고, 크리틱(critic)은 수학식 3의 손실함수(LCritic)를 이용해 가치신경망을 업데이트 함으로써 가치함수를 근사한다.
Figure pat00001
여기서, δV는 어드밴티지 함수이고, R은 보상이고, γ는 감가율(discount factor)이고, Vv는 가치함수이고, S는 상태이다.
Figure pat00002
Figure pat00003
도 1은 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법의 개념도이고, 도 2는 가중치와 편향의 업데이트 순서도이다.
도 1을 참조하면, 환경(200)은 RF 소스(RF source)(220), 양방향 커플러(bi-directional coupler)(240) 및 공동(cavity)(260)을 포함한다.
RF 소스(220)는 선형가속기가 입자를 가속시키는 데 필요한 고주파 에너지를 공급한다. RF 소스(220)로는, 예를 들어, 마그네트론이 사용될 수 있다. 마그네트론의 출력 주파수는 주파수 조정용 스텝 모터(미도시)의 위치를 제어함으로써 조정할 수 있다.
양방향 커플러(240)는 RF 소스(220)에서 공동(260)으로 입력되는 진행파(FWD)와 공동(260)으로부터 반사되는 반사파(REF)를 감지할 수 있다.
공동(260)은 RF 소스(220)로부터 입력 받은 진행파(FWD)를 이용해 입자를 가속시킨다.
상술한 바와 같이, 에이전트(100)는 환경(200)에 액션(300)을 배포하고, 환경(200)으로부터 상태(400)와 보상(500)을 수신하고, 보상(500)을 최대화하기 위한 정책을 결정한다. 에이전트(100)는 액터(120)와 크리틱(140)을 포함할 수 있다.
액터(120)는 환경(200)으로부터 상태(400)를 입력 받아 액션(300)을 배포한다. 구체적으로, 액터(120)는 상술한 수학식 2의 손실함수(LActor)를 이용해 정책신경망을 업데이트 함으로써 정책을 근사한다. 정책신경망은 복수 개의 뉴런으로 구성된 적어도 하나의 은닉층(hidden layer)을 포함한다. 예를 들어, 30개의 뉴런으로 구성된 하나의 은닉층을 포함할 수 있다. 은닉층은 ReLU(Rectified Linear Unit) 함수를 활성화 함수(activation function)로 사용할 수 있다. ReLU 함수가 작동할 수 없는 출력층은 SoftMax 함수를 활성화 함수로 사용할 수 있다.
크리틱(140)은 환경(200)으로부터 상태(400)와 보상(500)을 입력 받아 정책을 평가하고, 상술한 수학식 3의 손실함수(LCritic)를 이용해 가치신경망을 업데이트 함으로써 가치함수를 근사한다. 가치신경망은 복수 개의 뉴런을 포함하는 적어도 두 개의 은닉층을 포함한다. 예를 들어, 20개의 뉴런으로 구성된 두 개의 은닉층을 포함할 수 있다. 첫 번째 은닉층은 ReLU 함수를 활성화 함수로 사용할 수 있고, 두 번째 은닉층은 선형 함수를 활성화 함수로 사용할 수 있다.
한편, 액션(300)은 RF 소스(220)의 출력 주파수 제어 커맨드를 포함한다. 마그네트론이 RF 소스(220)로 사용되는 경우, 액션(300)은 마그네트론의 주파수 조정용 스텝 모터의 위치 커맨드일 수 있다. 액션(300)은 룰렛 휠 선택(roulette wheel selection)에 의해 선택될 수 있다. 여기서, 액션(300) 공간(A)은 주파수를 3dB 대역폭으로 이동시켰을 때 추정되는 상대 위치(M3dB -encoder)와 강화학습 결과의 변동에 영향을 주는 가중치(k)를 고려하여 결정될 수 있다. 즉, 액션(300) 공간(A)는 수학식 4와 같이 표현될 수 있다.
Figure pat00004
여기서, M3dB -encoder는 주파수를 3dB 대역폭으로 이동시켰을 때 추정되는 상대 위치이고, k는 강화학습 결과의 변동에 영향을 주는 가중치이다.
상태(400)는 공동(260)으로부터의 반사 전력(Pr) 및 스텝 모터의 위치(Pm)를 포함한다. 공동(260)으로부터의 반사 전력(Pr)은 양방향 커플러(240)에 의해 획득될 수 있고, 스텝 모터의 위치(Pm)는 상기 스텝 모터의 엔코더(encoder)에 의해 획득될 수 있다. 즉, 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법에서 상태(400) 공간은 수학식 5와 같이 표현될 수 있다.
Figure pat00005
여기서, Pr은 공동(260)으로부터의 반사 전력이고, Pm은 스텝 모터의 위치이다.
보상(500)은 공동(260)으로부터의 반사 전력(Pr)에 따라 결정될 수 있다. 에이전트(100)는, 다음 스텝 t+1에서의 반사 전력(Prt + 1)이 현재 스텝 t에서의 반사 전력(Prt)보다 작으면 긍정적인 보상(500)을 받고, 다음 스텝 t+1에서의 반사 전력(Prt+1)이 현재 스텝 t에서의 반사 전력(Prt)보다 크거나 같으면 부정적인 보상(500)을 받고, 다음 스텝 t+1에서의 반사 전력(Prt + 1)과 현재 스텝 t에서의 반사 전력(Prt)이 모두 3dB 대역폭(δ)보다 작으면 긍정적인 보상(500)을 받을 수 있다. 예를 들어, 수학식 6과 같이, 보상(500)은 다음 스텝 t+1에서의 반사 전력(Prt + 1)이 현재 스텝 t에서의 반사 전력(Prt)보다 작으면 +1로 설정되고, 다음 스텝 t+1에서의 반사 전력(Prt + 1)이 현재 스텝 t에서의 반사 전력(Prt)보다 크거나 같으면 -1로 설정되고, 다음 스텝 t+1에서의 반사 전력(Prt + 1)과 현재 스텝 t에서의 반사 전력(Prt)이 모두 3dB 대역폭(δ)보다 작으면 +1로 설정될 수 있다.
Figure pat00006
한편, 도 2를 참조하면, 액터(120)의 정책신경망 및 크리틱(140)의 가치신경망의 가중치(weight)와 편향(bias)을 업데이트 하기 위해, 가중치 및 편향을 초기화하고(S21), 손실함수와 상태(400) 정보에 따라 주어진 상태(400)에서 가중치 및 편향의 경사를 획득한다(S23). 이때 역전파(back propagation) 방법과 중심 수치 미분(central numerical differentiation)이 이용될 수 있다. 다음으로, 최적화 방법에 의해 가중치 및 편향의 감소치를 계산한 후(S25), 가중치 및 편향을 업데이트 한다(S27). 여기서 최적화 방법으로는 확률적 경사 하강법(stochastic gradient descent), 모멘텀(momentum), 아다그라드(AdaGrad) 또는 아담 옵티마이저(Adam optimizer)가 사용될 수 있다. 예를 들어, 아담 옵티마이저(Adam optimizer)를 사용하는 경우 매개변수의 갱신은 수학식 7과 같이 수행될 수 있다.
Figure pat00007
여기서, Θ는 가중치와 편향 계수, fADAM은 아담 옵티마이저(Adam optimizer) 함수, L은 손실함수, α는 최적 튜닝 학습 속도를 선택하는 데 사용되는 하이퍼 파라미터 최적화이다.
도 3은 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법의 흐름도이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법은, 액터와 크리틱을 학습시키는 단계(S31), 액터가 현재 상태(St)에 기초하여 액션을 배포하는 단계(S33), 및 에이전트가 다음 상태(St+1)와 보상(Rt+1)을 획득하고, 액터와 크리틱을 업데이트하는 단계(S35)를 포함할 수 있다.
도 4는 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 장치의 구성도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 장치(40)는 액션 출력부(41), 상태 수신부(43), 보상 결정부(45) 및 학습부(47)를 포함한다.
액션 출력부(41)는 현재 상태(400)(St)에 기초하여 액션(300)을 배포한다. 상태 수신부(43)는 양방향 커플러(240)와 스텝 모터의 엔코더(미도시)로부터 다음 상태(400)(St+1)를 수신한다. 보상 결정부(45)는 공동으로부터의 반사 전력(Pr)을 이용해 보상(500)을 결정한다. 그리고 학습부(47)는 학습을 통해 상태(400)와 보상(500)에 따라 인공신경망을 업데이트 한다.
여기서, 액션(300)은 RF 소스(220)의 출력 주파수 제어 커맨드를 포함한다. 예를 들어, 액션(300)은 마그네트론의 주파수 조정용 스텝 모터의 위치 커맨드일 수 있다.
상태(400)는 공동(260)으로부터의 반사 전력(Pr) 및 스텝 모터의 위치(Pm)를 포함한다. 공동(260)으로부터의 반사 전력(Pr)은 양방향 커플러(240)에 의해 획득될 수 있고, 스텝 모터의 위치(Pm)는 상기 스텝 모터의 엔코더(encoder)에 의해 획득될 수 있다.
보상(500)은 공동(260)으로부터의 반사 전력(Pr)에 따라 결정될 수 있다. 에이전트(100)는, 다음 스텝 t+1에서의 반사 전력(Prt + 1)이 현재 스텝 t에서의 반사 전력(Prt)보다 크면 긍정적인 보상(500)을 받고, 다음 스텝 t+1에서의 반사 전력(Prt + 1)이 현재 스텝 t에서의 반사 전력(Prt)보다 작거나 같으면 부정적인 보상(500)을 받고, 다음 스텝 t+1에서의 반사 전력(Prt + 1)과 현재 스텝 t에서의 반사 전력(Prt)이 모두 3dB 대역폭(δ)보다 작으면 긍정적인 보상(500)을 받을 수 있다.
전술한 본 발명에 따른 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
도 5 내지 도 7은 본 발명의 일 실시예에 따른 강화학습을 이용한 자동 주파수 제어 방법의 성능을 검증하기 위한 실험 결과를 설명하기 위한 도면이다.
도 5는 실험에 사용된 파라미터를 나타낸 표이다. 고전압 아크를 피하기 위해 마그네트론의 최대 출력은 1.3MW로 하였고, 출력 잡음을 줄이기 위해 각 RF 펄스에 대해 평균 과도 응답 RF 전력 데이터를 수집하였다. 인공 교란을 만들기 위해 스텝 모터 각도가 18°인 백색 가우시안 소음(White Gaussian Noise, WGN)을 사용하여 0.5초마다 마그네트론 축(shaft)을 무작위로 이동시켰다.
한편, 공동(260)은 RLC 병렬 회로와 같은 전달 함수를 갖는 시스템으로 모델링 될 수 있다. 따라서 마그네트론 주파수가 공동의 공진 주파수와 동일한 경우에 반사 전력(Pr)이 최소값을 갖는다.
도 6은 백색 가우시안 소음(WGN)을 이용하여 주파수를 무작위로 이동시켰을 때 반사 전력을 나타낸 그래프이고, 도 7은 본 발명의 일 실시예에 따른 강화학습을 이용한 자동 주파수 제어 시 반사 전력을 나타낸 그래프이다. 도 6에서, 반사 전력(Pr)의 평균은 130.9kW이고, 표준편차는 5.63kW이다. 반면에 도 7에서는 2000회의 반복 이후 반사 전력(Pr)의 평균은 122.8kW이고, 표준편차는 1.75kW이다. 즉, 본 발명의 일 실시예에 따른 강화학습을 이용한 자동 주파수 제어 방법을 사용한 경우 반사 전력의 크기 및 표준 편차가 감소하는 것을 알 수 있다.
이상에서 도면 및 실시예를 참조하여 설명하였지만, 본 발명의 보호범위가 상기 도면 또는 실시예에 의해 한정되는 것을 의미하지는 않으며 해당 기술 분야의 숙련된 당업자는 하기의 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 에이전트(agent)
120: 액터(actor)
140: 크리틱(critic)
200: 환경(environment)
220: RF 소스(RF source)
240: 양방향 커플러(bi-directional coupler)
260: 공동(cavity)
300: 액션(action)
400: 상태(state)
500: 보상(reward)

Claims (20)

  1. 강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC) 방법에 있어서,
    에이전트(agent)가 현재 상태(state, St)에 기초하여 액션(action)을 배포하는 단계; 및
    상기 에이전트가 다음 상태(St+1)와 보상(reward, Rt + 1)을 획득하고, 인공신경망(artificial neural network)을 업데이트하는 단계를 포함하는, 선형가속기의 자동 주파수 제어 방법.
  2. 제1항에 있어서,
    상기 액션을 배포하는 단계 이전에
    상기 인공신경망을 학습시키는 단계를 더 포함하는, 선형가속기의 자동 주파수 제어 방법.
  3. 제1항에 있어서,
    상기 상태는
    공동(cavity)으로부터의 반사 전력(Pr) 및 스텝 모터의 위치(Pm)를 포함하는, 선형가속기의 자동 주파수 제어 방법.
  4. 제1항에 있어서,
    상기 액션은 스텝 모터의 위치 커맨드인, 선형가속기의 자동 주파수 제어 방법.
  5. 제1항에 있어서,
    상기 보상은
    다음 스텝에서의 반사 전력(Prt + 1)이 현재 스텝에서의 반사 전력(Prt)보다 작으면 긍정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt + 1)이 상기 현재 스텝에서의 반사 전력(Prt)보다 크거나 같으면 부정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt +1) 및 상기 현재 스텝에서의 반사 전력(Prt)이 3dB 대역폭보다 작으면 긍정적인 보상인, 선형가속기의 자동 주파수 제어 방법.
  6. 제1항에 있어서,
    상기 업데이트는
    가중치(weight)와 편향(bias)을 초기화하는 단계;
    손실함수(loss function)와 상기 상태(state)에 따라 역전파(back propagation)에 의해 상기 가중치와 상기 편향의 경사(gradient)를 획득하는 단계; 및
    최적화 방법에 의해 상기 가중치 및 상기 편향의 감소치를 계산하고, 상기가중치 및 상기 편향을 업데이트하는 단계를 포함하는, 선형가속기의 자동 주파수 제어 방법.
  7. 제6항에 있어서,
    상기 최적화 방법은 아담 옵티마이저(Adam optimizer)인, 선형가속기의 자동 주파수 제어 방법.
  8. 제1항에 있어서,
    상기 강화학습은 A2C(Advantage Actor-Critic)인, 선형가속기의 자동 주파수 제어 방법.
  9. 제8항에 있어서,
    액터(actor)는 정책신경망을 포함하고,
    상기 정책신경망은 복수 개의 뉴런으로 구성된 적어도 하나의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 방법.
  10. 제8항에 있어서,
    크리틱(critic)은 가치신경망을 포함하고,
    상기 가치신경망은 복수 개의 뉴런으로 구성된 적어도 두 개의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 방법.
  11. 강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC) 장치에 있어서,
    현재 상태(state, St)에 기초하여 액션(action)을 배포하는 액션 출력부;
    양방향 커플러(bi-directional coupler)와 스텝 모터의 엔코더(encoder)로부터 다음 상태(St+1)를 수신하는 상태 수신부;
    공동(cavity)으로부터의 반사 전력(Pr)을 이용해 보상(reward)을 결정하는 보상 결정부; 및
    상기 상태와 상기 보상에 따라 인공신경망(artificial neural network)을 업데이트하는 학습부를 포함하는, 선형가속기의 자동 주파수 제어 장치.
  12. 제11항에 있어서,
    상기 상태는
    상기 공동으로부터의 반사 전력(Pr) 및 상기 스텝 모터의 위치(Pm)를 포함하는, 선형가속기의 자동 주파수 제어 장치.
  13. 제11항에 있어서,
    상기 액션은 스텝 모터의 위치 커맨드인, 선형가속기의 자동 주파수 제어 장치.
  14. 제11항에 있어서,
    상기 보상은
    다음 스텝에서의 반사 전력(Prt + 1)이 현재 스텝에서의 반사 전력(Prt)보다 작으면 긍정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt + 1)이 상기 현재 스텝에서의 반사 전력(Prt)보다 크거나 같으면 부정적인 보상이고, 상기 다음 스텝에서의 반사 전력(Prt +1) 및 상기 현재 스텝에서의 반사 전력(Prt)이 3dB 대역폭보다 작으면 긍정적인 보상인, 선형가속기의 자동 주파수 제어 장치.
  15. 제11항에 있어서,
    상기 업데이트는
    가중치(weight)와 편향(bias)을 초기화하는 단계;
    손실함수(loss function)와 상기 상태(state)에 따라 역전파(back propagation)에 의해 상기 가중치와 상기 편향의 경사(gradient)를 획득하는 단계; 및
    최적화 방법에 의해 상기 가중치 및 상기 편향의 감소치를 계산하고, 상기가중치 및 상기 편향을 업데이트하는 단계를 포함하는, 선형가속기의 자동 주파수 제어 장치.
  16. 제15항에 있어서,
    상기 최적화 방법은 아담 옵티마이저(Adam optimizer)인, 선형가속기의 자동 주파수 제어 장치.
  17. 제11항에 있어서,
    상기 강화학습은 A2C(Advantage Actor-Critic)인, 선형가속기의 자동 주파수 제어 장치.
  18. 제17항에 있어서,
    액터(actor)는 정책신경망을 포함하고,
    상기 정책신경망은 복수 개의 뉴런으로 구성된 적어도 하나의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 장치.
  19. 제17항에 있어서,
    크리틱(critic)은 가치신경망을 포함하고,
    상기 가치신경망은 복수 개의 뉴런으로 구성된 적어도 두 개의 은닉층을 포함하는, 선형가속기의 자동 주파수 제어 장치.
  20. 강화학습(reinforcement learning)을 이용한 선형가속기(linear accelerator, LINAC)의 자동 주파수 제어(automatic frequency control, AFC)를 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능한 저장 매체에 있어서,
    에이전트(agent)가 현재 상태(state, St)에 기초하여 액션(action)을 배포하도록 하는 명령; 및
    상기 에이전트가 다음 상태(St+1)와 보상(reward, Rt + 1)을 획득하고, 인공신경망(artificial neural network)을 업데이트하도록 하는 명령을 포함하는, 선형가속기의 자동 주파수 제어를 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능한 저장 매체.
KR1020190129178A 2019-10-17 2019-10-17 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치 KR102362228B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190129178A KR102362228B1 (ko) 2019-10-17 2019-10-17 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190129178A KR102362228B1 (ko) 2019-10-17 2019-10-17 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치

Publications (2)

Publication Number Publication Date
KR20210045759A true KR20210045759A (ko) 2021-04-27
KR102362228B1 KR102362228B1 (ko) 2022-02-11

Family

ID=75725820

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190129178A KR102362228B1 (ko) 2019-10-17 2019-10-17 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치

Country Status (1)

Country Link
KR (1) KR102362228B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008198394A (ja) * 2007-02-08 2008-08-28 Mitsubishi Heavy Ind Ltd 加速管コンディショニング装置および加速管コンディショニング方法
KR101588690B1 (ko) * 2014-12-11 2016-01-28 한국원자력연구원 고주파 전자가속기 마그네트론의 주파수 제어장치 및 제어방법
KR101611232B1 (ko) 2015-03-26 2016-04-12 한국원자력연구원 고주파 전자가속기의 자동 주파수 제어 장치 및 그 방법
JP2019039702A (ja) * 2017-08-23 2019-03-14 株式会社日立製作所 荷電粒子ビーム発生装置とそれを備えた粒子線治療装置、および荷電粒子ビーム発生装置の運転方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008198394A (ja) * 2007-02-08 2008-08-28 Mitsubishi Heavy Ind Ltd 加速管コンディショニング装置および加速管コンディショニング方法
KR101588690B1 (ko) * 2014-12-11 2016-01-28 한국원자력연구원 고주파 전자가속기 마그네트론의 주파수 제어장치 및 제어방법
KR101611232B1 (ko) 2015-03-26 2016-04-12 한국원자력연구원 고주파 전자가속기의 자동 주파수 제어 장치 및 그 방법
JP2019039702A (ja) * 2017-08-23 2019-03-14 株式会社日立製作所 荷電粒子ビーム発生装置とそれを備えた粒子線治療装置、および荷電粒子ビーム発生装置の運転方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
저널 ‘Rev. Sci. Istrum.’, VOL 90, p. 074707 (2019. 07. 30.)* *

Also Published As

Publication number Publication date
KR102362228B1 (ko) 2022-02-11

Similar Documents

Publication Publication Date Title
KR102329910B1 (ko) 정합된 소스 임피던스 구동 시스템 및 그 동작 방법
US10741363B1 (en) Extremum seeking control apparatus and method for automatic frequency tuning for RF impedance matching
KR20200097787A (ko) 강화된 학습을 통한 양자 계산
JP5149963B2 (ja) 増幅器安定化方法およびシステム
Scheinker et al. In-hardware demonstration of model-independent adaptive tuning of noisy systems with arbitrary phase drift
KR102362228B1 (ko) 강화학습을 이용한 선형가속기의 자동 주파수 제어 방법 및 이를 수행하는 장치
Wei et al. Automated antenna design via domain knowledge-informed reinforcement learning and imitation learning
Xu et al. Bayesian optimization of the beam injection process into a storage ring
Abbasi et al. Offline auto-tuning of a PID controller using extended classifier system (XCS) algorithm
Kaiser et al. Learning to do or learning while doing: Reinforcement learning and bayesian optimisation for online continuous tuning
Kamino et al. Development of a new concept automatic frequency controller for an ultrasmall C‐band linear accelerator guide
CN111801766B (zh) 脉冲式可变频率rf发生器的驱动频率的控制方法
US10917124B2 (en) Method and apparatus for electromagnetic field manipulation using near-field and far-field sensing
Nam et al. Adaptive dynamic programing based optimal control for a robot manipulator
Schuster et al. Beam matching adaptive control via extremum seeking
CN109471073B (zh) 基于增广拉格朗日粒子群算法的nlfm信号生成方法及装置
Mohamadian et al. Optimized feed-forward neural-network algorithm trained for cyclotron-cavity modeling
Yuan et al. Output voltage control of inductive power transfer system based on extremum seeking control
Nichols et al. Application of Newton's Method to action selection in continuous state-and action-space reinforcement learning
WO2021054118A1 (ja) パラメータ決定装置、信号送信装置、パラメータ決定方法、信号送信方法、及び、記録媒体
Hanten et al. Enhancement of the S-DALINAC Control System with Machine Learning Methods
Madrid et al. Using genetic algorithms for compensating the local magnetic perturbation of a ship in the earth's magnetic field
Paley et al. From profile to sawtooth control: developing feedback control using ECRH/ECCD systems on the TCV tokamak
Reinschmidt et al. Reinforcement learning in ultracold atom experiments
Grech et al. Application of reinforcement learning in the LHC tune feedback

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant