KR20240024210A

KR20240024210A - 신경망을 이용한 자기 구속 디바이스의 자기장 제어

Info

Publication number: KR20240024210A
Application number: KR1020247002138A
Authority: KR
Inventors: 요나스 디그레이브; 페데리코 알베르토 알프레도 펠리시; 요나스 부클리; 마이클 피터 노너트; 브렌던 다니엘 트레이시; 프란체스코 카르파네제; 티모 빅터 에왈드; 롤랜드 하프너; 마틴 리드밀러
Original assignee: 딥마인드 테크놀로지스 리미티드
Priority date: 2021-07-08
Filing date: 2022-07-08
Publication date: 2024-02-23
Also published as: WO2023281048A1; EP4344450A1; CN117616512A; US20240312657A1; JP2024529851A

Abstract

방법, 시스템 및 장치는 자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장 제어용 제어 신호를 생성하기 위한 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함한다. 방법 중 하나는 복수의 시간 단계 각각에 대해, 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 획득하는 단계와, 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 특징짓는 제기 제어 출력을 생성하기 위해 플라즈마 구속 신경망을 사용하여 관측값을 포함하는 입력을 처리하는 단계와, 그리고 자기 제어 출력에 기초하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 생성하는 단계를 포함한다.

Description

신경망을 이용한 자기 구속 디바이스의 자기장 제어

본 명세서는 기계 학습 모델을 사용한 데이터 처리에 관한 것이다.

기계 학습 모델은 입력을 수신하고 그 수신된 입력에 기초하여 출력, 예를 들어 예측 출력을 생성한다. 일부 기계 학습 모델은 파라메트릭 모델이며 수신된 입력과 그 모델의 파라미터 값에 기초하여 출력을 생성한다.

일부 기계 학습 모델은 다수의 계층의 모델을 사용하여 수신 입력에 대한 출력을 생성하는 심층 모델이다. 예를 들어, 심층 신경망은 출력 계층 및 수신된 입력에 비선형 변환을 각각 적용하여 출력을 생성하는 하나 이상의 은닉 계층을 포함하는 심층 기계 학습 모델이다.

본 명세서는 일반적으로 플라즈마 구속(confinement) 신경망을 사용하여 자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장 제어용 제어 신호를 생성하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터에 컴퓨터 프로그램으로 구현된 시스템을 설명한다. 자기 구속 디바이스는 예를 들어 환상형 챔버를 갖는 토카막(tokamak)일 수 있다.

일 양태에서, 자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장 제어용 제어 신호를 생성하기 위한 하나 이상의 데이터 처리 장치에 의해 수행되는 방법이 설명된다. 이 방법은 복수의 시간 단계 각각에서: 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 획득하는 단계와 플라즈마 구속 신경망을 사용하여 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 포함하는 입력을 처리하는 단계를 포함한다. 플라즈마 구속 신경망은 복수의 네트워크 파라미터를 가지며, 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 특징짓는 자기 제어 출력을 생성하기 위해 네트워크 파라미터에 따라 관측값을 포함하는 입력을 처리하도록 구성된다. 방법은 자기 제어 출력에 기초하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 생성하는 단계를 더 포함한다.

일부 구현에서, 자기 제어 출력은 자기 구속 디바이스의 복수의 제어 코일 각각에 인가되는 개별 전압을 특징짓는다.

일부 구현에서, 자기 제어 출력은 자기 구속 디바이스의 복수의 제어 코일 각각에 대해, 제어 코일에 인가될 수 있는 가능한 전압 세트에 대한 개별 점수 분포를 정의한다.

일부 구현에서, 자기 제어 출력에 기초하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 생성하는 단계는 자기 구속 디바이스의 복수의 제어 코일 각각에 대해: 제어 코일에 인가될 수 있는 가능한 전압 세트에 대한 개별 점수 분포로부터 전압을 선택하는 단계와 샘플링된 전압이 제어 코일에 인가되도록 제어 신호를 생성하는 단계를 포함한다.

방법은 또한 복수의 시간 단계 각각에 대해, (i) 플라즈마의 현재 상태 및 (ii) 플라즈마의 목표(target) 상태 사이의 오차를 특징짓는 시간 단계에 대한 보상을 결정하는 단계와, 그리고 강화 학습 기술을 사용하여 보상에 대한 플라즈마 구속 신경망의 신경망 파라미터를 트레이닝하는 단계를 포함한다.

일부 구현에서, 복수의 시간 단계 중 하나 이상에 대해, 시간 단계에 대한 보상을 결정하는 단계는 플라즈마를 특징짓는 하나 이상의 플라즈마 특징(feature) 각각에 대해, (i) 시간 단계에서의 플라즈마 특징의 현재 값과 (ii) 시간 단계에서의 플라즈마 특징의 목표 값 사이의 차이를 측정하는 개별 오차를 결정하는 단계를 포함한다. 방법은 시간 단계에서의 하나 이상의 플라즈마 특징 각각에 대응하는 개별 오차에 적어도 부분적으로 기초하여 시간 단계에 대한 보상을 결정하는 단계를 더 포함한다.

방법은 또한 복수의 시간 단계 중 하나 이상에 대해, 시간 단계에서의 플라즈마 특징 각각에 대응하는 개별 오차에 기초하여 시간 단계에 대한 보상을 결정하는 단계는 시간 단계에서의 플라즈마 특징에 대응하는 개별 오차의 가중 선형 조합으로 시간 단계에 대한 보상을 결정하는 단계를 포함한다.

일부 구현에서, 하나 이상의 플라즈마 특징 각각의 개별 목표 값은 시간 단계 사이에서 변한다.

일부 구현에서, 복수의 시간 단계 각각에서, 플라즈마 구속 신경망에 대한 입력은 시간 단계에 대한 관측값 외에도 시간 단계에서의 플라즈마 특징 각각의 개별 목표 값을 정의하는 데이터를 포함한다.

일부 구현에서, 플라즈마 특징은 플라즈마의 안정성, 플라즈마의 플라즈마 전류, 플라즈마의 모양, 플라즈마의 위치, 플라즈마의 면적, 플라즈마의 도메인 수, 플라즈마의 액적(droplets) 사이의 거리, 플라즈마의 신장(elongation), 플라즈마 중심의 방사상 위치, 플라즈마의 반경, 플라즈마의 삼각형성, 플라즈마의 한계점 중 하나 이상을 포함한다.

일부 구현에서, 복수의 시간 단계 중 하나 이상에 대해, 상기 시간 단계에 대한 보상을 결정하는 단계는 자기 구속 디바이스의 현재 상태를 특징짓는 하나 이상의 디바이스 특징 각각의 개별 현재 값을 결정하는 단계와 시간 단계에서의 하나 이상의 디바이스 특징의 개별 현재 값에 적어도 부분적으로 기초하여 시간 단계에 대한 보상을 결정하는 단계를 포함한다.

일부 구현에서, 디바이스 특징은 자기 구속 디바이스의 챔버 내의 다수의 x-점, 자기 구속 디바이스의 하나 이상의 제어 코일 각각의 개별 전류, 또는 둘 모두를 포함한다.

일부 구현에서, 자기 구속 디바이스는 자기 구속 디바이스의 시뮬레이션이다. 방법은 복수의 시간 단계 중 마지막 시간 단계에서: 시간 단계에서 자기 구속 디바이스의 물리적 타당성(feasibility) 제약 조건이 위반된다고 결정하는 단계와, 자기 구속 디바이스의 물리적 타당성 제약 조건이 시간 단계에서 위반되었다는 결정에 응답하여 자기 구속 디바이스의 시뮬레이션을 종료하는 단계를 포함한다.

일부 구현에서, 시간 단계에서 자기 구속 디바이스의 물리적 타당성 제약 조건이 위반된다고 결정하는 단계는 시간 단계에서 플라즈마의 밀도가 임계값을 만족하지 않는다고 결정하는 단계, 시간 단계에서 플라즈마의 플라즈마 전류가 임계값을 만족하지 않는다고 결정하는 단계, 또는 하나 이상의 제어 코일 각각의 개별 전류가 임계값을 충족하지 않는다고 결정하는 단계 중 하나 이상을 포함한다.

일부 구현에서, 강화 학습 기술은 액터-크리틱(actor-critic) 강화 학습 기술이다. 추가 구현에서, 보상에 대한 플라즈마 구속 신경망의 네트워크 파라미터를 트레이닝하는 단계는 액터-크리틱 강화 학습 기술을 사용하여 보상에 대해 플라즈마 구속 신경망 및 크리틱 신경망을 공동 트레이닝하는 단계를 포함한다. 크리틱 신경망은 시간 단계 후에 받을 것으로 예측되는 보상의 누적 척도를 특징짓는 출력을 생성하기 위해 시간 단계에 대한 크리틱 관측값을 포함하는 입력을 처리하도록 구성된다.

일부 구현에서, 액터-크리틱 강화 학습 기술은 최대 사후(posteriori) 정책 최적화(MPO) 기술이다.

일부 구현에서, 액터-크리틱 강화 학습 기술은 분산형 액터-크리틱 강화 학습 기술이다.

일부 구현에서, 플라즈마 구속 신경망은 출력을 생성하기 위해 크리틱 신경망에 의해 요구되는 것보다 더 적은 계산 자원을 사용하여 출력을 생성한다.

일부 구현에서, 플라즈마 구속 신경망은 출력을 생성하기 위해 크리틱 신경망에 의해 요구되는 것보다 낮은 대기 시간(latency)으로 출력을 생성한다.

일부 구현에서, 플라즈마 구속 신경망은 크리틱 신경망보다 더 적은 네트워크 파라미터를 갖는다.

일부 구현에서, 플라즈마 구속 신경망은 피드포워드 신경망이고, 크리틱 신경망은 순환 신경망이다.

일부 구현에서, 크리틱 신경망은 더 높은 차원을 가지며 플라즈마 구속 신경망에 의해 처리된 관측값보다 더 많은 데이터를 포함하는 크리틱 관측값을 처리하도록 구성된다.

일부 구현에서, 복수의 시간 단계 각각에서, 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값은 하나 이상의 와이어 루프 각각으로부터 획득된 개별 자속 측정값, 하나 이상의 자기장 프로브(probe) 각각으로부터 획득된 개별 자기장 측정값, 또는 자기 구속 디바이스의 하나 이상의 제어 코일 각각으로부터의 개별 전류 측정값 중 하나 이상을 포함한다.

일부 구현에서, 자기 구속 디바이스는 시뮬레이션된 자기 구속 디바이스이다.

방법은 또한 플라즈마 구속 신경망을 사용하여 시뮬레이션된 자기 구속 디바이스를 제어하는 것에 기초하여 플라즈마 구속 신경망을 트레이닝한 후: 실제 자기 구속 디바이스의 하나 이상의 센서로부터 생성된 관측값을 처리함으로써 실제 자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장을 제어하기 위해 플라즈마 구속 신경망을 사용하는 단계 및 실제 자기 구속 디바이스의 자기장을 제어하기 위한 실제 제어 신호를 생성하기 위해 플라즈마 구속 신경망에 의해 생성된 자기 제어 출력을 사용하는 단계를 포함할 수 있다.

일부 구현에서, 자기 구속 디바이스는 토카막이고, 자기 구속 디바이스의 챔버는 환상형 형상을 갖는다.

일부 구현에서, 플라즈마는 핵융합을 통해 전력을 생성하는데 사용된다.

제2 양태에서는, 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 이전에 설명된 방법의 동작들을 수행하게 하는 명령을 저장한 하나 이상의 비-일시적 컴퓨터 저장 매체가 제공된다.

제3 양태에서는, 시스템으로서, 하나 이상의 컴퓨터와, 하나 이상의 컴퓨터에 통신 가능하게 연결된 하나 이상의 저장 디바이스를 포함하는 시스템이 제공되며, 하나 이상의 저장 디바이스는 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 이전에 설명된 방법의 동작들을 명령들을 저장한다.

제4 양태에서는, 자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장 제어용 제어 신호를 생성하기 위한 하나 이상의 데이터 처리 장치에 의해 수행되는 방법이 제공된다. 방법은 복수의 시간 단계 각각에서: 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 획득하는 단계와 트레이닝된 플라즈마 구속 신경망을 사용하여 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 포함하는 입력을 처리하는 단계를 포함한다. 트레이닝된 플라즈마 구속 신경망은 복수의 네트워크 파라미터를 가지며, 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 특징짓는 자기 제어 출력을 생성하기 위해 네트워크 파라미터에 따른 관찰치를 포함하는 입력을 처리하도록 구성된다. 방법은 자기 제어 출력에 기초하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 생성하는 단계를 더 포함한다.

트레이닝된 플라즈마 구속 신경망은 실제 자기 구속 디바이스를 제어하는데 사용될 수 있다. 보다 구체적으로, 트레이닝된 플라즈마 구속 신경망은 실제 자기 구속 디바이스의 하나 이상의 센서로부터 생성된 관측값을 처리하고 그리고 실제 자기 구속 디바이스의 자기장을 제어하기 위한 실제 제어 신호를 생성하기 위해 플라즈마 구속 신경망에 의해 생성된 자기 제어 출력을 사용함으로써 실제 자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장을 제어하는데 사용될 수 있다. 일부 구현에서 자기 제어 출력은 각각의 제어 코일에 대해, 제어 코일에 인가될 수 있는 가능한 전압 세트에 대한 개별 점수 분포를 정의한다. 그런 다음 제어 코일에 인가될 전압이 점수 분포로부터 샘플링될 수 있다.

일부 구현에서, 플라즈마 구속 신경망은 시뮬레이션된 자기 구속 디바이스, 즉 실제 자기 구속 디바이스의 시뮬레이션을 사용하여 적어도 부분적으로 트레이닝된다.

본 명세서에 설명된 주제는 다음의 이점들 중 하나 이상을 실현하기 위해 특정 실시예에서 구현될 수 있다.

토카막과 같은 자기 구속 디바이스는 핵융합을 통한 지속 가능한 전력 생성을 위한 주요 후보이다. 효율적인 전력 생산을 위해서는 자기 구속 디바이스의 챔버 내 플라즈마의 형상을 제어하기 위해 자기 구속 디바이스의 자기장의 정밀한 조작이 필요하다. 플라즈마의 형상을 제어하는 것은 플라즈마의 잠재적인 불안정성으로 인해 어려운 문제가 될 수 있다.

본 명세서에 설명된 시스템은 플라즈마 구속 신경망을 사용하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 선택하기 위한 제어 정책을 구현한다. 플라즈마 구속 신경망은 예를 들어 플라즈마 구속 신경망의 제어 하에 시뮬레이션된 자기 구속 디바이스의 행위를 특징짓는 시뮬레이션된 궤적에 기초하여 효과적인 제어 정책을 학습하기 위해 강화 학습 기술을 사용하여 트레이닝될 수 있다. 시스템은 예를 들어 플라즈마의 원하는 특징(예를 들어, 플라즈마의 형상) 및/또는 자기 구속 디바이스의 동작 제약 조건(예를 들어, 제어 코일의 최대 허용 전류)을 특징짓는 제어 목적(objectives)에 의해 지정된 보상에 기초하여 플라즈마 구속 신경망을 트레이닝할 수 있다. 이러한 보상에 기초하여 플라즈마 구속 신경망을 트레이닝함으로써, 시스템을 통해 플라즈마 구속 신경망은 제어 목표를 달성하기 위한 새로운 솔루션을 자동으로 발견할 수 있다.

본 명세서에 설명된 시스템은 정확한 목표 플라즈마 상태가 지정되고 컨트롤러 조합이 순차 루프 폐쇄를 통해 설계 및 조정되어 먼저 플라즈마를 안정화한 다음 원하는 플라즈마 상태를 추적하는 기존 컨트롤러 설계에서 크게 벗어났다. 상당한 개발 시간과 수동 미세 조정이 필요한 기존 컨트롤러 설계와 달리, 시스템은 효과적인 제어 전략을 학습하기 위해 강화 학습을 통해 플라즈마 구속 신경망을 자율적으로 트레이닝할 수 있다. 본 명세서에 설명된 시스템은 기존 컨트롤러와 비슷하거나 우수한 성능을 달성하는 동시에 신경망이 트레이닝되면 자원(예를 들어, 계산 자원)을 보다 효율적으로 사용할 수 있다. 시스템은 (강화 학습을 사용하여 제어 정책을 자율적으로 학습함으로써) 새로운 자기장 제어 정책을 생성하는 프로세스를 크게 단축하고 단순화할 수 있다.

본 명세서에 설명된 시스템은 액터-크리틱(actor-critic) 강화 학습 기술을 사용하여 크리틱 신경망과 함께 플라즈마 구속 신경망을 공동으로 트레이닝할 수 있다. 플라즈마 구속 신경망의 구조적 복잡성은 낮은 대기 시간(예를 들어, 10kHz 이상의 속도)으로 자기 제어 출력을 생성하는 것과 같은 동작 요구 사항에 의해 제한된다. 이와 달리, 크리틱 신경망은 트레이닝 중에만 사용되므로 동일한 동작 제약 조건을 충족할 의무가 없다. 따라서, 시스템은 훨씬 더 복잡한 신경망 아키텍처를 사용하여 크리틱 신경망을 구현할 수 있으며 이를 통해 크리틱 신경망은 자기 구속 디바이스의 (동)역학을 보다 정확하게 학습할 수 있으므로 플라즈마 구속 신경망은 트레이닝될 뿐만 아니라 향상된 성능으로 더 적은 수의 트레이닝 반복을 통해 트레이닝될 수 있다.

본 명세서의 주제의 하나 이상의 실시예의 세부 사항은 첨부 도면 및 아래의 설명에서 설명된다. 주제의 다른 특징, 측면 및 이점은 설명, 도면 및 청구범위로부터 명백해질 것이다.

도 1은 예시적인 자기장 제어 시스템을 도시한다.
도 2는 플라즈마 구속 신경망을 사용하여 제어 신호를 생성하고 보상에 대해 네트워크 파라미터를 트레이닝하는 예시적인 프로세스의 흐름도이다.
도 3은 플라즈마 구속 신경망의 네트워크 파라미터를 트레이닝하는데 사용될 수 있는 보상을 결정하는 예시적인 프로세스를 도시한다.
도 4는 플라즈마 구속 신경망의 트레이닝 동안 사용될 수 있는 자기장 구속 디바이스의 시뮬레이션의 예이다.
도 5는 액터-크리틱(actor-critic) 강화 학습 기술을 사용하는 예시적인 트레이닝 엔진이다.
도 6은 가변 구성 토카막(TCV)을 도시한 도면이다.
도 7a 및 7b는 TCV에 배치된 자기장 제어 시스템을 사용하여 다중 플라즈마 특징의 제어를 도시하는 실험 데이터이다.
다양한 도면에서 유사한 참조 번호 및 지정은 유사한 요소를 나타낸다.

도 1은 플라즈마 구속 신경망(102)을 사용하여 자기 구속 디바이스(110)의 자기장을 제어할 수 있는 예시적인 자기장 제어 시스템(100)을 도시한다. 자기장 제어 시스템(100)은 아래에 설명된 시스템, 구성요소 및 기술이 구현되는 하나 이상의 위치에서 하나 이상의 컴퓨터에 컴퓨터 프로그램으로 구현되는 시스템의 예이다.

핵융합로의 기본 프로세스인 제어된(controlled) 핵융합은 지속 가능한 에너지를 위한 유망한 솔루션이다. 핵융합로는 뜨거운 플라즈마에서 발생하는 핵융합 반응에서 생성된 열을 사용하여 방사성 폐기물이 거의 없는 전력을 생산할 수 있다. 중성자 핵융합로는 플라즈마에서 방출되는 하전 입자로부터 직접 전력을 생산할 수 있기 때문에 훨씬 더 높은 효율을 낼 수 있는 잠재력을 가지고 있다. 즉, 제어된 핵융합을 달성하는데 있어 가장 어려운 문제 중 하나는 고온, 고압 플라즈마를 적절한 챔버 내에 가두는 것이다. 극한의 온도(예를 들어, 섭씨 수천만에서 수억 도)로 인해, 플라즈마는 챔버의 표면과 직접 접촉할 수 없고 내부의 진공 상태에 있어야 하며 이는 플라즈마의 본질적인 불안정성으로 인해 더욱 복잡해진다.

그러나, 플라즈마는 전기를 전도하는 이온화된 가스이기 때문에, 그것은 강한 자기장을 생성하고 차례로 강한 자기장에 의해 조작될 수 있다. 토카막(tokamaks)과 같은 자기 구속 디바이스(110)는 시간에 따라 변하는 자기장의 배열을 활용하여 플라즈마를 다양한 플라즈마 구성으로 형성하고 구속한다. 가변 구성 토카막(TCV) 및 ITER와 같은 토카막에서, 플라즈마는 일반적으로 챔버의 환상형 모양에 맞는 환상형 구성(예를 들어, 도넛 모양)으로 구속(밀폐)된다. 핵융합로 구속 디바이스(110)에 대한 몇 가지 다른 주요 후보로는 구형 토카막(예를 들어, MAST(Mega Ampere Spherical Tokamak)), 스텔라레이터(예를 들어, Wendelstein 7-X), 역전장(field-reversed) 구성(예를 들어, 프린스턴 역전장 구성(PFRC)), 스페로막(spheromaks) 등이 있다.

일반적으로, 자기 구속 디바이스(110)의 챔버 형상은 가능한 플라즈마 구성을 제한한다. 제어 시스템(100)의 궁극적인 목표는 원하는 플라즈마 전류, 위치 및 형상을 갖는 안정적인 플라즈마 구성을 확립하기 위해, 즉 플라즈마 평형 상태(plasma equilibrium)를 확립하기 위해 구속 디바이스(110) 내의 자기장을 조절하는 것이다. 평형 상태에서, 지속적인 핵융합이 진행될 수 있다. 플라즈마와 구속 디바이스(110) 자체의 여러 양태는 또한 예를 들어 플라즈마의 안정성과 에너지 배출, 구속 디바이스의 센서 성능 저하 등이 평형 상태에서 연구될 수 있으며 이는 연구 개발에 중요한 정보가 될 수 있다.

기존 자기 컨트롤러는 일반적으로 플라즈마의 다양한 특징을 조정하는 독립적인 단일-입력 단일-출력 비례 적분-미분(PID) 컨트롤러 세트를 사용하여 플라즈마 구속의 고차원, 고주파의 비선형 문제를 공격했다. PID 컨트롤러 세트는 상호 간섭을 방지하도록 설계되어야 하며 플라즈마 평형 상태의 실시간 추정을 구현하는 외부 제어 루프에 의해 추가로 강화되는 경우가 많다. 비선형 컨트롤러뿐만 아니라 다른 유형의 선형 컨트롤러도 사용된다. 이러한 자기 컨트롤러들은 특정 상황에서는 성공적이었지만, 이들은 목표 플라즈마 구성이 변경될 때마다 상당한 엔지니어링 노력과 전문 지식이 필요하다. 더욱이, 자기 컨트롤러는 각 구속 디바이스(110) 및 구속 디바이스(110)의 연속적인 세대가 온라인에 등장함에 따라 힘든 작업이 될 수 있는 고유한 제어 세트(예를 들어, 제어 코일 세트)에 대해 설계되어야 한다.

반면에, 제어 시스템(100)은 신경망 아키텍처를 이용하기 때문에, 임의의 구속 디바이스(110)에 대한 비선형 피드백 컨트롤러로서 구성될 수 있다. 즉, 플라즈마 구속 신경망(102)은 일련의 제어를 효율적으로 명령하기 위해 거의 최적에 가까운 제어 정책을 자율적으로 학습할 수 있어 기존의 자기 컨트롤러에 비해 설계 노력이 크게 감소된다. 계산 비용이 저렴한 단일 제어 시스템(100)은 자기 컨트롤러의 복잡한 중첩(nested) 제어 아키텍처를 대체할 수 있다. 이러한 접근법은 제어 목적을 높은 수준으로 지정함으로써 전례 없는 유연성과 일반성을 가질 수 있으며, 이는 구속 디바이스(110)가 성취될 수 있는 방법보다는 성취해야 하는 것에 초점을 맞춘다. 자기장 제어 시스템(100)의 개요가 아래에 개괄적으로 설명된다.

도 1의 요소들을 참조하면, 플라즈마 구속 신경망(102)은 신경망(102)이 데이터를 처리하는 방법을 지시하는 네트워크 파라미터 세트(104)를 포함한다. 플라즈마 구속은 초기 플라즈마 형성 단계, 이어서 플라즈마 평형 상태로의 안정화 및 최종 플라즈마 파괴(breakdown) 단계와 같은 여러 과도 기간을 포함할 수 있으므로 정교한 시간적 절차이다. 플라즈마의 고유한 불안정성으로 인해, 신경망(102)은 이러한 불안정성을 교정하기 위해 짧은 시간 척도로 응답해야 할 수도 있다. 제어 시스템(100)은 플라즈마 구속과 관련된 모든 단계에 활용될 수 있지만, 일부 구현에서는 제어 시스템(100)이 특정 단계로 제한된다. 예를 들어, 기존 자기 컨트롤러는 초기 플라즈마 형성 단계를 처리할 수 있으며 제어는 사전 결정된 시간에 제어 시스템(100)으로 스위칭("핸드오버")될 수 있다.

따라서, 플라즈마 구속 신경망(102)은 다수의 시간 단계 각각에서 데이터를 반복적으로 처리하도록 구성될 수 있으며, 여기서 시간 단계는 일반적으로 구속 디바이스(110)의 특정 제어 속도(rate, 제어율)에 해당한다. 제어 속도는 본질적으로 구속 디바이스(110)의 동작 속도(예를 들어, 대기 시간)이다. 일반적으로, 신경망(102)은 임의의 원하는 제어 속도, 심지어 가변적이고 균일하지 않은 제어 속도에 대해 구성될 수 있다. 더 자세히 설명되는 바와 같이, 제어 시스템(100)은 고속 성능을 위해 특정 신경망 아키텍처를 이용할 수 있어 실시간 컨트롤러로 배치하는데 적합하다.

각 시간 단계에서 제어 시스템(100)은 제어 루프를 수행한다. 신경망(102)은 자기 구속 디바이스(110)의 챔버 내 플라즈마(112)의 현재 상태를 특징짓는 관측값(114)을 수신한다. 현재 플라즈마 상태(112)에 기초하여 시간 단계에 대한 보상(308)이 결정될 수 있다. 일반적으로, 제어 시스템(100)은 시간 단계 사이에서 변할 수 있는 플라즈마(118)의 목표 상태에 대해 현재 플라즈마 상태(112)를 평가함으로써 보상(308)을 결정한다. 이 경우, 목표 플라즈마 상태(118)는 또한 특정 시간 단계에서 제어 시스템(100)에 대한 설정점(set point)으로서 작용할 수도 있다.

그런 다음 관측값(114)은 네트워크 파라미터(104)에 따라 신경망(102)에 의해 처리되어 자기 제어 출력(106)을 생성한다. 자기 제어 출력(106)은 자기 구속 디바이스(110)의 자기장을 조절하기 위한 제어 신호(108)를 특징짓는다. 그 결과, 자기장은 현재 플라즈마 상태(112)의 진화(evolution, 변화)에 직접적으로 영향을 미치는 시간 단계에서의 관측값(114)에 응답하여 제어 신호(108)에 의해 제어될 수 있다. 그 후 제어 시스템(100)은 다음 시간 단계에 대해 제어 루프를 반복한다. 시간 단계에 대한 보상은 트레이닝 엔진(116)에 의해 활용되어 예를 들어 강화 학습 기술을 사용하여 신경망(102)의 네트워크 파라미터(104)를 트레이닝할 수 있다.

일부 구현에서, 제어 시스템(100)은 시뮬레이션된 자기 구속 디바이스(110)(도 4에 도시됨)에 대한 제어 신호(108)를 생성한다. 즉, 제어 시스템(100)은 시뮬레이션된 구속 디바이스(110)의 동작을 특징짓는 시뮬레이션된 궤적에 기초하여 플라즈마 구속 신경망(102)을 트레이닝시킨다. 플라즈마 구속 신경망(102)이 시뮬레이션된 궤적에 기초하여 트레이닝시킨 후, 제어 시스템(100)은 실제(real-world) 자기 구속 디바이스(110)를 제어하기 위해 배치될 수 있다(예를 들어, 실행 파일로 컴파일됨). 특히, 제어 시스템(100)은 실제 하드웨어에서 "제로 샷(zero-shot)"으로 실행될 수 있으며 따라서 트레이닝 후에 신경망(102)의 조정이 필요하지 않다.

선택적으로, 제어 시스템(100)은 실제 자기 구속 디바이스(110)의 행위(behavior, 동작)을 특징짓는 실제 궤적에 기초하여 플라즈마 구속 신경망(102)의 추가 트레이닝을 수행할 수 있다. 시뮬레이션된 구속 디바이스(110)(즉, 실제 구속 디바이스 대신)를 제어함으로써 생성된 시뮬레이션된 궤적에 기초하여 신경망(102)을 트레이닝하면 실제 구속 디바이스(110)를 작동하는데 필요한 자원(예를 들어, 에너지 자원)을 절약할 수 있다. 시뮬레이션된 궤적에 기초하여 신경망(102)을 트레이닝하면 또한 부적절한 제어 신호(108)의 결과로 인해 실제 구속 디바이스(110)가 손상될 가능성을 줄일 수 있다. 트레이닝에 필요한 제어 신호(108)와 보상(308)을 생성하는 구체적인 과정은 다음과 같다.

도 2는 복수의 네트워크 파라미터를 갖는 플라즈마 구속 신경망을 사용하여 제어 신호를 생성하기 위한 예시적인 프로세스(200)의 흐름도이다. 제어 신호는 자기 구속 디바이스의 챔버 내에 플라즈마를 가두기 위해 자기장을 제어한다. 플라즈마 구속 신경망의 네트워크 파라미터를 트레이닝하는데 사용될 수 있는 보상을 결정하기 위한 예시적인 프로세스(300)를 도시하는 도 3을 참조할 수도 있다. 편의상, 프로세스(200 및 300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍된 자기장 제어 시스템, 예를 들어 도 1의 자기장 제어 시스템(100)은 프로세스(200 및 300)를 수행할 수 있다.

도 2를 참조하면, 시스템은 자기 구속 디바이스(202)의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 획득한다. 일반적으로, 관측값에는 자기 구속 디바이스의 다양한 센서 및 기기에서 얻은 측정값 세트가 포함된다. 정교한 구속 디바이스에는 자기장 센서, 전류 센서, 광학 센서 및 카메라, 응력/변형 센서, 볼로미터(bolometer), 온도 센서 등 많은 센서가 서로 밀접하게 연관되어 있을 수 있는 다양한 센서가 장착될 수 있다. 사용 가능한 측정값은 시스템에서 현재 플라즈마 상태를 직접 및/또는 간접적으로 특징짓는데 사용될 수 있다. 특정 센서 및/또는 기기의 제한으로 인해 시스템은 실시간으로 모든 측정값을 수집하지 못할 수도 있다. 그럼에도 불구하고 이러한 측정값은 성능을 평가하기 위해 특정 시간 단계의 실시간 측정값과 함께 사후 프로세스(예를 들어, 최종 시간 단계 이후)에 사용될 수 있다. 일부 특정 예로서, 관측값에는 자기 구속 디바이스 내의 자기장 또는 자속 측정, 또는 제어 코일로부터의 전류 측정(즉, 제어 코일의 전류)이 포함될 수 있다.

시스템은 플라즈마의 현재 상태에 적어도 기초하여 시간 단계에 대한 보상을 결정한다(204). 시스템에 원하는 결과를 얻을 수 있는 최대 유연성을 제공하기 위해 보상은 최소한으로 지정될 수 있다. 보상은 또한 구속 디바이스의 작동 한계를 벗어나는 바람직하지 않은 종료 조건(예를 들어, 최대 제어 코일 전류/전압, 에지 안전 계수 등)에 도달하는 경우 시스템에 불이익을 줄 수도 있다.

도 3을 참조하면, 보상(308)은 현재 플라즈마 상태(112)의 플라즈마 특징이 플라즈마(118)의 목표 상태의 플라즈마 특징과 동등한지 여부를 나타낼 수 있다. 예를 들어, 플라즈마 특징에는 플라즈마 안정성, 플라즈마 전류, 플라즈마 신장(elongation) 등이 포함될 수 있다. 플라즈마 안정성은 위치 안정성, 예를 들어 수직 위치에서의 안정성을 의미할 수 있으며 이는 시간에 따른 위치 변화율로 측정될 수 있다. 플라즈마 전류는 플라즈마 내의 전류를 의미한다. 예를 들어 토카막에서 플라즈마 신장은 플라즈마 높이를 폭으로 나눈 값으로 정의될 수 있 있다. 다른 플라즈마 특징에는 플라즈마의 형상(예를 들어, 플라즈마를 통과하는 수직 단면의 형상); 플라즈마의 위치(예를 들어, 플라즈마의 축 또는 중심의 수직 또는 방사상 위치); 플라즈마의 면적(예를 들어, 단면적); 플라즈마의 다수의 도메인 또는 액적(droplets); 플라즈마 액적(다수의 액적이 존재하는 경우) 사이의 거리 측정치; 플라즈마 단면의 폭(예를 들어, 방사상 폭의 절반으로 정의될 수 있는 플라즈마의 반경(단면)); 중앙 방사상 위치(상부 삼각형)를 기준으로 가장 높은 지점의 방사상 위치로 또는 중앙 방사상 위치(하부 삼각형)를 기준으로 가장 낮은 지점의 방사상 위치로 또는 상부 삼각형과 하부 삼각형의 평균으로 정의될 수 있는 플라즈마의 삼각형(triangularity); 및 플라즈마의 한계점, 보다 구체적으로는 구속 디바이스의 벽이나 x-점과 같은 실제 한계점(limit point)과 목표 한계점 사이의 거리를 포함한다.

보상(308)은 일반적으로 현재 플라즈마 상태(112)와 목표 플라즈마 상태(118) 사이의 개별 오차(416)를 특징짓는 수치 값으로 표현될 수 있다. 일부 구현에서, 개별 오차(416)는 플라즈마 특징의 하나 이상의 전류 값(410)과 플라즈마 특징의 하나 이상의 목표 값(412) 사이의 차이를 측정한다. 각각의 개별 플라즈마 특징의 현재 값(410)과 목표 값(412) 사이의 오차는 임의의 적절한 오류 메트릭, 예를 들어 평균 제곱 오차, 절대 차이 등으로 특징지워질 수 있다. 또한, 보상(308)은 플라즈마 특징에 대응하는 개별 오차(416)의 가중 선형 조합일 수 있다. 보상(308)에서 오차(416)에 적절한 가중치를 부여하는 것은 시스템이 다른 것보다 특정 플라즈마 특징, 예를 들어 플라즈마 전류, 플라즈마 위치 등을 강조할 수 있게 해준다.

현재 플라즈마 상태(112)의 현재 값(410)은 관측값(114)에 포함된 측정 세트로부터 결정될 수 있다. 플라즈마와 챔버 내 자기장 사이의 강한 결합으로 인해, 실시간 자기장 측정값은 현재 플라즈마 상태(112)를 특징짓는데 특히 효과적일 수 있다. 예를 들어, 와이어 루프는 구속 디바이스의 자속을 측정할 수 있고, 자기장 프로브(probes)는 디바이스의 국부 자기장을 측정할 수 있으며, 전류는 활성 제어 코일에서 측정될 수 있다. 그러나, 현재 플라즈마 상태(112)의 특정 특징(예를 들어, 플라즈마 형상 및 위치)은 특정 구속 디바이스에 대해 직접적으로 관측되지 않을 수 있다는 점에 유의한다. 이러한 특징은 예를 들어 관련 수량으로부터 해당 특징을 재구성함으로써 이용 가능한 측정로부터 추론될 수 있다. 일부 구현에서, 시스템은 자기-평형 재구성(예를 들어, LIUQE 코드)을 사용하는데, 이는 역 문제(inverse problem)를 해결하여 특정 시간 단계(예를 들어, 최소 제곱 의미)에서 자기장 측정과 가장 잘 일치하는 힘 균형(예를 들어, Grad-Shafranov 방정식)을 고려하는 플라즈마-전류 분포를 찾는다.

반면에, 목표 플라즈마 상태(118)의 목표 값(412)은 시변 및/또는 정적 특징 목표(304)로부터 직접 지정될 수 있다. 목표(304)은 시스템이 도달 불가능한 상태로 향하지 않도록 물리적으로 실현 가능한 한계 내에서 지정될 수 있다.

목표 플라즈마 상태(118)와 연관된 목표 값(412)은 또한 플라즈마 구속 신경망에 대한 입력 데이터로서 포함될 수 있다. 이전에 언급한 바와같이, 목표 값(412)은 각 시간 단계에서 시스템에 대한 설정점 역할을 할 수 있다. 따라서, 시스템은 현재 플라즈마 상태(112)가 특정 값을 갖는 플라즈마 상태를 향해 구동되도록 각 시간 단계에서 목표 값(412)을 변경함으로써 플라즈마의 진화를 제어할 수 있다. 각 시간 단계의 목표 값(412)은 미리 지정된 루틴에 해당할 수 있거나 즉석에서 지정될 수 있으므로, 시스템이 배치될 때 사용자가 플라즈마의 진화를 수동으로 제어할 수 있다.

보상(308)은 또한 자기 구속 디바이스(110)의 현재 상태를 특징짓는 하나 이상의 디바이스 특징의 현재 값(408)에 적어도 부분적으로 기초할 수 있다. 예를 들어, 디바이스 특징에는 챔버 내 여러 x 지점, 하나 이상의 제어 코일의 개별 전류 등이 포함될 수 있다. 일반적으로, 현재 디바이스 값(408)은 관측값(114)에 포함된 측정치로부터 얻을 수 있다.

현재 디바이스 특징 값(408)에 대응하는 보상(308)의 구성 요소는 매우 비선형적인 프로세스로부터 결정될 수 있다. 예를 들어, 현재 디바이스 특징 값(408)에 기초한 보상(308)의 일부는 예를 들어 제어 코일의 전류가 큰 음수 값이 될 수 있는 한계를 초과할 때까지 0일 수 있다. 따라서, 보상(308)은 구속 디바이스가 원하는 동작 범위를 벗어나면 시스템에 불이익을 줄 수 있다.

도 2로 돌아가서, 시스템은 네트워크 파라미터에 따라 플라즈마 구속 신경망을 사용하여 관측값(및 가능하게는 목표 플라즈마 상태와 관련된 목표 값)을 처리하여 자기 제어 출력(206)을 생성한다. 자기 제어 출력은 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 특징짓는다.

그런 다음, 시스템은 자기 제어 출력(208)에 기초하여 자기장을 제어하기 위한 제어 신호를 생성한다.

단계(206) 및 단계(208)는 플라즈마 구속 신경망이 자기 제어 출력으로서 제어 신호를 직접 출력할 수도 있으므로 반드시 독립적인 프로세스일 필요는 없다는 점에 유의한다.

다른 방법도 생각할 수 있지만, 대부분의 최신 자기 구속 디바이스는 자기장을 조작하기 위해 제어 코일 세트를 통해 전류를 통과시킨다. 이 경우, 시스템은 전압을 적용하여 제어 코일을 작동할 수 있으며, 이는 전류량과 그에 따른 자기장을 변경한다. 전압은 적합한 전원 공급 장치를 통해 제공될 수 있다.

예를 들어, 자기 제어 출력은 각각의 제어 코일에 인가될 개별 전압을 지정할 수 있다. 이어서 시스템은 제어 코일에 개별 전압을 인가하는 적절한 제어 신호를 생성할 수 있다.

일부 구현에서, 자기 제어 출력은 제어 코일 각각에 인가될 수 있는 가능한 전압 세트에 대한 개별 점수 분포를 특징짓는다. 이 경우, 자기 제어 출력은 가우스 분포로 모델링된 각 점수 분포에 대한 전압 평균 및 표준 편차를 지정할 수 있다. 그런 다음 시스템은 개별 점수 분포로부터 전압을 샘플링하고 샘플링된 전압을 해당 제어 코일에 인가하는 적절한 제어 신호를 생성할 수 있다.

추가 구현에서, 시스템은 점수 분포의 전압 수단을 개별 제어 코일에 즉 결정론적 방식으로 인가하는 제어 신호를 생성한다. 점수 분포로부터 샘플링된 전압을 사용하는 확률론적 절차는 시스템이 성공적인 제어 옵션을 탐색할 수 있도록 트레이닝 목적으로만 바람직할 수 있다. 이 절차는 시스템이 잘못된 옵션을 탐색하는 경우 구속 디바이스가 손상될 위험이 없는 시뮬레이션된 자기 구속 디바이스(도 4에 도시됨)에서 실행하는데 특히 적합하다. 점수 분포의 전압 수단을 사용하는 결정론적 절차는 예측 가능하므로 실제 자기 구속 디바이스에 배포하는데 더 적합할 수 있다. 더욱이, 트레이닝 중에, 결정론적 절차는 시스템이 최종적으로 실제 구속 디바이스에 배포될 때 최적의 성능을 보장하기 위해 병렬로 모니터링될 수 있다.

위의 예는 전압 작동 접근법을 설명하지만, 자기 제어 출력은 제어 코일에 대한 개별 전류를 지정할 수도 있다. 그러면 시스템은 전류 컨트롤러로서 전류를 추적할 수 있다.

제어 코일의 정확한 수, 배열 및 범위는 구속 디바이스의 특정 설계에 따라 달라진다는 점에 유의한다. 토카막의 경우, 여기에는 폴로이드(poloidal) 및 환상형 자기장을 제어하는 폴로이드 및 환상형 코일, 플라즈마를 가열하고 변조할 수 있는 옴(ohmic) 변압기 코일, 고주파 장(fields)을 생성하는 고속 코일뿐만 아니라 다양한 목적으로 사용할 수 있는 다양한 기타 코일이 포함될 수 있다. 그럼에도 불구하고, 플라즈마 구속 신경망의 다양성으로 인해, 시스템은 제어 목적이 높은 수준으로(즉, 목표 플라즈마 상태의 목표와 관련하여) 지정될 수 있으므로 모든 구속 디바이스에 대한 거의 광학적인 제어 정책을 자율적으로 학습할 수 있다.

시스템은 강화 학습 기술을 사용하여 보상에 대한 플라즈마 구속 신경망의 네트워크 파라미터들을 트레이닝한다(210). 시스템은 임의의 적절한 강화 학습 기술을 활용하여 네트워크 파라미터들을 트레이닝할 수 있다. 일반적으로 시스템은 플라즈마 및 자기 구속 디바이스의 궤적을 특징짓는 보상과 관련하여 제어 정책을 최적화하기 위해 네트워크 파라미터를 업데이트한다. 일부 구현에서, 플라즈마 구속 신경망은 보상에 기초한 액터-크리틱(actor-critic) 강화 학습 기술을 사용하여 크리틱 신경망과 함께 공동으로 트레이닝된다(도 5에 도시됨). 특히, 시스템은 예를 들어 역전파를 사용하여 보상에 의존하는 강화 학습 목적 함수의 기울기(gradients, 구배 )(플라즈마 구속 신경망 및 크리틱 신경망의 파라미터와 관련하여)를 결정할 수 있다. 그런 다음 시스템은 예를 들어 적절한 기울기 하강 최적화 기술(예를 들어, RMSprop 또는 Adam)의 업데이트 규칙을 사용하여 플라즈마 구속 신경망 및 크리틱 신경망의 현재 파라미터 값을 조정하기 위해 기울기를 사용할 수 있다.

앞에서 언급한 바와 같이, 시스템은 자기 구속 디바이스의 시뮬레이션된 궤적에서 신경망의 네트워크 파라미터를 트레이닝할 수 있다. 그 후 시스템은 실제 자기 구속 디바이스(예를 들어, 토카막)에 대한 제어 신호를 생성할 수 있다.

도 4는 자기 제어 시스템, 예를 들어 도 1의 자기 제어 시스템(100)을 트레이닝하는데 사용하기 위해 자기 구속 디바이스(110)의 궤적을 시뮬레이션할 수 있는 예시적인 시뮬레이터(500)를 도시한다. 시뮬레이터(500)는 아래 설명된 시스템, 구성요소 및 기술이 구현되는 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상의 컴퓨터 프로그램으로 구현되는 시스템의 예이다.

시뮬레이터(500)는 트레이닝을 위해 계산적으로 실행 가능한 상태를 유지하면서 각 시간 단계에서 현재 플라즈마 상태(112)의 진화를 설명하기에 충분한 물리적 충실도를 갖고 있다. 이를 통해 실제 하드웨어로의 제로샷(zero-shot) 전송이 가능하다. 제어 속도는 관측값(114)에 응답하여 제어 신호(108)를 생성할 때의 대기 시간(latency)에 대응하기 때문에 시뮬레이터(500)는 구속 디바이스(110)에 대한 제어 속도보다 더 짧은 시간 척도로 플라즈마를 진화(evolve)시킬 수 있다는 점에 유의한다. 시뮬레이터 500 시간 척도는 일반적으로 수렴, 정확성, 수치 안정성 등과 같은 수치적 고려 사항을 기반으로 지정된다.

일부 구현에서, 시뮬레이터(500)는 자유 경계 플라즈마 진화 모델, 예를 들어 FGE 소프트웨어 패키지를 사용하여 플라즈마에 대한 제어 코일 전압의 영향을 모델링한다. 이전에 언급한 바와 같이, 제어 코일 전압은 제어 신호(108)에 의해 조절될 수 있으며, 이는 자기 제어 시스템(100)과 시뮬레이터(500)의 상호 작용을 촉진한다. 자유 경계 모델에서, 제어 코일과 수동 도체의 전류는 전원 공급 장치로부터 외부적으로 인가되는 전압뿐만 아니라 다른 도체와 플라즈마 자체의 시변(time-varying) 전류로 인한 유도 전압의 영향을 받아 진화한다. 도체는 저항률이 공지된 상수이고 상호 인덕턴스가 분석적으로 계산될 수 있는 회로 모델에 의해 기술될 수 있다.

축대칭 플라즈마 구성을 가정하면, 시뮬레이터(500)는 로렌츠 힘()(즉 플라즈마 전류 밀도()와 자기장() 사이의 상호 작용)과 플라즈마 내의 압력 구배() 사이의 균형으로 인해 발생하는, Grad-Shafranov 방정식으로 플라즈마를 모델링할 수 있다. 총 플라즈마 전류(I_p)의 변화는 자기유체역학에 대한 일반화된 옴의 법칙에 기초한 집중 파라미터 방정식을 사용하여 시뮬레이터(500)에 의해 모델링될 수 있다. 이 모델의 경우, 총 플라즈마 저항(R_p)과 총 플라즈마 자체 인덕턴스(L_p)는 자유 파라미터이다.

일부 구현에서, 시뮬레이터(500)는 보다 정교한 프레임워크에 이러한 효과가 포함될 수 있지만 열 및 전류 구동 소스로부터 방사상 압력 및 전류 밀도의 전달을 모델링하지 않는다. 대신, 시뮬레이터(500)는 계수가 플라즈마 전류(I_p) 및 2개의 자유 파라미터, 즉 (i) 정규화된 플라즈마 압력(β_p)(즉, 운동 압력과 자기 압력의 비율), 및 (ii) 전류 밀도 피크를 제어하는 플라즈마 축(q_A)의 안전 계수에 의해 제한되는 다항식으로 플라즈마 방사상 프로파일을 모델링할 수 있다.

플라즈마 진화 파라미터(R_p, L_p, β_p 및 q_A)는 실제 자기 구속 디바이스(110)에서 제어할 수 없는 실험 조건을 설명하기 위해 적절한 범위에 걸쳐 변화될 수 있으며, 여기서 변화는 실험 데이터로부터 식별될 수 있다. 실험 데이터를 통해 변화를 식별할 수 있다. 다른 파라미터들도 원하는 경우 변화될 수 있다. 예를 들어, 각 트레이닝 시뮬레이션 시작 시, 시뮬레이터(500)는 각각의 로그 균일(log-uniform) 분포로부터 파라미터들을 독립적으로 샘플링할 수 있다. 이것은 시스템(100)이 이들 파라미터의 모든 조합을 처리하는 제어 정책을 학습하도록 강요되기 때문에 성능을 보장하면서 제어 시스템(100)에 견고성을 제공한다.

시뮬레이터(500)는 실제 자기 구속 디바이스(110)로부터의 측정값을 모방하는 시뮬레이션된 센서 측정의 형태로 합성 관측값(114)을 생성할 수 있다. 그러면 제어 시스템(100)은 관측값(114)을 처리하여 시간 단계에 대한 제어 루프를 완료할 수 있다. 예를 들어, 시뮬레이터(500)는 시뮬레이션에 포함된 각각의 와이어 루프, 자기장 프로브 및 제어 코일로부터 합성 자기장 측정값을 생성할 수 있다. 특정 실제 구속 디바이스(110)를 특징짓는 충분한 데이터가 제공되면, 시뮬레이터(500)는 또한 예를 들어 시간 지연 및 가우스 잡음 모델을 사용하여 센서 지연 및 잡음을 기술할 수 있을 뿐만 아니라 고정 바이어스 및 고정 시간 지연을 사용하여 전원 공급 장치 역학(dynamics)으로 인한 제어 전압 오프셋을 기술할 수 있다.

시뮬레이터(500)는 일반적으로 정확하지만, 여기에는 현재 플라즈마 상태(112)의 역학이 제대로 표현되지 않거나 시뮬레이션이 구속 디바이스(110)의 작동 한계를 벗어나는 영역들이 있다. 제어 시스템(100)은 적절한 보상 및 종료 조건을 사용함으로써 시뮬레이터(500)의 이러한 영역들을 피할 수 있다. 예를 들어, 각 시간 단계에서, 시뮬레이터(500)는 현재 플라즈마 상태(112) 및 구속 디바이스(110)가 물리적으로 실행 가능한지(502), 즉 이들이 특정 제약 조건을 충족하는지를 결정할 수 있다. 만약 이러한 물리적 타당성 제약 조건이 위반되면, 시뮬레이터(500)는 시간 단계에서 시뮬레이션(504)을 종료할 수 있다. 시뮬레이터(500)는 또한 이러한 영역들을 우회하도록 시스템(100)을 가르치는 종료 조건에 도달하는 경우 큰 부정적인 보상으로 제어 시스템(100)에 불이익을 줄 수 있다.

일부 구현에서, 타당성 제약 조건은 플라즈마 밀도, 플라즈마 전류, 또는 하나 이상의 제어 코일 각각의 개별 전류가 특정 임계값을 만족하지 않는다는 결정을 포함할 수 있다. 예를 들어, 이러한 임계값은 제어 시스템이 "고착"될 수 있는 최소값을 나타낼 수 있다. 다른 제약 조건은 직관적으로 구현될 수 있다.

도 5는 플라즈마 구속 신경망(102)과 크리틱 신경망(306)을 공동으로 트레이닝시키기 위해 액터-크리틱 강화 학습 기술을 사용하는 예시적인 트레이닝 엔진(116)이다.

트레이닝 엔진(116)은 "수익(return)"(312)을 증가시키는 제어 신호(108)를 생성하도록 플라즈마 구속 신경망(102)을 트레이닝할 수 있다. 수익(312)은 플라즈마 구속 신경망(102)의 크리틱 관측값(310)을 처리함으로써 크리틱 신경망(306)에 의해 생성될 수 있다. 크리틱 관측값(310)은 아래에서 더 자세히 설명되는 바와 같이, 보상(308)에 기초한 관측값(114)에 응답하여 생성된 제어 신호(108)를 특징짓는다. 이 경우, 수익(312)은 보상의 누적 척도, 예를 들어 시간 할인된 보상 합계와 같이 할인된 예상 미래 보상 척도를 지칭한다. 액터-크리틱 강화 학습 기술은 크리틱 신경망(306)의 출력, 즉 수익(312)을 직접적으로 또는 간접적으로 사용하여 플라즈마 구속 신경망(102)을 트레이닝할 수 있다. 크리틱 신경망(306)은 트레이닝 중에만 필요하다는 점에 유의한다.

트레이닝 엔진(116)의 계산 요구사항은 플라즈마 물리학이 엄청나게 복잡하기 때문에 시뮬레이터(500)가 구속 디바이스(110)를 모델링하는데 사용될 때 일반적으로 높아진다. 이로 인해 컴퓨터 게임과 같은 일반적인 강화 학습 환경에 비해 데이터 속도가 상당히 느려질 수 있다. 데이터의 부족함을 극복하기 위해, 트레이닝 엔진(116)은 최대 사후(posteriori) 정책 최적화(MPO) 기술(Abdolmaleki의 "최대 사후 정책 최적화", arXiv:1806.06920, 2018 또는 그의 변형)을 사용할 수 있다. MPO는 여러 병렬 스트림에 걸쳐 데이터를 수집할 수 있는 분산 아키텍처를 지원한다. 일반적으로, 분산 아키텍처는 예를 들어 중앙 메모리에서 플라즈마 구속 신경망(102) 및 크리틱 신경망(306)에 대해 네트워크 파라미터의 전체 세트가 정의되도록 허용한다. 다중 병렬 스팀(예를 들어, 독립 스레드, GPU, TPU, CPU 등)은 현재 네트워크 파라미터 세트를 사용하여 로컬 트레이닝 엔진(116)을 실행할 수 있다. 그러면 각 스트림은 로컬 트레이닝 엔진(116)의 결과로 글로벌 네트워크 파라미터를 업데이트할 수 있다. 이러한 접근법은 제어 시스템(100)에 대한 트레이닝 프로세스의 속도를 상당히 높일 수 있다.

플라즈마 구속 신경망(102)과 크리틱 신경망(306)은 각각 설명된 기능을 수행할 수 있는 임의의 적절한 신경망 아키텍처를 가질 수 있다. 예를 들어, 그들의 개별 아키텍처는 각각 임의의 적절한 수(예를 들어, 3개 계층, 10개 계층 또는 100개 계층)의 임의의 적절한 유형의 신경망 계층(예를 들어, 완전 연결 계층, 컨볼루션 계층, 순환 계층 또는 어텐션 계층)을 포함할 수 있으며 적절한 구성(예를 들어, 계층의 선형 시퀀스)으로 연결될 수 있다. 예로서, 플라즈마 구속 신경망(102)은 다층 퍼셉트론(MLP)과 같은 피드포워드 신경망일 수 있으며, 크리틱 신경망(306)은 예를 들어 LSTM(장단기 기억) 계층을 포함하는 순환 신경망일 수 있다.

그러나, 실시간 컨트롤러로서 적합하기 위해, 신경망(102/306)은 트레이닝된 플라즈마 구속 신경망(102)이 일단 배치되면 빠르고 효율적으로 실행되도록 보장하기 위해 액터-크리틱 아키텍처의 고유한 비대칭성을 활용할 수 있다. 이러한 비대칭 특성은 크리틱 신경망(306)이 트레이닝 중에만 필요하여 그 크리틱(306)이 측정값으로부터 기본 상태를 추론하고, 다양한 시간 척도에 걸쳐 복잡한 상태 전환 역학(state-transition dynamics)을 처리하고, 시스템 측정 및 동작 지연의 영향을 평가할 수 있다는 사실로 인해 특히 유익하다.

예를 들어, 낮은 대기 시간 출력을 보장하기 위해, 플라즈마 구속 신경망(102)은 제한된 수의 계층, 예를 들어 4개의 계층을 갖는 피드포워드 신경망일 수 있다. 반면에, 크리틱 신경망(306)은 트레이닝 중에 크리틱(306)에 대한 더 높은 대기 시간 출력이 허용되기 때문에 훨씬 더 큰 순환 신경망일 수 있다. 결과적으로, 크리틱 신경망(306)은 플라즈마 구속 신경망(102)보다 훨씬 더 많은 네트워크 파라미터를 가질 수 있다. 더욱이, 크리틱 신경망(308)은 플라즈마 구속 신경망(102)에 의해 처리된 관측값(114)보다 더 높은 차원과 더 많은 데이터로 크리틱 관측값(310)을 처리할 수 있다. 결과적으로, 크리틱 신경망(306)은 플라즈마 구속 신경망(106)보다 더 많은 계산 자원을 소비하도록 구성될 수 있다.

크리틱 관측값(310)은 시간 단계에 대한 자기장 제어 시스템(100)의 제어 루프에 포함된 모든 데이터, 즉 관측값(114), 목표들(304) 및 제어 신호(108)를 포함할 수 있다. 크리틱(306)은 수익(312)을 생성하기 위해 시간 단계에 대해 결정된 보상(308)과 함께 크리틱 관측값(310)을 처리할 수 있다. 수익(312)은 특정 시간 단계에서 제어 시스템(100)에 대한 누적 미래 보상을 예측한다.

궤적을 완성한 후, 트레이닝 엔진(116)은 각 시간 단계에서의 수익(312)을 실제 누적 미래 보상과 비교할 수 있다. 트레이닝 엔진(116)은 누적된 미래 보상을 정확하게 예측하는 수익(312)을 생성하기 위해, 즉 네트워크 파라미터를 업데이트함으로써 크리틱 신경망(306)을 트레이닝할 수 있다. 반대로, 트레이닝 엔진(116)은 크리틱(306)으로부터 생성된 수익(312)을 최대화하는 제어 신호(108)를 생성하도록 플라즈마 구속 신경망(102)을 트레이닝할 수 있다. 액터-크리틱 강화 학습 기술의 예는 Volodymyr Minh의 "심층 강화 학습을 위한 비동기식 방법", arXiv:1602.01783v2, 2016을 참조하여 더 자세히 설명되어 있다.

도 6은 가변 구성 토카막(Tokamak a Configuration Variable(TCV)(600)의 렌더링된 이미지이다. TCV(600)는 스위스 플라즈마 센터의 연구용 토카막으로, 0.88m의 주 반경, 1.50m의 챔버 높이, 0.512m의 챔버 폭을 갖는다. TCV(600)에는 다양한 플라즈마 구성을 가능하게 하는 다양한 제어 코일 모음이 있다. 챔버(601)는 16개의 PF(poloidal field) 코일(8개의 내부 폴로이드 코일(603-1...8) 및 8개의 외부 폴로이드 코일(604-1...8), 7개의 옴 변압기 코일(605-1...6 시리즈의 6개의 옴 코일 및 중앙 옴 코일(606)) 및 고속 G 코일(607)로 둘러싸여 있다. TCV(600)의 모든 제어 코일이 도 6에 도시되어 있지는 않다는 점에 유의한다.

TCV(600)는 디바이스의 챔버(601) 내에 플라즈마(602)를 가두기 위해 자기장 제어 시스템(100)의 실험적 시연을 수행하는데 활용되었다. 실험에 대한 철저한 검토와 다양한 플라즈마 구성을 포함한 실험은 Degrave, J, Felici, F 및 Buchli의 "심층 강화 학습을 통한 토카막 플라즈마의 자기 제어", 네이처 602, 414-419(2022)에서 제공된다.

도 7a 및 7b는 자기장 제어 시스템(100)을 사용하여 다중 플라즈마 특징의 제어를 도시하는 TCV#70915의 실험 데이터이다.

도 7a는 실험 후 평형 재구성(연속선)과 비교하여 반경 2cm의 목표 형상 점(dots)을 도시한다. 도 7b는 마킹된 전환된 플라즈마의 창(음영처리된 직사각형)과 함께 재구성된 관측값과 비교된 목표 시간 추적을 도시한다. 초기 제한 단계(0.1초~0.45초)에서, I_pRMSE(root-mean-square error)는 0.71kA(목표의 0.59%)이고 모양 RMSE는 0.78cm(용기 절반 폭의 3%)이다. 전환된 단계(0.55초~0.8초)에서, I_p 및 모양 RMSE는 각각 0.28kA 및 0.53cm(0.2% 및 2.1%)이며, 전체 창(0.1s~1.0s)에 걸쳐 0.62kA 및 0.75cm(0.47% 및 2.9%)의 RMSE를 생성한다.

제어 시스템(100)은 자속을 측정하는 34개의 와이어 루프, 로컬 자기장을 측정하는 38개의 프로브 및 활성 제어 코일의 전류에 대한 19개의 측정값을 사용했다(옴 코일 간의 전류 차이에 대한 명시적인 측정값으로 확대됨). 16개의 폴로이드 코일(603-1...8 및 604-1...8)과 3개의 옴 코일(605-2, 605-3 및 606)을 포함하는 19개의 능동 제어 코일이 플라즈마(602)를 조작하도록 작동되었다. 제어 시스템(100)은 10kHz 제어 속도로 TCV(600)의 자기 및 전류 센서를 소비한다. 제어 정책은 각 시간 단계에서 활성 제어 코일에 대한 기준 전압 명령을 생성한다.

TCV(600)를 제어하는 학습에 사용된 보상 구성 요소의 예가 아래 표 1에 도시되어 있다. TCV 구성(특징적인 플라즈마 형상)은 사용된 보상의 조합에 따라 다르다. 이러한 보상 구성요소 중 하나 이상은 유사하게 결합되어 다른 자기 구속 디바이스(예를 들어, 다른 토카막)의 자기장을 제어하기 위해 플라즈마 구속 신경망을 트레이닝하는 것에 대한 보상을 결정할 수 있다.

도 7a의 플라즈마 형상을 얻는데 사용된 보상 조합의 예는 LCFS 거리(양호=0.005, 불량=0.05), 한계점(좋음=0.1, 나쁨=0.2), OH 전류 차이(좋음=50, 나쁨= 1050), 플라즈마 전류(좋음=500, 나쁨=20000), X-점 거리(좋음=0.01, 나쁨=0.15), X-점 원거리(좋음=0.3, 나쁨=0.1), X-포인트 자속 구배(좋음=0.01, 나쁨=0.1) =0, 불량=3), X-포인트 정규화된 자속(양호=0, 나쁨=0.08))을 결합하는데, 여기서 이러한 각 구성 요소는 예를 들어 시그모이드 함수를 사용하여 "좋은" 값과 "나쁜" 값 사이의 범위에 매핑된다(가중치가 0.5인 X-점 자속 구배를 제외하고 조합에서는 가중치가 1임). 다른 보상 조합이 다른 형상을 얻는데 사용될 수 있다(예를 들어 R과 Z에 대한 다수의 목표를 정의함으로써 서로 다른 위치의 여러 방울(multiple droplets)을 얻을 수 있음).

본 명세서에서는 시스템 및 컴퓨터 프로그램 구성 요소와 관련하여 "구성된"이라는 용어를 사용한다. 하나 이상의 컴퓨터로 구성된 시스템이 특정 동작이나 액션을 수행하도록 구성된다는 것은 시스템에 소프트웨어, 펌웨어, 하드웨어 또는 동직시 시스템으로 하여금 동작이나 액션을 수행하게 하는 이들의 조합이 설치되어 있음을 의미한다. 하나 이상의 컴퓨터 프로그램이 특정 동작이나 액션을 수행하도록 구성된다는 것은 하나 이상의 프로그램이 데이터 처리 장치에 의해 실행될 때 그 장치로 하여금 동작 또는 액션을 수행하게 하는 명령을 포함한다는 것을 의미한다.

본 명세서에 기술된 주제 및 기능적 동작의 실시예는 디지털 전자 회로, 유형으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 본 명세서에 개시된 구조 및 그의 구조적 등가물을 포함하는 컴퓨터 하드웨어, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 설명된 주제의 실시예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위해 유형의 비-일시적 저장 매체에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈로 구현될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다. 대안적으로 또는 추가적으로, 프로그램 명령은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위해 생성된 인공적으로 생성된 전파 신호, 예를 들어 기계 생성 전기, 광학 또는 전자기 신호에 인코딩될 수 있다.

"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 지칭하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터 또는 다중 프로세서 또는 컴퓨터를 비롯하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 장치는 또한 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그램 가능 게이트 어레이) 또는 주문형 집적회로(ASIC)일 수 있거나 이를 더 포함할 수 있다. 장치는 하드웨어에 추가하여 컴퓨터 프로그램의 실행 환경을 생성하는 코드(예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드)를 선택적으로 포함할 수 있다.

프로그램, 소프트웨어, 소프트웨어 애플리케이션, 앱, 모듈, 소프트웨어 모듈, 스크립트 또는 코드라고도 지칭되거나 설명될 수 있는 컴퓨터 프로그램은 컴파일된 언어나 해석된 언어, 선언적 언어나 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램, 모듈, 구성 요소, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 유닛을 포함하여 모든 형태로 배포될 수 있다. 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그럴 필요는 없다. 프로그램은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트), 해당 프로그램 전용 단일 파일 또는 다수의 조정된 파일(예를 들어, 하나 이상의 모듈, 하위 프로그램 또는 코드 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 위치하거나 다수의 사이트에 걸쳐 분산되고 데이터 통신 네트워크로 상호 연결된 다수의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서 "엔진"이라는 용어는 하나 이상의 특정 기능을 수행하도록 프로그래밍된 소프트웨어 기반 시스템, 서브시스템 또는 프로세스를 지칭하는데 광범위하게 사용된다. 일반적으로, 엔진은 하나 이상의 위치에 있는 하나 이상의 컴퓨터에 설치된 하나 이상의 소프트웨어 모듈 또는 구성 요소로 구현된다. 일부 경우, 하나 이상의 컴퓨터는 특정 엔진 전용으로 사용되고 다른 경우에서는 다수의 엔진이 동일한 컴퓨터 또는 컴퓨터들에 설치되어 실행될 수 있다.

본 명세서에 설명된 프로세스 및 논리 흐름은 입력 데이터에 대해 작동하고 출력을 생성함으로써 기능을 수행하는 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래밍 가능한 컴퓨터에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 FPGA 또는 ASIC과 같은 특수 목적 논리 회로에 의해 수행되거나 특수 목적 논리 회로와 하나 이상의 프로그래밍된 컴퓨터의 조합에 의해 수행될 수도 있다.

컴퓨터 프로그램 실행에 적합한 컴퓨터는 범용 또는 특수 목적의 마이크로프로세서 또는 둘 다를 기반으로 하거나 다른 종류의 중앙 처리 장치를 기반으로 할 수 있다. 일반적으로, 중앙 처리 유닛(장치)은 판독 전용 메모리나 랜덤 액세스 메모리 또는 둘 다로부터 명령과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령을 수행하거나 실행하는 중앙 처리 유닛과 명령 및 데이터를 저장하는 하나 이상의 메모리 디바이스이다. 중앙 처리 유닛과 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 전송하거나 둘 모두를 포함하거나 작동 가능하게 결합될 것이다. 그러나, 컴퓨터에 이러한 디바이스들이 있을 필요는 없다. 더욱이, 컴퓨터는 다른 디바이스, 예를 들어 휴대폰, PDA, 모바일 오디오 또는 비디오 플계층, 게임 콘솔, GPS 수신기, 또는 휴대용 저장 디바이스(예를 들어, USB(범용 직렬 버스) 플래시 드라이브) 등에 내장될 수 있다.

컴퓨터 프로그램 명령 및 데이터를 저장하는데 적합한 컴퓨터 판독 가능 매체에는 예를 들어 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스); 자기 디스크(예를 들어, 내부 하드 디스크 또는 이동식 디스크); 광자기 디스크; CD ROM 및 DVD-ROM 디스크를 비롯하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스가 포함된다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에 설명된 주제의 실시예는 정보를 표시하기 위한 디스플레이 디바이스(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터)와 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖춘 컴퓨터에서 구현될 수 있다. 사용자와의 상호작용을 제공하기 위해 다른 종류의 장치도 사용될 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다. 더욱이, 컴퓨터는 사용자가 사용하는 디바이스와 문서를 주고받는 방식으로 사용자와 상호 작용할 수 있는데, 예를 들어, 웹 브라우저에서 받은 요청에 대한 응답으로 사용자 디바이스의 웹 브라우저로 웹 페이지를 보낸다. 또한, 컴퓨터는 문자 메시지 또는 다른 형태의 메시지를 개인 디바이스(예를 들어, 메시징 애플리케이션을 실행하는 스마트폰)로 전송하고 그 대가로 사용자로부터 응답 메시지를 수신함으로써 사용자와 상호 작용할 수 있다.

기계 학습 모델을 구현하기 위한 데이터 처리 장치는 또한 예를 들어, 기계 학습 트레이닝 또는 생산의 공통적이고 계산 집약적인 부분, 즉 추론, 워크로드를 처리하기 위한 특수 목적의 하드웨어 가속기 유닛을 포함할 수 있다.

기계 학습 모델은 기계 학습 프레임워크 예를 들어, TensorFlow 프레임워크를 사용하여 구현 및 배포될 수 있다.

본 명세서에 설명된 주제의 실시예는 백엔드 구성요소(예를 들어, 데이터 서버)를 포함하거나, 미들웨어 구성 요소(예를 들어, 애플리케이션 서버)를 포함하거나, 프런트엔드 구성 요소(예를 들어, 사용자가 본 명세서에 설명된 주제의 구현과 상호 작용할 수 있는 그래픽 사용자 인터페이스, 웹 브라우저 또는 앱을 갖춘 클라이언트 컴퓨터)를 포함하거나, 또는 백엔드, 미들웨어 또는 프런트엔드 구성 요소 중 하나 이상의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 구성 요소는 통신 네트워크와 같은 디지털 데이터 통신의 모든 형태나 매체를 통해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN) 및 광역 통신망(WAN), 예를 들어 인터넷이 포함된다.

컴퓨팅 시스템에는 클라이언트와 서버가 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램으로 인해 발생한다. 일부 실시예에서, 서버는 예를 들어 클라이언트 역할을 하는 장치와 상호 작용하는 사용자에게 데이터를 디스플레이하고 사용자 입력을 수신할 목적으로 데이터(예를 들어, HTML 페이지)를 사용자 디바이스로 전송한다. 사용자 디바이스에서 생성된 데이터(예를 들어, 사용자 상호 작용의 결과)는 디바이스로부터 서버에 수신될 수 있다.

본 명세서에는 많은 구체적인 구현 세부 정보가 포함되어 있지만, 이는 임의의 발명의 범위 또는 청구될 수 있는 범위에 대한 제한으로 해석되어서는 안 되며, 오히려 특정 발명의 특정 실시예에 특정할 수 있는 특징들에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에 설명된 특정 특징은 단일 실시예에서 조합하여 구현될 수도 있다. 반대로, 단일 실시예의 맥락에서 설명된 다양한 특징은 다수의 실시예에서 개별적으로 또는 임의의 적절한 하위 조합으로 구현될 수도 있다. 더욱이, 위에서는 특징들이 특정 조합으로 작용하는 것으로 설명될 수 있고 심지어 처음에는 그렇게 주장되었을 수도 있지만, 청구된 조합의 하나 이상의 특징은 경우에 따라 조합에서 삭제될 수 있으며, 청구된 조합은 하위 조합 또는 하위 조합의 변형과 관련될 수 있다.

유사하게, 동작들은 특정 순서로 도면에 묘사되고 청구범위에 기재되어 있지만, 이는 원하는 결과를 달성하기 위해 그러한 동작들이 표시된 특정 순서 또는 순차적 순서로 수행되거나 모든 설명된 동작이 수행되어야 한다고 요구하는 것으로 이해되어서는 안 된다. 특정 상황에서는 멀티태스킹과 병렬 처리가 유리할 수 있다. 더욱이, 전술한 실시예에서 다양한 시스템 모듈 및 구성요소의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명된 프로그램 구성 요소 및 시스템은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품에 패키지될 수 있다는 점을 이해해야 한다.

주제의 특정 실시예들이 설명되었다. 다른 실시예는 다음 청구범위의 범위 내에 있다. 예를 들어, 청구범위에 인용된 동작들은 다른 순서로 수행될 수 있으며 여전히 원하는 결과를 얻을 수 있다. 일 예로서, 첨부 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하는 것은 아니다. 일부 경우에는 멀티태스킹과 병렬 처리가 유리할 수 있다.

Claims

자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장 제어용 제어 신호를 생성하기 위한 하나 이상의 데이터 처리 장치에 의해 수행되는 방법으로서, 상기 방법은 복수의 시간 단계 각각에서:
자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 획득하는 단계;
플라즈마 구속 신경망을 사용하여 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 포함하는 입력을 처리하는 단계 - 플라즈마 구속 신경망은 복수의 네트워크 파라미터를 가지며, 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 특징짓는 자기 제어 출력을 생성하기 위해 네트워크 파라미터에 따라 관측값을 포함하는 입력을 처리하도록 구성되고 -; 및
자기 제어 출력에 기초하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 생성하는 단계를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제1항에 있어서,
자기 제어 출력은,
자기 구속 디바이스의 복수의 제어 코일 각각에 인가되는 개별 전압을 특징짓는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제2항에 있어서,
자기 제어 출력은,
자기 구속 디바이스의 복수의 제어 코일 각각에 대해, 제어 코일에 인가될 수 있는 가능한 전압 세트에 대한 개별 점수 분포를 정의하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제3항에 있어서,
자기 제어 출력에 기초하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 생성하는 단계는,
자기 구속 디바이스의 복수의 제어 코일 각각에 대해:
제어 코일에 인가될 수 있는 가능한 전압 세트에 대한 개별 점수 분포로부터 전압을 선택하는 단계; 및
샘플링된 전압이 제어 코일에 인가되도록 제어 신호를 생성하는 단계를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
임의의 선행하는 항에 있어서,
복수의 시간 단계 각각에 대해, (i) 플라즈마의 현재 상태 및 (ii) 플라즈마의 목표 상태 사이의 오차를 특징짓는 시간 단계에 대한 보상을 결정하는 단계; 및
강화 학습 기술을 사용하여 보상에 대한 플라즈마 구속 신경망의 신경망 파라미터를 트레이닝하는 단계를 더 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제5항에 있어서,
복수의 시간 단계 중 하나 이상에 대해, 시간 단계에 대한 보상을 결정하는 단계는,
플라즈마를 특징짓는 하나 이상의 플라즈마 특징 각각에 대해, (i) 시간 단계에서의 플라즈마 특징의 현재 값과 (ii) 시간 단계에서의 플라즈마 특징의 목표 값 사이의 차이를 측정하는 개별 오차를 결정하는 단계; 및
시간 단계에서의 하나 이상의 플라즈마 특징 각각에 대응하는 개별 오차에 적어도 부분적으로 기초하여 시간 단계에 대한 보상을 결정하는 단계를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제6항에 있어서,
복수의 시간 단계 중 하나 이상에 대해, 시간 단계에서의 플라즈마 특징 각각에 대응하는 개별 오차에 기초하여 시간 단계에 대한 보상을 결정하는 단계는,
시간 단계에서의 플라즈마 특징에 대응하는 개별 오차의 가중 선형 조합으로 시간 단계에 대한 보상을 결정하는 단계를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제6항 내지 제7항 중 어느 한 항에 있어서,
하나 이상의 플라즈마 특징 각각의 개별 목표 값은 시간 단계 사이에서 변하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제6항 내지 제8항 중 어느 한 항에 있어서,
복수의 시간 단계 각각에서, 플라즈마 구속 신경망에 대한 입력은,
시간 단계에 대한 관측값 외에도 시간 단계에서의 플라즈마 특징 각각의 개별 목표 값을 정의하는 데이터를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제6항 내지 제9항 중 어느 한 항에 있어서,
플라즈마 특징은,
플라즈마의 안정성, 플라즈마의 플라즈마 전류, 플라즈마의 모양, 플라즈마의 위치, 플라즈마의 면적, 플라즈마의 도메인 수, 플라즈마의 액적(droplets) 사이의 거리, 플라즈마의 신장(elongation), 플라즈마 중심의 방사상 위치, 플라즈마의 반경, 플라즈마의 삼각형성, 플라즈마의 한계점 중 하나 이상을 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제5항 내지 제10항 중 어느 한 항에 있어서,
복수의 시간 단계 중 하나 이상에 대해, 시간 단계에 대한 보상을 결정하는 단계는,
자기 구속 디바이스의 현재 상태를 특징짓는 하나 이상의 디바이스 특징 각각의 개별 현재 값을 결정하는 단계; 및
시간 단계에서의 하나 이상의 디바이스 특징의 개별 현재 값에 적어도 부분적으로 기초하여 시간 단계에 대한 보상을 결정하는 단계를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제11항에 있어서,
디바이스 특징은,
자기 구속 디바이스의 챔버 내의 다수의 x-점, 자기 구속 디바이스의 하나 이상의 제어 코일 각각의 개별 전류, 또는 둘 모두를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
임의의 선행하는 항에 있어서,
자기 구속 디바이스는 자기 구속 디바이스의 시뮬레이션이고, 그리고 복수의 시간 단계 중 마지막 시간 단계에서:
시간 단계에서 자기 구속 디바이스의 물리적 타당성 제약 조건이 위반된다고 결정하는 단계; 및
자기 구속 디바이스의 물리적 타당성 제약 조건이 시간 단계에서 위반되었다는 결정에 응답하여 자기 구속 디바이스의 시뮬레이션을 종료하는 단계를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제13항에 있어서,
시간 단계에서 자기 구속 디바이스의 물리적 타당성 제약 조건이 위반된다고 결정하는 단계는,
시간 단계에서 플라즈마의 밀도가 임계값을 만족하지 않는다고 결정하는 단계, 시간 단계에서 플라즈마의 플라즈마 전류가 임계값을 만족하지 않는다고 결정하는 단계, 또는 하나 이상의 제어 코일 각각의 개별 전류가 임계값을 충족하지 않는다고 결정하는 단계 중 하나 이상을 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제5항 내지 제14항 중 어느 한 항에 있어서,
강화 학습 기술은 액터-크리틱(actor-critic) 강화 학습 기술이고, 그리고
상기 보상에 대한 플라즈마 구속 신경망의 네트워크 파라미터를 트레이닝하는 단계는,
액터-크리틱 강화 학습 기술을 사용하여 보상에 대해 플라즈마 구속 신경망 및 크리틱 신경망을 공동 트레이닝하는 단계를 포함하며, 상기 크리틱 신경망은 시간 단계 후에 받을 것으로 예측되는 보상의 누적 척도를 특징짓는 출력을 생성하기 위해 시간 단계에 대한 크리틱 관측값을 포함하는 입력을 처리하도록 구성되는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제15항에 있어서,
액터-크리틱 강화 학습 기술은 최대 사후(posteriori) 정책 최적화(MPO) 기술인, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제15항 내지 제16항 중 어느 한 항에 있어서,
액터-크리틱 강화 학습 기술은 분산형 액터-크리틱 강화 학습 기술인, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제15항 내지 제17항 중 어느 한 항에 있어서,
플라즈마 구속 신경망은 출력을 생성하기 위해 크리틱 신경망에 의해 요구되는 것보다 더 적은 계산 자원을 사용하여 출력을 생성하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제15항 내지 제18항 중 어느 한 항에 있어서,
플라즈마 구속 신경망은 출력을 생성하기 위해 크리틱 신경망에 의해 요구되는 것보다 낮은 대기 시간으로 출력을 생성하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제15항 내지 제19항 중 어느 한 항에 있어서,
플라즈마 구속 신경망은 크리틱 신경망보다 더 적은 네트워크 파라미터를 갖는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제15항 내지 제20항 중 어느 한 항에 있어서,
플라즈마 구속 신경망은 피드포워드 신경망이고, 크리틱 신경망은 순환 신경망인, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제15항 내지 제21항 중 어느 한 항에 있어서,
크리틱 신경망은 더 높은 차원을 가지며 플라즈마 구속 신경망에 의해 처리된 관측값보다 더 많은 데이터를 포함하는 크리틱 관측값을 처리하도록 구성되는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
임의의 선행하는 항에 있어서,
복수의 시간 단계 각각에서, 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값은,
하나 이상의 와이어 루프 각각으로부터 획득된 개별 자속 측정값, 하나 이상의 자기장 프로브 각각으로부터 획득된 개별 자기장 측정값, 또는 자기 구속 디바이스의 하나 이상의 제어 코일 각각으로부터의 개별 전류 측정값 중 하나 이상을 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
임의의 선행하는 항에 있어서,
자기 구속 디바이스는 시뮬레이션된 자기 구속 디바이스인, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
제24항에 있어서,
플라즈마 구속 신경망을 사용하여 시뮬레이션된 자기 구속 디바이스를 제어하는 것에 기초하여 플라즈마 구속 신경망을 트레이닝한 후:
실제(real-world) 자기 구속 디바이스의 하나 이상의 센서로부터 생성된 관측값을 처리함으로써 실제 자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장을 제어하기 위해 플라즈마 구속 신경망을 사용하는 단계 및 실제 자기 구속 디바이스의 자기장을 제어하기 위한 실제 제어 신호를 생성하기 위해 플라즈마 구속 신경망에 의해 생성된 자기 제어 출력을 사용하는 단계를 더 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
임의의 선행하는 항에 있어서,
자기 구속 디바이스는 토카막이고, 그리고 자기 구속 디바이스의 챔버는 환상형 형상을 갖는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
임의의 선행하는 항에 있어서,
플라즈마는 핵융합을 통해 전력을 생성하는데 사용되는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.
하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 제1항 내지 제27항 중 어느 한 항의 개별 방법의 동작들을 수행하게 하는 명령을 저장한 하나 이상의 비-일시적 컴퓨터 저장 매체.
시스템으로서,
하나 이상의 컴퓨터; 및
하나 이상의 컴퓨터에 통신 가능하게 연결된 하나 이상의 저장 디바이스를 포함하고, 하나 이상의 저장 디바이스는 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 제1항 내지 제27항 중 어느 한 항의 개별 방법의 동작들을 수행하게 하는 명령들을 저장하는, 시스템.
자기 구속 디바이스의 챔버에 플라즈마를 가두기 위한 자기장 제어용 제어 신호를 생성하기 위한 하나 이상의 데이터 처리 장치에 의해 수행되는 방법으로서, 상기 방법은 복수의 시간 단계 각각에서:
자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 획득하는 단계;
트레이닝된 플라즈마 구속 신경망을 사용하여 자기 구속 디바이스의 챔버 내 플라즈마의 현재 상태를 특징짓는 관측값을 포함하는 입력을 처리하는 단계 - 트레이닝된 플라즈마 구속 신경망은 복수의 네트워크 파라미터를 가지며, 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 특징짓는 자기 제어 출력을 생성하기 위해 네트워크 파라미터에 따른 관찰치를 포함하는 입력을 처리하도록 구성되고 -; 및
자기 제어 출력에 기초하여 자기 구속 디바이스의 자기장을 제어하기 위한 제어 신호를 생성하는 단계를 포함하는, 하나 이상의 데이터 처리 장치에 의해 수행되는 방법.