KR20240052086A

KR20240052086A - 강화된 학습을 통한 양자 계산

Info

Publication number: KR20240052086A
Application number: KR1020247011718A
Authority: KR
Inventors: 유에첸 니우; 하르트무트 네벤; 바딤 스멜얀스키; 세르지오 보이소 카스트릴로
Original assignee: 구글 엘엘씨
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2024-04-22
Also published as: CN111868756B; CN117764184A; EP3746953B1; WO2019152020A1; JP6977176B2; JP2021512395A; JP2022010223A; AU2018406532A1; EP3746953A1; AU2021203130A1; US11928586B2; US20200410343A1; AU2022204185B2; EP4209971A1; JP2023184629A; KR20200097787A; CN111868756A; KR102657471B1; CA3088135A1; JP7379445B2

Abstract

양자 하드웨어를 사용하여 양자 게이트를 구현하기 위한 양자 제어 궤적을 설계하기 위한 방법, 시스템 및 장치가 제공된다. 일 양태에서, 상기 방법은 제어 동작들의 시퀀스로서 양자 게이트를 나타내는 동작 및 양자 제어 궤적을 결정하도록 상기 제어 동작들의 시퀀스에 있는 각각의 제어 동작을 반복적으로 조절하기 위한 강화 학습 모델을 적용하는 동작을 포함하고, 양자 제어 궤적은 양자 게이트를 구현하고 그리고 양자 게이트의 누설, 불충실성, 및 전체 런타임을 감소시키며 반복적인 조절 동안 제어 잡음에 대한 성능의 견고성을 향상시킨다.

Description

강화된 학습을 통한 양자 계산{QUANTUM COMPUTATION THROUGH REINFORCEMENT LEARNING}

본 발명은 양자 컴퓨팅에 관한 것이다.

대규모 양자 컴퓨터는 어려운 문제의 특정 클래스에 대한 빠른 솔루션을 제공할 수 있는 잠재력을 가지고 있다. 게이트 모델 양자 컴퓨터에서, 계산 작업은 일련의 범용 양자 게이트들을 구현함으로써 수행되며, 범용 양자 게이트들 각각은 양자 컴퓨터의 진화의 발자취를 상술한다. 양자 게이트가 더 빨리 실행할수록 소정의 양자 디바이스는 더 많은 계산 용량을 부담한다.

본 명세서는 강화 학습을 이용하여 양자 제어 궤적를 설계하는 방법 및 시스템을 서술한다.

일반적으로, 본 명세서에 설명된 본 발명의 혁신적인 양상은 양자 하드웨어를 이용하여 양자 게이트를 구현하기 위해 양자 제어 궤적(quantum control trajectory)을 설계하기 위한 방법으로 구현될 수 있으며, 상기 방법은 상기 양자 게이트를 제어 동작들(control actions)의 시퀀스로 나타내는 단계; 양자 제어 궤적을 결정하도록 상기 제어 동작들의 시퀀스에 있는 각각의 제어 동작을 반복적으로(iteratively) 조절하기 위한 강화 학습 모델을 적용하는 단계를 포함하고, 상기 양자 제어 궤적은 상기 양자 게이트를 구현하고 그리고 상기 반복적인 조절 동안 양자 게이트의 누설, 불충실성(infidelity), 및 전체 런타임을 감소시키며, 상기 강화 학습 모델을 적용하는 단계는 각각의 반복(iteration)에 대하여, 에이전트에 의해, 상기 양자 하드웨어에 포함된 양자 시스템의 현재 상태에 기초하여 반복에 대한 제어 동작을 결정하는 단계; 트레이닝 환경에 의해, 상기 결정된 제어 동작 및 샘플 제어 잡음를 이용하여 양자 시스템의 현재 상태를 양자 시스템의 후속 상태로 업데이트하는 단계; 상기 에이전트에 의해, 할인된 미래 보상(discounted future reward)을 결정하는 단계로서, i) 강화 학습 할인 미래 보상 함수로서 상기 누설, 불충실성, 및 전체 런타임을 페널라이징(penalize)하는 범용 제어 비용 함수(universal control cost function) 및 ii) 상기 양자 시스템의 업데이트된 상태를 이용하여, 할인된 미래 보상을 결정하는 단계; 및 상기 에이전트에 의해, 그리고 상기 결정된 할인된 미래 보상에 기초하여, 상기 반복에 대한 하나 이상의 제어 궤적 파라미터들의 값들을 조절하는 단계를 포함한다.

본 발명의 일 양상의 다른 구현예들은 그 각각이 방법들의 동작들을 수행하도록 구성된 클래식 또는 양자 컴퓨터 시스템, 장치 및 하나 이상의 컴퓨터 저장 디바이스들에 기록된 컴퓨터 프로그램을 포함한다. 하나 이상의 컴퓨터들의 시스템은, 동작시에 상기 시스템으로 하여금 동작들을 수행하게 하는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 시스템 상에 설치함으로써 특정 연산들 또는 동작들을 수행하도록 구성될 수 있다. 하나 이상의 컴퓨터 프로그램들은 명령들을 포함함으로써 특정 연산들 또는 동작들을 수행하도록 구성될 수 있는데 상기 명령들은 데이터 프로세싱 장치에 의해 실행될 때 상기 장치로 하여금 동작을 수행하게 할 수 있다.

전술한 및 다른 구현예들은 각각 선택적으로는 하나 이상의 다음의 특징들을 단독으로 혹은 조합하여 포함할 수 있다. 일부 구현예에서, 상기 에이전트는 제 1 뉴럴 네트워크를 포함하고, 상기 양자 하드웨어에 포함된 양자 시스템의 현재 상태에 기초하여 반복에 대한 제어 동작을 결정하는 단계는, 상기 제 1 뉴럴 네트워크에 대한 입력으로서, 상기 양자 시스템의 현재 상태를 나타내는 파라미터 값들의 벡터를 제공하는 단계; 및 상기 제 1 뉴럴 네트워크의 출력으로서, 상기 제어 동작을 나타내는 파라미터 값들의 벡터를 획득하는 단계를 포함한다.

일부 구현예에서, 상기 제어 동작을 나타내는 파라미터 값들은, 상기 에이전트에 의해 샘플링될 때 상기 제어 동작을 정의하는, 상기 제어 동작의 각 컴포넌트에 대한 각각의 확률 분포들을 나타내는 값들을 포함한다.

일부 구현예에서, 상기 에이전트에 의해, 그리고 상기 결정된 할인된 미래 보상에 기초하여, 상기 반복에 대한 하나 이상의 제어 궤적 파라미터들의 값들을 조절하는 단계는, 상기 결정된 할인된 미래 보상에 기초하여 제 1 뉴럴 네트워크의 파라미터 값들을 조절하는 단계를 포함하는, 제 1 뉴럴 네트워크를 조절하는 단계; 상기 조절된 제 1 뉴럴 네트워크를 이용하여 상기 반복에 대한 조절된 제어 동작을 결정하는 단계; 및 상기 반복에 대한 조절된 제어 동작을 사용하여, 상기 반복에 대한 제어 궤적 파라미터들의 값들을 조절하는 단계를 포함한다.

일부 구현예에서, 상기 제 1 뉴럴 네트워크의 파라미터 값들을 조절하는 단계는, 상기 결정된 할인된 미래 보상에 의해 결정된 학습 속도를 갖는 그래디언트 하강 방법들(gradient descent methods)을 적용하는 단계를 포함한다.

일부 구현예에서, 상기 에이전트는 상기 할인된 미래 보상을 결정하도록 구성된 제 2 뉴럴 네트워크를 포함한다.

일부 구현예에서, 상기 i) 강화 학습 할인 미래 보상 함수로서 상기 누설, 불충실성, 및 전체 런타임을 페널라이징하는 범용 제어 비용 함수 및 ii) 상기 양자 시스템의 업데이트된 상태를 이용하여 할인된 미래 보상을 결정하는 단계는, 업데이트된 범용 제어 비용 함수에 기초하여 상기 제어 동작들의 시퀀스에 있는 미래 위치들에 대한 가중화된 범용 제어 비용 함수의 합계를 평가하는 단계를 포함한다.

일부 구현예에서, 상기 강화 학습 모델을 적용하는 단계는, 상기 에이전트로부터 그리고 서로 다른 가능한 제어 궤적들로부터 i) 서로 다른 제어 궤적들 하에서의 양자 상태들의 완전한 시퀀스, 및 ii) 서로 다른 제어 궤적들에 대한 범용 제어 비용 함수 값들의 완전한 시퀀스를 샘플링하고; 상기 샘플링된 양자 상태들 및 범용 제어 비용 함수 값들에 대응하는 샘플링된 할인된 미래 보상들을 결정하고; 상기 제 2 뉴럴 네트워크를 상기 샘플링된 할인된 미래 보상들에 맞추고(fit); 그리고 상기 할인된 미래 보상을 인코딩하는 제 2 뉴럴 네트워크에 의해 결정된 학습 속도로 샘플링하는 것으로부터 추정된 그래디언트에 따라 제 1 뉴럴 네트워크를 맞춤으로써, 각각의 반복에서 상기 제 1 뉴럴 네크워크 및 상기 제 2 뉴럴 네트워크를 트레이닝하는 단계를 더 포함한다.

일부 구현예에서, 상기 양자 제어 궤적을 결정하도록 상기 제어 동작들의 시퀀스에 있는 각각의 제어 동작을 반복적으로 조절하기 위한 강화 학습 모델을 적용하는 단계는, 정책 그래디언트 방법(policy gradient method)을 수행하는 단계를 포함한다.

일부 구현예에서, 에이전트 파라미터들의 조절된 값들이 기결정된 한계 내로 수렴될 때까지 상기 각각의 반복(iteration)이 여러 번 반복된다.

일부 구현예에서, 상기 트레이닝 환경에 의해, 상기 결정된 제어 동작 및 샘플 제어 잡음를 이용하여 양자 시스템의 현재 상태를 양자 시스템의 후속 상태로 업데이트하는 단계는, 랜덤 샘플링된 양자 하드웨어 잡음에 기초하여 제어 동작을 나타내는 파라미터 값들의 벡터를 조절하는 단계; 파라미터 값들의 조절된 벡터를 이용하여 현재 제어 동작을 구현하는 시간 의존적 해밀톤 진화(time dependent Hamiltonian evolution)를 해결하는 단계(solving); 및 해결된 시간 의존적 해밀톤 진화를 사용하여 양자 시스템의 상태를 업데이트하는 단계를 포함한다.

일부 구현예에서, 랜덤 샘플링된 양자 하드웨어 잡음에 기초하여 제어 동작을 나타내는 파라미터 값들의 벡터를 조절하는 단계는, 제어 잡음를 랜덤 샘플링하는 단계; 및 상기 랜덤 샘플링된 제어 잡음을 상기 파라미터 값들의 벡터의 각각의 엔트리에 부가하는 단계를 포함한다.

일부 구현예에서, 제어 잡음를 랜덤 샘플링하는 단계는, 기결정된 분산을 갖는 제로 평균 가우시안 분포에 따라 상이한 제어 진폭들에 대한 진폭 변동들을 샘플링하는 단계를 포함한다.

일부 구현예에서, 상기 양자 하드웨어는 하나 이상의 큐비트를 포함하고, 상기 제어 잡음은 큐비트 비조화성(qubit anharmonicity), 큐비트 디튜닝 진폭(qubit detuning amplitude), 마이크로파 제어 진폭(microwave control amplitudes) 및/또는 2-큐비트 커플링 펄스 진폭(two-qubit coupling pulse amplitude) 중 하나 이상으로부터 유발되는 랜덤 양자 하드웨어 잡음을 포함한다.

일부 구현예에서, 파라미터 값들의 조절된 벡터를 이용하여 현재 제어 동작을 구현하는 시간 의존적 해밀톤 진화를 해결하는 단계는, 파라미터 값들의 조절된 벡터를 이용하여 슈뢰딩거 방정식을 평가하는 단계를 포함한다.

일부 구현예에서, 상기 제 1 뉴럴 네트워크는, 다수의 완전히 연결된(fully connected) 뉴럴 네트워크 계층들을 포함한다.

일부 구현예에서, 상기 제 2 뉴럴 네트워크는, 다수의 완전히 연결된 뉴럴 네트워크 계층들을 포함한다.

일부 구현예에서, 상기 방법은 설계된 양자 제어 궤적를 이용하여 양자 게이트를 구현하는 단계를 더 포함한다.

본 명세서에 서술된 본 발명의 주제는 다음의 장점들 중 하나 이상을 실현하도록 특정 방식으로 구현될 수 있다.

본 명세서에 기재된 바와 같이, 강화 학습을 통해 양자 연산을 구현하는 시스템은 양자 컴퓨팅 디바이스 또는 하이브리드 클래식 양자 컴퓨팅 디바이스의 성능 및 계산 효율을 향상시킬 수 있다. 예를 들어, 본 명세서에 설명된 기술들을 수행하는 양자 컴퓨팅 디바이스는, 계산 프로세스의 양자 역학에서 알려지지 않은 변동들을 야기하는 불가피한 양자 하드웨어 제어 잡음에 대하여 감소된 에러 및 런타임, 증가된 양자 게이트 충실도 및 개선된 견고성을 갖는 양자 게이트를 구현할 수 있다.

다른 예로서, 양자 게이트 런타임과 충실도 사이의 밸런스가 결정될 수 있다. 또한, 짧아진 게이트 런타임에서 고충실도의 양자 게이트를 구현함으로써, 단기(near-term) 양자 컴퓨팅 디바이스는 클래식 컴퓨터의 능력 범위를 벗어난 어려운 문제를 해결하는데 사용될 수 있다. 또한, 본 명세서에 기술된 기술의 보편성(universality)은 양자 디바이스의 제어성을 개선시킨다.

본 명세서에 서술된 바와 같이, 강화 학습을 통해 양자 연산을 구현하는 시스템은 일반적인 시간-의존적 해밀톤 진화 동안 상이한 주파수 범위에 걸친 모든 종류의 누설 에러들을 억제할 수 있으며, 단일 소스로부터의 누설 에러들의 억제에 한정되지 않는다. 더 나아가, 양자 제어의 보편성을 손상시키는 해밀턴 변조의 허용가능한 형태들에 대한 엄격한 제약을 요구함이 없이, 모든 종류의 누설 에러들이 억제될 수 있다.

본 명세서에 서술된 바와 같이 강화 학습을 통해 양자 연산을 구현하는 시스템은, 환경의 물리적 모델에 대한 완전한 지식이 이용가능한 세팅들만으로 한정되지 않는다.

본 명세서에 서술된 바와 같이 강화 학습을 통해 양자 연산을 구현하는 시스템은, 임의의 단일(unitary) 싱글 및 멀티-큐비트 게이트를 구현할 수 있다.

편의를 위해, 본 명세서에서 설명되는 기술은 하나 이상의 큐비트들에 단일 양자 게이트를 구현하는 것으로 설명된다. 하지만, 본 명세서에 설명된 시스템 및 기술의 적용성은 완전히 확장가능하며, 양자 게이트들의 시퀀스들의 구현으로 확장될 수 있으며, 여기서 게이트 시퀀스를 구현하는데 사용되는 각각의 컨트롤은 단일 컨트롤로 병합될 수 있어, 게이트 시퀀스 충실도를 증가시킬 뿐만 아니라 계산 속도를 향상시킬 수 있다.

본 명세서에 기술된 본 발명의 주제의 하나 이상의 구현예들의 세부 내용들인 첨부된 도면들 및 아래의 발명의 상세한 설명에서 서술될 것이다. 본 주제의 다른 특징들, 양상들 및 장점들은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.

도 1은 양자 제어 궤적들(quantum control trajectories)을 설계 및 구현하기위한 예시적인 시스템을 도시한다.
도 2a는 종래의 강화 학습 모델을 예시한다.
도 2b는 양자 게이트 제어 방식을 설계하기 위한 강화 학습 모델을 예시한다.
도 3은 양자 하드웨어를 사용하여 양자 게이트를 구현하도록 양자 제어 궤적을 설계하기 위한 예시적인 프로세스의 흐름도이다.
도 4는 양자 제어 궤적을 결정하기 위해 강화 학습 모델을 적용하는 예시적인 이터레이션의 흐름도이다.
도 5는 결정된 제어 동작 및 샘플 제어 잡음를 사용하여 양자 시스템의 현재 상태를 업데이트하기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면들에서 유사한 참조 번호와 명칭들은 유사한 요소를 나타낸다.

게이트 모델 양자 계산에서, 계산 작업은 일련의 범용 양자 게이트들에 의해 수행되며, 범용 양자 게이트들 각각은 양자 컴퓨터의 진화의 발자취를 설명한다. 일반적으로, 양자 게이트 또는 양자 게이트들의 시퀀스가 더 빨리 실행할수록 소정의 양자 디바이스는 더 많은 계산 용량을 부담한다.

고속, 고신뢰성의 양자 게이트를 실행하는데 있어 주요한 장애물 중 하나는 누설 에러(leakage errors)이다. 누설 에러는, 기정의된 계산 서브 공간(computational subspace)으로부터 비계산 서브 공간으로의 큐비트 상태로 인코딩된 양자 정보의 누설로 정의될 수 있다. 누설 에러에는 코히어런트 누설 에러와 인코히어런트 누설 에러라는 2개의 구별되는 원인들이 존재한다. 코히어런트 누설 에러는 큐비트의 계산 서브 공간과 비계산 서브 공간 간의 직접 결합으로 인해 발생한다. 인코히어런트 누설 에러는 단열 조건(condition for adiabaticity)에 의해 허용되는 것보다 더 짧은 시간 간격에서의 시스템 해밀톤(system Hamiltonian)의 변화로 인해 발생한다. 고속, 고신뢰성의 양자 게이트를 실현하기 위해 제어 궤적들(control trajectories)을 설계하기 위한 종래의 접근법들은 일반적으로 2개의 누설 원인들을 모두 고려하지 않고, 서로 다른 유형들의 누설을 개별적으로 고려한다.

고속, 고신뢰성의 양자 게이트를 실행하는데 있어 주요한 장애물 중 다른 하나는 어쩔 수 없는(unavoidable) 양자 하드웨어 제어 잡음이며, 이는 계산 프로세스의 양자 다이내믹스에서 원인불명의(unknown) 변동을 유발한다. 양자 하드웨어 제어 잡음은, 큐비트 비조화성(qubit anharmonicity), 큐비트 디튜닝 진폭(qubit detuning amplitude), 마이크로파 제어 진폭(microwave control amplitudes) 및/또는 큐비트 커플링 펄스 진폭(qubit coupling pulse amplitude) 중 하나 이상으로부터 유발되는 잡음으로 정의될 수 있다. 고속, 고신뢰성의 양자 게이트들을 실현하기 위해 제어 시퀀스들을 설계하기 위한 종래의 접근법들은 일반적으로 이러한 랜덤 제어 잡음을 고려하지 않았으며, 따라서 실제적인 실험 세팅들에 직접 적용할 수 없다. 대신에, 랜덤 잡음에 대항하여 양자 제어 시퀀스들의 견고성을 향상시키고자 하는 노력은, 폐-루프 피드백 제어 최적화에 중점을 두고 있다. 이러한 접근법은 양자 시스템에 대한 빈번한 측정들을 필요로 하는데, 이는 기존 양자 컴퓨팅 아키텍처에서 실현하는데는 비용이 많이들 수 있다. 대안적으로, 기존의 개방-루프 최적화 방법은 제어 곡률(control curvature)의 분석에 의해 제어의 견고성을 해결하지만, 이는 제어 헤시안(control Hessian)의 계산을 필요로 하고 그리고 멀티-큐비트 제어 문제를 해결하기엔 다소 어려움이 있다.

본 명세서는 단기(near-term) 양자 컴퓨터를 위한 양자 게이트 제어 방식을 설계하기 위해 강화 학습 기법을 적용한 방법 및 시스템을 설명한다. 누설 에러를 최소화하기 위해 강화 학습 모델은 범용 양자 제어 비용 함수를 적용하며 이는 완전한 누설 에러, 불충실성(infidelity) 및 현실적인 제어 제약 조건들을 보상 함수로서 부과한다. 잡음에 대한 전체 충실도의 견고성을 제공하기 위해, 강화 학습 모델은 확률적 트레이닝 환경을 포함하며 이는 제어 진폭에 랜덤 잡음를 통합한다. 상기 방법들 및 시스템들은 임의의 양자 게이트들 및 멀티 큐비트 시스템에 보편적으로 적용될 수 있다.

예시적인 동작 환경

도 1은 양자 제어 궤적(quantum control trajectories)을 설계 및 구현하기위한 예시적인 시스템(100)을 도시한다. 예시적인 시스템(100)은 하나 이상의 위치에 있는 하나 이상의 클래식 컴퓨터 또는 양자 컴퓨팅 디바이스에서 클래식 또는 양자 컴퓨터 프로그램으로서 구현된 시스템의 일례이며, 여기서 후술되는 시스템, 구성 요소 및 기술이 구현될 수 있다.

상기 시스템(100)은 클래식 프로세서(104)와 데이터 통신하는 양자 하드웨어(102)를 포함한다. 상기 시스템(100)은 클래식 프로세서(104)와 양자 하드웨어(102)를 이용하여, 양자 계산과 조합하여 클래식 계산을 수행하도록 구성될 수 있다.

양자 하드웨어(102)는 하나 이상의 큐비트(106)를 포함한다. 큐비트(106)는 초기 상태에서 효율적으로 준비되고 그리고 양자 게이트의 적용을 통해 연산될 수 있는 큐비트를 포함할 수 있다. 양자 하드웨어(102)에 포함된 큐비트의 물리적 구현 유형들은 다양할 수 있다. 예를 들어, 일부 구현들에서, 양자 하드웨어(102)는 초전도 큐비트, 예를 들어 초전도 전하 큐비트, 초전도 플럭스 큐비트 또는 초전도 위상 큐비트를 포함할 수 있다. 다른 구현들에서, 양자 하드웨어(102)는 스핀, 예를 들어 전자 스핀, 핵 스핀 또는 원자 스핀에 의해 실현되는 큐비트를 포함할 수 있다. 일반적으로, 큐비트(106)는 주파수 조정가능(frequency tunable)할 수 있다.

양자 하드웨어(102)는 큐비트 주파수 제어 라인들의 세트를 포함할 수 있으며, 예컨대, 각각의 큐비트 주파수 제어 라인은 개별 큐비트에 대응한다. 큐비트 주파수 제어 라인은 큐비트(106)의 주파수를 제어하며, 예를 들어 각 큐비트 주파수 제어 라인은 그에 상응하는 큐비트의 주파수를 제어한다.

양자 하드웨어(102)는 하나 이상의 여기 드라이브 라인들(excitation drivelines)을 포함할 수 있다. 편의상 하나의 구동계, 예를 들어 구동계(108)가 도 1에 도시되어 있지만, 일부 구현들에서, 양자 하드웨어는 다수의 드라이브 라인들, 예를 들어, 큐비트들(106) 각각에 대응하는 하나의 드라이브 라인을 포함할 수 있다. 하나 이상의 여기 드라이브 라인들은 큐비트들(106)에 대한 여기 제어(excitation control)를 제공한다. 하나 이상의 여기 드라이브 라인들은 상이한 주파수들에서 상이한 양자 게이트들로 여기 펄스들(제어 펄스라고도 지칭됨), 예컨대, 제어 펄스(108)를 구동하도록 구성될 수 있다. 각각의 큐비트는 하나 이상의 여기 드라이브 라인들에서 이들 주파수들로 향하거나 이들 주파수들로부터 멀어지도록 조정될 수 있다.

양자 하드웨어(102)는 일 세트의 커플러들을 포함할 수 있다. 커플러 세트에 있는 각각의 커플러는 해당 큐비트를 여기 드라이브 라인에 연결한다. 커플러는 임의의 유형의 커플러, 예를 들어 용량성 커플러일 수 있다. 용량성 커플링을 달성하기 위해, 마이크로파 라인이 큐비트 커패시터에 인접하여 달릴 수 있다.

양자 하드웨어(102)는 큐비트 제어 디바이스(110)를 포함한다. 제어 디바이스(110)는 하나 이상의 큐비트(106)에서 동작하도록 구성된 디바이스를 포함한다. 예를 들어, 제어 디바이스(110)는 양자 로직 게이트를 구현하기 위한 하드웨어 예컨대, 제어 펄스 생성기(112)를 포함할 수 있으며, 이는 하나 이상의 여기 드라이브 라인들 상에서 구동될 여기 펄스들을 생성한다. 일부 구현들에서, 제어 펄스 생성기(112)는 마이크로파 제어 디바이스일 수 있다. 또한, 제어 디바이스(112)는 하나 이상의 큐비트(106)들 상에서 측정을 수행하기 위한 하드웨어, 예를 들어 발진기를 포함할 수 있다.

클래식 프로세서(104)는 양자의 최적화 제어 절차를 수행하도록 구성된다. 특히, 클래식 프로세서(104)는 각각의 양자 게이트를 구현하기 위한 일련의 제어 펄스들의 제어 궤적들을 설계하도록 구성된다. 예를 들어, 클래식 프로세서(104)는 특정한 단일(unitary) 양자 게이트 또는 다수의 단일(unitary) 양자 게이트들의 시퀀스를 특정하는 데이터, 예를 들어 입력 데이터(114)를 수신할 수 있다. 다음으로, 클래식 프로세서(104)는 제어 궤적을 설계할 수 있는바, 이는 큐비트 제어 디바이스(110) 예를 들어, 제어 펄스 발생기(112)에 의해 생성될 수 있으며, 그리고 하나 이상의 큐비트(106)에 적용될 수 있다.

클래식 프로세서(104)에 의해 설계된 제어 궤적은 하드웨어 제어 잡음에 대해 견고하면서도 감소된 누설 에러들, 게이트 불충실(gate infidelity), 전체 게이트 런타임을 구비한 임의의 단위 양자 게이트를 구현하기 위해 사용될 수 있다.

이러한 제어 궤적들을 설계하기 위하여, 클래식 프로세서(104)는 양자 게이트를 제어 동작들(control actions)의 시퀀스로 나타낸다. 클래식 프로세서(104)는 강화 학습 모델(118)을 포함하고, 강화 학습 모델(118)은 제어 동작들의 시퀀스에 있는 각각의 제어 동작을 반복적으로 조정하여 양자 제어 궤적을 결정하는바, 이러한 양자 제어 궤적은 양자 게이트를 구현하고 그리고 반복적인 조정 동안 양자 게이트의 누설, 불충실, 및 전체 런타임을 감소시킨다. 강화 학습 모델(118)에 의해 결정된 양자 제어 궤적을 나타내는 데이터, 예를 들어, 출력 데이터(116)는 클래식 프로세서(104)로부터 양자 하드웨어(102)로 전송될 수 있다. 예시적인 강화 학습 모델은 도 2A 및 2B를 참조하여 아래에 상세히 설명된다. 양자 하드웨어를 사용하여 양자 게이트를 구현하기 위한 양자 제어 궤적을 설계하기 위한 예시적인 프로세스가 도 3 내지 도 5를 참조하여 아래에 상세히 설명된다.

도 2a는 예시적인 종래의 강화 학습 모델(200)을 예시한다. 예시적인 종래의 강화 학습 모델(200)은 에이전트(202) 및 상기 에이전트(202)와 상호작용하는 트레이닝 환경(204)을 포함한다. 트레이닝 환경은 완전히 관찰 가능한 환경이다. 일련의 단계들에 있는 각각의 단계에서, 에이전트(202)는 트레이닝 환경(204)으로부터 관찰(206) 및 보상(208)을 수신한다. 그런 다음, 에이전트(202)는 수신된 관찰(206) 및 보상(208)에 기초하여, 취할 수 있는 이용가능한 동작들의 세트 중에서 적절한 동작(210)을 선택한다.

에이전트(202)는 선택된 동작(210)을 트레이닝 환경(204)에 제공한다. 트레이닝 환경(204)은 자신의 상태를 갱신하고, 상기 상태 업데이트와 관련된 보상(212)를 결정한다. 트레이닝 환경은 동작(208)를 사용하여 단계들의 시퀀스에 있는 다음 단계에 대한 후속 관찰(214)과 함께 결정된 보상(212)을 에이전트(202)에 제공한다.

예시적인 종래의 강화 학습 모델(200)은 단계들의 시퀀스의 끝에서 전체 보상을 최대화할 목적으로, 강화 학습 기법들을 수행하여 동작들 예컨대, 동작(210)을 취하도록 에이전트(202)를 가르친다. 상기 에이전트(202)는 보상을 받지 않을 수도 있으며 각 단계에서 최대 보상을 받을 수도 있다. 거의 최적으로 동작하기 위해, 에이전트(202)는 자신의 동작들의 장기적인 결과에 대해 추론해야만 한다(즉각적인 보상이 부정적일지라도). 에이전트(202)는 자신이 받는 보상에 기초하여 적절한 조치를 취하는 것을 학습하며, 여기에는 수퍼바이저가 존재하지 않는다.

도 2b는 양자 게이트 제어 방식을 설계하기 위한 예시적인 강화 학습 모델(250)을 예시한다. 예시적인 강화 학습 모델(250)은 트레이닝 환경(254)과 데이터 통신하는 에이전트(252)를 포함한다. 에이전트(252)는 정책 뉴럴 네트워크(policy neural network)(253) 및 가치 함수 뉴럴 네트워크(value function neural network)(258)를 포함한다. 트레이닝 환경(254)은 제어 잡음 적분기(256) 및 시간-의존적 해밀톤 진화 솔버(time-dependent Hamiltonian evolution solver)(270)를 포함한다. 제어 동작들의 시퀀스에 있는 각각의 제어 동작에 대하여, 제어 동작들의 시퀀스는 대응하는 양자 게이트를 나타내며, 에이전트(252)는 양자 상태를 나타내는 데이터를 수신한다. 상기 데이터는 상태를 정의하는 상태 변수들의 값들을 나타내는 데이터를 포함할 수 있다. 에이전트(252)는 정책 뉴럴 네트워크(253) 및 가치 함수 뉴럴 네트워크(258)를 사용하여 수신된 데이터를 처리한다.

정책 뉴럴 네트워크(253)은 딥 뉴럴 네트워크로서, 예컨대, 하나 이상의 완전히 연결된 계층들을 구비한다. 정책 뉴럴 네트워크(253)은 양자 상태들을 나타내는 수신된 입력들을 처리하고 그리고 해밀턴 제어의 제어 동작들을 나타내는 각각의 출력을 생성하도록 구성된다. 즉, 정책 뉴럴 네트워크(253)는 양자 제어 궤적을 인코딩하고 그리고 종래의 제어 최적화 기술들이 검출할 수 없었던 랜덤 제어 잡음하에서의 최적 제어 동작의 규칙성(regularities)을 캡처한다. 이러한 규칙성은 종종 보다 효율적인 최적화를 용이하게 하며, 또한 오래된 타겟으로부터 신규 타겟으로 학습을 전달할 수 있게한다.

에이전트(252)는 생성된 제어 동작(262)을 나타내는 데이터 및 양자 상태(260)를 나타내는 상기 수신된 데이터를 트레이닝 환경(254)에 제공한다. 트레이닝 환경(254)은 생성된 제어 동작(262)을 나타내는 데이터를 제어 잡음 적분기(256)에 제공한다. 제어 잡음 적분기(256)는 랜덤하게 잡음을 샘플링하고, 랜덤하게 샘플링된 잡음을 상기 시간-의존적 해밀톤 진화 솔버에 제공하는바, 이는 업데이트된 양자 상태(268)를 나타내는 데이터를 생성한다. 트레이닝 환경(254)은 업데이트된 양자 상태(268)를 나타내는 데이터를 사용하여, 범용 양자 제어 비용 함수(universal quantum control cost function)를 업데이트한다. 업데이트된 양자 상태(260)를 나타내는 데이터 및 업데이트된 제어 비용 함수(264)가 에이전트(252)에 제공되어, 가치 함수 뉴럴 네트워크(258) 및 정책 뉴럴 네트워크(253) 둘다를 업데이트한다.

가치 함수 뉴럴 네트워크(258)는 수신된 입력들을 프로세싱하여, 할인된(discounted) 미래 보상 예컨대, 할인된 미래 보상(266)을 나타내는 각각의 출력을 생성한다. 즉, 가치 함수 뉴럴 네트워크(258)는 확률적 환경과의 계획된 미래의 상호작용들(projected future interactions with a stochastic environment)을 인코딩하여, 정책 뉴럴 네트워크(253)에 과적합(overfitting)하는 것을 방지하고 그리고 정책 뉴럴 네트워크(253)를 통한 최적화를 수행하도록 미래의 궤적들에 대한 샘플링을 용이하게 할 수 있다.

하드웨어 프로그래밍

도 3은 양자 하드웨어를 사용하여 양자 게이트를 구현하기 위한 양자 제어 궤적을 설계하기 위한 예시적인 프로세스(300)의 흐름도이다. 편의상, 상기 프로세스(300)는 하나 이상의 위치들에 위치한 하나 이상의 클래식 또는 양자 컴퓨팅 디바이스의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 도 1의 시스템(300)은 상기 프로세스(300)를 수행할 수 있다.

상기 시스템은 제어 동작들의 시퀀스로서 양자 게이트를 나타낸다(단계 302). 양자 게이트는 하나의 큐비트에서 동작하는 단일 큐비트 게이트 또는 다수의 큐비트들에서 동작하는 멀티 큐비트 게이트일 수 있다. 제어 동작들의 시퀀스로서 양자 게이트를 나타내는 것은 단일 변환들의 시퀀스(a sequence of unitary transformations)로서 양자 게이트를 나타내는 것을 포함하며, 여기서 단일 변환들의 시퀀스 내의 각각의 요소는 각각의 제어 동작에 의해 결정된다. 예시적인 제어 동작은 해당 단일 변환들을 구현하기 위해 양자 하드웨어에 적용될 수 있는 마이크로파 제어 펄스를 포함한다.

상기 시스템은 양자 제어 궤적(quantum control trajectory)을 결정하도록 제어 동작들의 시퀀스 내의 제어 동작들을 반복적으로(iteratively) 조정하기 위해 강화 학습 모델을 적용할 수 있는바, 상기 양자 제어 궤적은 반복적인 조정들 동안 양자 게이트를 구현하며 그리고 양자 게이트의 누설, 불충실(infidelity), 및 전체 런타임을 감소시킨다(단계 304). 강화 학습 모델을 적용하는 것은 정책 그래디언트 방법(policy gradient methods)을 적용하는 것을 포함할 수 있다. 예시적인 강화 학습 모델은 도 2b을 참조하여 위에서 설명되었다. 양자 제어 궤적을 결정하기 위해 강화 학습 모델을 적용하는 예시적인 이터레이션은 도 4 및 도 5를 참조하여 아래에 상세히 설명된다.

상기 시스템은 설계된 양자 제어 궤적을 이용하여 양자 게이트를 구현한다.

도 4는 양자 제어 궤적을 결정하기 위해 강화 학습 모델을 적용하는 예시적인 이터레이션(400)의 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치에 위치한 하나 이상의 클래식 또는 양자 컴퓨팅 디바이스의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 도 1의 시스템(100)는 프로세스(400)를 수행할 수 있다.

상기 시스템은 강화 학습 에이전트에 의해서, 양자 하드웨어에 포함된 양자 시스템의 현재 상태에 기초하여 이터레이션을 위한 제어 동작을 결정한다(단계 402). 도 1 및 도 2를 참조하여 전술한 바와 같이, 일부 구현예들에서, 에이전트는 정책 뉴럴 네트워크(제 1 뉴럴 네트워크)를 포함할 수 있으며, 정책 뉴럴 네트워크는 양자 상태를 나타내는 입력을 프로세싱하여 제어 동작을 나타내는 출력을 생성하도록 구성되며, 이는 단계(404)를 참조하여 후술하는 바와 같이, 양자 상태를 업데이트하기 위해 사용될 수 있다. 이들 구현예들에서, 상기 시스템은 양자 시스템의 현재 상태를 나타내는 파라미터 값들의 벡터, 예를 들어 상태 변수들을 제 1 뉴럴 네트워크에 입력으로서 제공하고, 그리고 제 1 뉴럴 네트워크으로부터의 출력으로서 제어 동작을 나타내는 파라미터 값들의 벡터를 획득함으로써, 이터레이션을 위한 제어 동작을 결정할 수 있다.

일부 구현예에서, 제 1 뉴럴 네트워크에 의해 생성된 출력들은 에이전트에 의해 샘플링될 때, 제어 동작을 정의하는 제어 동작의 각 구성요소에 대한 확률 분포를 나타내는 값들의 벡터를 포함할 수 있다. 제어 동작의 예시적인 구성요소는 시스템 해밀톤 비호환성(system Hamiltonian anharmonicity), 모드 결합 강도, 디튜닝 또는 마이크로파 펄스 강도를 포함한다.

상기 시스템은, 트레이닝 환경에 의해서, 결정된 제어 동작 및 샘플 제어 잡음을 이용하여 양자 시스템의 현재 상태를 양자 시스템의 다음 상태로 업데이트한다(단계 404). 양자 시스템의 현재 상태를 업데이트하는 것은 도 5를 참조하여 아래에서 상세히 설명된다.

상기 시스템은 양자 시스템의 업데이트된 상태를 이용하여, 강화 학습 할인된 미래 보상 함수(a reinforcement learning discounted future reward function)로서 상기 트레이닝 환경에 의해 이용되는 범용 양자 제어 비용 함수를 업데이트한다. 상기 범용 양자 제어 비용 함수는 이터레이션을 위한 제어 동작에 의해 결정되는 단일 변환의 형태에 대한 페널티 항(term)을 포함하며 그리고 양자 시스템의 상태에 의존한다. 이러한 페널티 항은 양자 시스템에 대한 향상된 제어 능력 및 양자 게이트의 구현을 시스템에 제공한다.

양자 정보가 상기 환경에서 손실될 수 있게 하는 총 누설 에러를 억제하기 위하여, 범용 양자 제어 비용 함수는 큐비트 누설 페널티 항 을 포함하고, 이는 시간 의존적 해밀톤 진화 동안의 코히어런트 큐비트 누설 및 인코히어런트 큐비트 누설 둘다를 나타낸다.

각각의 해밀톤 진화의 시작과 끝에서 계산 기반으로 큐비트들을 용이하게 준비 및 측정하기 위하여, 큐비트 계산 서브 공간 내에서 시간-의존적 해밀턴 커플링을 나타내는 항과, 더 높은 에너지 서브 공간과의 큐비트 계산 서브 공간의 제어 펄스 커플링을 나타내는 항은 양측 바운더리들에서 사라질 필요가 있다. 이러한 콘트롤 제약은 바운더리 콘트롤 제약 페널티 항을 전체 비용 함수에 부가함으로써, 강제될 수 있다. 예를 들어, gmon Hamiltonian의 경우, 상기 시스템은 바운더리 콘트롤 제약 페널티 항 을 포함하는 것으로서, 상기 범용 양자 제어 비용 함수를 정의할 수 있다.

전체 단일 양자 게이트 런타임(total unitary quantum gate runtime)(T)(단기 양자 디바이스에 바람직한 속성임)을 감소시키기 위하여, 범용 양자 제어 비용 함수는 전체 런타임 페널티 항을 더 포함할 수 있다.

최대값인 1 로부터 실제 단일 변환의 성실도(fidelity) 사이의 차이값인, 단일 변환 U(T)의 불충실(infidelity)을 감소시키기 위하여, 상기 범용 양자 제어 비용 함수는 성실도 페널티 항 1-F(U(T)) 을 더 포함할 수 있다.

gmon Hamiltonian의 경우의 예시적인 범용 양자 제어 비용 함수는 아래의 수학식 (1)로 주어진다.

수학식 (1)에서, 1-F(U(T)) 는, 성실도가 로 주어지는 경우 불충실 페널티 항을 나타내며, 여기서 U(T)는 단일 변환을 나타내고 그리고 은 예를 들어, 누설 에러 또는 제어 잡음이 없는 경우의 단일 변환의 의도된 동작을 나타낸다.

수학식(1)에서, 은 큐비트 누설 페널티 항을 나타내며, 다음과 같이 주어진다.

여기서, T는 전체 게이트 런 타임이며, Δ는 2개의 가장 낮은 에너지 고유 상태들(eigenstates) 사이의 에너지 갭을 나타내며, 는 주어진 순서대로 직접 커플링 누설 에러가 억제된 양자 시스템에 대한 유효 해밀톤(Hamiltonian)의 블록-오프 대각선 성분(block-off-diagonal component)을 나타낸다.

누설 페널티 항은 일반화된 시간-의존적 쉬라이퍼-울프 변환(a generalized time-dependent Schrieffer-Wolff transformation)(TSWT)의 전개를 통해 공식화된다. 누설 바운드(leakage bound)는 계산 서브 공간(computational subspace)과 원하지 않는 더 높은 에너지 서브 공간 사이의 유리한 가상 천이(beneficial virtual transitions)를 이용하면서, 시간-의존적 해밀턴 진화를 통한 온-공진(on-resonant) 및 오프-공진(off-resonant) 커플링들 둘다에 의해 야기되는 직접 커플링(코히어런트) 및 비단열(non-adiabatic)(비코히어런트) 누설 에러들 모두에 상한(upper bound)을 제공한다.

누설 바운드를 도출하기 위하여, 일반 시간-의존적 쉬라이퍼-울프 변환(TSWT)이 공식화되고 그리고 그것의 솔루션이 임의의 소정 차수(예컨대, 2차(second order))까지 제공된다. 일반화된 TSWT는 직접 커플링 누설 에러들이 소정 순서로 억제되는 더 높은 차원의 서브 공간에서 지원되는 회전된 기초(rotated basis)를 제공한다. 이러한 회전된 기초는, 편리한 상태 초기화 및 판독을 가능하게하기 위해 양자 제어 절차의 시작 및 끝에서 큐비트 기초와 일치한다. 직접 커플링 누설에 대응하는 제 1 누설 바운드는 일반화된 TSWT를 사용하여 공식화된다.

제 2 누설 바운드는 단열 정리(adiabatic theorem)를 순수 상태들로부터 에너지 서브 공간들까지 일반화함으로써 공식화된다. 이것은 시간-의존적 해밀톤 진화가 서로 다른 서브 공간들 내에서 그리고 서로 다른 서브 공간들 사이에서 발생할수 있게 한다. 일반화된 단열 정리(generalized adiabatic theorem)는 일반적인 시간-의존적 해밀톤 진화 동안 TSWT 기반의 비-단열성(non-adiabatic)(비코히어런트) 누설 에러들에 대한 상한을 제공한다.

직접 커플링 누설 에러는 오프-공진 주파수 성분에 의해 지배되는 반면에 비-단열성 누설 에러는 온-공진 주파수 성분에 의해 지배되기 때문에, 제 1 및 제 2 누설 바운드들은 범용 비용 함수 누설 페널티 항에서 조합되어, 오프-공진 및 온-공진 누설 기여분들 둘다에 의해 유발되는 누설 에러들의 모든 소스들에 대한 상한을 제공할 수 있다.

수학식 (1)에서, 는 디뉴팅을 나타내는 δ및 마이크로파 펄스 강도를 나타내는 f 와 함께 콘트롤 제약 페널티 항(control constraint penalty term)을 나타낸다.

수학식 (1)에서, T는 전체 게이트 런타임을 나타내고, α는 게이트 불충실을 페널라이징하고(penalize), β는 누설 바운드 로부터의 누설 에러의 모든 소스들을 페널라이징하고, 는 제로-값 바운더리 제약(zero-value boundary constraint)의 위배를 페널라이징하고, 그리고 k는 게이트 시간을 페널라이징한다.

상기 시스템은 강화 학습 에이전트에 의해서, 할인된 미래 보상을 결정하는바, i) 단계 404를 참조하여 설명한 바와 같이 양자 시스템의 업데이트된 상태 및 ii) 업데이트된 범용 제어 비용 함수(단계 406)를 이용하여 할인된 미래 보상을 결정한다. 할인된 미래 보상을 결정하는 것은 업데이트된 범용 제어 비용 함수에 기초하여 제어 동작들의 시퀀스에 있는 미래 위치들에 대해 가중화된 범용 제어 비용 함수들의 합계를 평가하는 것을 포함한다. 예를 들어, N 개의 이터레이션들의 시퀀스에 있는 n 번째 이터레이션에 대해, 상기 시스템은 제어 동작들의 시퀀스의 n+1, n+2, … , N 위치들에 대한 가중화된 범용 제어 비용 함수들의 합계를 평가함으로써, 할인된 미래 보상을 결정한다. 할인된 미래 보상은 강화 학습 에이전트에 의해 결정된, 제어 동작에 대한 예상 총 제어 비용, 즉 현재 단계 n까지의 단일 변환(unitary transformation)의 부분 시퀀스의 성실도(fidelity) 및 그것의 미래 예측을 나타내는 척도를 제공한다.

상기 시스템은, 에이전트에 의해서 그리고 결정된 할인된 미래 보상에 기초하여, 이터레이션에 대한 하나 이상의 제어 궤적 파라미터들의 값들을 조절한다(단계 408). 상기 에이전트가 정책 뉴럴 네트워크를 포함하는 경우, 이터레이션에 대한 하나 이상의 제어 궤적 파라미터들의 값들을 조절하는 것은, 결정된 할인된 미래 보상에 기초하여 정책 뉴럴 네트워크의 파라미터들을 조절함으로써 정책 뉴럴 네트워크를 조절하는 것을 포함한다. 이것은 정책 그래디언트 방법들(policy gradient methods)을 적용하는 것을 포함할 수 있다. 예를 들어, 이것은 결정된 할인된 미래 보상에 의해 정의되는 학습 속도를 갖는 그래디언트 하강 방법들(gradient descent methods)을 적용하는 것을 포함할 수 있다. 이터레이션에 대한 조절된 제어 동작은 조절된 정책 뉴럴 네트워크에 의해서 결정될 수 있다. 이후 상기 시스템은 이터레이션에 대한 조절된 제어 동작에 기초하여 제어 궤적 파라미터들을 조절한다.

상기 시스템은 또한, 각각의 이터레이션에서 가치 함수 뉴럴 네트워크(value function neural network)(제 2 뉴럴 네트워크)를 조절하는바 즉, 강화 모델을 적용하는 것은, 각각의 이터레이션에서 정책 뉴럴 네트워크 및 상기 가치 함수 뉴럴 네트워크 둘다를 트레이닝하는 것을 포함할 수 있다. 이것은, 에이전트로부터 그리고 서로 다른 가능한 제어 궤적들로부터 i) 다른 제어 궤적들 하에서의 양자 상태들의 완전한 시퀀스 및 ii) 다른 제어 궤적들에 대한 범용 제어 비용 함수 값들의 완전한 시퀀스를 샘플링함으로써 성취될 수 있다. 다음으로, 상기 시스템은 샘플링된 양자 상태들 및 범용 제어 비용 함수값들에 대응하는 샘플링된 할인된 미래 보상들을 결정할 수 있다. 다음으로, 상기 시스템은 제 2 뉴럴 네트워크를 상기 샘플링된 할인된 미래 보상들에 맞출 수 있으며(fit) 그리고 할인된 미래 보상을 인코딩하는 제 2 뉴럴 네트워크에 의해 결정된 학습 속도로 샘플링하는 것으로부터 추정된 그래디언트에 따라 제 1 뉴럴 네트워크를 맞출 수 있다.

상기 결정된 할인된 미래 보상을 이용하여 강화 학습 에이전트를 트레이닝시킴으로써, 상기 에이전트는 양자 제어 궤적을 생성하게 하는 제어 동작들을 출력하는 것에 대하여 보상을 받을 수 있는바, 이러한 양자 제어 궤적은 감소된 누설, 불충실성(infidelity) 및 전체 런타임 즉, 최적의 양자 제어 궤적으로 양자 게이트를 구현하는데 이용될 수 있다. 프로세스(400)를 여러 번 반복함으로써, 강화 학습 에이전트는 그것이 출력하는 제어 동작을 개선할 수 있는데, 즉 할인된 미래 보상을 증가시키는 제어 동작을 생성할 수 있다.

일부 구현예에서, 에이전트 파라미터들의 조절된 값들이 소정의 한도 내로 수렴될 때까지, 상기 프로세스(400)가 반복될 수 있다. 즉, 초기 값(예를 들어, 랜덤하게 초기화된 값)으로부터 트레이닝된 값으로 강화 에이전트 파라미터들을 조절하기 위하여 각각의 이터레이션이 반복될 수 있다. 에이전트 파라미터들이 소정의 한도 내로 수렴되는지의 여부를 결정하는 것은, 예를 들어, 게이트의 성실도가 임계값에 도달하고 그리고 범용 제어 비용 함수와 관련하여 전술된 경계 제약이 기결정된 정확도 내에 있는 경우, 양자 궤적의 설계와 관련된 만족 조건에 기초하여 트레이닝 환경에 의해 수행될 수 있다.

도 5는 결정된 제어 동작 및 샘플 제어 잡음를 사용하여 양자 시스템의 현재 상태를 업데이트하기 위한 예시적인 프로세스(500)의 흐름도이다. 편의상, 프로세스(500)는 하나 이상의 위치에 위치한 하나 이상의 클래식 또는 양자 컴퓨팅 디바이스의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그램된 도 1의 시스템(100)은 프로세스(500)를 수행할 수 있다.

시스템은 랜덤하게 샘플링 하드웨어 양자 잡음 δ에 기초하여 제어 동작 을 나타내는 파라미터 값들의 벡터를 조절한다(단계 502). 예를 들어, 시스템은 미리 결정된 분산을 갖는 제로 평균 가우시안 분포에 따라 상이한 제어 진폭에 대한 진폭 변동을 샘플링함으로써 제어 잡음를 랜덤하게 샘플링할 수 있다. 시스템은 랜덤하게 샘플링된 제어 잡음를 파라미터 값들의 벡터의 각 엔트리에 추가할 수 있다.

예를 들어, 아래에 주어진 회전파 근사법(the rotating wave approximation)의 해밀톤 연산자와 같이, 2개의 상호작용하는 gmon 회로(gmon circuit)를 포함하는 양자 시스템의 경우,

상기 시스템은 제어 동작을 나타내는 파라미터 값들의 벡터를 조절할 수 있는바, 일부 이산 단계 t_k 에 대해 0.1 ~ 3.5 Mhz 의 분산들의 범위의 제로 평균 가우시안 분포로부터 샘플링된 진폭 변동들을 제어 진폭들에 추가함으로써, 즉,

파라미터 값들의 벡터를 조절할 수 있다. 여기서, 은 비조화성(anharmonicity)을 나타내고, g 는 2-모드(two-mode) 커플링을 나타내고, 는 디튜닝을 나타내고, 는 마이크로파 펄스 강도를 나타낸다.

상기 시스템은 파라미터 값들의 조절된 벡터를 이용하여 현재의 제어 동작을 구현하는 시간 의존적 해밀톤 진화를 풀어낸다(solve)(단계 504). 이것은 파라미터 값들의 조절된 벡터를 이용하여 슈뢰딩거 방정식을 평가하는 단계 예를 들어, 을 평가하는 단계를 포함할 수 있으며, 여기서 은 양자 시스템의 현재 상태를 나타낸다.

시스템은 풀어낸 시간 의존적 해밀톤 진화를 이용하여 양자 시스템의 상태를 업데이트한다(단계 506). 즉, 시스템은 이라고 설정한다. 다음으로, 업데이트된 양자 상태 가 도 4를 참조하여 전술한 바와 같이 프로세싱을 위해 에이전트에 포함된 가치 함수 뉴럴 네트워크(제 2 뉴럴 네트워크)로 제공될 수 있다.

디지털 및/또는 양자 관련 주제와 본 명세서에서 설명된 디지털 기능 연산들 및 양자 연산들의 구현예들은 본 명세서에 개시된 구조들 및 이들의 구조적 등가물들을 포함하여, 디지털 전자 회로에서, 적절한 양자 회로 또는 보다 일반적으로는 양자 컴퓨팅 시스템에서, 유형적으로 구체화된 디지털 및/또는 양자 컴퓨터 소프트웨어 또는 펌웨어에서, 디지털 및/또는 양자 컴퓨터 하드웨어에서 구현될 수 있으며, 또는 이들 중 하나 이상의 조합에서 구현될 수 있다. 양자 컴퓨팅 시스템이라는 용어는 양자 컴퓨터, 양자 정보 처리 시스템, 양자 암호 시스템 또는 양자 시뮬레이터 등을 포함할 수 있지만, 이에 제한되지 않는다.

본 명세서에서 설명된 디지털 및/또는 양자 관련 주제의 구현예들은 하나 이상의 디지털 및/또는 양자 컴퓨터 프로그램들로서 구현될 수 있는바 즉, 데이터 프로세싱 장치의 동작을 제어하거나 혹은 데이터 프로세싱 장치에 의한 실행을 위해 유형의 비일시적인 저장 매체 상에 인코딩된 디지털 및/또는 양자 컴퓨터 프로그램 명령들의 하나 이상의 모듈들로서 구현될 수 있다. 디지털 및/또는 양자 컴퓨터 저장 매체는 머신 판독가능 저장 디바이스, 머신 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 하나 이상의 큐비트, 또는 이들 중 하나 이상의 조합일 수 있다. 대안적으로 또는 추가적으로, 프로그램 명령들은 디지털 및/또는 양자 정보를 인코딩할 수 있는 인공적으로 생성된 전파 신호에 인코딩될 수 있으며 예컨대, 적절한 수신기로 전송되어 데이터 프로세싱 장치에 의한 실행을 위해 디지털 및/또는 양자 정보를 인코딩하도록 생성된 머신-생성 전기, 광학, 또는 전자기 신호에 인코딩될 수 있다.

양자 정보 또는 양자 데이터라는 용어는, 양자 시스템에 의해 수행, 유지, 또는 저장되는 정보 또는 데이터를 지칭하며, 여기서 가장 작은 비-사소한(non-trivial) 시스템은 큐비트, 즉, 양자 정보의 단위를 정의하는 시스템이다. 다음을 유의해야 하는바, "큐비트" 라는 용어는 해당 문맥에서 2-레벨 시스템으로 적절히 근사화될 수 있는 모든 양자 시스템을 포괄한다. 이러한 양자 시스템은 예를 들어 2 개 이상의 레벨을 갖는 다중 레벨 시스템을 포함할 수 있다. 예로서, 이러한 시스템은 원자, 전자, 광자, 이온 또는 초전도 큐비트를 포함할 수 있다. 많은 구현예에서, 계산 기준 상태들은 접지 및 제 1 여기 상태로 식별되지만, 계산 상태들이 더 높은 레벨의 여기 상태들로 식별되는 다른 설정도 또한 가능하다. "데이터 프로세싱 장치"라는 용어는 디지털 및/또는 양자 데이터 프로세싱 하드웨어를 지칭하고, 디지털 및/또는 양자 데이터를 프로세싱하기 위한 모든 종류의 장치들, 디바이스들, 및 머신들을 포괄하는바, 비제한적인 일례로서 프로그래밍가능한 디지털 프로세서, 프로그래밍가능한 양자 프로세서, 디지털 컴퓨터, 양자 컴퓨터, 다수의 디지털 및 양자 프로세서 또는 컴퓨터, 및 이들의 조합을 포함한다. 장치는 또한, 디바이스는 또한 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그램가능 게이트 어레이), ASIC(주문형 반도체), 또는 양자 시뮬레이터, 즉 특정 양자 시스템에 대한 정보를 시뮬레이션하거나 생성하도록 설계된 양자 데이터 프로세싱 장치일 수 있거나 이를 더 포함할 수 있다. 특히, 양자 시뮬레이터는 범용 양자 계산을 수행할 수 있는 능력이 없는 특수 목적의 양자 컴퓨터이다. 선택적으로, 상기 장치는 하드웨어 외에 디지털 및/또는 양자 컴퓨터 프로그램을 위한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들의 조합을 구성하는 코드를 포함할 수 있다.

프로그램, 소프트웨어, 소프트웨어 애플리케이션 모듈, 소프트웨어 모듈, 스크립트, 또는 코드로 언급 또는 설명될 수 있는 디지털 컴퓨터 프로그램은, 컴파일된 언어 또는 해석된 언어, 선언적 언어 또는 절차적 언어를 포함하는 임의 형태의 프로그래밍 언어로 쓰여질 수 있으며 그리고 독립형 프로그램 또는 디지털 컴퓨팅 환경에서 사용하기에 적합한 모듈, 컴포넌트, 서브루틴 또는 기타 유닛을 포함한 모든 형태로 배치될 수 있다. 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 서술될 수 있는 양자 컴퓨터 프로그램은 컴파일된 언어 또는 해석된 언어, 선언적 언어 또는 절차적 언어를 포함하는 임의 형태의 프로그래밍 언어로 쓰여질 수 있으며 그리고 적절한 양자 프로그래밍 언어로 번역될 수 있거나, 또는 QCL 혹은 Quipper과 같은 양자 프로그래밍 언어로 쓰여질 수도 있다.

반드시 그럴 필요는 없지만, 디지털 및/또는 양자 컴퓨터 프로그램은 파일 시스템의 파일에 대응할 수 있다. 프로그램은 예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같이 다른 프로그램 또는 데이터를 보유하는 파일의 일부에 저장되거나, 해당 프로그램 전용인 단일 파일에 저장되거나, 또는 복수의 조정된 파일들 예를 들어, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부분을 저장하는 파일들에 저장될 수 있다. 디지털 및/또는 양자 컴퓨터 프로그램은 하나의 디지털 또는 하나의 양자 컴퓨터 상에서 실행되도록 배치될 수 있으며 또는 하나 사이트에 위치하거나 여러 사이트에 분산되어 있고 디지털 및/또는 양자 데이터 통신 네트워크에 의해 상호연결된 여러 개의 디지털 및/또는 양자 컴퓨터에서 실행되도록 배치될 수 있다. 양자 데이터 통신 네트워크는 양자 시스템, 예를 들어 큐비트를 사용하여 양자 데이터를 전송할 수 있는 네트워크인 것으로 이해된다. 일반적으로, 디지털 데이터 통신 네트워크는 양자 데이터를 전송할 수 없지만, 양자 데이터 통신 네트워크는 양자 데이터와 디지털 데이터를 모두 전송할 수 있다.

본 명세서에 기술된 프로세스들 및 로직 플로우들은, 하나 이상의 프로그래밍가능한 디지털 및/또는 양자 컴퓨터에 의해 수행될 수 있으며, 하나 이상의 디지털 및/또는 양자 프로세스들과 함께 동작하고, 입력 디지털 및 양자 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하는 하나 이상의 디지털 및/또는 양자 컴퓨터 프로그램을 실행한다. 또한, 상기 프로세스들 및 로직 플로우들은, 특수 목적 논리 회로, 예를 들어 FPGA 또는 ASIC, 또는 양자 시뮬레이터, 또는 특수 목적 논리 회로 또는 양자 시뮬레이터 및 하나 이상의 프로그램된 디지털 및/또는 양자 컴퓨터의 조합에 의해 수행될 수 있고, 장치가 또한 구현될 수 있다.

특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 디지털 및/또는 양자 컴퓨터들의 시스템은, 동작시에 상기 시스템으로 하여금 상기 동작들 또는 액션들을 수행하게 하도록 소프트웨어, 펌웨어, 하드웨어, 혹은 이들의 조합을 설치한 시스템을 의미한다. 특정 동작들 또는 액션들을 수행하도록 구성된 하나 이상의 디지털 및/또는 양자 컴퓨터 프로그램은, 상기 하나 이상의 프로그램은 명령들을 포함하고 상기 명령들은 디지털 및/또는 양자 데이터 프로세싱 장치에 의해 실행될 때 장치로 하여금 상기 동작들 또는 액션들을 수행하게 함을 의미한다. 양자 컴퓨터는 양자 컴퓨팅 장치에 의해 실행될 때 디바이스로 하여금 동작 또는 동작을 수행하게하는 명령을 디지털 컴퓨터로부터 수신할 수 있다.

디지털 및/또는 양자 컴퓨터 프로그램의 실행에 적합한 디지털 및/또는 양자 컴퓨터는 범용 혹은 특수 목적의 디지털 및/또는 양자 프로세서 혹은 이들 둘다에 기초할 수 있으며 또는 임의의 다른 종류의 중앙 디지털 및/또는 양자 프로세싱 유닛에 기초할 수도 있다. 일반적으로, 중앙 디지털 및/또는 양자 프로세싱 유닛은 판독 전용 메모리, 랜덤 액세스 메모리, 또는 양자 데이터, 예를 들어 광자를 전송하기에 적합한 양자 시스템 또는 이들의 조합으로부터 명령들 및 디지털 및/또는 양자 데이터를 수신할 것이다.

디지털 및/또는 양자 컴퓨터의 필수 요소들은, 명령들을 수행 혹은 실행하는 중앙 프로세싱 유닛과, 명령들 및 디지털 및/또는 양자 데이터를 저장하는 하나 이상의 메모리 디바이스들이다. 상기 중앙 프로세싱 유닛과 메모리는 특수 목적 논리 회로 또는 양자 시뮬레이터에 의해 보완되거나 이에 통합될 수 있다. 일반적으로, 디지털 및/또는 양자 컴퓨터는 또한, 디지털 및/또는 양자 데이터를 송수신하기 위하여 예컨대, 자기 디스크, 광-자기 디스크, 광 디스크 등과 같은 디지털 및/또는 양자 데이터를 저장하는 하나 이상의 대용량 저장 디바이스 또는 양자 정보를 저장하기에 적합한 양자 시스템을 포함하거나 이와 동작가능하게 연결된다. 하지만, 디지털 및/또는 양자 컴퓨터가 이러한 디바이스를 반드시 가질 필요는 없다.

디지털 및/또는 양자 컴퓨터 프로그램 명령들 및 디지털 및/또는 양자 데이터를 저장하기에 적합한 디지털 및/또는 양자 컴퓨터 판독가능 매체는, 모든 형태의 비휘발성 디지털 및/또는 양자 메모리, 매체 및 메모리 디바이스들을 포함할 수 있는바, 비제한적인 일례로서, 반도체 메모리 디바이스, 예컨대 EPROM, EEPROM 및 플래시 메모리 디바이스; 예를 들어, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; 광 자기 디스크; CD-ROM 및 DVD-ROM 디스크; 및 양자 시스템, 예를 들어 포획된 원자 또는 전자 등을 포함할 수 있다. 다음을 유의해야 하는바, 양자 메모리들은 양자 데이터를 장시간 동안 높은 신뢰성 및 효율로 저장할 수 있는 디바이스들이며, 예를 들어, 광이 전송에 사용되는 광-물질 인터페이스 및 중첩(superposition) 또는 양자 코히어런스와 같은 양자 데이터의 양자 피처들을 저장 및 보존하기 위한 물질로 이해된다.

본 명세서에서 설명된 다양한 시스템들 또는 그것들의 일부에 대한 제어는, 디지털 및/또는 양자 컴퓨터 프로그램 제품에서 구현될 수 있으며 이는 명령들을 포함하고, 상기 명령들은 하나 이상의 비일시적 머신 판독가능 저장 매체에 저장되고, 하나 이상의 디지털 및/또는 양자 프로세싱 디바이스에서 실행가능하다. 본 명세서에서 설명된 시스템들, 또는 그 일부는 각각 하나 이상의 디지털 및/또는 양자 프로세싱 디바이스 및 본 명세서에서 설명된 동작을 수행하기 위한 실행가능한 명령을 저장하는 메모리를 포함할 수 있는 디바이스, 방법 또는 시스템으로서 구현될 수 있다.

비록, 본 명세서가 많은 특정한 세부적인 구현 사항들을 포함하지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 것에 대한 제한으로 해석되어서는 아니되고, 특정 발명의 특정 구현예에 특유한 피처들에 대한 설명으로 해석되어야 한다. 개별 구현예들의 문맥에서 본 명세서에서 설명된 소정의 피처들은 단일 구현예의 조합에서 구현될 수도 있다. 반대로, 단일 구현예의 맥락에서 설명된 다양한 피처들은 또한 여러 구현예들에서 개별적으로 또는 임의의 적절한 하위 조합으로 구현될 수 있다. 더욱이, 피처들이 특정한 조합으로 작용하는 것으로 설명되고, 심지어 초기에 그렇게 청구될 수도 있지만, 청구된 조합으로부터의 하나 이상의 피처들은 일부 경우에 조합으로부터 제외될 수도 있으며, 청구된 조합은 서브-조합 혹은 서브-조합의 변형예에 관한 것일 수도 있다.

이와 유사하게, 비록 동작들이 도면들에서 특정 순서로 도시되지만, 이는 그러한 동작들이 도시된 특정 순서대로 또는 순차적인 순서로 수행되어야만 함을 의미하는 것이 아니며 또는 도시된 모든 동작들이 수행되어야만 원하는 결과가 얻어짐을 의미하는 것도 아니다. 소정 상황에서는, 멀티 태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에서 설명된 구현예들에서 다양한 시스템 모듈들 및 구성요소들의 분리는 모든 구현예들에서 이러한 분리를 요구하는 것으로 이해되어서는 안되며, 설명된 프로그램 구성 요소들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 또는 여러 소프트웨어 제품으로 패키지화될 수 있음을 이해해야한다.

본 발명의 주제에 대한 특정 구현예들이 설명되었다. 다른 구현예들도 다음의 청구 범위 내에 속한다. 일부 경우에, 청구항에 언급된 동작들은 다른 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성할 수 있다. 또한, 첨부 도면에 도시된 프로세스들은 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 요구할 필요는 없다. 특정 구현들에서, 멀티 태스킹 또는 병렬 프로세싱이 사용될 수 있다.

Claims

양자 하드웨어를 이용하여 양자 게이트를 구현하기 위해 양자 제어 궤적(quantum control trajectory)을 설계하기 위한 컴퓨터 구현 방법으로서,
상기 양자 게이트를 제어 동작들(control actions)의 시퀀스로 나타내는 단계;
양자 제어 궤적을 결정하도록 상기 제어 동작들의 시퀀스에 있는 각각의 제어 동작을 반복적으로(iteratively) 조절하기 위한 강화 학습 모델을 적용하는 단계를 포함하고, 상기 양자 제어 궤적은 상기 양자 게이트를 구현하고 그리고 상기 반복적인 조절 동안 양자 게이트의 누설, 불충실성(infidelity), 또는 전체 런타임 중 하나 이상을 감소시키며, 상기 강화 학습 모델을 적용하는 단계는 각각의 반복(iteration)에 대하여,
에이전트에 의해, 할인된 미래 보상(discounted future reward)을 결정하는 단계로서, i) 강화 학습 할인 미래 보상 함수로서 상기 누설, 불충실성, 또는 전체 런타임 중 하나 이상을 페널라이징(penalize)하는 범용 제어 비용 함수(universal control cost function) 및 ii) 트레이닝 환경으로부터 수신된 상기 반복에 대한 상기 양자 하드웨어에 포함된 양자 시스템의 상태를 이용하여, 할인된 미래 보상을 결정하는 단계;
상기 에이전트에 의해, 그리고 상기 결정된 할인된 미래 보상에 기초하여, 상기 반복에 대한 하나 이상의 제어 궤적 파라미터들의 값들을 조절하는 단계; 및
상기 반복에 대한 하나 이상의 제어 궤적 파라미터들의 값들을 상기 트레이닝 환경에 제공하는 단계
를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제1항에 있어서,
상기 제어 동작들의 시퀀스에 있는 각각의 제어 동작을 반복적으로 조절하기 위한 강화 학습 모델을 적용하는 단계는, 각각의 반복에 대하여,
에이전트에 의해, 상기 양자 하드웨어에 포함된 양자 시스템의 현재 상태에 기초하여 반복에 대한 제어 동작을 결정하는 단계; 및
트레이닝 환경에 의해, 상기 결정된 제어 동작 및 샘플 제어 잡음를 이용하여 양자 시스템의 현재 상태를 양자 시스템의 후속 상태로 업데이트하는 단계
를 더 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제2항에 있어서,
상기 에이전트는 제 1 뉴럴 네트워크를 포함하고, 상기 양자 하드웨어에 포함된 양자 시스템의 현재 상태에 기초하여 반복에 대한 제어 동작을 결정하는 단계는,
상기 제 1 뉴럴 네트워크에 대한 입력으로서, 상기 양자 시스템의 현재 상태를 나타내는 파라미터 값들의 벡터를 제공하는 단계; 및
상기 제 1 뉴럴 네트워크의 출력으로서, 상기 제어 동작을 나타내는 파라미터 값들의 벡터를 획득하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제3항에 있어서,
상기 제어 동작을 나타내는 파라미터 값들은, 상기 에이전트에 의해 샘플링될 때 상기 제어 동작을 정의하는, 상기 제어 동작의 각 컴포넌트에 대한 각각의 확률 분포들을 나타내는 값들을 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제3항 또는 제4항에 있어서,
상기 에이전트에 의해, 그리고 상기 결정된 할인된 미래 보상에 기초하여, 상기 반복에 대한 하나 이상의 제어 궤적 파라미터들의 값들을 조절하는 단계는,
상기 결정된 할인된 미래 보상에 기초하여 제 1 뉴럴 네트워크의 파라미터 값들을 조절하는 단계를 포함하는, 제 1 뉴럴 네트워크를 조절하는 단계;
상기 조절된 제 1 뉴럴 네트워크를 이용하여 상기 반복에 대한 조절된 제어 동작을 결정하는 단계; 및
상기 반복에 대한 조절된 제어 동작을 사용하여, 상기 반복에 대한 제어 궤적 파라미터들의 값들을 조절하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제5항에 있어서,
상기 제 1 뉴럴 네트워크의 파라미터 값들을 조절하는 단계는,
상기 결정된 할인된 미래 보상에 의해 결정된 학습 속도를 갖는 그래디언트 하강 방법들(gradient descent methods)을 적용하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제2항 내지 제6항 중 어느 한 항에 있어서,
상기 에이전트는 상기 할인된 미래 보상을 결정하도록 구성된 제 2 뉴럴 네트워크를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
임의의 선행하는 청구항에 있어서,
상기 i) 강화 학습 할인 미래 보상 함수로서 상기 누설, 불충실성, 또는 전체 런타임 중 하나 이상을 페널라이징하는 범용 제어 비용 함수 및 ii) 상기 양자 시스템의 상태를 이용하여 할인된 미래 보상을 결정하는 단계는,
업데이트된 범용 제어 비용 함수에 기초하여 상기 제어 동작들의 시퀀스에 있는 미래 위치들에 대한 가중화된 범용 제어 비용 함수의 합계를 평가하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제7항에 있어서,
상기 강화 학습 모델을 적용하는 단계는,
상기 에이전트로부터 그리고 서로 다른 가능한 제어 궤적들로부터 i) 서로 다른 제어 궤적들 하에서의 양자 상태들의 완전한 시퀀스, 및 ii) 서로 다른 제어 궤적들에 대한 범용 제어 비용 함수 값들의 완전한 시퀀스를 샘플링하고;
상기 샘플링된 양자 상태들 및 범용 제어 비용 함수 값들에 대응하는 샘플링된 할인된 미래 보상들을 결정하고;
상기 제 2 뉴럴 네트워크를 상기 샘플링된 할인된 미래 보상들에 맞추고(fit); 그리고
상기 할인된 미래 보상을 인코딩하는 제 2 뉴럴 네트워크에 의해 결정된 학습 속도로 샘플링하는 것으로부터 추정된 그래디언트에 따라 제 1 뉴럴 네트워크를 맞춤으로써,
각각의 반복에서 상기 제 1 뉴럴 네크워크 및 상기 제 2 뉴럴 네트워크를 트레이닝하는 단계를 더 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
임의의 선행하는 청구항에 있어서,
상기 양자 제어 궤적을 결정하도록 상기 제어 동작들의 시퀀스에 있는 각각의 제어 동작을 반복적으로 조절하기 위한 강화 학습 모델을 적용하는 단계는,
정책 그래디언트 방법(policy gradient method)을 수행하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
임의의 선행하는 청구항에 있어서,
에이전트 파라미터들의 조절된 값들이 기결정된 한계 내로 수렴될 때까지 상기 각각의 반복(iteration)이 여러 번 반복되는 것(repeat)을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제2항에 있어서,
상기 트레이닝 환경에 의해, 상기 결정된 제어 동작 및 샘플 제어 잡음를 이용하여 양자 시스템의 현재 상태를 양자 시스템의 후속 상태로 업데이트하는 단계는,
랜덤 샘플링된 양자 하드웨어 잡음에 기초하여 제어 동작을 나타내는 파라미터 값들의 벡터를 조절하는 단계;
파라미터 값들의 조절된 벡터를 이용하여 현재 제어 동작을 구현하는 시간 의존적 해밀톤 진화(time dependent Hamiltonian evolution)를 해결하는 단계(solving); 및
해결된 시간 의존적 해밀톤 진화를 사용하여 양자 시스템의 상태를 업데이트하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제12항에 있어서,
랜덤 샘플링된 양자 하드웨어 잡음에 기초하여 제어 동작을 나타내는 파라미터 값들의 벡터를 조절하는 단계는,
제어 잡음를 랜덤 샘플링하는 단계; 및
상기 랜덤 샘플링된 제어 잡음을 상기 파라미터 값들의 벡터의 각각의 엔트리에 부가하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제13항에 있어서,
제어 잡음를 랜덤 샘플링하는 단계는,
기결정된 분산을 갖는 제로 평균 가우시안 분포에 따라 상이한 제어 진폭들에 대한 진폭 변동들을 샘플링하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
임의의 선행하는 청구항에 있어서,
상기 양자 하드웨어는 하나 이상의 큐비트를 포함하고,
상기 제어 잡음은 큐비트 비조화성(qubit anharmonicity), 큐비트 디튜닝 진폭(qubit detuning amplitude), 마이크로파 제어 진폭(microwave control amplitudes) 및/또는 2-큐비트 커플링 펄스 진폭(two-qubit coupling pulse amplitude) 중 하나 이상으로부터 유발되는 랜덤 양자 하드웨어 잡음을 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제12항에 있어서,
파라미터 값들의 조절된 벡터를 이용하여 현재 제어 동작을 구현하는 시간 의존적 해밀톤 진화를 해결하는 단계는,
파라미터 값들의 조절된 벡터를 이용하여 슈뢰딩거 방정식을 평가하는 단계를 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제3항에 있어서,
상기 제 1 뉴럴 네트워크는, 다수의 완전히 연결된(fully connected) 뉴럴 네트워크 계층들을 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
제7항에 있어서,
상기 제 2 뉴럴 네트워크는, 다수의 완전히 연결된 뉴럴 네트워크 계층들을 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
임의의 선행하는 청구항에 있어서,
설계된 양자 제어 궤적를 이용하여 양자 게이트를 구현하는 단계를 더 포함하는 것을 특징으로 하는 양자 제어 궤적을 설계하기 위한 컴퓨터 구현 방법.
하나 이상의 컴퓨터들 및 명령들을 저장하는 하나 이상의 저장 디바이스들을 포함하는 시스템으로서, 상기 명령들은 상기 하나 이상의 컴퓨터들에 의해서 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제19항 중 어느 한 항에 따른 방법을 수행하게 하는 것을 특징으로 하는 시스템.
명령들이 저장된 컴퓨터-판독가능 저장 매체로서,
상기 명령들은 프로세싱 디바이스에 의해 실행될 때 상기 프로세싱 디바이스로 하여금 제1항 내지 제19항 중 어느 한 항에 따른 방법을 수행하게 하는 것을 특징으로 하는 컴퓨터-판독가능 저장 매체.