WO2024063451A1

WO2024063451A1 - 전송 경로 결정 방법 및 상기 방법을 수행하는 전자 장치

Info

Publication number: WO2024063451A1
Application number: PCT/KR2023/013909
Authority: WO
Inventors: 김태우; 김희곤; 류승호; 유재형; 김재곤; 홍원기
Original assignee: 삼성전자주식회사; 포항공과대학교 산학협력단
Priority date: 2022-09-23
Filing date: 2023-09-15
Publication date: 2024-03-28

Abstract

전송 경로 결정 방법 및 상기 방법을 수행하는 전자 장치가 개시된다. 다양한 실시예들에 따른 전자 장치는 프로세서 및 상기 프로세서와 전기적으로 연결되고, 상기 프로세서에 의해 실행될 수 있는 명령어를 저장하는 메모리를 포함하고, 상기 프로세서는, 상기 명령어가 실행될 때, 복수의 네트워크 장치로부터 발생한 트래픽에 관한 서비스 데이터 및 상기 복수의 네트워크 장치의 링크 정보를 포함하는 네트워크 데이터를 식별하고, 심층 강화 학습(deep reinforcement learning) 방식에 따라 학습된 결정 모듈로부터 결정된 정책(policy)에 따라, 상기 서비스 데이터 및 상기 네트워크 데이터를 이용하여, 상기 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정하고, 상기 세그먼트에 기초하여, 상기 트래픽의 전송 경로를 결정할 수 있다.

Description

전송 경로 결정 방법 및 상기 방법을 수행하는 전자 장치

아래의 개시는 전송 경로 결정 방법 및 상기 방법을 수행하는 전자 장치에 관한 것이다.

트래픽 엔지니어링 기술에서 다중 프로토콜 레이블 스위칭(MPLS: multi-protocol label switching)이 사용된다. MPLS 도메인에서는 MPLS을 지원하는 장비를 LSR (label-switching router)로 정의하고 네트워크 Edge에 위치하는 LSR를 LER (label edge router)로 호칭한다.

LER에서는 MPLS 네트워크로 들어오는 데이터에 대해서 레이블을 추가하고 나가는 데이터에 대해서는 레이블을 삭제한다. 데이터에 추가된 레이블은 MPLS 네트워크 내에서 전송 경로를 지정하는데 사용되고, MPLS에서 레이블에 의해 정해진 전송 경로를 LSP (label switched path)라고 한다.

MPLS에서는 트래픽 엔지니어링을 위한 TE 터널을 정의하고. TE 터널은 특정 출발 노드에서 도착 노드 사이의 데이터 플로우를 나타내는 LSP를 의미한다. TE 터널에서 터널의 진입 노드를 Head-End로 부르고 터널의 출구 노드를 Tail-End로 정의한다. MPLS에서는 트래픽 엔지니어링을 위해 OSPF와 ISIS를 확장하여 물리 대역폭, RSVP 설정된 대역폭, RSVP 가용 대역폭, 링크 TE 메트릭 등을 수집한다. 수집된 정보들은 LSR 간에 공유되어 트래픽 대역폭을 만족하는 경로를 선택하는데 사용될 수 있다.

트래픽을 전송할 경로 (TE 터널)이 정해지면 RSVP-TE를 통해서 해당 경로를 통해서 트래픽 전송을 위해 실제로 경로를 설정한다. RSVP는 트래픽이 전달될 LSP에 Path 메시지를 전달하여 해당 LSR에 대역폭을 예약하고 레이블 라우팅 정보를 추가하고, 이후 트래픽은 RSVP에서 지정한 경로를 따라서 전달된다.

MPLS는 링크나 노드 장애 시 트래픽 유실을 최소화하기 위해서 IGP의 LFA를 활용하여 TE 터널에 대한 FRR을 제공한다. 링크 장애가 발생하면 장애가 난 링크를 기준으로 TE 터널을 분리하고 새로운 경로를 재계산하여 백업 경로로 트래픽을 전송한다.

노드 장애가 발생한 경우도 링크 장애와 동일하게 장애가 난 노드를 기준으로 TE 터널을 분리하고, 새로운 경로를 계산하여 백업 경로로 트래픽을 전송한다.

다양한 실시예들에 따른 전자 장치는 프로세서 및 상기 프로세서와 전기적으로 연결되고, 상기 프로세서에 의해 실행될 수 있는 명령어를 저장하는 메모리를 포함할 수 있다. 상기 프로세서는, 상기 명령어가 실행될 때, 복수의 네트워크 장치로부터 발생한 트래픽에 관한 서비스 데이터 및 상기 복수의 네트워크 장치의 링크 정보를 포함하는 네트워크 데이터를 식별할 수 있다. 상기 프로세서는, 심층 강화 학습(deep reinforcement learning) 방식에 따라 학습된 결정 모듈로부터 결정된 정책(policy)에 따라, 상기 서비스 데이터 및 상기 네트워크 데이터를 이용하여, 상기 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정할 수 있다. 상기 프로세서는, 상기 세그먼트에 기초하여, 상기 트래픽의 전송 경로를 결정할 수 있다.

다양한 실시예들에 따른 전송 경로 결정 방법은 복수의 네트워크 장치로부터 발생한 트래픽에 관한 서비스 데이터 및 상기 복수의 네트워크 장치의 링크 정보를 포함하는 네트워크 데이터를 식별하는 동작, 심층 강화 학습(deep reinforcement learning) 방식에 따라 학습된 결정 모듈로부터 결정된 정책(policy)에 따라, 상기 서비스 데이터 및 상기 네트워크 데이터를 이용하여, 상기 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정하는 동작 및 상기 세그먼트에 기초하여, 상기 트래픽의 전송 경로를 결정하는 동작을 포함할 수 있다.

다양한 실시예들에 따른 결정 모듈 학습 방법은 학습 네트워크 데이터 및 학습 서비스 데이터에 기초하여 생성된 학습 데이터를 이용하여, 상기 학습 서비스 데이터에 포함된 트래픽의 전송 경로에 관한 학습 세그먼트를 결정하는 동작, 상기 학습 세그먼트에 기초하여, 상기 학습 서비스 데이터에 포함된 트래픽의 학습 전송 경로를 결정하는 동작, 심층 강화 학습(deep reinforcement learning) 방식에 따라, 상기 학습 전송 경로에 기초하여 결정된 리워드를 최대화하도록 결정 모듈을 학습시키는 동작, 복수의 네트워크 장치로부터 식별된 네트워크 데이터 및 서비스 데이터에 대응하여, 상기 서비스 데이터에 포함된 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정하기 위한 정책(policy)를 결정하는 동작을 포함할 수 있다.

도 1은 다양한 실시예들에 따른 전자 장치가 트래픽의 전송 경로를 결정하는 동작을 나타낸 도면이다.

도 2는 다양한 실시예들에 따른 트래픽의 전송 경로 결정 방법의 동작 흐름도이다.

도 3은 다양한 실시예들에 따른 학습 장치가 결정 모듈을 학습시키는 동작을 나타낸 도면이다.

도 4는 다양한 실시예들에 따른 결정 모듈 학습 방법의 동작 흐름도이다.

도 5는 다양한 실시예들에 따른 결정 모듈을 학습시키기 위한 에피소드를 나타낸 도면이다.

도 6은 다양한 실시예들에 따른 결정 모듈이 세그먼트를 결정하고, 트래픽의 전송 경로를 결정하는 동작을 나타낸 도면이다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다.

도 1은 다양한 실시예들에 따른 전자 장치(100)가 트래픽의 전송 경로를 결정하는 동작을 나타낸 도면이다.

도 1을 참조하면, 다양한 실시예들에 따른 전자 장치(100)는 결정 모듈(110) 및 네트워크 컨트롤러(180) 중 적어도 하나, 또는 이들의 조합을 포함할 수 있다.

예를 들어, 전자 장치(100)는 프로세서(미도시)를 포함할 수 있다. 프로세서는, 예를 들면, 소프트웨어(예: 프로그램)를 실행하여 프로세서에 연결된 전자 장치(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서는 다른 구성요소(예: 결정 모듈(110) 또는 네트워크 컨트롤러(180))로부터 수신된 명령 또는 데이터를 휘발성 메모리에 저장하고, 휘발성 메모리에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리에 저장할 수 있다. 일실시예에 따르면, 프로세서는 메인 프로세서(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(예: 그래픽 처리 장치, 신경망(160) 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(100)가 메인 프로세서 및 보조 프로세서를 포함하는 경우, 보조 프로세서는 메인 프로세서보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서는 메인 프로세서와 별개로, 또는 그 일부로서 구현될 수 있다.

예를 들어, 전자 장치(100)는 메모리(미도시)를 포함할 수 있다. 메모리는, 전자 장치(100)의 적어도 하나의 구성요소(예: 프로세서 또는 결정 모듈(110))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리는, 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다.

일례로, 전자 장치(100)는 복수의 네트워크 장치(예: 도 1의 노드 1, ..., 노드 n(210-1, ..., 210-n))로부터 데이터를 식별할 수 있다. 예를 들어, 전자 장치(100)는 복수의 네트워크 장치(210-1, ..., 210-n)로부터 식별한 데이터를 이용하여, 네트워크 데이터(140) 및 서비스 데이터(150)를 생성할 수 있다.

일례로, 전자 장치(100)의 네트워크 컨트롤러(180)는 네트워크(200)로부터 서비스 데이터(150) 또는 네트워크 데이터(140) 중 적어도 하나를 식별할 수 있다. 예를 들어, 네트워크 모니터(181)(network monitor)는 네트워크(200)로부터 복수의 네트워크 장치(210-1, ..., 210-n)의 상태와 트래픽 정보를 수집할 수 있다. 예를 들어, 네트워크 모니터(181)에서 수집한 복수의 네트워크 장치(210-1, ..., 210-n)의 상태 및 트래픽 정보에 기초하여, 전자 장치(100)는 서비스 데이터(150) 및/또는 네트워크 데이터(140)를 생성할 수 있다.

예를 들어, 네트워크 데이터(140)는 복수의 네트워크 장치(210-1, ..., 210-n)의 링크 정보를 포함할 수 있다. 예를 들어, 네트워크 데이터(140)는 노드 데이터(141) 및 링크 데이터(142) 중 적어도 하나, 또는 이들의 조합을 포함할 수 있다. 예를 들어, 노드 데이터(141)는 복수의 네트워크 장치(210-1, ..., 210-n)에 포함된 노드들의 가용 자원 정보를 포함할 수 있다. 예를 들어, 링크 데이터(142)는 복수의 네트워크 장치(210-1, ..., 210-n)의 가용 대역폭 정보, 내부 게이트웨이 라우팅 비용(IGP cost, internal gateway routing cost)를 포함할 수 있다.

예를 들어, 서비스 데이터(150)는 복수의 네트워크 장치(210-1, ..., 210-n)로부터 발생한 트래픽에 관한 정보를 포함할 수 있다. 예를 들어, 서비스 데이터(150)는 트래픽 도착지 노드, 요구 대역폭, 서비스의 종류, SLA(service level agreement) 위반 정보를 포함할 수 있다.

일례로, 전자 장치(100)는 매트릭스 형태로 표현되는 네트워크 데이터(140)를 생성할 수 있다. 일례로, 전자 장치(100)는 일련의 일차원의 벡터 형태로 서비스 데이터(150)를 생성할 수 있다. 일례로, 생성된 네트워크 데이터(140) 및 서비스 데이터(150)는 메모리에 저장될 수 있다.

일례로, 전자 장치(100)는 정책(policy)에 따라 서비스 데이터(150) 및 네트워크 데이터(140)를 이용하여, 트래픽의 전송 경로에 관한 세그먼트를 결정할 수 있다. 예를 들어, 정책은 결정 모듈(110)로부터 생성될 수 있다. 예를 들어, 결정 모듈(110)은 심층 강화 학습(deep reinforcement learning) 방식에 따라 학습될 수 있다.

일례로, 결정 모듈(110)은 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)에 기초하여 생성된 학습 데이터에 따라, 심층 강화 학습 방법을 학습될 수 있다. 예를 들어, 학습 데이터는 현재 상태, 액션, 리워드 및 다음 상태를 포함할 수 있다. 예를 들어, 현재 상태는 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)를 포함할 수 있다. 예를 들어, 액션은 학습 서비스 데이터(150)에 포함된 트래픽의 학습 전송 경로에 관한 학습 세그먼트를 포함할 수 있다. 예를 들어, 리워드는 복수의 네트워크 장치(210-1, ..., 210-n)의 최소 가용 대역폭에 기초하여, 결정될 수 있다. 예를 들어, 다음 상태는 현재 상태에서 액션에 따라 트래픽이 할당된 상태를 의미할 수 있다.

이해의 편의를 위하여, 결정 모듈(110)의 학습에 사용되는 데이터를 네트워크 데이터(140) 및 서비스 데이터(150)와 구분하여, 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)로 호칭하나, 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)는 네트워크 데이터(140) 및 서비스 데이터(150)와 실질적으로 동일한 데이터를 나타낼 수 있다. 또한, 세그먼트 및 전송 경로와 구분하여, 결정 모듈(110)의 학습 과정에서 결정되는 세그먼트 및 전송 경로는 각각 학습 세그먼트 및 학습 전송 경로로 호칭될 수 있으나, 학습 세그먼트 및 학습 전송 경로는 각각 세그먼트 및 전송 경로와 실질적으로 동일할 수 있다.

예를 들어, 전자 장치(100)는 네트워크 데이터(140) 및 서비스 데이터(150)를 이용하여, 현재 상태를 생성할 수 있다. 예를 들어, 전자 장치(100)가 생성한 현재 상태는 결정 모듈(110)의 학습 데이터에 포함된 현재 상태와 실질적으로 동일한 데이터를 의미할 수 있다. 전자 장치(100)는 생성된 현재 상태를 이용하여, 정책에 따라 리워드를 최대화하는 액션을 결정할 수 있다. 예를 들어, 리워드를 최대화하는 액션은 트래픽의 세그먼트를 결정하는 것을 나타낼 수 있다.

예를 들어, 세그먼트는 세그먼트 라우팅(SR, segment routing) 방식에 따라 트래픽의 전송 경로를 결정하기 위한 경로를 의미할 수 있다. 예를 들어, 전자 장치(100)는 트래픽의 출발 노드에서 세그먼트로 지정된 노드를 거쳐, 도착지 노드로 연결되는 트래픽의 전송 경로를 결정할 수 있다.

일례로, 전자 장치(100)는 세그먼트에 기초하여, 트래픽의 전송 경로를 결정할 수 있다. 예를 들어, 네트워크 컨트롤러(180)는 정책에 따라 세그먼트를 결정하고, 트래픽의 전송 경로를 결정할 수 있다.

예를 들어, 전자 장치(100)는 최단 경로 알고리즘에 따라, 세그먼트로 지정된 경로까지 트래픽의 전송 경로를 지정할 수 있다. 전자 장치(100)는 세그먼트로 지정된 노드로부터 최단 경로 알고리즘에 따라, 도착지 노드까지 트래픽의 전송 경로를 결정할 수 있다.

예를 들어, 트래픽 1에 대하여, 세그먼트 1, 세그먼트 2가 결정될 수 있다. 전자 장치(100)는 트래픽 1의 출발지 노드로부터 세그먼트 1로 결정된 노드까지의 최단 경로, 세그먼트 1로부터 세그먼트 2로 결정된 노드까지의 최단 경로, 세그먼트 2로부터 도착지 노드까지의 최단 경로를 이용하여, 트래픽 1에 대한 전체 전송 경로를 결정할 수 있다.

일례로, 전자 장치(100)는 결정된 전송 경로에 기초하여, 복수의 네트워크 장치(210-1, ..., 210-n)를 제어할 수 있다. 예를 들어, 네트워크 컨트롤러(180)의 네트워크 설정기(182)(network configuration)는 결정된 트래픽의 전송 경로에 따라 복수의 네트워크 장치(210-1, ..., 210-n)를 제어할 수 있다. 전자 장치(100)의 네트워크 설정기(182)는 전송 경로에 따라 트래픽 데이터가 전송되도록, 복수의 네트워크 장치(210-1, ..., 210-n) 또는 노드를 제어할 수 있다.

이하 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.

일 실시 예에 따르면, 동작(210) 내지 동작(230)은 전자 장치(예: 도 1의 전자 장치(101))의 프로세서(예: 도 1의 프로세서)에서 수행되는 것으로 이해될 수 있다.

도 2를 참조하면, 다양한 실시예들에 따른 전자 장치(예: 도 1의 전자 장치(100))는 동작(210)에서 서비스 데이터(예: 도 1의 서비스 데이터(150)) 및 네트워크 데이터(예: 도 1의 네트워크 데이터(140))를 식별할 수 있다. 예를 들어, 전자 장치(100)는 복수의 네트워크 장치(예: 도 1의 복수의 네트워크 장치(210-1, ..., 210-n))로부터 데이터를 식별하고, 식별한 데이터를 이용하여, 서비스 데이터(150) 및 네트워크 데이터(140)를 생성할 수 있다.

일례로, 전자 장치(100)는 동작(220)에서, 정책에 따라 트래픽의 전송 경로에 관한 세그먼트를 지정할 수 있다. 예를 들어, 정책은 심층 강화 학습 방식에 따라 학습된 결정 모듈(예: 도 1의 결정 모듈(110))로부터 생성될 수 있다.

일례로, 전자 장치(100)는 동작(230)에서, 세그먼트에 기초하여 트래픽의 전송 경로를 결정할 수 있다. 예를 들어, 전자 장치(100)는 최단 경로 알고리즘에 따라, 트래픽의 출발지 노드로부터 세그먼트로 결정된 노드까지의 최단 경로, 세그먼트로 결정된 노드로부터 세그먼트로 결정된 노드까지의 최단 경로, 세그먼트로 결정된 노드로부터 도착지 노드까지의 최단 경로 중 적어도 하나, 또는 이들의 조합을 이용하여, 트래픽의 전체 전송 경로를 결정할 수 있다.

도 3은 다양한 실시예들에 따른 학습 장치(300)가 결정 모듈(310)(예: 도 1의 결정 모듈(110))을 학습시키는 동작을 나타낸 도면이다.

도 3을 참조하면, 일 실시 예에 따른 학습 장치(300)는 메모리(330) 및 프로세서(320) 중 적어도 하나를 포함할 수 있다. 예를 들어, 학습 장치(300)의 메모리(330) 및 프로세서(320)에 관하여, 도 1의 전자 장치(100)에 관하여 설명한 메모리 및 프로세서에 관한 내용이 실질적으로 동일하게 적용될 수 있다.일례로, 학습 장치(300)는 네트워크(200)로부터 데이터를 식별할 수 있다. 예를 들어, 학습 장치(300)는 복수의 네트워크 장치(예: 도 3의 노드 1, ..., 노드 n(210-1, ..., 210-n))로부터 식별한 데이터를 이용하여, 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)를 생성할 수 있다. 예를 들어, 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)는 도 1에서 설명한 네트워크 데이터(140) 및 서비스 데이터(150)와 실질적으로 동일한 데이터를 나타낼 수 있다.

일례로, 결정 모듈(310)은 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)를 이용하여, 학습 데이터를 생성할 수 있다. 예를 들어, 학습 데이터는 심층 강화 학습 방식에 따라 결정 모듈(310)을 학습시키기 위한 데이터일 수 있다. 학습 데이터는 현재 상태, 액션, 리워드 및 다음 상태를 포함할 수 있다. 예를 들어, 학습 네트워크 데이터(140)는 노드 데이터(141) 및 링크 데이터(142)를 포함할 수 있다. 도 3의 노드 데이터(141) 및 링크 데이터(142)에 대하여, 도 1의 노드 데이터(141) 및 링크 데이터(142)에 관한 설명이 실질적으로 동일하게 적용될 수 있다.

예를 들어, 현재 상태는 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)에 기초한 복수의 네트워크 장치(210-1, ..., 210-n)의 상태, 트래픽에 관한 정보를 포함할 수 있다. 예를 들어, 액션은 현재 상태에서 트래픽의 세그먼트를 결정하는 동작을 나타낼 수 있다. 예를 들어, 리워드는 액션에 따라 현재 상태에서 결정된 세그먼트에 따라 트래픽의 전체 또는 일부의 전송 경로를 결정하였을 때, 네트워크(200) 상태에 기초하여 결정될 수 있다. 예를 들어, 리워드는 복수의 네트워크 장치(210-1, ..., 210-n)의 최소 가용 대역폭에 기초하여 결정될 수 있다. 예를 들어, 다음 상태는 현재 상태에서 액션에 따라 트래픽의 전송 경로의 전체 또는 일부를 결정하였을 때, 복수의 네트워크 장치(210-1, ..., 210-n)의 상태, 트래픽에 관한 정보를 나타낼 수 있다.

예를 들어, 결정 모듈(310)은 심층 강화 학습(deep reinforcement learning) 방법에 따라 학습될 수 있다. 예를 들어, 결정 모듈(310)은 DDDQN(dueling double deep Q Network), DDQN(double deep Q Network), DQN(deep Q network), A2C(advantage actor-critic) 등과 같은 모델을 이용하여, 학습될 수 있다.

예를 들어, 결정 모듈(310)은 신경망(160)을 포함하고, 리워드를 최대화하도록 학습될 수 있다. 예를 들어, 결정 모듈(310)은 정책이 현재 상태에서 리워드를 최대화하는 액션을 선택하도록 학습될 수 있다.

예를 들어, 최적화 모듈(170)은 가치 함수 알고리즘(value function algorithm) 또는 정책 알고리즘(policy algorithm)을 이용하여, 현재 상태에서 리워드를 최대화하는 액션을 선택하기 위한 정책을 결정할 수 있다. 최적화 모듈(170)은 심층 강화 학습의 모델에 따라, 가치 함수 알고리즘 또는 정책 알고리즘을 이용하여, 정책을 결정할 수 있다.

예를 들어, 신경망(160)은 심층 강화 학습의 모델에 따라, 현재 상태 및 액션에 따른 가치 함수를 근사하거나, 또는 현재 상태에 따른 가치를 근사할 수 있다. 신경망(160)은 리워드를 최대화하도록 학습될 수 있다.

일례로, 학습 장치(300)는 결정 모듈(310)에서 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)에 기초하여 생성된 학습 데이터를 이용하여, 학습 데이터에 포함된 트래픽의 전송 경로에 관한 학습 세그먼트를 결정할 수 있다. 학습 장치(300)는 결정 모듈(310)에서 학습 세그먼트에 기초하여, 학습 서비스 데이터(150)에 포함된 트래픽의 학습 전송 경로를 결정할 수 있다. 학습 장치(300)는 학습 전송 경로에 기초하여, 리워드를 최대화하도록 결정 모듈(310)을 학습시킬 수 있다.

예를 들어, 리워드는 학습 전송 경로에 따른 복수의 네트워크 장치(210-1, ..., 210-n)의 최소 가용 대역폭이 클수록 크게 결정될 수 있다. 예를 들어, 리워드는 복수의 네트워크 장치(210-1, ..., 210-n)의 링크에서, (최소 가용 대역폭 / 최대 가용 대역폭), (최소 가용 대역폭 / 최대 대역폭), 최소 가용 대역폭 등과 같이 계산될 수 있다. 리워드는 현재 상태에서 액션에 따라 트래픽의 전송 경로의 전부 또는 일부가 결정된 후의 최소 가용 대역폭 등에 기초하여 결정될 수 있다.

상기의 학습 장치(300)는 심층 강화 학습 방법에 따라 결정 모듈(310)을 학습시킬 수 있고, 심층 강화 학습을 위한 모델은 상기의 예시들로 한정되지 않는다. 결정 모듈(310)을 심층 강화 학습 방법에 따라 학습시키기 위하여, 학습 장치(300)는 심층 강화 학습에 관하여 공지된 방법을 이용하여 결정 모듈(310)을 학습시킬 수 있다.

도 3에서, 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)는 학습 장치(300)로부터 수신한 데이터를 이용하여 결정 모듈(310)이 생성하는 것으로 도시되어 있으나, 이에 한정되지 않고, 학습 장치(300)가 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)를 생성하여, 결정 모듈(310)에 입력할 수 있다.

도 4는 다양한 실시예들에 따른 결정 모듈(예: 도 3의 결정 모듈(310)) 학습 방법의 동작 흐름도이다.

도 4를 참조하면, 다양한 실시예들에 따른 학습 장치(예: 도 3의 학습 장치(300))는 동작(410)에서 학습 데이터를 이용하여, 학습 서비스 데이터(예: 도 1, 도 3의 학습 서비스 데이터(150))에 포함된 트래픽의 전송 경로에 관한 학습 세그먼트를 결정할 수 있다. 예를 들어, 학습 장치(300)는 결정 모듈(310)이 학습 세그먼트를 결정하도록 할 수 있다.

예를 들어, 학습 데이터는 학습 네트워크 데이터(예: 도 1, 도 3의 학습 네트워크 데이터(140)) 및 학습 서비스 데이터(150)에 기초하여 생성될 수 있다. 예를 들어, 학습 장치(300)는 네트워크에 포함된 복수의 네트워크 장치(예: 도 1, 도 3의 복수의 네트워크 장치(210-1, ..., 210-n))로부터 수신한 데이터를 이용하여, 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)를 생성할 수 있다.

일례로, 학습 장치(300)는 동작(420)에서 학습 세그먼트에 기초하여, 학습 서비스 데이터(150)에 포함된 트래픽의 학습 전송 경로를 결정할 수 있다. 예를 들어, 학습 장치(300)는 결정 모듈(310)을 이용하여, 학습 세그먼트에 따라 트래픽의 학습 전송 경로를 결정할 수 있다.

일례로, 학습 장치(300)는 동작(430)에서 리워드를 최대화하도록, 결정 모듈(310)을 학습시킬 수 있다. 예를 들어, 학습 장치(300)는 심층 강화 학습 방식에 따라, 결정 모듈(310)을 학습시킬 수 있다. 예를 들어, 결정 모듈(310)은 현재 상태 및 액션에 따라 q 밸류를 출력하거나 또는 현재 상태에 따라 가치를 출력하는 신경망(예: 도 1, 도 3의 신경망(160)을 포함할 수 있다. 결정 모듈(310)은 신경망(160)의 출력값에 기초하여 액션을 선택할 수 있다. 학습 장치(300)는 액션에 따른 리워드가 최대화되도록, 결정 모듈(310)을 학습시킬 수 있다.

일례로, 학습 장치(300)는 동작(440)에서 트래픽의 전송 경로에 대한 세그먼트를 결정하기 위한 정책을 결정할 수 있다. 예를 들어, 전자 장치(100)는 정책에 따라, 네트워크 데이터(140) 및 서비스 데이터(150)에 따른 현재 상태에서, 리워드를 최대화하는 액션을 출력할 수 있다. 액션은 트래픽에 대한 세그먼트를 결정하는 동작을 나타낼 수 있다.

상기의 도 4의 실시예에서 각 동작들은 순차적으로 수행될 수도 있으나, 반드시 순차적으로 수행되는 것은 아니다. 예를 들어, 각 동작들의 순서가 변경될 수도 있으며, 적어도 두 동작들이 병렬적으로 수행될 수도 있다.

일례로, 도 4에 도시된 동작(410) 내지 동작(440)은 전자 장치(예: 도 1의 전자 장치(101) 또는 학습 장치(예: 도 3의 학습 장치(300))의 프로세서(예: 도 1의 전자 장치(101)의 프로세서, 도 3의 프로세서(320))에 의해 수행되는 것으로 이해될 수 있다.

도 5는 다양한 실시예들에 따른 결정 모듈(예: 도 3의 결정 모듈(310))을 학습시키기 위한 에피소드를 나타낸 도면이다.

도 5를 참조하면, 일 실시예에 따른 학습 장치(예: 도 3의 학습 장치(300))는 학습 네트워크 데이터(예: 도 1, 도 3의 네트워크 데이터(140)) 및 학습 서비스 데이터(도 1, 도 3의 서비스 데이터(150))에 기초하여 결정된 서비스가 미리 설정된 임계 개수 입력될 때까지, 매 스텝마다 학습 세그먼트를 결정하도록 결정 모듈(310)을 학습시킬 수 있다.

예를 들어, 학습 네트워크 데이터 1(140-1) 및 학습 서비스 데이터 1(150-1)에 따른 서비스 1(510-1)가 결정 모듈(310)에 입력되면, 동작(520)에서 결정 모듈(310)의 학습을 위한 에피소드가 시작될 수 있다. 결정 모듈(310)은 스텝 1(530-1), 스텝 2(530-2), 스텝 3(530-3)에서, 각각 학습 세그먼트를 결정하고, 결정된 학습 세그먼트에 따라 학습 서비스 데이터 1(150-1)에 포함된 트래픽의 학습 전송 경로를 결정할 수 있다.

학습 서비스 데이터 2(150-2) 및 네트워크 데이터 2(140-2)에 따른 서비스 2(510-2)가 결정 모듈(310)에 입력되면, 결정 모듈(310)은 스텝 3(530-3) 이후 스텝에서 서비스 2에 따라, 트래픽의 학습 세그먼트를 결정하고, 학습 세그먼트에 따라 학습 전송 경로를 결정할 수 있다.

결정 모듈(310)의 학습을 위한 에피소드는 미리 설정된 임계 개수의 서비스가 입력될 때까지 진행될 수 있다. 예를 들어, 미리 설정된 임계 개수가 n일 때, 도 5와 같이 스텝 m(530-m)에서 학습 서비스 데이터 n(150-n) 및 학습 네트워크 데이터(140-n)에 따른 서비스 n(510-n)이 입력되면, 동작(540)에서 결정 모듈(310)의 학습을 위한 에피소드가 종료될 수 있다.

일례로, 학습 장치(300)는 학습 데이터를 이용하여, 임의의 복수의 서비스를 포함하는 에피소드를 생성할 수 있다. 예를 들어, 학습 장치(300)는 미리 설정된 임계 개수의 서비스를 포함하는 에피소드를 생성할 수 있다. 학습 장치(300)는 생성한 에피소드를 이용하여, 결정 모듈(310)을 학습시킬 수 있다.

일례로, 학습 장치(300)는 학습 서비스 데이터(150)에 포함된 트래픽에 대하여, 미리 설정된 개수만큼 학습 세그먼트를 결정하도록 결정 모듈(310)을 학습시킬 수 있다. 예를 들어, 미리 설정된 개수가 n개인 경우, 도 5에서 결정 모듈(310)은 서비스(510-1, ...,510-n)에 각각에 대하여 n개의 세그먼트를 결정하여, 트래픽의 학습 전송 경로를 결정할 수 있다.

학습 장치(300)는 도 5와 같이, 미리 설정된 임계 개수의 서비스를 포함하는 에피소드에 따라 학습되기 때문에, 동적으로 변화하는 네트워크 상황을 고려하여 결정 모듈(310)을 학습시킬 수 있다. 또한, 도 5에 따른 학습 장치(300)는 결정 모듈(310)을 온라인 학습(online learning) 방식에 따라 학습시킬 수 있고, 전자 장치(100)는 결정된 정책을 이용하여 빠르게 변하는 네트워크 상황에서 트래픽 라우팅을 수행할 수 있다.

도 6은 다양한 실시예들에 따른 결정 모듈(예: 도 3의 결정 모듈(310))이 세그먼트를 결정하고, 트래픽의 전송 경로를 결정하는 동작을 나타낸 도면이다. 도 6은 트래픽의 출발 노드는 노드 1(210-1)이고, 도착 노드는 노드 16(210-16)인 트래픽에 대하여 결정 모듈(310)이 세그먼트를 결정하고, 트래픽의 전송 경로를 결정하는 동작을 나타낸다.

예를 들어, 결정 모듈(310)은 입력된 학습 데이터에 따라, 동작(610)에서 액션 1에 따라 노드 5(210-5)를 세그먼트로 결정할 수 있다. 결정 모듈(310)은 출발 노드인 노드 1(210-1)에서 세그먼트로 지정된 노드 5(210-5)까지 최단 경로 알고리즘에 따라, 동작(615)에서 노드 1(210-1)-노드 3(210-3)-노드 5(210-5)로 연결되는 전송 경로를 결정할 수 있다.

결정 모듈(310)은 동작(620)에서 액션 2에 따라 노드 15(210-15)를 세그먼트로 결정할 수 있다. 결정 모듈(310)은 노드 5(210-5)에서 세그먼트로 지정된 노드 15(210-15)까지 최단 경로 알고리즘에 따라, 동작(625)에서 노드 5(210-5)-노드 14(210-14)-노드 15(210-15)로 연결되는 전송 경로를 결정할 수 있다.

결정 모듈(310)은 동작(630)에서 액션 3에 따라 노드 16(210-16)를 세그먼트로 결정할 수 있다. 결정 모듈(310)은 노드 15(210-15)에서 세그먼트로 지정된 노드 16(210-16)까지 최단 경로 알고리즘에 따라, 동작(635)에서 노드 5(210-5)-노드 16(210-16)로 연결되는 전송 경로를 결정할 수 있다.

상기의 결정 모듈(310)이 트래픽의 전송 경로에 관한 세그먼트를 결정하고, 결정된 세그먼트에 따라 트래픽의 전송 경로를 결정하는 동작에 관한 설명은, 도 1의 전자 장치(100)가 식별한 네트워크 데이터(140) 및 서비스 데이터(150)에 기초하여, 정책에 따라 트래픽의 전송 경로에 관한 세그먼트를 결정하고, 결정된 세그먼트에 따라 트래픽의 전송 경로를 결정하는 동작에 실질적으로 동일하게 적용될 수 있다.

다양한 실시예들에 따른 전자 장치(예: 도 1의 전자 장치(100))는 프로세서 및 상기 프로세서와 전기적으로 연결되고, 상기 프로세서에 의해 실행될 수 있는 명령어를 저장하는 메모리를 포함할 수 있다. 상기 프로세서는, 상기 명령어가 실행될 때, 복수의 네트워크 장치(예: 도 1의 노드 1, ..., 노드 n(210-1, ..., 210-n))로부터 발생한 트래픽에 관한 서비스 데이터(예: 도 1의 서비스 데이터(150)) 및 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 링크 정보를 포함하는 네트워크 데이터(예: 도 1의 네트워크 데이터(140))를 식별할 수 있다. 상기 프로세서는, 심층 강화 학습(deep reinforcement learning) 방식에 따라 학습된 결정 모듈(예: 도 1의 결정 모듈(110), 도 3의 결정 모듈(310))로부터 결정된 정책(policy)에 따라, 상기 서비스 데이터(150) 및 상기 네트워크 데이터(140)를 이용하여, 상기 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정할 수 있다. 상기 프로세서는, 상기 세그먼트에 기초하여, 상기 트래픽의 전송 경로를 결정할 수 있다.

상기 결정 모듈(110, 310)은, 학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)에 기초하여 생성된 학습 데이터를 이용하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 전송 경로에 관한 학습 세그먼트를 결정할 수 있다. 상기 결정 모듈(110, 310)은, 상기 학습 세그먼트에 기초하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 학습 전송 경로를 결정할 수 있다. 상기 결정 모듈(110, 310)은, 상기 학습 전송 경로에 기초하여 결정된 리워드를 최대화하도록 학습될 수 있다.

상기 결정 모듈(110, 310)은, 상기 학습 네트워크 데이터(140) 및 상기 학습 서비스 데이터(150)에 기초하여 결정된 서비스가 미리 설정된 임계 개수 입력될 때까지, 매 스텝마다 상기 학습 세그먼트를 결정하도록 학습될 수 있다.

상기 결정 모듈(110, 310)은, 상기 학습 서비스 데이터(150)에 포함된 트래픽에 대하여, 미리 설정된 개수만큼 상기 학습 세그먼트를 결정할 수 있다.

상기 리워드는, 상기 학습 전송 경로에 따른 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 최소 가용 대역폭이 클수록 크게 결정될 수 있다.

상기 프로세서는, 상기 세그먼트에 기초하여, 최단 경로 알고리즘에 따라, 상기 트래픽의 전송 경로를 결정할 수 있다.

다양한 실시예들에 따른 전송 경로 결정 방법은 복수의 네트워크 장치(210-1, ..., 210-n)로부터 발생한 트래픽에 관한 서비스 데이터(150) 및 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 링크 정보를 포함하는 네트워크 데이터(140)를 식별하는 동작, 심층 강화 학습(deep reinforcement learning) 방식에 따라 학습된 결정 모듈(110, 310)로부터 결정된 정책(policy)에 따라, 상기 서비스 데이터(150) 및 상기 네트워크 데이터(140)를 이용하여, 상기 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정하는 동작 및 상기 세그먼트에 기초하여, 상기 트래픽의 전송 경로를 결정하는 동작을 포함할 수 있다.

상기 트래픽의 전송 경로를 결정하는 동작은, 상기 세그먼트에 기초하여, 최단 경로 알고리즘에 따라, 상기 트래픽의 전송 경로를 결정할 수 있다.

다양한 실시예들에 따른 결정 모듈 학습 방법은 학습 네트워크 데이터(예: 도 1, 도 3의 네트워크 데이터(140)) 및 학습 서비스 데이터(예: 도 1, 도 3의 서비스 데이터(150))에 기초하여 생성된 학습 데이터를 이용하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 전송 경로에 관한 학습 세그먼트를 결정하는 동작, 상기 학습 세그먼트에 기초하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 학습 전송 경로를 결정하는 동작, 심층 강화 학습(deep reinforcement learning) 방식에 따라, 상기 학습 전송 경로에 기초하여 결정된 리워드를 최대화하도록 결정 모듈(110, 310)을 학습시키는 동작, 복수의 네트워크 장치(예: 도 1, 도 3의 노드 1, ..., 노드 n(210-1, ..., 210-n))로부터 식별된 네트워크 데이터(140) 및 서비스 데이터(150)에 대응하여, 상기 서비스 데이터(150)에 포함된 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정하기 위한 정책(policy)를 결정하는 동작을 포함할 수 있다.

상기 결정 모듈(110, 310)을 학습시키는 동작은, 상기 학습 네트워크 데이터(140) 및 상기 학습 서비스 데이터(150)에 기초하여 결정된 서비스가 미리 설정된 임계 개수 입력될 때까지, 매 스텝마다 상기 학습 세그먼트를 결정하도록 상기 결정 모듈(110, 310)을 학습시킬 수 있다.

상기 트래픽의 전송 경로에 관한 학습 세그먼트를 결정하는 동작은, 상기 학습 서비스 데이터(150)에 포함된 트래픽에 대하여, 미리 설정된 개수만큼 상기 학습 세그먼트를 결정할 수 있다.

상기 결정 모듈(110, 310)을 학습시키는 동작은, 상기 학습 전송 경로에 따른 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 최소 가용 대역폭이 클수록 상기 리워드를 크게 결정할 수 있다.

본 문서에 개시된 다양한 실시예들에 따른 전자 장치(100)는 다양한 형태의 장치가 될 수 있다. 전자 장치(100)는, 예를 들면, 휴대용 통신 장치(예: 스마트폰), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 문서의 실시예에 따른 전자 장치(100)는 전술한 기기들에 한정되지 않는다.

본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B 및 C 중 적어도 하나", 및 "A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, "기능적으로" 또는 "통신적으로"라는 용어와 함께 또는 이런 용어 없이, "커플드" 또는 "커넥티드"라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.

본 문서의 다양한 실시예들에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로와 같은 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(100)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리 또는 외장 메모리)에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램)로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(100))의 프로세서(예: 프로세서)는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

일실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory(CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트 폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

다양한 실시예들에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있으며, 복수의 개체 중 일부는 다른 구성요소에 분리 배치될 수도 있다. 다양한 실시예들에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

전자 장치(100)에 있어서,

프로세서; 및

상기 프로세서와 전기적으로 연결되고, 상기 프로세서에 의해 실행될 수 있는 명령어를 저장하는 메모리

를 포함하고,

상기 프로세서는,

상기 명령어가 실행될 때, 복수의 네트워크 장치(210-1, ..., 210-n)로부터 발생한 트래픽에 관한 서비스 데이터(150) 및 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 링크 정보를 포함하는 네트워크 데이터(140)를 식별하고,

심층 강화 학습(deep reinforcement learning) 방식에 따라 학습된 결정 모듈(110, 310)로부터 결정된 정책(policy)에 따라, 상기 서비스 데이터(150) 및 상기 네트워크 데이터(140)를 이용하여, 상기 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정하고;

상기 세그먼트에 기초하여, 상기 트래픽의 전송 경로를 결정하는,

전자 장치(100).
제1항에 있어서,

상기 결정 모듈(110, 310)은,

학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)에 기초하여 생성된 학습 데이터를 이용하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 전송 경로에 관한 학습 세그먼트를 결정하고,

상기 학습 세그먼트에 기초하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 학습 전송 경로를 결정하고,

상기 학습 전송 경로에 기초하여 결정된 리워드를 최대화하도록 학습되는,

전자 장치(100).
제1항 및 제2항 중 어느 한 항에 있어서,

상기 결정 모듈(110, 310)은,

상기 학습 네트워크 데이터(140) 및 상기 학습 서비스 데이터(150)에 기초하여 결정된 서비스가 미리 설정된 임계 개수 입력될 때까지, 매 스텝마다 상기 학습 세그먼트를 결정하도록 학습되는,

전자 장치(100).
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 결정 모듈(110, 310)은,

상기 학습 서비스 데이터(150)에 포함된 트래픽에 대하여, 미리 설정된 개수만큼 상기 학습 세그먼트를 결정하는,

전자 장치(100).
제1항 내지 제4항 중 어느 한 항에 있어서,

상기 리워드는,

상기 학습 전송 경로에 따른 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 최소 가용 대역폭이 클수록 크게 결정되는,

전자 장치(100).
제1항 내지 제5항 중 어느 한 항에 있어서,

상기 프로세서는,

상기 세그먼트에 기초하여, 최단 경로 알고리즘에 따라, 상기 트래픽의 전송 경로를 결정하는,

전자 장치(100).
복수의 네트워크 장치(210-1, ..., 210-n)로부터 발생한 트래픽에 관한 서비스 데이터(150) 및 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 링크 정보를 포함하는 네트워크 데이터(140)를 식별하는 동작;

심층 강화 학습(deep reinforcement learning) 방식에 따라 학습된 결정 모듈(110, 310)로부터 결정된 정책(policy)에 따라, 상기 서비스 데이터(150) 및 상기 네트워크 데이터(140)를 이용하여, 상기 트래픽의 전송 경로에 관한 세그먼트(segment)를 결정하는 동작; 및

상기 세그먼트에 기초하여, 상기 트래픽의 전송 경로를 결정하는 동작

을 포함하는

전송 경로 결정 방법.
제7항에 있어서,

상기 결정 모듈(110, 310)은,

학습 네트워크 데이터(140) 및 학습 서비스 데이터(150)에 기초하여 생성된 학습 데이터를 이용하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 전송 경로에 관한 학습 세그먼트를 결정하고,

상기 학습 세그먼트에 기초하여, 상기 학습 서비스 데이터(150)에 포함된 트래픽의 학습 전송 경로를 결정하고,

상기 학습 전송 경로에 기초하여 결정된 리워드를 최대화하도록 학습되는,

전송 경로 결정 방법.
제7항 및 제8항 중 어느 한 항에 있어서,

상기 결정 모듈(110, 310)은,

상기 학습 네트워크 데이터(140) 및 상기 학습 서비스 데이터(150)에 기초하여 결정된 서비스가 미리 설정된 임계 개수 입력될 때까지, 매 스텝마다 상기 학습 세그먼트를 결정하도록 학습되는,

전송 경로 결정 방법.
제7항 내지 제9항 중 어느 한 항에 있어서,

상기 결정 모듈(110, 310)은,

상기 학습 서비스 데이터(150)에 포함된 트래픽에 대하여, 미리 설정된 개수만큼 상기 학습 세그먼트를 결정하는,

전송 경로 결정 방법.
제7항 내지 제10항 중 어느 한 항에 있어서,

상기 리워드는,

상기 학습 전송 경로에 따른 상기 복수의 네트워크 장치(210-1, ..., 210-n)의 최소 가용 대역폭이 클수록 크게 결정되는,

전송 경로 결정 방법.
제7항 내지 제11항 중 어느 한 항에 있어서,

상기 트래픽의 전송 경로를 결정하는 동작은,

상기 세그먼트에 기초하여, 최단 경로 알고리즘에 따라, 상기 트래픽의 전송 경로를 결정하는,

전송 경로 결정 방법.