KR20220097201A

KR20220097201A - 연합학습을 이용한 네트워크 혼잡 제어방법

Info

Publication number: KR20220097201A
Application number: KR1020210149374A
Authority: KR
Inventors: 이성근; 정설령
Original assignee: 순천대학교 산학협력단
Priority date: 2020-12-30
Filing date: 2021-11-03
Publication date: 2022-07-07

Abstract

개시된 기술은 연합학습을 이용한 네트워크 혼잡 제어방법에 관한 것으로, 네트워크에 포함된 복수의 하위노드들 중 제 1 노드가 시뮬레이터를 이용하여 가상의 네트워크를 구축하고, 상기 가상의 네트워크에 대한 혼잡 상태를 생성하는 단계; 상기 제 1 노드가 상기 혼잡 상태에 대한 정보를 제 1 강화학습 모델에 입력하고 상기 제 1 강화학습 모델의 출력값을 토대로 상기 가상의 네트워크에 대한 송신윈도우를 조절하는 단계; 상기 제 1 노드가 상기 송신윈도우를 조절한 후 상기 가상의 네트워크의 상태를 감지하여 상기 제 1 강화학습 모델의 파라미터를 조절하는 단계; 상기 네트워크에 포함된 복수의 상위노드들 중 제 2 노드가 상기 제 1 노드로부터 상기 제 1 강화학습 모델의 파라미터를 수신하는 단계; 및 상기 제 2 노드가 상기 수신된 파라미터를 이용하여 제 2 강화학습 모델을 학습하는 단계;를 포함한다.

Description

연합학습을 이용한 네트워크 혼잡 제어방법 {NETWORK CONGESTION CONTROL METHOD USING FEDERATED LEARNING}

개시된 기술은 연합학습을 이용하여 네트워크의 혼잡을 제어하는 방법에 관한 것이다.

5G 서비스의 제공과 함께 모바일 기반의 다양한 멀티미디어 서비스가 급증하게 됨에 따라 오늘날의 인터넷 전송 프로토콜에 큰 영향을 미치게 되었다. 유선 및 무선 링크의 고속화와 더불어 전송 용량이 꾸준히 증가되어 왔지만, 사용자 요구와 인터넷이 제공할 수 있는 전송 서비스의 능력과의 간극은 실제적으로 점점 커지고 있다. 특히, 비디오 스트리밍, 클라우드 저장소, 온라인 게임과 같은 새로운 응용 프로그램의 확산으로 인해 데이터 전송 환경에 대한 더 높은 성능 요구가 발생하고 있으며, 이에 따라 보다 높은 처리량, 신뢰성뿐만 아니라 낮은 전송 지연을 보장하는 프로토콜의 개발이 요구되는 상황이다.

이러한 상황에서 혼잡 제어는 전송 계층의 가장 중요한 네트워킹 기능으로, 응용 서비스 데이터의 신뢰성 있는 전달을 위해 중요한 역할을 수행한다. 지난 수십 년 동안 통신망의 진화와 새로운 응용 서비스의 출현에 따라 발생되는 혼잡을 최소화하며, 사용자에게 높은 처리율과 낮은 지연을 보장하며, 통신망의 효율을 최대화하려는 목적으로 TCP NewReno와 같은 TCP 기반의 다양한 혼잡 제어 메커니즘이 개발되었다. 이러한 메커니즘은 긍정 응답 메시지를 기반으로 평가된 네트워크 상황(처리율, Round trip time 등)을 토대로 네트워크의 혼잡 레벨을 추정하고, 이를 기반으로 미리 정해진 규칙에 따라 송신자가 혼잡 윈도우(Congestion window) 크기를 조정함으로써 혼잡 상황을 방지하고, 처리율을 극대화하는 방법이다. 그러나 네트워크의 환경이 매우 복잡하게 확장되고, 무선 및 이동 통신 서비스의 급증에 따라 이러한 프로토콜들은 특정한 조건 하에서만 제대로 된 성능을 발휘할 수 있을 뿐, 광범위한 실제 네트워킹 시나리오에서는 제대로 수행되지 못하는문제가 있었다. 최근에는 이러한 문제점을 해결하기 위해서 라우팅, 혼잡 제어, 보안 등 다양한 분야에서 딥러닝 및 강화학습을 통한 성능 향상 및 지능화 연구가 매우 활발히 진행되고 있다.

한국 등록특허 제10-2208877호

개시된 기술은 연합학습을 이용하여 네트워크의 혼잡을 제어하는 방법을 제공하는데 있다.

상기의 기술적 과제를 이루기 위하여 개시된 기술의 제 1 측면은 네트워크에 포함된 복수의 하위노드들 중 제 1 노드가 시뮬레이터를 이용하여 가상의 네트워크를 구축하고, 상기 가상의 네트워크에 대한 혼잡 상태를 생성하는 단계, 상기 제 1 노드가 상기 혼잡 상태에 대한 정보를 제 1 강화학습 모델에 입력하고 상기 제 1 강화학습 모델의 출력값을 토대로 상기 가상의 네트워크에 대한 송신윈도우를 조절하는 단계, 상기 제 1 노드가 상기 송신윈도우를 조절한 후 상기 가상의 네트워크의 상태를 감지하여 상기 제 1 강화학습 모델의 파라미터를 조절하는 단계, 상기 네트워크에 포함된 복수의 상위노드들 중 제 2 노드가 상기 제 1 노드로부터 상기 제 1 강화학습 모델의 파라미터를 수신하는 단계 및 상기 제 2 노드가 상기 수신된 파라미터를 이용하여 제 2 강화학습 모델을 학습하는 단계를 포함하는 연합학습을 이용한 네트워크 혼잡 제어방법을 제공하는데 있다.

개시된 기술의 실시 예들은 다음의 장점들을 포함하는 효과를 가질 수 있다. 다만, 개시된 기술의 실시 예들이 이를 전부 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

개시된 기술의 일 실시예에 따른 연합학습을 이용한 네트워크 혼잡 제어방법은 실제 네트워크에 적용하기 어려운 학습 과정을 가상의 네트워크를 통해 수행함으로써 네트워크 트래픽을 증가시키지 않고 효율적인 학습을 수행하는 효과가 있다.

또한, 하위노드들의 학습 결과를 상위노드가 취합하여 네트워크 전반에 따른 최적의 혼잡 제어 정책을 결정하는 효과가 있다.

도 1은 개시된 기술의 일 실시예에 따라 파라미터를 공유하는 과정을 나타낸 도면이다.
도 2는 개시된 기술의 일 실시예에 따른 연합학습을 이용한 네트워크 혼잡 제어방법에 대한 순서도이다.
도 3은 가상의 네트워크를 이용하는 강화학습 에이전트를 나타낸 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제 1 , 제 2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 한다. 그리고 "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다.

그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다. 따라서, 본 명세서를 통해 설명되는 각 구성부들의 존재 여부는 기능적으로 해석되어야 할 것이다.

도 1은 개시된 기술의 일 실시예에 따라 파라미터를 공유하는 과정을 나타낸 도면이다. 도 1을 참조하면 네트워크에는 복수개의 하위노드와 복수개의 상위노드가 포함된다. 하위노드 및 상위노드는 실제로 네트워크를 구축하기 위해서 컴퓨터 또는 스마트폰과 같이 통신 기능이 탑재된 디바이스일 수 있다. 그리고 네트워크는 이들 디바이스들 간에 구축되는 무선 네트워크일 수도 있고 유선 네트워크일 수도 있다. 이와 같이 네트워크가 구축되면 각 디바이스들 간에 데이터를 주고받는 과정에서 데이터 전송이 지연되거나 누락되는 등의 트래픽이 발생할 수 있다. 이를 해소하기 위해서는 해당 네트워크를 위한 혼잡 제어 정책을 수립해야 한다. 개시된 기술에서는 이러한 문제점을 해소하기 위해서 하위노드들의 강화학습 결과를 상위노드에 전송하고 상위노드가 연합학습을 통해 다양한 네트워크 시나리오에 대한 혼잡 제어 프로토콜을 적응적으로 수립하고자 한다.

복수개의 하위노드는 각각 강화학습 모델이 탑재된다. 도 1에 도시된 바와 같이 하나의 상위노드에는 복수개의 하위노드들이 연결될 수 있다. 이러한 그룹이 다수 네트워크에 포함될 수 있다. 따라서, 네트워크 상의 하위노드와 상위노드들은 복수개일 수 있다. 이하에서는 복수의 하위노드들 중 하위노드a가 상위노드a에 학습 결과를 전송하는 과정을 예시로 설명한다. 설명의 편의를 위해 하위노드a는 제 1 노드로 명명하고 상위노드a는 제 2 노드로 명명한다.

상술한 바와 같이 모든 노드는 네트워크를 구축하는 디바이스이므로 제 1 노드 또한 실제로는 컴퓨터나 스마트폰과 같은 디바이스일 수 있다. 따라서, 제 1 노드는 디바이스 내 저장공간에 가상의 네트워크를 구축할 수 있는 시뮬레이터와 강화학습 모델을 저장할 수 있다. 제 1 노드는 저장된 시뮬레이터를 이용하여 가상의 네트워크를 구축할 수 있다. 제 1 노드는 ns-3 시뮬레이터와 같은 네트워크 시뮬레이터를 탑재할 수 있으며 시뮬레이터를 이용하여 실제 네트워크와 유사하거나 서로 다른 환경의 가상 네트워크를 구축할 수 있다. 그리고 가상의 네트워크에 대한 혼잡 상태를 생성할 수 있다. 혼잡 상태는 가상의 네트워크에서 임의의 송신측에서 수신측으로 전송한 패킷의 평균 왕복지연시간(Round Trip Time, RTT), 최소 왕복지연시간 및 응답(Acknowledgement, ACK) 도착률을 포함한다. 제 1 노드는 시뮬레이터를 이용하여 가상의 네트워크에 대한 혼잡 상태를 랜덤하게 생성할 수 있다.

한편, 제 1 노드는 가상의 네트워크에 대한 혼잡 상태를 생성한 후 혼잡 상태에 대한 정보를 제 1 강화학습 모델에 입력한다. 제 1 강화학습 모델은 제 1 노드가 탑재하는 강화학습 모델이며 다른 하위노드들 또한 각각 강화학습 모델을 탑재하고 있다. 제 1 노드는 제 1 강화학습 모델의 출력값을 토대로 가상의 네트워크에 대한 송신윈도우를 조절한다. 송신윈도우를 조절하면 제 1 노드는 가상의 네트워크의 상태를 감지할 수 있다. 예컨대, 최초 생성한 혼잡 상태에서 부하가 줄어들었는지 감지할 수 있다. 제 1 노드는 네트워크 상태를 감지한 값을 토대로 제 1 강화학습 모델의 파라미터를 조절할 수 있다. 즉, 제 1 노드가 구축한 가상의 네트워크가 환경(Environment)에 해당하고, 가상의 네트워크에 대한 혼잡 상태가 상태(State)에 해당한다. 그리고 제 1 노드의 출력값에 따라 송신윈도우를 조절하는 것이 액션(Action)에 해당하고 네트워크 상태를 감지한 값이 리워드(Reward)에 해당한다.

이와 같이 제 1 노드는 상태, 액션 및 리워드를 토대로 제 1 강화학습 모델을 학습하는 과정을 수행한다. 그리고 강화학습에 대한 결과를 상위노드인 제 2 노드로 전송한다. 여기에서 강화학습에 대한 결과는 조절된 파라미터를 의미한다. 즉, 하위노드가 자신의 모델 자체를 상위노드로 전송하는 것이 아니라 학습 결과만 전송하여 실제 네트워크에 추가적인 부하가 걸리지 않도록 할 수 있다.

한편, 제 2 노드는 제 1 노드에서 전송된 파라미터를 이용하여 자신의 모델을 학습시킨다. 제 2 노드는 제 2 강화학습 모델을 탑재하며 제 2 강화학습 모델은 제 1 강화학습 모델과 동일한 구조의 모델일 수 있다. 다만 제 1 강화학습 모델은 가상의 네트워크를 이용하여 학습되는 반면, 제 2 강화학습 모델은 제 1 강화학습 모델의 결과값과 다른 하위노드들에서 학습된 모델들의 파라미터를 취합하여 연합학습을 수행한다는 점에서 차이가 있다. 이는 제 2 노드를 통해 실제 네트워크의 혼잡 제어 프로토콜이 결정되기 때문이다. 하위노드들의 학습 과정 없이 바로 실제 네트워크에 강화학습에 따른 정책을 적용하기에는 리스크가 크기 때문에 하위노드들의 학습 결과를 상위노드가 연합학습 함으로써 리스크를 줄이고 실제 네트워크에서 발생할 수 있는 여러 가지 변수들에 적응적으로 대처하는 것이 가능하다.

한편, 다시 도 1을 참조하면 네트워크 상에는 다른 상위노드가 존재하며 제 2 노드에 연결되지 않은 다른 하위노드들도 존재한다. 예컨대, 네트워크 상에는 상위노드a 뿐만 아니라 상위노드b도 존재하며 상위노드a에 연결되지 않은 하위노드d 및 하위노드e도 존재한다. 즉, 상위노드a는 연결되어 있는 하위노드 a 내지 c의 학습 결과를 연합학습에 이용할 수 있지만 하위노드d 및 하위노드e는 연결되어 있지 않으므로 이들의 학습 결과는 연합학습에 이용할 수 없다. 따라서, 상위노드들 간에는 서로의 파라미터를 공유함으로써 모든 하위노드들의 학습 결과를 연합학습에 이용하는 것이 가능하다. 상위노드a 및 상위노드b는 각자 수신한 하위노드들의 파라미터를 공유하거나 각자 수신한 하위노드들의 파라미터를 이용하여 학습한 결과를 공유할 수 있다. 이러한 과정에 따라 네트워크 상의 모든 상위노드들이 모든 하위노드들의 학습 결과를 연합학습에 이용하는 것이 가능하다. 상위노드들은 연합학습 결과에 따라 실제 네트워크의 혼잡 윈도우(Congestion Window)를 조절할 수 있다.

도 2는 개시된 기술의 일 실시예에 따른 연합학습을 이용한 네트워크 혼잡 제어방법에 대한 순서도이다. 도 2를 참조하면 연합학습을 이용한 네트워크 혼잡 제어방법은 210 내지 250 단계를 포함한다. 각 단계는 순차적으로 수행될 수 있고 실제 네트워크를 구축하는 상위노드와 하위노드들이 수행주체가 될 수 있다.

210 단계에서 네트워크에 포함된 복수의 하위노드들 중 제 1 노드가 시뮬레이터를 이용하여 가상의 네트워크를 구축하고, 가상의 네트워크에 대한 혼잡 상태를 생성한다. 제 1 노드는 시뮬레이터 및 강화학습 모델을 저장하는 디바이스일 수 있다. 제 1 노드는 시뮬레이터를 이용하여 가상의 네트워크를 구축하고 가상의 네트워크에 대한 혼잡 상태를 랜덤하게 생성한다.

220 단계에서 제 1 노드가 가상 네트워크의 혼잡 상태에 대한 정보를 제 1 강화학습 모델에 입력한다. 그리고 제 1 강화학습 모델의 출력값을 토대로 가상의 네트워크에 대한 송신윈도우를 조절한다. 제 1 노드는 제 1 강화학습 모델의 입력값으로 가상 네트워크의 혼잡 상태에 대한 정보를 이용한다. 혼잡 상태에 대한 정보는 가상 네트워크의 임의의 송신측에서 수신측으로 전송한 패킷의 평균 왕복지연시간(Round Trip Time, RTT), 최소 왕복지연시간 및 응답(Acknowledgement, ACK) 도착률을 포함한다. 제 1 노드는 이러한 요소들을 제 1 강화학습 모델에 입력 가능한 형태로 변환할 수 있다. 예컨대, 숫자나 벡터 등으로 변환하여 제 1 강화학습 모델의 입력값으로 이용할 수 있다. 그리고 제 1 강화학습 모델은 송신윈도우를 조절하는 출력값을 출력할 수 있다.

230 단계에서 제 1 노드는 송신윈도우를 조절한 후 가상의 네트워크의 상태를 감지하여 제 1 강화학습 모델의 파라미터를 조절한다. 제 1 노드는 제 1 강화학습 모델의 리워드로 가상의 네트워크의 상태를 감지한 값을 제공한다. 그리고 제 1 강화학습 모델은 리워드를 이용하여 송신윈도우를 조절하는 출력값을 최적화하기 위해 파라미터가 조절될 수 있다.

240 단계에서 제 2 노드가 제 1 노드로부터 제 1 강화학습 모델의 파라미터를 수신한다. 그리고 수신된 파라미터를 이용하여 제 2 강화학습 모델을 학습한다. 제 2 노드는 실제 네트워크에 포함된 복수의 상위노드들 중 하나이며, 하위노드인 제 1 노드의 학습 결과를 수신할 수 있다. 뿐만 아니라 네트워크에 연결된 다른 하위노드의 학습 결과도 수신할 수 있다. 즉, 제 2 노드는 다수의 하위노드들의 학습 결과를 이용하여 연합학습을 수행할 수 있다.

도 3은 가상의 네트워크를 이용하는 강화학습 에이전트를 나타낸 도면이다. 강화학습은 에이전트와 환경이라는 두 개의 개체로 구성되며, 이들 간의 상호 작용은 지속적으로 환경에 영향을 미치고, 에이전트는 환경과의 상호 작용을 통해 얻게 되는 보상값을 통해 학습한다. 강화학습은 순차적 행동 결정 문제를 풀기 위해 최적의 정책을 구하는 과정이다. 각 에피소드 동안에, 에이전트는 상태 정보를 관찰하고, 해당 상태에서 정의된 정책에 따라 행동을 결정한다. 여기에서 상태 정보는 가상의 네트워크에 대한 혼잡 상태를 의미하며 행동은 송신윈도우를 조절하는 것을 의미한다.

한편, 정의된 정책에 따라 에이전트는 행동을 수행하고, 환경으로부터 벡터 또는 스칼라 형태의 보상값을 받고, 환경의 변화된 다음 상태를 관찰한다. 에이전트는 이러한 과정을 반복하여 전체 에피소드 동안 환경으로부터 얻어지는 누적 보상값을 최대화하는 정책을 찾도록 학습한다. 심층 강화학습은 각 상태에 따라 최적의 정책을 구하기 위해 딥러닝을 통해 근사화함으로써 상태나 행동의 차원이 높은 여러 응용에 효율적으로 적용된다. 심층강화학습은 가치기반학습과 정책기반학습으로 분류된다.

한편, 도 3과 같이 학습 에이전트는 네트워크 환경과 상호작용을 통해 통신망의 처리율을 최대화하고, 지연을 최소화하는 최적의 정책을 계속해서 탐색한다. 정책은 각 상태에서 실행할 수 있는 행동에 대한 확률 분포를 나타내는데, 최적의 정책은 누적되는 보상값을 최대화하는 행동들을 선택한다. 에이전트는 TCP 송신 프로세스로서 RTT 정보 및 ACK 정보 등을 통해 환경의 상태를 관찰하고, 네트워크 유입하는 트래픽의 용량을 결정하는 혼잡 윈도우 크기를 조정한다. 개시된 기술에서는 ns-3 시뮬레이터를 통해 구축한 가상 네트워크를 환경으로 이용하고 있으나 실제 운용되는 다양한 네트워크에 대한 상태정보를 적용할 수도 있다.

개시된 기술의 일 실시예에 따른 연합학습을 이용한 네트워크 혼잡 제어방법은 이해를 돕기 위하여 도면에 도시된 실시 예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 개시된 기술의 진정한 기술적 보호범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.

Claims

네트워크에 포함된 복수의 하위노드들 중 제 1 노드가 시뮬레이터를 이용하여 가상의 네트워크를 구축하고, 상기 가상의 네트워크에 대한 혼잡 상태를 생성하는 단계;
상기 제 1 노드가 상기 혼잡 상태에 대한 정보를 제 1 강화학습 모델에 입력하고 상기 제 1 강화학습 모델의 출력값을 토대로 상기 가상의 네트워크에 대한 송신윈도우를 조절하는 단계;
상기 제 1 노드가 상기 송신윈도우를 조절한 후 상기 가상의 네트워크의 상태를 감지하여 상기 제 1 강화학습 모델의 파라미터를 조절하는 단계;
상기 네트워크에 포함된 복수의 상위노드들 중 제 2 노드가 상기 제 1 노드로부터 상기 제 1 강화학습 모델의 파라미터를 수신하는 단계; 및
상기 제 2 노드가 상기 수신된 파라미터를 이용하여 제 2 강화학습 모델을 학습하는 단계;를 포함하는 연합학습을 이용한 네트워크 혼잡 제어방법.
제 1 항에 있어서,
상기 혼잡 상태는 상기 가상의 네트워크에서 임의의 송신측에서 수신측으로 전송한 패킷의 평균 왕복지연시간(Round Trip Time, RTT), 최소 왕복지연시간 및 응답(Acknowledgement, ACK) 도착률을 포함하는 연합학습을 이용한 네트워크 혼잡 제어방법.
제 1 항에 있어서,
상기 제 1 노드는 상기 시뮬레이터를 이용하여 상기 가상의 네트워크에 대한 혼잡 상태를 랜덤하게 생성하는 연합학습을 이용한 네트워크 혼잡 제어방법.
제 1 항에 있어서,
상기 제 2 강화학습 모델을 학습하는 단계는, 상기 네트워크에 포함된 복수의 하위노드들로부터 각각 수신한 복수의 파라미터들을 이용하여 상기 제 2 강화학습 모델을 학습하는 연합학습을 이용한 네트워크 혼잡 제어방법.
제 1 항에 있어서,
상기 제 2 노드는 상기 네트워크에 포함된 복수의 상위노드들과 상기 수신된 파라미터를 공유하는 연합학습을 이용한 네트워크 혼잡 제어방법.