KR102559552B1 - 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법 - Google Patents

다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법 Download PDF

Info

Publication number
KR102559552B1
KR102559552B1 KR1020180162801A KR20180162801A KR102559552B1 KR 102559552 B1 KR102559552 B1 KR 102559552B1 KR 1020180162801 A KR1020180162801 A KR 1020180162801A KR 20180162801 A KR20180162801 A KR 20180162801A KR 102559552 B1 KR102559552 B1 KR 102559552B1
Authority
KR
South Korea
Prior art keywords
multipath
optimal path
network
path selection
path
Prior art date
Application number
KR1020180162801A
Other languages
English (en)
Other versions
KR20200074431A (ko
Inventor
정병창
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180162801A priority Critical patent/KR102559552B1/ko
Priority to US16/707,015 priority patent/US10904162B2/en
Publication of KR20200074431A publication Critical patent/KR20200074431A/ko
Application granted granted Critical
Publication of KR102559552B1 publication Critical patent/KR102559552B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/82Miscellaneous aspects
    • H04L47/822Collecting or measuring resource availability data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/002Biomolecular computers, i.e. using biomolecules, proteins, cells
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/124Shortest path evaluation using a combination of metrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/123Evaluation of link metrics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/24Multipath
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/302Route determination based on requested QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/302Route determination based on requested QoS
    • H04L45/308Route determination based on user's profile, e.g. premium users
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/28Flow control; Congestion control in relation to timing considerations
    • H04L47/283Flow control; Congestion control in relation to timing considerations in response to processing delays, e.g. caused by jitter or round trip time [RTT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/10Architectures or entities
    • H04L65/102Gateways
    • H04L65/1023Media gateways
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

본 발명은 다매체 다중경로 네트워크의 최적 경로를 선택하는 시스템 및 그 방법에 관한 것이다.
본 발명에 따른 다매체 다중경로 네트워크의 최적 경로 선택 시스템은 다매체 다중경로 네트워크의 최적 경로 선택 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 네트워크 퍼포먼스 파라미터를 스테이트 정보로서 강화 학습 알고리즘의 입력값으로 사용하고, 강화 학습 알고리즘 적용을 통해 획득한 Q-table을 이용하여 최적 경로를 선택하는 것을 특징으로 한다.

Description

다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법{SYSTEM AND METHOD FOR SELECTING OPTIMAL PATH IN MULTI-MEDIA MULTI-PATH NETWORK}
본 발명은 다매체 다중경로 네트워크의 최적 경로를 선택하는 시스템 및 그 방법에 관한 것이다.
다매체 다중경로 시스템은 경로를 어떻게 선택하는가에 따라 사용자 또는 서비스의 체감 품질이 크게 달라지게 된다.
종래 기술에 따르면, 단말이 다매체 다중경로 시스템을 이용할 때 자원을 효율적으로 이용할 수 없는 한계점이 있다.
본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로, 강화 학습 알고리즘에 들어가는 입력값 요소와, 강화 학습이 효과적으로 작용하도록 전처리/후처리 과정을 정의함으로써, 다매체 다중경로 네트워크의 최적 경로를 선택하는 것이 가능한 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명에 따른 다매체 다중경로 네트워크의 최적 경로 선택 시스템은 다매체 다중경로 네트워크의 최적 경로 선택 프로그램이 저장된 메모리 및 프로그램을 실행시키는 프로세서를 포함하고, 프로세서는 네트워크 퍼포먼스 파라미터를 스테이트 정보로서 강화 학습 알고리즘의 입력값으로 사용하고, 강화 학습 알고리즘 적용을 통해 획득한 Q-table을 이용하여 최적 경로를 선택하는 것을 특징으로 한다.
본 발명에 따른 다매체 다중경로 네트워크의 최적 경로 선택 방법은 다매체 다중경로 네트워크의 최적 경로 선택을 위한 강화 학습 알고리즘의 입력값을 정의하는 전처리 단계와, 입력값에 대해 강화 학습 알고리즘을 적용하여 Q-table을 획득하는 단계 및 Q-table을 이용하여 최적 경로를 선택하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 실시예에 따르면, 일정 기간 학습이 수행된 후에는 실시간으로 동작 가능하며, 순간 순간의 경로 정보만이 아니라 경로의 추이를 고려하여 최적의 경로를 선택하는 것이 가능한 효과가 있다.
본 발명의 효과는 이상에서 언급한 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 종래 기술에 따른 다매체 다중경로 네트워크 시스템을 도시한다.
도 2는 본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 시스템을 나타내는 도면이다.
도 3은 본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 방법을 나타내는 순서도이다.
도 4는 본 발명의 실시예에 따른 다매체 다중경로 네트워크 시스템의 적용례를 도시한다.
도 5는 본 발명의 실시예에 따른 딥러닝 및 강화 학습 시스템 모델을 도시한다.
도 6은 본 발명의 실시예에 따른 행동-보상 비동기성 고려에 대한 내용을 도시한다.
도 7은 본 발명의 실시예에 따른 입력 정보 및 추천 결과 반영 사항을 도시한다.
도 8은 본 발명의 실시예에 따른 최종 경로 선택 과정을 도시한다.
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 목적, 구성 및 효과를 용이하게 알려주기 위해 제공되는 것일 뿐으로서, 본 발명의 권리범위는 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가됨을 배제하지 않는다.
이하에서는, 당업자의 이해를 돕기 위하여 본 발명이 제안된 배경에 대하여 먼저 서술하고, 본 발명의 실시예에 대하여 서술하기로 한다.
다매체 다중경로 시스템을 설명하기 위해서 먼저 MPTCP 기술에 대해 서술한다.
MPTCP는 multi-path TCP의 약자로 다중 경로를 이용해 TCP 전송을 하는 기술을 뜻한다.
다중 경로 전송을 위한 경로는 주로 유선망, 셀룰러망(면허 대역), WLAN망(비면허 대역) 등에서 확보하게 된다.
MPTCP 전송이 가능한 단말은 2개 이상의 이용 가능한 경로를 확보한다.
이렇게 확보한 다중경로를 통해 단말은 높은 대역폭을 얻거나 더 높은 생존성을 확보하게 된다.
단말이 높은 대역폭을 얻고자 하는 경우, 확보한 다중 경로를 이용해 패킷을 나누어 보내 주파수 정합과 비슷한 효과를 얻으며, 높은 생존성을 확보하고자 하는 경우, 다중 경로로 중복된 내용의 패킷을 보내 특정 경로에서 손실 또는 오류가 발생하여도 이를 극복할 수 있다.
이러한 MPTCP 기술을 확장하여 위에 언급한 유선망, 셀룰러망, 위성망 등을 정합한 시스템을 도 1에 도시된 바와 같은 다매체 다중경로 시스템으로 정의한다.
다중경로 정합게이트웨이에는 다양한 망이 연결되어 있고, 다중경로 정합게이트웨이는 다중경로 정합게이트웨이 관리 매니저의 경로 선택 결과를 받아 그 결과대로 전송을 수행한다.
예를 들어, 다매체 다중경로 시스템에서 단말은 유선망 경로 1개, 셀룰러망 경로 1개 등 다양한 망의 경로를 정합해서 사용할 수 있다.
이러한 다매체 다중경로 네트워크 시스템에서 가장 중요한 부분은 사용자 또는 서비스 별로 경로를 어떻게 선택하느냐에 대한 문제를 해결하는 부분이다.
경로를 어떻게 선택하느냐에 따라 사용자 또는 서비스의 체감 품질은 크게 달라질 수 있다.
사용자 또는 서비스에서의 관점뿐만 아니라 전체 네트워크의 관점에서도 다양한 네트워크 자원을 어떻게 관리하느냐에 따라 네트워크 포화를 방지할 수 있다.
본 발명은 전술한 경로 선택에 대한 문제점을 해결하기 위하여 제안된 것으로, 다매체 다중경로 네트워크 시스템에서의 다중경로 선택 구성을 제안하며, 본 발명의 구체적인 적용 분야는 LTE망, WiFi망, 유선망, 위성망 등 다매체가 존재하고 다중 경로 전송 기술을 활용할 수 있는 네트워크 시스템이다.
유선망의 품질이 좋다고 하여 모든 사용자들을 유선망을 이용하게 하면 유선망이 포화될 가능성이 있고, 정보 탈취에도 취약하게 된다.
본 발명의 실시예에 따르면, 다매체 다중경로 네트워크 시스템의 자원들을 더욱 효율적으로 이용하는 것이 가능하다.
본 발명의 실시예에 따르면, 사용자/서비스의 요구사항 그리고 시시각각 망 품질 변화를 반영하는 경로 선택 알고리즘을 적용하며, 이를 위해 강화 학습 알고리즘을 도입하고, 강화 학습 알고리즘에 들어가는 입력값 요소와 강화 학습이 효과적으로 작용하도록 전/후 처리 과정을 정의한다.
도 2는 본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 시스템을 나타내는 도면이다.
본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 선택 시스템은 다매체 다중경로 네트워크의 최적 경로 선택 프로그램이 저장된 메모리(100) 및 프로그램을 실행시키는 프로세서(200)를 포함하고, 프로세서(200)는 네트워크 퍼포먼스 파라미터를 스테이트 정보로서 강화 학습 알고리즘의 입력값으로 사용하고, 강화 학습 알고리즘 적용을 통해 획득한 Q-table을 이용하여 최적 경로를 선택하는 것을 특징으로 한다.
본 발명의 실시예에 따르면, 네트워크 퍼포먼스 파라미터는 RTT(Round trip time), Input arrival rate 정보를 포함하고, 프로세서(200)는 RTT를 이전 구간의 액션 선택 결과와 매칭시켜 학습을 수행한다.
프로세서(200)는 기설정된 최근 N번의 이전 구간의 RTT를 입력값으로 사용한다.
프로세서(200)는 Input arrival rate 정보를 반영함에 있어서, 다른 서비스들의 경로 선택 결과를 함께 스테이트로 반영한다.
프로세서(200)는 deep Q learning 알고리즘을 적용하여 Q-table을 예측하고, 해당 사용자 및 서비스에 대한 추천 경로 정보를 출력한다.
이 때, 프로세서(200)는 사용자 프로파일 정보 및 서비스 프로파일 정보로서, 다중경로 전송 여부, 사용자 및 서비스의 품질 요구 사항 값을 고려하여 경로를 선택한다.
프로세서(200)는 타임 버퍼를 이용하여 액션 및 리워드의 비동기성을 고려하여 학습을 수행한다.
도 3은 본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 방법을 나타내는 순서도이다.
본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 방법은 다매체 다중경로 네트워크의 최적 경로 선택을 위한 강화 학습 알고리즘의 입력값을 정의하는 전처리 단계(S310)와, 입력값에 대해 강화 학습 알고리즘을 적용하여 Q-table을 획득하는 단계(S320) 및 Q-table을 이용하여 최적 경로를 선택하는 단계(S330)를 포함한다.
S310 단계는 RTT(Round trip time) 및 Input arrival rate 정보를 포함하는 네트워크 퍼포먼스 파라미터를 스테이트 정보로서 입력값으로 정의한다.
S320 단계는 RTT를 이전 구간의 액션 선택 결과와 매칭시켜 학습을 수행한다.
S310 단계는 Input arrival rate 정보를 반영함에 있어서, 다른 서비스들의 경로 선택 결과를 함께 스테이트로 반영시킨다.
S330 단계는 사용자 프로파일 정보 및 서비스 프로파일 정보를 고려하여 경로를 선택한다.
도 4는 본 발명의 실시예에 따른 딥러닝 및 강화 학습 시스템 모델을 도시한다.
도 4는 네트워크 경로 선택 과정에 대해 도시하는데, 도 4를 참조하면, 경로를 선택하기 전 probing packet을 이용하여 경로의 RTT를 측정하고, MMMP 매니저에서는 강화학습을 이용하여 경로 선택 결과를 도출하며, 그 결과를 MMMP 게이트웨이(GW)에 전달한다.
도 5는 본 발명의 실시예에 따른 다매체 다중경로 네트워크 시스템의 적용례를 도시한다.
도 5에 도시된 바와 같이, 네트워크의 파라미터를 수집하여 인공 신경망의 입력값으로 사용하고, 사용자 프로파일 및 서비스 프로파일의 요구사항을 반영하여 경로를 최종적으로 선택하게 된다.
본 발명의 실시예에 따르면, 실제 얻는 reward와 deep network에서 나오는 reward의 차이를 기준으로 cost-minimization learning이 수행된다.
전술한 바와 같이, 본 발명의 실시예에 따르면 강화 학습 알고리즘의 전처리, 강화 학습 알고리즘 적용, 후처리 과정으로 구성된다.
전처리 단계에서는 강화 학습 알고리즘에 사용할 입력값을 정의하고 그것을 어떻게 처리할 것인지에 대해 정의한다.
강화 학습 알고리즘 적용 단계는 deep Q learning을 사용한다.
후처리 단계에서는 사용자/서비스 별 제한조건을 경로 선택에 반영한다.
먼저, 전처리 단계에 대해 설명한다.
강화 학습 알고리즘의 전처리 과정에서는 주로 어떤 데이터를 강화 학습 알고리즘의 입력값으로 사용할지에 대해 정의하며, 이러한 입력값들은 강화 학습에서의 state 정보에 해당한다.
네트워크 퍼포먼스 파라미터로서, Round-trip-time (RTT) 관련 정보가 포함된다.
RTT는 패킷이 출발지부터 목적지를 거쳐 다시 출발지로 오는 시간이며, 네트워크 시스템에서 가장 직관적으로 경로의 품질을 살펴보기 좋은 파라미터이다.
RTT가 높다는 것은 현재 그 경로를 이용하는 패킷의 수가 많거나, 경로 자체의 전달 속도가 늦다는 것을 의미한다.
따라서, 이 RTT 값을 주기적으로 측정하여 경로의 품질을 반영하는 것이 중요하다.
본 발명의 실시예에 따르면, RTT 값을 입력할 때, 모든 경로의 RTT를 바로 직전 측정한 것뿐만 아니라, 최근 N번의 RTT(recent N-time RTT)를 입력값으로 사용한다.
순간의 RTT 값 그 자체도 경로의 품질을 예측하는데 좋은 파라미터라고 할 수 있지만, 본 발명의 실시예에 따르면 RTT의 변화 추이로 해당 경로를 향한 패킷이 너무 많은지 또는 적은지를 판단하게 된다.
이러한 RTT 정보는 경로에 따른 reward로도 이용된다.
강화 학습에서는 알고리즘이 경로를 선택하게 되면 그 경로를 선택한 후 어떤 이득을 보았는지 피드백으로 반영하게 되는데, 본 발명의 실시예에 따르면 피드백을 선택한 경로의 RTT 변화로 보게 된다.
네트워크 퍼포먼스 파라미터로서, Input arrival rate 관련 정보가 포함된다.
보통의 강화 학습을 생각하면, Input arrival rate 관련 정보는 행동(action)과 관련된 정보인데, 모든 경로의 RTT 값을 state라 하고, 그 결과로 선택된 경로를 action이라 가정하면, 이러한 action은 하나의 서비스가 선택한 action에 해당할 뿐 전체 서비스의 action은 아니다.
본 발명의 실시예에 따르면 이를 반영하기 위해 다른 서비스들의 경로 선택 결과를 함께 state로 반영한다.
강화 학습 알고리즘 적용 단계에서는, 전술한 state를 바탕으로 알고리즘이 선택해야 할 action(경로 선택 결과)을 선택한다.
일반적으로, Q learning은 어떤 주어진 state(상황)에서 학습 알고리즘의 룰에 따라 action(행동)을 택하고, 그 action으로 인한 reward(보상)를 Q-table에 저장하고, 이미 업데이트 된 Q-table 값을 바탕으로 적절한 action을 취하는 학습 알고리즘이다.
전처리 과정에서 다루어지는 state의 파라미터 수가 너무 많은 경우, Q-table을 업데이트 하는 속도가 느려짐에 따라, 직접 Q learning을 적용하기 어려운 문제점이 있다.
따라서, 본 발명의 실시예에 따르면, Q-table을 직접 업데이트 하지 않고 deep network를 사용하여 Q-table을 예측하는 deep Q learning을 이용한다.
도 5를 참조하면, 강화 학습 알고리즘의 입력값으로는 각 경로 별 RTT 정보, 각 경로 별 input rate 정보가 입력되고, 강화 학습 알고리즘의 출력값으로는 해당 사용자/서비스에 대한 추천 경로 정보 (Q-table)가 출력된다.
본 발명의 실시예에 따른 후처리 과정은 사용자/서비스 별 제한 조건을 처리하는 과정으로서, 사용자 프로파일 정보 및 서비스 프로파일 정보를 고려한 경로 선택이 수행된다.
즉, deep Q learning을 통해 예측된 Q 값을 바탕으로 경로를 최종적으로 선택하는 단계에서는, Deep Q learning을 통해 획득된 Q-table 에 있는 경로 중 Q 값이 가장 높은 경로를 고르는 것이 원칙이지만, 본 발명의 실시예에 따르면 사용자/서비스 프로파일을 통해 다중경로 전송 여부, 사용자/서비스 별 품질 요구사항 파라미터를 반영하여 경로를 선택한다.
예컨대, 다중경로 전송을 요구한 사용자의 경우에는 Q 값이 가장 높은 두 개의 경로를 선택하여 다중 경로를 지정하고, delay 값이 5ms 이내인 경로를 요구한 서비스에는 RTT가 5ms 이상인 경로를 선택에서 제외한다.
망 품질 상 요구사항을 만족시키는 서비스가 불가능한 경우에는 최선의 경로를 할당한다.
강화 학습의 기본은 행동에 뒤따르는 보상을 보고, 보상 값의 변화에 따라 최적의 보상을 찾는 것이다.
그런데, 종래 기술에 따르면, 보상은 해당 행동(경로 선택)에 대한 보상이 아니며, 보상값 또한 바로 얻을 수 없고, 정확히 얼마 후에 얻어지는지도 알 수 없는 문제점이 있다.
따라서, 본 발명의 실시예에 따르면 타임 버퍼를 이용하여 비동기성을 해결한다.
또한, 본 발명의 실시예에 따른 행동-보상 비동기성 고려에 대한 내용을 도시하는 도 6을 참조하면, 측정된 경로 딜레이를 현재 action 선택 결과와 매칭시켜 학습시키지 않고, 이전 구간(learning window)의 action 선택 결과와 매칭시켜 학습을 진행한다.
특정 변화가 생겼을 때, ε-random 선택을 통해 상황 변화를 감지하는 것은 이론적으론 가능하지만, 많은 diverge case가 발생된다.
본 발명의 실시예에 따르면, deep network에 lifecycle을 도입한다.
도 7은 본 발명의 실시예에 따른 입력 정보 및 추천 결과 반영 사항을 도시한다.
도 7을 참조하면, 인공 신경망에 입력값으로 사용되는 것은 recent N-time RTT와 arrival rates(최근 경로 선택률)이며, 사용자 프로파일 및 서비스 프로파일은 인공 신경망의 입력값은 아니고, 인공신경망의 추천 결과에 사용자/서비스 요구사항을 반영할 때 이용된다.
도 8은 본 발명의 실시예에 따른 최종 경로 선택 과정을 도시한 것으로, 인공신경망의 추천 결과와 서비스 요구 사항이 상출되는 경우를 가정하여 설명한다.
서비스 요구사항에 따르면, multipath가 enable이므로, 두 개 이상의 경로를 선택하여야 한다.
강화 학습의 결과로는 path 1 및 path 2가 선택되어야 하지만, path 2는 최근 RTT가 서비스 프로파일 요구 사항인 30ms를 만족하지 못한다.
따라서, 본 발명의 실시예에 따르면 path 1 및 path 3가 선택되도록 알고리즘 상에서 조정한다.
한편, 본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 선택 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.
컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 프로세서는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
메모리 및 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 메모리는 ROM 및 RAM을 포함할 수 있다.
따라서, 본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 선택 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 다매체 다중경로 네트워크의 최적 경로 선택 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 선택 방법을 수행할 수 있다.
한편, 상술한 본 발명에 따른 다매체 다중경로 네트워크의 최적 경로 선택 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이제까지 본 발명의 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 메모리 200: 프로세서

Claims (13)

  1. 다매체 다중경로 네트워크의 최적 경로 선택 프로그램이 저장된 메모리; 및
    상기 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 네트워크 퍼포먼스 파라미터를 스테이트 정보로서 강화 학습 알고리즘의 입력값으로 사용하고, 상기 강화 학습 알고리즘 적용을 통해 획득한 Q-table을 이용하여 최적 경로를 선택하고,
    상기 프로세서는 deep Q learning 알고리즘을 적용하여 Q-table을 예측하고, 해당 사용자 및 서비스에 대한 추천 경로 정보를 출력하고,
    상기 프로세서는 사용자 프로파일 정보 및 서비스 프로파일 정보로서, 다중경로 전송 여부, 사용자 및 서비스의 품질 요구 사항 값을 고려하여 경로를 선택하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 시스템.
  2. 제1항에 있어서,
    상기 네트워크 퍼포먼스 파라미터는 RTT(Round trip time), Input arrival rate 정보를 포함하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 시스템.
  3. 제2항에 있어서,
    상기 프로세서는 상기 RTT를 이전 구간의 액션 선택 결과와 매칭시켜 학습을 수행하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 시스템.
  4. 제3항에 있어서,
    상기 프로세서는 기설정된 최근 N번의 이전 구간의 RTT를 입력값으로 사용하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 시스템.
  5. 제2항에 있어서,
    상기 프로세서는 상기 Input arrival rate 정보를 반영함에 있어서, 다른 서비스들의 경로 선택 결과를 함께 스테이트로 반영하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 시스템.
  6. 삭제
  7. 삭제
  8. 제1항에 있어서,
    상기 프로세서는 타임 버퍼를 이용하여 액션 및 리워드의 비동기성을 고려하여 학습을 수행하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 시스템.
  9. 다매체 다중경로 네트워크의 최적 경로 선택 시스템에 의해 수행되는 다매체 다중경로 네트워크의 최적 경로 선택 방법에 있어서,
    (a) 다매체 다중경로 네트워크의 최적 경로 선택을 위한 강화 학습 알고리즘의 입력값을 정의하는 전처리 단계;
    (b) 상기 입력값에 대해 상기 강화 학습 알고리즘을 적용하여 Q-table을 획득하는 단계; 및
    (c) 상기 Q-table을 이용하여 최적 경로를 선택하는 단계를 포함하고,
    상기 (c) 단계는 사용자 프로파일 정보 및 서비스 프로파일 정보로서, 다중경로 전송 여부, 사용자 및 서비스의 품질 요구 사항 값을 고려하여 경로를 선택하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 방법.
  10. 제9항에 있어서,
    상기 (a) 단계는 RTT(Round trip time) 및 Input arrival rate 정보를 포함하는 네트워크 퍼포먼스 파라미터를 스테이트 정보로서 입력값으로 정의하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 방법.
  11. 제10항에 있어서,
    상기 (b) 단계는 상기 RTT를 이전 구간의 액션 선택 결과와 매칭시켜 학습을 수행하는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 방법.
  12. 제10항에 있어서,
    상기 (a) 단계는 상기 Input arrival rate 정보를 반영함에 있어서, 다른 서비스들의 경로 선택 결과를 함께 스테이트로 반영시키는 것
    인 다매체 다중경로 네트워크의 최적 경로 선택 방법.
  13. 삭제
KR1020180162801A 2018-12-17 2018-12-17 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법 KR102559552B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180162801A KR102559552B1 (ko) 2018-12-17 2018-12-17 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법
US16/707,015 US10904162B2 (en) 2018-12-17 2019-12-09 System and method for selecting optimal path in multi-media multi-path network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180162801A KR102559552B1 (ko) 2018-12-17 2018-12-17 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20200074431A KR20200074431A (ko) 2020-06-25
KR102559552B1 true KR102559552B1 (ko) 2023-07-26

Family

ID=71073096

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180162801A KR102559552B1 (ko) 2018-12-17 2018-12-17 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법

Country Status (2)

Country Link
US (1) US10904162B2 (ko)
KR (1) KR102559552B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11153229B2 (en) * 2018-01-19 2021-10-19 Ciena Corporation Autonomic resource partitions for adaptive networks
CN113037624A (zh) * 2019-12-25 2021-06-25 华为技术有限公司 一种数据流控制的方法和装置
US11546070B1 (en) * 2020-05-01 2023-01-03 University Of South Florida Method of selecting an optimal propagated base signal using artificial neural networks
CN111988225B (zh) * 2020-08-19 2022-03-04 西安电子科技大学 基于强化学习和迁移学习的多路径路由方法
US11507721B2 (en) * 2020-09-25 2022-11-22 International Business Machines Corporation Scan chain wirelength optimization using Q-learning based reinforcement learning
CN113037648B (zh) * 2021-03-10 2022-07-12 首都师范大学 数据传输方法及装置
CN113179218B (zh) * 2021-04-23 2023-04-21 北京百度网讯科技有限公司 模型训练方法、网络拥塞控制方法、装置及相关产品
CN114089627B (zh) * 2021-10-08 2023-09-15 北京师范大学 基于双深度q网络学习的非完全信息博弈策略优化方法
WO2023211243A1 (ko) * 2022-04-29 2023-11-02 네이버 주식회사 전문가 지식을 이용한 최적 경로를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR102649741B1 (ko) * 2023-10-30 2024-03-20 문엔지니어링(주) 인공지능 기반의 다매체 다중경로를 이용한 최적화 경로 할당 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070002748A1 (en) * 2004-01-09 2007-01-04 Tsuneo Nakata Load distributing method
JP2010130032A (ja) * 2008-11-25 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> オーバーレイネットワーク経路選択システムと方法およびプログラム
US20170105163A1 (en) * 2015-10-13 2017-04-13 The Board Of Trustees Of The University Of Alabama Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9832103B2 (en) 2014-11-24 2017-11-28 Electronics And Telecommunications Research Institute Method and apparatus for secure communication via multiple communication paths
US20170063699A1 (en) 2015-08-26 2017-03-02 Electronics And Telecommunications Research Institute Method and apparatus for configuring multi-paths using segment list
KR20170069807A (ko) 2015-12-11 2017-06-21 주식회사 케이티 유무선 트래픽 사용량 산정 장치 및 방법
KR101811725B1 (ko) 2016-04-12 2017-12-22 아주대학교산학협력단 이동통신 노드를 이용한 자율 네트워크 시스템 및 이의 운영 방법
KR101859382B1 (ko) 2016-06-08 2018-05-18 주식회사 이루온 스케줄링 정책 서버 및 스케줄링 정책 서버에서의 무선 데이터망 스케줄링 방법
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
KR101941362B1 (ko) 2017-02-24 2019-01-24 한국과학기술원 Mptcp 성능 향상을 위한 전송 지연 측정 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070002748A1 (en) * 2004-01-09 2007-01-04 Tsuneo Nakata Load distributing method
JP2010130032A (ja) * 2008-11-25 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> オーバーレイネットワーク経路選択システムと方法およびプログラム
US20170105163A1 (en) * 2015-10-13 2017-04-13 The Board Of Trustees Of The University Of Alabama Artificial intelligence-augmented, ripple-diamond-chain shaped rateless routing in wireless mesh networks with multi-beam directional antennas

Also Published As

Publication number Publication date
US20200195577A1 (en) 2020-06-18
KR20200074431A (ko) 2020-06-25
US10904162B2 (en) 2021-01-26

Similar Documents

Publication Publication Date Title
KR102559552B1 (ko) 다매체 다중경로 네트워크의 최적 경로 선택 시스템 및 그 방법
US10812342B2 (en) Generating composite network policy
US10521245B2 (en) Method and system for recursive plug-in application recipe generation
US9800502B2 (en) Quantized congestion notification for computing environments
EP2985971B1 (en) Reputation-based instruction processing over an information centric network
US8819653B2 (en) Automated improvement of executable applications based on evaluating independent execution heuristics
US20170078208A1 (en) SYSTEM AND METHOD FOR PRIORITIZATION OF DATA BACKUP AND RECOVERY TRAFFIC USING QoS TAGGING
US9137162B2 (en) Network traffic routing optimization
CN108696449B (zh) 一种数据调度方法及装置
CN112787951B (zh) 拥塞控制方法、装置、设备和计算机可读存储介质
US11296953B1 (en) Modifying data packet transmission characteristics by an intermediate node on a communication path
Kam et al. Age of information for queues in tandem
Xu et al. Flow-level QoE of video streaming in wireless networks
US9584420B2 (en) Switching between loss-based and delay-based mode for real-time media congestion controllers
US11277342B2 (en) Lossless data traffic deadlock management system
EP2903347A1 (en) Network, network node, distribution method, and network node program
US10044632B2 (en) Systems and methods for adaptive credit-based flow
CN112910778A (zh) 网络安全路由方法和系统
US20120254448A1 (en) System and method for selection of network transport within a mobile device
BinSahaq et al. Bootstrapped LARAC algorithm for fast delay‐sensitive QoS provisioning in SDN networks
Mahmood et al. Effect of heterogeneous traffic on quality of service in 5G network
Ramana et al. Multipath transmission control protocol for live virtual machine migration in the cloud environment
US11652738B2 (en) Systems and methods for utilizing segment routing over an internet protocol data plane for latency metrics reduction
Yu et al. Robust resource provisioning in time-varying edge networks
KR102025426B1 (ko) Sdn 기반의 통신 노드에서의 트래픽 과적에 따른 서비스 품질 저하를 해소하기 위한 대역폭 제어 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right