KR20230090961A - 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말 - Google Patents

저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말 Download PDF

Info

Publication number
KR20230090961A
KR20230090961A KR1020220019492A KR20220019492A KR20230090961A KR 20230090961 A KR20230090961 A KR 20230090961A KR 1020220019492 A KR1020220019492 A KR 1020220019492A KR 20220019492 A KR20220019492 A KR 20220019492A KR 20230090961 A KR20230090961 A KR 20230090961A
Authority
KR
South Korea
Prior art keywords
low
access
reinforcement learning
action
deep reinforcement
Prior art date
Application number
KR1020220019492A
Other languages
English (en)
Inventor
고영채
이주형
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to US17/718,564 priority Critical patent/US11832314B2/en
Publication of KR20230090961A publication Critical patent/KR20230090961A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • H04W74/0841Random access procedures, e.g. with 4-step access with collision treatment
    • H04W74/085Random access procedures, e.g. with 4-step access with collision treatment collision avoidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/002Transmission of channel access control information
    • H04W74/004Transmission of channel access control information in the uplink, i.e. towards network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/06Airborne or Satellite Networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radio Relay Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

본 발명의 일 실시 예에 따른 프로세서 및 메모리를 포함하는 단말이 복수 개의 저궤도 위성(Low Earth Orbit Satellite, LEO SAT)이 형성하는 저궤도 위성 네트워크에 접속하기 위한 랜덤 액세스(Random Access) 방법은 (a) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습하는 단계 및 (b) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계를 포함하며, 상기 제1 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며, 상기 제2 행동은, 상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것이다.

Description

저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말{DEEP REINFORCEMENT LEARNING BASED RANDOM ACCESS METHOD FOR LOW ORBIT SATELLITE NETWORK AND TERMINAL FOR SAME}
본 발명은 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말에 관한 것이다. 보다 자세하게는 위성 안테나 단에서 독립적으로 획득할 수 있는 정보를 활용하여 접속 충돌과 접속 지연 시간을 최소화할 수 있는 방법 및 장치에 관한 것이다.
저궤도 위성 네트워크란 통상의 정지 위성 궤도인 36,000km 보다 낮은 상공인 1,000km 안팎에 다수의 저궤도 위성을 배치하고, 지상에서 유저 단말(UE, User Equipment)과 통신함으로써 전 세계 어디서나 이동통신 서비스를 받을 수 있는 네트워크 시스템을 의미하는바, 넓은 커버리지를 지원하며 고속의 통신 속도를 획득할 수 있는 종래의 지상 네트워크 기술의 대안 기술에 해당함과 동시에 다양한 국가 차원에서 그리고 기업들이 앞다투어 연구 개발을 진행하고 있는 차세대 네트워크 기술에 해당한다.
한편, 지상 네트워크 및 종래의 위성 통신 시스템에서는 사용자가 기지국에 초기 접속하거나 또는 핸드오버(Handover) 시, 랜덤 액세스(Random Access)라는 공지된 접속 기법을 이용하는바, 이는 유저 단말이 서빙 셀(Serving Cell)과의 상향링크(Uplink) 동기를 획득하기 위한 절차로 볼 수 있다. 그러나 이러한 랜덤 액세스 기법을 저궤도 위성 통신에 적용하여 지상의 유저 단말과 공전하고 있는 저궤도 위성 사이의 초기 접속이나 핸드오버를 수행하는 경우, 긴 통신 거리와 지연 시간 등으로 인해 접속 성능에 현저한 제한을 준다는 문제점이 있다.
더 나아가, 다수의 유저 단말이 소수의 저궤도 위성에 접속하게 되는 상황에서 접속 성능의 제한은 전체 네트워크 성능에 지대한 영향을 미칠 수 있는바, 저궤도 위성 네트워크만의 독자적인 특성을 고려한 새롭고 진보적인 랜덤 액세스 방식이 요구된다. 본 발명은 이에 관한 것이다.
대한민국 공개특허공보 제 10-2014-0004772호(2014.01.13)
본 발명이 해결하고자 하는 기술적 과제는 저궤도 위성 네트워크 시스템에 있어서 초기 접속이나 핸드오버를 수행하는 경우라 할지라도 보다 적은 액세스 시도를 수행하여 다른 유저 단말과 접속 충돌을 최소화해 접속 성능을 향상시킬 수 있는 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말을 제공하는 것이다.
본 발명이 해결하고자 하는 또 다른 기술적 과제는 다른 유저 단말과의 접속 충돌을 최소화함으로써 결과적으로 접속 지연 성능을 향상시킬 수 있는 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 일 실시 예에 따른 프로세서 및 메모리를 포함하는 단말이 복수 개의 저궤도 위성(Low Earth Orbit Satellite, LEO SAT)이 형성하는 저궤도 위성 네트워크에 접속하기 위한 랜덤 액세스(Random Access) 방법은 (a) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습하는 단계 및 (b) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계를 포함하며, 상기 제1 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며, 상기 제2 행동은, 상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것이다.
일 실시 예에 따르면, 심층 강화학습 알고리즘은, Actor-Critic 알고리즘, DDPG(Deep Deterministic Poilcy Graident)알고리즘, PPO(Proximal Policy Optimization) 알고리즘 및 DQN(Deep Q-Network) 알고리즘 중 어느 하나일 수 있다.
일 실시 예에 따르면, 상기 (a) 단계는, (a-1) 상기 접속 주기마다 하나 이상의 입력 정보를 심층 강화학습 알고리즘에 상태(State)로 입력하는 단계 및 (a-2) 상기 상태로 입력한 하나 이상의 입력 정보를 상기 심층 강화학습 알고리즘에 적용하여 상기 접속 주기마다 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지에 대한 결정을 행동(Action)으로 출력하고, 출력한 행동에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계를 포함할 수 있다.
일 실시 예에 따르면, 상기 입력 정보는, 지난 접속 주기에서의 접속 충돌 여부에 대한 정보, 상기 복수 개의 저궤도 위성들의 현재 위치에 대한 정보, 해당 접속 주기를 통해 결과적으로 획득한 통신량에 대한 정보, 상기 다른 단말의 위치에 대한 정보 및 해당 접속 주기에 대한 인덱스에 대한 정보 중 어느 하나 이상을 포함할 수 있다.
일 실시 예에 따르면, 상기 복수 개의 저궤도 위성들의 현재 위치에 대한 정보는, 상기 저궤도 위성 네트워크로부터 직접 수신하거나, 주기적인 궤도에 대한 정보로서 기 보유하고 있는 정보일 수 있다.
일 실시 예에 따르면, 상기 (a-2) 단계 이후에, (a-3) 상기 출력한 행동에 따른 보상(Reward)을 산정하는 단계 및 (a-4) 상기 산정한 보상에 따라 상기 심층 강화학습 알고리즘을 업데이트하는 단계를 더 포함할 수 있다.
일 실시 예에 따르면, 상기 보상은, 획득한 통신량, 충돌 확률 * (-1) 및 접속 지연 시간 * (-1) 중 어느 하나 이상일 수 있다.
일 실시 예에 따르면, 상기 심층 강화학습 알고리즘의 학습 목표는,
접속 충돌 확률의 최소화, 접속 지연 시간의 최소화 및 접속 후 획득한 통신량의 최대화 중 어느 하나 이상일 수 있다.
일 실시 예에 따르면, 상기 프로세서 및 메모리를 포함하는 단말은, 지상에 설치된 위성 안테나일 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말은 하나 이상의 프로세서, 네트워크 인터페이스, 상기 프로세서에 의해 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리 및 대용량 네트워크 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되, 상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서에 의해, (A) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습하는 오퍼레이션 및 (B) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 오퍼레이션을 실행 실행하며, 상기 제1 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며, 상기 제2 행동은, 상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 또 다른 실시 예에 따른 매체에 저장된 컴퓨터 프로그램은 컴퓨팅 장치와 결합하여, (AA) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습하는 단계 및 (BB) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계를 포함하며, 상기 제1 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며, 상기 제2 행동은, 상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것이다.
상기와 같은 본 발명에 따르면, 프로세서 및 메모리를 포함하는 단말인 위성 안테나가 기 설정된 시간 동안 심층 강화학습 알고리즘을 적용하여 저궤도 위성과 접속하는 방식을 학습하는바, 초기 접속이나 핸드오버를 수행하는 경우라 할지라도 보다 적은 액세스 시도를 수행하여 다른 유저 단말과 접속 충돌을 최소화해 접속 성능을 향상시킬 수 있다는 효과가 있다.
또한, 다른 유저 단말과의 접속 충돌을 최소화함으로써 결과적으로 짧은 접속 지연 성능을 획득할 수 있다는 효과가 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
도 1은 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말이 포함하는 전체 구성을 예시적으로 도시한 도면이다.
도 2는 지상에 설치된 위성 안테나를 포함하는 저궤도 위성 네트워크 시스템을 예시적으로 도시한 도면이다.
도 3은 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 대표적인 단계를 나타낸 순서도이다.
도 4는 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 있어서, 학습을 수행하는 S310 단계를 구체화한 순서도이다.
도 5는 심층 강화학습 알고리즘을 Actor-Critic 알고리즘으로 사용한 경우의 S310-1 단계 내지 S310-4 단계에 대한 개요도이다.
도 6은 심층 강화학습 알고리즘을 Actor-Critic 알고리즘으로 사용한 경우의 S320 단계에 대한 개요도이다.
도 7은 LTE 및 NR 셀루러 통신에서 사용되는 기존의 램덤 액세스 방식에서 다섯 개의 위성 안테나의 타임 슬롯에 따른 접속 충돌 확률을 시뮬레이션한 결과이다.
도 8은 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 따라 다섯 개의 위성 안테나의 타임 슬롯에 따른 접속 충돌 확률을 시뮬레이션한 결과이다
도 9는 위성 안테나의 밀집도가 낮은 환경에서 기존의 램덤 액세스 방식과 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 충돌 확률과 접속 지연 시간을 기재한 테이블이다.
도 10은 위성 안테나의 밀집도가 높은 환경에서 기존의 램덤 액세스 방식과 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 충돌 확률과 접속 지연 시간을 기재한 테이블이다.
본 발명의 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하의 상세한 설명에 의해 보다 명확하게 이해될 것이다. 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다.
본 명세서에서 개시되는 실시 예들은 본 발명의 범위를 한정하는 것으로 해석되거나 이용되지 않아야 할 것이다. 이 분야의 통상의 기술자에게 본 명세서의 실시 예를 포함한 설명은 다양한 응용을 갖는다는 것이 당연하다. 따라서, 본 발명의 상세한 설명에 기재된 임의의 실시 예들은 본 발명을 보다 잘 설명하기 위한 예시적인 것이며 본 발명의 범위가 실시 예들로 한정되는 것을 의도하지 않는다.
도면에 표시되고 아래에 설명되는 기능 블록들은 가능한 구현의 예들일 뿐이다. 다른 구현들에서는 상세한 설명의 사상 및 범위를 벗어나지 않는 범위에서 다른 기능 블록들이 사용될 수 있다. 또한, 본 발명의 하나 이상의 기능 블록이 개별 블록들로 표시되지만, 본 발명의 기능 블록들 중 하나 이상은 동일 기능을 실행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합일 수 있다.
또한, 어떤 구성요소들을 포함한다는 표현은 "개방형"의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
나아가 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급될 때에는, 그 다른 구성요소에 직접적으로 연결 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다.
이하에서는 도면들을 참조하여 본 발명의 세부적인 실시 예들에 대해 살펴보도록 한다.
도 1은 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100)이 포함하는 전체 구성을 예시적으로 도시한 도면이다.
그러나 이는 본 발명의 목적을 달성하기 위한 바람직한 실시 예일 뿐이며, 필요에 따라 일부 구성이 추가되거나 삭제될 수 있고, 어느 한 구성이 수행하는 역할을 다른 구성이 함께 수행할 수도 있음은 물론이다.
본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100)은 프로세서(10), 네트워크 인터페이스(20), 메모리(30), 스토리지(40) 및 이들을 연결하는 데이터 버스(50)를 포함할 수 있으며, 기타 본 발명의 목적을 달성함에 있어 요구되는 부가적인 구성들을 더 포함할 수 있음은 물론이라 할 것이다.
프로세서(10)는 각 구성의 전반적인 동작을 제어한다. 프로세서(10)는 CPU(Central Processing Unit), MPU(Micro Processer Unit), MCU(Micro Controller Unit) 또는 본 발명이 속하는 기술 분야에서 널리 알려져 있는 형태의 프로세서 중 어느 하나일 수 있다. 아울러, 프로세서(10)는 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법을 수행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다.
네트워크 인터페이스(20)는 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100)의 유무선 인터넷 통신을 지원하며, 그 밖의 공지의 통신 방식을 지원할 수도 있다. 따라서 네트워크 인터페이스(20)는 그에 따른 통신 모듈을 포함하여 구성될 수 있다.
메모리(30)는 각종 정보, 명령 및/또는 정보를 저장하며, 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법을 수행하기 위해 스토리지(40)로부터 하나 이상의 컴퓨터 프로그램(41)을 로드할 수 있다. 도 1에서는 메모리(30)의 하나로 RAM을 도시하였으나 이와 더불어 다양한 저장 매체를 메모리(30)로 이용할 수 있음은 물론이다.
스토리지(40)는 하나 이상의 컴퓨터 프로그램(41) 및 대용량 네트워크 정보(42)를 비임시적으로 저장할 수 있다. 이러한 스토리지(40)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 발명이 속하는 기술 분야에서 널리 알려져 있는 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체 중 어느 하나일 수 있다.
컴퓨터 프로그램(41)은 메모리(30)에 로드되어, 하나 이상의 프로세서(10)에 의해, (A) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 이를 학습하는 오퍼레이션 및 (B) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 오퍼레이션을 실행하며, 상기 제1 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며, 상기 제2 행동은, 상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것일 수 있다.
이상 간단하게 언급한 컴퓨터 프로그램(41)이 수행하는 오퍼레이션은 컴퓨터 프로그램(41)의 일 기능으로 볼 수 있으며, 보다 자세한 설명은 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 대한 설명에서 후술하도록 한다.
데이터 버스(50)는 이상 설명한 프로세서(10), 네트워크 인터페이스(20), 메모리(30) 및 스토리지(40) 사이의 명령 및/또는 정보의 이동 경로가 된다.
이상 설명한 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100)은 유저 단말(UE, User Equipment)로서 지상에 고정되거나 이동성을 가질 수 있으며, 무선기기(Wireless Device), MS(Mobile Station), UT(User Terminal), SS(Subscriber Station), MT(Mobile Terminal) 등과 같은 다른 용어로 불릴 수 있으나, 저궤도 위성 네트워크를 위한 본 발명에 적용하여 도 2에 예시적으로 도시된 바와 같이 지상에 설치된 위성 안테나를 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100)로 설정하여 설명을 이어가도록 한다.
이하, 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100)이 지상에 설치된 위성 안테나임을 전제로 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 대하여 도 3 내지 도 9를 참조하여 설명하도록 한다.
도 3은 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 대표적인 단계를 나타낸 순서도이다.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다.
한편, 각 단계는 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100)을 통해 이루어지는 것을 전제로 하며, 편의상 프로세서 및 메모리를 포함하는 단말(100)로 명명하도록 한다.
우선, 프로세서 및 메모리를 포함하는 단말(100)이 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습한다(S310).
여기서 심층 강화학습 알고리즘은 Actor-Critic 알고리즘, DDPG(Deep Deterministic Poilcy Graident) 알고리즘, PPO(Proximal Policy Optimization) 알고리즘 및 DQN(Deep Q-Network) 알고리즘 중 어느 하나일 수 있으며, 기타 공지된 심층 강화학습 알고리즘 중 어떠한 것을 사용할 수 있음은 물론이고, 그에 따라 프로세서 및 메모리를 포함하는 단말(100)은 심층 강화학습 알고리즘 모델이 내장된(Embedded) 인공지능 프로세서를 포함할 수 있으며, 이를 일종의 심층 강화학습 알고리즘 모델로 볼 수 있다 할 것이다.
한편, 접속 주기는 지상에 고정되어 있는 프로세서 및 메모리를 포함하는 단말(100), 보다 구체적으로 위성 안테나의 시야각에 어느 하나의 저궤도 위성이 진입하여 접속이 이루어지고, 해당 저궤도 위성의 이동으로 인해 위성 안테나의 시야각에서 벗어나게 됨으로써 접속이 끊어진 이후, 시야각 내에 진입한 또 다른 위성 안테나로 새롭게 접속을 시도하는 시점 사이의 시간인바, 모든 저궤도 위성은 상시 이동하기 때문에 접속 주기는 지속적으로 반복되는 것이 일반적이라 할 것이다.
S310 단계에서 수행할지를 결정하는 제1 행동 및 제2 행동 중 어느 하나의 행동은 심층 강화학습 알고리즘에서 이야기하는 행동(Action)을 의미하는바, 제1 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며(Association Decision), 제2 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것(Backoff Decision)일 수 있고, 프로세서 및 메모리를 포함하는 장치(100)는 매 접속 주기마다 제1 행동 및 제2 행동 중 수행할지 결정한 어느 하나의 행동 및 결정한 행동에 따라 랜덤 액세스를 수행한 결과를 지속적으로 학습한다.
여기서 학습은 기 설정된 시간 동안 수행할 수 있는바, 너무 짧은 시간 동안 학습하는 경우 학습의 완성도가 저하될 것이며, 지나치게 긴 시간 동안 학습하는 경우 학습의 완성도가 높아질 수는 있으나 실제 저궤도 위성 네트워크 서비스에 투입되는 시점이 늦어지기에 운영 상의 비용이 늘어날 수 있으므로, 약 24시간 정도의 시간 동안 학습을 수행함이 바람직하다 할 것이나, 이에 반드시 한정하는 것은 아니라 할 것이다.
한편, 학습은 프로세서 및 메모리를 포함하는 단말(100), 보다 구체적으로 위성 안테나가 복수 개인 경우, 복수 개의 위성 안테나 각각이 수행할 수 있으며, 각각의 위성 안테나는 자신의 학습 결과를 실시간 또는 주시적으로 중앙 서버(미도시) 등에 전달하고, 중앙 서버(미도시)는 이를 각각의 위성 안테나에 공유함으로써 해당 위성 안테나로 하여금 다른 위성 안테나의 학습 결과를 참고하여 자신의 학습이 이루어지도록 할 수 있을 것이며, 위성 안테나가 심층 강화학습 알고리즘에서 이야기하는 에이전트(Agent)를 의미한다 할 것이다.
프로세서 및 메모리를 포함하는 단말(100)이 결정 결과에 따라 수행하는 저궤도 위성 네트워크에 대한 램덤 액세스는 4-Step 또는 2-Step 방식의 RACH 액세스일 수 있는바, 이는 공지된 방식이므로 자세한 설명은 생략하도록 한다.
이상 설명한 학습을 수행하는 S310 단계는 심층 강화학습 알고리즘을 저궤도 위성 네트워크에 적용한 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 핵심적인 단계인바, 이하 보다 자세히 설명하도록 한다.
도 4는 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 있어서, 학습을 수행하는 S310 단계를 구체화한 순서도이다.
그러나 이는 본 발명의 목적을 달성함에 있어서 바람직한 실시 예일 뿐이며, 필요에 따라 일부 단계가 추가 또는 삭제될 수 있음은 물론이고, 어느 한 단계가 다른 단계에 포함되어 수행될 수도 있다.
우선, 프로세서 및 메모리를 포함하는 단말(100)이 접속 주기마다 하나 이상의 입력 정보를 심층 강화학습 알고리즘에 상태(State)로 입력한다(S310-1).
심층 강화학습에서 이야기하는 상태는 현재 시점에서 상황이 어떠한지를 나타내는 값들의 집합을 의미하는바, 저궤도 위성 네트워크에 적용되는 본 발명의 경우 상태에 해당하는 입력 정보는 지난 접속 주기에서의 접속 충돌 여부에 대한 정보, 복수 개의 저궤도 위성들의 현재 위치에 대한 정보, 해당 접속 주기를 통해 결과적으로 획득한 통신량에 대한 정보, 다른 단말의 위치에 대한 정보 및 해당 접속 주기에 대한 인덱스에 대한 정보 중 어느 하나 이상을 포함할 수 있다.
더 나아가, 이상의 정보 중 복수 개의 저궤도 위성들의 현재 위치에 대한 정보는 저궤도 위성 네트워크로부터 직접 수신하거나, 주기적인 궤도에 대한 정보로서 프로세서 및 메모리를 포함하는 단말(100)이 기 보유하고 있는 정보일 수도 있다.
상태에 해당하는 이상의 입력 정보는 저궤도 위성 네트워크의 특수성을 고려하여 에이전트인 위성 안테나 단에서 독립적으로 획득할 수 있는(Locally observable information) 정보인바, 에이전트에 해당하는 다른 단말과의 통신(Inter-agent communication)이나 중앙 집중식 학습(Centralized Training)이 요구되지 않는 매우 효율적인 방식의 정보라 할 것이다.
프로세서 및 메모리를 포함하는 단말(100)이 상태로 입력한 하나 이상의 입력 정보를 심층 강화학습 알고리즘에 적용하여 접속 주기마다 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지에 대한 결정을 행동(Action)으로 출력하고, 출력한 행동에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행한다(S310-2).
심층 강화학습 알고리즘에서 이야기하는 행동은 취할 수 있는 선택지를 의미하는바, 입력 정보를 심층 강화학습에 입력함으로써 출력되는 출력값이라 볼 수 있으며, 제1 행동이 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이고, 제2 행동이 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것임은 앞서 설명하였다.
이후, 프로세서 및 메모리를 포함하는 단말(100)이 출력한 행동에 따른 보상(Reward)을 산정한다(S310-3).
심층 강화학습 알고리즘에서 이야기하는 보상은 에이전트가 어떠한 행동을 수행했을 때 따라오는 이득을 의미하는바, 저궤도 위성 네트워크의 특수성을 고려하여 획득한 통신량, 충돌 확률 * (-1) 및 접속 지연 시간 * (-1) 중 어느 하나 이상이 산정하는 보상일 수 있다.
일반적인 보상은 말 그대로 보상이기 때문에 높을수록 의미 있는바, 획득한 통신량이 이에 해당하며, 보상값에 -1을 곱한 것을 비용(Cost)라 하는데 이는 낮을수록 의미 있는바, 충돌 확률과 접속 지연 시간이 그렇다 할 것이다. 즉, 획득한 통신량이 많을수록, 충돌 확률이 낮을 수록, 접속 지연 시간이 짧을수록 저궤도 위성 네트워크의 성능은 우수하다고 할 수 있는바, 그에 따라 본 발명에 적용된 심층 강화학습 알고리즘의 학습 목표는 접속 후 획득한 통신량의 최대화, 접속 충돌 확률의 최소화 및 접속 지연 시간의 최소화 중 어느 하나 이상으로 볼 수 있다 할 것이다.
보상까지 산정했다면, 프로세서 및 메모리를 포함하는 단말(100)이 산정한 보상에 따라 심층 강화학습 알고리즘을 업데이트한다(S310-4).
여기서의 심층 강화학습 알고리즘의 업데이트를 학습으로 볼 수 있을 것이며, 도 5에 심층 강화학습 알고리즘을 Actor-Critic 알고리즘으로 사용한 경우의 S310-1 단계 내지 S310-4 단계를 개요도로 도시해 놓았다.
다시 도 3에 대한 설명으로 돌아가도록 한다.
기 설정된 시간 동안 학습을 완료했다면, 프로세서 및 메모리를 포함하는 단말(100)은 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행한다(S320).
이러한 S320 단계는 심층 강화학습 알고리즘을 적용하여 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정한다는 점에서 S310 단계와 동일하나, 심층 강화학습 알고리즘은 기 설정된 시간 동안의 학습이 완료된 알고리즘(또는 모델)이라는 차이점이 존재하는바, 그에 따라 S310 단계를 학습 단계로, S320 단계를 실행 단계로 볼 수 있을 것이며, 도 6에 도시한 심층 강화학습 알고리즘을 Actor-Critic 알고리즘으로 사용한 경우의 S320 단계를 개요도로 설명을 대체하도록 한다.
도 7은 LTE 및 NR 셀루러 통신에서 사용되는 기존의 램덤 액세스 방식에서 다섯 개의 위성 안테나의 타임 슬롯에 따른 접속 충돌 확률을 시뮬레이션한 결과이며, 도 8은 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 따라 다섯 개의 위성 안테나의 타임 슬롯에 따른 접속 충돌 확률을 시뮬레이션한 결과이다.
도 7 및 도 8을 참조하면, 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법이 기존의 램덤 액세스 방식의 경우보다 다른 위성 안테나의 접속 시도를 이해하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정하는 Backoff를 효율적으로 선택하고 있음을 확인할 수 있다.
또한, 프로세서 및 메모리를 포함하는 장치(100)의 밀집도가 낮은(Sparse) 환경에서 기존의 램덤 액세스 방식과 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 충돌 확률과 접속 지연 시간을 기재한 테이블이다. 도 9를 참조하면, 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법이 Backoff를 효율적으로 선택하기에 충돌 확률은 낮고 접속 지연 시간 역시 단축되었음을 확인할 수 있는바, 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 접속 성능이 기존의 램덤 액세스 방식에 비하여 우수함을 확인할 수 있다.
다만, 이는 프로세서 및 메모리를 포함하는 장치(100)의 밀집도, 보다 구체적으로 지상에 설치된 위성 안테나의 반경에 다른 위성 안테나들이 얼마나 배치되어 있는지 여부와 관련하여 밀집도가 낮은 경우에 대한 접속 성능 결과 인바, 프로세서 및 메모리를 포함하는 장치(100)의 밀집도가 높은(Dense) 환경에서 기존의 램덤 액세스 방식과 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 충돌 확률과 접속 지연 시간을 기재한 테이블인 도 10을 참조하면, 도 9와 마찬가지로 기존의 램덤 액세스 방식에 비하여 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 접속 지연 시간이 현저하게 단축되었을 확인할 수 있다.
한편, 충돌 확률의 경우 기존의 랜덤 액세스 방식이 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법의 경우보다 낮음을 확인할 수 있는바, 프로세서 및 메모리를 포함하는 장치(100)의 밀집도가 높은 환경에서는 충돌 확률을 낮추는 것보다 접속 지연 시간을 단축시키는 것이 위성 안테나 입장에서의 일차적인 목표이며, 이러한 목표 하에 충돌 확률이 어느 정도 증가하는 것은 접속 지연 시간이 단축된다면 감수할 수 있는 것이기 때문이다.
지금까지 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 대하여 설명하였다. 본 발명에 따르면 프로세서 및 메모리를 포함하는 단말(100)인 위성 안테나가 기 설정된 시간 동안 심층 강화학습 알고리즘을 적용하여 저궤도 위성과 접속하는 방식을 학습하는바, 초기 접속이나 핸드오버를 수행하는 경우라 할지라도 보다 적은 액세스 시도를 수행하여 다른 유저 단말과 접속 충돌을 최소화해 접속 성능을 향상시킬 수 있다. 또한, 다른 유저 단말과의 접속 충돌을 최소화함으로써 결과적으로 짧은 접속 지연 성능을 획득할 수도 있다.
한편, 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100) 및 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법은 모든 기술적 특징을 동일하게 포함하는 본 발명의 제3 실시 예에 따른 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램으로 구현할 수도 있는바, 이 경우 컴퓨팅 장치와 결합하여, (AA) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습하는 단계 및 (BB) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계를 포함하며, 상기 제1 행동은, 시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며, 상기 제2 행동은, 상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것일 수 있다.
중복 서술을 위해 자세히 기재하지는 않았지만 본 발명의 제1 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말(100) 및 본 발명의 제2 실시 예에 따른 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 적용된 모든 기술적 특징은 본 발명의 제3 실시 예에 따른 컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램에 모두 동일하게 적용될 수 있음은 물론이라 할 것이다.
이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10: 프로세서
20: 네트워크 인터페이스
30: 메모리
40: 스토리지
41: 컴퓨터 프로그램
50: 정보 버스
100: 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 단말

Claims (11)

  1. 프로세서 및 메모리를 포함하는 장치가 복수 개의 저궤도 위성(Low Earth Orbit Satellite, LEO SAT)이 형성하는 저궤도 위성 네트워크에 접속하기 위한 랜덤 액세스(Random Access) 방법에 있어서,
    (a) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동(Action) 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 이를 학습하는 단계; 및
    (b) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계;
    를 포함하는 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법에 있어서,
    상기 제1 행동은,
    시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며,
    상기 제2 행동은,
    상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것인,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  2. 제1항에 있어서,
    심층 강화학습 알고리즘은,
    Actor-Critic 알고리즘, DDPG(Deep Deterministic Poilcy Graident)알고리즘, PPO(Proximal Policy Optimization) 알고리즘 및 DQN(Deep Q-Network) 알고리즘 중 어느 하나인,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  3. 제1항에 있어서,
    상기 (a) 단계는,
    (a-1) 상기 접속 주기마다 하나 이상의 입력 정보를 심층 강화학습 알고리즘에 상태(State)로 입력하는 단계; 및
    (a-2) 상기 상태로 입력한 하나 이상의 입력 정보를 상기 심층 강화학습 알고리즘에 적용하여 상기 접속 주기마다 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지에 대한 결정을 행동(Action)으로 출력하고, 출력한 행동에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계;
    를 포함하는 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  4. 제3항에 있어서,
    상기 입력 정보는,
    지난 접속 주기에서의 접속 충돌 여부에 대한 정보, 상기 복수 개의 저궤도 위성들의 현재 위치에 대한 정보, 해당 접속 주기를 통해 결과적으로 획득한 통신량에 대한 정보, 상기 다른 단말의 위치에 대한 정보 및 해당 접속 주기에 대한 인덱스에 대한 정보 중 어느 하나 이상을 포함하는,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  5. 제4항에 있어서,
    상기 복수 개의 저궤도 위성들의 현재 위치에 대한 정보는,
    상기 저궤도 위성 네트워크로부터 직접 수신하거나, 주기적인 궤도에 대한 정보로서 기 보유하고 있는 정보인,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  6. 제3항에 있어서,
    상기 (a-2) 단계 이후에,
    (a-3) 상기 출력한 행동에 따른 보상(Reward)을 산정하는 단계; 및
    (a-4) 상기 산정한 보상에 따라 상기 심층 강화학습 알고리즘을 업데이트하는 단계;
    를 더 포함하는 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  7. 제6항에 있어서,
    상기 보상은,
    획득한 통신량, 충돌 확률 * (-1) 및 접속 지연 시간 * (-1) 중 어느 하나 이상인,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  8. 제1항에 있어서,
    상기 심층 강화학습 알고리즘의 학습 목표는,
    접속 충돌 확률의 최소화, 접속 지연 시간의 최소화 및 접속 후 획득한 통신량의 최대화 중 어느 하나 이상인,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  9. 제1항에 있어서,
    상기 프로세서 및 메모리를 포함하는 장치는,
    지상에 설치된 위성 안테나인,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법.
  10. 하나 이상의 프로세서;
    네트워크 인터페이스;
    상기 프로세서에 의해 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리; 및
    대용량 네트워크 데이터 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,
    상기 컴퓨터 프로그램은 상기 하나 이상의 프로세서에 의해,
    (A) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습하는 오퍼레이션; 및
    (B) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 오퍼레이션;
    을 실행하며,
    상기 제1 행동은,
    시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이며,
    상기 제2 행동은,
    상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것인,
    저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스를 수행하는 장치.
  11. 컴퓨팅 장치와 결합하여,
    (AA) 기 설정된 시간 동안 심층 강화학습(Deep Reinforcement Learning, DRL) 알고리즘을 적용하여 접속 주기마다 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하고, 결정 결과에 따라 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하여 이를 학습하는 단계; 및
    (BB) 상기 기 설정된 시간 동안 수행한 심층 강화학습 알고리즘의 학습 결과에 따라 새로운 접속 주기에서 접속 시도 시, 상기 제1 행동 및 제2 행동 중 어느 하나의 행동을 수행할지 결정하여 상기 저궤도 위성 네트워크에 대한 랜덤 액세스를 수행하는 단계;
    를 포함하며,
    상기 제1 행동은,
    시야각 내에 존재하는 하나 이상의 저궤도 위성 중, 어떠한 저궤도 위성에 대하여 어떠한 PRACH 프리앰블을 선택해 접속을 시도함에 관한 것이고,
    상기 제2 행동은,
    상기 시야각 내에 존재하는 하나 이상의 저궤도 위성에 대하여 다른 단말과의 접속 충돌을 회피하기 위해 접속을 시도하지 않는 유보 시간을 결정함에 관한 것인,
    컴퓨터로 판독 가능한 매체에 저장된 컴퓨터 프로그램.
KR1020220019492A 2021-12-14 2022-02-15 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말 KR20230090961A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/718,564 US11832314B2 (en) 2021-12-14 2022-04-12 Deep reinforcement learning-based random access method for low earth orbit satellite network and terminal for the operation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210179052 2021-12-14
KR1020210179052 2021-12-14

Publications (1)

Publication Number Publication Date
KR20230090961A true KR20230090961A (ko) 2023-06-22

Family

ID=86989076

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220019492A KR20230090961A (ko) 2021-12-14 2022-02-15 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말

Country Status (1)

Country Link
KR (1) KR20230090961A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140004772A (ko) 2011-06-22 2014-01-13 엘지전자 주식회사 랜덤 액세스 과정 수행 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140004772A (ko) 2011-06-22 2014-01-13 엘지전자 주식회사 랜덤 액세스 과정 수행 방법 및 장치

Similar Documents

Publication Publication Date Title
US20120047498A1 (en) Updating machine-readable instructions in an electronic device
CN108875035B (zh) 分布式文件系统的数据存储方法及相关设备
US11832314B2 (en) Deep reinforcement learning-based random access method for low earth orbit satellite network and terminal for the operation
CN101582697A (zh) 低密度奇偶校验(ldpc)解码器
US9615384B2 (en) Pilot assignment in cell free massive MIMO wireless systems
CN113986818A (zh) 芯片的地址重构方法、芯片、电子设备以及存储介质
KR20230090961A (ko) 저궤도 위성 네트워크를 위한 심층 강화학습 기반의 랜덤 액세스 방법 및 이를 위한 단말
CN113950080A (zh) 一种优化小区的确定方法、装置及存储介质
CN108574947A (zh) 一种物联网测试方法及装置
CN107509223B (zh) 一种虚拟小区的构建方法和装置
CN105472029A (zh) 一种基于缓存的单点登录的方法及系统
CN110874238B (zh) 一种线上业务更新方法及其装置
KR102467153B1 (ko) Ofdma 기반 무선 전력 통신 네트워크를 위한 에너지 효율적인 자원 할당 방법 및 그 장치
KR20230049491A (ko) 무선 통신 시스템에서 빔을 선택하기 위한 방법 및 장치
CN113411862A (zh) 一种动态蜂窝网络中的缓存放置和用户接入方法及装置
CN110011670A (zh) 基于ssd数据保护的ldpc译码方法和装置
CN111786680B (zh) 一种生成矩阵的确定方法及装置
CN114430556B (zh) 锚点配置方法和装置
US20210234556A1 (en) Decoding method and apparatus based on low-density parity-check code
CN116662063B (zh) 一种闪存的纠错配置方法、纠错方法、系统、设备及介质
CN113872611B (zh) 一种ldpc解码方法、设备、系统及存储介质
CN114079546B (zh) 信道信息的处理方法、装置、设备及存储介质
CN112651775B (zh) 一种确定地理辐射范围的方法、装置及电子设备
CN117729555B (zh) 空中基站部署方法、协同系统及相关设备
CN117320145A (zh) 移动注册方法、装置、通信设备和存储介质