WO2022092346A1

WO2022092346A1 - 강화학습 기반의 난수 생성 장치 및 방법

Info

Publication number: WO2022092346A1
Application number: PCT/KR2020/014859
Authority: WO
Inventors: 김근진; 박성주; 김경민
Original assignee: 주식회사 스파이스웨어
Priority date: 2020-10-28
Filing date: 2020-10-29
Publication date: 2022-05-05
Also published as: KR102236640B1

Abstract

강화 학습 기반의 난수 생성 장치 및 방법이 제공된다. 상기 방법은, 컴퓨터에 의해 실현되는 방법으로서, 컴퓨터에 의해 실현되는 방법으로서, 에이전트부를 통해 딥러닝 기반의 제1 모델을 기초로, 제1 난수를 생성하는 단계, 기 저장된 적어도 하나의 제2 난수 및 제1 난수 간의 각각의 유사도를 산출하는 단계, 상기 각각의 유사도에 기초하여 상기 에이전트의 제1 난수의 생성 행위에 관한 강화학습을 수행하는 단계 및 제1 난수를 메모리에 저장하는 단계를 포함하고, 상기 강화학습을 수행하는 단계는, 환경부를 통해 상기 에이전트부에 상기 각각의 유사도에 기초하여 보상을 제공한 후에, 상기 에이전트부가 제1 난수를 기초로, 제1 모델을 학습하도록 제어한다.

Description

강화학습 기반의 난수 생성 장치 및 방법

본 발명은 강화학습 기반의 난수 생성 장치 및 방법에 관한 것이다.

난수는 특정한 순서나 규칙을 가지지 않는 수를 의미한다. 이러한 난수는 실생활뿐만 아니라, 다양한 분야에서 활용되고 있다. 예를 들어, 난수를 활용하여 주택 분양권 또는 추첨 행사의 당첨자를 선정하기도 한다. 최근에는 무작위로 생성되는 난수의 일회용 패스워드를 이용하는 사용자 인증 방식인 OTP(One Time Password)를 발급하는 데에도 난수가 활용된다.

그러나, 이러한 난수를 생성하는 것에는 한계점이 있다. 특히 정해진 입력에 따라서 정해진 값을 산출하는 컴퓨터의 경우에는, 사람처럼 무의식적인 선택을 강요할 수 없으므로, 난수를 생성하는데 한계점을 갖는다. 이를 위해, 시드 값에 기초하여 난수를 생성하는 방식이 통용화 되고 있는데, 이러한 방식 또한 동일한 시드 값에 의하여 동일한 난수가 생성되게 되는 문제점을 낳는다.

따라서, 동일한 시드 값에 의하더라도 서로 다른 난수가 생성될 수 있는 방안이 필요하다. 특히, 난수를 생성하는 과정에서 내재되어 있는 규칙을 인지하지 못하도록, 딥러닝 기반의 생성 모델을 이용하여 난수를 생성하는 방법에 대해서는 아직까지 제안되고 있지 않다.

강화 학습은 에이전트에게 현재의 상태에서 어떠한 행동을 취하는 것이 최적인지를 학습하는 것이다. 행동을 취할 때마다 환경으로부터 보상이 부여되어, 에이전트는 보상을 최대화 하는 방향을 학습을 수행한다. 이러한 강화 학습을 난수를 생성하는데 필요한 시드 값을 수집하는데 활용함으로써, 궁극적으로 기존의 난수와 상이한 난수가 생성되도록 시드 값을 수집하도록 학습하는 방안 또한 제안된바 없다.

본 발명이 해결하고자 하는 과제는 강화 학습 기반의 난수 생성 장치 및 방법을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 강화학습 기반의 동적 난수 생성 방법은, 컴퓨터에 의해 실현되는 방법으로서, 컴퓨터에 의해 실현되는 방법으로서, 에이전트부를 통해 딥러닝 기반의 제1 모델을 기초로, 제1 난수를 생성하는 단계, 기 저장된 적어도 하나의 제2 난수 및 제1 난수 간의 각각의 유사도를 산출하는 단계, 상기 각각의 유사도에 기초하여 상기 에이전트의 제1 난수의 생성 행위에 관한 강화학습을 수행하는 단계 및 제1 난수를 메모리에 저장하는 단계를 포함하고, 상기 강화학습을 수행하는 단계는, 환경부를 통해 상기 에이전트부에 상기 각각의 유사도에 기초하여 보상을 제공한 후에, 상기 에이전트부가 제1 난수를 기초로, 제1 모델을 학습하도록 제어할 수 있다.

본 발명의 일부 실시예에서, 상기 유사도를 산출하는 단계는, 상기 적어도 하나의 제2 난수와 제1 난수를 딥러닝 기반의 제2 모델에 적용하여 산출할 수 있다.

본 발명의 일부 실시예에서, 제2 모델에 의해 산출되는 유사도는, 상기 적어도 하나의 제2 난수 및 제1 난수 각각의 피처(Feature) 간의 거리를 기반으로 산출될 수 있다.

본 발명의 일부 실시예에서, 제1 난수는, 적어도 하나의 제1 입력값이 제1 모델에 적용되어 생성되고, 동일한 제1 입력값이 제1 모델에 적용되어도, 제1 모델의 학습 상태에 따라 상이한 난수로 생성 가능할 수 있다.

본 발명의 일부 실시예에서, 상기 보상은, 상기 각각의 유사도 모두가 제1 임계도보다 작은 경우에 제공될 수 있다.

본 발명의 일부 실시예에서, 상기 기 저장된 적어도 하나의 제2 난수는, 제1 난수의 생성에 이용된 입력값의 출처와 동일한 출처로부터 수집된 입력값을 기반으로 생성된 적어도 하나의 난수를 포함할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 또 다른 면에 따른 강화 학습 기반의 난수 생성 장치는, 딥러닝 기반의 제1 모델을 기초로, 제1 난수를 생성하는 에이전트부, 기 저장된 적어도 하나의 제2 난수 및 제1 난수 간의 각각의 유사도를 산출하고, 상기 유사도에 기초하여 상기 에이전트에 보상을 제공하는 환경부 및 제1 난수를 저장하는 메모리를 포함하고, 상기 유사도에 상응하는 보상을 제공한 후에, 상기 에이전트가 제1 난수를 기초로, 제1 모델을 학습하도록 제어하는 것을 특징으로 할 수 있다.

본 발명의 일부 실시예에서, 상기 환경부는, 기 저장된 적어도 하나의 난수와 제1 난수를 딥러닝 기반의 제2 모델에 적용하여, 상기 적어도 하나의 제2 난수 및 제1 난수 각각의 피처(Feature) 간의 거리를 산출하고, 상기 산출된 거리에 기초하여 유사도를 산출할 수 있다.

본 발명의 일부 실시예에서, 상기 환경부는, 상기 산출된 각각의 유사도 모두가 제1 임계도보다 작은 경우에 상기 에이전트부에 보상을 제공할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합하여 상기 강화학습 기반의 난수 생성 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장될 수 있다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

상술한 본 발명에 의하면, 강화 학습을 통해, 기 저장된 난수와 생성된 난수를 비교하고, 유사도에 따라 보상을 제공함으로써, 에이전트는 기 저장되어있는 난수와는 유사도가 낮은 난수가 생성한다. 이를 통해, 저장되어 있는 난수와 상이한 난수를 반복하여 생성할 수 있다.

또한, 딥러닝 기반의 생성 모델을 기반으로, 난수를 생성함으로써, 난수 생성 과정에서 내재되어 있는 규칙을 제3자가 추론하지 못하도록 할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 강화 학습 장치의 구성을 나타낸 블록도이다.

도 2는 본 발명에 따른, 강화 학습 기반의 난수 생성 장치의 블록도이다.

도 3은 본 발명에 따른, 강화 학습 기반의 난수 생성 방법을 개략적으로 나타낸 순서도이다.

도 4는 본 발명에 따른, 제1 난수에 상응하는 제1 입력값의 출처와 동일한 출처로부터 수집된 입력값을 기반으로 생성된 기 저장된 적어도 하나의 난수와 유사도를 산출하는 것을 나타낸 예시도이다.

도 5는 본 발명에 따른, 유사도에 기초하여 에이전트의 수집 액션을 강화하는 방법을 개략적으로 나타낸 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

설명에 앞서 본 명세서에서 사용하는 용어의 의미를 간략히 설명한다. 그렇지만 용어의 설명은 본 명세서의 이해를 돕기 위한 것이므로, 명시적으로 본 발명을 한정하는 사항으로 기재하지 않은 경우에 본 발명의 기술적 사상을 한정하는 의미로 사용하는 것이 아님을 주의해야 한다.

본 발명에서 사용되는 용어 '강화학습(Reinforcement Learning)'은 상태(State), 행동(Action), 보상(Reward), 에이전트(Agent), 환경(Environment)로 구성된 기계학습 알고리즘의 일종이다. 이러한 강화 학습은 학습의 행동 주체인 에이전트(Agent)가 어떤 행동을 해야만 더 많은 보상(Reward)를 받을지 알아내는 것을 목적으로 한다.

도 1은 강화 학습 장치의 구성을 나타낸 블록도이다. 도 1을 참조하면, 에이전트가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동)을 결정하는 방법을 학습시키고, 각 액션이 스테이트(state)에 영향을 끼치면, 성공한 정도는 보상(Reward)으로 측정될 수 있다.

즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떠한 스테이트(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다. 한편, 강화 학습을 통해 에이전트는 보상이 최대가 될 수 있도록 액션을 취하게 된다

본 발명은 이러한 강화학습의 특징을 난수 발생에 활용한다. 구체적으로, 에이전트의 액션을 통해 생성된 난수가, 기존의 난수와 유사도가 낮을 때마다 보상을 부여함으로써, 궁극적으로 에이전트가 기존의 난수와는 상이한 난수를 생성하도록 강화 학습을 수행하는 것이다.

이하, 첨부된 도면을 참조하여 상술한 본 발명에 일 실시예에 대하여 상세히 설명하도록 한다.

도 2를 참조하면, 강화 학습 기반의 난수 생성 장치(100)(이하, 난수 생성 장치)는 에이전트부(110), 환경부(120), 메모리(130), 제어부(140)를 포함한다.

다만, 본 발명에서의 강화 학습 기반의 난수 생성 장치(100)는 도 2에 도시된 구성요소들 보다 많거나, 또는 적은 구성요소들을 포함할 수 있다. 예를 들어, 상기 에이전트부(110)에 제1 난수를 생성하기 위한 시드 값에 해당하는, 제1 입력값을 수집하는 수집부를 더 포함할 수 있다.

한편, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 엘리먼트를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 엘리먼트들, 객체지향 소프트웨어 엘리먼트들, 클래스 엘리먼트들 및 태스크 엘리먼트들과 같은 엘리먼트들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 엘리먼트들과 "부"들 안에서 제공되는 기능은 더 작은 수의 엘리먼트들 및 "부"들로 결합되거나 추가적인 엘리먼트들과 "부"들로 더 분리될 수 있다.

또한, 본 명세서의 모든 “부”는 적어도 하나의 프로세서에 의해 제어될 수 있으며 본 개시의 “부”가 수행하는 동작을 적어도 하나의 프로세서가 수행할 수도 있다.

본 개시의 실시예들은 기능 또는 기능을 수행하는 블록의 관점에서 설명될 수 있다. 본 개시의 ‘부’ 또는 ‘모듈’ 등으로 지칭될 수 있는 블록은 논리 게이트, 집적 회로, 마이크로 프로세서, 마이크로 컨트롤러, 메모리, 수동 전자 부품, 능동 전자 부품, 광학 컴포넌트, 하드와이어드 회로(hardwired circuits) 등과 같은 아날로그 또는 디지털 회로에 의해 물리적으로 구현되고, 선택적으로 펌웨어 및 소프트웨어에 의해 구동될 수 있다.

난수 생성 장치(100)는 난수를 생성을 기반으로, 서비스를 제공하는 회사가 관리하는 서버 장치를 의미할 수 있으며, 또는 클라우드 컴퓨팅 서비스를 제공하는 회사가 관리하는 서버 장치를 의미할 수도 있다.

메모리(130)는 난수 생성 장치(100)의 다양한 기능을 지원하는 데이터를 저장한다. 예를 들어, 에이전트 부에 의해 생성되는 제1 난수와의 유사도를 비교하는, 하나 이상의 제2 난수에 관한 데이터가 저장된다. 또한 메모리(140)는 난수 생성 장치(100)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 난수 생성 장치(100)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다.

또한, 상기 메모리(130)에는 에이전트부(110)에 의해 제1 난수를 생성하는데 이용되는 딥러닝 기반의 제1 모델에 관한 알고리즘과 환경부에 의해 제1 난수와 제2 난수 간의 유사도를 산출하는데 이용되는 딥러닝 기반의 제2 모델에 관한 알고리즘이 저장된다.

이하에서는, 에이전트부(110), 환경부(120) 및 메모리(130)를 포함하는 난수 생성 장치(100)가 강화 학습을 이용하여 난수를 생성하는 방법을 상세히 설명하도록 한다.

한편, 도 3 및 도 5에 도시된 단계들은 난수를 생성하는 서비스 제공 업체에 의해 운영되는 난수 생성 장치인 서버에 의해 수행되는 것으로 이해될 수 있지만, 이에 제한되는 것은 아니다.

먼저 도 3을 참조하면, 에이전트부(110)는 딥러닝 기반의 제1 모델을 기초로, 제1 난수를 생성한다(S210).

도면에 명확히 도시되지는 않았으나, 난수 생성 장치(100)는, 에이전트부(110)를 통해 제1 난수를 생성하기 위한 시드 값을 수집할 수 있다. 이를 위해, 상기 난수 생성 장치는(100) 시드 값을 수신할 수 있는 통신 모듈을 포함하는 수집부를 더 포함할 수 있다.

한편, 상기 시드 값으로는 하드웨어 및 소프트웨어가 생성하는 랜덤한 특성을 갖는 변수가 이용될 수 있다.

여기서 하드웨어는, 강화학습 기반의 난수 생성 장치를 의미하는 것으로서, 상술한 바와 같이, 강화학습 기반의 난수 생성 장치가 서버 장치인 경우에는, 하드웨어는 서버 장치를 의미한다.

한편, 하드웨어가 생성하는 랜덤한 특성을 갖는 변수로는, 시간, 하드웨어가 켜져 있는 시간, CPU 메모리의 클럭수, 온도 등이 있다. 강화 학습 기반의 난수 생성 장치는, 이러한 정보를 난수 발생에 이용되는 제1 입력값으로 입력받거나 수집하면, 상기 에이전트부는 상기 제1 입력값을 기초로 난수를 생성한다.

또는, 상기 제1 입력값은 커널 시스템 로그에 의하여 수집될 수도 있다. 여기서 시스템 커널 로그란, 프로그램이 실행될 때, 운영체제 레벨에서 기록되는 로그 파일을 의미한다.

즉, 정리하면, 에이전트부(110)는 난수 발생을 위한 시드(Seed)값을 하드웨어의 온도, 시간, CPU 메모리의 클럭수 등과 같은 하드웨어 정보, 시스템 커널 로그 등을 통해 수집되거나 입력된 제1 입력값을 기초로 제1 난수를 생성하는 액션(Action)을 수행한다.

이때, 에이전트부(110)에 의해 생성되는 제1 난수는 딥러닝 기반의 제1 모델을 이용하여 생성된다. 제1 난수의 생성 과정에서, 딥러닝 기반의 생성 모델(Black Box)을 이용함으로써, 제1 난수를 생성하는 과정에서 내재되어 있는 규칙성을 제3 자가 추론하거나 인지할 수 없도록 하는 효과를 발휘하게 된다.

한편, 본 발명의 일 예로, 제1 난수는 기 설정된 난수 사이즈와 매칭되도록 조정될 수 있다. 구체적으로, 해쉬 함수 또는 패딩(Padding) 기법 등에 따라서, 제1 난수의 사이즈를 조정할 수 있을 것이다.

다시 도 3을 참조하면, 에이전트부(110)에 의해 제1 난수가 생성되면, 환경부는 기 저장된 적어도 하나의 제2 난수와 제1 난수 간의 유사도를 산출한다(S220).

본 발명의 일 예로, 환경부(120)는 상기 적어도 하나의 제2 난수와 제1 난수를 딥러닝 기반의 제2 모델에 적용하여 산출할 수 있다. 예를 들어, 저장된 제2 난수의 값이 3개라고 가정하면, 하나의 제1 난수와 3개의 제2 난수 각각에 대한 유사도를 산출하는데, 결과적으로, 3개의 유사도에 관련한 값이 산출되게 된다. 한편, 상술한 바와 같이 3개의 유사도에 관련한 값은 딥러닝 기반의 제2 모델에 의하여, 산출될 수 있다.

한편, 본 발명의 일 예로, 제2 모델에 의해 산출되는 유사도는, 적어도 하나의 제2 난수 및 제1 난수 각각의 피처(Feature) 간의 거리를 기반으로 산출될 수 있다. 즉, 딥러닝 기반의 제2 모델에 의하여, 제1 난수와 제2 난수의 피처가 생성되면, 상기 제1 난수와 제2 난수의 피처간의 거리를 산출한다. 그리고, 상기 거리에 기초하여, 유사도를 산출한다.

예를 들어, 제1 난수와 3개의 제2 난수의 유사도를 산출한다고 가정한다면, 제1 난수와 각각의 제2 난수의 피처를 딥러닝 기반의 제2 모델에 기반하여 생성하고, 상기 생성된 피처의 거리 정보에 기초하여 유사도를 산출한다. 이때, 유사도는, 피처 간의 거리가 가까울수록 크다. 즉, 거리가 가까운 제1 난수와 제2 난수는 더 유사한 것을 판단된다.

이 밖에도 유사도를 산출하는 방법으로는, 제1 난수를 비롯하여 메모리(130)에 저장된 적어도 하나의 난수를 각각에 상응하는 벡터로 임베딩한다. 그리고, 제1 난수에 상응하는 벡터와 메모리(130)에 저장된, 각각의 난수에 상응하는 벡터의 코사인 유사도를 산출한다.

보다 구체적으로는, 내적 공간의 제1 난수에 상응하는 벡터와 메모리에 저장된, 각각의 난수에 상응하는 벡터간의 코사인 값을 이용하여 유사도를 산출할 수 도 있을 것이다.

또는 상술한 유사도는, 제1 난수와 기 저장된 적어도 하나의 난수의 피처맵을 각각 추출하고, 각각의 피처맵을 n차원(n은 2 이상의 자연수)의 벡터로 임베딩하고, 각각의 벡터 간 유클리드 거리를 측정하여 상기 유사도를 측정할 수도 있다.

한편, 본 발명의 일 예로, 상기 기 저장된 적어도 하나의 제2 난수는, 제1 난수의 생성에 이용된 입력값의 출처와 동일한 출처로부터 수집된 입력값을 기반으로 생성된 적어도 하나의 제2 난수를 포함할 수 있다. 즉, 상술한 바와 같이 하드웨어 정보 또는 커널 시스템 로그를 기초로 제1 입력값이 수집될 수 있다. 이때, 제1 입력값에 기초하여 제1 난수를 생성한 후, 상기 제 1입력값의 출처와 동일한 출처로부터 수집된 입력값을 기반으로 생성된 적어도 하나의 제2 난수간의 유사도를 산출한다.

구체적으로, 도 4를 참조하면, 에이전트에 의해 제1 입력값이 하드웨어 정보를 기반으로 수집되었다고 가정한다. 제1 입력값을 딥러닝 기반의 생성 모델에 적용하여 제1 난수가 생성되면, 환경부는 메모리에 기 저장된 난수와 상기 제1 난수의 유사도를 산출하게 될 것이다.

이때, 환경부는, 메모리(130)에 저장된 기존의 모든 제2 난수와 제1 난수의 유사도를 산출하는 것이 아니며, 동일한 출처의 입력값에 의해 생성된 제2 난수와의 유사도를 산출한다. 따라서, 환경부는, 제1 난수와 메모리에 저장된, 하드웨어로부터 수집된 입력값을 기반으로 생성된 제2 난수간의 유사도를 산출할 것이다.

다시 도 3을 참조하면, 환경부(120)는 각각의 유사도를 산출한 후, 각각의 유사도에 기초하여 에이전트부(110)의 제1 난수의 생성 행동(Action)에 관한 강화학습을 수행한다.

도 5를 참조하면, 먼저 환경부는 유사도에 기초하여, 보상(Reward) 정보를 에이전트에 제공한다(S231).

이때, 본 발명의 일 예로, 유사도가 제1 임계도보다 작은 경우에 한하여 보상 정보가 제공될 수 있다. 예를 들어, 제1 난수와 메모리에 저장된 10개의 난수의 유사도를 산출하였다고 가정한다.

이때, 10개의 기 저장된 난수와의 관계에서 산출된 각각의 유사도에 관한 값이 사전에 설정된 제1 임계도보다 모두 작은 경우에 한하여, 에이전트부에 보상 정보가 제공될 수 있다. 여기서 보상 정보는, 상기 각각의 유사도가 제1 임계도보다 모두 작은 경우에는 양(+)의 값으로 제공될 수 있다.

반면에, 상기 산출된 각각의 유사도 중 적어도 하나가 제1 임계도보다 큰 경우에는 음(-)의 값으로 제공된다. 즉, 기존에 저장된 제2 난수와 유사한 제1 난수를 생성하는 경우에는, 상기 에이전트부에 패널티가 제공될 수도 있다.

한편, 다시 도 5를 참조하면, 보상을 제공한 후, 에이전트부(110)가 제1 난수를 기초로, 제1 모델을 학습하도록 제어한다(S232).

즉, 에이전트부(110)는 반복하여 상이한 제1 난수를 생성하도록 강화 학습을 수행한다. 구체적으로, 에이전트부(110)가 보상 정보를 제공받으면, 상기 보상 정보에 상응하여, 에이전트부(110)의 딥러닝 기반의 제1 모델의 은닉층(Hidden State)의 가중치 값을 조정한다. 다시 말해, 에이전트부는 환경부를 통해 제공되는 보상 정보에 기초하여, 딥러닝 기반의 제1 모델의 은닉층(Hidden State)의 가중치 값을 조정한다.

환경부를 통해 양(+)의 값의 보상이 제공되면, 딥러닝 기반의 제1 모델의 은닉층의 가중치 값을 조정한다. 이러한 과정을 반복하면서, 저장되어 있는 제2 난수와는 상이한 제1 난수를 계속하여 생성할 수 있도록 하는 효과를 발휘하게 될 것이다. 뿐만 아니라, 하드웨어, 커널 시스템 또는 어플리케이션으로부터 수집된 동일한 제1 입력값이 딥러닝 생성 모델에 적용되어도, 딥러닝 생성 모델의 학습 상태에 따라 상이한 난수로 생성이 가능할 수 있다.

한편, 본 발명의 일 예로, 유사도에 기초하여, 음(-)의 값의 보상이 제공된 경우에는, 딥러닝 기반의 제1 모델의 은닉층의 가중치 값을 조정하지 않을 수 있다.

한편, 도 3을 참조하면, 제1 난수는 메모리(130)에 저장된다(S140). 즉, 제1 난수는 메모리(130)에 저장된 후, 다시 에이전트에 의해 새롭게 생성된 또 다른 난수와의 유사도 판단의 대상이 된다.

이와 같이, 강화학습 기반의 난수 생성 장치는, 난수를 누적하여 저장하고 관리함으로써, 제1 난수가 새롭게 생성될 때마다, 유사도를 판단하고, 궁극적으로 에이전트의 제1 난수 생성에 관한 Action을 강화한다.

이상에서 전술한 본 발명의 일 실시예에 따른 강화학습 기반의 난수 생성 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 애플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

[부호의 설명]

100 : 난수 생성 장치

110 : 에이전트

120 : 생성부

130 : 환경부

140 : 메모리

Claims

컴퓨터에 의해 실현되는 방법으로서,

에이전트부를 통해 딥러닝 기반의 제1 모델을 기초로, 제1 난수를 생성하는 단계;

기 저장된 적어도 하나의 제2 난수 및 제1 난수 간의 각각의 유사도를 산출하는 단계;

상기 각각의 유사도에 기초하여 상기 에이전트의 제1 난수의 생성 행위에 관한 강화학습을 수행하는 단계; 및

제1 난수를 메모리에 저장하는 단계;를 포함하고,

상기 강화학습을 수행하는 단계는,

환경부를 통해 상기 에이전트부에 상기 각각의 유사도에 기초하여 보상 정보를 제공한 후에, 상기 에이전트부가 제1 난수를 기초로, 제1 모델을 학습하도록 제어하는,

강화학습 기반의 동적 난수 생성 방법.
제1항에 있어서,

상기 유사도를 산출하는 단계는,

상기 적어도 하나의 제2 난수와 제1 난수를 딥러닝 기반의 제2 모델에 적용하여 산출하는,

강화학습 기반의 동적 난수 생성 방법.
제5항에 있어서,

제2 모델에 의해 산출되는 유사도는,

상기 적어도 하나의 제2 난수 및 제1 난수 각각의 피처(Feature) 간의 거리를 기반으로 산출되는,

강화학습 기반의 동적 난수 생성 방법.
제1항에 있어서,

제1 난수는,

적어도 하나의 제1 입력값이 제1 모델에 적용되어 생성되고,

동일한 제1 입력값이 제1 모델에 적용되어도, 제1 모델의 학습 상태에 따라 상이한 난수로 생성 가능한,

강화학습 기반의 동적 난수 생성 방법..
제1항에 있어서,

상기 보상 정보는,

상기 각각의 유사도 모두가 제1 임계도보다 작은 경우에 제공되는,

강화학습 기반의 동적 난수 생성 방법.
제1항에 있어서,

상기 기 저장된 적어도 하나의 제2 난수는,

제1 난수의 생성에 이용된 입력값의 출처와 동일한 출처로부터 수집된 입력값을 기반으로 생성된 적어도 하나의 난수를 포함하는,

강화학습 기반의 동적 난수 생성 방법.
딥러닝 기반의 제1 모델을 기초로, 제1 난수를 생성하는 에이전트부;

기 저장된 적어도 하나의 제2 난수 및 제1 난수 간의 각각의 유사도를 산출하고, 상기 유사도에 기초하여 상기 에이전트에 보상을 제공하는 환경부; 및

제1 난수를 저장하는 메모리;를 포함하고,

상기 유사도에 상응하는 보상 정보를 제공한 후에, 상기 에이전트가 제1 난수를 기초로, 제1 모델을 학습하도록 제어하는 것을 특징으로 하는,

강화학습 기반의 동적 난수 생성 장치.
제7항에 있어서,

상기 환경부는,

기 저장된 적어도 하나의 난수와 제1 난수를 딥러닝 기반의 제2 모델에 적용하여, 상기 적어도 하나의 제2 난수 및 제1 난수 각각의 피처(Feature) 간의 거리를 산출하고, 상기 산출된 거리에 기초하여 유사도를 산출하는,

강화학습 기반의 동적 난수 생성 장치.
제8항에 있어서,

상기 환경부는,

상기 산출된 각각의 유사도 모두가 제1 임계도보다 작은 경우에 상기 에이전트부에 보상 정보를 제공하는 것을 특징으로 하는,

강화학습 기반의 동적 난수 생성 장치
컴퓨터와 결합하여 제1항 내지 제6항 중 어느 한 항의 강화학습 기반의 동적 난수 생성 방법을 수행하기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.