KR102561449B1

KR102561449B1 - 건축 설계를 위한 강화학습을 지원하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Info

Publication number: KR102561449B1
Application number: KR1020220073695A
Authority: KR
Inventors: 류원탁; 이경엽
Original assignee: 스페이스워크 주식회사
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-07-31

Abstract

본 발명의 일 태양에 따르면, 건축 설계를 위한 강화학습을 지원하는 방법으로서, 적어도 하나의 컴퓨팅 자원으로부터 에이전트와 환경의 상호작용에 관한 연산 정보를 획득하는 단계, 상기 획득된 연산 정보에 기초하여 원격 자원으로부터 제공되는 컴퓨팅 자원을 동적으로 할당하는 단계, 및 상기 할당된 컴퓨팅 자원을 기초로 건축 설계를 위한 강화학습 모델을 학습시키는 단계를 포함하는 방법이 제공된다.

Description

건축 설계를 위한 강화학습을 지원하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체{METHOD, SYSTEM AND NON-TRANSITORY COMPUTER-READABLE RECORDING MEDIUM SUPPORTING REINFORCEMENT LEARNING FOR ARCHITECTURAL DESIGN}

본 발명은 건축 설계를 위한 강화학습을 지원하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다.

최근 클라우드 컴퓨팅 기술은 무서운 속도로 발전하고 있다. 클라우드 컴퓨팅 환경에서 제공되는 클라우드 서비스는 IaaS(Infrastructure as a Service), PaaS(Platform as a Service), SaaS(Software as a Service) 등을 포함한 하드웨어, 네트워크, 스토리지, API 등의 IT 환경 전반에서 요구되는 모든 것들을 포함한다.

클라우드 컴퓨팅 기술에서 중요한 핵심 기술 중 하나는 컨테이너 기술이다. 컨테이너 기술은 가상화 방식인 hypervisor 기반의 기술과는 달리 호스트 OS와 자원을 공유하기 때문에, 따로 OS가 필요 없고, 실행에 필요한 파일만 동작시킬 수 있다는 장점이 있다. 따라서, 최소한의 용량을 사용하여 가볍게 동작하며, 작업의 시작 시간이나 종료 시간이 빠르기 때문에, 컨테이너 기술을 활용하여 서비스를 제공하는 기업이 늘어나고 있다.

한편, 건축 설계 분야에서 건축 환경의 자유도와 복잡도가 높기 때문에, 최적의 건축 설계안을 도출하는 프로세스를 자동화하기 위하여 강화학습이 이용되고 있다. 강화학습은 특정한 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동을 선택하는 방식으로 인공 신경망을 학습시키는 방법이다.

건축 설계 분야에서 강화학습을 적용한 종래 기술에 따르면, 파이썬 패키지를 사용하여 에이전트와 환경이 같은 컴퓨팅 자원에서 동작하고 있으며, 에이전트와 환경의 상호작용을 통해 최적의 건축 설계안을 추론한다. 여기서, 에이전트와 환경에 관한 연산은 컴퓨팅 자원에 포함되는 코어의 수만큼 병렬적으로 이루어질 수 있다. 코어의 수만큼 연산의 속도가 빨라질 수 있으나, 특정 컴퓨팅 자원 내에 존재할 수 있는 코어의 수는 물리적으로 한정되어 있으므로 일정 수준 이상으로 연산 속도를 증가시키는 데 어려움이 따른다. 즉, 건축 환경의 자유도와 복잡도가 높아서, 강화학습을 이용하여 최적의 건축 설계안을 추론하는 데 많은 시간이 소요되는 문제를 종래 기술을 통해서는 근본적으로 해결할 수 없다는 한계가 있었다.

이에 본 발명자(들)는, 적어도 하나의 컴퓨팅 자원으로부터 에이전트와 환경의 상호작용에 관한 연산 정보를 획득하고, 획득된 연산 정보에 기초하여 원격 자원으로부터 제공되는 컴퓨팅 자원을 동적으로 할당하고, 할당된 컴퓨팅 자원을 기초로 건축 설계를 위한 강화학습 모델을 학습시키는 기술을 제안하는 바이다.

한국등록특허공보 제10-2097370호 (2020.04.06)

본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.

또한, 본 발명은, 원격 자원으로부터 제공되는 컴퓨팅 자원을 이용함으로써 물리적 또는 공간적 제약 없이 환경과 에이전트에 관한 연산이 가능하도록 하는 것을 다른 목적으로 한다.

또한, 본 발명은, 고정적으로 컴퓨팅 자원을 이용하는 것과 달리 강화학습 모델의 학습 과정에서 발생하는 수요에 따라 필요한 컴퓨팅 자원을 동적으로 할당함으로써 비용에 따른 효용을 최대화하는 것을 또 다른 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 다른 태양에 따르면, 건축 설계를 위한 강화학습을 지원하는 시스템으로서, 적어도 하나의 컴퓨팅 자원으로부터 에이전트와 환경의 상호작용에 관한 연산 정보를 획득하는 정보 획득부, 상기 획득된 연산 정보에 기초하여 원격 자원으로부터 제공되는 컴퓨팅 자원을 동적으로 할당하는 자원 할당부, 및 상기 할당된 컴퓨팅 자원을 기초로 건축 설계를 위한 강화학습 모델을 학습시키는 모델 학습부를 포함하는 시스템이 제공된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 원격 자원으로부터 제공되는 컴퓨팅 자원을 이용함으로써 물리적인 제한 없이 환경과 에이전트에 관한 연산이 가능할 수 있게 된다.

또한, 본 발명에 의하면, 고정적으로 컴퓨팅 자원을 이용하는 것과 달리 강화학습 모델의 학습 과정에서 발생하는 수요에 따라 필요한 컴퓨팅 자원을 동적으로 할당함으로써 비용에 따른 효용을 최대화할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따라 건축 설계를 위한 강화학습을 지원하는 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 학습 지원 시스템의 내부 구성을 상세하게 도시하는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

본 발명에서, 강화학습 모델은 최적의 건축 설계안을 도출하기 위하여 건축 환경에 맞게 가공된 건축 설계 정보에 대응하는 복수의 파라미터에 기초하여 탐색 공간을 결정함으로써 특정되는, 미결정된 상태(state) 집합 및 행동(action) 집합을 대상으로 학습될 수 있다. 한편, 본 발명의 일 실시예에 따른 강화학습 모델에 관하여는 본 출원인에 의하여 출원된 한국특허출원 제10-2021-0159236호에 최초로 첨부된 특허출원명세서의 기재를 참조할 수 있으며, 한국특허출원 제10-2021-0159236의 특허출원명세서에 기재된 내용은 그 전체로서 본 명세서에 병합된 것으로 보아야 함을 밝혀 둔다.

전체 시스템의 구성

도 1은 본 발명의 일 실시예에 따라 건축 설계를 위한 강화학습을 지원하는 전체 시스템의 개략적인 구성을 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 학습 지원 시스템(200) 및 디바이스(300)를 포함할 수 있다.

먼저, 본 발명의 일 실시예에 따른 통신망(100)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 명세서에서 말하는 통신망(100)은 공지의 인터넷 또는 월드 와이드 웹(WWW; World Wide Web)일 수 있다. 그러나, 통신망(100)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다.

예를 들면, 통신망(100)은 무선 데이터 통신망으로서, 와이파이(WiFi) 통신, 와이파이 다이렉트(WiFi-Direct) 통신, 롱텀 에볼루션(LTE; Long Term Evolution) 통신, 5G 통신, 블루투스 통신(저전력 블루투스(BLE; Bluetooth Low Energy) 통신 포함), 적외선 통신, 초음파 통신 등과 같은 종래의 통신 방법을 적어도 그 일부분에 있어서 구현하는 것일 수 있다. 다른 예를 들면, 통신망(100)은 광 통신망으로서, 라이파이(LiFi; Light Fidelity) 등과 같은 종래의 통신 방법을 적어도 그 일부분에 있어서 구현하는 것일 수 있다.

다음으로, 본 발명의 일 실시예에 따른 학습 지원 시스템(200)은 적어도 하나의 컴퓨팅 자원으로부터 에이전트와 환경의 상호작용에 관한 연산 정보를 획득하고, 획득된 연산 정보에 기초하여 원격 자원으로부터 제공되는 컴퓨팅 자원을 동적으로 할당하고, 할당된 컴퓨팅 자원을 기초로 건축 설계를 위한 강화학습 모델을 학습시키는 기능을 수행할 수 있다.

본 발명에 따른 학습 지원 시스템(200)의 구성과 기능에 관하여는 이하의 상세한 설명을 통하여 자세하게 알아보기로 한다.

다음으로, 본 발명의 일 실시예에 따른 디바이스(300)는 학습 지원 시스템(200)에 접속한 후 통신할 수 있는 기능을 포함하는 디지털 기기로서, 스마트폰, 태블릿, 스마트 워치, 스마트 밴드, 스마트 글래스, 데스크탑 컴퓨터, 노트북 컴퓨터, 워크스테이션, PDA, 웹 패드, 이동 전화기 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 디바이스(300)로서 채택될 수 있다.

특히, 디바이스(300)는, 사용자가 학습 지원 시스템(200)으로부터 본 발명에 따른 서비스를 제공받을 수 있도록 지원하는 애플리케이션(미도시됨)을 포함할 수 있다. 이와 같은 애플리케이션은 학습 지원 시스템(200) 또는 외부의 애플리케이션 배포 서버(미도시됨)로부터 다운로드된 것일 수 있다. 한편, 이러한 애플리케이션의 성격은 후술할 바와 같은 학습 지원 시스템(200)의 정보 획득부(210), 자원 할당부(220), 모델 학습부(230), 통신부(240) 및 제어부(250)와 전반적으로 유사할 수 있다. 여기서, 애플리케이션은 그 적어도 일부가 필요에 따라 그것과 실질적으로 동일하거나 균등한 기능을 수행할 수 있는 하드웨어 장치나 펌웨어 장치로 치환될 수도 있다.

학습 지원 시스템의 구성

이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 학습 지원 시스템(200)의 내부 구성과 각 구성요소의 기능에 대하여 살펴보기로 한다.

도 2는 본 발명의 일 실시예에 따른 학습 지원 시스템(200)의 내부 구성을 상세하게 도시하는 도면이다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 학습 지원 시스템(200)은, 정보 획득부(210), 자원 할당부(220), 모델 학습부(230), 통신부(240) 및 제어부(250)를 포함하여 구성될 수 있다. 본 발명의 일 실시예에 따르면, 정보 획득부(210), 자원 할당부(220), 모델 학습부(230), 통신부(240) 및 제어부(250)는 그 중 적어도 일부가 외부의 시스템(미도시됨)과 통신하는 프로그램 모듈일 수 있다. 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 학습 지원 시스템(200)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다. 또한, 이러한 프로그램 모듈은 학습 지원 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

한편, 학습 지원 시스템(200)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 학습 지원 시스템(200)의 구성요소 또는 기능 중 적어도 일부가 필요에 따라 디바이스(300) 또는 서버(미도시됨) 내에서 실현되거나 외부 시스템(미도시됨) 내에 포함될 수도 있음은 당업자에게 자명하다.

먼저, 본 발명의 일 실시예에 따른 정보 획득부(210)는, 적어도 하나의 컴퓨팅 자원으로부터 에이전트와 환경의 상호작용에 관한 연산 정보를 획득할 수 있다.

본 발명의 일 실시예에 따른 적어도 하나의 컴퓨팅 자원은 컴퓨팅 네트워크, 데이터 베이스, 서버, 하드웨어, 프로세서(예를 들어, CPU, GPU 등), 코어, 스토리지, 메모리, 애플리케이션, 서비스 등을 포함할 수 있다. 다만, 본 발명의 일 실시예에 따른 컴퓨팅 환경은 위에서 열거된 것에 한정되지 않으며, 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있다.

본 발명의 일 실시예에 따른 연산 정보는 최적의 건축 설계안을 도출하기 위한 강화학습 모델의 학습 과정에서 에이전트와 환경의 상호작용을 통해 발생하는 연산에 관한 정보를 의미할 수 있다. 예를 들어, 연산 정보는 에이전트와 환경의 상호작용으로부터 최적의 건축 설계안을 추론하는 데 걸리는 시간에 관한 정보, 컴퓨팅 자원의 수에 관한 정보, 에이전트에 관한 연산(또는 에이전트 연산)을 위한 컴퓨팅 자원의 시간당 비용에 관한 정보, 환경에 관한 연산(또는 환경 연산)을 위한 컴퓨팅 자원의 시간당 비용에 관한 정보, 컴퓨팅 자원에 따른 환경 연산량(또는 연산 요구량)에 관한 정보, 컴퓨팅 자원에 따른 에이전트 연산량(또는 연산 요구량)에 관한 정보 등을 포함할 수 있다.

한편, 본 발명의 일 실시예에 따르면, 에이전트에 관한 연산이 이루어지는 컴퓨팅 자원과 환경에 관한 연산이 이루어지는 컴퓨팅 자원은 구분될 수 있다.

삭제

예를 들어, 본 발명의 일 실시예에 따르면, 환경에 관한 연산이 이루어지는 컴퓨팅 자원은 서버(즉, 환경 서버)를 의미할 수 있다. 본 발명의 일 실시예에 따른 환경 서버는 파이썬 프레임워크(예를 들어, FastAPI 프레임워크)를 이용하여 구현될 수 있다. 이를 통해, 기존에 환경을 구현하였던 파이썬 패키지는 환경 서버의 형태로 쉽게 구현될 수 있다.

또한, 본 발명의 일 실시예에 따른 환경 서버를 통해 환경에 관한 연산이 이루어지는 경우, 연산량에 관한 제한 없이 에이전트와 독립적으로 연산이 이루어질 수 있다.

나아가, 본 발명의 일 실시예에 따른 서버는 원격 자원(예를 들어, 아마존 웹 서비스(AWS))으로부터 제공될 수 있다. 이를 통해, 환경 서버를 운영하는 데 있어서, 물리적, 공간적 및 시간적인 제약을 받지 않을 수 있다.

다음으로, 본 발명의 일 실시예에 따른 자원 할당부(220)는, 획득된 연산 정보에 기초하여 원격 자원으로부터 제공되는 컴퓨팅 자원을 동적으로 할당할 수 있다.

구체적으로, 본 발명의 일 실시예에 따른 원격 자원으로부터 제공되는 컴퓨팅 자원은 획득된 연산 정보에 기초하여 자원 관리 시스템을 통해 동적으로 할당될 수 있다.

본 발명의 일 실시예에 따른 자원 관리 시스템은 원격 자원에서 제공되는 컴퓨팅 자원(예를 들어, 컨테이너에 대응되는 서버 또는 컨테이너화된 애플리케이션)을 자동으로 배포, 스케일링 및 관리하기 위한 오픈 소스 시스템을 의미할 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 자원 관리 시스템은 하나의 호스트에 올라가는 컨테이너의 수가 증가하였을 때, 이를 통합 관리하기 위한 컨테이너 오케스트레이션 시스템(예를 들어, 쿠버네티스(Kubernetes))를 의미할 수 있다. 여기서, 본 발명의 일 실시예에 따른 컨테이너 오케스트레이션 시스템은 컨테이너를 규모에 맞게 통합하고 관리를 단순화하며 컨테이너 배치를 정의할 뿐만 아니라 가용성, 확장 및 네트워킹을 위해 여러 컨테이너를 하나의 개체로 관리할 수 있도록 할 수 있다.

구체적으로, 본 발명의 일 실시예에 따른 자원 관리 시스템은 강화학습 과정에서 컴퓨팅 자원에 관한 정보(예를 들어, CPU, GPU 및 메모리의 사용량 등)를 모니터링하는 기능을 수행할 수 있을 뿐만 아니라 연산 정보를 참조하여 원격 자원에서 제공될 수 있는 환경 서버의 수를 자동으로 조절하는 기능을 수행할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 컴퓨팅 자원은 GPU(또는 CPU) 사용률에 근거하여 동적으로 할당될 수 있다. 여기서, 본 발명의 일 실시예에 따르면, 에이전트와 환경에 관한 연산을 위해 주로 이용되는 GPU(또는 CPU) 사용률에 의해 환경 서버의 사용 경향성이 추정될 수 있다.

보다 구체적으로, 본 발명의 일 실시예에 따르면, 건축 설계를 위한 강화학습 모델의 학습 과정에서 GPU(또는 CPU) 사용률에 의해 추정되는 환경 서버의 사용 경향성에 근거하여 환경 서버의 수가 조절될 수 있다.

한편, 본 발명의 일 실시예에 따른 컴퓨팅 자원은 획득된 연산 정보로부터 결정되는 연산 요구 정보에 근거하여 동적으로 할당될 수 있다.

본 발명의 일 실시예에 따른 연산 요구 정보는 에이전트와 환경에 관한 연산에 기초하여 필요로 하는 컴퓨팅 자원의 수에 관한 정보로서, 예를 들어, 컴퓨팅 자원의 수에 관한 정보 및 컴퓨팅 자원에 대한 연산 요구량에 관한 정보를 포함할 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 연산 요구 정보는 에이전트와 환경의 상호작용에 대한 모니터링(monitoring)을 통해 동적으로 결정될 수 있다.

구체적으로, 본 발명의 일 실시예에 따른 자원 할당부(220)는 자원 관리 시스템을 통해 에이전트와 환경의 상호작용에 대한 모니터링을 함으로써 컴퓨팅 자원에 대한 연산 요구량에 관한 정보(예를 들어, 에이전트와 환경에 관한 연산 요구량) 및 컴퓨팅 자원의 수에 관한 정보(예를 들어, 연산 요구량에 대응되는 환경 서버의 수)를 동적으로 결정할 수 있다.

또한, 본 발명의 일 실시예에 따르면, 컴퓨팅 자원에 대한 요구량에 기초하여 컴퓨팅 자원의 수가 자동적으로 조절될 수 있다.

구체적으로, 본 발명의 일 실시예에 따르면, 에이전트와 환경에 관한 연산 요구량(예를 들어, 시간당 요구량)에 대응하여 자원 관리 시스템을 통해 환경 서버의 수가 자동으로 조절될 수 있다. 또한, 본 발명의 또 다른 일 실시예에 따르면, 에이전트와 환경에 관한 연산 요구량(또는 시간당 요구량)에 대응하여 자원 관리 시스템을 통해 환경 서버의 용량이 자동으로 조절될 수 있다.

보다 구체적으로, 에이전트와 환경에 관한 연산의 적정 요구량에 기초하여 자원 관리 시스템을 통해 환경 서버의 수 또는 환경 서버의 용량이 자동으로 조절될 수 있다.

예를 들어, 환경 서버의 수가 1개이고, 연산의 적정 요구량이 초당 4개이고, 연산 요구량이 초당 16개인 경우를 가정하면, 자원 관리 시스템을 통해 환경 서버의 수는 1개에서 4개로 자동으로 조절될 수 있다. 한편, 본 발명의 일 실시예에 따른 연산의 적정 요구량은 자원 관리 시스템을 이용한 모니터링 또는 전문가의 조작에 의해 설정될 수 있음을 밝혀 둔다.

본 발명의 일 실시예에 따르면, 컴퓨팅 자원의 할당에 따른 비용을 아래와 같이 [표 1]로 나타낼 수 있다.

본 발명의 일 실시예에 따르면, 강화학습이 이루어지는 경우에 환경 서버의 수에 따라 추론 시간 및 서버 비용(예를 들어, 환경 서버 비용 및 에이전트 서버 비용)이 달라질 수 있다. 예를 들어, 64 배치 추론 시간 및 서버 비용은, 환경 서버가 4개인 경우에 61초 및 0.007693(USD)일 수 있고, 환경 서버가 16개인 경우에 54초 및 0.017025(USD)일 수 있고, 환경 서버가 32개인 경우에 33초 및 0.018728(USD)일 수 있다. 여기서, 본 발명의 일 실시예에 따르면, 원격 자원으로부터 제공되는 컴퓨팅 자원을 이용함으로써 물리적 또는 공간적 제약 없이 환경 서버를 사용할 수 있게 된다. 다만, 본 발명의 일 실시예에 따른 환경 서버의 수가 증가할수록 추론 시간은 적어지지만, 비용이 커지게 되는 문제가 발생하게 되는데, 에이전트와 환경에 관한 연산 요구량(예를 들어, 시간당 요구량)에 대응하여 환경 서버의 수가 자동으로 조절되는 경우, 환경 서버의 수에 관한 수요가 빠르게 반영되어 불필요하게 낭비되는 컴퓨팅 자원을 없앨 수 있는 효과가 달성될 있다.

이와 같이, 고정적으로 컴퓨팅 자원을 이용하는 것과 달리 강화학습 모델의 학습 과정에서 발생하는 수요에 따라 필요한 컴퓨팅 자원을 동적으로 할당함으로써 비용에 따른 효용을 최대화하는 효과가 달성될 수 있다.

다음으로, 본 발명의 일 실시예에 따른 모델 학습부(230)는, 위의 할당된 컴퓨팅 자원을 기초로 건축 설계를 위한 강화학습 모델을 학습시킬 수 있다.

다음으로, 본 발명의 일 실시예에 따른 통신부(240)는 정보 획득부(210), 자원 할당부(220) 및 모델 학습부(230)로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다.

마지막으로, 본 발명의 일 실시예에 따른 제어부(250)는 정보 획득부(210), 자원 할당부(220), 모델 학습부(230) 및 통신부(240) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명의 일 실시예에 따른 제어부(250)는 학습 지원 시스템(200)의 외부로부터의/로의 데이터 흐름 또는 학습 지원 시스템(200)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 정보 획득부(210), 자원 할당부(220), 모델 학습부(230) 및 통신부(240)에서 각각 고유 기능을 수행하도록 제어할 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

100: 통신망
200: 학습 지원 시스템
210: 정보 획득부
220: 자원 할당부
230: 모델 학습부
240: 통신부
250: 제어부
300: 디바이스

Claims

건축 설계를 위한 강화학습을 지원하는 방법으로서,
적어도 하나의 컴퓨팅 자원으로부터 강화학습의 에이전트와 강화학습의 환경의 상호작용에 관한 연산 정보를 획득하는 단계,
상기 획득된 연산 정보에 기초하여 원격 자원으로부터 제공되는 컴퓨팅 자원을 동적으로 할당하는 단계, 및
상기 할당된 컴퓨팅 자원을 기초로 건축 설계를 위한 강화학습 모델을 학습시키는 단계를 포함하고,
상기 연산 정보에는 상기 에이전트에 관한 연산을 위한 컴퓨팅 자원의 시간당 비용에 관한 정보, 상기 환경에 관한 연산을 위한 컴퓨팅 자원의 시간당 비용, 컴퓨팅 자원에 따른 상기 환경에 관한 연산량 및 컴퓨팅 자원에 따른 상기 에이전트에 관한 연산량 중 적어도 하나에 관한 정보가 포함되고,
상기 에이전트에 관한 연산이 이루어지는 제1 컴퓨팅 자원과 상기 환경에 관한 연산이 이루어지는 제2 컴퓨팅 자원은 서로 구분되고,
상기 제2 컴퓨팅 자원을 통해 이루어지는 상기 환경에 관한 연산은 연산량에 관한 제한 없이 상기 에이전트와 독립적으로 이루어지는
방법.
삭제
제1항에 있어서,
상기 할당 단계에서, 상기 컴퓨팅 자원은 GPU 사용률에 근거하여 동적으로 할당되는
방법.
제1항에 있어서,
상기 할당 단계에서, 상기 컴퓨팅 자원은 상기 획득된 연산 정보로부터 결정되는 연산 요구 정보에 근거하여 동적으로 할당되고,
상기 연산 요구 정보는 상기 컴퓨팅 자원의 수에 관한 정보 및 상기 컴퓨팅 자원에 대한 연산 요구량에 관한 정보를 포함하는
방법.
제4항에 있어서,
상기 할당 단계에서, 상기 컴퓨팅 자원에 대한 연산 요구량에 기초하여 상기 컴퓨팅 자원의 수가 자동적으로 조절되는
방법.
제4항에 있어서,
상기 할당 단계에서, 상기 연산 요구 정보는 상기 에이전트와 환경의 상호작용에 대한 모니터링(monitoring)을 통해 동적으로 결정되는
방법.
제1항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체.
건축 설계를 위한 강화학습을 지원하는 시스템으로서,
적어도 하나의 컴퓨팅 자원으로부터 강화학습의 에이전트와 강화학습의 환경의 상호작용에 관한 연산 정보를 획득하는 정보 획득부,
상기 획득된 연산 정보에 기초하여 원격 자원으로부터 제공되는 컴퓨팅 자원을 동적으로 할당하는 자원 할당부, 및
상기 할당된 컴퓨팅 자원을 기초로 건축 설계를 위한 강화학습 모델을 학습시키는 모델 학습부를 포함하고,
상기 연산 정보에는 상기 에이전트에 관한 연산을 위한 컴퓨팅 자원의 시간당 비용에 관한 정보, 상기 환경에 관한 연산을 위한 컴퓨팅 자원의 시간당 비용, 컴퓨팅 자원에 따른 상기 환경에 관한 연산량 및 컴퓨팅 자원에 따른 상기 에이전트에 관한 연산량 중 적어도 하나에 관한 정보가 포함되고,
상기 에이전트에 관한 연산이 이루어지는 제1 컴퓨팅 자원과 상기 환경에 관한 연산이 이루어지는 제2 컴퓨팅 자원은 서로 구분되고,
상기 제2 컴퓨팅 자원을 통해 이루어지는 상기 환경에 관한 연산은 연산량에 관한 제한 없이 상기 에이전트와 독립적으로 이루어지는
시스템.
삭제
제8항에 있어서,
상기 컴퓨팅 자원은 GPU 사용률에 근거하여 동적으로 할당되는
시스템.
제8항에 있어서,
상기 컴퓨팅 자원은 상기 획득된 연산 정보로부터 결정되는 연산 요구 정보에 근거하여 동적으로 할당되고,
상기 연산 요구 정보는 상기 컴퓨팅 자원의 수에 관한 정보 및 상기 컴퓨팅 자원에 대한 연산 요구량에 관한 정보를 포함하는
시스템.
제11항에 있어서,
상기 컴퓨팅 자원에 대한 연산 요구량에 기초하여 상기 컴퓨팅 자원의 수가 자동적으로 조절되는
시스템.
제11항에 있어서,
상기 연산 요구 정보는 상기 에이전트와 환경의 상호작용에 대한 모니터링(monitoring)을 통해 동적으로 결정되는
시스템.