WO2023043019A1 - 사용자 학습 환경 기반의 강화학습 장치 및 방법 - Google Patents

사용자 학습 환경 기반의 강화학습 장치 및 방법 Download PDF

Info

Publication number
WO2023043019A1
WO2023043019A1 PCT/KR2022/009728 KR2022009728W WO2023043019A1 WO 2023043019 A1 WO2023043019 A1 WO 2023043019A1 KR 2022009728 W KR2022009728 W KR 2022009728W WO 2023043019 A1 WO2023043019 A1 WO 2023043019A1
Authority
WO
WIPO (PCT)
Prior art keywords
reinforcement learning
information
environment
target object
simulation
Prior art date
Application number
PCT/KR2022/009728
Other languages
English (en)
French (fr)
Inventor
민예린
유연상
이성민
조원영
김바다
이동현
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Publication of WO2023043019A1 publication Critical patent/WO2023043019A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/12Geometric CAD characterised by design entry means specially adapted for CAD, e.g. graphical user interfaces [GUI] specially adapted for CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/39Circuit design at the physical level
    • G06F30/392Floor-planning or layout, e.g. partitioning or placement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/20Configuration CAD, e.g. designing by assembling or positioning modules selected from libraries of predesigned modules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2115/00Details relating to the type of the circuit
    • G06F2115/12Printed circuit boards [PCB] or multi-chip modules [MCM]

Definitions

  • the present invention relates to an apparatus and method for reinforcement learning based on a user learning environment, and more particularly, a user learning environment-based method in which a user sets a reinforcement learning environment and generates an optimal position of a target object through reinforcement learning using simulation. It is about a reinforcement learning device and method.
  • Reinforcement learning is a learning method for dealing with an agent that interacts with an environment and achieves a goal, and is widely used in the field of artificial intelligence.
  • This reinforcement learning is to find out what actions the reinforcement learning agent, which is the subject of learning, must do to receive more rewards.
  • the agent sequentially selects an action as the time step passes, and receives a reward based on the effect the action has on the environment.
  • FIG. 1 is a block diagram showing the configuration of a reinforcement learning apparatus according to the prior art.
  • the agent 10 determines an action (or action) A through learning of a reinforcement learning model. After learning, each action A affects the next state S, and the degree of success can be measured by reward R.
  • the reward is a reward score for an action (action) determined by the agent 10 according to a certain state when learning is performed through a reinforcement learning model, and a reward score for the agent 10's decision-making according to learning It is a kind of feedback.
  • the environment 20 is all rules, such as actions that the agent 10 can take and rewards accordingly. States, actions, rewards, etc. are all components of the environment, and all predetermined things other than the agent 10 are the environment.
  • an object of the present invention is to provide a reinforcement learning apparatus and method based on a user learning environment in which a user sets a reinforcement learning environment and generates an optimal position of a target object through reinforcement learning using simulation. .
  • an embodiment of the present invention is a reinforcement learning device based on a user learning environment, which analyzes individual objects and location information of the objects based on design data including overall object information, and analyzes the analyzed Based on the setting information input from the user terminal, a customized reinforcement learning environment is set by adding arbitrary color, constraint, and position change information for each object, and reinforcement learning is performed based on the customized reinforcement learning environment. and performs a simulation based on the state information of the customized reinforcement learning environment and an action determined to optimize the placement of the target object around at least one individual object, and makes a decision by the reinforcement learning agent.
  • a simulation engine that provides compensation (Reward) information for the placement of the simulated target object as feedback for the; and a reinforcement learning agent that performs reinforcement learning based on the state information and compensation information provided from the simulation engine to determine an action to optimize the placement of a target object disposed around the object.
  • design data according to the embodiment is characterized in that the CAD (CAD) file.
  • the simulation engine includes an environment setting unit that sets a customized reinforcement learning environment to which color, constraint, and location change information are added for each object through setting information input from a user terminal; A customized reinforcement learning environment by analyzing individual objects and their location information based on the design data including the entire object information, and adding color, constraint, and location change information set in the environment setting unit for each individual object.
  • a reinforcement learning environment configuration unit that generates simulation data constituting the simulation data and requests optimization information for disposition of a target object around at least one individual object to the reinforcement learning agent based on the simulation data; And based on the action received from the reinforcement learning agent, a simulation for constructing a reinforcement learning environment for the placement of the target object is performed, and state information and reward information including the placement information of the target object to be used for reinforcement learning are transmitted to the reinforcement learning agent. It is characterized in that it includes; a simulation unit provided to the agent.
  • the compensation information according to the embodiment is characterized in that it is calculated based on the distance between the object and the target object or the position of the target object.
  • an embodiment according to the present invention is a reinforcement learning method based on a user learning environment, comprising: a) receiving, by a reinforcement learning server, design data including entire object information from a user terminal; b) The reinforcement learning server analyzes individual objects and location information of the objects, and adds arbitrary color, constraint, and location change information for each object through setting information input from the user terminal to the analyzed object. Setting up a customized reinforcement learning environment; c) The reinforcement learning server performs reinforcement learning based on the state information of the customized reinforcement learning environment and the reward information, including the arrangement information of the target object to be used for reinforcement learning, through the reinforcement learning agent.
  • the reinforcement learning server performs a simulation constituting a reinforcement learning environment for the placement of the target object based on an action, and generates reward information according to a result of the simulation as feedback for the decision-making of the reinforcement learning agent. and a step d) wherein the compensation information of step d) is calculated based on the distance between the object and the target object or the location of the target object.
  • step a) is a CAD file.
  • the present invention has an advantage in that a user can easily set up a CAD data-based reinforcement learning environment through a user interface (UI) and drag & drop and quickly configure the reinforcement learning environment.
  • UI user interface
  • the present invention has the advantage of automatically generating an optimized position of a target object in various environments by performing reinforcement learning based on a learning environment set by a user.
  • 1 is a block diagram showing the configuration of a general reinforcement learning device
  • FIG. 2 is a block diagram showing a reinforcement learning device based on a user learning environment according to an embodiment of the present invention.
  • Fig. 3 is a block diagram showing a reinforcement learning server of a reinforcement learning device based on a user learning environment according to the embodiment of Fig. 2;
  • Fig. 4 is a block diagram showing the configuration of a reinforcement learning server according to the embodiment of Fig. 3;
  • FIG. 5 is a flowchart illustrating a reinforcement learning method based on a user learning environment according to an embodiment of the present invention.
  • FIG. 6 is an exemplary view of design data shown to explain a reinforcement learning method based on a user learning environment according to an embodiment of the present invention.
  • FIG. 7 is an exemplary diagram of object information data shown to explain a reinforcement learning method based on a user learning environment according to an embodiment of the present invention.
  • FIG. 8 is an exemplary view illustrating a process of setting environment information in a reinforcement learning method based on a user learning environment according to an embodiment of the present invention.
  • FIG. 9 is an exemplary diagram illustrating simulation data of a reinforcement learning method based on a user learning environment according to an embodiment of the present invention.
  • FIG. 10 is an exemplary view illustrating a compensation process of a reinforcement learning method based on a user learning environment according to an embodiment of the present invention.
  • the term "at least one" is defined as a term including singular and plural, and even if at least one term does not exist, each component may exist in singular or plural, and may mean singular or plural. would be self-evident.
  • FIG. 2 is a block diagram showing a reinforcement learning device based on a user learning environment according to an embodiment of the present invention
  • FIG. 3 is a block diagram showing a reinforcement learning server of the reinforcement learning device based on a user learning environment according to the embodiment of FIG. 2
  • FIG. 4 is a block diagram showing the configuration of a reinforcement learning server according to the embodiment of FIG. 3 .
  • the reinforcement learning apparatus based on the user learning environment analyzes and analyzes individual objects and location information of the objects based on design data including overall object information. It can be composed of a reinforcement learning server 200 that sets up a customized reinforcement learning environment in which color, constraint, and location change information are added to each object based on setting information input from a user terminal.
  • the reinforcement learning server 200 performs a simulation based on the customized reinforcement learning environment, determines the state information of the customized reinforcement learning environment, and the placement of the target object around at least one individual object to be optimized. Reinforcement learning is performed using reward information for the placement of simulated target objects based on actions, and may include a simulation engine 210 and a reinforcement learning agent 220.
  • the simulation engine 210 receives design data including overall object information from the user terminal 100 accessed through a network, and analyzes individual objects and location information of the objects based on the received design data.
  • the user terminal 100 is a terminal capable of accessing the reinforcement learning server 200 through a web browser and uploading arbitrary design data stored in the user terminal 100 to the reinforcement learning server 200, It can be composed of a desktop PC, notebook PC, tablet PC, PDA or embedded terminal.
  • an application program may be installed in the user terminal 100 to customize design data uploaded to the reinforcement learning server 200 based on setting information input by a user.
  • the design data is data including entire object information, and may include boundary information for adjusting the size of an image entering a reinforcement learning state.
  • the design data may include individual files because it may be required to set individual constraints by receiving location information of each object, and may preferably be composed of CAD files, and the type of CAD file can be composed of files such as FBX and OBJ.
  • the design data may be a CAD file created by a user so that a learning environment similar to a real environment can be provided.
  • the simulation engine 210 configures a reinforcement learning environment by implementing a virtual environment in which learning is performed while interacting with the reinforcement learning agent 120, and applies a reinforcement learning algorithm for training a model of the reinforcement learning agent 120.
  • a Machine Learning (ML)-agent (not shown) may be configured to do so.
  • the ML-agent may transmit information to the reinforcement learning agent 120, and may perform an interface between programs such as 'Python' for the reinforcement learning agent 120.
  • simulation engine 210 may be configured to include a web-based graphic library (not shown) to visualize through the web.
  • the simulation engine 210 may set a customized reinforcement learning environment in which color, constraint, and location change information are added for each object through setting information input from the user terminal 100 to the analyzed object. .
  • the simulation engine 210 performs a simulation based on the customized reinforcement learning environment, and determines the state information of the customized reinforcement learning environment and the placement of the target object around at least one individual object to be optimized. It is possible to provide reward information for the placement of the simulated target object based on the action, and the environment setting unit 211, the reinforcement learning environment configuration unit 212, and the simulation unit 213 can be configured to include
  • the environment setting unit 211 can set a customized reinforcement learning environment in which color, constraint, and location change information are added for each object included in the design data using setting information input from the user terminal 100. there is.
  • objects included in the design data are classified according to characteristics or functions, such as objects necessary for simulation, unnecessary obstacles, and target objects to be placed, and specific colors are assigned to objects classified by characteristic or function. By adding and distinguishing, it is possible to prevent an increase in the learning range during reinforcement learning.
  • constraints on individual objects set whether the object is a target object, a fixed object, or an obstacle in the design process, or in the case of a fixed object, the minimum distance to the target object placed in the periphery, or placed in the periphery It is possible to set various environments during reinforcement learning by setting the number of target objects, the type of target objects disposed in the periphery, and the like.
  • the reinforcement learning environment configuration unit 212 analyzes individual objects and positional information of the objects based on design data including all object information, and sets colors, constraints, Simulation data constituting a customized reinforcement learning environment can be created by adding location change information.
  • the reinforcement learning environment configuration unit 212 may request optimization information for disposition of a target object in the vicinity of at least one individual object from the reinforcement learning agent 220 based on the simulation data.
  • the reinforcement learning environment configuration unit 212 may request optimization information for arranging one or more target objects around at least one individual object from the reinforcement learning agent 220 based on the generated simulation data.
  • the simulation unit 213 performs a simulation to configure a reinforcement learning environment for the arrangement of target objects based on the action received from the reinforcement learning agent 220, and state information including the arrangement information of the target object to be used for reinforcement learning. and reward information may be provided to the reinforcement learning agent 220.
  • the compensation information may be calculated based on the distance between the object and the target object or the position of the target object, and compensation according to the characteristics of the target object, for example, the target object is vertically symmetrical around an arbitrary object, Compensation information may be calculated based on left/right symmetry, diagonal symmetry, and the like.
  • the reinforcement learning agent 220 performs reinforcement learning based on state information and reward information provided from the simulation engine 210 to determine an action so that the placement of a target object disposed around the object is optimized. It can be configured including an algorithm.
  • the reinforcement learning algorithm can use either a value-based approach or a policy-based approach to find the optimal policy for maximizing the reward, and the optimal policy in the value-based approach is based on the agent's experience. Derived from the approximated optimal value function, the policy-based approach learns the optimal policy decoupled from the value function approximation and the trained policy is improved towards the approximated function.
  • the reinforcement learning algorithm allows the reinforcement learning agent 220 to learn to determine an action in which a target object is disposed at an optimal position based on an angle at which the target object is disposed around the object, a distance away from the object, and the like.
  • FIG. 5 is a flowchart illustrating a reinforcement learning method based on a user learning environment according to an embodiment of the present invention.
  • the simulation engine 210 of the reinforcement learning server 200 is the entire object uploaded from the user terminal 100.
  • Design data including information is received and converted to analyze individual objects and positional information of the object based on the design data including overall object information (S100).
  • the design data uploaded in step S100 is a CAD file containing the entire object information, as shown in the design data image 300 of FIG. 6, and enters the state of reinforcement learning.
  • boundary information may be included.
  • step S100 the design data uploaded in step S100 is converted and provided so that individual objects 310 and 320 according to the characteristics of the object can be displayed based on the individual file information as shown in FIG. 7 .
  • the simulation engine 210 of the reinforcement learning server 200 analyzes individual objects and location information for each object, and selects the analyzed objects for each object based on the setting information input from the user terminal 100.
  • step S200 the simulation engine 210 uses setting information input from the user terminal 100 through the learning environment setting screen 400 as shown in FIG. 8 to classify objects on the setting target image 410. It can be divided into a setting target object 411, an obstacle 412, and the like.
  • the simulation engine 210 sets the target object 411 and the obstacle 412 in a specific color through the color setting input unit 421 and the obstacle setting input unit 422 of the reinforcement learning environment setting image 420 for each object. set to have
  • the simulation engine 210 based on the setting information provided from the user terminal 100, for each object, the minimum distance to the target object disposed in the periphery of the object, the number of target objects disposed in the periphery of the object, and the object periphery It is possible to set individual constraints such as the type of the target object placed on the , group setting information between objects having the same characteristics, and setting that the target object does not overlap with an arbitrary obstacle.
  • the simulation engine 210 changes and places the locations of the setting target object 410 and the obstacle 412 through location change information provided from the user terminal 100, thereby providing various customized reinforcement learning environments in which the location information is changed. can be set.
  • the simulation engine 210 when an input is received to the learning environment storage unit 423, the simulation engine 210 generates simulation data based on the customized reinforcement learning environment, such as the simulation target image 500 of FIG.
  • the simulation engine 210 may convert the XML (eXtensible Markup Language) file to be visualized and used through the Web.
  • XML eXtensible Markup Language
  • the simulation engine 210 It is possible to perform reinforcement learning based on the state information of the customized reinforcement learning environment, including the arrangement information of the target object to be used for reinforcement learning, and the reward information collected from the .
  • the reinforcement learning agent 220 determines at least one individual object and an action determined to optimize the placement of the target object around the object based on the simulation data (S300).
  • the reinforcement learning agent 220 arranges a target object around an arbitrary object using a reinforcement learning algorithm, and at this time, the angle the target object forms with the object, the distance away from the object, and the direction of symmetry with the object Learn to determine the action in which the back is placed in the optimal position.
  • the simulation engine 210 performs a simulation of the placement of the target object based on the action provided from the reinforcement learning agent 220, and based on the simulated execution progress, the simulation engine 110 moves between the object and the target object. Compensation information is generated based on the distance of or the location of the target object (S400).
  • step S400 for example, when the distance between the object and the target object should be short, the distance information itself is provided as a negative compensation so that the distance between the object and the target object is as close to '0' as possible. do.
  • a (-) compensation value is set as compensation information.
  • the distance of the compensation information may be determined in consideration of the thickness of the target object 620 .
  • the position of the target object optimized in various environments may be automatically generated.
  • simulation engine 211 environment setting unit
  • reinforcement learning agent 300 design data image
  • reinforcement learning environment setting image 421 color setting input unit
  • object 620 target object

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Architecture (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)

Abstract

사용자 학습 환경 기반의 강화학습 장치 및 방법을 개시한다. 본 발명은 사용자가 캐드 데이터 기반의 강화학습 환경을 사용자 인터페이스(UI)와, 드래그앤 드롭(Drag&Drop)을 통해 쉽게 설정하고 강화학습 환경을 신속하게 구성할 수 있고, 사용자가 설정한 학습 환경을 기반으로 강화학습을 수행함으로써, 다양한 환경에서 최적화된 타겟 물체의 위치를 자동으로 생성할 수 있다.

Description

사용자 학습 환경 기반의 강화학습 장치 및 방법
본 발명은 사용자 학습 환경 기반의 강화학습 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 사용자가 강화학습 환경을 설정하여 시뮬레이션을 이용한 강화학습을 통해 타겟 물체의 최적 위치를 생성하는 사용자 학습 환경 기반의 강화학습 장치 및 방법에 관한 것이다.
강화 학습은 환경(environment)과 상호작용하며 목표를 달성하는 에이전트를 다루는 학습 방법으로서, 인공 지능 분야에서 많이 사용되고 있다.
이러한 강화 학습은 학습의 행동 주체인 강화 학습 에이전트(Agent)가 어떤 행동을 해야 더 많은 보상(Reward)을 받을지 알아내는 것을 목적으로 한다.
즉, 정해진 답이 없는 상태에서도 보상을 최대화시키기 위해 무엇을 할 것인가를 배우는 것으로서, 입력과 출력이 명확한 관계를 갖고 있는 상황에서 사전에 어떤 행위를 할 것인지 듣고 하는 것이 아니라, 시행착오를 거치면서 보상을 최대화시키는 것을 배우는 과정을 거친다.
또한, 에이전트는 시간 스텝이 흘러감에 따라 순차적으로 액션을 선택하게 되고, 상기 액션이 환경에 끼친 영향에 기반하여 보상(reward)을 받게 된다.
도 1은 종래 기술에 따른 강화 학습 장치의 구성을 나타낸 블록도로서, 도 1에 나타낸 바와 같이, 에이전트(10)가 강화 학습 모델의 학습을 통해 액션(Action, 또는 행동) A를 결정하는 방법을 학습시키고, 각 액션인 A는 그 다음 상태(state) S에 영향을 끼치며, 성공한 정도는 보상(Reward) R로 측정할 수 있다.
즉, 보상은 강화 학습 모델을 통해 학습을 진행할 경우, 어떤 상태(State)에 따라 에이전트(10)가 결정하는 액션(행동)에 대한 보상 점수로서, 학습에 따른 에이전트(10)의 의사 결정에 대한 일종의 피드백이다.
환경(20)은 에이전트(10)가 취할 수 있는 행동, 그에 따른 보상 등 모든 규칙으로서, 상태, 액션, 보상 등은 모두 환경의 구성요소이고, 에이전트(10) 이외의 모든 정해진 것들이 환경이다.
한편, 강화 학습을 통해 에이전트(10)는 미래의 보상이 최대가 되도록 액션을 취하게 되므로, 보상을 어떻게 책정하느냐에 따라 학습 결과에 많은 영향이 발생한다.
그러나, 이러한 강화학습은 실제 환경과 시뮬레이션되는 가상 환경의 차이로 인해 설계, 제조 과정중에 다양한 조건 하에서 임의의 물체 주변에 타겟 물체를 배치하는 경우, 작업자가 수작업을 통해 최적의 위치를 찾아 설계를 진행하는 실제 환경과 가상 환경의 차이로 인해 학습된 액션이 최적화 되지 않는 문제점이 있다.
또한, 사용자가 강화학습 시작 전에 강화학습 환경을 커스터마이징하고, 그에 따른 환경 구성을 기반으로 강화학습을 수행하기 어려운 문제점이 있다.
또한, 실제 환경을 잘 모방하는 가상 환경을 제작하는 것이 시간, 인력 등 많은 비용을 필요로 하며 변화하는 실제 환경을 빠르게 반영하는 것이 어렵다.
또한 가상 환경을 통해 학습된 실제 제조 과정 중에 다양한 조건 하에서 임의의 물체 주변에 타겟 물체를 배치하는 경우, 실제 환경과 가상 환경의 차이로 인해 학습된 액션이 최적화되지 않는 문제점이 있다.
그렇기 때문에 가상 환경을 ‘잘’ 만드는 것이 굉장히 중요하며 변화하는 실제 환경을 빠르게 반영하는 기술이 필요하다.
이러한 문제점을 해결하기 위하여, 본 발명은 사용자가 강화학습 환경을 설정하여 시뮬레이션을 이용한 강화학습을 통해 타겟 물체의 최적 위치를 생성하는 사용자 학습 환경 기반의 강화학습 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 사용자 학습 환경 기반의 강화학습 장치로서, 전체 물체 정보가 포함된 설계 데이터를 기반으로 개별 물체와 상기 물체의 위치 정보를 분석하고, 상기 분석된 물체를 사용자 단말로부터 입력되는 설정 정보에 기반하여 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하며, 상기 커스터마이징 된 강화학습 환경을 기반으로 강화학습을 수행하고, 상기 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치가 최적화되도록 결정된 액션(Action)을 기반으로 시뮬레이션을 수행하고, 강화학습 에이전트의 의사 결정에 대한 피드백으로 시뮬레이션 된 타겟 물체의 배치에 대한 보상(Reward) 정보를 제공하는 시뮬레이션 엔진; 및 상기 시뮬레이션 엔진으로부터 제공받은 상태 정보와 보상 정보를 기반으로 강화학습을 수행하여 상기 물체 주변부에 배치되는 타겟 물체의 배치가 최적화되도록 액션을 결정하는 강화학습 에이전트;를 포함한다.
또한, 상기 실시 예에 따른 설계 데이터는 캐드(CAD) 파일인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 시뮬레이션 엔진은 사용자 단말로부터 입력되는 설정 정보를 통해 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하는 환경 설정부; 상기 전체 물체 정보가 포함된 설계 데이터를 기반으로 개별 물체와 상기 물체의 위치 정보를 분석하고, 개별 물체 별로 환경 설정부에서 설정된 색상, 제한(Constraint), 위치 변경 정보를 부가하여 커스터마이징 된 강화학습 환경을 구성하는 시뮬레이션 데이터를 생성하며, 상기 시뮬레이션 데이터에 기반하여 상기 강화학습 에이전트로 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치를 위한 최적화 정보를 요청하는 강화학습 환경 구성부; 및 상기 강화학습 에이전트로부터 수신된 액션을 기반으로 타겟 물체의 배치에 대한 강화학습 환경을 구성하는 시뮬레이션을 수행하고, 강화학습에 이용될 타겟 물체의 배치 정보를 포함한 상태 정보와 보상 정보를 상기 강화학습 에이전트로 제공하는 시뮬레이션부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 보상 정보는 물체와 타깃 물체 사이의 거리 또는 타깃 물체의 위치에 기반하여 산출되는 것을 특징으로 한다.
또한, 본 발명에 따른 일 실시 예는 사용자 학습 환경 기반의 강화학습 방법으로서, a) 강화학습 서버가 사용자 단말로부터 전체 물체 정보를 포함한 설계 데이터를 수신하는 단계; b) 상기 강화학습 서버가 개별 물체와, 상기 물체의 위치 정보를 분석하여 상기 분석된 물체를 사용자 단말로부터 입력되는 설정 정보를 통해 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하는 단계; c) 상기 강화학습 서버가 강화학습 에이전트를 통해 강화학습에 이용될 타겟 물체의 배치 정보를 포함한 상기 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 보상(Reward) 정보에 기반한 강화학습을 수행하여 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치가 최적화되도록 결정된 액션(Action)을 결정하는 단계; 및 d) 상기 강화학습 서버가 액션을 기반으로 상기 타겟 물체의 배치에 대한 강화학습 환경을 구성하는 시뮬레이션을 수행하고, 강화학습 에이전트의 의사 결정에 대한 피드백으로 시뮬레이션 수행 결과에 따른 보상 정보를 생성하는 단계;를 포함하며, 상기 d) 단계의 보상 정보는 물체와 타겟 물체 사이의 거리 또는 상기 타겟물체의 위치에 기반하여 산출되는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 a) 단계의 설계 데이터는 캐드(CAD) 파일 인 것을 특징으로 한다.
본 발명은 사용자가 캐드 데이터 기반의 강화학습 환경을 사용자 인터페이스(UI)와, 드래그앤 드롭(Drag&Drop)을 통해 쉽게 설정하고 강화학습 환경을 신속하게 구성할 수 있는 장점이 있다.
또한, 본 발명은 사용자가 설정한 학습 환경을 기반으로 강화학습을 수행함으로써, 다양한 환경에서 최적화된 타겟 물체의 위치를 자동으로 생성할 수 있는 장점이 있다.
도1은 일반적인 강화 학습 장치의 구성을 나타낸 블록도.
도2는 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 장치를 나타낸 블록도.
도3은 도2의 실시 예에 따른 사용자 학습 환경 기반의 강화학습 장치의 강화학습 서버를 나타낸 블록도.
도4는 도3의 실시 예에 따른 강화학습 서버의 구성을 나타낸 블록도.
도5는 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법을 설명하기 위해 나타낸 흐름도.
도6은 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법을 설명하기 위해 나타낸 설계 데이터의 예시도.
도7은 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법을 설명하기 위해 나타낸 물체 정보 데이터의 예시도.
도8은 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법의 환경 정보 설정 과정을 설명하기 위해 나타낸 예시도.
도9는 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법의 시뮬레이션 데이터를 나타낸 예시도.
도10은 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법의 보상 과정을 설명하기 위해 나타낸 예시도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도2는 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 장치를 나타낸 블록도이고, 도3은 도2의 실시 예에 따른 사용자 학습 환경 기반의 강화학습 장치의 강화학습 서버를 나타낸 블록도이며, 도4는 도3의 실시 예에 따른 강화학습 서버의 구성을 나타낸 블록도이다.
도2 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 장치는 전체 물체 정보가 포함된 설계 데이터를 기반으로 개별 물체와 상기 물체의 위치 정보를 분석하고, 분석된 물체를 사용자 단말로부터 입력되는 설정 정보에 기반하여 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하는 강화학습 서버(200)로 구성될 수 있다.
또한, 강화학습 서버(200)는 커스터마이징 된 강화학습 환경을 기반으로 시뮬레이션을 수행하고, 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치가 최적화되도록 결정된 액션(Action)을 기반으로 시뮬레이션 된 타겟 물체의 배치에 대한 보상(Reward) 정보를 이용하여 강화학습을 수행하며, 시뮬레이션 엔진(210)과, 강화학습 에이전트(220)를 포함하여 구성될 수 있다.
시뮬레이션 엔진(210)은 네트워크를 통해 접속한 사용자 단말(100)로부터 전체 물체 정보가 포함된 설계 데이터를 수신하고, 수신된 설계 데이터를 기반으로 개별 물체와 상기 물체의 위치 정보를 분석한다.
여기서, 사용자 단말(100)은 웹브라우저를 통해 강화학습 서버(200)에 접속이 가능하고, 사용자 단말(100)에 저장된 임의의 설계 데이터를 강화학습 서버(200)에 업로드하는 것이 가능한 단말기로서, 데스크탑 PC, 노트북 PC, 태블릿 PC, PDA 또는 임베디드 단말기로 구성될 수 있다.
또한, 사용자 단말(100)은 강화학습 서버(200)에 업로드된 설계 데이터를 사용자가 입력하는 설정 정보에 기반하여 커스터마이징 할 수 있도록 애플리케이션 프로그램이 설치될 수 있다.
여기서, 설계 데이터는 전체 물체(object) 정보가 포함된 데이터로서, 강화학습 상태로 들어가는 이미지 크기의 조절을 위해 바운더리(boundary) 정보를 포함할 수 있다.
또한, 설계 데이터는 각 물체들의 위치 정보를 받아서 개별 제한(Constraint)을 설정이 요구될 수 있어 개별 파일을 포함할 수 있고, 바람직하게는 캐드(CAD) 파일로 구성될 수 있으며, 캐드 파일의 타입은 FBX, OBJ 등의 파일로 구성될 수 있다.
또한, 설계 데이터는 실제 환경과 유사한 학습 환경이 제공될 수 있도록 사용자가 작성한 캐드 파일일 수 있다.
또한, 시뮬레이션 엔진(210)은 강화학습 에이전트(120)와 상호작용하면서 학습하는 가상의 환경을 구현하여 강화 학습 환경을 구성하고, 강화학습 에이전트(120)의 모델을 훈련하기 위한 강화학습 알고리즘을 적용할 수 있도록 ML(Machine Learning)-에이전트(미도시)가 구성될 수 있다.
여기서 ML-에이전트는 강화학습 에이전트(120)로 정보를 전달할 수 있고, 강화학습 에이전트(120)를 위한 'Python' 등과 같은 프로그램 사이의 인터페이스를 수행할 수도 있다.
또한, 시뮬레이션 엔진(210)은 웹(Web)을 통해 시각화 할 수 있도록 웹 기반의 그래픽 라이브러리(미도시)를 포함하여 구성될 수도 있다.
즉, 자바스크립트 프로그래밍 언어를 이용하여 호환성이 있는 웹 브라우저에서 인터랙티브한 3D 그래픽을 사용할 수 있도록 구성할 수 있다.
또한, 시뮬레이션 엔진(210)은 분석된 물체를 사용자 단말(100)로부터 입력되는 설정 정보를 통해 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정할 수 있다.
또한, 시뮬레이션 엔진(210)은 커스터마이징 된 강화학습 환경을 기반으로 시뮬레이션을 수행하고, 상기 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치가 최적화되도록 결정된 액션(Action)을 기반으로 시뮬레이션 된 타겟 물체의 배치에 대한 보상(Reward) 정보를 제공할 수 있고, 환경 설정부(211)와, 강화학습 환경 구성부(212)와, 시뮬레이션부(213)를 포함하여 구성될 수 있다.
환경 설정부(211)는 사용자 단말(100)로부터 입력되는 설정 정보를 이용하여 설계 데이터에 포함된 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정할 수 있다.
즉, 설계 데이터에 포함된 물체에 대하여 예를 들어, 시뮬레이션에 필요한 물체, 불필요한 장애물, 배치해야할 타겟 물체 등의 특성 또는 기능별로 구분하고, 구분된 특성 또는 기능별로 구분된 물체들에 대하여 특정 색상을 부가하여 구분함으로써, 강화학습시에 학습 범위가 증가되는 것을 방지할 수 있도록 한다.
또한, 개별 물체에 대한 제한(Constraint)은 설계 과정에서 물체가 타겟 물체인지, 고정 물체인지, 장애물인지 등을 설정하거나, 또는 고정 물체인 경우 주변부에 배치되는 타겟 물체와의 최소 거리, 주변부에 배치되는 타겟 물체의 개수, 주변부에 배치되는 타겟 물체의 타입(Type) 등을 설정함으로써, 강화학습시에 다양한 환경의 설정이 가능할 수 있다.
또한, 물체의 위치 변경을 통해 다양한 환경 조건을 설정 및 제공함으로써, 임의의 물체 주변에 배치되는 타겟 물체에 대한 최적의 배치가 이루어질 수 있도록 제공할 수 있다.
강화학습 환경 구성부(212)는 전체 물체 정보가 포함된 설계 데이터를 기반으로 개별 물체와 상기 물체의 위치 정보를 분석하고, 개별 물체 별로 환경 설정부(211)에서 설정된 색상, 제한(Constraint), 위치 변경 정보를 부가하여 커스터마이징 된 강화학습 환경을 구성하는 시뮬레이션 데이터를 생성할 수 있다.
또한, 강화학습 환경 구성부(212)는 시뮬레이션 데이터에 기반하여 상기 강화학습 에이전트(220)로 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치를 위한 최적화 정보를 요청할 수 있다.
즉, 강화학습 환경 구성부(212)는 생성된 시뮬레이션 데이터에 기반하여 강화학습 에이전트(220)로 적어도 하나의 개별 물체 주변부에 하나 이상의 타겟 물체 배치를 위한 최적화 정보를 요청할 수 있다.
시뮬레이션부(213)는 강화학습 에이전트(220)로부터 수신된 액션을 기반으로 타겟 물체의 배치에 대한 강화학습 환경을 구성하는 시뮬레이션을 수행하고, 강화학습에 이용될 타겟 물체의 배치 정보를 포함한 상태 정보와 보상 정보를 상기 강화학습 에이전트(220)로 제공할 수 있다.
여기서, 보상 정보는 물체와 타겟 물체 사이의 거리 또는 타겟 물체의 위치에 기반하여 산출될 수 있고, 타겟 물체의 특성에 따른 보상, 예를 들어 임의의 물체를 중심으로 타겟 물체가 상/하 대칭, 좌/우 대칭, 대각선 대칭 등으로 배치되는 것에 기반하여 보상 정보를 산출할 수도 있다.
강화학습 에이전트(220)는 시뮬레이션 엔진(210)으로부터 제공받은 상태 정보와 보상 정보를 기반으로 강화학습을 수행하여 상기 물체 주변부에 배치되는 타겟 물체의 배치가 최적화되도록 액션을 결정하는 구성으로서, 강화학습 알고리즘을 포함하여 구성될 수 있다.
여기서, 강화학습 알고리즘은 보상을 최대화하기 위한 최적의 정책을 찾기 위해, 가치 기반 접근 방식과 정책 기반 접근 방식 중 어느 하나를 이용할 수 있고, 가치 기반 접근 방식에서 최적의 정책은 에이전트의 경험을 기반으로 근사된 최적 가치 함수에서 파생되며, 정책 기반 접근 방식은 가치 함수 근사에서 분리된 최적의 정책을 학습하고 훈련된 정책이 근사치 함수 방향으로 개선된다.
또한, 강화학습 알고리즘은 타겟 물체가 물체를 중심으로 배치되는 각도, 물체로부터 이격된 거리 등이 최적의 위치에 배치되는 액션을 결정할 수 있도록 강화학습 에이전트(220)의 학습이 이루어지게 한다.
다음은 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법을 설명한다.
도5는 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법을 설명하기 위해 나타낸 흐름도이다.
도2 내지 도5를 참조하면, 본 발명의 일 실시 예에 따른 사용자 학습 환경 기반의 강화학습 방법은, 강화학습 서버(200)의 시뮬레이션 엔진(210)은 사용자 단말(100)로부터 업로드되는 전체 물체 정보를 포함한 설계 데이터를 수신하여 전체 물체 정보가 포함된 설계 데이터를 기반으로 개별 물체와, 해당 물체의 위치 정보를 분석하기 위해 변환(S100)한다.
즉, S100 단계에서 업로드 되는 설계 데이터는 도6의 설계 데이터 이미지(300)와 같이, 전체 물체(object) 정보가 포함된 설계 데이터는 캐드(CAD) 파일로서, 강화학습의 상태(State)로 들어가는 이미지 크기의 조절을 위해 바운더리(boundary) 정보가 포함될 수 있다.
또한, S100 단계에서 업로드된 설계 데이터는 도7과 같이 개별 파일 정보에 기반하여 물체의 특성에 따른 개별 물체(310, 320)가 표시될 수 있도록 변환하여 제공한다.
계속해서, 강화학습 서버(200)의 시뮬레이션 엔진(210)은 개별 물체와, 각 물체 별로 위치 정보를 분석하고, 분석된 물체를 사용자 단말(100)로부터 입력되는 설정 정보에 기반하여 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하고, 강화학습에 이용될 타겟 물체의 배치 정보를 포함한 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 보상(Reward) 정보에 기반한 강화학습을 수행(S200)한다.
즉, S200 단계에서, 시뮬레이션 엔진(210)은 도8과 같이, 학습 환경 설정 화면(400)을 통해 사용자 단말(100)로부터 입력되는 설정 정보를 이용하여 설정 대상 이미지(410) 상에 구분된 물체들에 대하여 설정 대상 물체(411), 장애물(412) 등으로 구분할 수 있다.
또한, 시뮬레이션 엔진(210)은 각 물체 별로 강화학습 환경 설정 이미지(420)의 색상 설정 입력부(421), 장애물 설정 입력부(422) 등을 통해 설정 대상 물체(411)와 장애물(412)이 특정 색상을 갖도록 설정한다.
또한, 시뮬레이션 엔진(210)은 사용자 단말(100)로부터 제공되는 설정 정보에 기초하여 각 물체 별로 해당 물체의 주변부에 배치되는 타겟 물체와의 최소 거리, 물체 주변부에 배치되는 타겟 물체의 개수, 물체 주변부에 배치되는 타겟 물체의 타입(Type), 동일 특성을 갖는 물체들 간의 그룹 설정 정보, 임의의 장애물과 타겟 물체가 겹치지 않는 설정 등의 개별 제한(Constraint)을 설정할 수 있다.
또한, 시뮬레이션 엔진(210)은 사용자 단말(100)로부터 제공되는 위치 변경 정보를 통해 설정 대상 물체(410) 및 장애물(412)의 위치를 변경하여 배치함으로써, 위치 정보가 변경된 다양한 커스터마이징 된 강화학습 환경을 설정할 수 있다.
또한, 학습 환경 저장부(423)로 입력이 수신되면, 시뮬레이션 엔진(210)은 도9의 시뮬레이션 대상 이미지(500)와 같이, 커스터마이징 된 강화학습 환경을 기반으로 시뮬레이션 데이터를 생성한다.
또한, S200 단계에서 시뮬레이션 엔진(210)은 웹(Web)을 통해 시각화하여 사용할 수 있도록 XML(eXtensible Markup Language) 파일로 변환할 수도 있다.
또한, 강화학습 서버(200)의 강화학습 에이전트(220)는 시뮬레이션 엔진(210)으로부터 시뮬레이션 데이터에 기반한 개별 물체와 해당 물체의 주변부에 타겟 물체를 배치하는 최적화 요청을 수신하면, 시뮬레이션 엔진(210)으로부터 수집되는 강화학습에 이용될 타겟 물체의 배치 정보를 포함한 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 보상(Reward) 정보에 기반한 강화학습을 수행할 수 있다.
계속해서, 강화학습 에이전트(220)는 시뮬레이션 데이터에 기반하여 적어도 하나의 개별 물체와, 해당 물체의 주변부에 타겟 물체의 배치가 최적화되도록 결정된 액션(Action)을 결정(S300)한다.
즉, 강화학습 에이전트(220)는 강화학습 알고리즘을 이용하여 임의의 물체를 중심으로 타겟 물체를 배치하고, 이때, 타겟 물체가 물체와 이루는 각도, 해당 물체로부터 이격된 거리, 해당 물체와의 대칭방향 등이 최적의 위치에 배치되는 액션을 결정할 수 있도록 학습한다.
한편, 시뮬레이션 엔진(210)은 강화학습 에이전트(220)로부터 제공되는 액션을 기반으로 타겟 물체의 배치에 대한 시뮬레이션을 수행하고, 시뮬레이션된 수행 경과를 기반으로 시뮬레이션 엔진(110)은 물체와 타겟 물체 사이의 거리 또는 상기 타겟 물체의 위치에 기반하여 보상 정보를 생성(S400)한다.
또한, S400 단계에서 보상 정보는 예를 들어, 물체와 타겟 물체 사이의 거리가 가까워야하는 경우, 거리 정보 자체를 음의 보상으로 제공하여 물체와 타겟 물체 사이의 거리가 최대한 '0'에 가까워지도록 한다.
예를 들어, 도10에 나타낸 바와 같이, 학습 결과 이미지(600)에서 물체(610)와 타겟 물체(620) 사이의 거리가 설정된 경계(630)에 위치해야하는 경우, (-) 보상값을 보상 정보로 생성하여 강화학습 에이전트(120)에 제공함으로써, 다음 액션을 결정할 때 반영될 수 있도록 한다.
또한, 보상 정보는 타겟 물체(620)의 두께를 고려하여 거리가 결정될 수도 있다.
따라서, 사용자가 학습 환경을 설정하여 시뮬레이션을 이용한 강화학습을 통해 타겟 물체의 최적 위치를 생성하는 제공할 수 있다.
또한, 사용자가 설정한 학습 환경을 기반으로 강화학습을 수행함으로써, 다양한 환경에서 최적화된 타겟 물체의 위치를 자동으로 생성할 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
[부호의 설명]
100 : 사용자 단말 200 : 강화학습 서버
210 : 시뮬레이션 엔진 211 : 환경 설정부
212 : 강화학습 환경 구성부 213 : 시뮬레이션부
220 : 강화학습 에이전트 300 : 설계 데이터 이미지
310 : 물체 320 : 물체
400 : 학습 환경 설정 화면 410 : 설정 대상 이미지
411 : 설정 대상 물체 412 : 장애물
420 : 강화학습 환경 설정 이미지 421 : 색상 설정 입력부
422 : 장애물 설정 입력부 423 : 학습 환경 저장부
500 : 시뮬레이션 대상 이미지 600 : 학습 결과 이미지
610 : 물체 620 : 타겟 물체
630 : 경계

Claims (6)

  1. 전체 물체 정보가 포함된 설계 데이터를 기반으로 개별 물체와 상기 물체의 위치 정보를 분석하고, 상기 분석된 물체를 사용자 단말(100)로부터 입력되는 설정 정보에 기반하여 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하며, 상기 커스터마이징 된 강화학습 환경을 기반으로 강화학습을 수행하고, 상기 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치가 최적화되도록 결정된 액션(Action)을 기반으로 시뮬레이션을 수행하고, 강화학습 에이전트(220)의 의사 결정에 대한 피드백으로 시뮬레이션 된 타겟 물체의 배치에 대한 보상(Reward) 정보를 제공하는 시뮬레이션 엔진(210); 및
    상기 시뮬레이션 엔진(210)으로부터 제공받은 상태 정보와 보상 정보를 기반으로 강화학습을 수행하여 상기 물체 주변부에 배치되는 타겟 물체의 배치가 최적화되도록 액션을 결정하는 강화학습 에이전트(220);를 포함하는 사용자 학습 환경 기반의 강화학습 장치.
  2. 제 1 항에 있어서,
    상기 설계 데이터는 캐드(CAD) 파일인 것을 특징으로 하는 사용자 학습 환경 기반의 강화학습 장치.
  3. 제 1 항에 있어서,
    상기 시뮬레이션 엔진(210)은 사용자 단말(100)로부터 입력되는 설정 정보를 통해 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하는 환경 설정부(211);
    상기 전체 물체 정보가 포함된 설계 데이터를 기반으로 개별 물체와 상기 물체의 위치 정보를 분석하고, 개별 물체 별로 환경 설정부(211)에서 설정된 색상, 제한(Constraint), 위치 변경 정보를 부가하여 커스터마이징 된 강화학습 환경을 구성하는 시뮬레이션 데이터를 생성하며, 상기 시뮬레이션 데이터에 기반하여 상기 강화학습 에이전트(220)로 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치를 위한 최적화 정보를 요청하는 강화학습 환경 구성부(212); 및
    상기 강화학습 에이전트(220)로부터 수신된 액션을 기반으로 타겟 물체의 배치에 대한 강화학습 환경을 구성하는 시뮬레이션을 수행하고, 강화학습에 이용될 타겟 물체의 배치 정보를 포함한 상태 정보와 보상 정보를 상기 강화학습 에이전트(220)로 제공하는 시뮬레이션부(213);를 포함하는 것을 특징으로 하는 사용자 학습 환경 기반의 강화학습 장치.
  4. 제 3 항에 있어서,
    상기 보상 정보는 물체와 타깃 물체 사이의 거리 또는 타깃 물체의 위치에 기반하여 산출되는 것을 특징으로 하는 사용자 학습 환경 기반의 강화학습 장치.
  5. a) 강화학습 서버(200)가 사용자 단말(100)로부터 전체 물체 정보를 포함한 설계 데이터를 수신하는 단계;
    b) 상기 강화학습 서버(200)가 개별 물체와, 상기 물체의 위치 정보를 분석하여 상기 분석된 물체를 사용자 단말(100)로부터 입력되는 설정 정보를 통해 물체 별로 임의의 색상, 제한(Constraint), 위치 변경 정보를 부가한 커스터마이징 된 강화학습 환경을 설정하는 단계;
    c) 상기 강화학습 서버(200)가 강화학습 에이전트를 통해 강화학습에 이용될 타겟 물체의 배치 정보를 포함한 상기 커스터마이징 된 강화학습 환경의 상태(State) 정보와, 보상(Reward) 정보에 기반한 강화학습을 수행하여 적어도 하나의 개별 물체 주변부에 타겟 물체의 배치가 최적화되도록 결정된 액션(Action)을 결정하는 단계; 및
    d) 상기 강화학습 서버(200)가 액션을 기반으로 상기 타겟 물체의 배치에 대한 강화학습 환경을 구성하는 시뮬레이션을 수행하고, 강화학습 에이전트의 의사 결정에 대한 피드백으로 시뮬레이션 수행 결과에 따른 보상 정보를 생성하는 단계;를 포함하며,
    상기 d) 단계의 보상 정보는 물체와 타겟 물체 사이의 거리 또는 상기 타겟물체의 위치에 기반하여 산출되는 것을 특징으로 하는 사용자 학습 환경 기반의 강화학습 방법.
  6. 제 5 항에 있어서,
    상기 a) 단계의 설계 데이터는 캐드(CAD) 파일 인 것을 특징으로 하는 사용자 학습 환경 기반의 강화학습 방법.
PCT/KR2022/009728 2021-09-17 2022-07-06 사용자 학습 환경 기반의 강화학습 장치 및 방법 WO2023043019A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210124865A KR102365169B1 (ko) 2021-09-17 2021-09-17 사용자 학습 환경 기반의 강화학습 장치 및 방법
KR10-2021-0124865 2021-09-17

Publications (1)

Publication Number Publication Date
WO2023043019A1 true WO2023043019A1 (ko) 2023-03-23

Family

ID=80495064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/009728 WO2023043019A1 (ko) 2021-09-17 2022-07-06 사용자 학습 환경 기반의 강화학습 장치 및 방법

Country Status (3)

Country Link
US (1) US20230088699A1 (ko)
KR (1) KR102365169B1 (ko)
WO (1) WO2023043019A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365169B1 (ko) * 2021-09-17 2022-02-18 주식회사 애자일소다 사용자 학습 환경 기반의 강화학습 장치 및 방법
KR102515139B1 (ko) * 2022-09-05 2023-03-27 세종대학교산학협력단 강화 학습 기반의 가상 모델 학습 방법 및 가상 모델 서비스 제공 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190045104A (ko) * 2019-04-01 2019-05-02 서울대학교산학협력단 위치 판단 시스템, 방법 및 컴퓨터 판독 가능한 기록매체
KR101984760B1 (ko) * 2017-10-20 2019-05-31 두산중공업 주식회사 인공지능을 이용한 자가 설계 모델링 시스템 및 방법
JP2020149270A (ja) * 2019-03-13 2020-09-17 東芝情報システム株式会社 回路適正化装置及び回路適正化方法
KR102257082B1 (ko) * 2020-10-30 2021-05-28 주식회사 애자일소다 의사결정 에이전트 생성 장치 및 방법
KR20210099932A (ko) * 2020-02-05 2021-08-13 주식회사뉴로코어 강화 학습을 이용한 공장 시뮬레이터 기반 스케줄링 시스템
KR102365169B1 (ko) * 2021-09-17 2022-02-18 주식회사 애자일소다 사용자 학습 환경 기반의 강화학습 장치 및 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210064445A (ko) 2019-11-25 2021-06-03 삼성전자주식회사 반도체 공정 시뮬레이션 시스템 및 그것의 시뮬레이션 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101984760B1 (ko) * 2017-10-20 2019-05-31 두산중공업 주식회사 인공지능을 이용한 자가 설계 모델링 시스템 및 방법
JP2020149270A (ja) * 2019-03-13 2020-09-17 東芝情報システム株式会社 回路適正化装置及び回路適正化方法
KR20190045104A (ko) * 2019-04-01 2019-05-02 서울대학교산학협력단 위치 판단 시스템, 방법 및 컴퓨터 판독 가능한 기록매체
KR20210099932A (ko) * 2020-02-05 2021-08-13 주식회사뉴로코어 강화 학습을 이용한 공장 시뮬레이터 기반 스케줄링 시스템
KR102257082B1 (ko) * 2020-10-30 2021-05-28 주식회사 애자일소다 의사결정 에이전트 생성 장치 및 방법
KR102365169B1 (ko) * 2021-09-17 2022-02-18 주식회사 애자일소다 사용자 학습 환경 기반의 강화학습 장치 및 방법

Also Published As

Publication number Publication date
TW202314562A (zh) 2023-04-01
KR102365169B1 (ko) 2022-02-18
US20230088699A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
WO2023043019A1 (ko) 사용자 학습 환경 기반의 강화학습 장치 및 방법
WO2023043018A1 (ko) 설계 데이터 기반의 물체의 위치 최적화를 위한 강화학습 장치 및 방법
WO2023128094A1 (ko) 반도체 설계 데이터 기반의 물체의 위치 최적화를 위한 강화학습 장치 및 방법
WO2023128093A1 (ko) 반도체 설계에서 사용자 학습 환경 기반의 강화학습 장치 및 방법
WO2021182889A2 (ko) 영상 기반의 안질환 진단 장치 및 방법
WO2022145981A1 (ko) 자동학습 기반 시계열 데이터 예측 및 제어 방법 및 장치
WO2020111754A9 (ko) 세미 슈퍼바이즈드 학습을 이용한 진단 시스템 제공방법 및 이를 이용하는 진단 시스템
WO2022163996A1 (ko) 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
WO2022092415A1 (ko) 의사결정 에이전트 생성 장치 및 방법
WO2021010765A1 (ko) 스케치 이미지의 채색 장치 및 방법
WO2023182724A1 (ko) 인력 매칭 시스템
WO2024090712A1 (ko) 공감대 형성을 통한 심리 치료용 인공지능 대화 시스템
WO2021015386A1 (ko) 데이터 기반 강화 학습 장치 및 방법
WO2022080666A1 (ko) 인공 지능 학습 기반의 사용자 지식 추적 장치, 시스템 및 그것의 동작 방법
WO2022145829A1 (ko) 잠재인자에 기반한 협업 필터링을 사용하여 사용자의 정답확률을 예측하는 학습 컨텐츠 추천 시스템 및 그것의 동작방법
WO2020101196A1 (ko) 인공지능 기반의 모듈 식별 및 어시스턴트 시스템
WO2024143913A1 (ko) 강화학습 기반의 면적 및 매크로 배치 최적화를 위한 설계 시스템 및 방법
WO2022015005A1 (ko) 대화기반 정신장애선별방법 및 그 장치
WO2024128602A1 (ko) 폴더 트리의 동적 프리페치 방법 및 이를 수행하기 위한 클라우드 서버
WO2022004978A1 (ko) 건축 장식재 디자인 업무 시스템 및 방법
WO2022030669A1 (ko) 쿼리 기반 딥러닝 추론 시스템 및 그 방법
WO2024071855A1 (ko) 매크로봇 탐지 서비스 제공 방법 및 시스템
WO2023224205A1 (ko) 인공 신경망 모델 학습 결과 합성을 통한 공통 모델 생성 방법
WO2022014898A1 (ko) Api 접근 인터페이스 서버를 통해 확장된 교육 콘텐츠에 대해 인공지능 예측 결과를 제공하는 확장 서비스 제공 시스템 및 방법
WO2020101121A1 (ko) 딥러닝 기반의 영상분석 방법, 시스템 및 휴대 단말

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22870106

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22870106

Country of ref document: EP

Kind code of ref document: A1