WO2023096100A1 - 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법 - Google Patents

의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법 Download PDF

Info

Publication number
WO2023096100A1
WO2023096100A1 PCT/KR2022/013332 KR2022013332W WO2023096100A1 WO 2023096100 A1 WO2023096100 A1 WO 2023096100A1 KR 2022013332 W KR2022013332 W KR 2022013332W WO 2023096100 A1 WO2023096100 A1 WO 2023096100A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
descriptor
knowledge base
descriptors
specified
Prior art date
Application number
PCT/KR2022/013332
Other languages
English (en)
French (fr)
Inventor
김인철
이석준
강민교
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Publication of WO2023096100A1 publication Critical patent/WO2023096100A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Definitions

  • the present invention relates to a reinforcement learning technique, and more particularly, to a technique for optimizing a neuro-logic reinforcement learning method.
  • Deep Reinforcement Learning is vectorized reinforcement learning that uses states and actions represented in vector form.
  • Such conventional deep reinforcement learning has a problem in that generalized policy learning is difficult and it is difficult to logically interpret the structure and decision-making process of the learned policy.
  • relational reinforcement learning Relational Reinforcement Learning
  • NLM Neural Logic Machine
  • RDRL Relational Deep Reinforcement Learning
  • NLRL expresses state, action, and action policy all as logical predicates and rules.
  • NLRL has the explainability of the policy structure and decision-making process from the first-order predicate logic-based representation.
  • NLRL has a high generalization ability that does not deteriorate performance even if an initial state or a new logical constant that the agent has not experienced in the learning process appears from the unified descriptor expression.
  • the present invention optimizes learning by removing states, actions, and rules that cannot exist through semantic constraints on states, actions, and policy rules that are combinatorially generated according to a pre-set syntactic template when learning a neuro-logic reinforcement learning model. It aims to provide a method for
  • the neuro-logic reinforcement learning optimization method using semantic constraints includes the step of setting a state-action space, the step of setting a policy space, the step of inserting an ontology, the step of optimizing a state-action space, and the policy A spatial optimization step and a neuro-logic reinforcement learning step are included.
  • the step of setting the state-action space is the step of setting the state-action space, which is a set of specified descriptors that combine descriptors and object constants.
  • the policy space setting step consists of a conclusion (head) and a conditional (body), and creates a policy space, which is a set of specified rules that combine rules created by combining descriptors and object variables according to predefined syntax templates and object constants. This is the setting step.
  • the ontology insertion step is a step of inserting an ontology composed of semantic constraints defined in the semantic web standard language into the knowledge base.
  • the state-action space optimization step is a step of optimizing the state-action space by removing descriptors that violate semantic constraints by inferring from the knowledge base about the specified descriptors belonging to the state-action space.
  • the policy space optimization step is a step of optimizing the policy space by removing rules that violate semantic constraints by inferring from the knowledge base about the specified rules belonging to the policy space.
  • the neuro-logic reinforcement learning step is a step of performing neuro-logic reinforcement learning (NLRL) based on the optimized state-action space and the optimized policy space.
  • NLRL neuro-logic reinforcement learning
  • a method for optimizing neuro-logic reinforcement learning using semantic constraints includes a state-action space setting step, a rule set generation step, an ontology insertion step, a state-action space optimization step, and rules It includes a set optimization step, a policy space optimization step, and a neuro-logic reinforcement learning step.
  • the step of setting the state-action space is the step of setting the state-action space, which is a set of specified descriptors that combine descriptors and object constants.
  • the rule set generation step is a step of generating a rule set of rules composed of a conclusion (head) and a conditional (body) and created by combining descriptors and object variables according to a predefined syntax template.
  • the ontology insertion step is a step of inserting an ontology composed of semantic constraints defined in the semantic web standard language into the knowledge base.
  • the state-action space optimization step is a step of optimizing the state-action space by removing descriptors that violate semantic constraints by inferring from the knowledge base about the specified descriptors belonging to the state-action space.
  • the rule set optimization step is a step of optimizing the rule set by inferring rules belonging to the rule set from the knowledge base and removing rules that violate semantic constraints.
  • the policy space optimization step is a step of generating an optimized policy space by combining a specified descriptor belonging to the optimized state-action space with the conditional of the optimized rule set.
  • the neuro-logic reinforcement learning step is a step of performing neuro-logic reinforcement learning (NLRL) based on the optimized state-action space and the optimized policy space.
  • NLRL neuro-logic reinforcement learning
  • learning is performed by removing states, actions, and rules that cannot exist through semantic constraints on states, actions, and policy rules that are combinatorially generated according to a pre-set syntactic template. can be optimized.
  • Figure 2 shows the learning process of the neuro-logic reinforcement learning model.
  • Figure 3 shows an example of creating a specified descriptor for establishing a state-action space.
  • FIG. 4 illustrates an example of generating a rule by combining descriptors and object variables.
  • FIG. 5 illustrates an example of generating a policy space, which is a set of specified rules by combining rules and object constants.
  • FIG. 7 illustrates a procedure of a neuro-logic reinforcement learning optimization method using semantic constraints according to the first embodiment.
  • FIG. 8 illustrates a procedure of a neuro-logic reinforcement learning optimization method using semantic constraints according to a second embodiment.
  • each block in the block diagram may represent a physical component in one case, but in another case, it may be a logical representation of a function of a portion of a function of one physical component or a function across multiple physical components. Sometimes the substance of a block or part thereof may be a set of program instructions. All or part of these blocks may be implemented by hardware, software, or a combination thereof.
  • the agent of the neuro-logic reinforcement learning model is described as an example of a block manipulation environment widely used as a benchmark test for relational reinforcement learning.
  • the block manipulation environment is the same environment described in the paper "Neural Logic Reinforcement Learning", a prior art document.
  • the block manipulation environment is only an example for explanation, and the present invention is not limited thereto.
  • Agents learn how to stack blocks in a specific style in a block manipulation environment.
  • the block manipulation environment used in the description defines 5 objects, a, b, c, d are block objects and floor is a floor object.
  • Figure 1 shows the concept of neuro-logic reinforcement learning
  • Figure 2 shows the learning process of the neuro-logic reinforcement learning model. Neuro-logic reinforcement learning will be described with reference to FIGS. 1 and 2 .
  • the states input to the neuro-logic reinforcement learning (NLRL) agent in the block manipulation environment are on (a, floor), on (c, a), on (b, floor), top (c ) and the action output from the agent can be expressed as move(c, floor).
  • the on(a, floor) state descriptor means a state in which block object a is placed on the floor object
  • the top(c) state descriptor means a state in which no objects are stacked on block object c
  • move(c, floor) means the action of putting the block object c on top of the floor object.
  • on(a, floor), on(c, a), on(b, floor) state descriptors are on(X, Y) state descriptors combined with object constants (e.g. a, b, c, d, floor) It is a materialized state descriptor.
  • the policy ( ⁇ ⁇ ) consists of rules for deduction of action descriptors from input state descriptors. Rules are parameterized to enable learning, unlike traditional logic reasoning methods that are processed based on boolean logic operations.
  • the input state descriptors are converted into a valuation vector expressing the valuation of individual descriptors and input to a policy, and the policy is a probability distribution of action descriptors outputs
  • Neuro-Logic Reinforcement Learning has the explainability of the policy structure and decision-making process from the primary predicate logic-based representation.
  • neuro-logic reinforcement learning has a high generalization ability that does not deteriorate performance even if an initial state or a new logical constant that the agent has not experienced in the learning process appears from the unified descriptor expression .
  • Neuro-Logic Reinforcement Learning first creates the state-action space and policy space of a neuro-logic agent according to a pre-determined syntactic template, and then repeats action reasoning and policy learning.
  • the state-action space corresponds to a set of specified state descriptors and action descriptors
  • the policy space corresponds to a set of specified rules.
  • Neuro-Logic Reinforcement Learning In order for Neuro-Logic Reinforcement Learning (NLRL) to learn successfully, state descriptors and action descriptors that can actually appear, and realistically meaningful rules must be included in the state-action space and policy space. To this end, Neuro-Logic Reinforcement Learning (NLRL) expresses a complete state-action space and policy space by creating all descriptors and rules that can be created according to a pre-determined syntax template, and then proceeds with learning. However, this method enables optimal policy learning, but since the state-action space and the policy space are combinatorially created, computational complexity increases and scalability may decrease significantly.
  • a materialized state descriptor such as on(floor, a), which is a state that cannot actually occur in a block manipulation environment, is created and included in the state-action space, and move(X,Y) for which reasoning cannot realistically occur:- Rules such as on(X,Y), on(Y,X) can be created.
  • the neuro-logical agent of the neuro-logical reinforcement learning (NLRL) model shown in FIG. 2 has an actor-critic structure.
  • An actor is composed of a valuation encoder, a differentiable recurrent logic machine (DRLM), and an action decoder.
  • DRLM differentiable recurrent logic machine
  • the valuation encoder receives state input from the environment and generates an initial valuation vector e 0 for all specified descriptors (ground atoms).
  • the recursive logic machine derives a new valuation vector e n from the input initial valuation vector e 0 through n-step deduction.
  • the heart of the actor, the recursive logic machine, contains the actor's policies, or learnable rules.
  • the action decoder generates a discrete probability distribution of specified action descriptors from the derived valuation vector e n , and selects and outputs an action to be performed on the environment.
  • the critic consists of a state encoder and a multilayered perceptron.
  • the state encoder receives states from the environment and creates a state vector.
  • a multilayer neural network predicts and outputs an advantage from a state vector.
  • the neuro-logic agent receives a reward from the environment, receives a reward of 1 when it achieves a goal, and continues to receive a penalty of -0.02 in other processes.
  • the neuro-logic reinforcement learning optimization method using semantic constraints includes the step of setting a state-action space, the step of setting a policy space, the step of inserting an ontology, the step of optimizing a state-action space, and the policy A spatial optimization step and a neuro-logic reinforcement learning step are included.
  • a computing device may be a device including a processor including a personal computer, a server computer, a notebook computer, and the like, memory, and other peripheral devices such as a display.
  • the step of setting the state-action space is the step of setting the state-action space, which is a set of specified descriptors that combine descriptors and object constants.
  • the descriptor includes a state descriptor and an action descriptor.
  • on(X, Y) and top(X) are examples of state descriptors
  • move(X, Y) is an example of action descriptors.
  • the parameters (X, Y) of the descriptor are object variables.
  • An object constant is a constant expressing an object, and in the block manipulation environment example, block objects a, b, c, d and floor object floor are examples of object constants.
  • Figure 3 shows an example of creating a specified descriptor for establishing a state-action space.
  • the step of setting the state-action space is a step of generating a state descriptor set by combining all state descriptors defined for the state of the object in detail with object constants, and all action descriptors defined for the action targeting the object. It may include generating an action descriptor set by combining fields and object constants, and setting a state-action space by combining the state descriptor set and the action descriptor set.
  • the state descriptor included in the state descriptor set is a descriptor that is created by a predefined syntax template and includes variables.
  • on(X, Y) and top(X) are state descriptors.
  • the action descriptor included in the action descriptor set is a descriptor that is created by a predefined syntax template and includes variables.
  • move(X, Y) is the action descriptor.
  • the state-action space consists of specified descriptors. All embodied descriptors created by combining a descriptor set created by combining a state descriptor set and an action descriptor set and an object constant are descriptors belonging to the state-action space.
  • state descriptors on(a, a), on(a, b), on(b, b), on embodied by combining on(X, Y) state descriptors and object constants a and b are combined. (b, a) can be generated.
  • G G S ⁇ G A.
  • G S is a set of specified state descriptors such as on(a, b) and top(a)
  • G A is a set of specified action descriptors such as move(a, b).
  • the size of G is am.
  • P is a set of all descriptors
  • C is a set of object constants
  • a p is the number of parameters (arity) of descriptor p. Since G is the state-action space for the set of all specified descriptors, the size of the state-action space is
  • the policy space setting step consists of a conclusion (head) and a conditional (body), and creates a policy space, which is a set of specified rules that combine rules created by combining descriptors and object variables according to predefined syntax templates and object constants.
  • This is the setting step.
  • move(X, X) : on(X, Y), on(Y, X) is an example of a rule
  • move(X, X) is the conclusion
  • on(X, Y) on (Y, X) is conditional
  • X and Y are object variables.
  • the descriptor of the concluding part be an action descriptor.
  • a specific rule is created by combining the created rule with the object constant.
  • the step of setting the policy space includes generating a first rule set by combining descriptors and object variables according to a detailed syntax template, and setting the policy space by combining rules belonging to the first rule set and object constants.
  • FIG. 4 illustrates an example of generating a rule by combining a descriptor and an object variable
  • FIG. 5 illustrates an example of generating a policy space, which is a set of specified rules by combining a rule and an object constant.
  • a rule consists of a concluding part composed of one descriptor and a conditional part having two or less descriptors.
  • the descriptor of the concluding part of the rule and the descriptor of the conditional part have parameters, which are combined with object variables to create a rule set.
  • a rule may include an intermediate generation descriptor as a conditional descriptor. Intermediate production descriptors are other rules defined.
  • invented4(Y, X) can be defined
  • invented4(Y, X) is middle creation descriptor
  • invented4(X, Y) : It can be defined as on(Y, Z), isFloor(X).
  • An intermediate generating descriptor can also be used as a descriptor at the conclusion of a rule.
  • D be the set of specified rules, the size of the policy space is am.
  • C is a set of constants
  • h is a set of concluding descriptors consisting of an action descriptor and intermediate generating descriptors
  • b h is a set of conditional descriptors corresponding to the concluding descriptor h
  • V m is a set of variables appearing in the conditional expression.
  • the ontology insertion step is a step of inserting an ontology composed of semantic constraints defined in the semantic web standard language into the knowledge base.
  • An ontology consists of a set of axioms that impose various semantic constraints on objects and their relationships.
  • Semantic constraints are defined using Ontology Web Language (OWL), a semantic web standard language.
  • OWL Ontology Web Language
  • Semantic constraints are defined as combinations of constraints including class type, domain and range, symmetric property, asymmetric property, inverse property, and transitive property of OWL.
  • FIG. 6 shows an example of semantic constraints defined in OWL, and shows definitions of semantic constraints for an on state descriptor and a move state descriptor.
  • the on descriptor has an asymmetric property and a transitive property, a domain is a block class, and a range is a block class or a floor class. Since on and move descriptors have asymmetric properties, on(a, b) and on(b, a) are different states, and move(a, b) and move(b, a) are different actions. Since on and move descriptors have Block class as domain, on(floor, a) and move(floor, a) become materialized descriptors that violate semantic constraints.
  • the state-action space optimization step is a step of optimizing the state-action space by removing descriptors that violate semantic constraints by inferring from the knowledge base about the specified descriptors belonging to the state-action space.
  • the state-action space includes state descriptors that cannot actually exist and action descriptors that cannot actually be performed.
  • the state-action space can be optimized by removing descriptors that cannot actually exist or can not be performed in the state-action space by using the knowledge base into which the ontology is inserted, that is, by using semantic constraints.
  • the step of optimizing the state-action space includes selecting a specific descriptor that has not been inferred in detail from the state-action space, inserting the selected specific descriptor into the knowledge base, and performing inference on the knowledge base.
  • the policy space optimization step is a step of optimizing the policy space by removing rules that violate semantic constraints by inferring from the knowledge base about the specified rules belonging to the policy space.
  • the policy space contains specified rules that cannot actually exist.
  • the policy space can be optimized by removing specified rules that cannot actually exist in the policy space by using the knowledge base into which the ontology is inserted, that is, by using semantic constraints.
  • the step of optimizing the policy space includes selecting a detailed rule that is not inferred in the policy space, inserting conditional descriptors of the selected specified rule into the knowledge base, and performing inference on the knowledge base.
  • inference failure removing the selected specified rule from the policy space, in case of success in inference, inserting a descriptor of the conclusion of the selected specified rule into the knowledge base, performing inference with the knowledge base, and in case inference fails, the selected refinement is performed.
  • Each step may be repeatedly performed, including the step of removing the specified rule from the policy space and the step of initializing the knowledge base with the ontology, until there is no specified rule that is not inferred in the policy space.
  • the neuro-logic reinforcement learning step is a step of performing neuro-logic reinforcement learning (NLRL) based on the optimized state-action space and the optimized policy space. Since the neuro-logic reinforcement learning step is the same as the reinforcement learning step of the neuro-logic reinforcement learning framework known as a post-optimization step, a detailed description thereof will be omitted.
  • NLRL neuro-logic reinforcement learning
  • FIG. 7 illustrates a procedure of a neuro-logic reinforcement learning optimization method using semantic constraints according to the first embodiment.
  • the computing device performing neuro-logic reinforcement learning generates a state descriptor set by combining all defined state descriptors and object constants (S1000), and then generates all defined action descriptors and object constants.
  • a behavior descriptor set is created by combining (S1001), and a state-action space is set by combining the state descriptor set and the action descriptor set (S1002).
  • a computing device that performs neuro-logic reinforcement learning generates a first rule set by combining descriptors and object variables according to a syntax template (S1020), and combines rules belonging to the first rule set with object constants to form a policy space.
  • S1020 a syntax template
  • S1021 a syntax template
  • the computing device performing neuro-logic reinforcement learning inserts an ontology composed of semantic constraints into the knowledge base (S1040).
  • the computing device that performs neuro-logic reinforcement learning selects a non-inferred materialized descriptor from the state-action space and inserts it into the knowledge base (S1060), performs inference on the knowledge base (S1061), and determines whether the inference is successful or not. It is judged (S1062), and if the reasoning fails, the selected specified descriptor is removed from the state-action space (S1063), and the knowledge base is initialized with the ontology (S1064).
  • the computing device performing neuro-logic reinforcement learning repeats this process until there is no specified descriptor that is not inferred in the state-action space (S1065), thereby optimizing the state-action space.
  • the computing device performing neuro-logic reinforcement learning selects a specified rule that is not inferred from the policy space (S1080), inserts conditional descriptors of the selected specified rule into the knowledge base (S1081), and targets the knowledge base. Inference is performed (S1082), whether the inference is successful is determined (S1083), the selected specified rule is removed from the policy space if the inference fails (S1088), and the knowledge base is initialized as a semantic constraint ontology (S1084) when the inference is successful, and the selected A descriptor of the conclusion of the specified rule is inserted into the knowledge base (S1085), inference is performed on the knowledge base (S1086), and whether the inference succeeds or not is determined (S1087).
  • the selected specified rule is removed from the policy space. It does (S1088).
  • the device initializes the knowledge base as a semantic constraint ontology (S1089).
  • the computing device that performs neuro-logic reinforcement learning optimizes the policy space by repeating each step (S1090) until there are no specified rules that have not been inferred in the policy space.
  • the computing device performing neuro-logic reinforcement learning performs neuro-logic reinforcement learning (NLRL) based on the optimized state-action space and the optimized policy space (S1100).
  • NLRL neuro-logic reinforcement learning
  • a method for optimizing neuro-logic reinforcement learning using semantic constraints includes a state-action space setting step, a rule set generation step, an ontology insertion step, a state-action space optimization step, and rules It includes a set optimization step, a policy space optimization step, and a neuro-logic reinforcement learning step.
  • the state-action space setting step is a step of setting a state-action space, which is a set of specified descriptors in which descriptors and object constants are combined, in the same manner as the state-action space setting step of the first embodiment.
  • the step of setting the state-action space includes generating a state descriptor set by combining object constants with all state descriptors defined for the state of the object in detail in the same manner as the step of setting the state-action space in the first embodiment; It may include generating an action descriptor set by combining all action descriptors defined for an action targeting an object with object constants, and setting a state-action space by combining the state descriptor set and the action descriptor set. there is.
  • the rule set generation step is a step of generating a rule set of rules composed of a conclusion (head) and a conditional (body) and created by combining descriptors and object variables according to a predefined syntax template.
  • move(X, X) : on(X, Y), on(Y, X) is an example of a rule
  • move(X, X) is the conclusion
  • on(X, Y) on (Y, X) is conditional
  • X and Y are object variables.
  • the ontology insertion step is a step of inserting an ontology composed of semantic constraints defined in a semantic web standard language into the knowledge base.
  • An ontology consists of a set of axioms that impose various semantic constraints on objects and their relationships.
  • Semantic constraints are defined using Ontology Web Language (OWL), a semantic web standard language.
  • OWL Ontology Web Language
  • Semantic constraints are defined as combinations of constraints including class type, domain and range, symmetric property, asymmetric property, inverse property, and transitive property of OWL.
  • the descriptors that violate the semantic constraints are inferred from the knowledge base for the specified descriptors belonging to the state-action space, and descriptors that violate semantic constraints are removed. - This is the stage of optimizing the action space.
  • the step of optimizing the state-action space includes selecting a specified descriptor that is not inferred in detail from the state-action space, and inserting the selected specified descriptor into the knowledge base in the same way as the step of optimizing the state-action space of the first embodiment. Inference is not made in the state-action space, including the step of performing inference on the knowledge base, removing the specified descriptor selected from the state-action space when reasoning fails, and initializing the knowledge base as the ontology. Each step involved can be repeated until there are no unspecified descriptors.
  • the rule set optimization step is a step of optimizing the rule set by inferring rules belonging to the rule set from the knowledge base and removing rules that violate semantic constraints.
  • rule sets can be optimized by removing rules that cannot actually exist in the rule set by using the knowledge base into which the ontology is inserted, that is, by using semantic constraints.
  • the step of optimizing the rule set includes selecting a rule that has not been inferred in detail from the rule set, inserting conditional descriptors of the selected rule into the knowledge base, performing inference on the knowledge base and selecting the selected rule when inference fails. removing a rule from the rule set, inserting a descriptor of the conclusion of the selected rule into the knowledge base when inference succeeds, removing the selected rule from the rule set when reasoning fails by performing reasoning on the knowledge base, and , each step may be repeated until there is no uninferred rule in the rule set, including the step of initializing the knowledge base with the ontology.
  • the policy space optimization step is a step of generating an optimized policy space by combining a specified descriptor belonging to the optimized state-action space with the conditional of the optimized rule set.
  • the neuro-logic reinforcement learning step is a step of performing neuro-logic reinforcement learning (NLRL) based on the optimized state-action space and the optimized policy space. Since the neuro-logic reinforcement learning step is the same as the reinforcement learning step of the neuro-logic reinforcement learning framework known as a post-optimization step, a detailed description thereof will be omitted.
  • NLRL neuro-logic reinforcement learning
  • FIG. 8 illustrates a procedure of a neuro-logic reinforcement learning optimization method using semantic constraints according to a second embodiment.
  • the computing device performing neuro-logic reinforcement learning generates a state descriptor set by combining all the defined state descriptors and object constants (S2000), and all the defined action descriptors and object constants.
  • a behavior descriptor set is created by combining (S2001), and a state-action space is established by combining the state descriptor set and the action descriptor set (S2002).
  • the computing device performing neuro-logic reinforcement learning generates a rule set of rules generated by combining descriptors and object variables according to a syntax template (S2020).
  • the computing device performing neuro-logic reinforcement learning inserts an ontology composed of semantic constraints into the knowledge base (S2040).
  • the computing device that performs neuro-logic reinforcement learning selects a non-inferred materialized descriptor from the state-action space and inserts it into the knowledge base (S2060), performs inference on the knowledge base (S2061), and determines whether the inference is successful or not. It is judged (S2062), and if the reasoning fails, the selected specified descriptor is removed from the state-action space (S2063), and the knowledge base is initialized with the ontology (S2064).
  • the computing device performing neuro-logic reinforcement learning repeats this process until there is no specified descriptor that is not inferred in the state-action space (S2065), thereby optimizing the state-action space.
  • the computing device performing neuro-logic reinforcement learning selects a non-inferred rule from the rule set (S2080), inserts conditional descriptors of the selected rule into the knowledge base (S2081), performs inference with the knowledge base, (S2082) It determines whether the inference succeeds (S2083), and if the inference fails, the selected rule is removed from the rule set (S2088), and if the inference succeeds, the knowledge base is initialized as a semantic constraint ontology (S2084), and then the descriptor at the conclusion of the selected rule is inserted into the knowledge base (S2085), inference is performed on the knowledge base (S2086), and whether or not the inference is successful is determined (S2087).
  • the selected rule is removed from the rule set (S2088).
  • the device initializes the knowledge base with the ontology (S2089).
  • the computing device performing neuro-logic reinforcement learning optimizes the rule set by repeating each step until there are no uninferred rules in the rule set (S2090).
  • the computing device performing neuro-logic reinforcement learning generates an optimized policy space by combining a specified descriptor belonging to the optimized state-action space with the condition of the optimized rule set (S2100).
  • the computing device performing neuro-logic reinforcement learning performs neuro-logic reinforcement learning (NLRL) based on the optimized state-action space and the optimized policy space (S2120).
  • NLRL neuro-logic reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 뉴로-논리 강화학습 최적화 방법은 뉴로-논리 강화학습 모델을 사용하여 학습하되, 미리 정의된 구문 템플릿에 따라 생성되는 서술자와 객체 상수들의 조합으로 생성되는 환경에 존재할 수 있는 상태 및 행동들의 집합인 상태-행동 공간과 에이전트가 선택할 수 있는 정책 공간을 의미적 제약에 위배되는 값들을 제거하여 상태-행동 공간과 정책 공간을 최적화한 후 학습을 효과적으로 수행할 수 있다.

Description

의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법
본 발명은 강화학습 기술에 관한 것으로, 더욱 상세하게는 뉴로-논리 강화학습 방법을 최적화하는 기술에 관한 것이다.
심층 강화학습(Deep Reinforcement Learning)은 벡터 형태로 표현된 상태와 행동을 이용하는 벡터화된 강화학습이다. 이러한 종래의 심층 강화학습은 일반화된 정책 학습이 어렵고 학습된 정책의 구조와 의사 결정 과정을 논리적으로 해석하기 어렵다는 문제가 있다. 이러한 문제점을 극복하기 위해, 관계형 강화학습(Relational Reinforcement Learning) 프레임워크들이 활발히 연구되고 있다.
관계형 강화학습 프레임워크에 대한 연구로는 NLM(Neural Logic Machine)과 RDRL(Relational Deep Reinforcement Learning)이 있다. NLM은 AND, OR와 같은 논리 연산자들을 단순한 구조의 다층 신경망(multi-layered neural network)으로 모델링하고 이들의 병렬적 구조를 가진 정책 모델이며, RDRL은 입력 영상에 등장하는 객체(object)들의 관계 정보를 해석하기 위해 그래프 신경망(graph neural network) 기반의 정책 모델이다. NLM과 RDRL은 신경망 기반 정책 모델로부터 낮은 계산 복잡도와 높은 확장성을 얻을 수 있었지만 학습된 정책을 사람이 해석하기 어렵다는 한계가 여전히 존재한다.
이러한 한계점을 극복하고자, 최근 들어 일차 술어 논리 기반의 관계형 강화학습 프레임워크에 대한 연구가 활발히 진행되고 있으며, 대표적인 일차 술어 논리 기반의 관계형 강화학습 프레임워크로 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL)이 있다.
NLRL은 상태(state), 행동(action), 그리고 행동 정책(policy)을 모두 논리 서술자(predicate)와 규칙(rule)들로 표현한다.
NLRL은 일차 술어 논리 기반의 표현법으로부터 정책의 구조와 의사 결정 과정에 대한 설명가능성(explainability)을 가진다. 또한, NLRL은 통일된 서술자 표현으로부터 에이전트가 학습 과정에서 경험하지 못한 초기 상태(initial state) 또는 새로운 논리 상수(logical constant)가 등장해도 성능이 떨어지지 않는 높은 일반화 능력을 갖는다.
하지만, NLRL은 객체의 논리 서술자로 표현된 객체의 상태와 행동이 조합적으로 생성되어 상태-행동 공간에 포함되고, 규칙 또한 서술자 등이 조합되어 생성되어 정책 공간에 포함되어 현실적으로 등장할 수 없는 구체화된 서술자나 규칙들이 대거 생성되므로 학습 수행 시 비효율적인 메모리 사용과 학습의 성능을 저하시키는 문제가 발생한다.
본 발명은 뉴로-논리 강화학습 모델 학습 시 미리 설정된 구문 템플릿에 따라 조합적으로 생성되는 상태, 행동, 정책 규칙들에 대하여 의미적 제약을 통해 존재할 수 없는 상태, 행동, 규칙을 제거하여 학습을 최적화하는 방법을 제공하는 것을 목적으로 한다.
본 발명의 제1 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법은 상태-행동 공간 설정 단계와, 정책 공간 설정 단계와, 온톨로지 삽입 단계와, 상태-행동 공간 최적화 단계와, 정책 공간 최적화 단계와, 뉴로-논리 강화학습 단계를 포함한다.
상태-행동 공간 설정 단계는 서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계이다.
정책 공간 설정 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성된 규칙과 객체 상수를 조합한 구체화된 규칙들의 집합인 정책 공간을 설정하는 단계이다.
온톨로지 삽입 단계는 시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계이다.
상태-행동 공간 최적화 단계는 상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계이다.
정책 공간 최적화 단계는 정책 공간에 속하는 구체화된 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 정책 공간을 최적화하는 단계이다.
뉴로-논리 강화학습 단계는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계이다.
본 발명의 제2 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법은 상태-행동 공간 설정 단계와, 규칙 집합 생성 단계와, 온톨로지 삽입 단계와, 상태-행동 공간 최적화 단계와, 규칙 집합 최적화 단계와, 정책 공간 최적화 단계와, 뉴로-논리 강화학습 단계를 포함한다.
상태-행동 공간 설정 단계는 서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계이다.
규칙 집합 생성 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성한 규칙들의 규칙 집합을 생성하는 단계이다.
온톨로지 삽입 단계는 시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계이다.
상태-행동 공간 최적화 단계는 상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계이다.
규칙 집합 최적화 단계는 규칙 집합에 속하는 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 규칙 집합을 최적화하는 단계이다.
정책 공간 최적화 단계는 최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성하는 단계이다.
뉴로-논리 강화학습 단계는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계이다.
본 발명에 의하면 뉴로-논리 강화학습 모델 학습 시 미리 설정된 구문 템플릿에 따라 조합적으로 생성되는 상태, 행동, 정책 규칙들에 대하여 의미적 제약을 통해 존재할 수 없는 상태, 행동, 규칙을 제거하여 학습을 최적화할 수 있다.
도 1은 뉴로-논리 강화학습의 개념을 도시한 것이다.
도 2는 뉴로-논리 강화학습 모델의 학습 프로세스를 도시한 것이다.
도 3은 상태-행동 공간을 설정하기 위한 구체화된 서술자 생성의 예를 도시한 것이다.
도 4는 서술자와 객체 변수를 조합하여 규칙을 생성하는 예를 도시한 것이다.
도 5는 규칙과 객체 상수를 조합하여 구체화된 규칙의 집합인 정책 공간을 생성하는 예를 도시한 것이다.
도 6은 OWL로 정의된 의미적 제약의 예시를 도시한 것이다.
도 7은 제1 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 절차를 도시한 것이다.
도 8은 제2 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 절차를 도시한 것이다.
전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.
본 명세서에서는 발명의 이해를 돕기 위하여, 뉴로-논리 강화학습 모델의 에이전트는 관계형 강화학습에 대한 벤치마크 테스트로 널리 사용되는 블록 조작 환경을 예로 들어 설명합니다. 블록 조작 환경은 선행기술문헌인 "Neural Logic Reinforcement Learning" 논문에 설명된 것과 동일한 환경이다. 블록 조작 환경은 설명을 위한 예에 불과하며 본 발명이 이에 한정되는 것은 아닙니다.
에이전트는 블록 조작 환경에서 특정 스타일로 블록을 쌓는 방법을 학습합니다. 설명에 사용되는 블록 조작 환경은 5개의 객체가 정의되며, a, b, c, d는 블록 객체이며 floor는 바닥 객체이다.
도 1은 뉴로-논리 강화학습의 개념을 도시한 것이고, 도 2는 뉴로-논리 강화학습 모델의 학습 프로세스를 도시한 것이다. 도 1 및 도 2를 참고하여 뉴로-논리 강화학습에 대하여 설명한다.
도 1에 도시된 것과 같이 블록 조작 환경에서 뉴로-논리 강화학습(NLRL)의 에이전트에 입력되는 상태는 on(a, floor), on(c, a), on(b, floor), top(c) 등으로 표현되고 에이전트로부터 출력되는 행동은 move(c, floor)와 같이 표현될 수 있다. 여기서 on(a, floor) 상태 서술자는 floor 객체 위에 블록 객체 a가 놓여져 있는 상태를 의미하고, top(c) 상태 서술자는 블록 객체 c 위에는 어떠한 객체도 쌓여있지 않은 상태를 의미하고, move(c, floor)는 블록 객체 c를 floor 객체 위에 내려 놓으라는 행동을 의미한다. on(a, floor), on(c, a), on(b, floor) 상태 서술자는 on(X, Y) 상태 서술자가 객체 상수(예, a, b, c, d, floor)와 조합되어 구체화된 상태 서술자이다.
정책(πθ)은 입력된 상태 서술자로부터 행동 서술자를 연역 추론(deduction)하기 위한 규칙으로 이루어져 있다. 규칙은 불 방식(boolean)의 논리 연산을 토대로 처리되는 전통적인 논리 추론 방법과는 다르게, 학습이 가능하도록 매개변수화(parameterization)되어 있다.
도 1에 도시된 것과 같이 입력된 상태 서술자들은 개별 서술자들의 가치평가값(valuation)을 표현하는 가치평가 벡터(valuation vector)로 변환되어 정책에 입력되고, 정책은 행동 서술자들의 확률 분포(action probability)를 출력한다. 뉴로-논리 강화학습(NLRL)은 일차 술어 논리 기반의 표현법으로부터 정책의 구조와 의사 결정 과정에 대한 설명가능성(explainability)을 가진다. 또한, 뉴로-논리 강화학습(NLRL(은 통일된 서술자 표현으로부터 에이전트가 학습 과정에서 경험하지 못한 초기 상태(initial state) 또는 새로운 논리 상수(logical constant)가 등장해도 성능이 떨어지지 않는 높은 일반화 능력을 갖는다.
뉴로-논리 강화학습(NLRL)은 미리 정해 놓은 구문 템플릿(syntactic template)에 따라 뉴로-논리 에이전트의 상태-행동 공간과 정책 공간을 먼저 생성한 뒤에, 행동 추론과 정책 학습을 반복한다. 상태-행동 공간은 구체화된 상태 서술자 및 행동 서술자들의 집합에 해당하며, 정책 공간은 구체화된 규칙들의 집합에 해당한다.
뉴로-논리 강화학습(NLRL)이 성공적으로 학습하기 위해서 실제로 등장할 수 있는 상태 서술자들 및 행동 서술자들, 그리고 현실적으로 의미 있는 규칙들이 상태-행동 공간과 정책 공간에 빠짐없이 포함되어야 한다. 이를 위해, 뉴로-논리 강화학습(NLRL)은 미리 정해 놓은 구문 템플릿에 따라 생성 가능한 모든 서술자들과 규칙들을 만들어 완전한 상태-행동 공간과 정책 공간을 표현한 후 학습을 진행한다. 하지만 이 방법은 최적의 정책 학습이 가능하겠지만 상태-행동 공간과 정책 공간이 조합적으로 생성되기 때문에 계산 복잡도가 높아지고 확장성(capability)이 크게 떨어질 수 있다. 예를 들어, 블록 조작 환경에서 실제 발생할 수 없는 상태인 on(floor, a)와 같은 구체화된 상태 서술자가 생성되어 상태-행동 공간에 포함되고 현실적으로 추론이 발생할 수 없는 move(X,Y):-on(X,Y),on(Y,X)와 같은 규칙들이 생성될 수 있다.
도 2에 도시된 뉴로-논리 강화학습(NLRL) 모델의 뉴로-논리 에이전트는 행동자-비평가(actor-critic) 구조를 가진다. 행동자(actor)는 가치평가 인코더(valuation encoder)와 순환 논리 머신(differentiable recurrent logic machine, DRLM)과 행동 디코더(action decoder)를 포함하여 구성된다.
가치평가 인코더는 환경으로부터 상태를 입력 받아 모든 구체화된 서술자(ground atom)들에 대한 초기 가치평가 벡터 e0를 생성한다.
순환 논리 머신은 n 단계 연역 추론(n-step deduction)을 통해 입력된 초기 가치 평가 벡터 e0로부터 새로운 가치평가 벡터 en을 유도한다. 행동자의 핵심부인 순환 논리 머신은 행동자의 정책 즉, 학습 가능한 규칙들을 포함하고 있다.
행동 디코더는 유도된 가치평가 벡터 en으로부터 구체화된 행동 서술자들의 이산 확률 분포를 생성하고, 환경에 대하여 수행할 행동을 선택하여 출력한다.
비평가는 상태 인코더(state encoder)와 다층 신경망(Multilayered Perceptron)을 포함하여 구성된다.
상태 인코더는 환경으로부터 상태를 입력 받아 상태 벡터(state vector)를 생성한다.
다층 신경망(MLP)은 상태 벡터로부터 우세값(advantage)을 예측하여 출력한다.
블록 조작 환경에서 뉴로-논리 에이전트는 환경으로부터 보상(Reward)를 전달받으며 목표를 달성하면 1의 보상을 받고 그 외의 과정에서는 -0.02의 페널티를 계속 받는다.
본 발명의 제1 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법은 상태-행동 공간 설정 단계와, 정책 공간 설정 단계와, 온톨로지 삽입 단계와, 상태-행동 공간 최적화 단계와, 정책 공간 최적화 단계와, 뉴로-논리 강화학습 단계를 포함한다.
의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 각 단계는 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현된다. 컴퓨팅 장치는 퍼스널 컴퓨터, 서버 컴퓨터, 노트북 컴퓨터 등을 포함하는 프로세서와, 메모리와, 디스플레이 등 기타 주변장치를 포함하는 장치일 수 있다.
상태-행동 공간 설정 단계는 서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계이다. 서술자는 상태 서술자와 행동 서술자를 포함하며, 블록 조작 환경 예시에서 on(X, Y), top(X)가 상태 서술자의 예이고, move(X, Y)가 행동 서술자의 예이다. 서술자의 파라미터(X, Y)는 객체 변수이다. 객체 상수는 객체를 표현하는 상수이며, 블록 조작 환경 예시에서, 블록 객체인 a, b, c, d와 바닥 객체인 floor가 객체 상수의 예이다.
도 3은 상태-행동 공간을 설정하기 위한 구체화된 서술자 생성의 예를 도시한 것이다.
상태-행동 공간을 설정하는 단계는 세부적으로 객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계와, 객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계와, 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계를 포함할 수 있다.
상태 서술자 집합에 포함되는 상태 서술자는 미리 정의된 구문 템플릿에 의해 생성되며 변수를 포함하는 서술자이다. 블록 조작 환경 예시에서 on(X, Y), top(X)가 상태 서술자이다.
행동 서술자 집합에 포함되는 행동 서술자는 미리 정의된 구문 템플릿에 의해 생성되며 변수를 포함하는 서술자이다. 블록 조작 환경 예시에서 move(X, Y) 가 행동 서술자이다.
상태-행동 공간은 구체화된 서술자들로 구성된다. 상태 서술자 집합과 행동 서술자 집합을 결합하여 생성한 서술자 집합과 객체 상수를 조합하여 생성한 모든 구체화된 서술자들이 상태-행동 공간에 속하는 서술자들이다. 도 3에 도시된 예에서 on(X, Y) 상태 서술자와 객체 상수 a, b가 조합되어 구체화된 상태 서술자 on(a, a), on(a, b), on(b, b), on(b, a)가 생성될 수 있다.
모든 구체화된 서술자들의 집합을 G라 할 때, G = GS ∪GA이다. 여기서 GS는 on(a, b), top(a)와 같은 구체화된 상태 서술자들의 집합이고, GA는 move(a, b)와 같은 구체화된 행동 서술자들의 집합이다. 이때, G의 크기는
Figure PCTKR2022013332-appb-img-000001
이다. 이때, P는 모든 서술자들의 집합, C는 객체 상수들의 집합, ap는 서술자 p의 파라미터 수(arity)를 의미한다. 모든 구체화된 서술자들의 집합을 G가 상태-행동 공간이므로 상태-행동 공간의 크기는 |G|이다.
정책 공간 설정 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성된 규칙과 객체 상수를 조합한 구체화된 규칙들의 집합인 정책 공간을 설정하는 단계이다. 블록 조작 환경 예시에서 move(X, X) := on(X, Y), on(Y, X)가 규칙의 예이며, move(X, X)가 결론부이며 on(X, Y), on(Y, X)가 조건부이고, X 및 Y는 객체 변수이다. 결론부의 서술자는 행동 서술자인 것이 바람직하다. 생성된 규칙과 객체 상수를 조합하여 구체화된 규칙을 생성한다. 블록 조작 환경 예시에서 move(X, X) := on(X, Y), on(Y, X) 규칙과 객체 상수 a, b가 조합되어 구체화된 규칙 move(a, a) := on(a, b), on(b, a)를 생성할 수 있다.
정책 공간을 설정하는 단계는 세부적으로 구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 제1 규칙 집합을 생성하는 단계와, 제1 규칙 집합에 속하는 규칙들과 객체 상수를 조합하여 정책 공간을 설정하는 단계를 포함할 수 있다.
도 4는 서술자와 객체 변수를 조합하여 규칙을 생성하는 예를 도시한 것이고, 도 5는 규칙과 객체 상수를 조합하여 구체화된 규칙의 집합인 정책 공간을 생성하는 예를 도시한 것이다.
도 4 및 도 5는 블록 조작 환경에 대한 예시로 규칙은 하나의 서술자로 구성되는 결론부와 둘 이하의 서술자를 갖는 조건부로 구성된다. 규칙의 결론부의 서술자와 조건부의 서술자는 파라미터를 가지며 이는 객체 변수와 조합되어 규칙 집합을 생성한다.
도 4에 도시된 예에서 move(X, Y) := on(X, Y), on(X, Y)로 정의된 규칙이 객체 변수 X, M, Z와 조합되어 규칙 move(X, M) := on(X, Z), on(Z, M)이 생성된다. 도 4에는 도시되지 않았지만, 규칙은 조건부 서술자로 중간 생성 서술자를 포함할 수 있다. 중간 생성 서술자는 정의된 다른 규칙이다. 블록 조작 환경 예시에서 규칙 move(X, Y) := isTop(X), invented4(Y, X)가 정의될 수 있으며, invented4(Y, X)가 중간 생성 서술자이며 invented4(X, Y) := on(Y, Z), isFloor(X)와 같이 정의될 수 있다. 중간 생성 서술자는 규칙의 결론부 서술자로도 사용될 수 있다.
도 5에 도시된 예에서 규칙 집합에 속하는 규칙 move(X, X) := on(X, Y), on(Y, X)와 객체 상수 a, b가 조합되어 구체화된 규칙 move(a, a) := on(a, b), on(b, a)를 생성하고 이렇게 생성된 구체화된 규칙의 집합이 정책 공간이 된다.
구체화된 규칙들의 집합을 D라 할 때, 정책 공간의 크기는
Figure PCTKR2022013332-appb-img-000002
이다. 이때, C는 상수들의 집합, h는 행동 서술자와 중간 생성 서술자로 이루어진 결론부 서술자들의 집합, bh는 결론부 서술자 h에 대응하는 조건부 서술자들의 집합, Vm은 조건식에 등장하는 변수들의 집합이다.
온톨로지 삽입 단계는 시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계이다. 온톨로지는 객체들과 객체들 간의 관계 상에 여러 의미적 제약들을 가하는 공리(axiom)들의 집합으로 구성된다.
의미적 제약은 시맨틱 웹 표준 언어인 OWL(Ontology Web Language)을 이용하여 정의된다.
의미적 제약은 OWL의 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의된다.
도 6은 OWL로 정의된 의미적 제약의 예시를 도시한 것으로, on 상태 서술자와 move 상태 서술자에 대한 의미적 제약 정의를 도시하고 있다.
on 서술자는 비대칭 성질과 이행 성질을 가지며 정의역은 블록 클래스이며 치역은 블록(Block) 클래스 또는 바닥(Floor) 클래스이다. on과 move 서술자는 비대칭 성질이 있으므로 on(a, b), on(b, a)는 다른 상태이며 move(a, b)와 move(b, a) 다른 행동이다. on과 move 서술자는 정의역으로 Block 클래스를 가지므로 on(floor, a)와 move(floor, a)는 의미적 제약에 위배되는 구체화된 서술자가 된다.
상태-행동 공간 최적화 단계는 상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계이다.
서술자와 객체 상수를 조합하여 구체화된 서술자를 생성하였으므로 상태-행동 공간에는 실제로 존재할 수 없는 상태 서술자와 실제로 행해질 수 없는 행동 서술자가 포함되어 있다. 온톨로지가 삽입된 지식 베이스를 이용하여 즉, 의미적 제약을 이용하여 상태-행동 공간에서 실제로 존재할 수 없거나 행해질 수 없는 서술자를 제거하여 상태-행동 공간을 최적화 할 수 있다.
상태-행동 공간을 최적화하는 단계는 세부적으로 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계와, 선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 포함된 각 단계를 반복하여 수행할 수 있다.
의미적 제약이 OWL을 이용하여 정의된 경우 구체화된 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다. 추론은 OWL 기반으로 수행하는 일관성 검사일 수 있다.
정책 공간 최적화 단계는 정책 공간에 속하는 구체화된 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 정책 공간을 최적화하는 단계이다.
규칙과 객체 상수를 조합하여 구체화된 규칙을 생성하였으므로 정책 공간에는 실제로 존재할 수 없는 구체화된 규칙이 포함되어 있다. 온톨로지가 삽입된 지식 베이스를 이용하여 즉, 의미적 제약을 이용하여 정책 공간에서 실제로 존재할 수 없는 구체화된 규칙을 제거하여 정책 공간을 최적화 할 수 있다.
정책 공간을 최적화하는 단계는 세부적으로 추론되지 않은 구체화된 규칙을 정책 공간에서 선택하는 단계와, 선택된 구체화된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계와, 추론 성공 시 선택된 구체화된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 정책 공간에 추론되지 않은 구체화된 규칙이 없을 때까지 각 단계를 반복하여 수행할 수 있다.
의미적 제약이 OWL을 이용하여 정의된 경우 구체화된 규칙의 조전부의 서술자와 결론부의 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다.
정책 공간을 최적화하는 단계는 조건부에 대하여 추론을 선행한 후 결론부에 대한 추론을 실행하며, 조건부의 경우 서술자들의 논리곱이므로 조건부의 서술자들을 동시에 지식 베이스에 삽입한 후 추론을 수행하여야 한다.
뉴로-논리 강화학습 단계는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계이다. 뉴로-논리 강화학습 단계는 최적화 후의 단계로 공지된 뉴로-논리 강화학습 프레임워크의 강화학습 단계와 동일하므로 자세한 설명은 생략한다.
도 7은 제1 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 절차를 도시한 것이다.
도 7을 참조하여 설명하면, 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하고(S1000), 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하고(S1001), 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정한다(S1002).
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 제1 규칙 집합을 생성하고(S1020), 제1 규칙 집합에 속하는 규칙들과 객체 상수를 조합하여 정책 공간을 설정한다(S1021).
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입한다(S1040).
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하여 지식 베이스에 삽입하고(S1060), 지식 베이스를 대상으로 추론을 수행하고(S1061) 추론 성공 여부를 판단하여(S1062) 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하고(S1063), 지식 베이스를 상기 온톨로지로 초기화한다(S1064). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 반복하여(S1065) 수행하여 상태-행동 공간을 최적화한다.
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 구체화된 규칙을 정책 공간에서 선택하고(S1080), 선택된 구체화된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하고(S1081), 지식 베이스를 대상으로 추론을 수행하고(S1082) 추론 성공 여부를 판단하여(S1083) 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하고(S1088), 추론 성공 시 지식 베이스를 의미적 제약 온톨로지로 초기화하고(S1084) 선택된 구체화된 규칙의 결론부의 서술자를 지식 베이스에 삽입하고(S1085), 지식 베이스를 대상으로 추론을 수행하여(S1086) 추론 성공 여부를 판단하여(S1087) 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거한다(S1088). 상기 장치는 지식 베이스를 의미적 제약 온톨로지로 초기화한다(S1089). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 정책 공간에 추론되지 않은 구체화된 규칙이 없을 때까지 각 단계를 반복(S1090) 수행하여 정책 공간을 최적화한다.
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행한다(S1100).
본 발명의 제2 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법은 상태-행동 공간 설정 단계와, 규칙 집합 생성 단계와, 온톨로지 삽입 단계와, 상태-행동 공간 최적화 단계와, 규칙 집합 최적화 단계와, 정책 공간 최적화 단계와, 뉴로-논리 강화학습 단계를 포함한다.
상태-행동 공간 설정 단계는 제1 실시 예의 상태-행동 공간 설정 단계와 동일하게 서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계이다.
상태-행동 공간을 설정하는 단계는 제1 실시 예의 상태-행동 공간 설정 단계와 동일하게 세부적으로 객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계와, 객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계와, 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계를 포함할 수 있다.
규칙 집합 생성 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성한 규칙들의 규칙 집합을 생성하는 단계이다. 블록 조작 환경 예시에서 move(X, X) := on(X, Y), on(Y, X)가 규칙의 예이며, move(X, X)가 결론부이며 on(X, Y), on(Y, X)가 조건부이고, X 및 Y는 객체 변수이다.
온톨로지 삽입 단계는 제1 실시 예의 온톨로지 삽입 단계와 동일하게 시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계이다. 온톨로지는 객체들과 객체들 간의 관계 상에 여러 의미적 제약들을 가하는 공리(axiom)들의 집합으로 구성된다.
의미적 제약은 시맨틱 웹 표준 언어인 OWL(Ontology Web Language)을 이용하여 정의된다.
의미적 제약은 OWL의 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의된다.
상태-행동 공간 최적화 단계는 제1 실시 예의 상태-행동 공간 최적화 단계와 동일하게 상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계이다.
상태-행동 공간을 최적화하는 단계는 제1 실시 예의 상태-행동 공간 최적화 단계와 동일하게 세부적으로 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계와, 선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 포함된 각 단계를 반복하여 수행할 수 있다.
의미적 제약이 OWL을 이용하여 정의된 경우 구체화된 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다.
규칙 집합 최적화 단계는 규칙 집합에 속하는 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 규칙 집합을 최적화하는 단계이다.
서술자과 객체 상수를 조합하여 규칙을 생성하였으므로 규칙 집합에는 실제로 존재할 수 없는 규칙이 포함되어 있다. 온톨로지가 삽입된 지식 베이스를 이용하여 즉, 의미적 제약을 이용하여 규칙 집합에서 실제로 존재할 수 없는 규칙을 제거하여 규칙 집합을 최적화 할 수 있다.
규칙 집합을 최적화하는 단계는 세부적으로 추론되지 않은 규칙을 규칙 집합에서 선택하는 단계와, 선택된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계와, 추론 성공 시 선택된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 규칙 집합에 추론되지 않은 규칙이 없을 때까지 각 단계를 반복하여 수행할 수 있다.
의미적 제약이 OWL을 이용하여 정의된 경우 규칙의 조전부의 서술자와 결론부의 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다.
규칙 집합을 최적화하는 단계는 조건부에 대하여 추론을 선행한 후 결론부에 대한 추론을 실행하며, 조건부의 경우 서술자들의 논리곱이므로 조건부의 서술자들을 동시에 지식 베이스에 삽입한 후 추론을 수행하여야 한다.
정책 공간 최적화 단계는 최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성하는 단계이다.
제1 실시 예와 달리 규칙 집합이 이미 최적화 되어 있으며 규칙과 조합하는 구체화된 서술자 역시 최적화되어 있으므로 이들을 조합하면 최적화된 정책 공간을 얻을 수 있다.
뉴로-논리 강화학습 단계는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계이다. 뉴로-논리 강화학습 단계는 최적화 후의 단계로 공지된 뉴로-논리 강화학습 프레임워크의 강화학습 단계와 동일하므로 자세한 설명은 생략한다.
도 8은 제2 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 절차를 도시한 것이다.
도 8을 참조하여 설명하면, 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하고(S2000), 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하고(S2001), 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정한다(S2002).
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 생성한 규칙들의 규칙 집합을 생성한다(S2020).
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입한다(S2040).
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하여 지식 베이스에 삽입하고(S2060), 지식 베이스를 대상으로 추론을 수행하고(S2061) 추론 성공 여부를 판단하여(S2062) 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하고(S2063), 지식 베이스를 상기 온톨로지로 초기화한다(S2064). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 반복하여(S2065) 수행하여 상태-행동 공간을 최적화한다.
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 규칙을 규칙 집합에서 선택하고(S2080), 선택된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하고(S2081), 지식 베이스를 대상으로 추론을 수행하고(S2082) 추론 성공 여부를 판단하여(S2083) 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하고(S2088), 추론 성공 시 지식 베이스를 의미적 제약 온톨로지로 초기화한 후(S2084) 선택된 규칙의 결론부의 서술자를 지식 베이스에 삽입하고(S2085), 지식 베이스를 대상으로 추론을 수행하고(S2086) 추론 성공 여부를 판단하여(S2087) 추론 실패 시 선택된 규칙을 규칙 집합에서 제거한다(S2088). 해당 장치는 지식 베이스를 상기 온톨로지로 초기화한다(S2089). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 규칙 집합에 추론되지 않은 규칙이 없을 때까지 각 단계를 반복(S2090) 수행하여 규칙 집합을 최적화한다.
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성한다(S2100).
뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행한다(S2120).
이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.

Claims (11)

  1. 각 단계가 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현되어 프로세서에서 실행되는 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL) 최적화 방법에 있어서,
    서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계;
    미리 정의되며 결론부(head)와 조건부(body)로 구성되는 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성된 규칙과 객체 상수를 조합한 구체화된 규칙들의 집합인 정책 공간을 설정하는 단계;
    시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계;
    상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계;
    정책 공간에 속하는 구체화된 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 정책 공간을 최적화하는 단계; 및
    최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계;
    를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  2. 제 1 항에 있어서, 상태-행동 공간을 최적화하는 단계는 :
    추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계;
    선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계;
    지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계; 및
    지식 베이스를 상기 온톨로지로 초기화하는 단계;
    를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  3. 제 2 항에 있어서, 정책 공간을 최적화하는 단계는 :
    추론되지 않은 구체화된 규칙을 정책 공간에서 선택하는 단계;
    선택된 구체화된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계;
    지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계;
    추론 성공 시 선택된 구체화된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계;
    지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계;
    지식 베이스를 상기 온톨로지로 초기화하는 단계;
    를 포함하여 정책 공간에 추론되지 않은 구체화된 규칙이 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  4. 제 1 항에 있어서, 상태-행동 공간을 설정하는 단계는 :
    객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계;
    객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계;
    상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계;
    를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  5. 제 1 항에 있어서, 정책 공간을 설정하는 단계는 :
    구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 제1 규칙 집합을 생성하는 단계;
    제1 규칙 집합에 속하는 규칙들과 객체 상수를 조합하여 정책 공간을 설정하는 단계;
    를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  6. 제 1 항에 있어서,
    의미적 제약은 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의되는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  7. 각 단계가 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현되어 프로세서에서 실행되는 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL) 최적화 방법에 있어서,
    서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계;
    미리 정의되며 결론부(head)와 조건부(body)로 구성되는 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성한 규칙들의 규칙 집합을 생성하는 단계;
    시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계;
    상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계;
    규칙 집합에 속하는 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 규칙 집합을 최적화하는 단계;
    최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성하는 단계; 및
    최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계;
    를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  8. 제 7 항에 있어서, 상태-행동 공간을 최적화하는 단계는 :
    추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계;
    선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계;
    지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계
    지식 베이스를 상기 온톨로지로 초기화하는 단계;
    를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  9. 제 8 항에 있어서, 규칙 집합을 최적화하는 단계는 :
    추론되지 않은 규칙을 규칙 집합에서 선택하는 단계;
    선택된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계;
    지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계;
    추론 성공 시 선택된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계;
    지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계;
    지식 베이스를 상기 온톨로지로 초기화하는 단계;
    를 포함하여 규칙 집합에 추론되지 않은 규칙이 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  10. 제 7 항에 있어서, 상태-행동 공간을 설정하는 단계는 :
    객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계;
    객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계;
    상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계;
    를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
  11. 제 7 항에 있어서,
    의미적 제약은 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의되는 뉴로-논리 강화학습(NLRL) 최적화 방법.
PCT/KR2022/013332 2021-11-24 2022-09-06 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법 WO2023096100A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0163383 2021-11-24
KR1020210163383A KR102454700B1 (ko) 2021-11-24 2021-11-24 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법

Publications (1)

Publication Number Publication Date
WO2023096100A1 true WO2023096100A1 (ko) 2023-06-01

Family

ID=83599465

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/013332 WO2023096100A1 (ko) 2021-11-24 2022-09-06 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법

Country Status (2)

Country Link
KR (1) KR102454700B1 (ko)
WO (1) WO2023096100A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210009232A (ko) * 2019-07-16 2021-01-26 한국전자통신연구원 강화 학습 방법 및 장치
KR20210056648A (ko) * 2019-11-11 2021-05-20 한국전자통신연구원 강화 학습을 수행하는 장치 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210009232A (ko) * 2019-07-16 2021-01-26 한국전자통신연구원 강화 학습 방법 및 장치
KR20210056648A (ko) * 2019-11-11 2021-05-20 한국전자통신연구원 강화 학습을 수행하는 장치 및 그 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KANG MINKYO, INCHEOL KIM: "Using Prior Domain Knowledge for Efficient Relational Reinforcement Learning", PROCEEDINGS OF THE KOREA INFORMATION PROCESSING SOCIETY CONFERENCE, KOREA INFORMATION PROCESSING SOCIETY CONFERENCE, KOREA, vol. 28, 30 May 2021 (2021-05-30), Korea , pages 483 - 486, XP093068780, ISSN: 2005-0011 *
KANG MINKYO, LEE SEOKJUN, KIM INCHEL: "Semantic Constraint Based Optimization for Neural-Logic Reinforcement Learning", PROCEEDINGS OF THE KOREA SOFTWARE CONFERENCE 2020, 1 December 2020 (2020-12-01), pages 508 - 5010, XP093068776 *
ZHENGYAO JIANG; SHAN LUO: "Neural Logic Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 24 April 2019 (2019-04-24), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081173051 *

Also Published As

Publication number Publication date
KR102454700B1 (ko) 2022-10-13

Similar Documents

Publication Publication Date Title
Miller A logic programming language with lambda-abstraction, function variables, and simple unification
US20040083454A1 (en) Object-oriented framework for reasoning having pluggable inference engines
Murata et al. A predicate-transition net model for parallel interpretation of logic programs
Kurshan et al. A structural induction theorem for processes
Kearns et al. Recent results on Boolean concept learning
US20070197877A1 (en) Behavior Based Multi-Agent Systems As Data Types
WO2020111314A1 (ko) 개념 그래프 기반 질의응답 장치 및 방법
Burns et al. Synthesis of self-timed circuits by program transformation
WO2023043019A1 (ko) 사용자 학습 환경 기반의 강화학습 장치 및 방법
WO2023096100A1 (ko) 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법
Wu et al. Enhanced high-level Petri nets with multiple colors for knowledge verification/validation of rule-based expert systems
Woods et al. Constraint-based design recovery for software reengineering: theory and experiments
WO2024143913A1 (ko) 강화학습 기반의 면적 및 매크로 배치 최적화를 위한 설계 시스템 및 방법
Laird Soar User's Manual.
WO2023224205A1 (ko) 인공 신경망 모델 학습 결과 합성을 통한 공통 모델 생성 방법
Bronsard et al. Conditional rewriting in Focus
McKevitt et al. Transfer Semantics in an Operating System Consultant: The Formalization of Actions Involving Object Transfer.
Rovatsos et al. An approach to the analysis and design of multiagent systems based on interaction frames
Ehrich Key extensions of abstract data types, final algebras, and database semantics
Huang et al. A computer-aided protocol design by production systems approach
WO2024101540A1 (ko) 어댑터 어텐션 기반의 트랜스포머 모델 연속 학습 방법 및 그 장치
Costantini et al. Reasoning about Memory Management in Resource-Bounded Agents.
WO2023085499A1 (ko) 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법
Ishizaka et al. Finding tree patterns consistent with positive and negative examples using queries
Hartman A Gypsy-based kernel

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22898784

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE