WO2023096100A1

WO2023096100A1 - 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법

Info

Publication number: WO2023096100A1
Application number: PCT/KR2022/013332
Authority: WO
Inventors: 김인철; 이석준; 강민교
Original assignee: 경기대학교 산학협력단
Priority date: 2021-11-24
Filing date: 2022-09-06
Publication date: 2023-06-01
Also published as: KR102454700B1

Abstract

본 발명의 뉴로-논리 강화학습 최적화 방법은 뉴로-논리 강화학습 모델을 사용하여 학습하되, 미리 정의된 구문 템플릿에 따라 생성되는 서술자와 객체 상수들의 조합으로 생성되는 환경에 존재할 수 있는 상태 및 행동들의 집합인 상태-행동 공간과 에이전트가 선택할 수 있는 정책 공간을 의미적 제약에 위배되는 값들을 제거하여 상태-행동 공간과 정책 공간을 최적화한 후 학습을 효과적으로 수행할 수 있다.

Description

의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법

본 발명은 강화학습 기술에 관한 것으로, 더욱 상세하게는 뉴로-논리 강화학습 방법을 최적화하는 기술에 관한 것이다.

심층 강화학습(Deep Reinforcement Learning)은 벡터 형태로 표현된 상태와 행동을 이용하는 벡터화된 강화학습이다. 이러한 종래의 심층 강화학습은 일반화된 정책 학습이 어렵고 학습된 정책의 구조와 의사 결정 과정을 논리적으로 해석하기 어렵다는 문제가 있다. 이러한 문제점을 극복하기 위해, 관계형 강화학습(Relational Reinforcement Learning) 프레임워크들이 활발히 연구되고 있다.

관계형 강화학습 프레임워크에 대한 연구로는 NLM(Neural Logic Machine)과 RDRL(Relational Deep Reinforcement Learning)이 있다. NLM은 AND, OR와 같은 논리 연산자들을 단순한 구조의 다층 신경망(multi-layered neural network)으로 모델링하고 이들의 병렬적 구조를 가진 정책 모델이며, RDRL은 입력 영상에 등장하는 객체(object)들의 관계 정보를 해석하기 위해 그래프 신경망(graph neural network) 기반의 정책 모델이다. NLM과 RDRL은 신경망 기반 정책 모델로부터 낮은 계산 복잡도와 높은 확장성을 얻을 수 있었지만 학습된 정책을 사람이 해석하기 어렵다는 한계가 여전히 존재한다.

이러한 한계점을 극복하고자, 최근 들어 일차 술어 논리 기반의 관계형 강화학습 프레임워크에 대한 연구가 활발히 진행되고 있으며, 대표적인 일차 술어 논리 기반의 관계형 강화학습 프레임워크로 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL)이 있다.

NLRL은 상태(state), 행동(action), 그리고 행동 정책(policy)을 모두 논리 서술자(predicate)와 규칙(rule)들로 표현한다.

NLRL은 일차 술어 논리 기반의 표현법으로부터 정책의 구조와 의사 결정 과정에 대한 설명가능성(explainability)을 가진다. 또한, NLRL은 통일된 서술자 표현으로부터 에이전트가 학습 과정에서 경험하지 못한 초기 상태(initial state) 또는 새로운 논리 상수(logical constant)가 등장해도 성능이 떨어지지 않는 높은 일반화 능력을 갖는다.

하지만, NLRL은 객체의 논리 서술자로 표현된 객체의 상태와 행동이 조합적으로 생성되어 상태-행동 공간에 포함되고, 규칙 또한 서술자 등이 조합되어 생성되어 정책 공간에 포함되어 현실적으로 등장할 수 없는 구체화된 서술자나 규칙들이 대거 생성되므로 학습 수행 시 비효율적인 메모리 사용과 학습의 성능을 저하시키는 문제가 발생한다.

본 발명은 뉴로-논리 강화학습 모델 학습 시 미리 설정된 구문 템플릿에 따라 조합적으로 생성되는 상태, 행동, 정책 규칙들에 대하여 의미적 제약을 통해 존재할 수 없는 상태, 행동, 규칙을 제거하여 학습을 최적화하는 방법을 제공하는 것을 목적으로 한다.

본 발명의 제1 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법은 상태-행동 공간 설정 단계와, 정책 공간 설정 단계와, 온톨로지 삽입 단계와, 상태-행동 공간 최적화 단계와, 정책 공간 최적화 단계와, 뉴로-논리 강화학습 단계를 포함한다.

상태-행동 공간 설정 단계는 서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계이다.

정책 공간 설정 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성된 규칙과 객체 상수를 조합한 구체화된 규칙들의 집합인 정책 공간을 설정하는 단계이다.

온톨로지 삽입 단계는 시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계이다.

상태-행동 공간 최적화 단계는 상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계이다.

정책 공간 최적화 단계는 정책 공간에 속하는 구체화된 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 정책 공간을 최적화하는 단계이다.

뉴로-논리 강화학습 단계는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계이다.

본 발명의 제2 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법은 상태-행동 공간 설정 단계와, 규칙 집합 생성 단계와, 온톨로지 삽입 단계와, 상태-행동 공간 최적화 단계와, 규칙 집합 최적화 단계와, 정책 공간 최적화 단계와, 뉴로-논리 강화학습 단계를 포함한다.

규칙 집합 생성 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성한 규칙들의 규칙 집합을 생성하는 단계이다.

규칙 집합 최적화 단계는 규칙 집합에 속하는 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 규칙 집합을 최적화하는 단계이다.

정책 공간 최적화 단계는 최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성하는 단계이다.

본 발명에 의하면 뉴로-논리 강화학습 모델 학습 시 미리 설정된 구문 템플릿에 따라 조합적으로 생성되는 상태, 행동, 정책 규칙들에 대하여 의미적 제약을 통해 존재할 수 없는 상태, 행동, 규칙을 제거하여 학습을 최적화할 수 있다.

도 1은 뉴로-논리 강화학습의 개념을 도시한 것이다.

도 2는 뉴로-논리 강화학습 모델의 학습 프로세스를 도시한 것이다.

도 3은 상태-행동 공간을 설정하기 위한 구체화된 서술자 생성의 예를 도시한 것이다.

도 4는 서술자와 객체 변수를 조합하여 규칙을 생성하는 예를 도시한 것이다.

도 5는 규칙과 객체 상수를 조합하여 구체화된 규칙의 집합인 정책 공간을 생성하는 예를 도시한 것이다.

도 6은 OWL로 정의된 의미적 제약의 예시를 도시한 것이다.

도 7은 제1 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 절차를 도시한 것이다.

도 8은 제2 실시 예에 따르는 의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 절차를 도시한 것이다.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.

본 명세서에서는 발명의 이해를 돕기 위하여, 뉴로-논리 강화학습 모델의 에이전트는 관계형 강화학습에 대한 벤치마크 테스트로 널리 사용되는 블록 조작 환경을 예로 들어 설명합니다. 블록 조작 환경은 선행기술문헌인 "Neural Logic Reinforcement Learning" 논문에 설명된 것과 동일한 환경이다. 블록 조작 환경은 설명을 위한 예에 불과하며 본 발명이 이에 한정되는 것은 아닙니다.

에이전트는 블록 조작 환경에서 특정 스타일로 블록을 쌓는 방법을 학습합니다. 설명에 사용되는 블록 조작 환경은 5개의 객체가 정의되며, a, b, c, d는 블록 객체이며 floor는 바닥 객체이다.

도 1은 뉴로-논리 강화학습의 개념을 도시한 것이고, 도 2는 뉴로-논리 강화학습 모델의 학습 프로세스를 도시한 것이다. 도 1 및 도 2를 참고하여 뉴로-논리 강화학습에 대하여 설명한다.

도 1에 도시된 것과 같이 블록 조작 환경에서 뉴로-논리 강화학습(NLRL)의 에이전트에 입력되는 상태는 on(a, floor), on(c, a), on(b, floor), top(c) 등으로 표현되고 에이전트로부터 출력되는 행동은 move(c, floor)와 같이 표현될 수 있다. 여기서 on(a, floor) 상태 서술자는 floor 객체 위에 블록 객체 a가 놓여져 있는 상태를 의미하고, top(c) 상태 서술자는 블록 객체 c 위에는 어떠한 객체도 쌓여있지 않은 상태를 의미하고, move(c, floor)는 블록 객체 c를 floor 객체 위에 내려 놓으라는 행동을 의미한다. on(a, floor), on(c, a), on(b, floor) 상태 서술자는 on(X, Y) 상태 서술자가 객체 상수(예, a, b, c, d, floor)와 조합되어 구체화된 상태 서술자이다.

정책(π_θ)은 입력된 상태 서술자로부터 행동 서술자를 연역 추론(deduction)하기 위한 규칙으로 이루어져 있다. 규칙은 불 방식(boolean)의 논리 연산을 토대로 처리되는 전통적인 논리 추론 방법과는 다르게, 학습이 가능하도록 매개변수화(parameterization)되어 있다.

도 1에 도시된 것과 같이 입력된 상태 서술자들은 개별 서술자들의 가치평가값(valuation)을 표현하는 가치평가 벡터(valuation vector)로 변환되어 정책에 입력되고, 정책은 행동 서술자들의 확률 분포(action probability)를 출력한다. 뉴로-논리 강화학습(NLRL)은 일차 술어 논리 기반의 표현법으로부터 정책의 구조와 의사 결정 과정에 대한 설명가능성(explainability)을 가진다. 또한, 뉴로-논리 강화학습(NLRL(은 통일된 서술자 표현으로부터 에이전트가 학습 과정에서 경험하지 못한 초기 상태(initial state) 또는 새로운 논리 상수(logical constant)가 등장해도 성능이 떨어지지 않는 높은 일반화 능력을 갖는다.

뉴로-논리 강화학습(NLRL)은 미리 정해 놓은 구문 템플릿(syntactic template)에 따라 뉴로-논리 에이전트의 상태-행동 공간과 정책 공간을 먼저 생성한 뒤에, 행동 추론과 정책 학습을 반복한다. 상태-행동 공간은 구체화된 상태 서술자 및 행동 서술자들의 집합에 해당하며, 정책 공간은 구체화된 규칙들의 집합에 해당한다.

뉴로-논리 강화학습(NLRL)이 성공적으로 학습하기 위해서 실제로 등장할 수 있는 상태 서술자들 및 행동 서술자들, 그리고 현실적으로 의미 있는 규칙들이 상태-행동 공간과 정책 공간에 빠짐없이 포함되어야 한다. 이를 위해, 뉴로-논리 강화학습(NLRL)은 미리 정해 놓은 구문 템플릿에 따라 생성 가능한 모든 서술자들과 규칙들을 만들어 완전한 상태-행동 공간과 정책 공간을 표현한 후 학습을 진행한다. 하지만 이 방법은 최적의 정책 학습이 가능하겠지만 상태-행동 공간과 정책 공간이 조합적으로 생성되기 때문에 계산 복잡도가 높아지고 확장성(capability)이 크게 떨어질 수 있다. 예를 들어, 블록 조작 환경에서 실제 발생할 수 없는 상태인 on(floor, a)와 같은 구체화된 상태 서술자가 생성되어 상태-행동 공간에 포함되고 현실적으로 추론이 발생할 수 없는 move(X,Y):-on(X,Y),on(Y,X)와 같은 규칙들이 생성될 수 있다.

도 2에 도시된 뉴로-논리 강화학습(NLRL) 모델의 뉴로-논리 에이전트는 행동자-비평가(actor-critic) 구조를 가진다. 행동자(actor)는 가치평가 인코더(valuation encoder)와 순환 논리 머신(differentiable recurrent logic machine, DRLM)과 행동 디코더(action decoder)를 포함하여 구성된다.

가치평가 인코더는 환경으로부터 상태를 입력 받아 모든 구체화된 서술자(ground atom)들에 대한 초기 가치평가 벡터 e₀를 생성한다.

순환 논리 머신은 n 단계 연역 추론(n-step deduction)을 통해 입력된 초기 가치 평가 벡터 e₀로부터 새로운 가치평가 벡터 e_n을 유도한다. 행동자의 핵심부인 순환 논리 머신은 행동자의 정책 즉, 학습 가능한 규칙들을 포함하고 있다.

행동 디코더는 유도된 가치평가 벡터 e_n으로부터 구체화된 행동 서술자들의 이산 확률 분포를 생성하고, 환경에 대하여 수행할 행동을 선택하여 출력한다.

비평가는 상태 인코더(state encoder)와 다층 신경망(Multilayered Perceptron)을 포함하여 구성된다.

상태 인코더는 환경으로부터 상태를 입력 받아 상태 벡터(state vector)를 생성한다.

다층 신경망(MLP)은 상태 벡터로부터 우세값(advantage)을 예측하여 출력한다.

블록 조작 환경에서 뉴로-논리 에이전트는 환경으로부터 보상(Reward)를 전달받으며 목표를 달성하면 1의 보상을 받고 그 외의 과정에서는 -0.02의 페널티를 계속 받는다.

의미적 제약을 이용한 뉴로-논리 강화학습 최적화 방법의 각 단계는 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현된다. 컴퓨팅 장치는 퍼스널 컴퓨터, 서버 컴퓨터, 노트북 컴퓨터 등을 포함하는 프로세서와, 메모리와, 디스플레이 등 기타 주변장치를 포함하는 장치일 수 있다.

상태-행동 공간 설정 단계는 서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계이다. 서술자는 상태 서술자와 행동 서술자를 포함하며, 블록 조작 환경 예시에서 on(X, Y), top(X)가 상태 서술자의 예이고, move(X, Y)가 행동 서술자의 예이다. 서술자의 파라미터(X, Y)는 객체 변수이다. 객체 상수는 객체를 표현하는 상수이며, 블록 조작 환경 예시에서, 블록 객체인 a, b, c, d와 바닥 객체인 floor가 객체 상수의 예이다.

상태-행동 공간을 설정하는 단계는 세부적으로 객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계와, 객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계와, 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계를 포함할 수 있다.

상태 서술자 집합에 포함되는 상태 서술자는 미리 정의된 구문 템플릿에 의해 생성되며 변수를 포함하는 서술자이다. 블록 조작 환경 예시에서 on(X, Y), top(X)가 상태 서술자이다.

행동 서술자 집합에 포함되는 행동 서술자는 미리 정의된 구문 템플릿에 의해 생성되며 변수를 포함하는 서술자이다. 블록 조작 환경 예시에서 move(X, Y) 가 행동 서술자이다.

상태-행동 공간은 구체화된 서술자들로 구성된다. 상태 서술자 집합과 행동 서술자 집합을 결합하여 생성한 서술자 집합과 객체 상수를 조합하여 생성한 모든 구체화된 서술자들이 상태-행동 공간에 속하는 서술자들이다. 도 3에 도시된 예에서 on(X, Y) 상태 서술자와 객체 상수 a, b가 조합되어 구체화된 상태 서술자 on(a, a), on(a, b), on(b, b), on(b, a)가 생성될 수 있다.

모든 구체화된 서술자들의 집합을 G라 할 때, G = G_S ∪G_A이다. 여기서 G_S는 on(a, b), top(a)와 같은 구체화된 상태 서술자들의 집합이고, G_A는 move(a, b)와 같은 구체화된 행동 서술자들의 집합이다. 이때, G의 크기는

이다. 이때, P는 모든 서술자들의 집합, C는 객체 상수들의 집합, a_p는 서술자 p의 파라미터 수(arity)를 의미한다. 모든 구체화된 서술자들의 집합을 G가 상태-행동 공간이므로 상태-행동 공간의 크기는 |G|이다.

정책 공간 설정 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성된 규칙과 객체 상수를 조합한 구체화된 규칙들의 집합인 정책 공간을 설정하는 단계이다. 블록 조작 환경 예시에서 move(X, X) := on(X, Y), on(Y, X)가 규칙의 예이며, move(X, X)가 결론부이며 on(X, Y), on(Y, X)가 조건부이고, X 및 Y는 객체 변수이다. 결론부의 서술자는 행동 서술자인 것이 바람직하다. 생성된 규칙과 객체 상수를 조합하여 구체화된 규칙을 생성한다. 블록 조작 환경 예시에서 move(X, X) := on(X, Y), on(Y, X) 규칙과 객체 상수 a, b가 조합되어 구체화된 규칙 move(a, a) := on(a, b), on(b, a)를 생성할 수 있다.

정책 공간을 설정하는 단계는 세부적으로 구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 제1 규칙 집합을 생성하는 단계와, 제1 규칙 집합에 속하는 규칙들과 객체 상수를 조합하여 정책 공간을 설정하는 단계를 포함할 수 있다.

도 4는 서술자와 객체 변수를 조합하여 규칙을 생성하는 예를 도시한 것이고, 도 5는 규칙과 객체 상수를 조합하여 구체화된 규칙의 집합인 정책 공간을 생성하는 예를 도시한 것이다.

도 4 및 도 5는 블록 조작 환경에 대한 예시로 규칙은 하나의 서술자로 구성되는 결론부와 둘 이하의 서술자를 갖는 조건부로 구성된다. 규칙의 결론부의 서술자와 조건부의 서술자는 파라미터를 가지며 이는 객체 변수와 조합되어 규칙 집합을 생성한다.

도 4에 도시된 예에서 move(X, Y) := on(X, Y), on(X, Y)로 정의된 규칙이 객체 변수 X, M, Z와 조합되어 규칙 move(X, M) := on(X, Z), on(Z, M)이 생성된다. 도 4에는 도시되지 않았지만, 규칙은 조건부 서술자로 중간 생성 서술자를 포함할 수 있다. 중간 생성 서술자는 정의된 다른 규칙이다. 블록 조작 환경 예시에서 규칙 move(X, Y) := isTop(X), invented4(Y, X)가 정의될 수 있으며, invented4(Y, X)가 중간 생성 서술자이며 invented4(X, Y) := on(Y, Z), isFloor(X)와 같이 정의될 수 있다. 중간 생성 서술자는 규칙의 결론부 서술자로도 사용될 수 있다.

도 5에 도시된 예에서 규칙 집합에 속하는 규칙 move(X, X) := on(X, Y), on(Y, X)와 객체 상수 a, b가 조합되어 구체화된 규칙 move(a, a) := on(a, b), on(b, a)를 생성하고 이렇게 생성된 구체화된 규칙의 집합이 정책 공간이 된다.

구체화된 규칙들의 집합을 D라 할 때, 정책 공간의 크기는

이다. 이때, C는 상수들의 집합, h는 행동 서술자와 중간 생성 서술자로 이루어진 결론부 서술자들의 집합, b_h는 결론부 서술자 h에 대응하는 조건부 서술자들의 집합, V_m은 조건식에 등장하는 변수들의 집합이다.

온톨로지 삽입 단계는 시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계이다. 온톨로지는 객체들과 객체들 간의 관계 상에 여러 의미적 제약들을 가하는 공리(axiom)들의 집합으로 구성된다.

의미적 제약은 시맨틱 웹 표준 언어인 OWL(Ontology Web Language)을 이용하여 정의된다.

의미적 제약은 OWL의 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의된다.

도 6은 OWL로 정의된 의미적 제약의 예시를 도시한 것으로, on 상태 서술자와 move 상태 서술자에 대한 의미적 제약 정의를 도시하고 있다.

on 서술자는 비대칭 성질과 이행 성질을 가지며 정의역은 블록 클래스이며 치역은 블록(Block) 클래스 또는 바닥(Floor) 클래스이다. on과 move 서술자는 비대칭 성질이 있으므로 on(a, b), on(b, a)는 다른 상태이며 move(a, b)와 move(b, a) 다른 행동이다. on과 move 서술자는 정의역으로 Block 클래스를 가지므로 on(floor, a)와 move(floor, a)는 의미적 제약에 위배되는 구체화된 서술자가 된다.

서술자와 객체 상수를 조합하여 구체화된 서술자를 생성하였으므로 상태-행동 공간에는 실제로 존재할 수 없는 상태 서술자와 실제로 행해질 수 없는 행동 서술자가 포함되어 있다. 온톨로지가 삽입된 지식 베이스를 이용하여 즉, 의미적 제약을 이용하여 상태-행동 공간에서 실제로 존재할 수 없거나 행해질 수 없는 서술자를 제거하여 상태-행동 공간을 최적화 할 수 있다.

상태-행동 공간을 최적화하는 단계는 세부적으로 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계와, 선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 포함된 각 단계를 반복하여 수행할 수 있다.

의미적 제약이 OWL을 이용하여 정의된 경우 구체화된 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다. 추론은 OWL 기반으로 수행하는 일관성 검사일 수 있다.

규칙과 객체 상수를 조합하여 구체화된 규칙을 생성하였으므로 정책 공간에는 실제로 존재할 수 없는 구체화된 규칙이 포함되어 있다. 온톨로지가 삽입된 지식 베이스를 이용하여 즉, 의미적 제약을 이용하여 정책 공간에서 실제로 존재할 수 없는 구체화된 규칙을 제거하여 정책 공간을 최적화 할 수 있다.

정책 공간을 최적화하는 단계는 세부적으로 추론되지 않은 구체화된 규칙을 정책 공간에서 선택하는 단계와, 선택된 구체화된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계와, 추론 성공 시 선택된 구체화된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 정책 공간에 추론되지 않은 구체화된 규칙이 없을 때까지 각 단계를 반복하여 수행할 수 있다.

의미적 제약이 OWL을 이용하여 정의된 경우 구체화된 규칙의 조전부의 서술자와 결론부의 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다.

정책 공간을 최적화하는 단계는 조건부에 대하여 추론을 선행한 후 결론부에 대한 추론을 실행하며, 조건부의 경우 서술자들의 논리곱이므로 조건부의 서술자들을 동시에 지식 베이스에 삽입한 후 추론을 수행하여야 한다.

뉴로-논리 강화학습 단계는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계이다. 뉴로-논리 강화학습 단계는 최적화 후의 단계로 공지된 뉴로-논리 강화학습 프레임워크의 강화학습 단계와 동일하므로 자세한 설명은 생략한다.

도 7을 참조하여 설명하면, 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하고(S1000), 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하고(S1001), 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정한다(S1002).

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 제1 규칙 집합을 생성하고(S1020), 제1 규칙 집합에 속하는 규칙들과 객체 상수를 조합하여 정책 공간을 설정한다(S1021).

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입한다(S1040).

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하여 지식 베이스에 삽입하고(S1060), 지식 베이스를 대상으로 추론을 수행하고(S1061) 추론 성공 여부를 판단하여(S1062) 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하고(S1063), 지식 베이스를 상기 온톨로지로 초기화한다(S1064). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 반복하여(S1065) 수행하여 상태-행동 공간을 최적화한다.

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 구체화된 규칙을 정책 공간에서 선택하고(S1080), 선택된 구체화된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하고(S1081), 지식 베이스를 대상으로 추론을 수행하고(S1082) 추론 성공 여부를 판단하여(S1083) 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하고(S1088), 추론 성공 시 지식 베이스를 의미적 제약 온톨로지로 초기화하고(S1084) 선택된 구체화된 규칙의 결론부의 서술자를 지식 베이스에 삽입하고(S1085), 지식 베이스를 대상으로 추론을 수행하여(S1086) 추론 성공 여부를 판단하여(S1087) 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거한다(S1088). 상기 장치는 지식 베이스를 의미적 제약 온톨로지로 초기화한다(S1089). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 정책 공간에 추론되지 않은 구체화된 규칙이 없을 때까지 각 단계를 반복(S1090) 수행하여 정책 공간을 최적화한다.

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행한다(S1100).

상태-행동 공간 설정 단계는 제1 실시 예의 상태-행동 공간 설정 단계와 동일하게 서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계이다.

상태-행동 공간을 설정하는 단계는 제1 실시 예의 상태-행동 공간 설정 단계와 동일하게 세부적으로 객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계와, 객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계와, 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계를 포함할 수 있다.

규칙 집합 생성 단계는 결론부(head)와 조건부(body)로 구성되어 미리 정의된 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성한 규칙들의 규칙 집합을 생성하는 단계이다. 블록 조작 환경 예시에서 move(X, X) := on(X, Y), on(Y, X)가 규칙의 예이며, move(X, X)가 결론부이며 on(X, Y), on(Y, X)가 조건부이고, X 및 Y는 객체 변수이다.

온톨로지 삽입 단계는 제1 실시 예의 온톨로지 삽입 단계와 동일하게 시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계이다. 온톨로지는 객체들과 객체들 간의 관계 상에 여러 의미적 제약들을 가하는 공리(axiom)들의 집합으로 구성된다.

상태-행동 공간 최적화 단계는 제1 실시 예의 상태-행동 공간 최적화 단계와 동일하게 상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계이다.

상태-행동 공간을 최적화하는 단계는 제1 실시 예의 상태-행동 공간 최적화 단계와 동일하게 세부적으로 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계와, 선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 포함된 각 단계를 반복하여 수행할 수 있다.

의미적 제약이 OWL을 이용하여 정의된 경우 구체화된 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다.

서술자과 객체 상수를 조합하여 규칙을 생성하였으므로 규칙 집합에는 실제로 존재할 수 없는 규칙이 포함되어 있다. 온톨로지가 삽입된 지식 베이스를 이용하여 즉, 의미적 제약을 이용하여 규칙 집합에서 실제로 존재할 수 없는 규칙을 제거하여 규칙 집합을 최적화 할 수 있다.

규칙 집합을 최적화하는 단계는 세부적으로 추론되지 않은 규칙을 규칙 집합에서 선택하는 단계와, 선택된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계와, 추론 성공 시 선택된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계와, 지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계와, 지식 베이스를 상기 온톨로지로 초기화하는 단계를 포함하여 규칙 집합에 추론되지 않은 규칙이 없을 때까지 각 단계를 반복하여 수행할 수 있다.

의미적 제약이 OWL을 이용하여 정의된 경우 규칙의 조전부의 서술자와 결론부의 서술자를 지식 베이스에 삽입할 때 OWL 사실(fact)로 변환한 후 지식 베이스에 삽입한다.

규칙 집합을 최적화하는 단계는 조건부에 대하여 추론을 선행한 후 결론부에 대한 추론을 실행하며, 조건부의 경우 서술자들의 논리곱이므로 조건부의 서술자들을 동시에 지식 베이스에 삽입한 후 추론을 수행하여야 한다.

제1 실시 예와 달리 규칙 집합이 이미 최적화 되어 있으며 규칙과 조합하는 구체화된 서술자 역시 최적화되어 있으므로 이들을 조합하면 최적화된 정책 공간을 얻을 수 있다.

도 8을 참조하여 설명하면, 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하고(S2000), 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하고(S2001), 상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정한다(S2002).

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 생성한 규칙들의 규칙 집합을 생성한다(S2020).

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입한다(S2040).

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하여 지식 베이스에 삽입하고(S2060), 지식 베이스를 대상으로 추론을 수행하고(S2061) 추론 성공 여부를 판단하여(S2062) 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하고(S2063), 지식 베이스를 상기 온톨로지로 초기화한다(S2064). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 반복하여(S2065) 수행하여 상태-행동 공간을 최적화한다.

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 추론되지 않은 규칙을 규칙 집합에서 선택하고(S2080), 선택된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하고(S2081), 지식 베이스를 대상으로 추론을 수행하고(S2082) 추론 성공 여부를 판단하여(S2083) 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하고(S2088), 추론 성공 시 지식 베이스를 의미적 제약 온톨로지로 초기화한 후(S2084) 선택된 규칙의 결론부의 서술자를 지식 베이스에 삽입하고(S2085), 지식 베이스를 대상으로 추론을 수행하고(S2086) 추론 성공 여부를 판단하여(S2087) 추론 실패 시 선택된 규칙을 규칙 집합에서 제거한다(S2088). 해당 장치는 지식 베이스를 상기 온톨로지로 초기화한다(S2089). 뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 이를 규칙 집합에 추론되지 않은 규칙이 없을 때까지 각 단계를 반복(S2090) 수행하여 규칙 집합을 최적화한다.

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성한다(S2100).

뉴로-논리 강화학습을 수행하는 컴퓨팅 장치는 최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행한다(S2120).

이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.

Claims

각 단계가 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현되어 프로세서에서 실행되는 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL) 최적화 방법에 있어서,

서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계;

미리 정의되며 결론부(head)와 조건부(body)로 구성되는 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성된 규칙과 객체 상수를 조합한 구체화된 규칙들의 집합인 정책 공간을 설정하는 단계;

시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계;

상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계;

정책 공간에 속하는 구체화된 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 정책 공간을 최적화하는 단계; 및

최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계;

를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 1 항에 있어서, 상태-행동 공간을 최적화하는 단계는 :

추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계;

선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계;

지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계; 및

지식 베이스를 상기 온톨로지로 초기화하는 단계;

를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 2 항에 있어서, 정책 공간을 최적화하는 단계는 :

추론되지 않은 구체화된 규칙을 정책 공간에서 선택하는 단계;

선택된 구체화된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계;

지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계;

추론 성공 시 선택된 구체화된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계;

지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계;

지식 베이스를 상기 온톨로지로 초기화하는 단계;

를 포함하여 정책 공간에 추론되지 않은 구체화된 규칙이 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 1 항에 있어서, 상태-행동 공간을 설정하는 단계는 :

객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계;

객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계;

상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계;

를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 1 항에 있어서, 정책 공간을 설정하는 단계는 :

구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 제1 규칙 집합을 생성하는 단계;

제1 규칙 집합에 속하는 규칙들과 객체 상수를 조합하여 정책 공간을 설정하는 단계;

를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 1 항에 있어서,

의미적 제약은 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의되는 뉴로-논리 강화학습(NLRL) 최적화 방법.
각 단계가 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현되어 프로세서에서 실행되는 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL) 최적화 방법에 있어서,

서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계;

미리 정의되며 결론부(head)와 조건부(body)로 구성되는 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성한 규칙들의 규칙 집합을 생성하는 단계;

시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계;

상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계;

규칙 집합에 속하는 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 규칙 집합을 최적화하는 단계;

최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성하는 단계; 및

최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계;

를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 7 항에 있어서, 상태-행동 공간을 최적화하는 단계는 :

추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계;

선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계;

지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계

지식 베이스를 상기 온톨로지로 초기화하는 단계;

를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 8 항에 있어서, 규칙 집합을 최적화하는 단계는 :

추론되지 않은 규칙을 규칙 집합에서 선택하는 단계;

선택된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계;

지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계;

추론 성공 시 선택된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계;

지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계;

지식 베이스를 상기 온톨로지로 초기화하는 단계;

를 포함하여 규칙 집합에 추론되지 않은 규칙이 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 7 항에 있어서, 상태-행동 공간을 설정하는 단계는 :

객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계;

객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계;

상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계;

를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법.
제 7 항에 있어서,

의미적 제약은 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의되는 뉴로-논리 강화학습(NLRL) 최적화 방법.