KR102221263B1

KR102221263B1 - 뇌기능 지식 베이스 자가 성장 시스템 및 방법

Info

Publication number: KR102221263B1
Application number: KR1020180145428A
Authority: KR
Inventors: 이상완; 이지항; 이창화
Original assignee: 한국과학기술원
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2021-03-02
Anticipated expiration: 2038-11-22
Also published as: KR20200059999A

Abstract

뇌기능 지식 베이스 자가 성장 시스템 및 방법이 제시된다. 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 방법은, 딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계를 포함하고, 상기 딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계는, 상기 딥러닝 기반 강화학습 에이전트가 판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집하는 단계; 상기 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 추출하는 단계; 및 상기 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 기반으로 뇌기능 지식 베이스에 추가하는 단계를 포함하여 이루어질 수 있다.

Description

뇌기능 지식 베이스 자가 성장 시스템 및 방법{APPARATUS AND METHOD FOR CONSTRUCTING AND SELF-EVOLVING KNOWLEDGE BASE OF BRAIN FUNCTIONS}

아래의 실시예들은 뇌기능 지식 베이스 자가 성장 시스템 및 방법에 관한 것으로, 더욱 상세하게는 뇌기능 지식 베이스를 인공지능 기반 에이전트를 이용하여 자동으로 구축하는 뇌기능 지식 베이스의 자가 성장 시스템 및 방법에 관한 것이다.

데이터 양과 복잡성의 가파른 증가는 지식 베이스(Knowledge Bases, KBs) 구조에 대한 관심을 불러 일으켰다. 지식 베이스(KB)는 뇌과학 도메인,　특히 뇌기능과 관련되어 사용되는 학술 용어,　학술 이론,　임상 용어,　임상 질환의 종류,　증상,　치료법,　약품,　기술,　질병,　뇌부위 등 뇌과학에서 사용되는 총체적인 지식을 포함한다. 뇌기능 지식 베이스(KB)는 자연어로 구성된 판독/해석이 가능한 형태의 온라인/오프라인 문서 및 멀티미디어 데이터로부터 지식 정보를 관계 표현 및 다중 지식 간 관계 추론이 가능한 온톨로지 형태로 모델링하고 자동적으로 구축한다.

지식 베이스(KB)는 엔티티(entities) 및 관계(relations)로 구성된 다중-관계 그래프를 지칭하며, 3요소(즉, 헤드 엔티티(head entity), 관계(relation), 테일 엔티티(tail entity))의 형태로 된 사실들의 모음으로 저장된다.

기존 연구와 같이 사용자들에게 구조화된 지식을 제공하는 것이 목적인 지식 베이스(KB)들은 질의어 확장(query expansion), 대용어 참조 해결(co-reference resolution), 질의 응답 및 정보 검색을 포함하는 많은 인공지능(AI) 어플리케이션에서 중요한 역할을 해왔다.

지식 베이스(KB)에 대규모 데이터를 추가하기 때문에, 지식 베이스(KB)의 불완전성이 중요한 문제가 된다. 지식 베이스(KB)는 종종 누락 부분(missing parts), 링크 고장(broken link) 또는 부정확한 정보와 같은 문제를 겪는다.

도 1은 종래의 지식 베이스의 일 부분을 설명하기 위한 도면이다.

도 1을 참조하면, 지식 베이스의 일 부분을 나타내는 것으로, 좋은 예시를 제시한다. 노드(nodes)는 엔티티(entities)이며, 관계(relations)는 다양한 타입(types)의 방향성에지(directed edges)이다. 여기에서 점선 화살표로 표시된 에지는 엔티티들 간의 누락된 관계를 나타낸다.

PLAYS IN CHELSEA인 EDEN HAZARD와, 마찬가지로 PLAYS IN CHELSEA인 DAVID LUIZ는 지식 베이스(KB)의 일 부분에 따르면 모두 PLAYER OF PREMIER LEAGUE이다. 그러나, DAVID LUIZ -> PLAYER OF PREMIER LEAGUE라는 사실은 지식 베이스(KB)에서 명확히 제시되는 반면, EDEN HAZARD는 그렇지 않다. 이러한 내재적 지식 베이스 불완전성은 실세계 문제에 대한 지식 베이스(KB)의 적용 가능성을 상당히 제한한다.

지식 베이스(KB)의 완성의 목표는 (i) 누락 지식을 추론하고, 질문한 후 그래프에 추가하거나, (ii) 정보의 오류 부분을 확인함으로써 기존 지식 베이스(KB)에 대한 가치를 증가시키는 것이다. 더 정확히 말하면, 지식 베이스(KB) 완성을 위한 접근법들은 (i) 누락 지식을 그래프에 추가하는 것, 즉, 완성(completion) 및 (ii) 그래프 내 잘못된 정보를 확인하는 것, 즉, 오류 감지(error detection)라는 두 가지 카테고리로 나뉠 수 있다. 유사하게, 접근법들은 데이터의 완성 목표 및 소스(즉, 주어진 지식 베이스(KB) 그 자체 또는 부가적인 외부 소스)에 의해 구별될 수 있다.

지식 베이스(KB)의 완성을 다루기 위한 실제적인 방법들 중 하나는 지식 그래프 내장(knowledge graph embedding) 기반의 방법들이다. 이 방법에서, 엔티티(entities) 및 관계(relations)는 추론 행위가 발생하는 잠재 벡터 공간(latent vector space)에 내장된다. 내장 기반 접근법들은 대부분 두 엔티티 간의 직접적인 관계에 의존하기 때문에, (구성적인) 다중-단계 관계(multi-step relationships)를 처리할 때 다단 오류(cascading errors) 문제가 발생한다. 따라서, 지식 베이스(KB)의 완성의 성능을 더 개선시키기 위해서, 종전의 다른 연구들은 학습하는 동안 관찰된 3요소로부터 얻어진 다중-단계 관계 경로를 삽입하는 다양한 방법들을 고려한다. 그러나, 가능한 경로들의 수가 경로의 길이에 따라 지수적으로 증가하기 때문에, 기존의 많은 다중-단계 방법들은 미리 계산된 경로를 입력으로 취한다. 일부 연구만이 심층 신경망을 사용하여 다중 단계 관계 경로를 학습함으로써 이 문제를 해결했다(비특허문헌 1).

전술한 방법들의 대부분은 또 다른 엔티티 및 관계가 주어졌을 때 하나의 누락 엔티티(예를 들어, 헤드 엔티티 또는 테일 엔티티)를 예측하거나 한 쌍의 헤드 엔티티 및 테일 엔티티가 주어졌을 때 관계를 추출하는 데에 초점을 두고 있다. 여기서, 전자 또는 후자는 본래의 지식 베이스(KB)의 완성 태스크를 해결할 수 없다. 이 대신, 이 두 가지 방법을 하나의 프레임으로 결합시켜서 모든 가능한 누락된 3요소를 예측하는 데 사용할 수 있다. 그러나, 이는 계산적으로 비용이 커서 대규모 지식 베이스(KB)의 완성 태스크에는 확장할 수 없을 것이다.

R. Das, D. Shehzaad, Z. Manzil, V. Luke, D. Ishan, K. Akshay, S. Alex, and M. Andrew, "Go for a walk and arrive at the answer: Reasoning over paths in knowledge bases using reinforcement learning," in ICLR, 2018. R. J. Williams, "Simple statistical gradient-following algorithms for connectionist reinforcement learning," in Reinforcement Learning. Springer, 1992, pp. 5-32.

실시예들은 뇌기능 지식 베이스 자가 성장 시스템 및 방법에 관하여 기술하며, 보다 구체적으로　판독 및 해석 가능한 데이터로부터 뇌기능 지식을 모델링하고,　뇌기능과 관련된 지식을 자동으로 수집하여　다중 지식 간 관계 추론이 가능한 형태의 지식 베이스를 구축하는 기술을 제공한다.

또한, 실시예들은　지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 지식 베이스를 스스로 증식하며 진화할 수 있는 뇌기능 지식 베이스 자가 성장 시스템 및 방법을 제공하는데 있다.

일 실시예에 따른 뇌기능 지식 베이스 자가 성장 방법은, 딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계를 포함하고, 상기 딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계는, 상기 딥러닝 기반 강화학습 에이전트가 판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집하는 단계; 상기 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 추출하는 단계; 및 상기 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 기반으로 뇌기능 지식 베이스에 추가하는 단계를 포함하여 이루어질 수 있다.

상기 딥러닝 기반 강화학습 에이전트를 이용하여 자동으로 구축한 상기 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계를 더 포함할 수 있다.

상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는, 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 구축된 상기 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 판단하는 단계; 상기 뇌기능 지식 베이스의 상기 완성도가 완벽하지 않은 경우, 상기 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 상기 완성도가 상대적으로 가장 낮은 뇌기능 지식 베이스를 선택 후, 질의어를 생성하는 단계; 상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하는 단계; 및 상기 완성도를 높일 수 있는 경우, 상기 완성도를 높이고 상기 현재 뇌기능 지식 베이스에 반영하는 단계를 포함할 수 있다.

상기 질의어는, RDF 3 요소(Tripplet)의 구조로 구성되고, 완성도가 상대적으로 낮아 의미 구조상 불완전한 형태일 수 있다.

상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하기 이전에, 상기 질의어에 적합한 결과를 도출하도록 상기 딥러닝 기반 강화학습 에이전트가 다중 지식 간 관계 규명을 목적함수로 하여　상기 뇌기능 지식 베이스를 탐험하는 단계를 더 포함할 수 있다.

상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인한 후, 상기 딥러닝 기반 강화학습 에이전트가 결과를 도출하지 못하고　상기 완성도가 유지되거나 감소되는 경우, 상기 질의어를 외부 시스템을 통해 검색하는 단계를 더 포함할 수 있다.

상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는, 구축된 상기 뇌기능 지식 베이스의 정보들이 완벽한 세트로 이루어진 정보들인지에 대한 지식 완결성과 정확한 정보를 가지고 있는지에 대한 지식 추론 불확실성을 확인하고, 상기 완벽한 세트로 이루어진 정보들이 아닌 경우, 상기 딥러닝 기반 강화학습 에이전트가 완벽하지 않은 세트의 정보를 키워드로 하여 외부에서 이 정보를 다시 검색하여 상기 지식 완결성을 지속적으로 확인 후 보정할 수 있다.

상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는, 구축된 상기 뇌기능 지식 베이스의 정보들이 완벽한 세트로 이루어진 정보들인지에 대한 지식 완결성과 정확한 정보를 가지고 있는지에 대한 지식 추론 불확실성을 확인하고, 상기 정확한 정보를 가지고 있지 않은 경우, 상기 딥러닝 기반 강화학습 에이전트가 동일한 정보를 키워드로 하여 외부에서 이 정보를 다시 검색하고, 동일한 내용을 강화시키는 정보에 대해서는 지식 추론 불확실성을 낮추어, 일정 수준 이하의 불확실성을 가지게 되면 자가 수정을 멈출 수 있다.

다른 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템은, 판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집하여, 수집된 정보들 사이의 관계 추론이 가능한 형태의 뇌기능 지식 베이스를 구축하는 딥러닝 기반 강화학습 에이전트를 포함하여 이루어질 수 있다.

상기 딥러닝 기반 강화학습 에이전트는, 자동으로 구축한 상기 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 상기 뇌기능 지식 베이스를 스스로 증식하며 진화할 수 있다.

구축된 상기 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 계산하는 상기 뇌기능 지식 베이스의 완성도 확인 모듈을 더 포함하고, 상기 딥러닝 기반 강화학습 에이전트는, 상기 뇌기능 지식 베이스의 완성도 확인 모듈에서 선택한 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하고, 상기 완성도를 높일 수 있는 경우, 상기 완성도를 높이고 상기 현재 뇌기능 지식 베이스에 반영할 수 있다.

상기 뇌기능 지식 베이스의 완성도 확인 모듈은, 구축된 상기 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 판단하고, 상기 뇌기능 지식 베이스의 상기 완성도가 완벽하지 않은 경우, 상기 완성도가 상대적으로 가장 낮은 뇌기능 지식 베이스를 선택 후, 질의어를 생성할 수 있다.

상기 딥러닝 기반 강화학습 에이전트는, 상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하기 이전에, 상기 질의어에 적합한 결과를 도출하도록 다중 지식 간 관계 규명을 목적함수로 하여　상기 뇌기능 지식 베이스를 탐험할 수 있다.

상기 딥러닝 기반 강화학습 에이전트는, 상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인한 후, 결과를 도출하지 못하고　상기 완성도가 유지되거나 감소되는 경우, 상기 질의어를 외부 시스템을 통해 검색할 수 있다.

실시예들에 따르면 판독 및 해석 가능한 데이터로부터 뇌기능 지식을 모델링하고,　뇌기능과 관련된 지식을 자동으로 수집하여　다중 지식 간 관계 추론이 가능한 형태의 지식 베이스를 구축하는 뇌기능 지식 베이스 자가 성장 시스템 및 방법을 제공할 수 있다.

또한, 실시예들에 따르면　지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 지식 베이스를 스스로 증식하며 진화할 수 있는 뇌기능 지식 베이스 자가 성장 시스템 및 방법을 제공할 수 있다.

이러한 실시예들에 따른 기술은 뇌 질환의 진단 및 치료법과 같은 서비스를 제공할 수 있는 진단 지원 시스템에 적용됨으로써,　유/무선 네트워크를 통하여 가정,　직장,　학교,　연구소,　병원 등에서 사용될 수 있다.

도 1은 종래의 지식 베이스의 일 부분을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템의 구조를 나타내는 도면이다.
도 3은 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템의 예를 나타내는 도면이다.
도 4 는 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 방법을 나타내는 흐름도이다.
도 5는 일 실시예에 따른 질의어 추론에서 다양한 수의 T에 대한 결과들을 나타낸다.
도 6은 일 실시예에 따른 3요소 추론에서 다양한 수의 T에 대한 결과들을 나타낸다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

데이터 양 및 그 고차원적 의존성의 지수적인 증가로 인하여 지식 베이스(Knowledge-Bases, KBs)는 대개 불완전하다. 이러한 점은 지식 베이스(KB)의 완성에 대한 큰 필요성을 불러온다. 본 실시예들은 (i) 누락 인자 탐색, (ii) 불완전 지식 질의어, (iii) 새롭게 발견된 인자들 간의 관계 추론 및 (iv) 지식 베이스(KB) 갱신이라는 프로세스 순환을 수행하는 새로운 자동화 지식 베이스(KB)의 완성 프레임워크를 제시한다.

제안하는 프레임워크는 협업 필터링과 심층 강화학습(딥러닝 기반 강화학습)의 조합을 사용한다. 우선, 메모리 기반의 협업 필터링을 사용하여 헤드 엔티티(head entity)와 누락된 3요소(triplet) 간의 연관성을 확인함으로써 누락 인자들을 추론한다. 이 후, 지식 베이스(KB)를 완성하기 위해 심층 강화학습을 사용하여 멀티-홉 관계 추론(multi-hop relation reasoning)을 수행한다. 두 개의 공개 데이터셋(dataset)에 대한 시뮬레이션은 제안하는 프레임워크가 아무런 사전 지식이나 부가적인 정보 없이, 지식 베이스(KB)를 높은 정확도로 훌륭하게 완성한다는 점을 증명한다.

실시예들을 이용하여 전문가 지식을 빠르고 손쉽게 구축하고,　최신 기술/정보를 자동적으로 업데이트할 수 있으며 쉽게 공유할 수 있다.　이는 연구뿐만 아니라 임상에서도 빠른 학습,　빠른 관계 도출 및 의사 결정의 신속성/정확성을 가능하게 한다. 사회적으로는 치매,　알츠하이머,　우울증을 비롯한 많은 뇌관련 질병 조기 진단 및 대처가 가능하여,　정신적인 문제로 인한 자살 및 사회 문제들을 조기에 예방하고, 관련된 사회적 비용을 절감할 수 있다. 또한, 절차적 복잡성으로 인해 진단,　예후 모니터링,　처치 등에 대한 비용이 매우 크게 발생하는 상황에서 이를 신속/정확하게 처리할 수 있으므로 막대한 비용이 절감될 수 있다.

아래에서는 지식 베이스(KB)의 완성 연구라는 맥락에서 협업 필터링 기술과 딥러닝 기반 강화학습 에이전트에 대한 간략한 배경 지식을 제공한다.

협업 필터링(Collaborative Filtering, CF)은 추천 시스템(recommendation system)을 구축하기 위해 가장 성공적이며 널리 채택되는 방법 중 하나이다. 이는 다른 사용자들의 알려진 선호도를 기반으로 하여 특정 사용자들의 알려지지 않은 선호도에 대해 예측하는 것 또는 추천하는 것을 가능하게 한다. 협업 필터링은 두 사용자들이 어떤 품목(item)에 대해 관계(relation)에서 유사한 선호도를 갖는다면 다른 품목에서 또한 그들의 선호도는 유사할 것이라고 기본적으로 가정한다. 협업 필터링 기술은 품목에 대한 등급(rating) 데이터베이스를 사용하여 알려지지 않은 등급을 예측할 수 있다. 협업 필터링 기술들 중 일부는 내재적인 피드백 소스(예를 들어, 구매 및 사용자 클릭(click-throughs)으로부터 사용자 행동에 대한 부가적인 정보를 사용한다. 전통적인 협업 필터링 환경에서는, 한 세트의 사용자 및 한 세트의 품목이 있다고 하고, 각 사용자들에 대해 그 사용자가 등급을 매긴 품목들의 서브세트를 갖는다. 대부분의 협업 필터링 알고리즘들은 많은 수의 사용자들 및 품목들을 다루기 위해 설계되므로, 확장 가능성이 크며 짧은 시간 내에 추천을 해준다. 협업 필터링 알고리즘에는 세 가지 주된 카테고리인 메모리 기반(memory-based), 모델 기반(model-based) 및 하이브리드(hybrid) 협업 필터링 기술이 있다.

인접 기반(neighbor-based) 협업 필터링과 같은 메모리 기반 협업 필터링 알고리즘은 보통 (i) 사용자들 또는 품목들 간의 유사성 가중치(similarity weights)를 계산하고, (ii) 유사한 사용자들에 대한 가중치 평균을 구함으로써 한 명의 사용자 및 한 품목에 대한 예측을 하는, 두 가지 단계를 따른다. 반면, 모델 기반 협업 필터링 기술은 복잡한 패턴을 인지하고 협업 필터링 태스크에 대한 지능적인 예측을 하기 위하여 모델 설계 및 개발에 초점을 둔다(예를 들어, 기계 학습, 데이터 마이닝). 유명한 예시는 차원 감소(dimensionality reduction) 기술을 사용하는 협업 필터링이다. 마지막으로, 하이브리드 협업 필터링 기술은 내용 기반(content-based) 기술과 협업 필터링을 결합한다. 이 기술들은 품목 설명 및 사용자 프로필과 같은 부가적인 내용 정보를 이용하여 예측 또는 추천을 한다.

지식 베이스(KB)의 완성이라는 맥락에 기존의 협업 필터링 기술을 사용하기 위해, 지식 베이스(KB)의 엔티티(entities)와 관계(relations) 각각을 사용자(users)와 품목(items)으로 간주한다. 한 사용자의 품목 등급은 지식 베이스(KB) 내 3요소들에 대한 숫자로서 표현되며, 헤드 엔티티(head entity)로서 사용자(user), 관계(relation)로서 품목(item)을 포함하고 있다(예를 들어, 대응 노드에 대한 대응 유형의 대응 진출 에지의 수).

지식 베이스(KB)의 완성이라는 맥락에서 협업 필터링에 대한 기본적인 가정은 다음과 같다. 어떤 관계 유형에 대해 유사한 수의 진출 에지를 갖는 두 개의 엔티티는 다른 관계 유형에 대한 에지의 수 또한 유사하다. 또한, 사용자 및 품목에 대한 등급을 예측하는 것은 엔티티에 대한 대응 유형의 진출 에지의 수를 예측하는 것과 동일하다. 따라서, 이 접근법은 예측되는 숫자와 실제 숫자를 비교함으로써 누락된 3요소를 추론할 수 있게 한다.

이 때, 이러한 것을 처리하기 위해 매우 효과적이고 구현하기가 쉬운 메모리 기반 협업 필터링이 선택되었는데, 이는 Amazon 및 Barnes and Noble과 같은 매우 다양한 상거래 추천 시스템에서 성공적인 결과를 보였기 때문이다.

지식 베이스(KB)의 완성을 위한 경로 학습 문제에서, 지식 베이스(KB)가 주어졌을 때 불완전한 3요소인

가 있다고 가정한다. 여기서,

는 헤드 엔티티(head entity), r은 관계(relations), ?는 테일 엔티티(tail entity)

가 누락된 것이다. 경로는 엔티티들의 시퀀스인

이며, 여기서,

및

는 지식 그래프에서 특정한 관계에 의해 연결되어 있다. 이 문제의 목표는

이고

인 경로를 찾는 것이다. 다시 말해, 목표는 특정한 헤드 엔티티

와 누락된 테일 엔티티

간의 경로를 찾는 것이며, 이는 멀티-홉 관계 추출(multi-hop relation extraction)이라고 불린다. 이를 통해, 불완전한 3요소에 대한 누락된 테일 엔티티를 추론할 수 있으며 결국 3요소를 완성시킬 수 있다.

이제, 지식 베이스(KB)의 완성을 위한 경로 학습의 멀티-홉 관계 추출 문제를, 강화학습(Reinforcement Learning, RL) 에이전트를 통해 해결될 수 있는 순차 의사-결정 문제(sequential decision-making problem)라고 본다. 환경은 지식 그래프에 대한 결정론적인(deterministic) POMDP(Partially Observable Markov Decision Process)로서 정의된다. 튜플(tuple) <S, O, A, P, R> 은 POMDP를 표현하기 위해 정의되며, 여기서, S는 상태(state) 공간, O는 상태 공간 S로부터 에이전트가 감지하는 관찰(observation) 공간, A는 가능한 모든 동작들(all possible actions)에 대한 집합, P는 결정론적인 상태 천이 함수(deterministic state transition function), R은 보상 함수(reward function)이다. 이제, 지식 베이스(KB)의 완성이라는 맥락에서 POMDP를 해석한다.

상태

는 완전한 3요소 및 누락 엔티티를 갖는 불완전한 3요소 모두를 포함한다. 강화학습(RL) 에이전트가 지식 그래프를 기반으로 동작하기 때문에, 상태 S는 또한 경로 상의 현재 위치도 포함하고 있다. 따라서, 상태

이며, 여기서,

는 강화학습(RL) 에이전트의 현재 위치를 나타낸다.

강화학습(RL) 에이전트는 지식 그래프를 탐색하는 동안 테일 엔티티

에 접근하지 않는다. 상태 S에서 인지되는 관찰

는

를 포함하지 않는다. 따라서,

이다.

상태

에서 가능한 동작들에 대한 집합인 A는 엔티티에서 나가는 진출 에지들(outgoing edges)과 현재의 엔티티

로 구성된다. 일부 엔티티는 동일한 엔티티와 연결된 여러 개의 에지를 가질 수 있기 때문에 다양한 동작들이 강화학습(RL) 에이전트를 같은 엔티티로 이끌 수 있다는 점을 주목해야 한다.

천이 함수 P는 현재 위치

를 갱신함으로써 상태

를 변화시키는 결정론적인 함수이다. 나머지

,

는 동일하게 유지된다.

POMDP는 최종 상태에서 엔티티의 위치가 테일 엔티티

와 같다면 최후 보상 +1을 포함하며, 그렇지 않은 경우 보상 0을 포함한다. 보상 함수는 강화학습(RL) 에이전트가 구체적인 행동(예를 들어, 가장 짧은 경로 탐색)을 습득하도록 하기 위해 조작될 수 있다.

도 2는 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템의 구조를 나타내는 도면이다.

도 2를 참조하면, 뇌기능 지식 베이스 자가 성장 시스템(200)은 딥러닝 기반 강화학습 에이전트(230)를 포함할 수 있다. 실시예에 따라 뇌기능 지식 베이스 자가 성장 시스템(200)은 뇌기능 지식 베이스(KB)(210) 및 뇌기능 지식 베이스의 완성도 확인 모듈(220)을 더 포함할 수 있다.

뇌기능 지식 베이스(KB)(210)는 뇌기능과 관련된 지식이 저장되는 것으로, 엔티티(entities) 및 관계(relations)로 구성된 다중-관계 그래프를 지칭하며, 3요소(즉, 헤드 엔티티(head entity), 관계(relation), 테일 엔티티(tail entity))의 형태로 된 사실들의 모음으로 저장될 수 있다. 여기서 뇌기능 지식 베이스(KB)(210)는 간단히 지식 베이스로 언급될 수 있다.

뇌기능 지식 베이스의 완성도 확인 모듈(220)은 지식 베이스의 완결성과 특정 지식 추론을 했을 때 응답이 가능한 확신(또는 지식 추론에 대한 불확실성)을 계산할 수 있다. 다시 말하면, 뇌기능 지식 베이스의 완성도 확인 모듈(220)은 구축된 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 계산할 수 있다.

이러한 뇌기능 지식 베이스의 완성도 확인 모듈(220)은 구축된 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 판단하고, 뇌기능 지식 베이스의 완성도가 완벽하지 않은 경우, 완성도가 상대적으로 가장 낮은 뇌기능 지식 베이스를 선택 후, 질의어를 생성할 수 있다. 여기서, 질의어는 RDF 3 요소(Tripplet)의 구조로 구성되고, 완성도가 상대적으로 낮아 의미 구조상 불완전한 형태일 수 있다.

딥러닝 기반 강화학습 에이전트(230)는 선택한 질의에 대해 정답을 현재 지식 베이스에서 추적하고, 발견하지 못할 경우 외부에서 검색하여 추가할 수 있다. 여기에서 딥러닝 기반 강화학습 에이전트(230)는 간단히 강화학습 에이전트로 언급될 수 있다.

다시 말하면, 딥러닝 기반 강화학습 에이전트(230)는 판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집하여, 수집된 정보들 사이의 관계 추론이 가능한 형태의 뇌기능 지식 베이스를 구축할 수 있다.

또한, 딥러닝 기반 강화학습 에이전트(230)는 자동으로 구축한 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 뇌기능 지식 베이스를 스스로 증식하며 진화할 수 있다. 이를 위해 딥러닝 기반 강화학습 에이전트(230)는 뇌기능 지식 베이스의 완성도 확인 모듈(220)에서 선택한 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하고, 완성도를 높일 수 있는 경우, 완성도를 높이고 현재 뇌기능 지식 베이스에 반영할 수 있다.

여기서 딥러닝 기반 강화학습 에이전트(230)는 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하기 이전에, 질의어에 적합한 결과를 도출하도록 다중 지식 간 관계 규명을 목적함수로 하여　뇌기능 지식 베이스를 탐험할 수 있다. 그리고 딥러닝 기반 강화학습 에이전트(230)는 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인한 후, 결과를 도출하지 못하고　완성도가 유지되거나 감소되는 경우, 질의어를 외부 시스템을 통해 검색할 수 있다.

뇌기능 지식 베이스 자가 성장 시스템(200)은 이러한 과정을 계속 반복하게 된다.

본 실시예들은 특정 지식 베이스(KB)가 스스로를 사용하여 누락된 3요소를 추론하고, 부분적으로 완성된 3요소의 형태 내 보조적인 정보에 대한 필요성을 제거할 수 있다. 다시 말해, 실시예들은 지식 베이스(KB)의 완성 태스크를 위한 통합되고 자동화된 지식 베이스(KB)의 완성 프레임워크를 제안한다. 지식 베이스(KB)가 주어졌을 때, 제안하는 알고리즘은 우선 새로운 협업 필터링 기술을 사용하여 누락된 3요소의 헤드 엔티티와 이에 대응하는 관계를 추론할 수 있다. 이 후, 제안하는 알고리즘은 심층 강화학습을 사용하여 테일 엔티티를 추론함으로써 3요소를 완성할 수 있다(비특허문헌 1).

실시예들은 어떤 부가적인 정보도 없이 지식 기반을 자동적으로 개선하기 위한 종합적인 지식 베이스(KB)의 완성 프레임워크를 제공할 수 있다. 또한, 심층 강화학습(Reinforcement Learning, RL) 기반의 멀티-홉 관계 추출과 통합된 메모리 기반의 협업 필터링을 사용하여 지식 베이스(KB) 내 누락된 3요소의 관계 및 헤드 엔티티를 추론하기 위한 새로운 접근법을 제공할 수 있다.

도 3은 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템의 예를 나타내는 도면이다.

도 3을 참조하면, 우선, 단계 1(330)에서 지식 베이스(KB)(310)에서 첫 번째 하위 문제를 해결하여 3요소의 헤드 엔티티와 관계를 추론할 수 있다. 이 후, 추론된 헤드 엔티티와의 관계를 사용하여, 단계 2(340)에서 테일 엔티티를 추론하고 3요소를 완성시킬 수 있다. 마지막으로, 추론된 3요소를 사용해 지식 베이스(KB)를 갱신(320)할 수 있다.

특정 지식 베이스(KB)(310)의 불완전성 문제를 두 가지 하위 문제로 나눌 수 있다. 첫 번째는 지식 베이스(KB)(310) 내 누락 사실에 대한 헤드 엔티티와 관계의 추론을 통해 질의어

를 구축하는 것이고, 두 번째는

라는 완전한 형태로 지식 베이스(KB)를 갱신(320)하는 것이다. 여기서,

는 질의어

가 주어졌을 때 새롭게 발견된 테일 엔티티이다.

일 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템은 이 하위 문제들에 대응하는 두 가지 해결책들을 조합하는 것이다. 이에 따라 통합된 프레임워크를 반복적으로 동작하여 이후 지식 베이스(KB)(310) 내 누락 부분인 3요소를 발견하고, 최종적으로 새롭게 발견된 3요소를 사용해 지식 베이스(KB)를 완성(320)시킬 수 있다.

표 1은 일 실시예에 따른 프레임워크에 대한 전체적인 과정을 나타낸다.

[표 1]

표 1을 참조하면, 알고리즘 1은 프레임워크에 대한 전체적인 과정을 세부적으로 보여준다. 함수

는 메모리 기반 협업 필터링 기술을 사용해 누락된 3요소에 대한 추론을 통해 질의어를 구축하여 첫 번째 하위 문제를 해결할 수 있다(line 4 참조). 이 함수는 헤드 엔티티와 관계 쌍으로 된 리스트를 반환하며, 이를 지식 베이스(KB) 내 누락된 사실을 완성하기 위한 질의어(queries)라고 할 수 있다. 이 후, 이 질의어(queries)는 헤드 엔티티와 관계 쌍으로 된 리스트의 각 질의어에 대해 테일 엔티티를 탐색함으로써 완성되는 3요소를 사용하여 지식 베이스(KB)를 업데이트하는 함수

의 인자로 들어갈 수 있다.

도 4 는 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 방법을 나타내는 흐름도이다.

도 4를 참조하면, 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 방법은, 딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계를 포함할 수 있다.

또한, 딥러닝 기반 강화학습 에이전트를 이용하여 자동으로 구축한 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계를 더 포함할 수 있다.

여기서 딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계는, 딥러닝 기반 강화학습 에이전트가 판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집하는 단계(S110), 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 추출하는 단계(S120), 및 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 기반으로 뇌기능 지식 베이스에 추가하는 단계(S130)를 포함할 수 있다.

그리고, 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는, 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 구축된 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 판단하는 단계(S150), 뇌기능 지식 베이스의 완성도가 완벽하지 않은 경우, 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 완성도가 상대적으로 가장 낮은 뇌기능 지식 베이스를 선택 후, 질의어를 생성하는 단계(S160), 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하는 단계(S180), 및 완성도를 높일 수 있는 경우, 완성도를 높이고 현재 뇌기능 지식 베이스에 반영하는 단계(S130)를 포함할 수 있다.

질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인(S180)하기 이전에, 질의어에 적합한 결과를 도출하도록 딥러닝 기반 강화학습 에이전트가 다중 지식 간 관계 규명을 목적함수로 하여　뇌기능 지식 베이스를 탐험하는 단계(S170)를 더 포함할 수 있다.

질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인(S180)한 후, 딥러닝 기반 강화학습 에이전트가 결과를 도출하지 못하고　완성도가 유지되거나 감소되는 경우, 질의어를 외부 시스템을 통해 검색하는 단계(S110)를 더 포함할 수 있다.

아래에서 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 방법의 각 단계를 하나의 예를 들어 설명한다.

일 실시예에 따른 뇌기능 지식 베이스 자가 성장 방법은 도 2에서 설명한 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템을 이용하여 보다 상세히 설명할 수 있다. 일 실시예에 따른 뇌기능 지식 베이스 자가 성장 시스템은 뇌기능 지식 베이스(KB), 뇌기능 지식 베이스의 완성도 확인 모듈 및 딥러닝 기반 강화학습 에이전트를 포함할 수 있으며, 딥러닝 기반 강화학습 에이전트가 뇌기능 지식 베이스의 완성도 확인 모듈을 이용하여 뇌기능 지식 베이스(KB)의 불완전한 정보를 완전한 정보로 보완할 수 있다.

단계(S110)에서, 딥러닝 기반 강화학습 에이전트가 판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집할 수 있다.

단계(S120)에서, 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 추출할 수 있다.

단계(S130)에서, 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 기반으로 뇌기능 지식 베이스에 추가할 수 있다.

이에 따라 딥러닝 기반 강화학습 에이전트를 이용하여 자동으로 구축한 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 뇌기능 지식 베이스를 스스로 증식하며 진화시킬 수 있다.

딥러닝 기반 강화학습 에이전트는 위 과정에서 구축한 정보들이 (i) 정확한 정보를 가지고 있는지 (다시 말해 지식 추론 불확실성), 그리고 (ii) 완벽한 세트로 이루어진 정보들인지 (다시 말해 지식 베이스 완결성) 확인하여 이를 보완하는 자가 성장 기능을 가지고 있다.

단계(S140)에서, 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 구축된 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 계산할 수 있다.

단계(S150)에서, 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 구축된 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 판단함으로써, 뇌기능 지식 베이스의 완성도가 완벽한지 여부를 판단할 수 있다.

단계(S160)에서, 뇌기능 지식 베이스의 완성도가 완벽하지 않은 경우, 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 완성도가 상대적으로 가장 낮은 뇌기능 지식 베이스를 선택 후, 질의어를 생성할 수 있다.

단계(S170)에서, 질의어에 적합한 결과를 도출하도록 딥러닝 기반 강화학습 에이전트가 다중 지식 간 관계 규명을 목적함수로 하여　뇌기능 지식 베이스를 탐험할 수 있다.

단계(S180)에서, 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인할 수 있다.

이 때, 완성도를 높일 수 있는 경우, 완성도를 높이고 현재 뇌기능 지식 베이스에 반영(S130)할 수 있다. 이에 따라 딥러닝 기반 강화학습 에이전트를 이용하여 자동으로 구축한 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 뇌기능 지식 베이스를 스스로 증식하며 진화할 수 있다.

그리고, 딥러닝 기반 강화학습 에이전트가 결과를 도출하지 못하고　완성도가 유지되거나 감소되는 경우, 질의어를 외부 시스템을 통해 검색(S110)할 수 있다.

한편, 딥러닝 기반 강화학습 에이전트를 이용하여 자동으로 구축한 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는, 구축된 뇌기능 지식 베이스의 정보들이 완벽한 세트로 이루어진 정보들인지에 대한 지식 완결성과 정확한 정보를 가지고 있는지에 대한 지식 추론 불확실성을 확인하고, 완벽한 세트로 이루어진 정보들이 아닌 경우, 딥러닝 기반 강화학습 에이전트가 완벽하지 않은 세트의 정보를 키워드로 하여 외부에서 이 정보를 다시 검색하여 지식 완결성을 지속적으로 확인 후 보정할 수 있다.

또한, 구축된 뇌기능 지식 베이스의 정보들이 완벽한 세트로 이루어진 정보들인지에 대한 지식 완결성과 정확한 정보를 가지고 있는지에 대한 지식 추론 불확실성을 확인하고, 정확한 정보를 가지고 있지 않은 경우, 딥러닝 기반 강화학습 에이전트가 동일한 정보를 키워드로 하여 외부에서 이 정보를 다시 검색하고, 동일한 내용을 강화시키는 정보에 대해서는 지식 추론 불확실성을 낮추어, 일정 수준 이하의 불확실성을 가지게 되면 자가 수정을 멈출 수 있다.

아래에서 뇌기능 지식 베이스(KB)의 불완전한 정보를 완전한 정보로 보완하는 과정을 보다 상세히 설명한다.

누락된 3요소에 대한 추론

누락된 3요소의 헤드 엔티티와 관계에 대한 제안하는 추론 방법은 4단계로 구성될 수 있다. 첫 번째 단계는 엔티티들을 벡터 형태로 바꾸는 것이다. 그 다음, 엔티티들 간의 유사성을 정의하고 측정할 수 있다. 이 후, 각 엔티티에 대해, 유사한 엔티티들을 기반으로 하여 벡터 표현을 예측할 수 있다. 마지막으로, 예측된 벡터와 실제 벡터를 비교하여 이 알고리즘의 결과로서 변환되는 질의어(queries)를 선택할 수 있다.

벡터 형태로 엔티티들을 표현하기 위해, 크기 M*N의 행렬 K를 구성할 수 있다. 여기서, M은 엔티티의 수이고, N은 관계(relation)의 수이다(도 2의 단계 1(330) 참조).

는 지식 베이스(KB) 내에 있는 3요소들의 총 수이며, i 번째 엔티티로서 헤드 엔티티

를 갖고 j 번째 관계로서 r을 갖는다. 다시 말해,

는 지식 그래프에서 노드 i에서 나가는 진출 에지 j의 수이다. 이 행렬 K의 행들은 대응하는 엔티티의 벡터 표현이다. 예를 들어, David Luiz는 [2, 1, 1, 0]으로 표현되며, 여기서 첫 번째 관계는 PLAYS IN, 두 번째는 BORN IN CITY, 세 번째는 NATIONALITY, 마지막은 LOCATED IN이다.

엔티티에 대한 벡터 표현이 주어졌을 때, 벡터에 대한 피어슨 상관 관계(Pearson correlation)을 사용하여 엔티티들 간의 유사성을 정의할 수 있으며, 벡터 표현 u와 v를 갖는 엔티티들에 대해 다음 식과 같이 나타낼 수 있다.

[수학식 1]

여기서,

및

는 각각 u와 v에 대한 평균이다.

엔티티에 대한 유사성 기반의 예측을 하기 위하여, 우선 엔티티 u와 유사한 엔티티들의 집합

를 다음 식과 같이 정의할 수 있다.

[수학식 2]

여기서, t는 기 정의된 임계값이다.

여기서, 유사한 모든 엔티티들의 가중 평균으로서 예측된 값을 다음 식과 같이 계산할 수 있다.

[수학식 3]

다음으로, 각 엔티티 및 관계에 대해서 실제 값과 예측된 값 간의 간격(gap)을 측정할 수 있다. 가장 간단한 방법은 예측 값과 실제 값 간의 차이를 계산하는 것이다. u를 엔티티 i에 대한 표현이라고 하면, 엔티티 i와 관계 j에 대한 간격은 다음 식과 같이 나타낼 수 있다.

[수학식 4]

간격의 절대 값 대신에 부호 값(signed value)을 사용할 수 있다. 여기서, 실제 값

는 엔티티에 대한 실제 관계의 수를 나타내며,

는 지식 베이스(KB) 내 엔티티에 대한 예상되는 관계의 수를 나타낸다. 예측이 실제 값보다 큰 경우, 지식 베이스(KB)를 갱신하기 위해 엔티티에 관한 추가적인 3요소가 필요하다는 것을 의미한다. 그렇지 않으면, 엔티티와 관련된 일부 3요소는 삭제되어야 한다. 본 실시예의 목표는 지식 베이스(KB)에 누락된 3요소를 추가하는 것이므로, 여기에서는 오직 양의 간격 값에 의해 해결될 수 있는 정보의 추가만을 고려한다.

실험에서, 다음 식과 같이 실제 값의 차이를 추가적으로 곱함으로써 간격을 측정할 수 있다.

[수학식 5]

이 정의는 더 높은 실제 값을 갖는 질의어(queries)에 대해 간격을 증가시킨다.

마지막으로, 가장 긴 간격을 나타내는 엔티티와 관계에 대한 쌍을 선택할 수 있다.

는 유사한 엔티티들을 기반으로 하는 u가 가져야 하는 j 번째 유형의 진출 에지의 수이며,

는 j 번째 유형의 진출 에지들의 실제 값이다. 따라서,

이면, 엔티티 u가 j 번째 유형의 진출 에지를 누락했다고 해석할 수 있다.

딥러닝 기반 강화학습(RL) 에이전트를 사용하는 3요소 완성

두 번째 하위 문제에서, 기본적으로 MINERVA(비특허문헌 1)에서 제안된 딥러닝 기반 강화학습(RL) 에이전트 알고리즘을 따르는데, 이는 앞에서 설명된 지식 베이스(KB)의 완성에 대한 경로 학습 문제의 태스크를 해결함으로써 테일 엔티티를 추론할 수 있다. MDP의 부분적 관찰(partial observability)을 다루기 위하여, MINERVA는 무작위 히스토리 기반 정책(randomized history-dependent policy)으로서 설계되며, 단-장기 메모리 네트워크(Long Short-Term Memory network, LSTM)로 표현되는 함수 클래스를 사용한다. 히스토리는 관찰 및 취한 동작의 시퀀스로서 정의된다. LSTM은 히스토리를 연속적인 벡터로 암호화하며, 정책 네트워크는 히스토리 임베딩, 헤드 엔티티, 관계을 기반으로 하여 동작을 선택한다. REINFORCE(비특허문헌 2)는 강화학습(RL) 에이전트를 학습시키기 위해 사용된다.

아래에서는 (i) 질의어 추론 및 (ii) 3요소 완성에 대한 제안된 자동화된 지식 베이스의 완성(Automated Knowledge Base Completion, AKBC) 프레임워크 성능을 평가하기 위하여 시뮬레이션을 수행할 수 있다. 첫 번째 단계의 결과로서 생성된 질의어들(queries)(즉, 질의어 추론)은 빈 공간 대신 더미(dummy) 테일 엔티티들을 포함한다. 제안된 협업 필터링 모델은 3요소의 헤드 엔티티와 관계만을 사용하기 때문에, 질의어 추론 성능은 바뀌지 않는다.

일반적으로, 잘 알려진 지식 베이스(KB)는 개방 세계 가정(Open World Assumption, OWA) 하에서 동작한다. OWA 하에서, 존재하지 않는 사실이 반드시 틀린 것(false)은 아니다. 따라서, OWA KB에 대해 제안된 알고리즘 예상을 자동적으로 테스트할 수 없고, 출력을 평가할 인간 주석자(human annotators)가 필요하다. 반면, 폐쇄 세계 가정(Closed World Assumption, CWA) 하에서, 존재하지 않는 사실은 항상 틀린 것(false)이다.

따라서, CWA 하에서 두 개의 데이터셋에 대해 제안된 프레임워크를 테스트할 수 있다. 각 데이터셋은 학습 세트와 테스트 세트로 나뉜다. 첫 번째 데이터셋은 135개의 엔티티와 그것들 간의 46개의 관계를 포함하고 있는 UMLS(Unified Medical Language System)이다. 학습 세트는 5216개의 3요소를 포함하며, 테스트 세트는 1313개의 3요소를 포함한다. 대부분의 관계(relation)는 "measures", "occurs in" 및 "treats"와 같은 동사이다. 엔티티는 "enzyme", "mammal" 및 "virus" 같은 개념이다. 두 번째 데이터 세트는 104개의 엔티티 및 25개의 관계를 포함하는 Alyawarra Kinship 데이터셋이다. 학습 세트는 8544개의 3요소를 포함하며 테스트 세트는 2142개의 3요소를 포함한다. Alyawarra Kinship 데이터셋은 중앙 오스트레일리아 Alyawarra 부족 104명 인원들 간의 친족 관계를 설명한다.

제안된 프레임워크를 실행하여 T개의 3요소들을 생성하며, 여기서 T는 이미 정의된 수이다. 히트(hits)의 수를 고려함으로써 AKBC의 정확성을 측정할 수 있다. 히트의 수인 H는 테스트 세트 내 3요소의 수이며, 이는 AKBC 프레임워크에 의해 생성된 T개의 3요소에도 존재하고, 다음 식과 같이 표현될 수 있다.

[수학식 6]

정확성을 측정하기 위하여, 테일 엔티티를 버림으로써 테스트 3요소에서 유도되는 질의어들의 집합을 집합 A라고 정의한다. 그러면, 히트의 수 H는 집합 A 내에 있고, T개의 생성된 질의어에도 존재하는 질의어의 수이다. H 및 T가 같은 수이면, AKBC 프레임워크가 지식 베이스(KB) 내 누락 사실인 모든 질의어들을 성공적으로 찾아냈다는 것을 의미한다.

이 태스크는 T개의 누락된 3요소에 대한 헤드 엔티티 및 관계를 추론하는 것이다. AKBC의 정확도를 UMLS 및 Kinship 데이터셋에 대한 무작위 알고리즘과 비교할 수 있다.

도 5는 일 실시예에 따른 질의어 추론에서 다양한 수의 T에 대한 결과들을 나타낸다.

도 5를 참조하면, UMLS 및 Kinship 데이터셋에 대한 질의어 추론(query inference)에서 제안한 방법의 정확성을 나타내며, x축의 값은 다양한 값의 T에 대응되고, y축은 적중률(Hit rate)을 나타낸다. 구축된 지식 베이스에서 임의로 지식 세트를 제거한 후, 그 상태의 지식 베이스에서 불완전한 지식 세트를 추론하는 시험을 수행할 수 있다. 완전성이 결여된 지식 세트를 추론했을 때 정확성을 확인할 수 있으며, 그 결과 제안한 방법(Modified AKBR)이 기존 방법(Random)에 비해 월등히 나은 결과를 보이는 것을 확인할 수 있다.

UMLS 데이터셋에서, 제안한 방법(Modified AKBR)은 T=10, 20, 50에 대해 100%의 완벽한 정확성을 갖는다. 이는 추론된 질의어의 첫 50개 전부가 정확하다는 것을 의미한다. 두 데이터셋에서, 질의어 추론 태스크 시 제안한 방법의 정확성은 무작위 알고리즘의 정확성보다 더 높다.

이 태스크의 목표는 T개의 누락된 3요소 중에서 테일 엔티티(tail entity)를 추론하는 것이다. 이는 종전에 T개의 질의어에서 누락 테일 엔티티를 갖고 있던 3요소를 완성시킨다. 종전 태스크와 유사하게, UMLS 및 Kinship 데이터셋을 사용해 제안한 방법(Modified AKBR)의 정확성을 두 개의 무작위 기반 알고리즘과 비교할 수 있다. 첫 번째 알고리즘은 테일 엔티티를 무작위로 선택하는 반면 두 번째 알고리즘은 MINERVA를 사용해 테일 엔티티를 추론할 수 있다. 이 두 가지 알고리즘을 사용하여 완성하는 질의어는 이전 장에서 진행된 것과 같이 무작위로 선택된다.

도 6은 일 실시예에 따른 3요소 추론에서 다양한 수의 T에 대한 결과들을 나타낸다.

도 6을 참조하면, UMLS 및 Kinship 데이터셋에 대한 3요소 추론(triplet inference)에서 제안한 방법의 정확성을 나타내며, x축의 값은 다양한 값의 T에 대응되고, y축은 적중률(Hit rate)을 나타낸다. 도 5에서 발견한 완전성이 결여된 지식 세트를 딥러닝 기반 강화학습 에이전트로 완성하는 실험을 수행할 수 있다. 도 5에서 수행한 실험 세팅과 동일한 환경에서 수행했을 때, 정답을 찾을 확률을 구할 수 있으며, 그 결과 제안한 방법(AKBC)이 기존 방법(Random+Minerva)에 비해 월등히 나은 결과를 보이는 것을 확인할 수 있다.

UMLS 데이터셋에서, 제안한 방법(AKBC)은 T=10, 20에 대해 100%의 완벽한 정확성을 가지며, T=50에 대해 96%의 정확성을 갖는다. 다시 말해, 질의어에서 추론된 테일 엔티티 첫 50개 중 48개는 정확하다. 두 데이터셋에서, 질의어 추론 태스크 시 제안한 방법(AKBC)의 정확성은 무작위 기반의 알고리즘들의 정확성보다 상당히 높다.

실시예들에 따르면 벤치마크용 지식 베이스에 적용하여 완성도가 결여된 지식 검출 결과,　최소　67%에서　최대　90%까지　향상된 성능으로 불완전한 지식을 검출할 수 있다. 상기 과정 후, 제안한 지식 베이스 자가 성장 방법의 적용 결과,　최소　52%에서　최대　100%까지　향상된 정확도로 지식 베이스 자가 성장을 성취할 수 있다.

실시예들에 따른 뇌기능 지식 베이스는 뇌 관련 진단, 예방, 추론, 처치를 포함하는 새로운 패러다임의 의료 진단 시스템에 적용이 가능하다. 예를 들어 진료 중 현재 집중 치료중인 부위/질환에 대해 더 자세히 알고 싶은 경우, 지식 베이스는 가장 관계가 깊은 정보를 제시해 줄 수 있다.

집중 치료 중인 부위/질환과 처치 방법이 향후 어떤 영향을 가져올 지에 대한 예측도 한 사례로 볼 수 있다. 영향을 줄 수 있는 네트워크, 질환, 부위, 기능 등을 통섭적인 해석, 연결, 관계의 측면에서 제공이 가능하다. 만일 정보가 부족한 경우에는 실시간으로 자가 증식하여 온디맨드(on-demand), 맞춤형 서비스가 가능하다.

임상 실험으로 진행했을 경우 부작용이나 지체되는 시간, 경비가 기하급수적으로 늘어날 수 있으나, 실시예들에 따른 지식 베이스를 이용하면 이를 예측하거나 시뮬레이션 할 수 있어 경제적인 이득을 불러일으킬 수 있다. 또한 예측 결과를 바탕으로 선제적으로 다양한 시나리오에 대해 대응할 수 있어 환자의 건강과 예후 개선에 도움이 된다.

또한, 연구 목적으로 사용되는 경우, 사실에 기반한 지식 베이스를 활용하면 절차적 복잡성으로 인해 진단, 모니터링 등에 대한 비용이 매우 크게 발생하고, 실험/관찰/해석을 위한 많은 시간과 비용이 발생하는 상황에서, 이를 신속/정확하게 확인하고, 처리할 수 있으므로 막대한 시간과 비용이 절감될 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계; 및
상기 딥러닝 기반 강화학습 에이전트를 이용하여 자동으로 구축한 상기 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계
를 포함하고,
상기 딥러닝 기반 강화학습 에이전트를 이용하여 뇌기능 지식 베이스를 자동으로 구축하는 단계는,
상기 딥러닝 기반 강화학습 에이전트가 판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집하는 단계;
상기 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 추출하는 단계; 및
상기 딥러닝 기반 강화학습 에이전트가 수집된 정보들 사이의 관계 추론이 가능한 형태를 기반으로 뇌기능 지식 베이스에 추가하는 단계
를 포함하며,
상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는,
메모리 기반의 협업 필터링을 사용하여 상기 뇌기능 지식 베이스 내 헤드 엔티티(head entity)와 누락된 3요소(triplet) 간의 관계를 확인하여 누락 인자를 추론하고, 이 후, 상기 뇌기능 지식 베이스를 완성하기 위해 심층 강화학습을 사용하여 멀티-홉 관계 추론(multi-hop relation reasoning)을 수행하여 테일 엔티티를 추론하는, 뇌기능 지식 베이스 자가 성장 방법.
삭제
제1항에 있어서,
상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는,
뇌기능 지식 베이스의 완성도 확인 모듈을 통해 구축된 상기 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 판단하는 단계;
상기 뇌기능 지식 베이스의 상기 완성도가 완벽하지 않은 경우, 상기 뇌기능 지식 베이스의 완성도 확인 모듈을 통해 상기 완성도가 상대적으로 가장 낮은 뇌기능 지식 베이스를 선택 후, 질의어를 생성하는 단계;
상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하는 단계; 및
상기 완성도를 높일 수 있는 경우, 상기 완성도를 높이고 상기 현재 뇌기능 지식 베이스에 반영하는 단계
를 포함하는, 뇌기능 지식 베이스 자가 성장 방법.
제3항에 있어서,
상기 질의어는,
RDF 3 요소(Tripplet)의 구조로 구성되고, 완성도가 상대적으로 낮아 의미 구조상 불완전한 형태인 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 방법.
제3항에 있어서,
상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하기 이전에, 상기 질의어에 적합한 결과를 도출하도록 상기 딥러닝 기반 강화학습 에이전트가 다중 지식 간 관계 규명을 목적함수로 하여　상기 뇌기능 지식 베이스를 탐험하는 단계
를 더 포함하는, 뇌기능 지식 베이스 자가 성장 방법.
제3항에 있어서,
상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인한 후, 상기 딥러닝 기반 강화학습 에이전트가 결과를 도출하지 못하고　상기 완성도가 유지되거나 감소되는 경우, 상기 질의어를 외부 시스템을 통해 검색하는 단계
를 더 포함하는, 뇌기능 지식 베이스 자가 성장 방법.
제1항에 있어서,
상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는,
구축된 상기 뇌기능 지식 베이스의 정보들이 완벽한 세트로 이루어진 정보들인지에 대한 지식 완결성과 정확한 정보를 가지고 있는지에 대한 지식 추론 불확실성을 확인하고,
상기 완벽한 세트로 이루어진 정보들이 아닌 경우, 상기 딥러닝 기반 강화학습 에이전트가 완벽하지 않은 세트의 정보를 키워드로 하여 외부에서 이 정보를 다시 검색하여 상기 지식 완결성을 지속적으로 확인 후 보정하는 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 방법.
제1항에 있어서,
상기 뇌기능 지식 베이스를 스스로 증식하며 진화하는 단계는,
구축된 상기 뇌기능 지식 베이스의 정보들이 완벽한 세트로 이루어진 정보들인지에 대한 지식 완결성과 정확한 정보를 가지고 있는지에 대한 지식 추론 불확실성을 확인하고,
상기 정확한 정보를 가지고 있지 않은 경우, 상기 딥러닝 기반 강화학습 에이전트가 동일한 정보를 키워드로 하여 외부에서 이 정보를 다시 검색하고, 동일한 내용을 강화시키는 정보에 대해서는 지식 추론 불확실성을 낮추어, 일정 수준 이하의 불확실성을 가지게 되면 자가 수정을 멈추는 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 방법.
판독이 가능한 데이터로부터 뇌기능과 관련된 지식을 자동으로 수집하여, 수집된 정보들 사이의 관계 추론이 가능한 형태의 뇌기능 지식 베이스를 구축하는 딥러닝 기반 강화학습 에이전트를 포함하고,
상기 딥러닝 기반 강화학습 에이전트는,
자동으로 구축한 상기 뇌기능 지식 베이스의 완결성과 지식 추론 불확실성에 기반하여 상기 뇌기능 지식 베이스를 스스로 증식하며 진화하며, 메모리 기반의 협업 필터링을 사용하여 상기 뇌기능 지식 베이스 내 헤드 엔티티(head entity)와 누락된 3요소(triplet) 간의 관계를 확인하여 누락 인자를 추론하고, 이 후, 상기 뇌기능 지식 베이스를 완성하기 위해 심층 강화학습을 사용하여 멀티-홉 관계 추론(multi-hop relation reasoning)을 수행하여 테일 엔티티를 추론하는, 뇌기능 지식 베이스 자가 성장 시스템.
삭제
제9항에 있어서,
구축된 상기 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 계산하는 상기 뇌기능 지식 베이스의 완성도 확인 모듈
을 더 포함하고,
상기 딥러닝 기반 강화학습 에이전트는,
상기 뇌기능 지식 베이스의 완성도 확인 모듈에서 선택한 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하고, 상기 완성도를 높일 수 있는 경우, 상기 완성도를 높이고 상기 현재 뇌기능 지식 베이스에 반영하는 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 시스템.
제11항에 있어서,
상기 뇌기능 지식 베이스의 완성도 확인 모듈은,
구축된 상기 뇌기능 지식 베이스의 지식 완결성과 지식 추론 불확실성에 근거한 완성도를 판단하고, 상기 뇌기능 지식 베이스의 상기 완성도가 완벽하지 않은 경우, 상기 완성도가 상대적으로 가장 낮은 뇌기능 지식 베이스를 선택 후, 질의어를 생성하는 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 시스템.
제11항에 있어서,
상기 질의어는,
RDF 3 요소(Tripplet)의 구조로 구성되고, 완성도가 상대적으로 낮아 의미 구조상 불완전한 형태인 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 시스템.
제11항에 있어서,
상기 딥러닝 기반 강화학습 에이전트는,
상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인하기 이전에, 상기 질의어에 적합한 결과를 도출하도록 다중 지식 간 관계 규명을 목적함수로 하여　상기 뇌기능 지식 베이스를 탐험하는 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 시스템.
제11항에 있어서,
상기 딥러닝 기반 강화학습 에이전트는,
상기 질의어를 현재 뇌기능 지식 베이스를 이용하여 완성도를 높일 수 있는지 여부를 확인한 후, 결과를 도출하지 못하고　상기 완성도가 유지되거나 감소되는 경우, 상기 질의어를 외부 시스템을 통해 검색하는 것
을 특징으로 하는, 뇌기능 지식 베이스 자가 성장 시스템.