KR102508131B1

KR102508131B1 - 지식그래프에 대한 그래프 연결강화 시스템 및 방법

Info

Publication number: KR102508131B1
Application number: KR1020210182370A
Authority: KR
Inventors: 김윤관; 송희석; 이영신
Original assignee: (주)씨어스테크놀로지
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2023-03-09

Abstract

본 발명은 전자의무기록(Electronic Medical Recording, EMR)의 지식그래프 생성 방법 및 부분 그래프 분석을 통한 그래프 연결강화 방법에 관한 것으로서, 일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 전자의무기록(Electronic Medical Recording, EMR)으로부터 객체 및 관계를 식별하는 단계, 상기 식별된 객체와, 상기 식별된 관계 간을 정의하는 단계, 상기 정의된 객체 및 관계로부터 적어도 하나 이상의 트리플렛을 생성하는 단계, 상기 생성된 적어도 하나 이상의 트리플렛을 기반으로 지식그래프를 생성하는 단계, 및 상기 생성된 지식그래프의 연결성을 강화하는 단계를 포함할 수 있다.

Description

지식그래프에 대한 그래프 연결강화 시스템 및 방법{Systems and methods for strengthening graph connection to knowledge graphs}

본 발명은 전자의무기록(Electronic Medical Recording, EMR)의 지식그래프 생성 방법 및 부분 그래프 분석을 통한 그래프 연결강화 방법에 관한 것이다.

전자의무기록(Electronic Medical Recording, EMR)은 환자의 인적사항, 병력, 진찰 결과, 치료 결과 등의 기록을 전산화한 것이다.

전자의무기록은 다양한 임상 정보를 담고 있기 때문에, 지능형 에이전트, 추천시스템 또는 임상결정지원시스템(Clinical decision support system, CDSS)을 개발하기 위한 중요한 자산이다.

일반적으로, 전자의무기록은 관계형 데이터베이스로 구성되어 있다.

이러한, 관계형 데이터베이스는 테이블 기반으로 JOIN 연산을 통해 각 칼럼을 합치는 테이블을 만들 때 많은 시간이 소요될 수 있다.

또한 검색, 질의, 답변 시스템 개발 시 단순 검색, 질의-답변은 가능하지만 인간이 할 수 있는 상호관계 추론 및 새로운 결론 도출은 불가능하다.

또한, 관계형 데이터베이스로부터 추출한 데이터를 이용하여 콘볼루션 뉴럴 네트워크(convolutional neural network) 기반 모델 또는 롱숏텀 메모리(long short term memory) 기반 모델로 임상결정지원시스템 및 예후 예측 시스템을 만들고 있으나, 데이터를 가공하는 부분에서의 효율성이 떨어지며, 성능부분에서 만족스러운 결과를 나타내지 못하고 있다.

전자의무기록의 관계형 데이터베이스는 질의-응답을 이용하는 데에는 어려움이 없다.

그러나 구축된 데이터베이스를 통해 임상결정 지원, 병상 분류 등의 추론이 가능한 부분은 단순한 질의-응답을 통해 해결될 수 없으며, 경험 많은 의료진들이 단순 질의-응답 내용을 통해 추론을 해야한다.

한편, 일반적으로, 지식그래프는 노드 간의 엣지로 연결하며 노드 간의 관계성을 설명한다.

지식 그래프를 자동으로 생성했을 때, 인간적인 수준에서 바라봤을 때 어떤 노드가 다른 노드와 연결되어야 하지만, 전자의무기록과 같이 방대한 정보로 이루어진 데이터는 노드의 수가 많아진다.

이런 노드의 수는 많아질 수록, 충분히 노드 간의 연결이 이루어지지 못하는 문제점이 발생한다.

이런 문제점을 극복하기 위해서, 지식그래프를 생성 시 부분 그래프 분석을 진행하여 지역 노드 간 연결성을 강화 할 수 있다.

응급한 상황에서의 빠른 판단이나 예후 예측 등의 과제는 관계형 데이터베이스에서 활용가능한 데이터들을 SQL을 통해 원하는 타겟 데이터를 추출해야 하는 수고가 따르며, 추출한 데이터들을 이용하여 목적에 맞는 모델들만을 개발할 수 있다. 하지만, 정보 간 유연성이 떨어지며, 상호관계 추론이 어려워 의료진들에게 의사결정을 지원해줄 충분한 정보를 제공해주기 어려운 문제가 있다.

인간의 추론 능력과 상식수준의 지능을 갖추기 위한 모델이 freebase, ATOMIC, ConcepNet의 지식그래프 데이터를 활용하여 만들어지고 있다.

근래에는, 이러한 배경으로 의료진들을 지원할 수 있는 인공지능 시스템의 필요성이 대두되고 있으며, 이를 위한 다양한 접근을 하고 있다.

한국공개특허 제10-2021-0092148호 "시계열 지식그래프 생성 방법, 장치, 기기 및 매체" 한국등록특허 제10-2309375호 "지식그래프 색인 방법 및 장치" 한국공개특허 제10-2021-0035786호 "이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램"

본 발명은 관계형 데이터베이스로 구축된 전자의무기록 데이터베이스를 지식기반 그래프 데이터베이스로 자동 변환 및 관계의 노드 사이의 연결강도를 나타낼 수 있는 형태로 이것을 생성하는 것을 목적으로 한다.

본 발명은 생성된 지식기반 그래프의 노드 간 연결이 되지 못한 곳을 연결하는 프레임워크를 적용하여 추후 지능형 에이전트, 의료용 추천 시스템 또는 임상결정지원시스템 및 예후 예측 모델 개발에 사용될 수 있는 데이터베이스를 구축하는 것을 목적으로 한다.

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 전자의무기록(Electronic Medical Recording, EMR)으로부터 객체 및 관계를 식별하는 단계, 상기 식별된 객체와, 상기 식별된 관계 간을 정의하는 단계, 상기 정의된 객체 및 관계로부터 적어도 하나 이상의 트리플렛을 생성하는 단계, 상기 생성된 적어도 하나 이상의 트리플렛을 기반으로 지식그래프를 생성하는 단계, 및 상기 생성된 지식그래프의 연결성을 강화하는 단계를 포함할 수 있다.

일실시예에 따른 상기 식별된 객체와, 상기 식별된 관계 간을 정의하는 단계는, 전자의무기록의 환자-질병 또는 환자-입원을 포함하는 객체-관계를 정의하는 단계를 포함할 수 있다.

일실시예에 따른 상기 생성된 지식그래프의 연결성을 강화하는 단계는, 상기 지식그래프의 각 노드들 간에 코사인 유사도(cosine similarity)를 산출하여, 상기 노드들 간의 관계를 파악하는 단계, 상기 파악된 노드들 간의 관계로부터 연결되지 않은 노드들 중에서, 상기 코사인 유사도가 일정 임계값(threshold)을 초과하는지 여부를 판단하는 단계, 및 상기 임계값을 초과하는 특정 노드 간을 연결하여, 상기 연결성을 강화하는 단계를 포함할 수 있다.

일실시예에 따른 상기 임계값을 초과하는 특정 노드 간을 연결하여, 상기 연결성을 강화하는 단계는, Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출하는 단계, 상기 특정 노드 내 속해 있는 문자들을 그래프 노드로써 만들기 위한 BERT(Bidirectional Encoder Representations from Transformers)를 수행하는 단계, 상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하는 단계, 및 상기 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행하는 단계를 포함할 수 있다.

일실시예에 따른 상기 Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출하는 단계는, 트리플렛들을 하나의 행렬로 만드는 특징 매트릭스(feature matrix)와, 상기 특징 매트릭스를 이용하여 대각 값에 1을 채운 인접행렬을 산출하는 단계, 상기 산출한 인접행렬과 상기 특징 매트릭스를 곱하여 자신과 이웃의 특징(feature) 행렬을 산출하는 단계, 및 상기 산출된 특징 행렬을 기반으로 그래프 컨볼루션 네트워크(graph convolutional network)를 이용하여 각 관계들의 특징이 추출된 행렬을 산출하는 단계를 포함할 수 있다.

일실시예에 따른 상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하는 단계는, 노드 내 속해 있는 문자들의 특징을 추출할 수 있는 모델을 만들기 위해 BERT 모델을 기반으로 예비학습(pretraining)을 시행하는 단계, 및 상기 예비학습된 BERT 모델을 이용하여 노드 내 속해 있는 문자들의 특징을 추출하는 단계를 포함할 수 있다.

일실시예에 따른 상기 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행하는 단계는, 상기 병합된 특징들과 연결 정보를 이용하여 콘볼루션 모델(convolutional model)을 통한 연결 스코어를 산출하는 단계를 포함할 수 있다.

일실시예에 따른 지식그래프에 대한 그래프 연결강화 시스템은 전자의무기록(Electronic Medical Recording, EMR)으로부터 객체 및 관계를 식별하는 객체 및 관계 식별부, 상기 식별된 객체와, 상기 식별된 관계 간을 정의하는 관계 정의부, 상기 정의된 객체 및 관계로부터 적어도 하나 이상의 트리플렛을 생성하는 트리플렛 생성부, 상기 생성된 적어도 하나 이상의 트리플렛을 기반으로 지식그래프를 생성하는 지식그래프 생성부, 및 상기 생성된 지식그래프의 연결성을 강화하는 연결성 강화 처리부를 포함할 수 있다.

일실시예에 따른 상기 연결성 강화 처리부는, 상기 지식그래프의 각 노드들 간에 코사인 유사도(cosine similarity)를 산출하여, 상기 노드들 간의 관계를 파악하고, 상기 파악된 노드들 간의 관계로부터 연결되지 않은 노드들 중에서, 상기 코사인 유사도가 일정 임계값(threshold)을 초과하는지 여부를 판단하며, 상기 임계값을 초과하는 특정 노드 간을 연결하여, 상기 연결성을 강화할 수 있다.

일실시예에 따른 상기 연결성 강화 처리부는, Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출하고, 상기 특정 노드 내 속해 있는 문자들을 그래프 노드로써 만들기 위한 BERT(Bidirectional Encoder Representations from Transformers)를 수행하며, 상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하고, 상기 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행할 수 있다.

일실시예에 따른 상기 연결성 강화 처리부는, 상기 연결 관계 간 특징을 추출하기 위해, 트리플렛들을 하나의 행렬로 만드는 특징 매트릭스(feature matrix)와, 상기 특징 매트릭스를 이용하여 대각 값에 1을 채운 인접행렬을 산출하고, 상기 산출한 인접행렬과 상기 특징 매트릭스를 곱하여 자신과 이웃의 특징(feature) 행렬을 산출하며, 상기 산출된 특징 행렬을 기반으로 그래프 컨볼루션 네트워크(graph convolutional network)를 이용하여 각 관계들의 특징이 추출된 행렬을 산출할 수 있다.

일실시예에 따른 상기 연결성 강화 처리부는, 상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하기 위해, 노드 내 속해 있는 문자들의 특징을 추출할 수 있는 모델을 만들기 위해 BERT 모델을 기반으로 예비학습(pretraining)을 시행하고, 상기 예비학습된 BERT 모델을 이용하여 노드 내 속해 있는 문자들의 특징을 추출할 수 있다.

일실시예에 따른 상기 연결성 강화 처리부는, 상기 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행하기 위해, 상기 병합된 특징들과 연결 정보를 이용하여 콘볼루션 모델(convolutional model)을 통한 연결 스코어를 산출할 수 있다.

일실시예에 따르면, 약처방 정보 데이터베이스와 국제질병분류 코드 데이터베이스와의 지식그래프로 병합으로 약처방에 대한 영향력 및 이상반응의 예측 등으로 확장이 가능하다.

일실시예에 따르면, 약물 복용 및 관리 추천 시스템 개발 또는 질병 관리 시스템 개발이 가능하다.

일실시예에 따르면, 공통데이터모델을 적용한 전자의무기록을 지식그래프로 생성한다면, 공동으로 사용하는 기관들의 데이터들을 이용할 수 있어 더욱 강력한 임상결정지원시스템을 개발할 수 있다.

일실시예에 따르면, 전자의무기록의 지식그래프 개발을 통해서 임상결정지원시스템 개발의 효율성과 정확성을 제공할 수 있다.

일실시예에 따르면, 최소한의 노력으로 지식그래프 개발을 할 수 있다.

일실시예에 따르면, 전자의무기록의 지식그래프 개발은 질의-응답의 속도를 높일 수 있으며, 질문의 의미를 정확하게 이해한 정확한 답을 도출할 수 있는 기술 개발에 원천으로 작용할 수 있다.

도 1은 일실시예에 따른 지식그래프에 대한 그래프 연결강화 시스템을 설명하는 도면이다.
도 2는 전자의무기록의 지식그래프 생성 및 연결 강화 알고리즘 구조도를 설명하는 도면이다.
도 3은 일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법을 설명하는 도면이다.
도 4는 일실시예에 따른 지식그래프의 연결성을 강화하는 구체적인 과정을 설명하는 도면이다.
도 5는 일실시예에 따른 지식그래프의 연결성을 강화하는 구체적인 과정을 설명하는 도면이다.
도 6은 일실시예에 따른 지식그래프의 연결성을 강화하는 구체적인 과정을 설명하는 도면이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따른 지식그래프에 대한 그래프 연결강화 시스템(100)을 설명하는 도면이다.

일실시예에 따르면, 약처방 정보 데이터베이스와 국제질병분류 코드 데이터베이스와의 지식그래프로 병합으로 약처방에 대한 영향력 및 이상반응의 예측 등으로 확장이 가능하고, 약물 복용 및 관리 추천 시스템 개발 또는 질병 관리 시스템 개발이 가능하다. 또한, 공통데이터모델을 적용한 전자의무기록을 지식그래프로 생성한다면, 공동으로 사용하는 기관들의 데이터들을 이용할 수 있어 더욱 강력한 임상결정지원시스템을 개발할 수 있고, 전자의무기록의 지식그래프 개발을 통해서 임상결정지원시스템 개발의 효율성과 정확성을 제공할 수 있다.

이를 위해, 일실시예에 따른 지식그래프에 대한 그래프 연결강화 시스템(100)은 객체 및 관계 식별부(110), 관계 정의부(120), 트리플렛 생성부(130), 지식그래프 생성부(140), 연결성 강화 처리부(150)를 포함할 수 있다.

또한, 각 구성요소들로 제어 신호를 전송하거나, 각 구성요소들 간에 통신을 수행하는 등의 전반적인 제어를 수행하는 제어부(160)를 포함할 수 있다.

일실시예에 따른 객체 및 관계 식별부(110)는 전자의무기록(Electronic Medical Recording, EMR)으로부터 객체 및 관계를 식별할 수 있다.

예를들어, 전자의무기록에서 객체는 환자 또는 질병, 관계는 환자와 질병 간의 연결관계를 나타낼 수 있다.

일실시예에 따른 관계 정의부(120)는 식별된 객체와, 식별된 관계 간을 정의할 수 있다.

예를들어, 전자의무기록의 객체와, 식별된 관계 간을 정의할 수 있다.

보다 구체적인 예로, 일실시예에 따른 관계 정의부(120)는 전자의무기록의 환자-질병 또는 환자-입원 등의 객체-관계를 정의하되, 객체와 관계를 나타내는 트리플렛을 생성할 수 있다.

또한, 일실시예에 따른 관계 정의부(120)는 객체를 h, t로 설정하고, h와 t를 연결하는 관계를 r로 설정할 수 있으며, 구체적인 예로, 환자-질병의 관계를 트리플렛으로 생성하고자 할 때, h는 환자 아이디, t는 질병으로 h와 t를 연결하는 r을 생성하는 알고리즘 적용하여 r의 값 도출할 수 있다.

또한, 이렇게 정의된 관계에 따라 지식그래프 데이터베이스의 연결성을 강화할 수 있다.

일실시예에 따른 트리플렛 생성부(130)는 정의된 객체 및 관계로부터 적어도 하나 이상의 트리플렛을 생성할 수 있다.

일실시예에 따른 지식그래프 생성부(140)는 생성된 적어도 하나 이상의 트리플렛을 기반으로 지식그래프를 생성할 수 있다.

정의된 트리플렛은 다층적으로 연결이 될 수 있고, 하나의 h가 여러 t와 연결될 수 있는데, 트리플렛 생성 과정에서 h와 t를 연결하는 r이 h와 t가 많아질수록 연결될 수 있는 확률이 떨어지게된다. 이를 보완하기 위해 이하의 구성요소들에서는 지식그래프의 노드인 h와 t의 연결을 더 촘촘하게 만들 수 있는 부분 그래프 분석을 시행하여, 이 연결의 촘촘함을 강화시시킬 수 있다.

일실시예에 따른 연결성 강화 처리부(150)는 생성된 지식그래프의 연결성을 강화할 수 있다.

연결성 강화 처리부(150)는 지식그래프의 각 노드들 간에 코사인 유사도(cosine similarity)를 산출하여, 노드들 간의 관계를 파악할 수 있다. 또한, 파악된 노드들 간의 관계로부터 연결되지 않은 노드들 중에서, 코사인 유사도가 일정 임계값(threshold)을 초과하는지 여부를 판단할 수 있다. 뿐만 아니라, 임계값을 초과하는 특정 노드 간을 연결하여, 연결성을 강화할 수 있다.

[수학식 1]

연결성 강화 처리부(150)는 [수학식 1]을 기반으로, 노드 간의 연결 강화를 위해 우선적으로 위의 코사인 유사도에 의해 값을 산출하여 각 노드 간의 관계를 파악할 수 있다.

코사인 유사도는 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미한다. 각도가 0°일 때의 코사인값은 1이며, 다른 모든 각도의 코사인값은 1보다 작다. 따라서 이 값은 벡터의 크기가 아닌 방향의 유사도를 판단하는 목적으로 사용되며, 두 벡터의 방향이 완전히 같을 경우 1, 90°의 각을 이룰 경우 0, 180°로 완전히 반대 방향인 경우 -1의 값을 갖는다. 이 때 벡터의 크기는 값에 아무런 영향을 미치지 않는다. 코사인 유사도는 특히 결과값이 [0, 1]의 범위로 떨어지는 양수 공간에서 사용된다.

연결성 강화 처리부(150)는 코사인 유사도를 이용하여, 어떤 개수의 차원에도 적용이 가능하여 흔히 다차원의 양수 공간에서의 유사도 측정에 자주 이용할 수 있다.

예를 들어, 정보 검색 및 텍스트 마이닝 분야에서, 단어 하나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문서에 나타나는 회수로 표현되는 벡터값을 가진다. 이러한 다차원 공간에서 코사인 유사도는 두 문서의 유사를 측정하는 매우 유용한 방법이다.

연결성 강화 처리부(150)는 코사인 거리(cosine distance)라는 개념을 대신 이용할 수도 있는데, 단, 코사인 거리는 삼각부등식의 성질을 갖고 있지 않으며 코사인 공리도 만족하지 않기 때문에 정확한 거리 함수로 사용할 수는 없다. 순서를 유지하면서 삼각부등식 성질을 만족시키기 위해서는 각거리를 이용해야 한다.

연결성 강화 처리부(150)가 코사인 유사도를 사용되는 이유 중 하나는 이것이 양수 공간이라는 조건만 만족하면 얼마나 많은 차원 공간에서든지 거리를 측정하는 것이 가능하기 때문이다.

연결성 강화 처리부(150)는 Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출하고, 특정 노드 내 속해 있는 문자들을 그래프 노드로써 만들기 위한 BERT(Bidirectional Encoder Representations from Transformers)를 수행하며, GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하고, 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행할 수 있다.

연결성 강화 처리부(150)은 BERT라는 언어모델을 이용할 수 있다.

BERT는 알고리즘이 자체적으로 대량의 데이터를 스스로 읽고 학습하는 방식으로 단어의 문맥, 관계 등을 판단하고 예측하는 자연어처리 언어모델로서, 핵심은 사람들이 검색하려는 의도를 더 정확히 파악하도록 하는 것이다.

BERT는 transformer의 incoder를 쌓아올린 구조로서, BERT의 버전은 Base 버전과 Large 버전 등이 있는데, Base 버전에서는 총 12개를 쌓았고 보다 큰 Large 버전에서는 총 24개를 쌓아 올렸다. 이 밖에도, Large 버전은 Base 버전보다 크기나 self-attention heads 등의 수가 훨씬 더 크다.

BERT의 input layer는 다른 Deep Learning model 들과 마찬가지로 embedding layer를 지난 embedding vectors로서, 단어들의 차원의 수와 embedding vector의 수는 동일하다.

BERT의 내부적인 복잡한 연산을 지나, output의 embedding에서는 입력한 문장(sentence)의 문맥(context)을 모두 참고한 contextual embedding 을 반영할 수 있다.

BERT는 text를 단어보다 더 작은 단위로 쪼개는데, 이는 서브워드 토크나이저(subword tokenizer)를 사용한다고 할 수 있다. BERT가 사용하는 토크나이저는 wordpiece 토크나이저로, word embedding + character embedding의 두 가지를 섞은 방법을 사용할 수 있다.

BERT의 embedding은 총 3가지 임베딩을 사용하고, Token embedding, Segment embedding, Position embedding을 포함할 수 있다.

또한, 연결성 강화 처리부(150)는 연결 관계 간 특징을 추출하기 위해, 트리플렛들을 하나의 행렬로 만드는 특징 매트릭스(feature matrix)와, 특징 매트릭스를 이용하여 대각 값에 1을 채운 인접행렬을 산출할 수 있다.

또한, 연결성 강화 처리부(150)는 산출한 인접행렬과 특징 매트릭스를 곱하여 자신과 이웃의 특징(feature) 행렬을 산출하며, 산출된 특징 행렬을 기반으로 그래프 컨볼루션 네트워크(graph convolutional network)를 이용하여 각 관계들의 특징이 추출된 행렬을 산출할 수 있다.

일실시예에 따른 연결성 강화 처리부(150)는 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하기 위해, 노드 내 속해 있는 문자들의 특징을 추출할 수 있는 모델을 만들기 위해 BERT 모델을 기반으로 예비학습(pretraining)을 시행할 수 있다. 또한, 예비학습된 BERT 모델을 이용하여 노드 내 속해 있는 문자들의 특징을 추출할 수 있다. 뿐만 아니라, 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행하기 위해, 병합된 특징들과 연결 정보를 이용하여 콘볼루션 모델(convolutional model)을 통한 연결 스코어를 산출할 수 있다.

도 2는 전자의무기록의 지식그래프 생성 및 연결 강화 알고리즘 구조도(200)를 설명하는 도면이다.

지식그래프 생성 및 연결 강화 알고리즘 구조도(200)는 인코더(210)와 디코더(220)로 구분되어 표현될 수 있다.

전자의무기록(Electronic Medical Recording, EMR)은 환자 또는 질병으로 해석될 수 있는 객체와, 환자의 질병간 연결관계로 해석될 수 있는 관계를 포함할 수 있다.

전자의무기록(Electronic Medical Recording, EMR)으로부터 생성된 지식그래프는 그래프 연결 강화 알고리즘을 통해 지식그래프의 노드 간 연결을 강화할 수 있다.

이 과정에서, 노드들 간의 코사인 유사도(cosine similarity), BERT, Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출하는 등의 과정을 수행할 수 있다.

이렇게 강화된 지식그래프는 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩 과정을 수행하고, 병합된 특징들과 연결 정보를 이용하여 콘볼루션 모델을 통한 연결 스코어를 산출할 수 있다.

도 3은 일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법을 설명하는 도면이다.

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 전자의무기록(Electronic Medical Recording, EMR)으로부터 객체 및 관계를 식별할 수 있다(단계 301).

또한, 일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 식별된 객체와, 식별된 관계 간을 정의할 수 있고(단계 302), 정의된 객체 및 관계로부터 적어도 하나 이상의 트리플렛을 생성할 수 있다(단계 303).

또한, 생성된 적어도 하나 이상의 트리플렛을 기반으로 지식그래프를 생성하고(단계 304), 생성된 지식그래프의 연결성을 강화할 수 있다(단계 305).

도 4는 일실시예에 따른 지식그래프의 연결성을 강화하는 구체적인 과정을 설명하는 도면이다.

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 지식그래프의 각 노드들 간에 코사인 유사도(cosine similarity)를 산출하여, 노드들 간의 관계를 파악할 수 있다(단계 401).

다음으로, 일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 코사인 유사도가 임계값을 초과하는지 여부를 판단할 수 있다(단계 402).

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 코사인 유사도가 임계값을 초과하는 경우에, 임계값을 초과하는 특정 노드 간을 연결하여, 연결성을 강화할 수 있다(단계 403). 만약, 임계값을 초과하지 않는 다면, 단계 401로 분기하여 노드들 간의 관계를 파악할 수 있다.

도 5는 일실시예에 따른 지식그래프의 연결성을 강화하는 구체적인 과정을 설명하는 도면이다.

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출할 수 있다(단계 501).

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 특정 노드 내 속해 있는 문자들을 그래프 노드로써 만들기 위한 BERT(Bidirectional Encoder Representations from Transformers)를 수행할 수 있다(단계 502).

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합할 수 있다(단계 503).

이에, 일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 노드 내 속해 있는 문자들의 특징을 추출할 수 있는 모델을 만들기 위해 BERT 모델을 기반으로 예비학습(pretraining)을 시행하고, 예비학습된 BERT 모델을 이용하여 노드 내 속해 있는 문자들의 특징을 추출할 수 있다.

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행할 수 있고(단계 504), 이를 통해 수행된 디코딩을 기반으로 연결성을 강화할 수 있다. 이 과정에서, 병합된 특징들과 연결 정보를 이용하여 콘볼루션 모델(convolutional model)을 통한 연결 스코어를 산출할 수 있다.

도 6은 일실시예에 따른 지식그래프의 연결성을 강화하는 구체적인 과정을 설명하는 도면이다.

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 트리플렛들을 하나의 행렬로 만드는 특징 매트릭스(feature matrix)와, 특징 매트릭스를 이용하여 대각 값에 1을 채운 인접행렬을 산출할 수 있다(단계 601).

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 산출한 인접행렬과 상기 특징 매트릭스를 곱하여 자신과 이웃의 특징(feature) 행렬을 산출할 수 있다(단계 602).

일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 산출된 특징 행렬을 기반으로 그래프 컨볼루션 네트워크(graph convolutional network)를 이용하여 각 관계들의 특징이 추출된 행렬을 산출할 수 있다(단계 603).

또한, 일실시예에 따른 지식그래프에 대한 그래프 연결강화 방법은 산출된 행렬을 활용하여 연결성을 강화할 수 있다.

결국, 본 발명을 이용하는 경우 약처방 정보 데이터베이스와 국제질병분류 코드 데이터베이스와의 지식그래프로 병합으로 약처방에 대한 영향력 및 이상반응의 예측 등으로 확장이 가능하다. 또한, 약물 복용 및 관리 추천 시스템 개발 또는 질병 관리 시스템 개발이 가능하고, 공통데이터모델을 적용한 전자의무기록을 지식그래프로 생성한다면, 공동으로 사용하는 기관들의 데이터들을 이용할 수 있어 더욱 강력한 임상결정지원시스템을 개발할 수 있다.

뿐만 아니라, 본 발명을 이용하는 경우 전자의무기록의 지식그래프 개발을 통해서 임상결정지원시스템 개발의 효율성과 정확성을 제공할 수 있고, 최소한의 노력으로 지식그래프 개발을 할 수 있다.

또한, 본 발명을 이용하는 경우 전자의무기록의 지식그래프 개발은 질의-응답의 속도를 높일 수 있으며, 질문의 의미를 정확하게 이해한 정확한 답을 도출할 수 있는 기술 개발에 원천으로 작용할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

전자의무기록(Electronic Medical Recording, EMR)으로부터 객체 및 관계를 식별하는 단계;
상기 식별된 객체인 환자 아이디와 질병과, 상기 식별된 관계 간을 정의하는 단계;
상기 정의된 객체 및 관계로부터 적어도 하나 이상의 트리플렛을 환자-질병의 관계로 생성하는 단계;
상기 생성된 적어도 하나 이상의 트리플렛을 기반으로 지식그래프를 생성하는 단계; 및
상기 생성된 지식그래프의 연결성을 강화하는 단계를 포함하고,
상기 생성된 지식그래프의 연결성을 강화하는 단계는,
Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출하는 단계;
특정 노드 내 속해 있는 문자들을 그래프 노드로써 만들기 위한 BERT(Bidirectional Encoder Representations from Transformers)를 수행하는 단계;
상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하는 단계; 및
상기 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행하는 단계를 포함하고,
상기 GCN을 이용한 연결 관계 간 특징을 추출하는 단계는,
트리플렛들을 하나의 행렬로 만드는 특징 매트릭스(feature matrix)와, 상기 특징 매트릭스를 이용하여 대각 값에 1을 채운 인접행렬을 산출하는 단계;
상기 산출된 인접행렬과 상기 특징 매트릭스를 곱하여 자신과 이웃의 특징(feature) 행렬을 산출하는 단계; 및
상기 산출된 특징 행렬을 기반으로 그래프 컨볼루션 네트워크(graph convolutional network)를 이용하여 각 관계들의 특징이 추출된 행렬을 산출하는 단계를 포함하고,
상기 디코딩을 수행하는 단계는, 상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징이 병합된 특징들과 상기 연결성의 강화와 연관된 연결 정보를 이용하여 컨볼루션 모델(convolutional model)을 통한 연결 스코어를 산출하는 단계를 포함하는 지식그래프에 대한 그래프 연결강화 방법.
삭제
제1항에 있어서,
상기 생성된 지식그래프의 연결성을 강화하는 단계는,
상기 지식그래프의 각 노드들 간에 코사인 유사도(cosine similarity)를 산출하여, 상기 노드들 간의 관계를 파악하는 단계;
상기 파악된 노드들 간의 관계로부터 연결되지 않은 노드들 중에서, 상기 코사인 유사도가 일정 임계값(threshold)을 초과하는지 여부를 판단하는 단계; 및
상기 임계값을 초과하는 특정 노드 간을 연결하여, 상기 연결성을 강화하는 단계
를 포함하는 지식그래프에 대한 그래프 연결강화 방법.
삭제
삭제
제3항에 있어서,
상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하는 단계는,
노드 내 속해 있는 문자들의 특징을 추출할 수 있는 모델을 만들기 위해 BERT 모델을 기반으로 예비학습(pretraining)을 시행하는 단계; 및
상기 예비학습된 BERT 모델을 이용하여 노드 내 속해 있는 문자들의 특징을 추출하는 단계
를 포함하는 지식그래프에 대한 그래프 연결강화 방법.
삭제
전자의무기록(Electronic Medical Recording, EMR)으로부터 객체 및 관계를 식별하는 객체 및 관계 식별부;
상기 식별된 객체인 환자 아이디와 질병과, 상기 식별된 관계 간을 정의하는 관계 정의부;
상기 정의된 객체 및 관계로부터 적어도 하나 이상의 트리플렛을 환자-질병의 관계로 생성하는 트리플렛 생성부;
상기 생성된 적어도 하나 이상의 트리플렛을 기반으로 지식그래프를 생성하는 지식그래프 생성부; 및
상기 생성된 지식그래프의 연결성을 강화하는 연결성 강화 처리부를 포함하고,
상기 연결성 강화 처리부는,
Graph convolutional network(GCN)를 이용한 연결 관계 간 특징을 추출하고,
특정 노드 내 속해 있는 문자들을 그래프 노드로써 만들기 위한 BERT(Bidirectional Encoder Representations from Transformers)를 수행하며,
상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하고,
상기 병합된 특징들을 이용하여 가장 적합한 연결 스코어를 산출하기 위한 디코딩을 수행하고,
상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징이 병합된 특징들과 상기 연결성의 강화와 연관된 연결 정보를 이용하여 컨볼루션 모델(convolutional model)을 통한 연결 스코어를 산출하는 단계를 포함하는 것을 특징으로 하는 지식그래프에 대한 그래프 연결강화 시스템.
제8항에 있어서,
상기 연결성 강화 처리부는,
상기 지식그래프의 각 노드들 간에 코사인 유사도(cosine similarity)를 산출하여, 상기 노드들 간의 관계를 파악하고,
상기 파악된 노드들 간의 관계로부터 연결되지 않은 노드들 중에서, 상기 코사인 유사도가 일정 임계값(threshold)을 초과하는지 여부를 판단하며,
상기 임계값을 초과하는 특정 노드 간을 연결하여, 상기 연결성을 강화하는 것을 특징으로 하는 지식그래프에 대한 그래프 연결강화 시스템.
삭제
삭제
제9항에 있어서,
상기 연결성 강화 처리부는,
상기 GCN에서 추출된 특징행렬과 BERT를 통해 추출된 특징을 병합하기 위해,
노드 내 속해 있는 문자들의 특징을 추출할 수 있는 모델을 만들기 위해 BERT 모델을 기반으로 예비학습(pretraining)을 시행하고,
상기 예비학습된 BERT 모델을 이용하여 노드 내 속해 있는 문자들의 특징을 추출하는 것을 특징으로 하는 지식그래프에 대한 그래프 연결강화 시스템.
삭제