WO2023128020A1

WO2023128020A1 - 다국가 임상데이터 표준화 방법 및 장치

Info

Publication number: WO2023128020A1
Application number: PCT/KR2021/020289
Authority: WO
Inventors: 조용장; 정지희
Original assignee: 주식회사 메디아이플러스
Priority date: 2021-12-28
Filing date: 2021-12-30
Publication date: 2023-07-06
Also published as: KR20230100462A

Abstract

실시예에 따른 다국가 임상데이터 표준화 방법은, 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하는 단계, 상기 개체명들에 대한 정제를 수행하는 단계, 상기 정제된 개체명들에 대한 유사도 산출을 수행하는 단계 및 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계를 포함할 수 있다.

Description

다국가 임상데이터 표준화 방법 및 장치

본 발명은 다국가 임상데이터 표준화 방법 및 장치에 관한 것으로, 보다 구체적으로, 다국가 임상데이터에 대한 정제 과정을 선 수행한 후 표준화 작업을 수행하도록 함으로써, 다국가 임상데이터에 빠르고 용이하게 접근할 수 있도록 하기 위한, 다국가 임상데이터 표준화 방법 및 장치에 관한 것이다.

임상시험은 의약품을 개발하기 앞서, 그 의약품의 안전성, 약리효과 및 임상적 효과를 확인하기 위하여 사람을 대상으로 실시하는 시험이다. 임상 시험은 의약품의 안전성을 확보하고, 시판될 수 있는 의약품임을 확인하는 절차에 해당되므로 의약품 개발시 필수적으로 진행되어야 할 과정이라고 할 수 있다.

따라서, 임상시험을 설계하고, 진행하는 것과 더불어, 과거 임상시험 자료를 분석하고 관리하는 것 또한 중요한 단계이다. 성공적인 임상시험을 진행하기 위해서 다양한 기관, 임상시험 수탁기관, 연구자 간의 상호 협력은 필수적이다. 그러나, 수많은 질병 또는 약물에 특화된 임상시험 수탁기관 및 연구자를 찾는 것은 용이하지 않고, 동일한 병원, 임상시험 수탁기관, 연구자를 다양한 방법으로 표현하거나 여러가지 언어로 표현하고 있어 이를 정확하게 구분하는데 많은 어려움이 따른다.

지식기반 사회로 이행되면서 생산 수단으로서의 지식이 주목받기 시작하였으며, 기업들은 기업 내부에 흩어져 있는 지식을 체계적으로 관리하기 위해 지식관리시스템(KMS)를 구축하고 운영하기 시작하였다. 그러나 기존의 지식관리시스템(KMS)은 가장 최근에 연구된 임상시험 데이터를 특히 중요하게 취급하거나, 해외에만 등록이 되어 있어 국내에서는 검색되지 않는 임상시험 데이터도 검색될 필요가 있는 임상시험 데이터의 특성을 제대로 반영하지 못하는 문제가 있다.

본 발명은 전술한 문제점을 해결하기 위한 것으로서, 서로 다른 방법으로 표현된 임상시험 데이터를 표준화된 데이터로 변환하여 줌으로써, 사용자가 원하는 임상시험 데이터를 효율적으로 검색할 수 있도록 하는 방법을 제공하고자 하는 데에 그 목적이 있다.

특히, 표준화 수행을 위해 미리 정제된 데이터를 이용할 수 있도록 데이터를 가공 및 분류함으로써, 보다 정확하고 빠른 표준화 수행이 이루어질 수 있도록 하는 데에 그 목적이 있다.

실시예에 따른 다국가 임상데이터 표준화 방법은, 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하며, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행할 수 있다.

상기 정제 수행 단계는, 상기 개체명들 중 적어도 두 개의 개체명이 하나의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 적어도 두 개의 속성에 대응되도록 분리하는 단계;를 포함할 수 있다.

상기 정제 수행 단계는, 상기 개체명들 중 적어도 두 개의 개체명이 적어도 두 개의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 하나의 속성에 대응되도록 병합하는 단계;를 포함할 수 있다.

상기 유사도 산출 수행 단계는, 상기 정제된 개체명들에 대응되는 문자열 셋트들을 획득하는 단계; 상기 문자열 셋트들 중 두 개의 문자열 셋트 사이의 거리값을 산출하는 단계; 및 상기 산출된 거리값을 기초로 상기 유사도를 산출하는 단계;를 포함할 수 있다.

상기 거리값 산출 단계는, 상기 두 개의 문자열 셋트 중 제1 문자열 셋트를 구성하는 제1 문자열을 기준으로 제2 문자열 셋트를 구성하는 제2 문자열에 삽입된 문자의 개수, 삭제된 문자의 개수, 및 대체된 문자의 개수를 기초로 상기 거리값을 산출하는 단계;를 포함할 수 있다.

상기 유사도 산출 수행 단계는, 상기 삽입된 문자의 개수와 상기 삭제된 문자의 개수에 낮은 가중치를 부여하고, 상기 대체된 문자의 개수에 높은 가중치를 부여하여 상기 거리값을 산출할 수 있다.

상기 표준화 수행 단계는, 상기 유사도가 소정의 임계치 이상인 상기 두 개의 문자열 셋트에 대응되는 개체명들을 하나의 개체명으로 정리하는 단계; 및

상기 정리 결과를 반영해 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계;를 포함할 수 있다.

계층형 DB의 포맷으로 작성된 다국가 임상데이터를 관계형 DB의 포맷으로 변경하는 단계;를 더 포함하고, 상기 개체명들 출력 단계는, 상기 관계형 DB의 포맷으로 작성된 상기 다국가 임상데이터로부터 상기 신경망 모델을 이용해 상기 개체명들을 출력할 수 있다.

실시예에 따른 다국가 임상데이터 표준화 장치는, 다국가 임상데이터를 저장하는 메모리; 및 상기 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하고, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 프로세서;를 포함할 수 있다.

본 발명에 따르면, 서로 다른 방법으로 표현된 임상시험 데이터를 표준화된 데이터로 변환하여 줌으로써, 사용자가 원하는 임상시험 데이터를 효율적으로 검색할 수 있게 된다.

특히, 표준화 수행을 위해 미리 정제된 데이터를 이용할 수 있도록 데이터를 가공 및 분류함으로써, 보다 정확하고 빠른 표준화 수행이 이루어질 수 있다.

도 1은 실시예에 따른 다국가 임상데이터 표준화 장치(1)의 블록도이다.

도 2는 실시예에 따른 다국가 임상데이터 표준화 방법을 설명하기 위한 순서도이고, 도 6과 도 7는 도 2의 s3에 대한 구체화된 순서도이며, 도 10은 도 2의 s4에 대한 구체화된 순서도이고, 도 3 내지 도 5, 및 도 8 내지 도 9, 도 11 내지 도 12는 전술한 순서도를 설명하는 데 참조되는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

실시예에 따른 다국가 임상데이터 표준화 장치(1)는 프로세서(10)와 메모리(20)를 포함할 수 있다.

메모리(20)는 다국가 임상데이터 표준화 장치(1)의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리(20)는 다국가 임상데이터 DB(21), 제1 모델(22), 제2 모델(23), 및 임상데이터 개체명 사전(24)를 저장할 수 있다.

프로세서(10)는 각 국가, 즉, 국내와 해외 다수의 국가로부터 수집된 임상데이터를 다국가 임상데이터 DB(21)에 저장할 수 있다. 다국가 임상데이터 DB(21)는 임상시험 제목, 기관명, 질병명, 약물명, 연구자 정보, 피험자 성별, 나이, 성명, 시험 방식 중 적어도 하나의 정보를 포함할 수 있다. 다국가 임상데이터 DB(21)는 계층형 DB(21a)와 관계형 DB(21b)로 구성될 수 있다.

다국가 임상데이터 DB(21)는 임상데이터를 임상시험마다 문서 형태로 저장할 수 있고, 각 임상시험마다 고유 식별 코드를 부여하여 저장할 수 있다.

계층형 DB(21a)는 도 3과 같이, 레코드가 계층 구조를 가지는 세그먼트에 저장되어, 계층형 구조를 가지는 DB일 수 있다. 계층형 DB(21a)는 세그먼트가 부모 세그먼트와 자식 세그먼트로 연결된 구조일 수 있다. 계층형 DB(21a)에서 하나의 부모 세그먼트에는 적어도 하나 이상의 자식 세그먼트가 연결될 수 있다. 세그먼트는, 관계형 DB(21b)의 테이블과 맵핑(Mapping)된 계층형 DB(21a)의 노드(node)일 수 있다. 계층형 DB(21a)는 관계형 DB(21b)와 레코드가 맵핑(Mapping)된 관계일 수 있다.

관계형 DB(21b)는 도 4와 같이, 행과 열로 이루어진 테이블이 다른 테이블과 관계를 맺고 모여 있는 집합체일 수 있다. 행은 튜플 및/또는 레코드일 수 있다. 또한, 열은 필드 및/또는 속성일 수 있다. 맵핑(Mapping)은 관계형 DB(21b)의 테이블내 존재하는 레코드와 계층형 DB(21a)의 세그먼트내 존재하는 레코드를 대응시킨 것일 수 있다.

제1 모델(22)은 프로세서(10)를 통해 다국가 임상데이터로부터 개체명들을 출력하도록 구현된 모델일 수 있다.

제1 모델(22)은 프로세서(10)에 의해, 학습용 다국가 임상데이터를 이용해 학습용 다국가 임상데이터에 포함된 개체명들을 획득하기 위한 신경망 학습을 통해 획득될 수 있다.

실시예에 따르면, 제1 모델(22)로 개체명 인식(Named Entity Recognition, NER) 모델을 이용할 수 있다. 개체명 인식은 이름을 가진 개체를 인식하는 것으로, 어떤 이름을 의미하는 단어에 대해 그 단어가 어떤 유형에 속하는지를 인식하는 알고리즘을 나타낼 수 있다.

제2 모델(23)은 프로세서(10)를 통해 다국가 임상데이터에 컨텍스트를 반영한 임베딩을 적용한 것일 수 있다. 컨텍스트를 반영한 단어/문장/개체/문서 임베딩은 단어/문장/개체/문서를 저차원 공간에서 표현하는 기법으로, 같은 표기의 단어/문장/개체/문서라도 컨텍스트에 따라 상이하게 단어/문장/개체/문서 임베딩을 하는 것으로, 동일한 표기를 하는 단어/문장/개체/문서에서 컨텍스트에 따라 다른 벡터값을 추출할 것이다.

제2 모델(23)은 프로세서(10)에 의해, 학습용 다국가 임상데이터를 이용해 학습용 다국가 임상데이터에 대한 컨텍스트 기반 임베딩값을 획득하기 위한 신경망 학습을 통해 획득될 수 있다. 구체적으로, 제2 모델(23)은 프로세서(10)에 의해, 학습용 다국가 임상데이터의 단어/문장/개체/문서별 컨텍스트 기반 임베딩값을 획득하기 위한 학습을 통해 획득될 수 있다.

실시예에 따르면, 제2 모델(23)로 BERT(Bidirectional Encoder Representations from Transformers) 모델을 이용할 수 있다. BERT 모델은 문장을 양방향으로 학습하는 NLP 모델로, 기 등록된 사전의 단어를 이용하여 미리 학습을 수행하고 학습된 모델을 파인 튜닝하여 구축된다. BERT 모델은 파인 튜닝 과정을 거침으로써 적은 양의 데이터에서도 높은 정확도를 나타내며, 특정 벡터에 주목하게 만들어 성능을 향상시키는 어텐션 기반 모델로 문장이 길어져도 성능이 떨어지지 않아 긴 문장에서도 정확도를 유지할 수 있다는 장점이 있다. 다만, BERT는 일예이며, 이외에도 컨텍스트 기반 벡터값을 추출할 수 있는 모델이면 본 발명에 적용될 수 있다.

프로세서(10)는 다국가 임상데이터 표준화 장치(1)의 전반적인 동작을 제어할 수 있다.

구체적으로, 프로세서(10)는 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하고, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행할 수 있다.

이하, 도 2 내지 도 12를 함께 참조하여 설명한다. 참고로, 본 발명의 각 순서도에 있어서, 각 단계는 일예이며, 각 순서를 다르게 변경 및/또는 조합한 경우에도 본 발명이 동일/유사하게 적용될 수 있다.

실시예에 따르면, 프로세서(10)는 계층형 DB(21a)의 포맷으로 작성된 다국가 임상데이터를 관계형 DB(21b)의 포맷으로 변경할 수 있다(s1).

실시예에 따르면, 프로세서(10)는 하나의 부모 속성에 대응되는 하나의 자식 속성의 개수가 동일한 경우 뿐 아니라, 하나의 부모 속성에 대응되는 하나의 자식 속성의 개수가 상이한 경우(즉, 보다 많은 경우)에도 계층형 DB(21a)의 포맷으로 작성된 다국가 임상데이터를 관계형 DB(21b)의 포맷으로 변경할 수 있다.

예를 들어, 도 3의 Organization 부모 속성에 대응되는 OrgFullName 자식 속성의 개수가 360313으로 동일한 경우 뿐 아니라, SecondaryInfoList 부모 속성(81387개)에 대응되는 SecondaryInfo(SECid) 속성의 개수가 125174로 보다 많은 경우에도, 도 4와 같이 다국가 임상데이터를 관계형 DB(21b)의 포맷으로 변경할 수 있다.

즉, 후자의 경우는, 동일 속성이 반복되는 것을 의미하며, 실시예에 따르면 해당 형태의 계층형 DB(21a)인 경우에도 속성들간에 관계를 새롭게 정의해주거나 새로운 속성을 추가하는 등의 방식을 통해 관계형 DB(21b)의 포맷으로 변경할 수 있다. 그리고, 이를 통해, 계층형 DB(21a)가 동일 속성이 반복되는 복잡한 데이터 구조를 가진 경우에도 관계형 DB(21b)로 용이하게 변경할 수 있게 된다.

프로세서(10)는 관계형 DB(21b)로 작성된 다국가 임상데이터로부터 제1 모델(22)을 이용해 개체명들을 출력할 수 있다(s2).

구체적으로, 프로세서(10)는 다국가 임상데이터로부터 제1 모델(22)을 이용해 다국가 임상데이터의 개체명들을 출력하고, 출력된 개체명들에 대해 제2 모델(23)을 통해 개체명별 컨텍스트가 반영된 개체명별 임베딩값을 출력할 수 있다.

구체적으로, 프로세서(10)는 제1 모델(22)을 이용하여, 개체명 인식을 수행할 수 있다. 프로세서(10)는 메모리(20)에 저장된 개체명 사전(24)을 이용하여, 다국가 임상데이터의 개체명 인식을 수행할 수 있다. 예를 들어, 질병명, 임상시험기관, 증상, 치료제, 임상 참가 조건 등을 인식할 수 있다. 개체명 사전(24)은 다국가 임상데이터에 상응하는 복수의 개체명들 및 복수의 개체명들 각각에 상응하는 복수의 유의어들을 포함할 수 있다.

실시예에 따르면, 프로세서(10)는 개체명 인식에 따라 인식된 개체명이 개체명 사전(24)에 포함되어 있는지 여부를 판단하여 개체명 인식 수행에 성공하였는지 여부를 판단할 수 있다. 만일, 개체명이 개체명 사전(24)에 포함된 경우, NER에 성공한 것으로 판단할 수 있다. 반면, 개체명이 개체명 사전(24)에 포함되지 않은 경우, NER에 실패한 것으로 판단할 수 있다.

실시예에 따르면, 프로세서(10)는 제1 모델(22)을 통해 출력된 개체명들에 대해 품사 표기(Part-of-speech tagging, POS tagging)를 수행할 수 있다. 즉, 개체명에 대한 명사, 형용사, 동사 등의 품사 표기로 나타낼 수 있다.

실시예에 따르면, 프로세서(10)는 제1 모델(22)을 통해 출력된 개체명들 및/또는 품사 표기까지 수행된 개체명들에 대해 제2 모델(23)을 이용해 개체명별 컨텍스트가 반영된 개체명별 임베딩값을 출력할 수 있다. 프로세서(10)는 각 개체명별 토큰을 생성하고, 토큰화된 개체명을 제2 모델(23)에 입력시켜 개체명별 임베딩값을 출력할 수 있다. 프로세서(10)는 임상시험문서들 각각에 대해 개체명별 임베딩값을 출력할 수 있다.

본 발명에 따르면, 개체명들에 대한 품사 표기 및/또는 컨텍스트 임베딩까지 수행한 결과 정보를 추후 개체명들에 대한 유사도 산출 수행 시(s4) 이용할 수 있으며, 이에 따라 다국가 임상데이터에 대한 보다 정확한 유사도 판단이 수행될 수 있다. 이에 대한 내용은 도 4에서 후술한다.

프로세서(10)는 개체명들에 대한 정제를 수행할 수 있다(s3).

도 5의 252 레코드와 256 레코드를 예를 들면, 하나의 속성(LocationContactName)에 대응되어 두 개 이상의 개체명들(John Necomer, M.D./ Bankole Johnson, Dsc, MD, PhD)이 기재된 것을 알 수 있다. 그러나, 해당 속성은 성명만 나타내면 될 뿐, MD, PhD 등의 직업명(또는 포지션명)까지 포함할 필요는 없을 수 있다.

이러한 경우, 실시예에 따르면, 프로세서(10)는 개체명들 중 적어도 두 개의 개체명이 하나의 속성에 대응되는 경우, 소정의 기준에 의해 적어도 두 개의 개체명을 적어도 두 개의 속성에 대응되도록 분리할 수 있다.

구체적으로, 도 6과 도 8을 함께 참조하면, 프로세서(10)는 하나의 속성으로 표현된 적어도 두 개의 개체명을 확인(s31)할 수 있다. 실시예에 따르면, 하나의 레코드 상에서 하나의 속성으로 표현된 적어도 두 개의 개체명이 있는지를 확인할 수 있다.

그리고, 프로세서(10)는 적어도 두 개의 개체명 중 제1 개체명을 기준으로 제1 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색할 수 있다(s32). 구체적으로, 제1 개체명을 키워드로 한 검색 질의를 사용자로부터 입력받아 제1 개체명(예>John Newcomer)에 대응되는 연관 개체명들(예>남, 38, M.D.)을 다국가 임상데이터 DB(21)에서 검색할 수 있다.

이와 마찬가지로, 프로세서(10)는 적어도 두 개의 개체명 중 제2 개체명을 기준으로 제2 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색할 수 있다. 구체적으로, 제2 개체명을 키워드로 한 검색 질의를 사용자로부터 입력받아 제2 개체명(예>M.D.)에 대응되는 연관 개체명들(예>남, 38, John Newcomer)을 다국가 임상데이터 DB(21)에서 검색할 수 있다.

참고로, 도 8의 연관 개체명들은 질병명을 기준으로 한 질병명 리스트로 획득된 것을 예시하였으나, 기관명 등 다른 속성을 기준으로 한 리스트로 획득되는 경우에도 본 발명이 동일/유사하게 적용될 수 있다.

프로세서(10)는 연관 개체명들 사이의 연관도가 임계치 이상인지 여부를 판별할 수 있다(s33). 구체적으로, 제1 개체명을 기준으로 획득된 제1 질병명 리스트 상의 연관 개체명들과 제2 개체명을 기준으로 획득된 제2 질병명 리스트 상의 연관 개체명들 사이의 연관도가 임계치 이상인지 여부를 판별할 수 있다. 보다 구체적으로, 제1 질병명 리스트 상에 포함된 제2 개체명의 비율과 제2 질병명 리스트 상에 포함된 제1 개체명의 비율을 기초로 연관도를 판별할 수 있다.

만일, 연관도가 임계치 이상인 것으로 판별하면, 하나의 속성에 제1 개체명과 제2 개체명이 포함되는 것이 유지되도록 결정할 수 있다(s34). 반면, 연관도가 임계치 미만인 것으로 판별하면, 제1 개체명과 제2 개체명이 두 개의 속성에 대응되도록 개체명 분리를 수행할 수 있다(s35). 예를 들어, 도 8의 경우, John Newcomer에 대응되는 연관 개체명 중 M.D.가 출력되는 비율이 임계치 미만이고, M.D.에 대응되는 연관 개체명 중 John Newcomer가 출력되는 비율이 임계치 미만이므로, 개체명 분리를 수행할 수 있다.

한편, 도 7과 도 9를 함께 참조하면, 프로세서(10)는 적어도 두 개의 속성으로 표현된 적어도 두 개의 개체명을 확인(s311)할 수 있다. 실시예에 따르면, 하나의 레코드 상에서 적어도 두 개의 속성으로 표현된 적어도 두 개의 개체명이 있는지를 확인할 수 있다.

그리고, 프로세서(10)는 적어도 두 개의 개체명 중 제1 개체명을 기준으로 제1 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색하고, 적어도 두 개의 개체명 중 제2 개체명을 기준으로 제2 개체명에 대응되는 연관 개체명들을 다국가 임상데이터 DB(21)에서 검색할 수 있다(s321). 그리고, 프로세서(10)는 연관 개체명들 사이의 연관도가 임계치 이상인지 여부를 판별할 수 있다(s331). 참고로, 도 7의 s321 내지 s331은 도 6의 s32 내지 s33에 동일/유사하게 적용될 수 있다.

만일, 연관도가 임계치 이상인 것으로 판별하면, 하나의 속성에 제1 개체명과 제2 개체명이 포함되도록 개체명 병합을 수행할 수 있다(s341). 반면, 연관도가 임계치 미만인 것으로 판별하면, 제1 개체명과 제2 개체명이 두 개의 속성에 대응되도록 유지할 수 있다(s351). 예를 들어, 도 9의 경우, John Newcomer에 대응되는 연관 개체명 중 M.D.가 출력되는 비율이 임계치 이상이고, M.D.에 대응되는 연관 개체명 중 John Newcomer가 출력되는 비율이 임계치 이상이므로, 개체명 병합을 수행할 수 있다.

즉, 각 키워드를 별도로 검색함으로써 타켓 키워드가 도출되는 비율을 기초로 각 키워드 사이의 연관성을 판별하고, 이를 기초로 하나의 속성에 유지할지 여부를 판별하도록 함으로써, 노이즈가 제거된, 즉, 보다 정제된 데이터 베이스를 획득할 수 있다. 그리고, 정제된 데이터를 기초로 표준화를 수행하도록 함으로써, 불필요한 데이터에 대한 표준화 수행은 이루어지지 않아 데이터 처리 속도를 보다 향상시킬 수 있게 된다.

프로세서(10)는 정제된 개체명들에 대한 유사도 산출을 수행할 수 있다(s4).

구체적으로, 도 10 내지 도 11을 참조하면, 프로세서(10)는 정제된 개체명들에 대응되는 문자열 셋트들을 획득하고(s41), 문자열 셋트들 중 두 개의 문자열 셋트를 선택할 수 있다(s42).

실시예에 따르면, 프로세서(10)는 개체명들에 대한 가유사도 판단 수행 결과를 기초로 두 개의 문자열 셋트를 선택할 수 있다.

실시예에 따르면, 프로세서(10)는 개체명들에 대한 품사 표기 및/또는 컨텍스트 임베딩까지 수행된 상태에서, 해당 수행 결과 정보를 기초로 개체명들에 대한 가유사도를 판별할 수 있다. 그리고, 개체명별 임베딩값을 비교하여 가 유사도가 임계치 이상인 개체명들에 대한 문자열 셋트를 선택할 수 있다. 예를 들어, Newcomer John과 J. Newcomer를 선택할 수 있다.

프로세서(10)는 두 개의 문자열 셋트 사이의 거리값을 산출할 수 있다.

구체적으로, 두 개의 문자열 셋트 각각을 공백을 기준으로 분리하고(s43), 분리된 문자열들을 서로 비교하여 동일 문자열들은 제거할 수 있다(s44). 그리고, 프로세서(10)는 제거되고 남은 나머지 문자열들에 대해, 제1 문자열을 기준으로 제2 문자열에 삽입된 문자의 개수, 삭제된 문자의 개수, 및 대체된 문자의 개수를 산출할 수 있다(s45).

예를 들어, (a)의 Newcomer John과 J. Newcomer에서 동일 문자열인 Newcomer은 제거하고, John과 J를 비교하여, o-h-n의 삭제 문자가 3개인 것을 산출할 수 있다. 그리고, (b)의 Newcomer John과 July. Newcomer에서 동일 문자열인 Newcomer은 제거하고, John과 July를 비교하여, u-l-y의 대체 문자가 3개인 것을 산출할 수 있다.

프로세서(10)는 삽입된 문자의 개수(또는, 삭제된 문자의 개수)와 대체된 문자의 개수에 각각 서로 상이한 가중치를 부여하여, 두 개의 문자열 셋트 사이의 거리값을 산출할 수 있다(s46). 실시예에 따르면, 삽입된 문자의 개수와 삭제된 문자의 개수에는 상대적으로 낮은 가중치를 부여하고, 대체된 문자의 개수에는 상대적으로 높은 가중치를 부여하여 거리값을 산출할 수 있다. 이 때, 삽입된 문자의 개수와 삭제된 문자의 개수에는 서로 동일한 가중치를 부여할 수 있다.

예를 들어, 삽입된 문자의 개수와 삭제된 문자의 개수에는 0.1의 가중치를 부여하고, 대체된 문자의 개수에는 1의 가중치를 부여하면, (a)의 경우 0.3이 거리값으로 산출되고, (b)의 경우 3이 거리값으로 산출될 수 있다.

프로세서(10)는 산출된 거리값을 기초로 정제된 개체명들 사이의 유사도를 산출할 수 있다. 구체적으로, 프로세서(10)는 거리값이 소정의 임계치 미만인 경우 개체명들이 서로 유사한 것으로 판단할 수 있다. 특히, 유사도가 높은 경우 동일한 것으로 판단할 수 있다. 반면, 거리값이 소정의 임계치 이상인 경우 개체명들이 서로 상이한 것으로 판단할 수 있다.

예를 들어, (a)의 경우 서로 동일한 개체명인 것으로 판단하고, (b)의 경우 서로 상이한 개체명인 것으로 판단할 수 있다.

즉, 삽입이나 삭제된 경우는 동일 개체명이 상이하게 작성될 가능성이 높으므로(예> 축약형) 가중치를 낮게 부여하지만, 대체된 경우에는 다른 개체명으로 인식될 가능성이 높으므로 가중치를 높게 부여하는 것이다.

실시예에 따르면, 도 10 내지 도 11의 예는, 각 개체명이 축약형인 경우 특히 유용하게 적용될 수 있다. 예를 들어, 기관명, 성명, 질병명 등의 개체명이 축약형으로도 작성될 수 있는 경우, 축약형의 개체명과 대응되는 원형 개체명을 서로 상이한 개체로 인식하지 않도록 함으로써, 보다 정확한 컨텐츠를 담은 데이터 베이스가 구축될 수 있다.

프로세서(10)는 유사도가 임계치 이상인 두 개의 문자열 셋트에 대응되는 개체명들을 하나의 개체명으로 간주하여 데이터베이스 상에 정리할 수 있다(s46).

즉, Newcomer John과 J. Newcomer은 서로 동일한 개체명인 것으로 판단하여 두 개체명 중 하나를 대표 개체명으로 선정하고 나머지를 대표 개체명으로 변경하여 데이터베이스 상에 정리할 수 있다.

한편, 도 10 내지 도 11에서는 두 개의 문자열 셋트를 선택한 것을 예시하였으나, 적어도 두 개 이상의 문자열 셋트를 선택해서 비교하는 경우 본 발명이 동일/유사하게 적용될 수 있다.

프로세서(10)는 정제된 개체명들에 대한 유사도 산출 수행 결과를 반영해 다국가 임상데이터에 대한 표준화를 수행할 수 있다(s5).

구체적으로, 다국가 임상데이터 DB(21)에 국가별 및/또는 기관별 상이한 속성명을 하나의 통일된 속성명으로 분류할 수 있다. 분류 데이터는 검색에 최적화된 표준 규격을 가지도록 변환될 수 있다. 예를 들어, 도 12를 참조하면, CRIS에서 cris_vt_overview라는 속성, eudra에서 eudra_ct_summary라는 속성, mfds에서 mfds_ct_summary라는 속성을 하나의 Title(BriefTitle, OfficialTitle)이라는 속성으로 분류할 수 있다.

표준화 수행은 영문이 포함된 데이터에 대해서 모두 소문자로 변환하거나 형용사, 부사, 전치사, 특수문자를 제거하는 동작을 포함할 수 있다. 이때, 별도의 불용어 사전을 활용할 수 있으며, 필요에 따라 맞춤법 검사를 수행하여 오타나 잘못 쓰여진 용어에 대해서 표준어로 변환하는 과정을 수행할 수 있다.

표준화 수행은 외국어로 표현된 경우 모두 국어로, 국어로 표현된 경우 모두 외국어로 표현하여 언어를 통일하는 과정, 임상시험 분야에서 자주 쓰이는 임상시험 관련된 용어를 중심으로 처리하는 과정, 또는 같은 의미를 갖거나, 유사한 의미라고 해석될 수 있는 용어를 하나의 통일된 용어로 처리하는 과정을 포함할 수 있으며, 통일된 용어는 임상시험 분야에서 통상의 기술자가 사용하는 용어일 수 있다. 나아가 표준화 과정은 임상시험 분야에서 더 이상 사용되지 않는 용어에 대해서 현 임상시험 분야에서 대체되어 쓰이는 용어로 변환하는 과정을 포함할 수 있다.

본 발명에 따르면, s3 과정을 통해 개체명들에 대한 정제를 수행하고, 정제된 개체명들에 대한 s4 과정의 유사도 산출을 수행하여 동일 개체명은 하나로 정리한 후 표준화를 수행함으로써, 대용량의 다국가 임상데이터에 대한 표준화 수행 시 처리 속도를 보다 향상시킬 수 있게 된다.

이상 설명된 실시 형태는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터로 판독가능한 기록매체에 기록될 수 있다. 상기 컴퓨터로 판독가능한 기록매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터로 판독가능한 기록매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터로 판독가능한 기록매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 실행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 명세서의 양상들은 전체적으로 하드웨어, 전체적으로 소프트웨어 (펌웨어, 상주 소프트웨어, 마이크로 코드 등을 포함 함) 또는 컴퓨터 판독 가능 프로그램 코드가 구현 된 하나 이상의 컴퓨터 판독 가능 매체에 구현 된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.

이상에서 실시예들에 설명된 특징, 구조, 효과 등은 본 발명의 하나의 실시예에 포함되며, 반드시 하나의 실시예에만 한정되는 것은 아니다. 나아가, 각 실시예에서 예시된 특징, 구조, 효과 등은 실시예들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시예들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

또한, 이상에서 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하는 단계;

상기 개체명들에 대한 정제를 수행하는 단계;

상기 정제된 개체명들에 대한 유사도 산출을 수행하는 단계; 및

상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계;를 포함하는,

다국가 임상데이터 표준화 방법.
제 1항에 있어서,

상기 정제 수행 단계는,

상기 개체명들 중 적어도 두 개의 개체명이 하나의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 적어도 두 개의 속성에 대응되도록 분리하는 단계;를 포함하는,

다국가 임상데이터 표준화 방법.
제 1항에 있어서,

상기 정제 수행 단계는,

상기 개체명들 중 적어도 두 개의 개체명이 적어도 두 개의 속성에 대응되는 경우, 소정의 기준을 만족하면 상기 적어도 두 개의 개체명을 하나의 속성에 대응되도록 병합하는 단계;를 포함하는,

다국가 임상데이터 표준화 방법.
제 1항에 있어서,

상기 유사도 산출 수행 단계는,

상기 정제된 개체명들에 대응되는 문자열 셋트들을 획득하는 단계;

상기 문자열 셋트들 중 두 개의 문자열 셋트 사이의 거리값을 산출하는 단계; 및

상기 산출된 거리값을 기초로 상기 유사도를 산출하는 단계;를 포함하는,

다국가 임상데이터 표준화 방법.
제 4항에 있어서,

상기 거리값 산출 단계는,

상기 두 개의 문자열 셋트 중 제1 문자열 셋트를 구성하는 제1 문자열을 기준으로 제2 문자열 셋트를 구성하는 제2 문자열에 삽입된 문자의 개수, 삭제된 문자의 개수, 및 대체된 문자의 개수를 기초로 상기 거리값을 산출하는 단계;를 포함하는,

다국가 임상데이터 표준화 방법.
제 5항에 있어서,

상기 유사도 산출 수행 단계는,

상기 삽입된 문자의 개수와 상기 삭제된 문자의 개수에 낮은 가중치를 부여하고, 상기 대체된 문자의 개수에 높은 가중치를 부여하여 상기 거리값을 산출하는,

다국가 임상데이터 표준화 방법.
제 4항에 있어서,

상기 표준화 수행 단계는,

상기 유사도가 소정의 임계치 이상인 상기 두 개의 문자열 셋트에 대응되는 개체명들을 하나의 개체명으로 정리하는 단계; 및

상기 정리 결과를 반영해 상기 다국가 임상데이터에 대한 표준화를 수행하는 단계;를 포함하는,

다국가 임상데이터 표준화 방법.
제 1항에 있어서,

계층형 DB의 포맷으로 작성된 다국가 임상데이터를 관계형 DB의 포맷으로 변경하는 단계;를 더 포함하고,

상기 개체명들 출력 단계는,

상기 관계형 DB의 포맷으로 작성된 상기 다국가 임상데이터로부터 상기 신경망 모델을 이용해 상기 개체명들을 출력하는,

다국가 임상데이터 표준화 방법.
다국가 임상데이터를 저장하는 메모리; 및

상기 다국가 임상데이터로부터 신경망 모델을 이용해 개체명들을 출력하고, 상기 개체명들에 대한 정제를 수행하고, 상기 정제된 개체명들에 대한 유사도 산출을 수행하고, 상기 유사도 산출 수행 결과를 반영하여 상기 다국가 임상데이터에 대한 표준화를 수행하는 프로세서;를 포함하는,

다국가 임상데이터 표준화 장치.