WO2022114447A1

WO2022114447A1 - 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버

Info

Publication number: WO2022114447A1
Application number: PCT/KR2021/009978
Authority: WO
Inventors: 정지희; 송남구; 조용장
Original assignee: (주)메디아이플러스
Priority date: 2020-11-30
Filing date: 2021-07-30
Publication date: 2022-06-02
Also published as: KR20220075815A; US20240005097A1

Abstract

본 발명의 일 실시예에 따른 유사 임상 시험 데이터 제공 서버에서 실행되는 유사 임상 시험 데이터 제공 방법은 사용자 단말로부터 임상 시험 데이터를 수신하면, 상기 임상 시험 데이터의 종류를 결정하는 단계, 상기 임상 시험 데이터의 종류에 따라 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성하는 단계, 상기 벡터를 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 미리 저장된 벡터 및 상기 벡터 사이의 거리를 산출하는 단계 및 상기 벡터 사이의 거리에 따라 유사 등급을 측정하여 유사 등급이 특정 등급 이하인 임상 시험 데이터를 추출하여 제공하는 단계를 포함한다.

Description

유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버

본 발명은 유사 임상 시험 데이터 제공에 관한 것으로, 보다 구체적으로 사용자에 의해 입력된 임상 시험 데이터와 유사한 임상 시험 데이터를 추출하여 제공하는 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버에 관한 것이다.

바이오 산업의 확대에 따라 신약 개발을 위한 임상 시험(clinical trial) 역시 증가하고 있다. 통상적으로 임상 시험은 새롭게 개발된 의약품 등에 대한 약효 평가 또는 안정성 기준 마련, 적용 가능한 질환의 범위, 적정 투약, 부작용 범위, 해당 의약품 등의 약동, 약력, 약리, 임상적 효과 등을 확인하고 이상 반응 또는 약물 유해 반응을 조사하기 위하여 사람을 대상으로 실시하는 시험 또는 연구라고 정의할 수 있다.

이러한 임상 시험은 종래 종이 매체 기반 관리 체계(Case Report Form. CRF)를 통하여 이용되고 있는데, 다수의 피험자를 대상으로 진행되는 수차례의 면담, 약제 투여, 검사, 평가와 그 과정에서 수집된 데이터를 종이 매체에 기입하고 이를 통계 분석하여 임상 시험의 가설 또는 목적을 객관적이고 귀험적으로 검증하는 방식으로 이용되고 있다.

그러나 이러한 종이 매체 기반의 임상 시험 데이터 관리는 데이터 보관, 유지 및 보안 자체가 극히 취약함은 물론, 자료 공유, 데이터의 재가공, 시험 또는 심사 기간의 가변성 내지 유동성, 후속 참조 및 활용 등이 극도로 제한되는 본질적인 문제점을 가지고 있다고 할 수 있다.

근래, 이러한 문제점을 해소하기 위하여 일부 전자 데이터 기반의 임상 시험 관리 시스템(electronic Case Report Form, eCRF)이 개시되어 있다. 이러한 임상 시험 관리 시스템은 임상 시험 데이터를 저장하는 임상 데이터 데이터베이스를 포함한다.

한편, 임상 시험 관리 시스템은 임상 데이터 데이터베이스에 저장되어 있는 임상 데이터를 임상 연구자에게 제공한다. 따라서, 임상 연구를 하는 연구자들은 연구 주제를 고려하여 필요한 항목들을 검색한다.

본 발명은 사용자에 의해 입력된 임상 시험 데이터와 유사한 임상 시험 데이터를 추출하여 제공하는 유사 임상 시험 데이터 제공 방법 및 이를 실행하는 서버를 제공하는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

이러한 목적을 달성하기 위한 유사 임상 시험 데이터 제공 서버에서 실행되는 유사 임상 시험 데이터 제공 방법은 사용자 단말로부터 임상 시험 데이터를 수신하면, 상기 임상 시험 데이터의 종류를 결정하는 단계, 상기 임상 시험 데이터의 종류에 따라 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성하는 단계, 상기 벡터를 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 미리 저장된 벡터 및 상기 벡터 사이의 거리를 산출하는 단계 및 상기 벡터 사이의 거리에 따라 유사 등급을 측정하여 유사 등급이 특정 등급 이하인 임상 시험 데이터를 추출하여 제공하는 단계를 포함한다.

또한 이러한 목적을 달성하기 위한 유사 임상 시험 데이터 제공 서버는 사용자 단말로부터 임상 시험 데이터를 수신하면, 상기 임상 시험 데이터의 종류를 결정하고, 상기 임상 시험 데이터의 종류에 따라 전처리를 실행하는 전처리부, 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성하는 데이터 특징 추출부 및 상기 벡터를 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 미리 저장된 벡터 및 상기 벡터 사이의 거리를 산출하고, 상기 벡터 사이의 거리에 따라 유사 등급을 측정하여 유사 등급이 특정 등급 이하인 임상 시험 데이터를 추출하여 제공하는 유사 임상 시험 데이터 추출부를 포함한다.

전술한 바와 같은 본 발명에 의하면, 사용자에 의해 입력된 임상 시험 데이터와 유사한 임상 시험 데이터를 추출하여 제공할 수 있다는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 유사 임상 시험 데이터 제공 시스템을 설명하기 위한 네트워크 구성도이다.

도 2는 본 발명의 일 실시예에 따른 유사 임상 시험 데이터 제공 서버의 내부 구조를 설명하기 위한 블록도이다.

도 3은 본 발명에 따른 유사 임상 시험 데이터 제공 방법의 일 실시예를 설명하기 위한 흐름도이다.

도 4는 본 발명에 따른 유사 임상 시험 데이터 제공 방법의 다른 일 실시예를 설명하기 위한 흐름도이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.

본 명세서에서 사용된 용어 중 “임상 시험 데이터”는 웹 또는 데이터베이스를 통해 수집된 데이터를 의미하며, 비정형 데이터 및 정형화 데이터를 포함한다.

정형 데이터는 CRIS 등록 번호, 요약제목 국문, 요약제목 영문, 승인 상태, 승인일 등과 같은 메타 데이터를 포함하는 데이터를 의미하고, 비정형 데이터는 임상 시험 결과 등과 같이 자연어로 나열되어 있는 데이를 의미한다.

도 1은 본 발명의 일 실시예에 따른 유사 임상 시험 데이터 제공 시스템은 사용자 단말(100_1~100_N) 및 유사 임상 시험 데이터 제공 서버(200)를 포함한다.

사용자 단말(100_1~100_N)은 임상 시험 데이터를 유사 임상 시험 데이터 제공 서버(200)에 제공하여 유사 임상 시험 데이터 제공 서버(200)로부터 임상 시험 데이터와 유사한 유사 임상 시험 데이터를 수신하는 사용자가 보유하는 단말이다. 이러한 사용자 단말(100_1~100_N)은 스마트폰, 테블릿 PC, 노트북, 데스크탑 등으로 구현될 수 있다.

유사 임상 시험 데이터 제공 서버(200)는 사용자 단말(100_1~100_N)로부터 임상 시험 데이터를 수신하면, 임상 시험 데이터와 유사한 임상 시험 데이터를 추출하여 제공하는 서버이다.

이를 위해, 유사 임상 시험 데이터 제공 서버(200)는 웹 또는 임상 시험 데이터베이스를 통해 임상 시험 데이터를 수집하여 전처리를 실행한다. 이때, 유사 임상 시험 데이터 제공 서버(200)는 임상 시험 데이터가 정형화 데이터인지 또는 비정형화 데이터인지 여부에 따라 서로 다른 전처리를 실행한다.

일 실시예에서, 유사 임상 시험 데이터 제공 서버(200)는 임상 시험 데이터가 정형화된 데이터인 경우, 임상 시험 데이터의 메타 데이터 각각에 대한 서브 벡터를 생성하고, 메타 데이터 각각에 대한 서브 벡터를 이용하여 벡터를 생성한다.

유사 임상 시험 데이터 제공 서버(200)는 상술한 과정을 통해 산출된 가중치를 정규화 혹은 tf-idf와 같이 다른 형태로 전처리한 후, 벡터를 학습시켜 학습 모델을 생성한다. 이러한 학습 모델은 추후에 사용자 단말(100_1~100_N)로부터 정형화된 임상 시험 데이터를 수신하면 임상 시험 데이터와 유사한 임상 시험 데이터를 추출할 수 있도록 하는 모델이다.

다른 일 실시예에서, 유사 임상 시험 데이터 제공 서버(200)는 임상 시험 데이터가 비정형화된 데이터인 경우, 임상 시험 데이터에서 미리 결정된 임상 불이용 단어를 삭제하거나 미리 결정된 임상 불이용 단어 품사를 삭제한 후 토큰화한다. 이때, 미리 결정된 임상 불이용 단어 품사는 관사, 전치사, 접속사, 감탄사 등을 포함할 수 있다.

예를 들어, 유사 임상 시험 데이터 제공 서버(200)는 임상 시험 데이터 “A Randomized, Double Blind Trial of LdT(Telbivudine) Versus Lamivudine in Adults With Compensated Chronic Hepatitis B”를 수신하면, 미리 결정된 임상 불이용 단어인 “A”, “of”, “in”, “with”, “B”를 삭제한다.

그런 다음, 유사 임상 시험 데이터 제공 서버(200)는 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 데이터를 공백을 기준으로 단어를 추출하고, 임상 시험 데이터에서 단어의 빈도 수를 측정한다.

그 후, 유사 임상 시험 데이터 제공 서버(200)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.

예를 들어, 유사 임상 시험 데이터 제공 서버(200)는 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 데이터를 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516(단어, 형태소)) … 등의 토큰을 생성할 수 있다.

상기와 같이 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 데이터를 기초로 토큰이 생성된 후, 유사 임상 시험 데이터 제공 서버(200)는 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.

일 실시예에서, 유사 임상 시험 데이터 제공 서버(200)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어 종류(즉, 영어, 중국어, 한국어 등), 단어가 임상 시험 데이터에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여하여 문서 단어 행렬을 생성한다.

그런 다음, 유사 임상 시험 데이터 제공 서버(200)는 음수 미포함 행렬 분해(Non-negative Matrix Factorization) 머신러닝 알고리즘을 통해 문서 단어 행렬을 (임상 시험 데이터의 수 * k) 크기의 행렬 및 (k * 단어 수) 크기의 행렬로 분해한다. 이때, 정수 k는 하이퍼파리미터(즉, 토픽 넘버)로, 클러스터링 하고자 하는 토픽 수로 결정될 수 있다. 예를 들어, k는 질병의 수 등으로 결정될 수 있다.

상기와 같은 과정을 통해, 임상 시험 데이터 및 상기 단어 각각을 상기 상기 k개의 토픽 중 어느 하나의 토픽으로 클러스터링함으로써 제1 행렬 및 제2 행렬은 업데이트될 수 있다.

그런 다음, 유사 임상 시험 데이터 제공 서버(200)는 제1 행렬 및 제2 행렬을 이용하여 학습 모델을 생성한다. 이러한 학습 모델은 추후에 사용자 단말(100_1~100_N)로부터 비정형화된 임상 시험 데이터를 수신하면 임상 시험 데이터와 유사한 임상 시험 데이터를 추출할 수 있도록 하는 모델이다.

이하에서는, 학습 모델을 이용하여 임상 시험 데이터와 유사한 임상 시험 데이터를 추출하는 과정을 설명하기로 한다.

먼저, 유사 임상 시험 데이터 제공 서버(200)는 사용자 단말(100_1~100_N)로부터 임상 시험 데이터를 수신하면, 임상 시험 데이터의 종류에 따라 상술한 것과 같은 과정을 통해 벡터화한다.

그런 다음, 유사 임상 시험 데이터 제공 서버(200)는 사용자 단말(100_1~100_N)로부터 수신된 임상 시험 데이터를 기초로 생성된 행렬 및 학습 모델의 행렬 사이의 거리를 산출하여 임상 시험 데이터 사이의 유사도를 산출할 수 있다.

상기와 같은 과정을 거친 후, 임상 시험 주요 키워드 예측 서버(200)는 학습 모델의 벡터 및 사용자 단말(100_1~100_N)로부터 수신된 임상 시험 데이터를 기초로 생성된 벡터 사이의 거리에 따라 유사 임상 시험 데이터를 추출하여 제공할 수 있다.

도 2를 참조하면, 유사 임상 시험 데이터 제공 서버(200)는 전처리부(210), 임상 불용어 데이터베이스(220), 데이터 특징 추출부(230), 사용자 입력 수신부(240) 및 유사 임상 시험 데이터 추출부(250)를 포함한다.

전처리부(210)는 웹 또는 임상 시험 데이터베이스를 통해 임상 시험 데이터를 수집하여 전처리를 실행한다. 이때, 전처리부(210)는 임상 시험 데이터가 정형화 데이터인지 또는 비정형화 데이터인지 여부에 따라 서로 다른 전처리를 실행한다.

일 실시예에서, 전처리부(210)는 임상 시험 데이터가 정형화된 데이터인 경우, 임상 시험 데이터의 메타 데이터를 추출한다.

그런 다음, 전처리부(210)는 벡터를 학습시켜 학습 모델을 생성한다. 이러한 학습 모델은 추후에 사용자 단말(100_1~100_N)로부터 정형화된 임상 시험 데이터를 수신하면 임상 시험 데이터와 유사한 임상 시험 데이터를 추출할 수 있도록 하는 모델이다.

다른 일 실시예에서, 전처리부(210)는 임상 시험 데이터가 비정형화된 데이터인 경우, 임상 시험 데이터에서 미리 결정된 임상 불이용 단어를 삭제하거나 미리 결정된 임상 불이용 단어 품사를 삭제한 후 토큰화한다. 이때, 미리 결정된 임상 불이용 단어 품사는 관사, 전치사, 접속사, 감탄사 등을 포함할 수 있다.

예를 들어, 전처리부(210)는 임상 시험 데이터 “A Randomized, Double Blind Trial of LdT(Telbivudine) Versus Lamivudine in Adults With Compensated Chronic Hepatitis B”를 수신하면, 미리 결정된 임상 불이용 단어인 “A”, “of”, “in”, “with”, “B”를 삭제한다.

그런 다음, 전처리부(210)는 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 데이터를 공백을 기준으로 단어를 추출하고, 임상 시험 데이터에서 단어의 빈도 수를 측정한다.

그 후, 전처리부(210)는 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성한다.

예를 들어, 전처리부(210)는 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 데이터를 (빈도 수: 1000번, (단어, 형태소 값)), (빈도 수: 234번, (단어, 형태소)), (빈도수: 2541번, (단어, 형태소)), (빈도수: 2516(단어, 형태소)) … 등의 토큰을 생성할 수 있다.

데이터 특징 추출부(230)는 전처리부(210)에 의해 생성된 정보를 이용하여학습 모델을 생성한다.

일 실시예에서, 데이터 특징 추출부(230)는 전처리부(210)에 의해 생성된 메타 데이터 각각을 이용하여 서브 벡터를 생성하고, 메타 데이터 각각에 대한 서브 벡터를 이용하여 벡터를 생성한다.

다른 일 실시예에서, 데이터 특징 추출부(230)는 전처리부(210)에 의해 생성된 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여한다.

즉, 데이터 특징 추출부(230)는 토큰 각각에 대해서 해당 토큰의 단어를 구현하는 언어 종류(즉, 영어, 중국어, 한국어 등), 단어가 임상 시험 데이터에서 존재하는 위치 및 토큰에 할당된 레이블의 빈도 수에 따라 서로 다른 가중치를 부여하여 문서 단어 행렬을 생성한다.

먼저, 데이터 특징 추출부(230)는 하기의 [수학식 1]을 기초로 임상 시험 타이틀에서 생성된 전체 토큰의 개수 및 각각의 토큰의 순서를 이용하여 제1 가중치를 산출한다.

W1: 토큰의 제1 가중치,

input_data: 임상 시험 타이틀,

token(): 임상 시험 타이틀에 대한 토큰화를 실행한 후 전체 토큰의 개수를 반환하는 함수,

token_i: 전체 토큰의 개수 중 i 번째 토큰의 번호,

i: 토큰의 위치를 지시하는 번호

L: 언어의 종류에 따라 미리 결정된 중요 값

즉, 데이터 특징 추출부(230)는 [수학식 1]을 기초로 전체 토큰의 개수를 기준으로 토큰의 순서가 어느 정도인지 여부 및 언어의 종류에 따라 미리 결정된 중요 값에 제1 가중치를 산출한다.

예를 들어, 데이터 특징 추출부(230)는 전체 토큰의 개수가 12개 이고 토큰의 순서가 4번째인 경우, “0.25”를 산출하고, 언어의 종류에 따라 미리 결정된 중요 값을 반영하여 제1 가중치를 산출할 수 있다.

이때, 언어의 종류에 따라 미리 결정된 중요 값은 언어의 종류 별로 중요한 단어가 어느 위치에 나타내는지 여부에 따라 변경될 수 있다. 즉, 언어의 종류에 따라 미리 결정된 중요 값은 현재 토큰의 번호에 따라 변경될 수 있다.

그런 다음, 데이터 특징 추출부(230)는 하기의 [수학식 2] 및 [수학식 3]을 기초로 토큰 각각에 대해서 토큰에 미리 할당된 레이블이 지시하는 빈도 수와 이전 토큰 및 다음 토큰 각각에 미리 할당된 레이블이 지시하는 빈도 수를 이용하여 제2 가중치를 산출할 수 있다.

Difference_value: 빈도 수의 평균 값

token_i: 전체 토큰의 개수 중 i 번째 토큰,

token_i-1: 전체 토큰의 개수 중 i 번째 토큰의 이전 토큰,

token_i+1: 전체 토큰의 개수 중 i 번째 토큰의 다음 토큰,

f(): 토큰에 할당된 레이블이 지시하는 빈도 수를 추출하는 함수,

i: 토큰의 위치를 지시하는 번호

W2: 토큰의 제2 가중치,

Difference_Value: [수학식 2]에서 산출된 빈도 수의 평균 값,

Threshold: 임계값

상기와 같이, 데이터 특징 추출부(230)는 [수학식 1] 내지 [수학식 3]를 기초로 제1 가중치 및 제2 가중치를 산출한 후, 제1 가중치 및 제2 가중치를 이용하여 최종적인 가중치를 산출하여 할당하여 문서 단어 행렬을 생성한다.

그런 다음, 데이터 특징 추출부(230)는 음수 미포함 행렬 분해(Non-negative Matrix Factorization) 머신러닝 알고리즘을 통해 문서 단어 행렬을 (임상 시험 데이터의 수 * k) 크기의 행렬 및 (k * 단어 수) 크기의 행렬로 분해한다. 이때, 정수 k는 하이퍼파리미터(즉, 토픽 넘버)로, 클러스터링 하고자 하는 토픽 수로 결정될 수 있다. 예를 들어, k는 질병의 수 등으로 결정될 수 있다.

그런 다음, 데이터 특징 추출부(230)는 제1 행렬 및 제2 행렬을 이용하여 학습 모델을 생성한다. 이러한 학습 모델은 추후에 사용자 단말(100_1~100_N)로부터 비정형화된 임상 시험 데이터를 수신하면 임상 시험 데이터와 유사한 임상 시험 데이터를 추출할 수 있도록 하는 모델이다.

사용자 입력 수신부(240)는 사용자 단말(100_1~100_N)로부터 임상 시험 데이터를 수신하면, 임상 시험 데이터의 종류에 따라 전처리부(210) 및 데이터 특징 추출부(230)는 전처리 및 데이터 특징 추출이 실행하도록 한다.

유사 임상 시험 데이터 추출부(250)는 사용자 단말(100_1~100_N)로부터 수신된 임상 시험 데이터가 전처리부(210) 및 데이터 특징 추출부(230)를 통해 벡터가 추출되면, 벡터를 미리 학습된 학습 모델에 입력한다.

유사 임상 시험 데이터 추출부(250)는 학습 모델에서 미리 저장된 벡터 및 상기 벡터 사이의 거리를 산출하고, 상기 벡터 사이의 거리에 따라 유사 등급을 측정하여 유사 등급이 특정 등급 이하인 임상 시험 데이터를 추출하여 제공한다.

도 3을 참조하면, 유사 임상 시험 데이터 제공 서버(200)는 웹 또는 임상 시험 데이터베이스를 통해 임상 시험 데이터를 수집하여(단계 S310), 상기 임상 시험 데이터의 종류를 결정하고(단계 S320), 상기 임상 시험 데이터의 종류에 따라 전처리를 실행한다(단계 S330).

유사 임상 시험 데이터 제공 서버(200)는 상기 임상 시험 데이터의 종류에 따라 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성한다(단계 S340).

유사 임상 시험 데이터 제공 서버(200)는 벡터를 학습시켜 학습 모델을 생성한다(단계 S350).

도 4를 참조하면, 유사 임상 시험 데이터 제공 서버(200)는 사용자 단말로부터 임상 시험 데이터를 수신하면(단계 S410), 상기 임상 시험 데이터의 종류를 결정하고(단계 S420), 상기 임상 시험 데이터의 종류에 따라 전처리를 실행한다(단계 S430).

유사 임상 시험 데이터 제공 서버(200)는 상기 임상 시험 데이터의 종류에 따라 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성한다(단계 S440).

유사 임상 시험 데이터 제공 서버(200)는 벡터를 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 미리 저장된 벡터 및 상기 벡터 사이의 거리를 산출한다(단계 S450))

유사 임상 시험 데이터 제공 서버(200)는 벡터 사이의 거리에 따라 유사 등급을 측정하여 유사 등급이 특정 등급 이하인 임상 시험 데이터를 추출하여 제공한다(단계 S460).

한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

유사 임상 시험 데이터 제공 서버에서 실행되는 유사 임상 시험 데이터 제공 방법에 있어서,

사용자 단말로부터 임상 시험 데이터를 수신하면, 상기 임상 시험 데이터의 종류를 결정하는 단계;

상기 임상 시험 데이터의 종류에 따라 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성하는 단계;

상기 벡터를 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 미리 저장된 벡터 및 상기 벡터 사이의 거리를 산출하는 단계; 및

상기 벡터 사이의 거리에 따라 유사 등급을 측정하여 유사 등급이 특정 등급 이하인 임상 시험 데이터를 추출하여 제공하는 단계를 포함하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 방법.
제1항에 있어서,

상기 임상 시험 데이터의 종류에 따라 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성하는 단계는

상기 임상 시험 데이터 종류가 정형 데이터인 경우 임상 시험 데이터의 메타 데이터 각각에 대한 서브 벡터를 생성하고, 메타 데이터 각각에 대한 서브 벡터를 이용하여 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 방법.
제1항에 있어서,

상기 임상 시험 데이터의 종류에 따라 상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성하는 단계는

상기 임상 시험 데이터 종류가 비정형 데이터인 경우 임상 시험 타이틀 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하는 단계;

상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성하는 단계; 및

상기 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여하여 문서 단어 행렬을 생성하는 단계를 포함하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 방법.
제3항에 있어서,

상기 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여하여 문서 단어 행렬을 생성하는 단계는

음수 미포함 행렬 분해(Non-negative Matrix Factorization) 머신러닝 알고리즘을 통해 문서 단어 행렬을 (임상 시험 데이터의 수 * k개의 토픽 수)크기의 제1 행렬 및 (k개의 토픽 수 * 단어 수) 크기의 제2 행렬로 분해하는 단계; 및

상기 임상 시험 데이터 및 상기 단어 각각을 상기 상기 k개의 토픽 중 어느 하나의 토픽으로 클러스터링하여 제1 행렬 및 제2 행렬을 업데이트하는 단계를 포함하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 방법.
유사 임상 시험 데이터 제공 서버에 있어서,

사용자 단말로부터 임상 시험 데이터를 수신하면, 상기 임상 시험 데이터의 종류를 결정하고, 상기 임상 시험 데이터의 종류에 따라 전처리를 실행하는 전처리부;

상기 임상 시험 데이터의 메타 데이터 각각을 이용하여 벡터를 생성하거나 상기 임상 시험 데이터에서 추출된 단어를 토큰화하여 벡터를 생성하는 데이터 특징 추출부;

상기 벡터를 미리 학습된 학습 모델에 입력하고, 상기 학습 모델에서 미리 저장된 벡터 및 상기 벡터 사이의 거리를 산출하고, 상기 벡터 사이의 거리에 따라 유사 등급을 측정하여 유사 등급이 특정 등급 이하인 임상 시험 데이터를 추출하여 제공하는 유사 임상 시험 데이터 추출부를 포함하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 서버.
제5항에 있어서,

상기 데이터 특징 추출부는

상기 임상 시험 데이터 종류가 정형 데이터인 경우 임상 시험 데이터의 메타 데이터 각각에 대한 서브 벡터를 생성하고, 메타 데이터 각각에 대한 서브 벡터를 이용하여 벡터를 생성하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 서버.
제5항에 있어서,

상기 데이터 특징 추출부는

상기 임상 시험 데이터 종류가 비정형 데이터인 경우 임상 시험 타이틀 데이터에서 미리 결정된 임상 불이용 단어를 삭제하고, 미리 결정된 임상 불이용 단어가 삭제된 임상 시험 타이틀 데이터를 공백을 기준으로 단어를 추출하고, 상기 단어 각각에 대한 형태소 분석을 실행하여 단어 및 형태소 값이 쌍으로 이루어지고, 빈도 수를 지시하는 레이블이 할당된 토큰을 생성하고, 상기 토큰 각각에 대해서 해당 토큰의 단어 및 토큰의 레이블에 따라 토큰 각각에 서로 다른 가중치를 부여하여 문서 단어 행렬을 생성하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 서버.
제5항에 있어서,

상기 데이터 특징 추출부는

음수 미포함 행렬 분해(Non-negative Matrix Factorization) 머신러닝 알고리즘을 통해 문서 단어 행렬을 (임상 시험 데이터의 수 * k개의 토픽 수)크기의 제1 행렬 및 (k개의 토픽 수 * 단어 수) 크기의 제2 행렬로 분해하고, 상기 임상 시험 데이터 및 상기 단어 각각을 상기 상기 k개의 토픽 중 어느 하나의 토픽으로 클러스터링하여 제1 행렬 및 제2 행렬을 업데이트하는 것을 특징으로 하는

유사 임상 시험 데이터 제공 서버.