KR102505518B1

KR102505518B1 - 의약품 개발을 위한 데이터 분석 방법 및 시스템

Info

Publication number: KR102505518B1
Application number: KR1020210049872A
Authority: KR
Inventors: 오성민
Original assignee: 오성민
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2023-03-02
Also published as: KR20220143402A

Abstract

본 발명은, 비임상 및 임상 데이터 중에서 적어도 하나를 포함하는 의약 품개발에 필요한 데이터를 수신하는 단계; 의약품 개발에 필요한 데이터를 분석하는 단계; 및 의약품 개발에 필요한 데이터에 포함된 컨텐츠 중에서 객체의 분석 결과를 Raw Data로 변환하는 단계를 포함하는 데이터 분석 방법을 개시한다. 본 발명에 따르면, 의약품 개발에 필요한 임상 데이터 및 비임상 데이터가 Raw Data로 분석되고 시각화될 수 있다.

Description

의약품 개발을 위한 데이터 분석 방법 및 시스템{DATA ANALYSIS METHOD AND SYSTEM FOR A DRUG DEVELOPMENT}

본 발명은 의약품 개발을 위한 데이터 분석 방법 및 시스템에 관한 것으로, 더욱 상세하게는 의약품 개발에 필요한 의학적 활용 논문, 임상 및 비임상 데이터를 분석하고, 분석 결과를 검색에 적합한 데이터 포맷으로 저장하고, 저장된 데이터를 검색 및 이를 시각화하는 방법 및 이를 이용하는 시스템에 관한 것이다.

의약품 개발은 기전연구, 비임상시험, 임상시험, FDA/EMA/MFDS/CFDA 심사, 의약품 판매허가 및 시판 후 조사 과정을 포함하도록 구성될 수 있다.

임상시험 실행 수는 21세기 들어 놀랍게 증가했다. 2000년에 등록된 임상시험은 총 2119건이었으나 2019년 12월에는 150배나 많은 32만 5592건이었다. 1938년에 미국 식품의약국(FDS)에서 약물을 심사하기 시작한 이래 2018년 12월까지 허가된 약물은 총 1900 가지다. 그 중에서 2018년에 총 59가지 약물이 허가됐지만 상업적으로 성공할 가능성이 있는 약물은 몇 가지 되지 않는다.

의약품 개발에 연계된 연구는 실험실에서 시작된다. 기초연구를 통해 질병의 원인이 되는 단백질(유전자)이 탐구 된다. 이 과정은 개발사보다 대학 연구실 또는 비영리연구기관에서 보통 이루어진다.

예를 들어 활성화된 인산화 효소나 양이 너무 많이 발현되는 세포막에 노출된 호르몬수용체 혹은 G-단백질 등이 암 발생의 원인이다. 특정 단백질이 암의 원인으로 규명되면 이 단백질은 약물 타겟이 된다. 타겟 단백질들은 연구논문을 조사하면 수없이 많이 찾을 수 있다.

다음으로 치료용 후보 약물로서 이 타겟 단백질의 기능을 억제하는 물질을 탐구 되어야 한다. 제약회사에서는 가용한 화학물질들과 자체적으로 새로 합성한 화학물질들 중에서 타겟의 기능을 조절하는 물질을 선별한다

새로운 물질이 디자인된 후에는 이 물질들이 타겟 단백질과 상호작용하는 기전이 실험적으로 밝혀져야 한다. 이 과정에 동물실험 결과가 포함되는 경우가 많으며, 동물실험 결과는 비임상시험 설계 및 임상시험용 의약품(Investigational New Drug, IND) 신청에 사용된다.

시험결과는 특허 신청 외에도 논문으로 발표될 수 있다. 이 단계에서 수십만 내지 수백만개의 분자들이 선별되 10여개 후보물질이 발굴된다, 이 과정은 운이 좋으면 1년 정도 소요되지만 10년 가까이 소요되는 경우도 있다.

의약품개발 과정에서 기초 연구과정은 의약학적 개발목표, 즉 목표 효능 및 작용기전의 설정, 신물질의 설계, 합성 및 효능검색 연구의 반복을 통한 개발대상 물질을 선정하는 단계이다.

그런데 기초 연구과정에서 의학적 활용 가능한 임상 및 비임상 로데이터(Raw Data) 확보에 어려움이 존재한다. 더욱이 의료기기 및 의약품 개발사들의 로데이터 미확보로 인한 개발계획이 장기화되고 있어 문제가 된다.

의약품 개발에 필요한, 각종 데이터, 예를 들어 질병의 원인이 되는 타겟 단백질 규명에 관한 데이터, 타겟 단백질의 기능을 조절하는 치료용 후보 물질 설계에 관한 데이터, 후보 물질과 타겟 단백질의 상호작용하는 기전을 실험적으로 규명한 데이터, 비임상 및 임상시험과 관련된 데이터는 텍스트와 테스트 외의 컨텐츠를 포함할 수 있다. 여기서 테스트 외의 컨텐츠는, 그래프, 차트, 및 도표에 관한 이미지를 포함할 수 있다.

의약품 개발에 필요한 데이터가 공개된 경우, 텍스트 외의 이미지 컨텐츠는 텍스트 컨텐츠와 비교하여 검색에 어려움이 있을 수 있다. 일반적인 이미지 검색은, 이미지에 포함된 특정 객체, 예를 들어 강아지, 고양이를 키워드로 용이하게 검색되거나, 특정 객체가 포함된 샘플 이미지를 이용하여 검색될 수 있지만, 의학 논문 등에 포함된 그래프, 차트, 및 표 등은 컨텐츠의 주제 외에는 검색식 작성의 범위가 한정되어 있다. 따라서, 의학 논문 등에 포함된 그래프, 차트 및 표 등을 검색이 용이한 로데이터로 변환할 수 있게 하는 데이터 분석, 데이터 변환 및 데이터 저장 방법에 대한 연구가 필요하다.

본 발명과 관련된 기술로서, 대한민국 등록특허 공보에 개시된, 의약 정보 제공 방법 및 시스템은, 의학 전문가인 오피니언 리더에 의한 의학 정보를 사용자에게 제공하는 기술에 관한 것으로, 웹사이트 접속 단계, 화면 출력 단계, 인증 단계, 데이터베이스 저장 단계 및 인터뷰 내용 출력 단계가 포함된 방법을 개시하는 점에서, 의약품 개발에 필요한 정보를 구축하고 이를 이용할 수 있게 하는 방법 및 시스템에 해당하는 본 발명과는 목적, 구성 및 효과와 확연하게 구별된다.

KR 공개 특허 제10-2020-0031550호 (2020.03.24 공개)

본 발명이 해결하고자 하는 일 과제는, 바이오마커 발굴 및 의약품개발에 필요한 논문 데이터, 임상 데이터 및 비임상 데이터를 분석하고 이를 체계적으로 저장할 수 있는 방법 및 시스템을 제공하는 것이다.

본 발명이 해결하고자 하는 일 과제는, 바이오마커 발굴 및 의약품 개발에 필요한 정보로서 분석된 논문 데이터, 의학적으로 활용이 가능한 임상 데이터 및 비임상 데이터에 기반하는 정보 검색에 있어서 이를 시각화하여 제공할 수 있는 방법 및 시스템을 개발하는 것이다.

본 발명이 해결하고자 하는 일 과제는, 머신러닝 기술을 활용하여 바이오마커 발굴 및 의약품 개발에 필요한 임상 데이터 및 비임상 데이터를 분석하는 것이다.

본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법은, 비임상 및 임상 데이터 중에서 적어도 하나를 포함하는 의약품 개발에 필요한 데이터를 수신하는 단계; 의약품 개발에 필요한 데이터를 분석하는 단계; 및 의약품 개발에 필요한 데이터에 포함된 컨텐츠 중에서 객체의 분석 결과를 로데이터로 변환하는 단계를 포함하도록 구성될 수 있다.

또한, 의약품 개발에 필요한 데이터는, 질병의 원인이 되는 타겟 단백질의 규명, 상기 타겟 단백질의 기능을 조절하는 치료용 후보 물질의 설계 및 상기 물질과 상기 타겟 단백질이 상호작용하는 기전의 실험적 규명에 관한 비임상 및 임상 데이터 중에서 적어도 하나를 포함하도록 구성될 수 있다.

또한, 의약품 개발을 위한 데이터 분석 방법은, 상기 의약품 개발에 필요한 데이터를 수집하는 단계를 더 포함하도록 구성될 수 있다.

또한, 의약품 개발에 필요한 데이터를 분석하는 단계는, 의약품 개발에 필요한 데이터의 파일을 분석하는 단계; 파일에 포함된 객체를 검출하는 단계; 및 객체에 포함된 정보를 분석하는 단계를 포함하도록 구성될 수 있다.

또한, 의약품 개발에 필요한 데이터를 분석하는 단계는, 깊이 우선 탐색 및 너비 우선 탐색 중에서 적어도 하나를 이용하여 의약품 개발에 필요한 데이터에 포함된 차트 및 그래프의 분석을 포함하도록 구성될 수 있다.

또한, 의약품 개발에 필요한 데이터를 분석하는 단계는, 설명적 분석(Descriptive analysis), 탐색적 분석(Exploratory analysis), 추론적 분석(Inferential analysis), 예측적 분석(Predictive analysis), 인과적 분석(Casual analysis) 및 역학적 분석(Mechanics analysis) 중에서 적어도 하나에 기반하는 것을 특징으로 한다.

또한, 의약품 개발에 필요한 데이터를 분석하는 단계는, 인공지능 알고리즘에 기반하는 학습 모델을 이용하여 의약품 개발에 필요한 데이터에 포함된 차트 및 그래프의 형상을 학습하는 단계; 및 학습 모델을 통해 상기 형상에 기반하여 차트 및 그래프를 분류하는 단계를 포함하도록 구성될 수 있다.

또한, 의약품 개발을 위한 데이터 분석 방법은, 차트 및 그래프의 형상을 입력으로 하는 인공지능 학습 기반의 데이터 검색 단계를 더 포함하도록 구성될 수 있다.

또한, 의약품 개발을 위한 데이터 분석 방법은, 검색 결과로서 상기 로데이터를 시각화하는 단계를 더 포함하도록 구성될 수 있다.

본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 시스템은, 수집된 의약품 개발에 필요한 데이터를 수신하는 통신 장치; 의약품 개발에 필요한 데이터를 분석하는 데이터 분석 모듈; 데이터 분석에 기반하여 상기 의약품 개발에 필요한 데이터를 로데이터로 변환하는 데이터 변환 모듈; 및 로데이터를 시각화하는 데이터 시각화 모듈을 포함하도록 구성될 수 있다.

또한, 의약품 개발을 위한 데이터 분석 시스템은, 차트 및 그래프의 형상을 입력으로 하는 인공지능 모델 학습 기반의 그래프 검색 모듈을 더 포함하도록 구성될 수 있다.

또한, 의약품 개발을 위한 데이터 분석 모델은, 1차 내지 4차 합성곱 레이어(Convolutional Layer)를 포함하되, 각 차수의 합성곱 레이어 다음에 Max-pooling Layer를 포함하도록 구성될 수 있다.

또한, 합성곱 레이어는, 확장 CNN(Dilated Convolutional Neural Network)의 Layer에 해당할 수 있다.

또한, 합성곱 레이어는, 3*3*3(가로*세로*컬러 채널)의 커널 사이즈의 필터를 포함하도록 구성될 수 있다.

또한, 의약품 개발을 위한 데이터 분석 모델, 1차 및 2차 Fully Connected Layer를 포함하되, 각 차수의 Fully Connected Layer 앞에 Dropout Layer를 더 포함하도록 구성될 수 있다.

기타 실시 예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.

본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시 예를 참조하면 명확해질 것이다.

그러나 본 발명은 이하에서 개시되는 각 실시 예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.

본 발명에 의하면, 의약품 개발에 필요한 임상 데이터 및 비임상 데이터가 로데이터로 분석되고 시각화될 수 있다.

또한, 차트 및 그래프와 같은 시각화 데이터가 파라미터를 이용하여 텍스트로 변환 및 저장될 수 있다.

또한, 시각화 데이터에서 변환된 파라미터 정보를 기반으로 시각화 데이터의 검색이 용이하다.

또한, 시각화 데이터에서 변환된 파라미터 정보를 이용하여 로데이터의 기각화가 가능하다.

도 1은 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 시스템의 네트워크 관계도이다.
도 2는 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 장치의 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법의 흐름도이다.
도 4는 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법의 흐름도이다.
도 5는 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법 중 N-gram 모델의 예시도이다.
도 6은 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법 중 BFS 및 DFS의 예시도이다.
도 7은 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법 중 인공 신경망을 이용한 그래프 분석의 예시도이다.

본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.

즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시 예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.

또한, 본 명세서에서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.

본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.

더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"라고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결하기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.

반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.

마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.

또한, 본 명세서에서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.

또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.

또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.

본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.

또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대해 상세한 설명은 생략될 수도 있다.

이하, 본 발명의 실시 예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.

본 발명의 일 실시 예에 따른 의약품 개발 관련 데이터는, 논문 데이터 및 실험 데이터를 포함하도록 구성되며, 논문 데이터 및 실험 데이터는 비임상 데이터 및 임상 데이터를 포함하도록 구성될 수 있다.

구체적으로 본 발명의 일 실시 예에 따른 의약품 개발 관련 데이터는, 의약품 개발 과정 중에서 질병의 원인이 되는 타겟 단백질을 규명, 타겟 단백질의 기능을 조절하는 치료용 물질의 설계, 물질과 타겟 단백질의 상호작용에 의한 기전 규명에 관한 비임상 데이터 및 임상시험 데이터를 포함하도록 구성될 수 있다.

도 1은 본 발명의 일 실시 예에 따른 의약품 개발에 필요한 데이터 분석 시스템의 네트워크 관계도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 의약품 개발에 필요한 데이터 분석 시스템(10)은, 데이터 분석 장치(100), 사용자 단말(200), 서버(300) 및 네트워크(500)를 포함하도록 구성될 수 있다.

데이터 분석 장치(100)는 의약품 개발 관련 데이터를 수집하고, 이를 분석을 통해 분류하고, 분류에 따라 데이터를 로데이터로 변환하고, 그리고 검색에 대응되는 로데이터를 시각화하는 기능을 한다.

사용자 단말(200)은, 데이터 분석 장치(100)를 서버로 하는 경우, 클라이언트에 해당하며, 데이터 분석 장치(100)에 접속하여 의약품 개발 관련 데이터를 수집하고, 이를 분석하고, 분석을 통해 구축된 데이터베이스를 검색할 수 있는 기능을 한다.

서버(300)는, 의약품 개발 관련 데이터의 수집, 분석, 데이터 변환 및 시각화 작업에 필요한 각종 파일, 각종 API, 예를 들어 인공지능 API, 각종 데이터, 예를 들어 의약품 개발 관련 논문 데이터, 임상 데이터 및 비임상 데이터를 데이터 분석 장치(100)에 제공하는 기능을 한다.

네트워크(500)는 유선 및 무선 네트워크, 예를 들어 시리얼 통신, LAN(local area network), WAN(wide area network), 인터넷(internet), 인트라넷(intranet) 및 엑스트라넷(extranet), 그리고 모바일 네트워크, 예를 들어 셀룰러, 3G, LTE, WiFi 네트워크, 애드혹 네트워크 및 이들의 조합을 비롯한 임의의 적절한 통신 네트워크 일 수 있다.

네트워크(500)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(500)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(500)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.

도 2는 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 장치의 블록도이다.

도 2를 참조하면, 데이터 분석 장치(100)는 제어부(110), 입력 장치(120), 출력 장치(130), 저장 장치(140), 통신 장치(150) 및 메모리(160)를 포함하도록 구성될 수 있다. 여기서, 메모리(160)는 데이터 분석 모듈(161), 데이터 Raw Data 변환 모듈(162), 그래프 검색 모듈(163), 데이터 시각화 모듈(164) 및 인공지능 모델(165)을 포함하도록 구성될 수 있다.

제어부(110)는 기본적으로 입력 장치(120), 출력 장치(130), 저장 장치(140) 및 통신 장치(150)의 동작을 제어할 수 있다. 또한 제어부(110)는 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법과 관련하여 메모리(160)에 저장된 모듈의 동작을 제어할 수 있다. 제어부(1100는 프로세서 형태로 구현될 수 있다.

입력 장치(120)는, 사용자에 의해 입력되는 명령, 체납자에 관한 데이터 등을 수신하는 장치로, 키보드, 터치패드, 마우스 및 문서 스캔 장치 등을 포함하도록 구성될 수 있다.

출력 장치(130)는, 체납자에 관한 데이터, 데이터 분석에 따른 각종 분석 결과를 디스플레이 하는 모니터를 포함하도록 구성될 수 있다.

저장 장치(140)는, 체납자에 관한 데이터, 각종 데이터 분석에 따른 각종 분석 결과를 저장할 수 있는 각종 미디어, 예를 들어 하드 디스크(HDD), 솔리드 스테이트 디스크(SSD), 자기 테이프 등을 포함하도록 구성될 수 있다.

통신 장치(150)는, 의약품 개발을 위한 데이터 분석 시스템(10)을 구성하는 서버(300), 사용자 단말(200)과 네트워크(500) 및 해당 프로토콜을 통해 통신이 가능하도록 하는 통신 모듈, 예를 들어 이더넷과 같은 네트워크 어댑터를 포함하도록 구성될 수 있다. 그 밖에 통신 장치(150)는 각종 네트워크를 이용하는 통신에 맞는 통신 모듈, 예를 들어 근거리 통신 모듈, 무선랜 모듈, 무선통신 모듈 등을 포함하도록 구성될 수 있다.

본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 장치(100)는 데이터 분석 방법을 수행하도록 구성된 컴퓨팅 장치, 예를 들어 컴퓨터이다. 의약품 개발을 위한 데이터 분석 장치(100)는 데이터 분석 방법에 포함된 하부 단계를 수행하는 하나 이상의 기능성 모듈을 포함하도록 구성될 수 있다. 기능성 모듈은 모든 기능을 수행하는 하나의 모듈 또는 특징 있는 기능들을 각각 수행하는 복수의 모듈일 수 있다.

기능성 모듈은 하드웨어 또는 하드웨어와 소프트웨어의 조합을 통해 구현될 수 있다. 예를 들어 기능성 모듈은 데이터 분석 방법에 관한 코드, 예를 들어 명령어 코드를 포함하는 IC 형태로 구현되거나 컴퓨터 프로그램 형태의 명령어 코드로 구현되어 저장 장치 및 메모리에 저장될 수 있다. 이하 메모리(160)에 저장된 컴퓨터 프로그램 형태의 기능성 모듈에 대해서 상세히 설명하기로 한다.

데이터 분석 모듈(161)은, 다양한 데이터 분석 방법을 수행하도록 구성될 수 있다. 이러한 데이터 분석 방법에는, 설명적 분석(Descriptive analysis), 탐색적 분석(Exploratory analysis), 추론적 분석(Inferential analysis), 예측적 분석(Predictive analysis), 인과적 분석(Casual analysis) 및 역학적 분석(Mechanics analysis)이 포함될 수 있다. 그 밖에 N-Gram 분석 방법, 인공지능 알고리즘 기반의 학습 모델을 이용하는 분석 방법이 데이터 분석 모듈(161)에 의해 수행될 수 있다.

Raw Data 변환 모듈(162)은 데이터 분석의 결과를 로데이터로 변환하는 기능을 수행하도록 구성될 수 있다. 로데이터는 비임상 및 임상 데이터에 해당하는 실험 데이터일 수 있다. Raw Data 변환 모듈(162)은 가공된 데이터의 분석을 통해 로데이터를 추출하는 기능을 한다.

그래프 검색 모듈(163)은, 로데이터로 변환된 의약품 개발에 필요한 데이터로 구축된 데이터베이스에서 사용자로 하여금 데이터 검색을 가능하게 한다.

데이터 시각화 모듈(164) 사용자에 의한 검색 결과로서, 추출된 로데이터에 기반하여 다양한 응용을 통해 이를 시각화하여 표시하는 기능을 수행하도록 구성될 수 있다.

인공지능 모델(165)은 지도 학습, 준지도 학습, 또는 비지도 학습 형태로 시각화된 데이터를 학습하고, 학습된 경험에 기반하여 의약품 개발에 필요한 데이터로부터 추출된 객체의 특징을 로데이터로 변환하는 기능을 수행하도록 구성될 수 있다.

도 3은 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법의 흐름도이다.

도 3을 참조하면, 데이터 분석 방법(S100)은 수집된 의약품 개발에 필요한 데이터를 수신하는 단계(S110), 수신된 의약품 개발에 필요한 데이터를 분석하는 단계(S120), 의약품 개발에 필요한 데이터에 포함된 컨텐츠 중에서 객체 분석의 결과를 로데이터로 변환하는 단계(S130), 로데이터 기반의 데이터 검색 및 검색 결과로서 로데이터를 시각화하는 단계(S140)를 포함하도록 구성될 수 있다.

의약품 개발을 위한 데이터 분석 장치(100) 또는 데이터 분석 모듈(161)은

설명적 분석(Descriptive analysis), 탐색적 분석(Exploratory analysis), 예측적 분석(Predictive analysis), 인과적 분석(Casual analysis) 및 역학적 분석(Mechanics analysis) 중에서 적어도 하나에 기반하는 것을 특징으로 한다.

설명적 분석(Descriptive analysis)은 주어진 데이터를 요약/집계하여 결과를 도출하는 사용될 수 있다. 본 발명의 일 실시 예에서 Pie chart, Box plot, Bar plot 등의 그래프 분석에 이 방법이 사용될 수 있고, 요약 형식의 데이터 테이블도 주로 이러한 유형의 분석의 결과물이다.

탐색적 분석(Exploratory analysis)은 EDA라고도 불리는데, 이 분석의 주요 목표는 여러 변수 간 트렌드나 패턴, 관계를 찾는 것인데, 본 발명의 일 실시 예에서 그래프(주로 Plot)를 통한 사실 확인이 가능하다.

추론적 분석(Inferential analysis)은 샘플과 모집단 간의 관계를 탐구하는 것이 이 분석의 목적이다. 본 발명의 일 실시 예에서 자원이 한정되어 있어 샘플 크기를 무한정 늘릴 수 없기 때문에 발생하는 일반적인 문제를 해결하기 위한 분석에 이 분석 방법이 사용될 수 있다.

예측적 분석(Predictive analysis)은, 머신 러닝(Machine learning), 의사결정나무(Decision Tree) 등 다양한 통계적 기법을 사용하여 미래 혹은 발생하지 않은 어떤 사건에 대한 예측을 하는 것을 주요 목표로 한다. 본 발명의 일 실시 예에서 머신 러닝 중에서 인공 신경망, 예를 들어 합성곱 신경망인 CNN이 시각화된 데이터의 분석에 이용될 수 있다.

인과적 분석(Causal analysis)은 독립 변수와 종속 변수 간의 인과관계가 있는지 여부를 확인하기 위한 분석이다. 인과적 분석은, 선형 Regression이 가장 많이 사용되는 분석 방법이며, 변수가 여러 개일 경우 Multivariable regression, 변수가 범주형일 경우 Logistics regression이 사용된다.

역학적 분석(Mechanistic analysis)은 독립 변수가 어떤 매커니즘으로 종속 변수에 영향을 미치는지를 분석하는 것으로, 역학적 분석의 목적은 어떠한 독립 변수가 어떤 작용을 통해 독립 변수에 영향을 미치는지를 이해시키는 것이다.

의약품 개발을 위한 데이터 분석 장치(100) 또는 Raw Data 변환 모듈(162)은, 다양한 분석 방법을 통해 분석된, 의약품 개발에 필요한 데이터, 예를 들어 텍스트 데이터 및 객체 데이터, 예를 들어 그래프, 데이터 테이블 및 차트와 같은 시각화된 데이터를 로데이터로 변환할 수 있다. 본래 시각화된 데이터는 실험 데이터인 로데이터에 기반하나, 본 발명의 일 실시 예에 따른 데이터 분석은, 시각화된 데이터로부터 역으로 추적하여 로데이터를 추출하는 것을 특징으로 한다.

의약품 개발을 위한 데이터 분석 장치(100) 또는 그래프 검색 모듈(163)은, 의약품 개발에 필요한 데이터를 구성하는 여러 종류의 데이터 예를 들어, 로데이터에 해당하는 마이크로 데이터, 매크로 데이터 및 메타 데이터로 구축된 데이터베이스를 이용하여 의약품 개발에 필요한 데이터를 검색할 수 있게 한다.

의약품 개발을 위한 데이터 분석 장치(100) 또는 데이터 시각화 모듈(164)은, 사용자에 의해 검색된 로데이터를 시각화하여 그래프 또는 차트 등으로 표시할 수 있다.

의약품 개발을 위한 데이터 분석 장치(100) 또는 인공지능 모델(165)은 훈련 데이터 셋을 이용하여 의약품개발에 필요한 데이터를 학습하고, 학습된 경험에 기반하여 데이터를 분석, 예를 들어 데이터 분류, 특징 추출 및 데이터 인식을 할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법의 흐름도이다.

도 4를 참조하면, 도 3에 묘사된 의약품 개발에 필요한 데이터 분석 단계(S120)는, 의약품 개발에 필요한 데이터의 파일 분석(S121), 파일에 포함된 객체를 검출하는 단계(S122), 및 검출된 객체의 정보를 분석하는 단계(S123)를 포함하도록 구성될 수 있다.

먼저, 데이터 분석 장치(100) 또는 데이터 분석 모듈(161)은 수신된 의약품 개발에 필요한 데이터를 구성하는 각 파일을 분석할 수 있다(S121). 파일 분석 과정은 의약품 개발에 필요한 데이터, 예를 들어 PDF 포맷의 논문 파일에 포함된 텍스트 외의 예를 들어 그래프, 데이터 테이블, 및 차드와 같은 시각화된 데이터를 추출하기 위한 사전 과정이다.

다음으로 데이터 분석 장치(100) 또는 데이터 분석 모듈(161)은 파일의 포맷에 따라 데이터 파일의 헤더를 분석하고, 분석에 따른 헤더 정보를 이용하여 파일에 포함된 그래프, 데이터 테이블, 및 차트에 해당하는 OLE(Object linking and embedding) 객체의 데이터를 검출할 수 있다.

다음으로, 데이터 분석 장치(100) 또는 데이터 분석 모듈(161)은 검출된 객체의 정보를 분석할 수 있다. 정보 분석은, 검출된 객체, 즉 그래프, 데이터 테이블, 및 차트가 표현하는 내용, 즉 컨텐츠를 분석하는 과정이다. 본 발명의 여러 실시 예를 통해 컨텐츠 분석에서 다양한 방법이 사용될 수 있다.

도 5는 본 발명의 일 실시 예에 따른 의약품 개발 관련 데이터의 분석 방법 중 N-gram 모델의 예시도이다.

도 5를 참조하면, N-gram 모델의 이용하는 데이터 분석 방법의 예시가 묘사되어 있다.

N-gram 모델은 자연어 처리, 정보 검색 등에서 활용되는 시퀀스 데이터 표현 방식이다. 자연어 처리에서 문서 또는 문장을 벡터로 변환해 자연어 처리의 여러 응용 분야에 활용될 수 있다.

본 발명의 일 실시 예에서 N-gram 모델은 데이터에 포함된 단어들의 분포들을 고려하여 데이터의 유사도를 계산해서 문서 분류에 활용될 수 있다.

N-gram에서 N은 연속된 단어의 개수를 의미한다. 여기서 각 단어는 토큰이라 하며 토큰 개수(N)에 따라 N-gram 모델은 unigram, bigram, 및 trigram으로 불려질 수 있다.

그래프는 정점과 간선으로 이루어진 자료구조의 일종이다. 그래프의 탐색은 하나의 정점으로부터 시작하여 차례대로 모든 정점들을 한 번씩 방문하는 것으로 구성될 수 있다. 그래프 탐색은, 예를 들어 특정 도시에서 다른 도시로 갈 수 있는지 없는지, 전자 회로에서 특정 단자들이 서로 연결되어 있는지를 탐색하는 것에 비유될 수 있다.

도 6은 본 발명의 일 실시 예에 따른 의약품 개발 관련 데이터의 분석 방법 중 BFS 및 DFS의 예시도이다.

도 6을 참조하면, 본 발명의 일 실시 예에 따른 의약품 개발 관련 데이터의 차트 및 그래프 분석은 깊이 우선 탐색(Depth-first Search, DFS)에 기반할 수 있다.

DFS는 루트 노드, 또는 다른 임의의 노드에서 시작해서 다음 분기로 넘어가기 전에 해당 분기를 완벽하게 탐색하는 방법이다. 미로를 탐색할 때 한 방향으로 갈 수 있을 때까지 계속 나가다 더 이상 갈 수 없게 되면 다시 가장 가까운 갈림길로 돌아와서 이곳으로부터 다른 방향으로 다시 탐색을 진행하는 방법과 유사하다. 즉 DFS는 넓게 탐색하기 전에 깊게 탐색하는 방법이다. 모든 노드를 방문하고자 하는 경우에 이 방법이 선택된다. DFS가 BFS보다 좀 더 간단하다. 검색 속도 자체는 DFS가 BFS에 비해서 느리다.

DFS의 특징은, 자시 자신을 호출하는 순환 알고리즘의 형태를 지닌다. 이 알고리즘을 구현할 때 가장 큰 차이점은 그래프의 경우 어떤 노드를 방문했는지 여부를 반드시 검사해야 한다는 것이다. 이를 검사하지 않을 경우 무한루프에 빠질 위험이 있다.

DFS에 의해 N개의 정점 및 E 개의 간선을 갖는 그래프의 모든 간선이 조회된다. 인접 리스트로 표현된 그래프에서 N+E의 조회 수가, 인접 행렬로 표현된 그래프에서 N²의 조회 수가 필요하다.

본 발명의 일 실시 예에 따른 의약품 개발 관련 데이터의 차트 및 그래프 분석은 너비 우선 탐색(Breadth-first Search, BFS)에 기반할 수 있다.

BFS는 루트 노드, 또는 다른 임의의 노드에서 시작해서 인접한 노드를 먼저 탐색하는 방법이다. BFS는 시작 정점으로부터 가까운 정점을 먼저 방문하고 멀리 떨어져 있는 정점을 나중에 방문하는 순회 방법이다. 즉 BFS에서는 깊게 탐색하기 전에 넓게 탐색된다. 두 노드 사이의 최단 경로 혹은 임의의 경로를 찾고 싶을 때 이 방법이 선택될 수 있다. 예를 들어 지구 상에 존재하는 모든 친구 관계를 그래프로 표현한 후, 특정 인물 사이에 존재하는 경로를 찾는 경우가 이에 비유될 수 있다. 깊이 우선 탐색의 경우 모든 친구 관계를 다 살펴봐져야 한다. 너비 우선 탐색의 경우 특정 인물과 가까운 관계부터 탐색될 수 있다.

BFS는 재귀적으로 동작하지 않는다. 이 알고리즘을 구현할 때 가장 큰 차이점은 그래프 탐색의 경우 어떤 노드를 방문했었는지 여부를 반드시 검사해야 한다는 것이다. 이를 검사하지 않을 경우 무한 루프에 빠질 위험이 있다.

BFS는 방문한 노드들을 차례로 저장한 후 꺼낼 수 있는 자료 구조인 큐(queue)가 사용된다. 즉 선입선출(FIFO) 원칙으로 탐색된다.

BFS 과정은, 깊이가 1인 모든 노드를 방문하고 나서 그 다음에는 깊이가 2인 모든 노드를, 그 다음에는 깊이가 3인 모든 노드를 방문하는 식으로 계속 방문하다가 더 이상 방문할 곳이 없으면 탐색을 마친다.

본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법에 있어서 인공지능 알고리즘에 기반하는 학습 모델이 이용될 수 있다. 학습 모델은 의약품 개발에 필요한 데이터 중에서, 특히 시각화된 데이터, 예를 들어 그래프, 데이터 테이블 및 차트의 특징을 학습을 통해 인식하고, 특징에 기반하여 여러가지 분석의 기초가 되는 메타 데이터를 출력 할 수 있다. 학습 결과에 따라 데이터의 종류, 차트 및 그래프의 모양 별로 데이터가 분류할 수 있다.

인공 지능(artificial intelligence, AI)은 인간의 지능으로 할 수 있는 사고, 학습, 자기계발 등을 컴퓨터가 할 수 있도록 하는 방법을 연구하는 컴퓨터 공학 및 정보기술의 한 분야로, 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 것을 의미한다.

머신 러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야이다.

구체적으로 머신 러닝은, 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이라 할 수 있다. 머신 러닝의 알고리즘들은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식을 취한다.

인공 신경망은 생물학적 뉴런의 동작원리와 뉴런간의 연결 관계를 모델링한 것으로 노드(node) 또는 처리 요소(processing element)라고 하는 다수의 뉴런들이 레이어(layer) 구조의 형태로 연결된 정보처리 시스템이다.

인공 신경망은 기계 학습에서 사용되는 모델로써, 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계 중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다.

구체적으로 인공 신경망은 시냅스(synapse)의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다.

인공 신경망은 복수의 레이어(layer)를 포함할 수 있고, 레이어들 각각은 복수의 뉴런(neuron)을 포함할 수 있다. 또한 인공신경망은 뉴런과 뉴런을 연결하는 시냅스를 포함할 수 있다.

인공 신경망은 일반적으로 다음의 세가지 인자, 즉 (1) 다른 레이어의 뉴런들 사이의 연결 패턴 (2) 연결의 가중치를 갱신하는 학습 과정 (3) 이전 레이어로부터 수신되는 입력에 대한 가중 합으로부터 출력값을 생성하는 활성화 함수에 의해 정의될 수 있다.

인공 신경망은, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network), MLP(Multilayer Perceptron), CNN(Convolutional Neural Network)와 같은 방식의 네트워크 모델들을 포함할 수 있으나, 이에 한정되지 않는다.

인공 신경망은 계층 수에 따라 단층 신경망(Single-Layer Neural Networks)과 다층 신경망(Multi-Layer Neural Networks)으로 구분된다.

일반적인 단층 신경망은, 입력층과 출력층으로 구성된다.

또한 일반적인 다층 신경망은 입력층(Input Layer)과 하나 이상의 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성된다.

입력층은 외부의 자료들을 받아들이는 층으로서, 입력층의 뉴런 수는 입력되는 변수의 수와 동일하며, 은닉층은 입력층과 출력층 사이에 위치하며 입력층으로부터 신호를 받아 특성을 추출하여 출력층으로 전달한다. 출력층은 은닉층으로부터 신호를 받고, 수신한 신호에 기반한 출력 값을 출력한다. 뉴런간의 입력신호는 각각의 연결강도(가중치)와 곱해진 후 합산되며 이 합이 뉴런의 임계치보다 크면 뉴런이 활성화되어 활성화 함수를 통하여 획득한 출력값을 출력한다.

한편 입력층과 출력 층 사이에 복수의 은닉층을 포함하는 심층 신경망은, 기계 학습 기술의 한 종류인 딥 러닝을 구현하는 대표적인 인공 신경망일 수 있다.

인공 신경망은 훈련 데이터(training data)를 이용하여 학습(training)될 수 있다. 여기서 학습이란, 입력 데이터를 분류(classification)하거나 회귀분석(regression)하거나 군집화(clustering)하는 등의 목적을 달성하기 위하여, 학습 데이터를 이용하여 인공 신경망의 파라미터(parameter)를 결정하는 과정을 의미할 수 있다. 인공 신경망의 파라미터의 대표적인 예시로써, 시냅스에 부여되는 가중치(weight)나 뉴런에 적용되는 편향(bias)을 들 수 있다.

훈련 데이터에 의하여 학습된 인공 신경망은, 입력 데이터를 입력 데이터가 가지는 패턴에 따라 분류하거나 군집화 할 수 있다.

한편 훈련 데이터를 이용하여 학습된 인공 신경망을, 본 명세서에서는 학습 모델(a trained model)이라 명칭할 수 있다.

인공 신경망의 학습 방식은 크게, 지도 학습, 비 지도 학습, 준 지도 학습(Semi-Supervised Learning), 강화 학습(Reinforcement Learning)으로 분류될 수 있다.

지도 학습은 훈련 데이터로부터 하나의 함수를 유추해내기 위한 기계 학습의 한 방법이다.

그리고 이렇게 유추되는 함수 중, 연속 적인 값을 출력하는 것을 회귀분석(Regression)이라 하고, 입력 벡터의 클래스(class)를 예측하여 출력하는 것을 분류(Classification)라고 할 수 있다.

지도 학습에서는, 훈련 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시킨다.

여기서 레이블이란, 훈련 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과 값)을 의미할 수 있다.

본 명세서에서는 훈련 데이터가 입력되는 경우 인공 신경망이 추론해 내야 하는 정답(또는 결과값)을 레이블 또는 레이블링 데이터(labeling data)이라 명칭 한다.

또한 본 명세서에서는, 인공 신경망의 학습을 위하여 훈련 데이터에 레이블을 설정하는 것을, 훈련 데이터에 레이블링 데이터를 레이블링(labeling) 한다고 명칭한다.

이 경우 훈련 데이터와 훈련 데이터에 대응하는 레이블)은 하나의 트레이닝 셋(training set)을 구성하고, 인공 신경망에는 트레이닝 셋의 형태로 입력될 수 있다.

한편 훈련 데이터는 복수의 특징(feature)을 나타내고, 훈련 데이터에 레이블이 레이블링 된다는 것은 훈련 데이터가 나타내는 특징에 레이블이 달린다는 것을 의미할 수 있다. 이 경우 훈련 데이터는 입력 객체의 특징을 벡터 형태로 나타낼 수 있다.

인공 신경망은 훈련 데이터와 레이블링 데이터를 이용하여, 훈련 데이터와 레이블링 데이터의 연관 관계에 대한 함수를 유추할 수 있다. 그리고, 인공 신경망에서 유추된 함수에 대한 평가를 통해 인공 신경망의 파라미터가 결정(최적화)될 수 있다.

비 지도 학습은 기계 학습의 일종으로, 훈련 데이터에 대한 레이블이 주어지지 않는다.

구체적으로, 비 지도 학습은, 훈련 데이터 및 훈련 데이터에 대응하는 레이블의 연관 관계 보다는, 훈련 데이터 자체에서 패턴을 찾아 분류하도록 인공 신경망을 학습시키는 학습 방법일 수 있다.

비 지도 학습의 예로는, 군집화 또는 독립 성분 분석(Independent Component Analysis)을 들 수 있다.

본 명세서에서 용어 '군집화'는 용어 '클러스터링'과 혼용되어 사용될 수 있다.

비지도 학습을 이용하는 인공 신경망의 일례로 생성적 적대 신경망(GAN: Generative Adversarial Network), 오토 인코더(AE: Autoencoder)를 들 수 있다.

생성적 적대 신경망이란, 생성기(generator)와 판별기(discriminator), 두 개의 서로 다른 인공지능이 경쟁하며 성능을 개선하는 머신 러닝 방법이다.

이 경우 생성기는 새로운 데이터를 창조하는 모형으로, 원본 데이터를 기반으로 새로운 데이터를 생성할 수 있다.

또한 판별기는 데이터의 패턴을 인식하는 모형으로, 입력된 데이터가 원본 데이터인지 또는 생성기에서 생성한 새로운 데이터인지 여부를 감별하는 역할을 수행할 수 있다.

그리고 생성기는 판별기를 속이지 못한 데이터를 입력 받아 학습하며, 판별기는 생성기로부터 속은 데이터를 입력 받아 학습할 수 있다. 이에 따라 생성기는 판별기를 최대한 잘 속이도록 진화할 수 있고, 판별기는 원본 데이터와 생성기에 의해 생성된 데이터를 잘 구분하도록 진화할 수 있다.

오토 인코더는 입력 자체를 출력으로 재현하는 것을 목표로 하는 신경망이다.

오토 인코더는 입력층, 적어도 하나의 은닉층 및 출력층을 포함한다.

이 경우 은닉 계층의 노드 수가 입력 계층의 노드 수보다 적으므로 데이터의 차원이 줄어들게 되며, 이에 따라 압축 또는 인코딩이 수행되게 된다.

또한 은닉 계층에서 출력한 데이터는 출력 계층으로 들어간다. 이 경우 출력 계층의 노드 수는 은닉 계층의 노드 수보다 많으므로, 데이터의 차원이 늘어나게 되며, 이에 따라 압축 해제 또는 디코딩이 수행되게 된다.

한편 오토 인코더는 학습을 통해 뉴런의 연결 강도를 조절함으로써 입력 데이터가 은닉층 데이터로 표현된다. 은닉층에서는 입력층보다 적은 수의 뉴런으로 정보를 표현하는데 입력 데이터를 출력으로 재현할 수 있다는 것은, 은닉층이 입력 데이터로부터 숨은 패턴을 발견하여 표현했다는 것을 의미할 수 있다.

준지도 학습은 기계 학습의 일종으로, 레이블이 주어진 훈련 데이터와 레이블이 주어지지 않은 훈련 데이터를 모두 사용하는 학습 방법을 의미할 수 있다.

준지도 학습의 기법 중 하나로, 레이블이 주어지지 않은 훈련 데이터의 레이블을 추론한 후 추론된 라벨을 이용하여 학습을 수행하는 기법이 있으며, 이러한 기법은 레이블링에 소요되는 비용이 큰 경우에 유용하게 사용될 수 있다.

강화 학습은, 에이전트(Agent)가 매 순간 어떤 행동을 해야 좋을지 판단할 수 있는 환경이 주어진다면, 데이터 없이 경험으로 가장 좋을 길을 찾을 수 있다는 이론이다.

강화 학습은 주로 마르코프 결정 과정(MDP: Markov Decision Process)에 의하여 수행될 수 있다.

마르코프 결정 과정을 설명하면, 첫 번째로 에이전트가 다음 행동을 하기 위해 필요한 정보들이 구성된 환경이 주어지며, 두 번째로 그 환경에서 에이전트가 어떻게 행동할지 정의하고, 세 번째로 에이전트가 무엇을 잘하면 보상(reward)을 주고 무엇을 못하면 벌점(penalty)을 줄지 정의하며, 네 번째로 미래의 보상이 최고점에 이를 때까지 반복 경험하여 최적의 정책(policy)을 도출하게 된다.

인공 신경망은 모델의 구성, 활성 함수(Activation Function), 손실 함수(Loss Function) 또는 비용 함수(Cost Function), 학습 알고리즘, 최적화 알고리즘 등에 의해 그 구조가 특정되며, 학습 전에 하이퍼파라미터(Hyperparameter)가 미리 설정되고, 이후에 학습을 통해 모델 파라미터(Model Parameter)가 설정되어 내용이 특정될 수 있다.

예컨대, 인공 신경망의 구조를 결정하는 요소에는 은닉층의 개수, 각 은닉층에 포함된 은닉 노드의 개수, 입력 특징 벡터(Input Feature Vector), 대상 특징 벡터(Target Feature Vector) 등이 포함될 수 있다.

하이퍼파라미터는 모델 파라미터의 초기값 등과 같이 학습을 위하여 초기에 설정하여야 하는 여러 파라미터들을 포함한다. 그리고, 모델 파라미터는 학습을 통하여 결정하고자 하는 여러 파라미터들을 포함한다.

예컨대, 하이퍼파라미터에는 노드 간 가중치 초기값, 노드 간 편향 초기값, 미니 배치(Mini-batch) 크기, 학습 반복 횟수, 학습률(Learning Rate) 등이 포함될 수 있다. 그리고, 모델 파라미터에는 노드 간 가중치, 노드 간 편향 등이 포함될 수 있다.

손실 함수는 인공 신경망의 학습 과정에서 최적의 모델 파라미터를 결정하기 위한 지표(기준)로 이용될 수 있다. 인공 신경망에서 학습은 손실 함수를 줄이기 위하여 모델 파라미터들을 조작하는 과정을 의미하며, 학습의 목적은 손실 함수를 최소화하는 모델 파라미터를 결정하는 것으로 볼 수 있다.

손실 함수는 주로 평균 제곱 오차(MSE: Mean Squared Error) 또는 교차 엔트로피 오차(CEE, Cross Entropy Error)를 사용할 수 있으며, 본 발명이 이에 한정되지는 않는다.

교차 엔트로피 오차는 정답 레이블이 원 핫 인코딩(one-hot encoding)된 경우에 사용될 수 있다. 원 핫 인코딩은 정답에 해당하는 뉴런에 대하여만 정답 레이블 값을 1로, 정답이 아닌 뉴런은 정답 레이블 값이 0으로 설정하는 인코딩 방법이다.

머신 러닝 또는 딥 러닝에서는 손실 함수를 최소화하기 위하여 학습 최적화 알고리즘을 이용할 수 있으며, 학습 최적화 알고리즘에는 경사 하강법(GD: Gradient Descent), 확률적 경사 하강법(SGD: Stochastic Gradient Descent), 모멘텀(Momentum), NAG(Nesterov Accelerate Gradient), Adagrad, AdaDelta, RMSProp, Adam, Nadam 등이 있다.

경사 하강법은 현재 상태에서 손실 함수의 기울기를 고려하여 손실 함수값을 줄이는 방향으로 모델 파라미터를 조정하는 기법이다.

모델 파라미터를 조정하는 방향은 스텝(step) 방향, 조정하는 크기는 스텝 사이즈(size)라고 칭한다. 이때, 스텝 사이즈는 학습률을 의미할 수 있다.

경사 하강법은 손실 함수를 각 모델 파라미터들로 편미분하여 기울기를 획득하고, 모델 파라미터들을 획득한 기울기 방향으로 학습률만큼 변경하여 갱신할 수 있다.

확률적 경사 하강법은 학습 데이터를 미니 배치로 나누고, 각 미니 배치마다 경사 하강법을 수행하여 경사 하강의 빈도를 높인 기법이다.

Adagrad, AdaDelta 및 RMSProp는 SGD에서 스텝 사이즈를 조절하여 최적화 정확도를 높이는 기법이다. SGD에서 모멘텀 및 NAG는 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Adam은 모멘텀과 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다. Nadam은 NAG와 RMSProp를 조합하여 스텝 사이즈와 스텝 방향을 조절하여 최적화 정확도를 높이는 기법이다.

인공 신경망의 학습 속도와 정확도는 인공 신경망의 구조와 학습 최적화 알고리즘의 종류뿐만 아니라, 하이퍼파라미터에 크게 좌우되는 특징이 있다. 따라서, 좋은 학습 모델을 획득하기 위하여는 적당한 인공 신경망의 구조와 학습 알고리즘을 결정하는 것뿐만 아니라, 적당한 하이퍼파라미터를 설정하는 것이 중요하다.

통상적으로 하이퍼파라미터는 실험적으로 다양한 값으로 설정해가며 인공 신경망을 학습시켜보고, 학습 결과 안정적인 학습 속도와 정확도를 제공하는 최적의 값으로 설정한다.

본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 시스템은, 딥러닝 모델의 하나로서, 입력 데이터로서 의약품 개발에 필요한 데이터에서 추출된 객체, 예를 들어 비임상 및 임상 시험 관련 그래프 및 차트 형태의 시각화된 데이터를 이용하여 훈련시킨 합성곱 신경망(Convolutional Nueral Network, CNN) 학습 모델을 이용할 수 있다. CNN은 입력 데이터로부터 고유의 특징을 추출함으로써 추출된 특징에 따라 입력 데이터를 고유 카테고리로 군집화할 수 있다.

그 밖에 머신 러닝 기반의 군집화 기능은 수동의 특징 추출과 추출된 특징을 분류하는 과정을 포함할 수 있다. 예를 들어 SVM(Support Vector Machine) 머신 러닝 알고리즘을 이용한 HOG 특징 추출이 본 발명의 일 실시 예로서 사용될 수 있다. 그 밖의 특징 추출 알고리즘으로 Harris corner, Shi & Tomasi, SIFT-DoG, FAST, AGAST, 주요 불변 특징량(SURF, BRIEF, ORB) 방법이 이용될 수 있다.

도 7은 본 발명의 일 실시 예에 따른 의약품 개발을 위한 데이터 분석 방법 중 인공 신경망을 이용한 그래프 분석의 예시도이다.

도 7을 참조하면, 본 발명의 일 실시 예에 따라 의약품 개발에 필요한 데이터로부터 추출된 각종 시각화된 데이터, 예를 들어 데이터 테이블, 그래프 및 차트를 분석하는 CNN이 묘사되어 있다.

CNN은 입력 데이터에 대해 CNN 필터를 이용하여 입력 특징의 특징을 판독할 수 있다. 예를 들어 dilation rate이 2인 3*3 커널은 9개의 파라미터를 사용하면서 5*5 커널과 동일한 시야(view)를 갖는다. 5*5 커널을 사용하고 두번째와 네번째 열과 행이 모두 삭제되면 (3*3 커널을 사용한 경우 대비) 동일한 계산 비용으로 더 넓은 시야가 제공될 수 있다.

확장 컨볼루션은 특히 real-time segmentation 분야에서 주로 사용된다. 특히 확장 컨볼루션은, 넓은 시야가 필요하고 여러 convolution이나 큰 커널을 사용할 여유가 없는 경우 사용된다.

즉 확장 컨볼루션은, 적은 계산 비용으로 Receptive Field를 늘리는 방법이다. 이 확장 컨볼루션은 필터 내부에 zero padding을 추가해서 강제로 receptive field를 늘리게 되는데, weight가 존재하는 파라미터가 있고, 나머지 부분은 0으로 채워지게 된다. 이 receptive field는 필터가 한번 보는 영역으로 사진의 feature를 파악하고, 추출하기 위해서는 넓은 receptive field를 사용하는 것이 좋다. 확장 컨볼루션은, Dimension 손실이 적고, 대부분의 weight가 0이기 때문에 연산의 효율이 좋다. 공간적 특징을 유지하는 segmentation에서 주로 사용되는 이유이다.

또한, segmentation 뿐만 아니라, object detection 분야에서도 이득을 볼 수 있다. 이와 같이 확장 컨볼루션은, contextual information이 중용한 분야에 적용하기 유리하다. 또한, 간격을 조절하여 다양한 scale에 대한 대응이 가능하다.

모든 컨볼루션 레이어는, 사이즈 3*3의 Receptive Field를 이용하고, rate 2의 확장 컨볼루션(Dilated Convolution)이 채용되었다. 4번째 Convolution 레이어 다음에 2024개의 노드를 갖는 2개의 Fully Connected 레이어 및 2개의 노드를 갖는 최종 출력 레이어가 이어진다.

전체 4개의 합성곱 레이어(convolutional layer) 다음에 활성화 함수로 Rectified Linear unit(ReLU)가 채택될 수 있다.

ReLU의 장점은, 다른 비선형 활성화 함수 대비 프로세싱 속도도 높은 것이다. 추가로, ReLU는 Gradient Vanishing 문제를 격지 않는데, ReLU 함수의 Gradient는 0 또는 1이기 때문인데, 이는 이것이 포화하지 않는 것을 의미하고, 그래서 Gradient Vanishing 문제가 발생하지 않는다.

각 합성곱 레이어 다음에, 다운 샘플링 특징을 위해 max-pooling 레이어가 채택되었다. Max-pooling은, 컴퓨터 비전 작업, 예를 들어 분류(classification), 분할(segmentation), 객체 감지(object detection)를 위해서 average pooling 대비 더욱 효과적인 것이 증명되었다. 본 발명의 일 실시 예에 따른 방법은, 4차 합성곱 레이어까지 factor 2만큼 필터 수의 증가에 의해 작용한다. 초기 레이어에서, dilation rate 2를 갖는 128 커널이 채용될 수 있다.

이어지는 레이어는, 1차 합성곱 레이어 대비 2배의 256 커널로 구성된다. 3차 및 4차 레이어는 동일한 깊이, 즉 512 필터를 갖는다. 컴퓨터 비전에서 흔한 문제점은 오버 피팅(over fitting)이다. 오버 피팅 문제를 방지하기 위해 최종 합성곱 레이어(Final Convolutional Layer) 및 각 fully Connected 레이어 다음에 드롭 아웃 정규화(dropout regularization)가 사용된다.

AlexNet은 로컬 입력 영역(local input regions)에 걸쳐 정규화하는 로컬 응답 정규화(local response normalization)를 사용한다. 본 발명의 일 실시 예에 따른 네트워크 아키텍처는 AlexNet 보다 얕으며, 모델을 훈련하는 데 사용되는 데이터의 양은 상당히 많다. 따라서, 어떤 정규화 기술(normalizing technique)의 적용은 데이터 포인트들 간의 본질적인 관계를 잃게 할 수도 있다.

결국, 본 발명의 일 실시 예에서 평가 결과의 확률을 나타내기 위해, 활성화 함수로서 시그모이드 활성화(sigmoid activation)가 채택될 수 있다.

본 발명의 일 실시 예에 따른 시각화된 데이터 학습 모델은, Keras, 텐서플로우 프레임워크의 상위 레벨의 API를 이용하여 훈련될 수 있다. Keras는 파이썬으로 쓰여진 오픈-소스 신경망 라이브러리이다.

본 발명의 일 실시 예에 따른 시각화된 데이터 학습 모델의 효율성을 분석하기 위해, 최적의 커널 사이즈, 확장 비율, 및 컨볼루션 레이어 수의 선택 관련 광범위한 시도가 있었다. 본 발명에서 텐서플로우 상에 구축된 Keras, 머신러닝 라이브러리가 이용될 수 있다.

이와 같이 본 발명의 일 실시 예에 따르면, 의약품 개발에 필요한 임상 데이터 및 비임상 데이터가 Raw data로 분석되고 시각화될 수 있다.

또한, 차트 및 그래프의 형상을 입력으로 의약품 개발에 필요한 데이터가 검색될 수 있다.

이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시 예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시 예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.

또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.

10: 데이터 분석 시스템
100: 데이터 분석 장치
110: 제어부
120: 입력 장치
130: 출력 장치
140: 저장 장치
150: 통신 장치
160: 메모리
161: 데이터 분석 모듈
162: Raw Data 변환 모듈
163: 그래프 검색 모듈
164: 데이터 시각화 모듈
165: 인공지능 모델
200: 사용자 단말
500: 네트워크

Claims

의학과 약학에 관한 논문 데이터, 임상 데이터, 및 비임상 데이터 중에서 적어도 하나의 데이터를 수신하는, 의약품개발에 필요한 데이터를 수신하는 단계;
상기 의약품 개발에 필요한 데이터를 분석하는 단계; 및
상기 의약품 개발에 필요한 데이터에 포함된 컨텐츠 중에서 객체의 분석 결과를 Raw Data로 변환하는 단계를 포함하고,
상기 의약품 개발에 필요한 데이터를 분석하는 단계는,
의약품 개발에 필요한 데이터의 파일을 분석하는 단계;
상기 파일에 포함된 객체를 검출하는 단계; 및
상기 객체에 포함된 정보를 분석하는 단계를 포함하고,
상기 객체에 포함된 정보를 분석하는 단계는,
인공지능 알고리즘에 기반하는 학습 모델을 이용하여 의약품 개발에 필요한 데이터에 포함된 차트 및 그래프의 형상을 학습하는 단계; 및
상기 학습 모델을 통해 상기 형상에 기반하여 차트 및 그래프를 분류하는 단계를 포함하도록 구성되는,
데이터 분석 방법.
제 1 항에 있어서,
상기 의약품개발에 필요한 데이터는,
질병의 원인이 되는 타겟 단백질의 규명, 상기 타겟 단백질의 기능을 조절하는 치료용 후보 물질의 설계 및 상기 물질과 상기 타겟 단백질이 상호작용하는 기전의 실험적 규명에 관한 비임상 및 임상 데이터 중에서 적어도 하나를 포함하도록 구성되는,
데이터 분석 방법.
제 1 항에 있어서,
상기 의약품개발에 필요한 데이터를 수집하는 단계를 더 포함하도록 구성되는,
데이터 분석 방법.
삭제
제 1 항에 있어서,
상기 의약품 개발에 필요한 데이터를 분석하는 단계는,
깊이 우선 탐색 및 너비 우선 탐색 중에서 적어도 하나를 이용하여 의약품 개발에 필요한 데이터에 포함된 차트 및 그래프의 분석을 포함하도록 구성되는,
데이터 분석 방법.
제 1 항에 있어서,
상기 의약품 개발에 필요한 데이터를 분석하는 단계는,
설명적 분석(Descriptive analysis), 탐색적 분석(Exploratory analysis), 추론적 분석(Inferential analysis), 예측적 분석(Predictive analysis), 인과적 분석(Causal analysis) 및 역학적 분석(Mechanistic analysis) 중에서 적어도 하나에 기반하는 것을 특징으로 하는,
데이터 분석 방법.
삭제
제1항에 있어서,
차트 및 그래프의 형상을 입력으로 하는 인공지능 학습 기반의 데이터 검색 단계를 더 포함하도록 구성되는,
데이터 분석 방법.
제1항에 있어서,
검색 결과로서 상기 Raw Data를 시각화하는 단계를 더 포함하도록 구성되는,
데이터 분석 방법.
의약품개발에 필요한 데이터로서, 의학과 약학에 관한 논문 데이터, 임상 데이터, 및 비임상 데이터 중에서 적어도 하나의 데이터를 수신하는 통신 장치;
상기 의약품 개발에 필요한 데이터를 분석하는 데이터 분석 모듈;
데이터 분석에 기반하여 상기 의약품 개발에 필요한 데이터를 Raw Data로 변환하는 Raw Data 변환 모듈; 및
상기 Raw Data를 시각화하는 데이터 시각화 모듈을 포함하고,
상기 데이터 분석 모듈은,
상기 데이터의 파일을 분석하고, 상기 파일에 포함된 객체를 검출하고, 상기 객체에 포함된 정보로서 인공지능 알고리즘에 기반하는 학습 모델을 이용하여 의약품 개발에 필요한 데이터에 포함된 차트 및 그래프의 형상을 학습하고, 상기 학습 모델을 통해 상기 형상에 기반하여 차트 및 그래프를 분류하도록 구성되는,
데이터 분석 시스템.
제10항에 있어서,
차트 및 그래프의 형상을 입력으로 하는 인공지능 모델 학습 기반의 그래프 검색 모듈을 더 포함하도록 구성되는,
데이터 분석 시스템.