KR102221098B1

KR102221098B1 - 기업 맞춤형 신약개발추천장치 및 그 동작 방법

Info

Publication number: KR102221098B1
Application number: KR1020200114784A
Authority: KR
Inventors: 정예림; 유형선; 황지나; 김지희; 최윤정
Original assignee: 한국과학기술정보연구원
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2021-02-26

Abstract

본 발명은 기계학습 기반의 추천 알고리즘을 이용하여 신약개발 예정기업에 대해 향후 개발 성공 가능성이 높은 약품을 기업 맞춤형으로 추천하기 위한 신약개발추천장치 및 그 동작 방법에 관한 것이다.

Description

기업 맞춤형 신약개발추천장치 및 그 동작 방법{ENTERPRISE-CUSTOMIZED RECOMMENDING APPARATUS FOR NEW DRUG DEVELOPMENT, AND CONTROL METHOD THEREOF}

본 발명은 기계학습 기반의 추천 알고리즘을 이용하여 신약개발 예정기업(예: 제약사)에 대해 향후 개발 성공 가능성이 높은 약품을 기업 맞춤형으로 추천하기 위한 방안에 관한 것이다.

신약개발은 성공 시 막대한 수익이 보장되지만 성공률이 지극히 낮고, 임상시험을 포함하기 때문에 매우 긴 연구개발 기간이 소요되며, 하나의 신약을 개발하기 위해 엄청난 투자비용이 소요된다.

따라서 제약기업들은 신약개발의 성공 가능성을 높이기 위해 다양한 전략들을 활용하고 있으나 이를 통해 신약개발 성공률을 제고하는 것은 쉽지 않은 실정이다.

이와 관련하여 기존에는 주로 기업이 보유한 기술에 기반하거나, 시장조사/분석 및 경쟁사 벤치마킹 등을 토대로 어떤 신약을 개발할 것인지에 대한 의사결정을 수행하거나, 또는 기업 최고경영자의 개발 의지나 외부 컨설팅 결과 등을 활용하여 정성적으로 결정하는 경우가 많았다.

그러나 다국적 대형 제약기업들도 신약개발 성공률이 10% 미만이며, 신약개발에 평균적으로 10년 이상이 소요되는 상황임을 감안하면, 신약개발 제품기획 시 각각의 기업의 상황에 맞도록 기업 맞춤형으로 가장 성공가능성이 높은 신약을 개발할 수 있도록 도와주는 객관적인 데이터 기반의 합리적인 방법론이 요구된다.

이에, 본 발명에서는 신약개발 예정기업(예: 제약사)에 대해 향후 개발 성공 가능성이 높은 약품을 기업 맞춤형으로 추천하기 위한 방안을 제안하고자 한다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 기계학습 기반의 추천 알고리즘을 이용하여 신약개발 예정기업에 대해 향후 개발 성공 가능성이 높은 약품을 기업 맞춤형으로 추천하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 신약개발추천장치는, 신약개발 예정기업에 대한 신약개발예정정보를 기 생성된 신약개발추천모델의 입력 값으로 확인하는 확인부; 및 상기 신약개발예정정보의 입력에 따라 상기 신약개발추천모델이 학습한 추천 알고리즘 별로 상기 신약개발추천모델로부터 출력되는 개발약품 종류 중 적어도 하나를 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품으로 결정하는 결정부를 포함하는 것을 특징으로 한다.

구체적으로, 상기 신약개발추천장치는, 신약개발 수행기업 별로 수집되는 신약개발수행정보를 상기 신약개발추천모델의 생성을 위한 학습데이터 셋으로 구성하는 전처리부; 및 상기 학습데이터 셋을 추천 알고리즘 별로 학습하여 상기 신약개발추천모델을 생성하는 생성부를 더 포함할 수 있다.

구체적으로, 상기 전처리부는, 신약개발 수행기업 별로 개발약품 종류 및 개발약품 개수를 포함하는 사용자-아이템 행렬 형태로 학습데이터 셋을 구성하며, 상기 사용자-아이템 행렬은, 신약개발 수행기업 별로 지정되는 각 행에 대해 개발약품 종류를 구분하는 약품분류코드가 열로 지정되며, 각 신약개발 수행기업에서의 약품분류코드 별 약품 개발 여부 및 개발약품 개수 중 적어도 하나에 기초하여 행렬 값이 부여될 수 있다.

구체적으로, 상기 전처리부는, 신약개발 수행기업 별로 기업 특성, 개발 성공제품에 관한 포트폴리오 특성, 및 약품 특성을 포함하는 특성 정보를 설명 변수로 지정하며, 개발약품 종류를 구분하는 각 약품분류코드에 대한 약품 개발 여부를 종속 변수로 지정한 형태로 학습데이터 셋을 구성할 수 있다.

구체적으로, 상기 추천 알고리즘은, 상기 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로 상기 포트폴리오 간 유사도가 임계치 이상인 유사기업그룹을 선별하며, 상기 유사기업그룹 내 상기 신약개발 예정기업을 제외한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류를 상기 신약개발 예정기업에 대한 추천약품으로 출력하는 협업필터링 알고리즘을 포함할 수 있다.

구체적으로, 상기 추천 알고리즘은, 상기 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로, 전체 신약개발 수행기업의 개발 성공제품 포트폴리오로부터 도출되는 연관규칙에 따라 특정 개발약품 종류의 개발 시 상기 특정 개발약품 종류와 함께 개발되는 적어도 하나의 개발약품 종류를 신약개발 예정기업에 대한 추천약품으로 출력하는 연관규칙 알고리즘을 포함할 수 있다.

구체적으로, 상기 추천 알고리즘은, 상기 신약개발 수행기업의 기업 특성, 개발 성공제품에 관한 포트폴리오 특성, 및 약품 특성을 포함한 특성 정보를 설명 변수로 지정하고, 개발약품 종류를 구분하는 각 약품분류코드에 대한 약품 개발 여부를 종속 변수로 지정하여 상기 신약개발 수행기업의 기업 속성을 판별하며, 상기 기업 속성에 따라 개발되는 약품종류에 대한 규칙을 기반으로 상기 신약개발 예정기업과 기업 속성이 유사한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류를 상기 신약개발 예정기업에 대한 추천약품으로 출력하는 지도학습 알고리즘을 포함할 수 있다.

구체적으로, 상기 결정부는, 상기 추천 알고리즘 별로 출력되는 개발약품 종류가 추천 알고리즘 간에 상호 중복되는 중복도 우선순위에 따라 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정할 수 있다.

구체적으로, 상기 결정부는, 상기 추천 알고리즘 별로 출력되는 개발약품 종류를 각 추천 알고리즘 간에 동일 비율로 결합하거나, 또는 상기 신약개발 예정기업으로부터 기 정의된 기업 특성이 확인되는 경우 특정 추천 알고리즘에 가중치를 부여하여 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정할 수 있다.

구체적으로, 상기 결정부는, 상기 신약개발예정정보로부터 상기 신약개발 예정기업에서 개발한 개발약품의 종류가 임계치 미만인 것으로 확인되는 경우, 상기 지도학습 알고리즘에 대해 보다 높은 가중치를 부여할 수 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 신약개발추천장치의 동작 방법은, 신약개발 예정기업에 대한 신약개발예정정보를 기 생성된 신약개발추천모델의 입력 값으로 확인하는 확인단계; 및 상기 신약개발예정정보의 입력에 따라 상기 신약개발추천모델이 학습한 추천 알고리즘 별로 상기 신약개발추천모델로부터 출력되는 개발약품 종류 중 적어도 하나를 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품으로 결정하는 결정단계를 포함하는 것을 특징으로 한다.

구체적으로, 상기 방법은, 신약개발 수행기업 별로 수집되는 신약개발수행정보를 상기 신약개발추천모델의 생성을 위한 학습데이터 셋으로 구성하는 전처리단계; 및 상기 학습데이터 셋을 추천 알고리즘 별로 학습하여 상기 신약개발추천모델을 생성하는 생성단계를 더 포함할 수 있다.

구체적으로, 상기 전처리단계는, 신약개발 수행기업 별로 개발약품 종류 및 개발약품 개수를 포함하는 사용자-아이템 행렬 형태로 학습데이터 셋을 구성하며, 상기 사용자-아이템 행렬은, 신약개발 수행기업 별로 지정되는 각 행에 대해 개발약품 종류를 구분하는 약품분류코드가 열로 지정되며, 각 신약개발 수행기업에서의 약품분류코드 별 약품 개발 여부 및 개발약품 개수 중 적어도 하나에 기초하여 행렬 값이 부여될 수 있다.

구체적으로, 상기 전처리단계는, 신약개발 수행기업 별로 기업 특성, 개발 성공제품에 관한 포트폴리오 특성, 및 약품 특성을 포함하는 특성 정보를 설명 변수로 지정하며, 개발약품 종류를 구분하는 각 약품분류코드에 대한 약품 개발 여부를 종속 변수로 지정한 형태로 학습데이터 셋을 구성할 수 있다.

구체적으로, 상기 결정단계는, 상기 추천 알고리즘 별로 출력되는 개발약품 종류가 추천 알고리즘 간에 상호 중복되는 중복도 우선순위에 따라 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정할 수 있다.

구체적으로, 상기 결정단계는, 상기 추천 알고리즘 별로 출력되는 개발약품 종류를 각 추천 알고리즘 간에 동일 비율로 결합하거나, 또는 상기 신약개발 예정기업으로부터 기 정의된 기업 특성이 확인되는 경우 특정 추천 알고리즘에 가중치를 부여하여 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정할 수 있다.

구체적으로, 상기 결정단계는, 상기 신약개발예정정보로부터 상기 신약개발 예정기업에서 개발한 개발약품의 종류가 임계치 미만인 것으로 확인되는 경우, 상기 지도학습 알고리즘에 대해 보다 높은 가중치를 부여할 수 있다.

이에, 본 발명의 신약개발추천장치 및 그 동작 방법에서는, 대용량 데이터에 대한 기계학습을 기반으로 신약을 개발하려는 기업이 정성적인 분석이나 판단에만 의존하지 않고도 데이터에 기반하여 개발 성공 가능성이 높은 신약 제품유형을 추천받을 수 있으며, 기술적인 측면뿐만 아니라, 경영/시장적인 측면을 모두 고려하여 기업 맞춤형으로 각각의 기업이 개발하기에 가장 적합하고 성공가능성이 높은 신약 종류를 효과적으로 추천할 수 있으므로, 기업 입장에서 신약개발의 실패 가능성을 낮추고 신약개발에 소요되는 시간과 비용을 절감할 수 있다.

도 1은 본 발명의 일 실시예에 따른 신약개발 추천 환경을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 신약개발추천장치의 개략적인 구성도.
도 3은 본 발명의 일 실시예에 따른 신약개발추천모델 생성 방식을 설명하기 위한 예시도.
도 4는 본 발명의 일 실시예에 따른 협업필터링 알고리즘에 따른 신약개발 추천 결과를 설명하기 위한 예시도.
도 5는 본 발명의 일 실시예에 따른 연관규칙 알고리즘에 따른 신약개발 추천 결과를 설명하기 위한 예시도.
도 6은 본 발명의 일 실시예에 따른 지도학습(랜덤 포레스트) 알고리즘에 따른 신약개발 추천 결과를 설명 설명하기 위한 예시도.
도 7은 본 발명의 일 실시예에 따른 협업필터링, 연관규칙, 랜덤 포레스트 알고리즘을 결합한 추천모델에 따른 신약개발 추천 결과를 설명하기 위한 예시도.
도 8은 본 발명의 일 실시예에 따른 신약개발추천장치의 동작 방법을 설명하기 위한 순서도.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 설명한다.

본 발명의 일 실시예에서는, 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 약품을 기업 맞춤형으로 추천하기 위한 기술을 다룬다.

이와 관련하여 신약후보물질 탐색에 소요되는 시간과 비용을 줄여주고 신약 개발의 성공가능성을 제고하기 위한 수단으로서, 신약후보물질과 관련하여 자연과학 논문 등 문헌정보, 유전체 정보, 화합물 정보 등을 이용하여 보다 빠르고 효과적으로 신약후보물질을 발굴하고 추천해주는 다양한 방법론 및 시스템이 제안되고 있다.

그러나 기존의 신약후보물질 추천 방법론이나 시스템은 특정 기업을 대상으로 신약을 추천해 주지 못한다.

즉, 단지 기술적인 측면만을 고려하여 특정 질병에 효과성이 있을 것으로 기대되는 신약후보물질을 개발주체와 상관없이 동일하게 추천해 줄 수 밖에 없으며, 이로 인해 특정한 기업이 어떤 신약을 개발하는 것이 가장 효과적이고 개발 성공 가능성이 높은지에 대해서는 추천해주지 못하는 한계점을 가지고 있는 것이다.

더욱이, 효과성이 있을 것으로 기대되는 후보물질을 추천할 수 있다 하더라도 모든 기업이 해당 신약개발에 성공할 수는 없다.

즉, 신약 개발은 막대한 시간과 비용을 요구하는 프로젝트이므로 기업의 기존 개발 경험과 노하우, 제품 포트폴리오, 재무 상태, 해당 의약품의 시장상황 등에 따라 개발 성공가능성이 크게 달라질 수 있는 것이다.

따라서, 본 발명의 일 실시예에서는, 신약개발 예정기업에게 개발약품을 추천해 주기 위해서 기술적인 측면뿐만 아니라 경영/시장적인 측면까지 모두 고려할 수 있는 방법론을 제안한다.

이와 관련하여, 도 1에서는 본 발명의 일 실시예에 따른 신약개발 추천 환경을 예시적으로 보여주고 있다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 신약 개발 추천 환경에서는, 데이터베이스(100)로부터 신약개발 수행기업 별로 수집되는 신약개발수행정보를 토대로 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 약품을 추천하는 신약개발추천장치(200)의 구성을 포함하고 있다.

여기서, 데이터베이스(100)는 예컨대, 민간에서 수집하여 제공하는 세계 제약기업/연구소/대학 등에서 개발 및 판매 중인 약품 파이프라인 현황 데이터베이스, 세계 공공기관(WHO ICTRP, 미국 FDA 및 National Institutes of Health, 유럽 European Medicines Agency 등)에 등록된 약품 개발 현황 데이터베이스 등을 포함할 수 있다.

또한, 신약개발추천장치(200)는 이처럼 신약개발 수행기업 별로 수집되는 신약개발수행정보를 기계학습한 신약개발추천모델을 통해 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 약품을 추천하는 장치를 일컫는 것으로서, 예컨대, 소프트웨어(예: 애플리케이션)를 탑재한 컴퓨팅장치(예: PC), 또는 유무선 통신망을 통해 접속 가능한 서버의 형태로 구현될 수 있다.

참고로, 이러한 신약개발추천장치(200)가 서버의 형태로 구현되는 경우에는, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다.

이상, 본 발명의 일 실시예에 따른 신약개발 추천 환경에서는 전술한 구성을 통해 신약개발을 추진하려는 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 약품의 종류를 기업 맞춤형으로 추천할 수 있는데, 이하에서는 이를 실현하기 위한 신약개발추천장치(200)의 구성을 보다 구체적으로 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 신약개발추천장치(200)의 개략적인 구성을 보여주고 있다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 신약개발추천장치(200)는 신약개발수행정보를 수집하는 수집부(210), 학습데이터 셋을 구성하는 전처리부(220), 및 신약개발추천모델을 생성하는 생성부(230)를 포함할 수 있다.

또한, 본 발명의 일 실시예에 따른 신약개발추천장치(200)는 전술한 구성 이외에, 신약개발 예정기업에 대한 신약개발예정정보를 확인하는 확인부(240), 신약개발 예정기업에 대해 추천약품을 결정하는 결정부(250), 및 추천약품을 신약개발 예정기업에게 제공하는 제공부(260)를 더 포함할 수 있다.

이처럼 수집부(210), 전처리부(220), 생성부(230), 확인부(240), 결정부(250), 및 제공부(260)를 포함하는 신약개발추천장치(200)의 전체 구성 내지는 적어도 일부의 구성은 소프트웨어 모듈 또는 하드웨어 모듈 형태로 구현되거나, 내지는 소프트웨어 모듈과 하드웨어 모듈이 조합된 형태로도 구현될 수 있다.

여기서, 소프트웨어 모듈이란, 예컨대, 신약개발추천장치(200)에 내에서 연산을 수행하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 신약개발추천장치(200) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.

한편, 본 발명의 일 실시예에 따른 신약개발추천장치(200)는 전술한 구성 이외에, 신약개발 추천 환경에서 타 구성과의 실질적인 통신 기능을 담당하는 통신부(260)의 구성을 더 포함할 수 있다.

여기서, 통신부(260)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.

이상, 본 발명의 일 실시예에 따른 신약개발추천장치(200)는 전술한 구성을 통해 신약개발을 추진하려는 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 약품의 종류를 기업 맞춤형으로 추천할 수 있는데, 이하에서는 이를 실현하기 위한 신약개발추천장치(200) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.

수집부(210)는 신약개발수행정보를 수집하는 기능을 수행한다.

보다 구체적으로, 수집부(210)는 신약개발 수행기업 별 신약개발수행정보를 데이터베이스(100)로부터 수집하게 된다.

이때, 수집부(210)는 신약개발 수행기업 각각에 대해서 예컨대, 신약개발 파이프라인 정보, 시장출시 약품정보, 기업정보, 시장정보, 및 질병정보를 신약개발수행정보로서 수집할 수 있다.

여기서 신약개발 파이프라인 정보는, 신약개발 수행기업에서 개발하고 있는 신약군에 관한 정보로서, 예컨대, 약품의 개발단계, 단계 변경시점, 적응증, 작용기전, 의약품분류코드, 임상진입 및 시장출시된 국가, 임상 진입 및 시장출시 시점, 생물학적제제여부, 희귀약지정여부, 투여용법, 개발 및 출시 수행기업, 특허권자, 권리기간, 기타 약물의 상세 특징정보 등이 포함될 수 있다.

또한 기업정보는, 신약개발 수행기업에 대한 정보로서, 예컨대 신약개발 수행기업의 업력, 규모, 종업원수, 업종, 국적 등 기업 일반정보와 총자산, 매출액, 재무비율 등의 기업 재무정보가 포함될 수 있다.

또한 시장정보는 의약품 시장에 대한 정보로서, 예컨대, 의약품 시장규모, 시장성장률, 경쟁현황, 기업별/제품별 시장점유율, 시장집중도 등이 포함될 수 있다.

그리고 질병정보는 질병에 관한 통계정보로서 예컨대, 질병의 발생률, 유병률, 사망률, 조기사망손실년수, 장애보정손실년수, 질병의 인체부위, 질병에 따른 질환자 특성 등이 포함될 수 있다.

전처리부(220)는 신약개발추천모델의 생성을 위한 학습데이터 셋을 구성하는 기능을 수행한다.

보다 구체적으로, 전처리부(220)는 신약개발 수행기업 별로 신약개발수행정보가 수집되면, 수집된 신약개발수행정보를 정제 및 가공하여 약품개발추천모델의 생성을 위한 학습데이터 셋을 구성하게 된다.

이때, 전처리부(220)는 신약개발 수행기업 별로 개발약품 종류 및 개발약품 개수를 포함하는 사용자-아이템 행렬 형태로 학습데이터 셋을 구성할 수 있다.

여기서, 개발약품 종류는, 신약개발 수행기업에 대해 추천되는 개발약품 군을 얼마나 포괄적 또는 구체적으로 추천할 지 여부에 따라 그 범주를 조절하여 구성할 수 있다.

사용자-아이템 행렬은, 신약개발 수행기업 별로 지정되는 각 행에 대해 개발약품 종류를 구분하는 약품분류코드가 열로 지정되며, 각 신약개발 수행기업에서의 약품분류코드 별 약품 개발 여부 및 개발약품 개수 중 적어도 하나에 기초하여 행렬 값이 부여될 수 있다.

예를 들어, 행렬 값의 경우, 약품의 개발 여부에 따라 1과 0의 값을 부여하거나 개발된 약품의 개수를 표준화한 값이 부여될 수 있으며, 최근 개발된 약품에는 더 큰 가중치를 부여하거나, 출시된 국가의 수가 많은 경우 더 큰 가중치가 부여될 수 있고, 또는 이러한 정보들을 결합한 혼합 가중치가 부여될 수 있다.

또한, 전처리부(220)는 사용자-아이템 행렬 형태 이외에 다수의 설명변수와 하나의 종속변수를 가지는 형태를 가지도록 학습데이터 셋을 구성할 수 있다.

이를 위해, 전처리부(220)는 신약개발 수행기업 별로 기업 특성, 개발 성공제품에 관한 포트폴리오 특성, 및 약품 특성을 포함하는 특성 정보를 설명 변수로 지정하며, 개발약품 종류를 구분하는 각 약품분류코드에 대한 약품 개발 여부를 종속 변수로 지정할 수 있다.

보다 상세하게는, 본 발명의 일 실시예에서의 설명 변수는, 예컨대, 약품(종류)의 특징-약품의 개발단계, 단계 변경시점, 적응증, 작용기전, 의약품분류코드, 임상진입 및 시장출시된 국가, 임상 진입 및 시장출시 시점, 생물학적제제여부, 희귀약지정여부, 투여용법, 개발 및 출시 수행기업, 특허권자, 권리기간, 시장규모, 시장성장률, 경쟁현황, 기업별/제품별 시장점유율, 시장집중도 등-을 포함할 수 있으며, 약품개발 기업의 특성-기업의 업력, 규모, 종업원수, 업종, 국적, 총자산, 매출액, 재무비율 등-을 포함할 수 있고, 또한 질병의 특성-질병의 발생률, 유병률, 사망률, 조기사망손실년수, 장애보정손실년수, 질병의 인체부위, 질병에 따른 질환자 특성 등을 포함할 수 있고, 종속변수는 예컨대, 약품종류별 개발유무 및 개발 개수, 시장출시여부 및 출시 개수 등이 될 수 있다.

한편, 본 발명의 일 실시예에 따른 학습데이터 셋은 전술한 형태 이외에, 예컨대, 약품에 대한 상세특징이 기술된 문서 집합을 포함하도록 구성될 수 있음은 물론이다.

생성부(230)는 신약개발추천모델을 생성하는 기능을 수행한다.

보다 구체적으로, 생성부(230)는 학습데이터 셋이 구성되면, 학습데이터 셋을 기계학습 기반의 추천 알고리즘 별로 학습하여 신약개발추천모델을 생성하게 된다.

이때, 생성부(230)는 예컨대, 도 3에 도시된 바와 같이, 협업필터링(Collaborate Filtering) 알고리즘, 연관규칙(Association Rules) 알고리즘, 및 지도학습(Supervised Learning) 알고리즘에 따라 학습데이터 셋을 학습하여 신약개발추천모델을 생성할 수 있다.

여기서, 협업필터링 알고리즘은, 사용자 기반 추천 방식과 아이템 기반 추천 방식으로 구분할 수 있다.

사용자 기반 추천 방식은 나와 비슷한 성향을 가진 사용자를 기반으로, 예컨대, 그 사용자가 구매한 상품을 추천하는 방식이며, 아이템 기반 추천 방식은 내가 이전에 구매했던 상품을 기반으로, 그 상품과 유사한 다른 상품을 추천하는 방식을 말한다.

또한 콘텐츠 기반 필터링 방식도 이에 활용될 수 있는데, 이는 콘텐츠 즉, 상품의 특징 자체에 대한 분석을 기반으로 추천을 구현하는 방식으로 이해될 수 있다.

예를 들어 이러한 콘텐츠 기반 필터링 방식은 영화의 장르, 스토리, 등장인물, 감독 등 영화 자체의 특징을 분석하여 유사한 영화를 추천하는 방식에 해당한다.

사용자 기반 또는 아이템 기반 추천 방식의 협업필터링은 사용자간 또는 아이템간 유사도를 측정함으로써 동작하는데, 이는 두 사용자나 아이템 사이의 유효한 정보를 두 개의 벡터로 간주하여 두 벡터 사이의 유사성을 측정하는 것으로 이해될 수 있다.

여기서의 유사도는 예컨대, 코사인 유사도, 자카드 유사도, 유클리드 거리, 피어슨 상관계수 등을 통해 계산될 수 있다.

또한, 협업 필터링 알고리즘에서는 수학적 모델링 방식인 행렬 인수 분해, 교대 최소 제곱, 특이값 분해 등을 적용하여 원본 평가 행렬의 빈칸을 예측하는 방식으로 평가되지 않은 아이템의 선호도가 예측될 수 있다.

이와 관련하여, 본 발명의 일 실시예에서는, 사용자 기반의 협업필터링이 구현될 수 있으며, 이 경우, 신약개발 수행기업 별 개발 성공제품에 관한 포트폴리오를 기반으로 기업간 코사인 유사도를 계산하고, 특정 약품종류에 대한 모든 기업의 개발 개수의 가중치를 계산해 특정 기업의 해당 약품종류에 대한 향후 개발 가능성 및 개발 개수를 예측할 수 있으며, 예측된 결과를 토대로 특정 기업이 아직 개발하지 않은 약품종류에 대해 향후 개발 가능성이 높은 아이템을 추천할 수 있다.

이는, 유사한 포트폴리오를 갖는 다른 기업이 이미 개발한 약품은 해당 기업도 관심을 가지고 향후 개발할 가능성이 높다는 가정에 근거한 것으로 이해될 수 있다.

이와 관련하여, 도 4에는 특정한 10개 기업에 대해 사용자 기반 협업필터링 방식으로 추천된 아이템을 예시적으로 보여주고 있다.

도 4에 나타난 바와 같이, 1번 기업에 대해서는 'J7', 'S1', 'V7', 'J1', 'G4', 'N2', 'A16', 'A10', 'R3', 'D5'의 약품종류가 향후 개발 약품으로 추천된 것을 예시적으로 확인할 수 있다.

한편, 협업필터링 알고리즘은 콘텐츠 기반의 협업 필터링 방식으로서 약품에 대한 설명 문서 집합에 대해 텍스트 마이닝 기법을 적용할 수 있는데, 예컨대, 단어 빈도-역문서 빈도, 워드투벡터 등의 벡터 공간 모델을 사용하여 비정형 텍스트 데이터로부터 약품간 유사성을 파악하거나, 약품의 주요 특징을 추출하여 신약개발추천모델을 생성하는데 활용할 수 있는 것이다.

연관규칙(association rules) 알고리즘은, 아이템 집합은 규칙성을 갖고 데이터에 나타난다는 사실을 토대로 대용량 데이터로부터 아이템 집합 사이의 관계에 존재하는 패턴을 찾아내는 알고리즘을 일컫는다.

예를 들어, 대형마트의 식료품 구매 데이터에서 잼과 우유가 함께 구매되면 빵도 함께 구매될 가능성이 높다는 규칙을 찾아내는 방법으로 이해될 수 있다.

연관규칙 알고리즘으로는 예컨대, 아프리오리(Apriori), ECLAT, FP-Growth, 순차규칙 등이 활용될 수 있는데, 본 발명의 일 실시예에서는 이러한 연관규칙 알고리즘으로서, 대량의 데이터에서 규칙을 효율적으로 찾기 위해 이용되는 아프리오리(Apriori) 알고리즘을 적용한다.

아프리오리 알고리즘에서는 조건(X) → 반응(Y) 규칙의 흥미도를 계산하기 위해 통계 척도인 지지도(support), 신뢰도(confidence), 향상도(lift)를 측정한다.

규칙의 지지도는 전체 거래 데이터에서 해당 조건, 즉 아이템 집합 X를 포함하는 거래가 발생하는 비율을 뜻하며, 아이템 집합 X에 대한 지지도 함수는 다음과 같다.

Support(X) = Count(X)/N

(N: 데이터의 전체 거래 건수, Count(X): 아이템집합 X를 포함하는 거래 건수)

규칙의 신뢰도는 예측 능력이나 정확도의 측정치로서, 아이템 (또는 아이템 집합) X의 존재가 아이템 (또는 아이템 집합) Y의 존재를 유발하는 거래의 비율을 말한다. 신뢰도는 X→Y 규칙을 만족하는, 즉 X와 Y를 모두 포함하는 아이템 집합의 지지도를 X만 포함하는 아이템 집합의 지지도로 나눈 값으로 나타낼 수 있다.

Confidence(X→Y) = Support(X,Y)/Support(X)

이와 같은 계산을 통해 높은 지지도와 신뢰도를 갖는 규칙을 X와 Y간의 연관성이 높은 규칙으로 간주할 수 있다.

또한 규칙의 향상도(lift)를 구함으로써 아이템간의 연관성을 직관적으로 확인할 수 있는데, X→Y 규칙의 향상도는 어떤 아이템 (또는 아이템 집합) X가 구매됐다는 것을 안다면, 다른 아이템 (또는 아이템 집합) Y가 어떤 확률로 구매될 것인가를 Y의 일반적인 구매 확률과 비교해서 측정하며, 다음과 같이 계산된다.

Lift(X→Y) = Confidence(X→Y)/Support(Y)

흥미롭고 유용한 규칙을 찾기 위해 지지도와 신뢰도, 향상도의 임계치는 사용자에 의해 설정되거나 조정될 수 있다.

구체적으로, 모든 규칙에 대한 지지도, 신뢰도, 향상도 값의 분포를 파악하여 특정 값 이상을 갖는 규칙, 혹은 상위 특정 비율 이내 혹은 상위 특정 개수 이내의 규칙을 흥미롭고 유용한 규칙으로 설정할 수 있다.

이와 관련하여, 본 발명의 일 실시예에서는 신약개발 수행기업의 약품분류코드 별 개발제품에 대한 데이터로부터 아프리오리 알고리즘을 적용하여 지지도, 신뢰도, 향상도 값을 계산함으로써 의미 있는 규칙을 찾아낼 수 있다.

예를 들어, 지지도 0.01 이상, 신뢰도 0.90 이상, 향상도 10 이상인 경우를 유용한 규칙으로 간주하여 특정 약품종류가 개발되었을 때 함께 개발되는 약품종류에 대한 규칙을 도출할 수 있는 것이다.

이와 관련하여, 도 5에서는 본 발명의 일 실시예에서 약품 개발과 관련하여 도출된 연관규칙을 예시적으로 보여주고 있다.

도 5에 도시된 바와 같이, 'D5', 'L1', 'N7', 'V7'의 약품이 동시에 개발되었을 때, 'M1' 약품이 함께 개발된다는 규칙을 예시적으로 확인할 수 있다.

이와 같이 미리 설정한 임계치 이상의 지지도, 신뢰도, 향상도 값을 갖는 규칙을 도출할 수 있으며, 신약개발 예정기업이 도출된 규칙에 충족되는 조건일 경우, 해당 규칙에서 도출된 약품을 향후 개발 아이템으로 추천할 수 있다.

이는 역시 동일한 의약품 포트폴리오를 갖는 기업들이 개발한 다른 의약품은 해당 기업도 향후에 개발할 가능성이 높을 것이라는 가정에 근거한 것으로 이해될 수 있다.

지도학습 알고리즘은 추정 모형인 선형회귀는 물론이고, 로지스틱 회귀, KNN 분류, SVM, 결정트리, 랜덤 포레스트 등의 분류 모형을 활용할 수 있다.

예를 들어, 예상 개발개수와 같은 연속형 종속변수를 예측할 경우에는 선형회귀모형을 활용할 수 있고, 개발여부와 같은 범주형 혹은 이분형 종속변수를 예측할 경우에는 분류 모형을 활용할 수 있다.

참고로, 본 발명의 일 실시예에 따라 비지도학습 알고리즘이 적용되는 경우에는 k-평균 클러스터링, 계층적 클러스터링, DBSCAN 등과 같은 군집화 기법 또는 주성분 분석과 같은 차원 축소 기법이 활용될 수 있다.

이와 관련하여, 본 발명의 일 실시에서는, 지도학습 알고리즘으로서, 예컨대, 다수의 의사결정 트리의 앙상블 방법으로, 검출, 분류, 회귀 등 다양한 문제에 활용되는 랜덤 포레스트(Random Forest) 알고리즘을 적용하였다.

이에 따라 본 발명의 일 실시예에서는 신약개발 수행기업의 약품분류코드 별 제품개발유무를 종속변수로, 기업과 약품에 대한 특성, 기업이 개발한 약품의 포트폴리오 특성 정보를 설명변수로 하여 랜덤 포레스트 모델을 생성할 수 있다.

즉, 랜덤 포레스트 모델로부터, 어떤 속성의 기업이 특정 종류의 약을 개발하는지 규칙을 찾고, 이를 통해, 대상 기업에서 아직 개발되지 않은 약품종류에 대해, 생성된 모델에 의해 개발될 것으로 예측된 약품종류를 해당 기업에게 향후 개발 아이템으로 추천할 수 있는 것이다.

다시 말해, 특정 약품종류의 약을 개발한 기업들의 속성에 부합하는 다른 기업에게 해당 약품종류를 향후 개발할 아이템으로 추천하거나, 혹은 대상 기업의 속성 정보를 바탕으로 아직 개발하지 않은 약품 중 개발 가능성이 가장 높게 예측된 약품 종류를 해당 기업에게 향후 개발할 아이템으로 추천할 수 있는 것이다.

이와 관련하여, 도 6에는 특정 사용자(기업)에 대해 랜덤 포레스트 모델에 의해 개발될 것으로 예상(“1”로 예측)된 6개의 제품종류를 예시적으로 보여주고 있다.

도 6에 도시된 바와 같이, 약품분류코드 중 ‘A10’, ‘A16’, ‘A5’, ‘A6’, ‘A7’, ‘C1’ 제품군을 해당 기업에게 향후 개발 아이템으로 추천해 줄 수 있음을 예시적으로 확인할 수 있다.

한편, 생성부(230)는 협업필터링 알고리즘, 연관규칙 알고리즘, 및 지도학습 알고리즘 별로 학습데이터 셋을 학습하는 방식을 통해 신약개발추천모델이 생성되면, 생성된 신약개발추천모델에 대해 성능을 평가하여 성능지수를 산출하고, 성능 향상을 위해 알고리즘들의 파라미터를 조정하고 최적화할 수 있다.

이때, 생성부(230)는 협업필터링 알고리즘에 대해서 교차검증 및 평균제곱근오차(Root Mean Square Error), 평균절대오차(Mean Absolute Error) 등의 오차를 구하여 성능을 평가할 수 있으며, 또한 성능 개선을 위해 매개변수를 조절할 수 이다.

예를 들어 신약개발 수행기업 간 유사도를 계산하는 데 적용하는 이웃의 수를 최적화하거나, 유사도 계산 시 코사인, 자카드, 피어슨 등의 방식을 비교하여 가장 좋은 방식을 선택할 수 있는 것이다.

또한 생성부(230)는 연관규칙 알고리즘에 대해서는 지지도, 신뢰도, 향상도를 기준으로 미리 설정한 임계값 이상을 갖는 규칙이 얼마나 있는지를 파악하여 모델의 성능을 평가할 수 있으며, 보다 의미 있는 규칙을 찾기 위해 각각의 척도에 대한 임계값을 변경하여 재조합 함으로써 모델의 성능을 향상시킬 수 있다.

즉, 규칙을 일반적이거나 세부적이 되도록 조정할 수 있으며, 뿐만 아니라 각 기업별로 가장 유용한 규칙을 찾기 위해 특정 약품 또는 특정 약품의 집합이 포함되는 모든 규칙을 찾도록 할 수 있는 것이다.

또한, 생성부(230)는 지도학습 알고리즘에 대해서는 학습데이터 셋을 훈련용 데이터와 테스트용 데이터로 나누어 모델 성능을 평가할 수 있다.

즉, 생성부(230)는 분류 모델의 일반적인 평가 방법인 정확도와 정밀도, 재현율, 특이도, F1 스코어 등의 지표를 통해 성능을 평가하거나, ROC 곡선과 AUC 면적을 이용하여 모델 성능을 비교 및 평가할 수 있으며, 결정트리를 생성하는 알고리즘, 앙상블 모형에 포함될 결정트리의 개수, 트리의 깊이, 중지규칙, 가지치기규칙, 각 분할 시점에서 선택되는 특징의 개수 등과 같은 하이퍼매개변수의 최적화를 통해 모델 성능을 향상시킬 수 있는 것이다.

확인부(340)는 신약개발 예정기업에 대한 신약개발예정정보를 확인하는 기능을 수행한다.

보다 구체적으로, 확인부(340)는 신약개발추천모델의 생성과 그에 따른 성능 평가 및 개선이 완료된 이후, 신약개발을 추진하려는 신약개발 예정기업에 대해 개발약품의 추천이 요구되는 경우, 신약개발 예정기업에 대한 신약개발예정정보를 신약개발추천모델의 입력 값으로 확인하게 된다.

여기서, 신약개발예정정보는, 신약개발 수행기업에 대해 수집되는 신약개발수행정보에 대응하는 정보로서, 전술한 신약개발수행정보와 마찬가지로, 신약개발 예정기업에 관한 신약개발 파이프라인 정보, 시장출시 약품정보, 기업정보가 포함될 수 있다.

결정부(250)는 신약개발 예정기업에 대한 추천약품을 결정하는 기능을 수행한다.

보다 구체적으로, 결정부(250)는 신약개발 예정기업에 대해서 신약개발예정정보가 확인되면, 확인된 신약개발예정정보를 신약개발추천모델에 대한 입력 값으로 입력하게 되며, 신약개발예정정보의 입력에 따라 신약개발추천모델로부터 추천 알고리즘 별로 출력되는 개발약품 종류 중 적어도 하나를 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 추천약품으로 결정하게 된다.

이때, 결정부(250)는 추천 알고리즘 별로 출력되는 개발약품 종류가 추천 알고리즘 간에 상호 중복되는 중복도 우선순위에 따라 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 높은 추천약품을 결정할 수 있다.

또한, 결정부(250)는 추천 알고리즘 별로 출력되는 개발약품 종류를 각 추천 알고리즘 간에 동일 비율(예: 1:1:1)로 결합하거나, 특히 신약개발 예정기업으로부터 기 정의된 기업 특성이 확인되는 경우 특정 추천 알고리즘에 가중치를 부여하여 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 추천약품을 결정할 수 있다.

여기서, 기 정의된 기업 특성이란, 스타트업 기업과 같이 과거에 개발한 제품에 대한 정보가 거의 없는 콜드 스타트의 문제를 가지는 기업을 일컫는 것으로서, 이 경우 협업필터링 알고리즘보다는 지도학습 알고리즘에 높은 가중치가 부여되어 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 추천약품이 결정될 수 있다.

이와 관련하여, 도 7에서는 본 발명의 일 실시예에서 협업필터링, 연관규칙, 지도학습(랜덤 포레스트) 알고리즘을 결합하여 특정한 신약개발 예정기업에 대해 개발약품을 추천한 결과를 예시적으로 보여주고 있다.

도 7에 나타난 바와 같이, 각각의 알고리즘에서 도출된 결과를 결합 및 표준화한 수치를 바탕으로 특정한 기업에 대해 개발 성공가능성이 높은 약품종류를 추천할 수 있으며, 추천 순위 또한 제공할 수 있다. 해당 기업에 대해 1순위부터 10순위까지 추천된 약품종류는 ‘L1’, ‘N7’, ‘N2’, ‘A10’, ‘L4’, ‘V3’, ‘S1’, ‘V7’, ‘J1’, ‘M1’인 것을 예시적으로 확인할 수 있다.

이와 관련하여, 신약개발추천모델에 학습된 협업필터링 알고리즘에서는, 신약개발예정정보의 입력에 따라 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로 포트폴리오 간 유사도가 임계치 이상인 유사기업그룹이 선별되며, 선별된 유사기업그룹 내 신약개발 예정기업을 제외한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류가 신약개발 예정기업에 대한 추천약품으로 출력될 수 있다.

또한, 신약개발추천모델에 학습된 연관규칙 알고리즘에서는 신약개발예정정보의 입력에 따라 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로, 전체 신약개발 수행기업의 개발 성공제품 포트폴리오로부터 도출되는 연관규칙에 따라 특정 개발약품 종류의 개발 시 상기 특정 개발약품 종류와 함께 개발되는 적어도 하나의 개발약품 종류가 신약개발 예정기업에 대한 추천약품으로 출력될 수 있다.

마지막으로, 신약개발추천모델에 학습된 지도학습 알고리즘에서는 신약개발 수행기업의 기업 특성, 개발 성공제품에 관한 포트폴리오 특성, 및 약품 특성을 포함한 특성 정보를 설명 변수로 지정하고, 개발약품 종류를 구분하는 각 약품분류코드에 대한 약품 개발 여부를 종속 변수로 지정하여 상기 신약개발 수행기업의 기업 속성을 판별하며, 기업 속성에 따라 개발되는 약품종류에 대한 규칙을 기반으로 상기 신약개발 예정기업과 기업 속성이 유사한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류가 상기 신약개발 예정기업에 대한 추천약품으로 출력될 수 있다.

제공부(260)는 추천약품에 관한 정보를 제공하는 기능을 수행한다.

보다 구체적으로, 제공부(260)는 신약개발추천모델로부터 추천 알고리즘 별로 출력되는 개발약품 종류 중 적어도 하나가 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 추천약품으로 결정되면, 결정된 추천약품에 관한 정보를 신약개발 예정기업으로 제공하게 된다.

이때, 제공부(260)는 추천약품으로 결정된 개발약품 종류에 대해서 기 수집된 시장정보, 즉, 시장규모, 시장성장률, 경쟁강도, 기업별/제품별 시장점유율 등의 시장정보 및 제품정보를 연동하여 추가정보로서 제공함으로써, 신약개발 예정기업 입장에서 추천된 개발약품 종류뿐만 아니라 그것에 대한 시장정보를 동시에 확인하도록 지원할 수 있다.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 신약개발추천장치(200)의 구성에 따르면, 대용량 데이터에 대한 기계학습을 기반으로 신약을 개발하려는 기업이 정성적인 분석이나 판단에만 의존하지 않고도 데이터에 기반하여 개발 성공 가능성이 높은 신약 제품유형을 추천받을 수 있으며, 기술적인 측면뿐만 아니라, 경영/시장적인 측면을 모두 고려하여 기업 맞춤형으로 각각의 기업이 개발하기에 가장 적합하고 성공가능성이 높은 신약 종류를 효과적으로 추천할 수 있으므로, 기업 입장에서 신약개발의 실패 가능성을 낮추고 신약개발에 소요되는 시간과 비용을 절감할 수 있는 효과가 있다.

이하에서는, 도 8을 참고하여 본 발명의 일 실시예에 따른 신약개발추천장치(200)의 동작 방법에 대한 설명을 이어 가기로 한다.

먼저, 수집부(210)는 신약개발 수행기업 별 신약개발수행정보를 데이터베이스(100)로부터 수집한다(S10).

그리고 나서, 전처리부(220)는 신약개발 수행기업 별로 신약개발수행정보가 수집되면, 수집된 신약개발수행정보를 정제 및 가공하여 약품개발추천모델의 생성을 위한 학습데이터 셋을 구성한다(S20).

그런 다음, 생성부(230)는 학습데이터 셋이 구성되면, 학습데이터 셋을 기계학습 기반의 추천 알고리즘 별로 학습하여 신약개발추천모델을 생성한다(S30).

이때, 생성부(230)는 앞서 예시한, 도 3에 도시된 바와 같이, 협업필터링(Collaborate Filtering) 알고리즘, 연관규칙(Association Rules) 알고리즘, 및 지도학습(Supervised Learning) 알고리즘에 따라 학습데이터 셋을 학습하여 신약개발추천모델을 생성할 수 있다.

그리고 나서, 생성부(230)는 협업필터링 알고리즘, 연관규칙 알고리즘, 및 지도학습 알고리즘 별로 학습데이터 셋을 학습하는 방식을 통해 신약개발추천모델이 생성되면, 생성된 신약개발추천모델에 대해 성능을 평가하여 성능지수를 산출하고, 성능 향상을 위해 알고리즘들의 파라미터를 조정하고 최적화한다(S40-S60).

이때, 생성부(230)는 협업필터링 알고리즘에 대해서 교차검증 및 평균제곱근오차(Root Mean Square Error), 평균절대오차(Mean Absolute Error) 등의 오차를 구하여 성능을 평가할 수 있으며, 또한 성능 개선을 위해 매개변수를 조절할 수 있다.

나아가, 확인부(340)는 신약개발추천모델의 생성과 그에 따른 성능 평가 및 개선이 완료된 이후, 신약개발을 추진하려는 신약개발 예정기업에 대해 개발약품의 추천이 요구되는 경우, 신약개발 예정기업에 대한 신약개발예정정보를 신약개발추천모델의 입력 값으로 확인한다(S70).

여기서, 신약개발예정정보는, 신약개발 수행기업에 대해 수집되는 신약개발수행정보에 대응하는 정보로서, 전술한 신약개발수행정보와 마찬가지로, 신약개발 예정기업에 관한 신약개발 파이프라인 정보, 시장출시 약품정보, 및 기업정보가 포함될 수 있다.

다음으로, 결정부(250)는 신약개발 예정기업에 대해서 신약개발예정정보가 확인되면, 확인된 신약개발예정정보를 신약개발추천모델에 대한 입력 값으로 입력하게 되며, 신약개발예정정보의 입력에 따라 신약개발추천모델로부터 추천 알고리즘 별로 출력되는 개발약품 종류 중 적어도 하나를 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 추천약품으로 결정한다(S80-S90).

이후, 제공부(260)는 신약개발추천모델로부터 추천 알고리즘 별로 출력되는 개발약품 종류 중 적어도 하나가 신약개발 예정기업에 대해서 향후 개발 성공 가능성이 높은 추천약품으로 결정되면, 결정된 추천약품에 관한 정보를 신약개발 예정기업으로 제공한다(S100).

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 신약개발추천장치(200)의 동작 방법에 따르면, 대용량 데이터에 대한 기계학습을 기반으로 신약을 개발하려는 기업이 정성적인 분석이나 판단에만 의존하지 않고도 데이터에 기반하여 개발 성공 가능성이 높은 신약 제품유형을 추천받을 수 있으며, 기술적인 측면뿐만 아니라, 경영/시장적인 측면을 모두 고려하여 기업 맞춤형으로 각각의 기업이 개발하기에 가장 적합하고 성공가능성이 높은 신약 종류를 효과적으로 추천할 수 있으므로, 기업 입장에서 신약개발의 실패 가능성을 낮추고 신약개발에 소요되는 시간과 비용을 절감할 수 있는 효과가 있다.

한편, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 처리 시스템의 동작을 처리하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다.

컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.

본 명세서에서 "시스템"이나 "장치"라 함은 예컨대 프로그래머블 프로세서, 컴퓨터 혹은 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 기구, 장치 및 기계를 포괄한다. 처리 시스템은, 하드웨어에 부가하여, 예컨대 프로세서 펌웨어를 구성하는 코드, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 혹은 이들 중 하나 이상의 조합 등으로 컴퓨터 프로그램에 대한 실행 환경을 형성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선언적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.

한편, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 EPROM, EEPROM 및 플래시메모리 장치와 같은 반도체 메모리 장치, 예컨대 내부 하드디스크나 외장형 디스크와 같은 자기 디스크, 자기광학 디스크 및 CD-ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함할 수 있다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.

본 명세서에서 설명한 주제의 구현물은 예컨대 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 예컨대 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 예컨대 사용자가 본 명세서에서 설명한 주제의 구현물과 상호 작용할 수 있는 웹 브라우저나 그래픽 유저 인터페이스를 갖는 클라이언트 컴퓨터와 같은 프론트엔드 컴포넌트 혹은 그러한 백엔드, 미들웨어 혹은 프론트엔드 컴포넌트의 하나 이상의 모든 조합을 포함하는 연산 시스템에서 구현될 수도 있다. 시스템의 컴포넌트는 예컨대 통신 네트워크와 같은 디지털 데이터 통신의 어떠한 형태나 매체에 의해서도 상호 접속 가능하다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 마찬가지로, 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

또한, 본 명세서에서는 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징될 수 있다는 점을 이해하여야 한다.

이와 같이, 본 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하려는 의도가 아니다. 따라서, 상술한 예를 참조하여 본 발명을 상세하게 설명하였지만, 당업자라면 본 발명의 범위를 벗어나지 않으면서도 본 예들에 대한 개조, 변경 및 변형을 가할 수 있다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

본 발명에 따른 신약개발추천장치 및 그 동작 방법에 따르면, 기계학습 기반의 추천 알고리즘을 이용하여 신약개발 예정기업에 대해 향후 개발 성공 가능성이 높은 약품을 기업 맞춤형으로 추천할 수 있다는 점에서 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.

100: 데이터베이스
200: 신약개발추천장치
210: 수집부 220: 전처리부
230: 생성부 240: 확인부
250: 결정부 260: 제공부

Claims

신약개발 수행기업 별로 수집되는 신약개발수행정보를 신약개발추천모델의 생성을 위한 학습데이터 셋으로 구성하는 전처리부;
상기 학습데이터 셋을 추천 알고리즘 별로 학습하여 상기 신약개발추천모델을 생성하는 생성부;
신약개발 예정기업에 대한 신약개발예정정보를 기 생성된 신약개발추천모델의 입력 값으로 확인하는 확인부; 및
상기 신약개발예정정보의 입력에 따라 상기 신약개발추천모델이 학습한 추천 알고리즘 별로 상기 신약개발추천모델로부터 출력되는 개발약품 종류 중 적어도 하나를 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품으로 결정하는 결정부를 포함하며,
상기 추천 알고리즘은,
신약개발 수행기업 별로 기업 특성, 개발 성공제품에 관한 포트폴리오 특성, 및 약품 특성을 포함하는 특성 정보를 설명 변수로 지정하고, 개발약품 종류를 구분하는 각 약품분류코드에 대한 약품 개발 여부를 종속 변수로 지정한 학습데이터 셋의 구성을 기초로 기업 속성을 판별하며, 판별된 기업 속성에 따라 개발되는 약품종류에 대한 규칙을 기반으로 상기 신약개발 예정기업과 기업 속성이 유사한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류를 상기 신약개발 예정기업에 대한 추천약품으로 출력하는 지도학습 알고리즘을 포함하며,
상기 결정부는,
상기 추천 알고리즘 별로 출력되는 개발약품 종류를 각 추천 알고리즘 간에 동일 비율로 결합하거나, 또는 상기 신약개발 예정기업으로부터 기 정의된 기업 특성이 확인되는 경우 특정 추천 알고리즘에 가중치를 부여하여 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정하되, 상기 신약개발예정정보로부터 상기 신약개발 예정기업에서 개발한 개발약품의 종류가 임계치 미만인 것으로 확인되는 경우, 상기 지도학습 알고리즘에 대해 보다 높은 가중치를 부여하는 것을 특징으로 하는 신약개발추천장치.
삭제
제 1 항에 있어서,
상기 전처리부는,
신약개발 수행기업 별로 개발약품 종류 및 개발약품 개수를 포함하는 사용자-아이템 행렬 형태로 학습데이터 셋을 구성하며,
상기 사용자-아이템 행렬은,
신약개발 수행기업 별로 지정되는 각 행에 대해 개발약품 종류를 구분하는 약품분류코드가 열로 지정되며, 각 신약개발 수행기업에서의 약품분류코드 별 약품 개발 여부 및 개발약품 개수 중 적어도 하나에 기초하여 행렬 값이 부여되는 것을 특징으로 하는 신약개발추천장치.
삭제
제 3 항에 있어서,
상기 추천 알고리즘은,
상기 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로 상기 포트폴리오 간 유사도가 임계치 이상인 유사기업그룹을 선별하며, 상기 유사기업그룹 내 상기 신약개발 예정기업을 제외한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류를 상기 신약개발 예정기업에 대한 추천약품으로 출력하는 협업필터링 알고리즘을 포함하는 것을 특징으로 하는 신약개발추천장치.
제 3 항에 있어서,
상기 추천 알고리즘은,
상기 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로, 전체 신약개발 수행기업의 개발 성공제품 포트폴리오로부터 도출되는 연관규칙에 따라 특정 개발약품 종류의 개발 시 상기 특정 개발약품 종류와 함께 개발되는 적어도 하나의 개발약품 종류를 신약개발 예정기업에 대한 추천약품으로 출력하는 연관규칙 알고리즘을 포함하는 것을 특징으로 하는 신약개발추천장치.
삭제
제 1 항에 있어서,
상기 결정부는,
상기 추천 알고리즘 별로 출력되는 개발약품 종류가 추천 알고리즘 간에 상호 중복되는 중복도 우선순위에 따라 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정하는 것을 특징으로 하는 신약개발추천장치.
삭제
삭제
신약개발추천장치의 동작 방법에 있어서,
신약개발 수행기업 별로 수집되는 신약개발수행정보를 신약개발추천모델의 생성을 위한 학습데이터 셋으로 구성하는 전처리단계;
상기 학습데이터 셋을 추천 알고리즘 별로 학습하여 상기 신약개발추천모델을 생성하는 생성단계;
신약개발 예정기업에 대한 신약개발예정정보를 기 생성된 신약개발추천모델의 입력 값으로 확인하는 확인단계; 및
상기 신약개발예정정보의 입력에 따라 상기 신약개발추천모델이 학습한 추천 알고리즘 별로 상기 신약개발추천모델로부터 출력되는 개발약품 종류 중 적어도 하나를 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품으로 결정하는 결정단계를 포함하며,
상기 추천 알고리즘은,
신약개발 수행기업 별로 기업 특성, 개발 성공제품에 관한 포트폴리오 특성, 및 약품 특성을 포함하는 특성 정보를 설명 변수로 지정하고, 개발약품 종류를 구분하는 각 약품분류코드에 대한 약품 개발 여부를 종속 변수로 지정한 학습데이터 셋의 구성을 기초로 기업 속성을 판별하며, 판별된 기업 속성에 따라 개발되는 약품종류에 대한 규칙을 기반으로 상기 신약개발 예정기업과 기업 속성이 유사한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류를 상기 신약개발 예정기업에 대한 추천약품으로 출력하는 지도학습 알고리즘을 포함하며,
상기 결정단계는,
상기 추천 알고리즘 별로 출력되는 개발약품 종류를 각 추천 알고리즘 간에 동일 비율로 결합하거나, 또는 상기 신약개발 예정기업으로부터 기 정의된 기업 특성이 확인되는 경우 특정 추천 알고리즘에 가중치를 부여하여 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정하되, 상기 신약개발예정정보로부터 상기 신약개발 예정기업에서 개발한 개발약품의 종류가 임계치 미만인 것으로 확인되는 경우, 상기 지도학습 알고리즘에 대해 보다 높은 가중치를 부여하는 것을 특징으로 하는 신약개발추천장치의 동작 방법.
삭제
제 11 항에 있어서,
상기 전처리단계는,
신약개발 수행기업 별로 개발약품 종류 및 개발약품 개수를 포함하는 사용자-아이템 행렬 형태로 학습데이터 셋을 구성하며,
상기 사용자-아이템 행렬은,
신약개발 수행기업 별로 지정되는 각 행에 대해 개발약품 종류를 구분하는 약품분류코드가 열로 지정되며, 각 신약개발 수행기업에서의 약품분류코드 별 약품 개발 여부 및 개발약품 개수 중 적어도 하나에 기초하여 행렬 값이 부여되는 것을 특징으로 하는 신약개발추천장치의 동작 방법.
삭제
제 13 항에 있어서,
상기 추천 알고리즘은,
상기 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로 상기 포트폴리오 간 유사도가 임계치 이상인 유사기업그룹을 선별하며, 상기 유사기업그룹 내 상기 신약개발 예정기업을 제외한 나머지 신약개발 수행기업에서 개발 성공이 확인되는 적어도 하나의 개발약품 종류를 상기 신약개발 예정기업에 대한 추천약품으로 출력하는 협업필터링 알고리즘을 포함하는 것을 특징으로 하는 신약개발추천장치의 동작 방법.
제 13 항에 있어서,
상기 추천 알고리즘은,
상기 신약개발 예정기업의 개발 성공제품에 관한 포트폴리오를 기초로, 전체 신약개발 수행기업의 개발 성공제품 포트폴리오로부터 도출되는 연관규칙에 따라 특정 개발약품 종류의 개발 시 상기 특정 개발약품 종류와 함께 개발되는 적어도 하나의 개발약품 종류를 신약개발 예정기업에 대한 추천약품으로 출력하는 연관규칙 알고리즘을 포함하는 것을 특징으로 하는 신약개발추천장치의 동작 방법.
삭제
제 11 항에 있어서,
상기 결정단계는,
상기 추천 알고리즘 별로 출력되는 개발약품 종류가 추천 알고리즘 간에 상호 중복되는 중복도 우선순위에 따라 상기 신약개발 예정기업에 대해 향후 개발 성공 가능성이 임계치 이상인 추천약품을 결정하는 것을 특징으로 하는 신약개발추천장치의 동작 방법.
삭제
삭제