KR101109913B1

KR101109913B1 - 중회귀 분석에 의한 예측 모델의 작성 방법, 작성 장치, 작성 프로그램을 기록한 기록 매체

Info

Publication number: KR101109913B1
Application number: KR1020097013447A
Authority: KR
Inventors: 고타로우 유타
Original assignee: 후지쯔 가부시끼가이샤
Priority date: 2007-03-27
Filing date: 2007-03-27
Publication date: 2012-03-13
Also published as: US20100070441A1; KR20090087485A; JP5071475B2; WO2008126209A1; JPWO2008126209A1; US8255342B2

Abstract

컴퓨터로 중회귀 분석에 기초한 예측 정확도가 높은 목적 변수의 예측 모델을 형성한다. a) 목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 단계와, b) 이 세트를 중회귀 분석하여, 목적 변수의 계산값을 획득하는 단계와, c) 실측값과 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 결정 계수를 산출하는 단계와, d) 결정 계수가 제2 값을 초과할 때까지, 제1 값을 변경하여 단계 c)를 반복하는 단계와, e) 단계 d)의 종료 시의 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지를 제2 서브 샘플 세트로 하여 클래스 분류를 실행하며 판별 함수를 산출하는 단계와, f) 단계 d)의 종료 시의 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하는 단계와, g) 제2 서브 샘플 세트를 초기 샘플 세트로 설정하는 단계와, 단계 b)부터 단계 f)까지를 반복하여 복수의 예측 모델을 획득하는 단계를 각각 실행한다.

Description

중회귀 분석에 의한 예측 모델의 작성 방법, 작성 장치, 작성 프로그램을 기록한 기록 매체{METHOD, DEVICE, AND RECORDING MEDIUM HAVING PROGRAM FOR MAKING PREDICTION MODEL BY MULTIPLE REGRESSION ANALYSIS}

본 발명은, 샘플의 물리적, 화학적 또는 생리학적인 특성에 관한 데이터가 연속량인 경우에, 그 데이터를 예측하기 위한, 피팅(fitting) 방법에 의한 예측 모델(예측식)의 작성 방법, 작성 장치 및 작성 프로그램에 관한 것이며, 특히 예측 신뢰성이 높은 예측 모델을 작성하기 위한 방법, 장치 및 프로그램에 관한 것이다.

샘플의 물리적, 화학적 또는 생리학적인 특성(목적 변수)을 예측하기 위한 모델을 작성하는 데 있어서, 목적 변수가 수치적으로 연속량인 경우, 적용되는 데이터 해석 방법은 일반적으로 피팅 방법이라고 한다. 이를 위한 대표적인 해석 방법으로서 회귀 분석 방법이 있다. 이것은 목적 변수가 기지인 샘플에 대해서, 적절히 설정한 설명 변수를 적용하여 회귀 분석을 실시하고, 목적 변수와 설명 변수 간의 관계를 규정하는 회귀식을 산출하며, 이 식에 기초하여, 목적 변수가 미지인 샘플에 대해서 목적 변수의 값을 예측하는 것이다. 설명 변수가 복수인 경우를 중회귀 분석이라고 부른다. 피팅 방법에는, 선형 중회귀 분석법 및 비선형 중회귀 분석법, 그 외에 PLS(Partial Least Squares), 뉴럴 네트워크가 있지만, 본 발명의 방 법은 어느 분석 방법에도 적용 가능하다.

미지 샘플의 예측 신뢰도는 선형 중회귀 방법의 적용에 의해 산출된 중회귀식의 양부(良否)에 따른다. 중회귀식의 양부는 상관 계수(R) 또는 결정 계수(R2)의 값으로 평가된다. 이들 값이 1에 가까울수록 양호한 회귀식이 되고, 0에 가까울수록 조악한 회귀식이 된다.

도 1에 한 샘플 세트를 선형 중회귀 분석한 결과를 나타낸다. 이 도면은 샘플의 목적 변수에 대해서, 실측값과 계산값(예측 모델을 이용하여 계산된 값)의 상관 관계를 도시하고 있다. 도면의 횡축은 각 샘플의 목적 변수에 대한 실측값을 나타내고, 종축은 중회귀 분석의 결과로서 얻어진 중회귀식(예측 모델)에 기초하여 계산된, 각 샘플의 목적 변수(Y)의 값을 나타낸다. 이 경우의 중회귀식은 이하의 식 (1)로 나타낸다.

Y = ±a1?x1±a2?x2± … ±an?xn±C (1)

식(1)에 있어서, Y는 각 샘플의 목적 변수의 계산값을 나타내고, x1, x2 … xn은 설명 변수의 값을, a1, a2 … an은 계수를, C는 상수를 각각 나타내고 있다. 각 샘플에 대해서, 설명 변수의 값을 식 (1)에 입력함으로써, 각 샘플의 목적 변수(Y)의 값이 산출된다. 식 (1)에 기초하여 산출한 목적 변수(Y)의 값이 샘플의 실측값과 일치한 경우, 샘플 ○은 도 1의 회귀선(Y) 위에 놓여진다. 따라서, 샘플이 회귀선(Y)의 주위에 밀집하여 분포하면 할수록, 그 회귀식은 양호한(신뢰성이 높은) 회귀식으로 판단된다. 중회귀식의 신뢰성은 상관 계수(R)에 의해 결정된다. 상관 계수(R)가 1인 경우, 샘플은 회귀선 위에 놓여진다. 도 1에서는 상관 계수(R)가 0.7인 경우를 도시하고 있다.

일반적으로, 샘플수가 적은 경우는, 샘플을 비교적 간단히 회귀선 위에 놓을 수 있다. 그렇지만, 샘플수가 많아지면 노이즈가 되는 샘플이 상대적으로 증가하기 때문에, 모든 샘플을 하나의 회귀선 위에 분포시키는 것이 매우 곤란해진다. 따라서, 샘플수가 많은 경우의 해석 방법으로서, 전체 샘플을 보다 작은 서브세트로 분류하여, 이들 서브세트 단위로 회귀식을 구하는 것이 행해지고 있다. 이렇게 서브세트마다 회귀 분석을 실행할 경우, 전체 샘플을 어떻게 하여 복수의 서브세트로 분류할지가 매우 중요해지고, 결과로서 얻어지는 회귀식의 신뢰도나 예측성에 큰 영향을 미친다. 또한, 미지 샘플의 목적 변수를 예측하는 경우, 예측 대상의 샘플에 대하여, 어느 서브세트에 대해 작성된 회귀식을 적용할 지의 선택도 중요하고, 이 선택을 잘못하면 전혀 신뢰성이 없는 예측 결과, 즉 실제의 값과 크게 차이난 값을 얻을 수 있다.

일반적으로, 회귀식의 신뢰성을 높이는 것은 데이터 해석에 있어서 매우 중요하다. 이를 위한 방법의 하나로서, 회귀선으로부터 떨어진 샘플, 즉 실측값과 예측값이 크게 상이한 샘플을 샘플 세트로부터 제거하는 것이, 좋은 중회귀식 작성을 위한 중요한 작업으로서 행해지고 있다. 회귀선으로부터 멀리 떨어져 존재하는 샘플은 아웃라이어 샘플로 불리고, 이러한 샘플을 제거하면 확실히 상관 계수(R)의 값을 향상시킬 수 있다. 중회귀식(예측 모델)을 작성하기 위한 일반적인 선형 중회귀 프로그램에서는, 이러한 아웃라이어 샘플의 발생이 최소한이 되는 중회귀식을 자동적으로 작성하도록 설계되어 있다.

따라서, 샘플 세트 내에, 한 개라도 다른 것과 목적 변수의 값이 크게 벗어난 샘플이 존재하면, 중회귀식이 그와 같은 아웃라이어 샘플에 크게 이끌려, 그 영향을 강하게 받은 중회귀식이 생성된다. 따라서, 통상의 데이터 해석에서는, 이러한 아웃라이어 샘플을 발견하고, 이것을 샘플 세트로부터 취출하며 나머지 샘플을 이용하여 중회귀식을 작성하도록 하고 있다. 이 경우, 취출된 아웃라이어 샘플은 데이터 해석적으로는 노이즈로 판단되고, 데이터 해석 과정에서는 두번 다시 이용되지 않는다. 즉, 아웃라이어 샘플로서 취출된 샘플에 관한 정보는 데이터 해석상 버려진다. 이 결과, 작성된 중회귀식의 상관 계수가 높아도, 아웃라이어 샘플과 유사?관련된 샘플을 예측하는 경우의 예측 신뢰성이 저하되고, 결과적으로 적용 범위가 좁은 중회귀식이 되어, 범용성이 크게 저하된다. 따라서, 중회귀 분석에서는, 이러한 아웃라이어 샘플을 가능한 한 적게 하면서, 상관 계수가 높은 중회귀식을 작성하는 것이 요구된다.

도 2는 샘플의 실측값(횡축)과 계산값(종축)의 상관을 도시하는 도면이고, 중회귀 분석의 결과로부터 아웃라이어 샘플을 취출하여, 상관 계수(R)를 향상시키는 방법을 설명하기 위한 도면이다. 도 2에 있어서, 도면부호 1은 아웃라이어 샘플이고, 이러한 아웃라이어 샘플을 제거하고, 회귀선(2) 주변에 남은 샘플만을 이용하여 중회귀식을 작성함으로써, 상관 계수(R)가 향상한다. 그런데, 이와 같이 하여 중회귀식이 개량된 경우는, 전술한 바와 같이, 노이즈로서 취출된 샘플의 정보는 새로운 중회귀식에 반영되지 않기 때문에, 아웃라이어 샘플이 갖는 정보는 무시된다.

따라서, 도 2에 도시하는 바와 같이, 비교적 샘플수가 적은 경우는, 이러한 중회귀식의 개량이 효과를 갖지만, 도 1에 도시하는 경우와 같이 샘플수가 많아지면, 상대적으로 이러한 아웃라이어 샘플도 증대하기 때문에, 단순히 샘플 세트를 취출하여 해석하면, 현실과는 크게 차이나, 보편성이 결여된 국소해에 가까운 중회귀식이 작성된다. 그 결과, 샘플의 해석이나, 예측 등을 높은 신뢰성으로 행하는 것은 불가능해진다.

또한, 중회귀 분석의 목적이 단순히 요인 해석인 경우는, 도 2에 도시하는 바와 같은 아웃라이어 샘플을 제거한 분석 방법으로도 의미를 갖지만, 목적 변수가 미지인 샘플에 대해 예측하는 것이 주목적이고 그 예측 신뢰성이 중요한 경우는, 이러한 분석 방법으로는 정보의 누락에 의한 적용 한계가 생기기 때문에 부적절하다.

예컨대, 화합물의 독성 예측 등의 문제에서는, 중회귀식 작성 시에 이용되는 샘플수가 때때로 매우 많아지고, 따라서, 높은 상관 계수를 얻는 것이 매우 어려워진다. 또한, 샘플의 다양성도 큰 경우가 많고, 아웃라이어 샘플이 되는 비율이 커지기 쉬우므로, 역시 높은 상관 계수를 얻기 어려워지기 쉽다. 이 때문에, 비교적 적은 수의 샘플에 대해서 중회귀 분석을 실행하는 경우라도, 예측은 매우 어려워진다. 이와 같이, 아웃라이어 샘플을 제거하고, 재이용하지 않는 중회귀 방법에서는 얻어진 중회귀식에 의한 예측 신뢰성이 크게 저하된다. 따라서, 샘플 세트를 복수의 서브세트로 분류하는 방법도 아니고, 또한 아웃라이어 샘플을 제거하는 분석 방법도 아닌, 새로운 중회귀 분석 방법이 요구되고 있다.

또한, 선형, 비선형 중회귀 분석을 이용한 화합물의 독성이나 약리 활성 예측에 대해서는, 지금까지 많은 사례가 보고되어 왔다(예컨대 비특허문헌 1, 2 참조).

비특허문헌 1: 나가마츠 아사부미 외; 플라빈 및 5-데아자플라빈 유연 화합물의 항종양 활성 분자 설계와 PTK 저해에 관한 AutoDock 연구, 제25회 의약화학 심포지움 강연 요지집, 1P-20, pp. 82-83, 나고야(2006)

비특허문헌 2: 바바 이키코 외; 1-β-O-Acyl glucuronides의 친전자 반응성에 관한 구조-활성 상관, 제34회 구조-활성 상관 심포지움 강연 요지집, KP20, pp.123-126, 니가타(2006)

따라서, 본 발명에 의해 해결하고자 하는 과제는, 샘플수가 많고 샘플의 다양성이 큰 경우라도, 상관도가 높은 중회귀 분석을 실시하고, 예측 정확도가 높은 예측 모델을 작성할 수 있는, 예측 모델의 작성 방법, 장치 및 프로그램을 제공하는 것이다.

상기 과제를 해결하기 위해, 제1 발명은, 컴퓨터에 의해 중회귀 분석에 기초한 예측 모델을 작성하기 위해, a) 목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 단계와, b) 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 단계와, c) 상기 실측값과 상기 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 단계와, d) 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 단계 c)를 반복하는 단계와, e) 단계 d)의 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고, 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 단계와, f) 단계 d)의 종료 시의 상기 중회귀 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하는 단계와, g) 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하여, 단계 b)부터 단계 f)까지를 반복하여 실행함으로써 복수의 상기 예측 모델을 획득하는 단계를 각각 실행함으로써, 컴퓨터에 의해 목적 변수가 미지인 샘플에 대한 예측 모델을 작성한다.

상기 제1 발명에서는, 우선, 목적 변수의 실측값이 기지인 복수의 샘플에 의해 학습 데이터가 구성된다. 이 학습 데이터에 대하여 중회귀 분석을 실시하여 각 샘플의 목적 변수의 계산값을 산출한다. 산출된 목적 변수의 계산값과 실측값을 비교하고, 그 차가 제1 값 이하인 샘플을 취출하여 임시 서브 샘플 세트를 구성한다. 이 제1 값을, 예컨대 최대 잔차값의 1/2로 설정함으로써, 임시 서브 샘플 세트는 잔차값이 큰 샘플을 포함하지 않게 된다. 잔차값이란, 계산값과 실측값의 차를 나타내는 값이고, 잔차값이 작은 샘플일수록 중회귀식에 적합하다.

다음에, 상기 서브 샘플 세트에 대하여 중회귀 분석을 실시하고, 상관 계수 또는 결정 계수를 산출한다. 이 상관 계수 또는 결정 계수가 미리 정한 제2 값을 초과할 때까지, 상기 제1 값을 변화시키면서 상기 임시 서브 샘플 세트를 구성하는 처리를 반복한다. 제2 값을 예컨대 결정 계수에 대하여 90으로 한 경우, 이 반복 처리에 의해, 결정 계수가 90 이상인 서브 샘플 세트를 얻을 수 있으면, 이것을 제1 서브 샘플 세트로 설정한다. 또한, 초기 샘플 세트로부터 제1 서브 샘플 세트를 제외한 나머지를 제2 서브 샘플 세트로 한다. 제1 서브 샘플 세트는 예컨대 90 이상인 높은 결정 계수를 갖기 때문에, 이 서브 샘플 세트를 특정하기 위해 작성한 중회귀식을 제1 STAGE의 예측 모델로 설정한다.

동시에, 제1 및 제2 서브 샘플 세트를 이용하여, 2 클래스 분류를 위한 판별 함수를 산출하고, 이것을 상기 중회귀식과 마찬가지로 제1 단계의 예측 모델로 한다. 또한, 제2 서브 샘플 세트는 잔차값이 비교적 큰 샘플로 구성되기 때문에, 그 결정 계수는 낮고, 따라서 제2 서브 샘플 세트로부터는 정확도가 높은 중회귀식을 얻을 수 없다.

그러나, 본 발명에서는, 다음 단계에서, 제2 서브 샘플 세트를 초기 샘플 세트로 설정하여, 상기 제1 단계의 예측 모델을 얻는 공정을 반복하고, 제2 단계에서의 제1 서브 샘플 세트를 구성한다. 이 제1 서브 샘플 세트는 높은 결정 계수를 가지며, 따라서 정확도가 높은 중회귀식이 된다. 따라서 이 중회귀식을 제2 단계의 예측 모델로 한다. 동시에 제1, 제2 서브 샘플 세트를 분류하는 판별 함수를 작성해 둔다. 이하, 마찬가지로 하여, 제3 단계, 제4 단계의 예측 모델을 순차 형성함으로써, 거의 모든 샘플의 정보를 포함한, 정확도가 높은 예측 모델을 작성할 수 있다.

또한, 단계마다의 예측 모델 작성 공정은, 제2 서브 샘플 세트에 포함되는 샘플수와, 그 샘플 세트를 특정하기 위해 실시된 중회귀 분석 시에 사용된 초기 파라미터 수와의 비가 일정값 이하, 예컨대 5 이하가 된 경우에, 그 후의 예측 모델을 작성하지 않는다. 또는 단계수가 미리 규정한 일정수를 초과한 경우에, 처리를 중지하여도 좋다.

상기 과제를 해결하기 위해, 제2 발명은, a) 목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 단계와, b) 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 단계와, c) 상기 실측값과 상기 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 단계와, d) 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 단계 c)를 반복하는 단계와, e) 단계 d)의 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 단계와, f) 단계 d)의 종료 시의 상기 중회귀 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하는 단계와, g) 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하며, 단계 b)부터 단계 f)까지를 반복하여 실행함으로써 복수의 상기 예측 모델을 획득하는 단계를 각각 컴퓨터에 실행시키는, 중회귀 분석에 의한 예측 모델의 작성 프로그램을 제공한다.

상기 과제를 해결하기 위해, 제3 발명은, a) 화합물의 임의의 독성을 목적 변수로 하고, 이 목적 변수의 실측값이 기지인 화합물에 의해 초기 샘플 세트를 준비하는 단계와, b) 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 단계와, c) 상기 실측값과 상기 계산값의 차가 제1 값 이하인 화합물을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 단계와, d) 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하는 단계 c)를 반복하는 단계와, e) 단계 d)의 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 단계와, f) 단계 d)의 종료 시의 상기 중회귀 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하고, g) 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하며, 단계 b)부터 단계 f)까지를 반복하여 실행함으로써 복수의 상기 예측 모델을 획득하는 단계를 포함하는, 중회귀 분석에 의한 화합물의 독성 예측 모델의 작성 방법을 제공한다.

상기 과제를 해결하기 위해, 제4 발명은, 목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 제1 수단과, 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 제2 수단과, 상기 실측값과 상기 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 제3 수단과, 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 상기 제3 수단의 처리를 속행시키는 제4 수단과, 상기 제4 수단의 처리 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고, 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 제5 수단과, 상기 제4 수단의 처리 종료 시의 상기 중회귀 분석에서의 중회귀식과 상기 제5 수단에 의해 산출된 판별 함수를 예측 모델로서 설정하는 제6 수단과, 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하고, 상기 제2, 제3, 제4, 제5 및 제6 수단에 의한 처리를 반복하여 실행시키는 제7 수단을 포함하는 중회귀 분석에 의한 예측 모델의 작성 장치를 제공한다.

발명의 효과

본 발명의 방법, 프로그램 및 장치에 의하면, 전술한 바와 같이, 샘플수가 많고 샘플의 다양성이 큰 경우라도, 상관도가 높은 중회귀 분석을 실시하여, 예측 정확도가 높은 예측 모델을 작성할 수 있다. 따라서, 예컨대 화합물의 독성 예측 등, 샘플수가 1000개 이상이고 샘플의 다양성이 큰 경우라도, 정확도가 높은 예측 모델을 작성하는 것이 가능해지고, 그 효과는 크다. 특히, 목적 변수가 연속하여 변화하는 반수저해농도, 반수영향농도, 반수치사농도, 더 나아가서는 화합물의 생분해성, 생체 축적성 등을 예측하는 경우에 현저한 효과를 나타낸다.

도 1은 종래의 중회귀 분석을 설명하기 위한 도면으로서, 중회귀 분석에 의해 얻어진 샘플의 계산값과 실측값의 관계를 도시하는 도면이다.

도 2는 종래의 중회귀 분석 방법을 설명하기 위한 도면으로서, 아웃라이어 샘플을 제거한 중회귀 분석 결과를 도시하는 도면이다.

도 3은 본 발명의 원리를 설명하기 위한 도면으로서, 중회귀 분석 결과를 내측 영역과 외측 영역으로 분류한 상태를 도시하는 도면이다.

도 4는 도 3에 도시하는 내측 영역의 샘플을 제거하여 형성된 새로운 샘플 세트에 대한 중회귀 분석을 설명하기 위한 도면이다.

도 5는 도 4에 도시하는 외측 영역의 샘플에 의한 중회귀 분석의 결과를 도시하는 도면이다.

도 6은 본 발명의 일 실시형태에 따른 예측 모델 작성 방법의 순서를 나타내는 흐름도이다.

도 7은 최종 파라미터 세트를 보존하는 데이터 테이블을 나타내는 도면이다.

도 8은 중회귀 분석 정보를 나타내는 데이터 테이블이다.

도 9는 중회귀 분석 결과를 그래픽으로 도시하는 도면이다.

도 10a는 도 6의 단계 S8의 세부내용을 나타내는 흐름도이다.

도 10b는 도 6의 단계 S8의 다른 실시형태를 나타내는 흐름도이다.

도 11은 도 6의 단계 S12의 세부내용을 나타내는 흐름도이다.

도 12는 도 6의 단계 S12에서 특정된 내측 샘플 세트에서의 중회귀 분석의 결과를 그래픽으로 도시하는 도면이다.

도 13은 도 6의 단계 S12의 다른 실시형태를 나타내는 흐름도이다.

도 14는 각 STAGE에서 얻어진 중회귀 정보를 나타내는 도면이다.

도 15는 예측 모델 보존 테이블을 나타내는 도면이다.

도 16은 본 발명의 방법으로 얻어진 예측 모델을 사용하여, 목적 변수의 값이 미지인 샘플에 대해 예측하기 위한 흐름도를 나타내는 도면이다.

도 17은 본 발명의 일 실시형태에 따른 예측 모델 작성 장치의 구성을 도시하는 블록도이다.

<부호의 설명>

3: 중회귀선 4: 내측 영역

5: 외측 영역 6: 중회귀선

200: 예측 모델 작성 장치 210: 입력 장치

220: 출력 장치 300: 기억 장치

400: 해석부

[발명의 원리]

본 발명의 실시형태를 설명하기 전에, 우선, 본 발명의 원리에 대해서 설명한다.

전술한 바와 같이, 전체 샘플 공간으로부터 아웃라이어 샘플을 제거한 새로운 샘플 세트에 대하여 중회귀 분석을 실시함으로써, 상관 계수(R)가 높은 중회귀식을 얻을 수 있다. 그러나, 이 방법에서는, 아웃라이어 샘플이 갖는 각종 정보가 손실된다. 그래서, 본 발명자는, 도 3에 도시하는 바와 같이, 초기의 중회귀 분석에 의한 샘플 공간을 2개의 영역(4, 5)으로 분리하고, 각각의 영역에 속하는 샘플의 서브세트에 대해서 개별로 중회귀 분석을 실시하는 것을 생각하였다.

영역(4)은 초기 중회귀 분석에 의한 회귀선(3)의 근방 영역이고, 영역(5)은 회귀선(3)으로부터 떨어진 영역이다. 여기서, 회귀선(3)의 근방 영역(4)을 「내측 영역」으로 명명하고, 영역(5)을 「외측 영역」으로 명명한다. 또한 내측 영역에 속하는 샘플을 「내측 샘플」, 외측 영역에 속하는 샘플을 「외측 샘플」이라고 부른다.

내측 영역(4)과 외측 영역(5)은 중회귀선(3)으로부터의 거리에 의해 결정된다. 실제로는, 초기 중회귀 분석의 결과인 각 샘플의 잔차를 기초로 결정된다. 「잔차」란, 중회귀식에 기초한 계산값(계산값)과 실측값의 차를 의미한다. 이제, 초기 중회귀 분석에서의 최대 잔차값의 예컨대 절반값을 임계값으로 하고, 임계값 이하의 잔차값을 갖는 샘플을 취출하여 새로운 샘플 세트를 구성하며, 이 샘플 세트에 대해서 중회귀 분석을 실시하여, 상관 계수(R)를 얻는다.

이 값 R이 예컨대 95(상관 계수의 100% 표시) 이하이면, 잔차값의 임계값을 더 저하시켜 샘플수를 한정하고, 한정된 샘플 세트에 대해서 재차 중회귀 분석을 실시한다. 이 때의 상관 계수(R)의 값이 95를 초과하면, 그 중회귀 분석의 대상이 된 샘플 세트를 내측 영역(4)의 샘플, 즉 내측 샘플로 결정한다. 내측 영역(4)의 결정에 의해, 외측 영역(5)은 자동적으로 결정된다.

이상과 같이 하여, 상관 계수(R)의 값이 95를 초과하는 내측 샘플이 특정되면, 본 발명에서는, 이러한 내측 샘플을 샘플 세트 전체로부터 제거하고, 외측 영역(5)에 속하는 샘플에 의해 새로운 샘플 세트를 구성하며, 이 샘플 세트에 대해서 새로운 중회귀 분석을 실시한다.

도 4는 외측 영역(5)의 샘플에 대한 중회귀 분석 결과를 설명하기 위한 도면이다. 도 4에 도시하는 바와 같이, 내측 샘플을 전체 샘플 세트로부터 제거함으로써, 외측 영역 중에 존재하는 샘플은 비어있는 이전의 내측 영역에 들어가 새로운 중회귀선(6)을 형성한다. 도 5는 이와 같이 하여 형성된 새로운 샘플 세트에 의한 상관도를 나타내고 있다.

도 5에 도시하는 중회귀 분석의 결과에 있어서, 중회귀식(6)에 의한 상관 계수(R)의 값이 예컨대 95 이하이면, 도 3에 도시하는 제1 회째의 내측 샘플, 외측 샘플의 특정 방법과 마찬가지로 하여, 중회귀식(6)에 대한 내측 영역(41), 외측 영역(51)을 특정할 수 있다. 이 때문에, 특정된 내측 샘플에 대해서 높은 상관 계수값, 예컨대 95 이상을 나타내는 중회귀식과, 추가로 그 후의 중회귀 분석을 위한 샘플 세트(외측 샘플 세트)를 얻을 수 있다.

이상의 순서를, 예컨대 외측 영역에 존재하는 샘플수가 일정값 이하가 될 때까지 반복하여 행함으로써, 높은 상관 계수값을 갖는 복수의 중회귀식을 얻을 수 있다. 이 중회귀식의 세트에는, 거의 모든 샘플이 갖는 정보가 제거되지 않고 포함되어 있다. 또한, 샘플수가 아무리 큰 값이 되어도, 이 순서를 반복함으로써, 거의 모든 샘플을 이용하여 중회귀식을 작성할 수 있다. 따라서, 이 중회귀식 세트를 예측 모델로서 이용함으로써, 높은 신뢰성으로 미지 샘플을 예측할 수 있다. 이 방법은 샘플수의 크기에 영향받지 않고, 또한 샘플의 다양성이 큰 샘플군을 취급하는 경우라도, 높은 상관 계수를 갖는 중회귀식을 용이하게 구축할 수 있다.

[실시형태]

이하에, 본 발명의 일 실시형태에 대해서 설명한다.

도 6은 본 발명의 일 실시형태에 따른 예측 모델의 작성 방법의 전체 순서를 나타내는 흐름도이다. 우선, 단계 S1에서, 해석 대상인 목적 변수의 값이 기지인 샘플을 준비한다. 본 실시형태에서는, IC50을 목적 변수로 한다. IC50이란 반수저해농도를 의미하고, 이것은, 한 화합물이 1 세트의 실험 생물에 대하여 그 50%의 유영, 증식, 성장(해초류에서는 생장)이나 효소 활성 등을 저해한다고 예상되는 농도를 의미하며, 환경 독성을 평가하는 데에 있어서 매우 중요한 지표이다.

다음 단계 S2에서는, 각 샘플에 대해서, 중회귀 분석에 사용하는 초기 파라미터(설명 변수)를 발생시킨다. 후지쯔 주식회사에서 판매하는 ADMEWORKS-MODELBUILDER(등록상표)에서는, 화합물의 2차원 또는 3차원 구조식, 각종 물성 등에 기초하여, 800 종류 이상의 파라미터를 자동적으로 발생시킬 수 있다. 다음에, STAGE를 0으로 설정하고(단계 S3), 단계 S2에서 발생시킨 초기 파라미터에 대하여 특징을 추출하여 중회귀 분석에 필요 없는 노이즈 파라미터를 제거하고(단계 S4), 최종 파라미터 세트를 결정한다(단계 S5).

도 7에 최종 파라미터 세트의 데이터 테이블을 나타낸다. 도 7의 열(10)은 화합물 샘플을 특정하기 위한 ID를 나타낸다. 열(11)은 각 샘플의 목적 변수의 값을 μMol의 단위로 나타내고 있다. 이 실시형태에서는, 목적 변수를 IC50의 값으로 하고 있다. 열(12)은 최종 파라미터 세트를 구성하는 설명 변수의 이름을 나타낸다. 이 실시형태에서는, 샘플의 총 원자수(x1), 탄소 원자수(x2), 산소 원자수(x3), 질소 원자수(x4), 유황 원자수(x5), 불소 원자수(x6), 염소 원자수(x7), 브롬 원자수(x8) 등을 설명 변수로서 채용하고 있다.

도 7의 표에서의 각 셀 내에 기재된 수치가, 각 샘플에 대한 파라미터값이다. 예컨대, 샘플 ID가 3인 화합물은 IC50의 값이 3.2 μ몰(μM)이고, 그 화합물의 총 원자수는 21, 그 중 탄소 원자수는 15, 산소 원자수는 6이며, 질소, 유황, 불소, 염소, 브롬 원자를 포함하지 않는 것을 나타내고 있다.

도 6의 단계 S6에서는, 도 7의 데이터 테이블에 나타낸 데이터를 이용하여 중회귀 분석을 실시하고, 초기 중회귀식을 형성한다. 초기 중회귀식은 이하와 같이 표시된다.

Y0 = a1?x1+a2?x2+…+an?xn+CO (2)

여기서, a1, a2 … an은 각 파라미터 x1, x2 … xn에 대한 계수이고, CO는 상수이다. 각 샘플에 대한 목적 변수의 계산값은 도 7에 나타내는 각 샘플의 파라미터값을 식 (2)에 대입함으로써 구해진다. 이와 같이 하여 산출한 각 샘플의 목적 변수의 값을 실측값에 대하여 플롯함으로써, 도 1에 도시하는 바와 같은 샘플의 계산값과 실측값의 상관을 나타내는 도면을 얻을 수 있다.

도 8은 단계 S6의 초기 중회귀 분석 실시에서 작성된 중회귀식 및 관련 데이터를 나타내는 테이블이다. 이 데이터는 단계 S7에서 출력된다. 초기 중회귀 분석의 결과, 각 파라미터에 대한 계수 a1, a2 … 및 상수 CO가 결정되고, 각종 통계정보가 더 산출된다. 통계 정보로서는, 샘플 수, 파라미터 수, 신뢰성 지표(샘플 수/파라미터 수), 결정 계수(R2)의 값, 상관 계수(R)의 값, F 검정값, 크로스체크(%) 등이 있다. 여기서, 신뢰성 지표란, 샘플 수를 파라미터 수로 나눈 값이고, 이 값이 작아지면 이 샘플과 파라미터로부터 얻어지는 중회귀식은 거의 과학적 및 데이터 해석적인 의미를 갖지 않고, 아무리 높은 R2값이나 R값을 얻었다고 해도 해석은 실패한 것으로 판단된다. 통상, 이 값이 5보다 큰 경우는 의미 있는 데이터 해석(성공 해석)이 되고, 5보다 크면 클수록 신뢰성이 높은 중회귀식으로 간주된다. 5에 도달하지 않는 조건하에서 얻어진 중회귀식은 의미 없는 데이터 해석으로부터 얻어진 것으로 판단되고, 데이터 해석은 실패 해석으로 간주된다. 따라서 이 신뢰성 지표는 중회귀 분석에서는 R2나 R값보다 중요한 지표가 된다.

본 실시형태에서는, 신뢰성 지표의 최저값을 5로 하여 해석하였다. 결정 계수(R2), 상관 계수(R), F 검정값, 크로스체크의 정의에 대해서는, 중회귀 분석 분야에서 주지이기 때문에, 여기서는 상세히 설명하지 않는다. 또한, 본 실시형태에서는, 중회귀 분석의 양부를 판정하기 위해, 결정 계수(R2)의 값을 채용하고 있지만, 상관 계수(R)를 결정 계수(R2) 대신에 이용하여도 좋은 것은 명백하다. 이하에서는, 결정 계수(R2)는 100% 표시로 그 값을 나타내고 있다.

도 8에는 나타내지 않지만, 단계 S7에서는, 도 8에 나타내는 계수 a1, a2, … 및 상수 CO의 값과, 도 7에 나타내는 파라미터값을 이용하여, 식 (2)에 따라서 각 샘플의 목적 변수(Y)의 값이 산출되고, 데이터 테이블에 기억되어 출력된다. 또한, 각 샘플에 대한 잔차값이 산출되어 기억된다. 잔차값이란, 계산된 목적 변수의 값(계산값)과 목적 변수의 실측값과의 차를 나타내는 값이다.

도 9는 단계 S6에서의 초기 중회귀 분석의 결과를 그래픽으로 도시한 것이다. 도 9에서, 도면부호 20은 각 샘플에 대해서, 목적 변수의 실측값에 대해 계산값을 플롯한 그래프를 나타내고, 도면부호 22는 각 샘플의 잔차값을 플롯한 그래프를 나타내고 있다. 그래프(20)의 횡축은 목적 변수의 실측값을, 종축은 목적 변수의 계산값을 나타낸다. 그래프(22)의 횡축은 샘플 ID를, 종축은 잔차값을 나타내고 있다. 샘플의 잔차값이 클수록, 그 샘플은 단계 S6에서 구한 초기 중회귀식에 적합하지 않다. 즉, 도 1의 중회귀식으로 표시되는 X축(횡축)과 Y축(종축)의 대각선 상 에서 크게 떨어져 존재하는 샘플이 된다.

단계 S8에서, 이후의 중회귀 분석을 필요로 하는지의 여부의 판정, 즉 종료 조건의 체크가 실시된다. 본 실시형태에서는, 종료 조건으로서 다음 3 조건을 지정하고 있다. 우선, 1) 단계 S6에서 실시한 중회귀 분석의 결과에 있어서 충분히 정확도가 높은 것으로서, 이 이상의 분석을 요하지 않은 경우이다. 이 조건은, 예컨대 결정 계수(R2)가 90 이상인 것으로서 설정된다. 또는, 상관 계수(R)이 95 이상인 것으로서 설정하여도 좋다. 이러한 조건이 만족되면, 단계 S7에서 실시한 중회귀 분석은 충분한 정확도를 갖는 것으로 판단할 수 있기 때문에, 그 이후의 분석을 실시하지 않고, 단계 S7에서 얻어진 데이터를 최종 데이터로서 출력하며(단계 S9), 처리를 종료한다(단계 S10).

제2 조건은 단계 S6에서 실시한 중회귀 분석의 신뢰성 지표가 5 미만인지의 여부이다. 신뢰성 지표, 즉 분석에 이용한 샘플수가 적어져, 파라미터 수의 예컨대 5배 이하가 된 경우는, 그 중회귀 분석은 과학적으로 의미를 갖지 않게 된다. 따라서, 신뢰성 지표가 5 미만이 된 경우, 단계 S8에서는 YES로 판정하고, 처리를 종료한다. 또한, 신뢰성 지표 대신에, 단순히 샘플의 최소수를 종료 조건으로 하여도 좋다. 제3 조건은 STAGE 수가 미리 정한 횟수를 초과한 것이다. 이것은 일종의 강제 종료로서, 어떠한 원인에 의해 분석 결과가 수속되지 않는 경우에, 처리를 강제적으로 종료시키기 위한 조건이다.

도 10a 및 도 10b는 단계 S8의 세부내용을 나타내는 흐름도이다. 도 10a에서는, 우선, 단계 S801에서, STAGE 수가 미리 정한 횟수 N을 초과하였는지의 여부가 판정된다. 단계 S801에서 YES인 경우, 단계 S9, S10으로 이행하여 처리를 종료한다. 단계 S801에서 NO인 경우, 단계 S802에서 신뢰성 지표가 5 미만인지의 여부가 판정된다. 단계 S802에서 YES인 경우, 단계 S9, S10으로 이행하여 처리를 종료한다. 또한, 이 실시형태에서는 신뢰성 지표의 최소값을 5로 하고 있지만, 이 값은 분석 목적에 따라 임의로 설정될 수 있다.

단계 S802에서 NO인 경우, 단계 S803에서 결정 계수(R2)의 값이 90 이상인지의 여부가 판정된다. 단계 S803에서 YES인 경우, 단계 S9, S10으로 이행하여 처리를 종료한다. 단계 S803에서 NO인 경우, 즉, STAGE 수가 소정 횟수 N을 초과하지 않고, 신뢰성 지표가 5 이상이며, 또한 결정 계수(R2)가 90 미만인 경우는, 본 발명에 기초하는 더 나은 중회귀 분석이 필요하기 때문에, 단계 S11 이후를 실행한다.

도 10b의 경우는, 단계 S804에서 신뢰성 지표 대신에, 최소 샘플수(S)를 정의하고, 분석 대상인 샘플수가 미리 결정한 최소수(S) 이하가 된 경우에, 처리를 종료한다. 또한, 단계 S805에서, 결정 계수(R2) 대신에 상관 계수(R)를 판정에 이용하고, R이 95 이상이 된 경우에 처리를 종료하도록 하고 있다. 또한, 도 10a, 도 10b에 나타내는 흐름도에 있어서, 각종 수치는 중회귀 분석 목적 등에 대응하여 임의로 설정할 수 있다.

도 6을 다시 참조하면, 단계 S8에서 NO인 경우, 단계 S11에서 STAGE 수를 1만 증가시키고, 단계 S12에서 외측 샘플, 내측 샘플을 특정한다. 외측 샘플은 도 3의 영역(5) 내의 샘플이고, 내측 샘플은 영역(4) 내의 샘플이다. 도시하는 바와 같 이, 내측 샘플과 외측 샘플은 중회귀선(3)으로부터의 거리의 대소, 즉 각 샘플의 잔차값에 의해 구별된다. 내측 샘플, 외측 샘플의 특정 방법에 대해서는 도 11을 참조하여 후술하지만, 여기서는, 잔차값의 대소에 기초하여 임시의 내측 샘플을 설정하고, 이 내측 샘플 세트에 대해서 중회귀 분석을 실시하여, 결정 계수(R2)가 90 이상이 되는 중회귀식을 얻을 수 있는지의 여부를 본다.

90 이상의 결정 계수(R2)를 얻을 수 있으면, 이 임시의 내측 샘플 세트를 최종적인 내측 샘플 세트로서 특정한다. 결정 계수가 90 이하이면, 임시의 내측 샘플 세트로부터 잔차값이 큰 샘플을 더 제거하여, 다음 임시의 내측 샘플 세트를 작성하고, 중회귀 분석을 실시하여 결정 계수를 산출한다. 이러한 순서를 결정 계수가 90 이상이 될 때까지 반복함으로써, 최종적인 내측 샘플 세트가 특정된다. 내측 샘플 세트가 특정되면, 초기 샘플 세트로부터 내측 샘플 세트를 제거함으로써, 외측 샘플 세트가 특정된다. 내측 샘플 세트의 특정에 이용된 중회귀식을 STAGE1에서의 예측 모델(중회귀식)의 일부로 한다.

단계 S12에서 내측 샘플, 외측 샘플이 특정되면, 단계 S13에서 내측 샘플 세트를 하나의 클래스로 하고, 외측 샘플 세트를 남는 하나의 클래스로 한 2 클래스 분류를 실행하며, 내측 샘플, 외측 샘플을 분류하기 위한 판별식(Z)을 작성하고, 이것을 기억한다. 2 클래스 분류의 방법은 어떠한 것이어도 좋지만, 예컨대 발명자가 이미 일본 특허 출원 제2006-307277호에서 제안하고 있는 분류 방법을 이용하면, 보다 정확도가 높은 판별식을 얻을 수 있다. 이와 같이 하여 작성된 판별식은, 단계 S12에서 얻어진 중회귀식과 함께, STAGE1의 예측 모델 세트를 구성한다.

단계 S14에서는, 외측 샘플만을 취출하고, 새로운 샘플 세트를 구축하며, 이 샘플 세트에 대해서 단계 S4 이하를 반복하여 실행한다. 이 때, 단계 S8에서, 외측 샘플에 대해서 새롭게 실시한 중회귀 분석의 결과가 종료 조건을 만족한다고 판정되면(단계 S8의 YES), 전술한 STAGE1의 예측 모델이 최종 데이터로서 출력되고(단계 S9), 일련의 중회귀 분석을 종료한다(단계 S10). 단계 S8에서 종료 조건이 만족되지 않는 경우(단계 S8의 NO), 단계 S11 이하를 실행함으로써, STAGE2의 예측 모델이 작성된다. 이하, 마찬가지로 하여, 단계 S4부터 단계 S14를, 단계 S8에서 종료 조건이 만족될 때까지 반복함으로써, STAGE 수에 따른 일련의 예측 모델 세트가 작성된다.

또한, 도 6의 흐름도에 있어서, 단계 S14의 다음 단계로서 단계 S4를 지정함으로써, 초기 파라미터에 의한 특징을 재차 추출하고 있지만, 다소 정확도를 희생한다면, 단계 S4를 생략하는 것도 가능하다. 이 경우, 단계 S14에서 단계 S5로 이행하여, STAGE0에서 작성된 최종 파라미터 세트를 이용하여 그 이후의 분석을 실시한다. 이 순서에 의하면, 초기 파라미터 세트에 대한 특징 추출 과정이 불필요하기 때문에, 처리 시간이 대폭 단축된다.

도 11은 내측 샘플, 외측 샘플의 특정 순서를 나타내는 흐름도이고, 도 6의 단계 S12의 세부내용을 나타내는 도면이다. 본 실시형태에서는, 전술한 바와 같이, 내측 샘플, 외측 샘플의 특정을 위해, 잔차값을 이용한다. 잔차값은, 도 9의 그래프(22)에 도시하는 바와 같이, 각 샘플에 대해서 개별로 산출된다. 그래서, 도 11의 단계 S120에서 잔차값을 최대 잔차값의 1/2로 설정하고, 설정된 잔차값 이상의 잔차값을 갖는 샘플을 임시의 외측 샘플로 설정하며, 설정된 잔차값 이하의 잔차값을 갖는 샘플을 임시의 내측 샘플로 설정한다(단계 S121).

단계 S122부터 단계 S125까지는 단계 S121에서 설정된 임시의 내측 샘플 세트에 대하여, 중회귀 분석을 실시하여, 중회귀 정보를 출력하는 순서를 나타내고 있다. 이들 단계의 상세한 내용은 도 6의 흐름도에서의 단계 S4부터 단계 S7과 유사하기 때문에, 그 설명은 생략한다. 또한, 도 11의 흐름도에서도, 단계 S122의 생략이 가능한 것은 전술한 바와 같다. 단계 S125에서, 임시의 내측 샘플 세트에 대한 중회귀 정보가 출력되면, 단계 S126에서, 신뢰성 지표가 5 이상인지의 여부가 조사된다.

단계 S126에서 신뢰성 지표가 5 미만으로 판정되면(단계 S126의 NO), 그 샘플 세트는 중회귀 분석에 적당하지 않다고 판정되기 때문에, 단계 S127에서 잔차값에 상수 α가 더해진다. 상수 α는, 잔차값을 그다지 크지 않은 범위에서 높이기 위해 임의로 선택된 상수이다. 단계 S127을 종료하면 단계 S121에 되돌아가고, 상수 α가 더해진 잔차값을 이용하여, 다시 임시의 내측 샘플 세트를 설정한다. 이 임시의 내측 샘플 세트를 이용하여 단계 S122부터 단계 S125를 실행하고, 단계 S126에서 신뢰성 지표를 재차 체크한다.

단계 S126에서 YES가 된 경우, 단계 S128에서 결정 계수(R2)가 체크된다. 여기서, 결정 계수(R2)가 90 이상인 경우(단계 S128의 YES), 단계 S129에서 현재 임시의 내측 샘플을 내측 샘플로서 결정하고, 단계 S130에서 외측 샘플을 특정한다. 외측 샘플은, 단계 S129에서 내측 샘플로 결정된 샘플을, 도 11의 흐름을 시작할 때의 전체 샘플 세트로부터 제거함으로써 특정된다.

단계 S128에서 NO인 경우, 즉 작성된 중회귀식에 의한 결정 계수(R2)가 90 이하인 경우는, 단계 S131에서 잔차값을 α만큼 작게 하고, 더 많은 샘플을 제거한 후, 재차 단계 S121 이하를 실행한다. 단계 S131의 상수 α는 단계 S127의 상수 α와 반드시 동일할 필요는 없고, 임의로 설정이 가능하다.

이상과 같은 순서를 통해, 단계 S129에서 최종적인 내측 샘플 세트가 특정되면, 이 특정을 위해 단계 S124에서 작성된 중회귀식이 그 STAGE의 예측 모델로서 설정된다.

도 12는 단계 S129에서 특정된 내측 샘플 세트에 대해서, 중회귀식 정보를, 도 9의 경우와 마찬가지로 그래픽으로 도시한 것이다. 도 12의 도면부호 24는 각 샘플에 대해서 목적 변수의 실측값에 대해 계산값을 플롯한 그래프를 나타내고, 도면부호 26은 각 샘플의 잔차값을 플롯한 그래프를 나타내고 있다. 그래프(24)의 횡축은 목적 변수의 실측값을, 종축은 목적 변수의 계산값을 나타낸다. 그래프(26)의 횡축은 샘플 ID를, 종축은 잔차값을 나타내고 있다. 도 12의 그래프(26)에서는, 도 8의 그래프(22)에서 존재하고 있던 잔차값이 높은 샘플이 제거되어 있고, 그 결과 그래프(24)에 나타내는 바와 같이, 내측 샘플은 중회귀선의 주변에 집중 분포하여, 높은 상관을 나타내게 된다. 또한, 도 9의 그래프(22)와 도 12의 그래프(26)의 종축은 동일한 스케일을 나타내는 것이 아니다.

도 13은 도 11에 나타내는 내측 샘플, 외측 샘플의 특정 순서의 다른 실시형태를 나타내는 도면이다. 본 실시형태에서는, 단계 S135에서, 최대 잔차값으로부터 일정수 β를 뺀 값을 잔차값으로서 설정하고, 이 잔차값 이하의 잔차값을 갖는 샘플을 임시의 내측 샘플로서 설정하도록 하고 있다. 이 경우, 단계 S126에서 신뢰성 지표가 5 이하로 판정되면(단계 S126의 NO), 단계 S136에서, 잔차값에 γ만큼 가산한 값을 새로운 잔차값으로서 하고, 단계 S121 이하를 실행한다. 단계 S128에서, 결정 계수(R2)가 90 이하로 판정되면(단계 S128의 NO), 단계 S137에서, 잔차값으로부터 상수 β를 더 뺀 값을 새로운 잔차값으로 하고, 단계 S121 이하를 실행한다.

즉, 도 13에 나타내는 실시형태에서는, 최대 잔차값을 서서히 저하시킴으로써, 내측 샘플 세트, 외측 샘플 세트를 특정하고자 하는 것이다.

도 14는 이상과 같이 하여 특정된 각 STAGE의 내측 샘플, 외측 샘플에 대한 중회귀식 정보를 나타내는 데이터 테이블이다. STAGE0에서는, 779개의 샘플에 대해서 28개의 파라미터를 적용하고, 중회귀 분석을 실시한 결과, 결정 계수(R2)로서 값 72.8이 얻어진 것을 나타내고 있다. STAGE1에서는, 내측 샘플로서 398개의 샘플이 특정되고, 이 샘플에 22개의 파라미터를 적용하여 중회귀 분석을 실시한 결과, 결정 계수로서 값 96.2가 얻어진 것을 나타내고 있다. STAGE1의 외측 샘플에서는 결정 계수가 64.7이었다.

STAGE2의 분석은, STAGE1에서 특정된 외측 샘플을 샘플 세트로 하여 이루어진 것이다. STAGEn에서는, 외측 샘플 세트에 대한 신뢰성 지표가 5 이하이기 때문에, 이 샘플 세트를 새로운 샘플 세트로 하는 중회귀 분석은 실시되지 않는다. 따라서, STAGEn에서는 내측 샘플에 관해서만 중회귀식 정보가 출력되고, 외측 샘플은 통상 실시되는 중회귀 분석과 마찬가지로 아웃라이어 샘플로서 취급되어, 데이터 해석에 재이용되지 않는다.

도 15는 이상과 같이 하여 작성된 예측 모델 세트를 보존하는 테이블을 나타낸다. 나타내는 바와 같이, 각 STAGE의 내측 샘플에 대한 중회귀식(Yinn)이 각 STAGE에서의 예측 모델로서 기억된다. 동시에, 도 6의 흐름도의 설명 부분에서 전술한 바와 같이, 각 STAGE의 내측 샘플과 외측 샘플에 대해서 실시한 2 클래스 분류의 판별 함수(Z)도 예측 모델로서 기억된다. 또한, 도 15에서, α11～αnn은 중회귀식(Y)에서의 각 파라미터에 대한 계수, C(1)～C(n)는 중회귀식(Y)의 상수, β11～βnn은 2 클래스 판별 함수(Z)의 각 파라미터에 대한 계수, K(1)～K(n)는 판별 함수(Z)의 상수를 각각 나타내고 있다.

도 16은 이와 같이 하여 형성된 예측 모델을 사용하여, 목적 변수의 값이 미지인 샘플을 예측하는 경우의 순서를 나타내는 흐름도이다. 우선, 단계 S30에서, 목적 변수가 미지인 샘플(W)에 대해서 파라미터를 준비한다. 단계 S31에서는 STAGE를 1로 설정하고, 단계 S32에서 STAGE1의 예측 모델로서 설정되어 있는 2 클래스 판별 함수를 샘플(W)에 적용한다. 단계 S33에서는, 2 클래스 판별 함수의 적용에 의해, 샘플(W)이 내측 샘플 클래스에 속하는지, 외측 샘플 클래스에 속하는지가 체크된다.

단계 S33에서, 샘플(W)이 내측 샘플 클래스에 속한다고 판정되면(단계 S33의 YES), 단계 S34에서 STAGE1의 예측 모델로서 설정되어 있는, 내측 샘플에 대한 중회귀식을 샘플(W)에 적용하여, 목적 변수를 산출한다. 산출된 값이 샘플(W) 에 대한 최종 예측값이고, 따라서 단계 S35에서 예측 처리를 종료한다. 한편, 단계 S33 에서 샘플(W)이 외측 샘플 클래스에 속한다고 결정되면(단계 S33의 NO), 단계 S36에서 STAGE 수가 처리를 종료하는 횟수인 N을 초과하지 않는 것을 확인한 후(단계 S36의 YES), 단계 S37에서 STAGE를 1만 증가시켜, 단계 S32 이하를 재차 실행한다.

단계 S32, 단계 S33, 단계 S36, 단계 S37의 루프는, 단계 S33에서 샘플(W)이 내측 샘플 클래스에 속한다고 결정되거나, 또는 단계 S36에서 STAGE 수가 N을 초과할 때까지 반복된다. 이와 같이 하여, 어느 한 STAGE에서 샘플(W)이 내측 샘플의 클래스에 소속되는 것으로 특정되면, 단계 S34에서 그 STAGE의 내측 샘플에 대한 중회귀식을 적용하여 목적 변수를 산출하고, 이것을 그 샘플의 최종 예측값으로서 결정한다.

이상의 결과, 외측 샘플에 대한 정보를 잃지 않고, 높은 신뢰성으로 미지 샘플의 목적 변수의 예측이 가능해진다. 또한, 상기 실시형태는, 화합물의 IC50, 즉 반수저해농도의 예측 모델 작성에 대해서 기재하고 있지만, 반수영향농도(EC50), 반수치사농도(LC50) 등을 목적 변수로 하여도 본 발명을 실시할 수 있는 것은 물론이다. 또한, 화합물의 생분해성, 생체 축적성에 대해서도, 효과적인 예측이 가능하다. 또한, 전술한 실시형태에서는, 예컨대 단계 S803(도 10a 참조), 단계 S128(도 11 참조)에서, 결정 계수(R2)의 값이 90 이상을 판정 기준으로 하고 있지만, 이 값은 절대적이지 않다. 발명자의 실험에서는, 결정 계수(R2)가 80 정도 이상이면, 충분히 정확도가 높은 예측 모델을 작성하는 것이 가능했다. 마찬가지로, 단계 S805(도 10b 참조)의 상관 계수(R)도 90 정도로 충분히 정확도가 높은 예측 모델의 작성이 가능하다.

[시스템 구성]

도 17은 본 발명의 일 실시형태에 따른 예측 모델 작성 장치의 시스템 구성을 도시하는 블록도이다. 또한, 이 장치는 작성되어 보존된 예측 모델을 사용하여, 목적 변수가 미지인 샘플에 대해서, 예측값을 산출하는 기능도 제공하고 있다. 본 실시형태의 예측 모델 작성 장치(200)는, 샘플 데이터를 입력하는 입력 장치(210), 예측 모델 또는 처리 도중 사용자가 필요로 하는 데이터를 출력하는 출력 장치(220)를 구비하고 있다. 입력 장치(210)로부터, 중회귀 분석에 의한 예측 모델 작성에 필요한 샘플 정보가 기억 장치(300)의 입력 데이터 테이블(310)에 입력된다. 입력 장치(210)는 마찬가지로 초기 파라미터 세트의 데이터를 초기 파라미터 세트 테이블(320)에 입력한다. 또한, 해석부(400)가 입력된 샘플에 대해서 초기 파라미터를 자동적으로 발생시키기 위한 엔진(410)을 갖고 있는 경우는, 초기 파라미터 세트 데이터가 입력 장치(210)로부터 입력될 필요는 없다.

도 17에 있어서, 도면부호 330은 최종 파라미터 세트를 보존하는 테이블이고, 초기 파라미터 세트에 대하여 특징 추출을 한 결과로서의 최종 파라미터 세트를 보존한다. 도면부호 340은 해석 결과 작성된 예측 모델을 보존하기 위한 테이블이고, 구체적으로는 STAGE마다 결정된 내측 샘플/외측 샘플의 2 클래스 분류를 위한 판별 함수와, STAGE마다 결정된 내측 샘플 세트에 대한 중회귀식을 보존한다.

해석부(400)는, 제어부(420)와, 초기 파라미터 발생 엔진(410), 특징 추출 엔진(430), 중회귀식 작성 엔진(440), 내측 샘플 세트의 설정부(450), 2 클래스 분류를 위한 판별 함수 작성 엔진(460), 새로운 샘플 세트 설정부(470) 및 해석 종료 조건 검출부(480)를 구비하고 있다. 초기 파라미터를 본 장치의 외부에서 발생시키는 경우는, 초기 파라미터 발생 엔진(410)이 필요하지 않다. 또한, 초기 파라미터 발생 엔진(410), 특징 추출 엔진(430)은, 기존의 것을 사용할 수 있다.

특징 추출 엔진(430)은 초기 파라미터 세트에 대하여 특징을 추출하여 최종 파라미터 세트를 결정하고, 이것을 최종 파라미터 세트 테이블(330)에 보존한다. 중회귀식 작성 엔진(440)은 다양한 기존의 중회귀식 작성 프로그램을 구비하고 있고, 사용자에 의해 지정된 중회귀식 작성 프로그램 또는 시스템이 적절하게 선택한 프로그램을 이용하여, 최종 파라미터 세트 테이블(330)을 참조하면서, 입력 샘플 세트에 대한 중회귀 분석을 실시하고, 초기 중회귀식을 작성한다. 내측 샘플 세트 설정부(450)는 작성된 초기 중회귀식의 결과로부터 내측 샘플 세트를 특정한다. 이 특정은 샘플의 잔차값 및 결정 계수에 기초하여 실행된다. 내측 샘플 세트의 특정에 의해, 외측 샘플 세트도 특정된다.

판별 함수 작성 엔진(460)은 다양한 기존의 판별 함수 작성 프로그램을 구비하고 있고, 사용자에 의해 지정된 판별 함수 작성 프로그램 또는 시스템이 적절하게 선택한 프로그램을 이용하여, 내측 샘플 세트 및 외측 샘플 세트에 대하여 2 클래스 분류를 실행하며, 내측 샘플과 외측 샘플을 분류하기 위한 판별 함수를 작성한다. 새로운 샘플 세트 설정부(470)는 내측 샘플 세트 설정부(450)에 의해 특정된 외측 샘플 세트를 다음 STAGE의 샘플 세트로서 설정한다.

초기 파라미터 발생 엔진(410), 특징 추출 엔진(430), 중회귀식 작성 엔진(440), 내측 샘플 세트 설정부(450), 판별 함수 작성 엔진(460), 새로운 샘플 세 트 설정부(470), 해석 종료 조건 검출부(480)는, 제어부(420)의 제어하에서 작동하고, 도 6 및 도 11(또는 도 13)에 도시하는 처리를 실행한다. 또한, 해석 종료 조건 검출부(480)는 도 10a 또는 도 10b에 나타내는 처리를 실행한다. 또한, 해석 종료 조건은 시스템에 의해 미리 설정해 두어도 좋고, 또는 입력 장치(210)를 통해 사용자가 적절하게 설정하도록 하여도 좋다.

예측값 산출 엔진(490)은 입력 장치(210)로부터 입력된 목적 변수가 미지인 샘플에 대해서, 예측 모델 보존 테이블(340)에 보존된 판별 함수와 중회귀식 및 최종 파라미터 세트 테이블(330)에 보존된 데이터를 참조하면서, 그 샘플의 목적 변수의 값(예측값)을 계산한다.

해석부(400)에서 얻어진 각 STAGE의 내측 샘플 세트/외측 샘플 세트에 관한 2 클래스 분류의 판별 함수, 내측 샘플 세트에 대한 중회귀식, 또한 예측 결과는, 기억 장치(300)의 예측 모델 보존 테이블(340)에 또는 출력 장치(220)를 통해 외부에 출력된다. 출력의 형태는 USB 파일, 디스플레이, 프린트아웃 등을 적절하게 선택할 수 있다.

본 발명은, 중회귀 분석을 적용할 수 있는 모든 산업 분야에 적용 가능하다. 이하에, 주된 적용 분야를 열거한다.

1) 화학 데이터 해석

2) 바이오 관련 연구

3) 단백질 관련 연구

4) 의료 관련 연구

5) 식품 관련 연구

6) 경제 관련 연구

7) 공학 관련 연구

8) 생산 수율 향상 등을 목적으로 한 데이터 해석

9) 환경 관련 연구

1)의 화학 데이터 해석 분야에서는, 보다 상세하게는, 하기와 같은 연구에 적용할 수 있다.

(1) 구조-활성/ADME/독성/물성 상관 연구

(2) 구조-스펙트럼 상관 연구

(3) 메타보노믹스 관련 연구

(4) 케모메트릭 연구

예컨대 구조-독성 상관 연구 분야에서는, 화합물의 반수저해농도(IC50), 반수영향농도(EC50), 반수치사농도(LC50), 분해성 시험, 농축성 시험, 28일간 반복 투여 독성 시험 등을 예측하는 것이 매우 중요하다. 이들은 독성 화합물 규제 관련의 화합물 심사법이나 노동 안전 위생법 등의 국가 수준에 맞는 화합물 규제에, 최중요 항목 중 하나로서 포함되어 있기 때문이다. 이 농도 기준을 분명히 알고 있지 않으면, 일본 내에서의 화합물 생산은 불가능하고, 기업의 생산 활동 자체가 정지된다. 또한, 해외에서의 생산이나 수출 등도 대상국의 안전성 규제에 의해 활동할 수 없게 된다. 예컨대 유럽의회의 REACH 규칙에서는, 화합물을 사용하는 기업이 그 화합물에 대해서 이들 농도를 예측하고, 평가하는 의무를 지고 있다. 따라서, 높은 예측 정확도로, 이들 농도를 예측할 수 있는 본 발명의 방법, 장치, 프로그램은 REACH 규칙을 실행하는 데에 있어서, 유효한 수단이 된다.

Claims

컴퓨터에 의한 중회귀 분석에 기초한 예측 모델의 작성 방법으로서,

a) 목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 단계와,

b) 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 단계와,

c) 상기 실측값과 상기 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 단계와,

d) 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 단계 c)를 반복하는 단계와,

e) 단계 d)의 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 단계와,

f) 단계 d)의 종료 시의 상기 중회귀 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하는 단계와,

g) 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하여, 단계 b)부터 단계 f)까지를 반복하여 실행함으로써 복수의 상기 예측 모델을 획득하는 단계

를 각각 포함하는, 컴퓨터에 의한 중회귀 분석에 기초한 예측 모델의 작성 방법.
제1항에 있어서, 단계 g)는, 제2 서브 샘플 세트에 포함되는 샘플의 수와 중회귀 분석에 사용하는 파라미터 수와의 비가 일정값 이하가 되었을 때, 상기 반복을 정지하는 것을 특징으로 하는 컴퓨터에 의한 중회귀 분석에 기초한 예측 모델의 작성 방법.
제1항에 있어서, 단계 g)는, 상기 반복 횟수가 미리 정한 횟수에 도달했을 때, 상기 반복을 정지하는 것을 특징으로 하는 컴퓨터에 의한 중회귀 분석에 기초한 예측 모델의 작성 방법.
제1항에 있어서, 단계 d)에서의 상기 결정 계수에 대한 상기 제2 값은, 결정 계수를 0 내지 100의 값으로 나타내는 경우에, 80 이상이고 100 이하인 것을 특징으로 하는 컴퓨터에 의한 중회귀 분석에 기초한 예측 모델의 작성 방법.
a) 목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 단계와,

b) 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 단계와,

c) 상기 실측값과 상기 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 단계와,

d) 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 단계 c)를 반복하는 단계와,

e) 단계 d)의 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 단계와,

f) 단계 d)의 종료 시의 상기 중회귀 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하는 단계와,

g) 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하여, 단계 b)부터 단계 f)까지를 반복하여 실행함으로써 복수의 상기 예측 모델을 획득하는 단계

를 각각 컴퓨터에 실행시키는, 중회귀 분석에 기초한 예측 모델의 작성 프로그램을 기록한 기록 매체.
컴퓨터에 의한 중회귀 분석에 기초한 화합물의 독성 예측 모델의 작성 방법으로서,

a) 화합물의 임의의 독성을 목적 변수로 하고, 상기 목적 변수의 실측값이 기지인 화합물에 의해 초기 샘플 세트를 준비하는 단계와,

b) 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 단계와,

c) 상기 실측값과 상기 계산값의 차가 제1 값 이하인 화합물을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 단계와,

d) 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 단계 c)를 반복하는 단계와,

e) 단계 d)의 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 단계와,

f) 단계 d)의 종료 시의 상기 중회귀 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하는 단계와,

g) 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하여, 단계 b)부터 단계 f)까지를 반복하여 실행함으로써 복수의 상기 예측 모델을 획득하는 단계

를 포함하는, 컴퓨터에 의한 중회귀 분석에 기초한 화합물의 독성 예측 모델의 작성 방법.
목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 제1 수단과,

상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 제2 수단과,

상기 실측값과 상기 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 제3 수단과,

상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 상기 제3 수단의 처리를 속행시키는 제4 수단과,

상기 제4 수단의 처리 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 제5 수단과,

상기 제4 수단의 처리 종료 시의 상기 중회귀 분석에서의 중회귀식과 상기 제5 수단에 의해 산출된 판별 함수를 예측 모델로서 설정하는 제6 수단과,

상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하고, 상기 제2, 제3, 제4, 제5 및 제6 수단에 의한 처리를 반복하여 실행시키는 제7 수단

을 포함하는 중회귀 분석에 기초한 예측 모델의 작성 장치.
컴퓨터에 의해 목적 변수가 미지인 샘플의 목적 변수를 예측하기 위한 방법으로서,

중회귀식과 2 클래스 분류의 판별 함수를 세트로 하는 예측 모델을 복수개 준비하는 제1 단계로서, 상기 복수의 예측 모델 세트는,

a) 목적 변수의 실측값이 기지인 샘플에 의해 초기 샘플 세트를 준비하는 단계와,

b) 상기 초기 샘플 세트를 중회귀 분석하여, 상기 목적 변수의 계산값을 획득하는 단계와,

c) 상기 실측값과 상기 계산값의 차가 제1 값 이하인 샘플을 취출한 서브 샘플 세트를 중회귀 분석하여, 상관 계수 또는 결정 계수를 산출하는 단계와,

d) 상기 상관 계수 또는 결정 계수가 제2 값을 초과할 때까지, 상기 제1 값을 변경하여 단계 c)를 반복하는 단계와,

e) 단계 d)의 종료 시의 상기 서브 샘플 세트를 제1 서브 샘플 세트로 하고 나머지 샘플을 제2 서브 샘플 세트로 하여 2 클래스 분류를 실행하며, 클래스 분류를 위한 판별 함수를 산출하는 단계와,

f) 단계 d)의 종료 시의 상기 중회귀 분석에서의 중회귀식과 단계 e)에서의 판별 함수를 예측 모델로서 설정하는 단계와,

g) 상기 제2 서브 샘플 세트를 상기 초기 샘플 세트로 설정하고, 단계 b)부터 단계 f)까지를 반복하여 복수의 상기 예측 모델을 획득하는 단계

를 각각 실행함으로써 생성되는 것인 상기 제1 단계와,

목적 변수가 미지인 샘플에 대하여, 상기 샘플이 상기 제1 서브 샘플 세트에 속한다고 판정될 때까지, 상기 복수의 예측 모델에서의 판별 함수를, 형성된 순서에 따라서 순차 적용하는 제2 단계와,

상기 제2 단계에서, 미지 샘플이 상기 제1 서브 샘플 세트에 속한다고 판정되면, 상기 판정에 사용한 판별 함수와 동일한 예측 모델의 세트에 속하는 중회귀식을 상기 미지 샘플에 적용하여 목적 변수를 산출하는 제3 단계

를 포함하는, 목적 변수의 값이 미지인 샘플에 대해서 목적 변수를 예측하기 위한 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제