WO2018088825A1 - 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치 - Google Patents

특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치 Download PDF

Info

Publication number
WO2018088825A1
WO2018088825A1 PCT/KR2017/012690 KR2017012690W WO2018088825A1 WO 2018088825 A1 WO2018088825 A1 WO 2018088825A1 KR 2017012690 W KR2017012690 W KR 2017012690W WO 2018088825 A1 WO2018088825 A1 WO 2018088825A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
sample data
function
refers
estimating
Prior art date
Application number
PCT/KR2017/012690
Other languages
English (en)
French (fr)
Inventor
김철우
김용대
강경남
권오란
Original Assignee
(주)바이오인프라생명과학
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)바이오인프라생명과학 filed Critical (주)바이오인프라생명과학
Priority to CN201780069360.9A priority Critical patent/CN109937421B/zh
Priority to EP17868577.2A priority patent/EP3540648A4/en
Priority to US16/348,455 priority patent/US11461704B2/en
Publication of WO2018088825A1 publication Critical patent/WO2018088825A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L7/00Arrangements for synchronising receiver with transmitter

Definitions

  • the present invention relates to a two-class classification method for predicting a class to which a specific item belongs, and more particularly, to obtain independently identically distributed sample data and to a novel quasi-parameter logistic regression random forest methodology. (semi-metric logistic regression with random forests), (i) estimating unknown parameters of the model, and (ii) estimating predictions for new data using a random forest model.
  • the present invention relates to a method of predicting a class belonging to and a computing device using the same.
  • Classification refers to a statistical process used to divide a collection of items (eg data samples), but to divide them into homogeneous classes in terms of measurable characteristics or characteristics. .
  • a typical classifier e.g., referring to a computerized system for performing classification, but often also referred to as such a classification methodology itself
  • the training means a procedure that is repeatedly calculated in order to give the classifier a suitable classification ability. Once trained, the classifier will be used to predict which class the data entered in the future belongs to.
  • Random Forest is a nonparametric ensemble approach in machine learning that uses bagging to combine the determination of multiple classification trees that classify data samples. In other words, random forests are a way to create decision trees that are weakly related and then linearly combine them to create the final learner. Random forests are known to have very high predictive power. Random Forest also combines randomization of independent variables with bootstrap to maximize randomness.
  • Randomization makes the forest robust even for data that contains noise. Random extraction is performed during the training of each tree, and ensemble learning, bagging and randomized node optimization, can be applied. These two methods can be used simultaneously to further enhance the random characteristics.
  • a classification system employing the classical random forest (RF) methodology is disclosed in, for example, US Patent No. 5,930,392, and accordingly, a method for classifying data using an initial random decision forest and using the same. System is disclosed.
  • the patent document deals with the automatic interpretation and analysis of images and patterns, and thus describes a technique for classifying images and patterns and recognizing images and patterns using the same.
  • logistic regression methodology has been used for a long time in predicting dependent variables having only two categories or only two classes, which means a person skilled in the art to which the present invention pertains (hereinafter " It is well known to those skilled in the art.
  • the two categories here correspond to incompatible attributes such as "men” and “women”, “patients of certain diseases” and “non-patients”, “legal” and “illegal”.
  • the methodology is widely used, for example, as a statistical model for determining whether or not a patient has a specific disease.
  • the present inventor seeks to combine the logistic regression methodology with the random forest methodology in the process of improving the prediction performance of the logistic regression methodology, which has been used for a long time as a method of predicting the dependent variable having only two categories.
  • the logistic regression methodology and the random forest methodology have been known in the past, the logistic regression methodology is basically a parametric method, while the random forest method is a nonparametric method, and it is not easy to derive a method of combining the two.
  • the present inventors propose a two-class classification method and a computing device using the same by classifying a random forest methodology with a logistic regression model in a manner not conventionally performed, thereby enabling more accurate two-class classification.
  • an object of the present invention is to propose a method that combines a logistic regression methodology and a random forest methodology, which have been widely used with high accuracy but are not easy to be used in combination.
  • One object is to provide a classification method for correcting such classification when the data can be classified into two classes, for example, whether the data is from a patient suffering from a particular disease or from a normal person.
  • a two-class classification method for predicting a class to which a particular item belongs, wherein the method comprises: (a) a sample device in which the computing device is independently identically distributed; Where n is the number of sample data, Is a d-dimensional vector, Y i is or has been processed to have a value of -1 or 1, and the value of -1 and 1 is a value set to correspond to each of the two classes; (b) when the sample data is obtained, the computing device is a model.
  • the method comprises: (e) an estimator of the function G Is obtained and the new data x new is inputted, calculate the value of (x new ) and calculate the and classifying or classifying the class of the specific item from a value of (x new ).
  • a computing device that performs a two-class classification method for predicting a class to which a particular item belongs, the computing device being independently identically distributed sample data.
  • the communication unit for obtaining the n, wherein n is the number of the sample data, Is a d-dimensional vector, Y i is or has been processed to have a value of -1 or 1, and the value of -1 and 1 is a value set to correspond to each of the two classes;
  • the processor may further include estimating the function G. Is obtained and the new data x new is input, calculate the value of (x new ) and calculate the support classifying or classifying the class of the particular item from the value of (x new ).
  • FIG. 1 is a conceptual diagram schematically illustrating an exemplary configuration of a computing device performing a two-class classification method for predicting a class to which a specific item belongs according to the present invention.
  • FIG. 2 is a flowchart illustrating a two-class classification method for predicting a class to which a specific item belongs according to the present invention.
  • 3A to 3D are ROC curves (Receiver Response Characteristic Curve) as a tool for comparing and evaluating the performance of the conventional logistic regression model and the model according to the method in classifying breast cancer patients and normal people.
  • Figure is a diagram.
  • 4A to 4D are diagrams showing ROC curves as a tool for comparing and evaluating the performance of the conventional logistic regression model and the model according to the present invention in classifying gastric cancer patients and normal persons.
  • 'learning' or 'training' in this specification refers to a process of obtaining a statistical model according to a procedure, and is not intended to refer to a mental action such as human educational activity.
  • the present invention encompasses all possible combinations of the embodiments indicated herein. It is to be understood that the various embodiments of the invention are different, but need not be mutually exclusive. For example, certain shapes, structures, and characteristics described herein may be embodied in other embodiments without departing from the spirit and scope of the invention with respect to one embodiment. In addition, it is to be understood that the location or arrangement of individual components within each disclosed embodiment may be changed without departing from the spirit and scope of the invention. The following detailed description, therefore, is not to be taken in a limiting sense, and the scope of the present invention, if properly described, is defined only by the appended claims, along with the full range of equivalents to which such claims are entitled. Like reference numerals in the drawings refer to the same or similar functions throughout the several aspects.
  • Computing devices for carrying out the method according to the invention are typically computer hardware (eg, client computers and server computers, which may include components of computer processors, memory, storage, input and output devices, and other existing computer systems).
  • Electronic communication devices such as telecommunication lines, routers, switches, etc .; electronic information storage systems such as network attached storage (NAS) and storage area network (SAN); and computer software (i.e., to allow computer hardware to function in a particular manner); A combination of instructions to achieve the desired system performance.
  • NAS network attached storage
  • SAN storage area network
  • computer software i.e., to allow computer hardware to function in a particular manner
  • FIG. 1 shows a computing device 100 for performing a method according to the present invention, the computing device 100 comprising a communication unit 110 and a processor 120.
  • the computing device 100 may obtain data according to the method of the present invention and process the same to provide a desired class classification function to a user.
  • Those skilled in the art will readily understand that the method of the present invention will be implemented using a combination of computer hardware and software as detailed below. For example, software for implementing statistical methods on computer hardware, such as R statistical packages, statistical software such as SPSS, SAS, Mathematica, or a programming language that can implement such statistical methods. Anything may be used.
  • R specification core package R Development Core Team (2007) dealing with statistical analysis method.R: A language and environment for statistical computing.R Foundation for Statistical Computing, Examples will be included using the Vienna, Austria.ISBIN 3-900051-07-0, URL http://www.R-project.org.
  • desired software technology may be used to cause a computing device to perform the method of the present invention.
  • 2 is a flowchart illustrating a two-class classification method for predicting a class to which a specific item belongs according to the present invention.
  • the computing device 100 includes sample data of independent identity distribution. Obtaining step (S210). Where n is the number of sample data, Is a d-dimensional vector, and the dependent variable Y i has a value of -1 or 1. Here, even if the dependent variable Y i does not have a value of -1 or 1, it may be easily processed to have one of the two values.
  • the statistical model used in the present invention is a model combining semiparametric logistic regression with random forests. For convenience of explanation, this is referred to as a model of the present invention.
  • the model of the present invention corresponds to a novel methodology in methodologies for predicting dependent variables having only two categories (-1 or 1) using independent variables.
  • Table 1 below shows sample concentrations of certain substances and subject demographic information (eg, age) in biological samples obtained from subjects (breast cancer patients and normal subjects). It is provided as (X7).
  • the substances (X1 to X6) included in the biological samples used in Table 1 below are AFP (alpha-fetoprotein), TTR (Transthyretin), CEA (Carcinoembryonic antigen (cancer embryo antigen), CA19-9 (cancer antigen 19-) 9), CA125 (cancer antigen 125), ApoA1 (Apolipoprotein AI) may be included.
  • test data for the test using the model of the present invention made by the sample data are shown in Table 2 below.
  • the step S210 of acquiring sample data may be performed, for example, as follows. As a result, sample data is input.
  • the method of the present invention may then be performed by the computing device 100.
  • the method may further include a step S220 of supporting or estimating the unknown parameter ⁇ .
  • Bayes classifier is defined as follows.
  • Y stands for the dependent variable, and in the expression expression Y has only values that fall into two categories: -1 or 1.
  • X (1, X 1, ..., X D ) T means independent variables
  • D is the number of independent variables. That is, X i means the i th independent variable (the i th independent variable). Is an unknown parameter, and g is a function of X in the form of a random forest model.
  • ⁇ and g which minimize the loss function L (y, G (x)) or L y (G (x)) are defined as estimated values. Ideally. If we define the loss function as negative binomial log likelihood,
  • a backfitting method will be used to estimate the unknown parameter ⁇ and the non-parameter g of Equation 1.
  • the reverse fit method is as follows.
  • the first formula above will be solved in the first step (S220), the second formula in the second step (S230).
  • the first step, step S220 will cover the approach of logistic regression as a method for estimating the unknown parameter ⁇ ,
  • step S230 the use of the negative gradient (negative gradient-value) to estimate the unknown non-parameter g.
  • Equation 2 shows a logistic regression model.
  • logistic regression It can be seen that plays a role similar to ⁇ in the model of the present invention.
  • logistic regression methods also unknown parameters that minimize the same loss function. Estimate Thus, estimated from logistic regression Divide by 2 In other words, ⁇ can be derived. ⁇ derived in this way It will be referred to as.
  • the computing device 100 further includes the step of assisting (S230) to estimate or estimate the function g using the random forest model. Then, in the method of the present invention, the computing device 100, the estimated amount of the unknown parameter ⁇ And an estimator of the function g Estimating the function G by estimating or estimating the function G as a prediction equation for new data corresponding to the specific item using It is obtained (S240).
  • step S230 of supporting or estimating the function g a negative slope may be used.
  • step S220 Since is obtained, the loss function G (x) If you substitute, the loss function is Becomes In step S220 The loss function is minimized at. To reduce the loss function Shifted by a negative slope at.
  • G can be estimated by fitting the data to a random forest to obtain RF (x).
  • step S230 the step S230 is performed by the computing device 100.
  • Calculating (S232), and computing device 100 uses a random forest to store data.
  • r i is found for all sample data of the exemplary sample data.
  • the Y value of the first data of the test data of Table 2 can be predicted.
  • the loss function cannot be minimized if the above-mentioned random forest is used as it is without tuning parameters. Therefore, it can be minimized by attaching the tuning parameter ⁇ to RF (x).
  • the reason why the loss function is not optimal when the tuning parameter is 1 is as follows.
  • Equation 1 is Can be written as: It has the form of a no intercept logistic regression model.
  • the non-intercept logistic regression model is Also, for convenience, it is assumed that there is only one independent variable (a). if so,
  • Equation 1 Given Y stands for the dependent variable, where Y has only two categories -1 or 1 in the expression.
  • a means the value of an independent variable.
  • is an unknown parameter.
  • can be treated as an unknown parameter. Then, ⁇ can be derived through logistic regression. It is called.
  • an instruction for obtaining the RF (x) using an R statistics package may be as follows.
  • tuning parameters (1, 0.361728, 6.041393,%) * (62.40686469, -2.00244054, -3.29727188,%) T + 1.652886 * (-0.0345803)
  • the method of the present invention provides an estimator of the function G corresponding to the model obtained as described above. Is obtained, and the new data x new is input, the computing device 100, calculate the value of (x new ) and calculate the The method may further include a step (S250) of classifying or classifying the class of the specific item from a value of (x new ), thereby performing class classification through a trained classifier.
  • S250 a step of classifying or classifying the class of the specific item from a value of (x new ), thereby performing class classification through a trained classifier.
  • each of the sample data may be a variable obtained from an individual subject
  • each independent variable X ij of each of the sample data may be a physical quantity of a specific substance included in a biological sample obtained from the individual subject or the individual blood. It may be a demographic variable of the subject.
  • certain diseases in which the methods of the invention have been applied in practice and contrasted with the prior art are Breast Cancer (denoted BC) and Gastric Cancer (denoted SC).
  • BC means breast cancer
  • SC means stomach cancer
  • the size of the data set was 554 for breast cancer and 951 for gastric cancer.
  • the predicted values of the dependent variables were in order (cancer, cancer, cancer, normal, cancer, cancer), and the actual dependent variable values were (cancer, cancer, cancer, cancer, cancer). ),
  • the empirical error rate calculated from the data in Table 2 was 0.1272727 for the model of the present invention and 0.1636364 for the logistic regression model.
  • the negative binomial log likelihood is Where G (x) is the Bayes classifier.
  • G (x) is the Bayes classifier.
  • the smaller negative binomial log likelihood means that the smaller the classification is, the closer it is to reality.
  • the mean value of the negative binomial log likelihood calculated from the data in Table 2 was 0.2580402 for the model of the present invention and 0.3367284 for the logistic regression model.
  • the ROC-AUC area under curve
  • the specificity refers to the ratio of judging 'wrong' (negative) to be wrong, so it can be said that the proportion of misjudgment to be judged as 'right (positive)' is reduced as it is tilted to the left.
  • Table 2 The data in Table 2 discussed above represents a portion of the entire test set, and the following will describe the calculated values for the entire test set summarized in Table 5.
  • Table 6 shows the average value of the empirical error rate calculated from the test set, and the standard deviation is shown in parentheses. Table 6 compares performance by displaying numerical values for conventional logistic regression and semi parametric logistic regression with random forests. At this time, the number of iterations of the calculation for obtaining the average value and the standard deviation was 1000 times.
  • Table 7 below shows the average value of the mean of negative binomial log likelihood calculated from the test set as in Table 6, and the standard deviation is shown in parentheses. Again, the number of iterations of the calculation to obtain the mean value and the standard deviation was 1000 times.
  • the methodology of the present invention exhibits a lower average value of the negative binomial log likelihood compared to the conventional logistic regression methodology. This means that the fitting by the method of the present invention is closer to the actual classification than the conventional logistic regression methodology.
  • Table 8 shows the average value of the area under curve (ROC-AUC) similarly calculated from the same test set, the standard deviation is shown in parentheses. Similarly, the number of iterations of the calculation to obtain the mean value and the standard deviation was 1000 times.
  • FIGS. 3A to 3D are diagrams illustrating ROC curves as a tool for comparing and evaluating performances of conventional logistic regression models and models according to the present invention in classifying breast cancer patients and normal persons.
  • 4D shows the ROC curve as a tool for comparing and evaluating the performance of the conventional logistic regression model and the model according to the method in classifying gastric cancer patients and normal persons.
  • the ROCs of the individual methods are shown for the first four calculations made for the test set in FIGS. 3A to 3D and 4A to 4D.
  • the method of the present invention has an effect of more accurately classifying a class to which a specific item corresponding to input data belongs, as compared with the conventional method.
  • An advantage of the technique described herein as the above embodiments is that the accuracy of classification can be increased without a significant increase in computation.
  • the present invention can be achieved through a combination of software and hardware or can be achieved only by hardware.
  • the objects contributing to the object of the technical solution or the prior art of the present invention may be embodied in the form of program instructions that can be executed by various computer components and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the computer-readable recording medium may be those specially designed and configured for the present invention, or may be known and available to those skilled in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.
  • the hardware device may include a processor, such as a CPU or a GPU, coupled with a memory such as a ROM / RAM for storing program instructions and configured to execute instructions stored in the memory, and may exchange signals with an external device. It may include a communication unit. In addition, the hardware device may include a keyboard, a mouse, and other external input devices for receiving instructions written by developers.
  • a processor such as a CPU or a GPU
  • a memory such as a ROM / RAM for storing program instructions and configured to execute instructions stored in the memory, and may exchange signals with an external device. It may include a communication unit.
  • the hardware device may include a keyboard, a mouse, and other external input devices for receiving instructions written by developers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 컴퓨팅 장치가, 분포된 샘플 데이터가 획득되면, 모형식의 미지 모수 β를 추정하되, β의 추정량이 획득되면, 랜덤 포레스트 모형을 이용하여 함수 g를 추정하여 g의 추정량이 획득되면, 이와 β의 추정량을 이용하여 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 함수 G를 추정함으로써 G의 추정량을 획득하여, 신규 데이터 xnew를 입력 받아, 산출한 값으로부터 상기 특정 항목의 클래스를 분류할 수 있다.

Description

특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치
본 발명은 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법에 관한 것으로서, 보다 상세하게는, 독립 항등 분포된(independently identically distributed) 샘플 데이터를 획득하고, 신규한 준모수 로지스틱 회귀 랜덤 포레스트 방법론(semi parametric logistic regression with random forests)을 통하여, (i) 모형식의 미지 모수를 추정하며, (ii) 랜덤 포레스트 모형(random forest model)을 이용하여 신규 데이터를 위한 예측식을 추정함으로써, 특정 항목이 속하는 클래스를 예측하는 방법 및 이를 이용한 컴퓨팅 장치에 관한 것이다.
분류(classification)는 항목들의 모음(예컨대 데이터 샘플들)을 분할하되, 측정 가능한 특성 또는 특징의 면에서 균질한 클래스(homogeneous classes)들로 분할하는 데에 이용되는 통계 처리(statistical process)를 의미한다. 일반적으로 말하자면, 전형적인 분류기(예컨대 분류를 수행하는 전산화된 시스템을 가리키나 종종 그러한 분류 방법론 자체를 지칭하기도 함)는, 우선, 가용한 트레이닝 샘플들의 집합에서 키 패턴(key pattern)을 인식하고 이에 표식을 달도록 훈련(train; 트레이닝)된다. 여기에서, 훈련이라고 함은, 분류기에 적합한 분류 능력을 부여하기 위하여 반복적으로 계산하는 절차를 의미한다. 한번 훈련된 분류기는 향후 입력되는 데이터가 어느 클래스에 소속되는지를 예측하는 데에 이용될 것이다.
분류에 있어서 최근의 괄목할 만한 진보 중의 하나가 랜덤 포레스트(random forest; RF) 방법론인데, 랜덤 결정 포레스트의 개념은 1995년에 벨 연구소의 틴 캄 호(Tin Kam Ho)에 의하여 처음 제안되었으며, 레오 브레이먼(Leo Breiman)에 의하여 확장되고 공식화되었다. 본원에서 "랜덤 포레스트", "랜덤 포레스트 방법론" 및 "RF"는 레오 브레이먼에 의하여 설명된 분류 개념을 의미하는바, 같은 이름의 소프트웨어 상품을 지칭하는 것이 아님을 밝혀둔다. 랜덤 포레스트는 데이터 샘플들을 분류하는 다수의 분류 나무들의 결정을 결합하는 데에 배깅(bagging)을 활용하는 머신 러닝의 비모수 앙상블 접근법이다. 달리 말하자면, 랜덤 포레스트는 서로 연관성이 약한 의사 결정 나무를 생성한 후에 이를 선형 결합하여 최종 학습기를 만드는 방법이다. 랜덤 포레스트는 예측력이 매우 높은 방법으로 알려져 있다. 또한 랜덤 포레스트는 무작위성(randomness)을 최대로 주기 위하여 부트스트랩과 더불어 독립 변수들에 대한 무작위 추출을 결합한다. 이 특징은 각 나무들의 예측값들이 비상관화(decorrelation)되게 하며, 결과적으로 일반화 성능을 향상시킨다. 무작위 추출은 노이즈가 포함된 데이터에 대해서도 포레스트를 강인(robust)하게 만들어 준다. 무작위 추출은 각 나무들의 훈련 과정에서 진행되며, 앙상블 학습법인 배깅과 무작위 노드 최적화(randomized node optimization)가 적용될 수 있다. 이 두 가지 방법은 동시에 사용되어 무작위적 특성을 더 증진시킬 수 있다.
참고로, 랜덤 포레스트 방법론의 알고리즘을 슈도 코드(pseudo code)로써 간략하게 기술하자면, 다음과 같다.
(1) For b=1 to B;
(1-i) 훈련용 샘플 데이터를 이용하여 부트스트랩 표본 Z을 생성함
(1-ii) 부트스트랩 표본 Z을 이용하여 의사 결정 나무(기초 분류기)를 생성(훈련)하되, 독립 변수는 무작위로 뽑힌 k개만 이용함
(2) 이렇게 생성된 의사 결정 나무를 Tb(x)라고 하면, 생성된 의사 결정 나무들을 (T1(x)+T2(x)+...TB(x))/B와 같이 선형 결합함(평균 방식 이용하는 경우)
종래에 고전적인 랜덤 포레스트(random forest; RF) 방법론을 적용한 분류 시스템은, 예컨대 미국 등록특허 제5,930,392호에 개시되어 있는바, 이에 따르면 초기의 랜덤 결정 포레스트를 이용하여 데이터를 분류하는 방법 및 이를 이용한 시스템이 개시되어 있다. 특히, 해당 특허 문헌은 이미지 및 패턴의 자동 해석 및 분석을 다루고 있는바, 이에 따라 이미지 및 패턴의 분류 및 이를 이용한 이미지 및 패턴의 인식을 도모하는 기술이 기재되어 있다.
한편, 두 범주(category) 혹은 두 클래스(class)들만을 가지는 종속 변수를 예측하는 방법에 있어서 로지스틱 회귀 방법론이 오랫동안 이용되어 왔으며, 이는 본 발명이 속한 기술 분야에서 통상의 지식을 가진 사람(이하 "통상의 기술자"라 함)에게 잘 알려져 있다. 여기에서 두 범주는 "남자"와 "여자", "특정 질병의 환자"와 "환자가 아닌 사람", "합법"과 "불법" 등, 서로 양립될 수 없는 속성에 대응되는 개념인바, 이와 같은 방법론은 예컨대 특정 질병에 걸린 환자인지 그렇지 않은지를 판정하는 통계 모형으로 많이 활용되고 있다.
본 발명자는 두 범주(category)들만을 가지는 종속 변수를 예측하는 방법으로서 오랫동안 이용되었던 로지스틱 회귀 방법론의 예측 성능을 향상시키는 방법을 연구하는 과정에서 로지스틱 회귀 방법론에 랜덤 포레스트 방법론을 접목하여 이용하는 방안을 모색하게 되었다. 종래에 로지스틱 회귀 방법론과 랜덤 포레스트 방법론이 알려져 있었음에도 불구하고 기본적으로 로지스틱 회귀 방법론은 모수적 방법인 반면, 랜덤 포레스트 방법은 비모수적 방법이어서 이 둘을 결합하는 방안을 도출하는 것이 용이하지 않았다.
이에, 본 발명자는 종래에 행해지지 않던 방식으로 로지스틱 회귀 모형에 랜덤 포레스트 방법론을 접목함으로써, 보다 정확한 2 클래스 분류를 가능하게 하는 2 클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치를 제안하고자 한다.
본 발명은 종래의 로지스틱 회귀 분석보다 더 높은 정확도로 2 클래스 분류를 가능하게 하는 방법 및 이를 이용한 컴퓨팅 장치를 제시하는 것을 목적으로 한다.
구체적으로, 본 발명은 종래에 높은 정확도를 가져 널리 쓰였지만 조합이 용이하지 않아 함께 이용되지 않았던 로지스틱 회귀 방법론과 랜덤 포레스트 방법론을 결합한 방안을 제시하는 것을 목적으로 한다.
또한, 본 발명은 요구되는 계산량에 비하여 높은 정확도를 가지는 2 클래스 분류를 가능하게 하는 것을 다른 목적으로 한다.
또한, 본 발명은 본 발명의 방법 및 컴퓨팅 장치가 실세계에서 여러 가지 용도로 클래스 소속을 판정하는 데에 이용되게 하는 것을 다른 목적으로 한다.
예를 들어 어떤 데이터가 특정 질병을 앓는 환자의 것인지 정상인의 것인지와 같이 2개의 클래스로 분류 가능한 경우에 그러한 분류를 정확하게 하기 위한 분류 방법을 제공하는 것을 한 가지 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 장치가, 독립 항등 분포된(independently identically distributed) 샘플 데이터
Figure PCTKR2017012690-appb-I000001
를 획득하는 단계로서, 상기 n은 상기 샘플 데이터의 개수이며,
Figure PCTKR2017012690-appb-I000002
는 d-차원 벡터이고, Yi는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 단계; (b) 상기 샘플 데이터가 획득되면, 상기 컴퓨팅 장치가, 모형식
Figure PCTKR2017012690-appb-I000003
,
Figure PCTKR2017012690-appb-I000004
의 미지 모수 β를 추정하거나 추정하도록 지원하는 단계로서,
Figure PCTKR2017012690-appb-I000005
이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 단계; (c) 상기 미지 모수 β의 추정량
Figure PCTKR2017012690-appb-I000006
이 획득되면, 상기 컴퓨팅 장치가, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하는 단계; 및 (d) 상기 함수 g의 추정량
Figure PCTKR2017012690-appb-I000007
이 획득되면, 상기 컴퓨팅 장치가, 상기 미지 모수 β의 추정량
Figure PCTKR2017012690-appb-I000008
및 상기 함수 g의 추정량
Figure PCTKR2017012690-appb-I000009
을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량
Figure PCTKR2017012690-appb-I000010
을 획득하는 단계를 포함한다.
일 실시예에 따르면, 상기 방법은, (e) 상기 함수 G의 추정량
Figure PCTKR2017012690-appb-I000011
이 획득되고, 상기 신규 데이터 xnew가 입력되면, 상기 컴퓨팅 장치가,
Figure PCTKR2017012690-appb-I000012
(xnew)의 값을 산출하고, 산출된 상기
Figure PCTKR2017012690-appb-I000013
(xnew)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 단계를 더 포함할 수 있다.
본 발명의 다른 태양에 따르면, 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 수행하는 컴퓨팅 장치가 제공되는바, 그 컴퓨팅 장치는, 독립 항등 분포된(independently identically distributed) 샘플 데이터
Figure PCTKR2017012690-appb-I000014
를 획득하는 통신부로서, 상기 n은 상기 샘플 데이터의 개수이며,
Figure PCTKR2017012690-appb-I000015
는 d-차원 벡터이고, Yi는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 통신부; 및 상기 샘플 데이터가 획득되면, 모형식
Figure PCTKR2017012690-appb-I000016
,
Figure PCTKR2017012690-appb-I000017
의 미지 모수 β를 추정하거나 추정하도록 지원하는 프로세서로서,
Figure PCTKR2017012690-appb-I000018
이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 프로세서를 포함하며, 상기 프로세서는, 상기 미지 모수 β의 추정량
Figure PCTKR2017012690-appb-I000019
이 획득되면, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하고, 상기 함수 g의 추정량
Figure PCTKR2017012690-appb-I000020
이 획득되면, 상기 미지 모수 β의 추정량
Figure PCTKR2017012690-appb-I000021
및 상기 함수 g의 추정량
Figure PCTKR2017012690-appb-I000022
을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량
Figure PCTKR2017012690-appb-I000023
을 획득한다.
일 실시예에 따르면, 상기 프로세서는, 상기 함수 G의 추정량
Figure PCTKR2017012690-appb-I000024
이 획득되고, 상기 신규 데이터 xnew가 입력되면,
Figure PCTKR2017012690-appb-I000025
(xnew)의 값을 산출하고, 산출된 상기
Figure PCTKR2017012690-appb-I000026
(xnew)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원할 수 있다.
본 발명에 의하면, 요구되는 계산량에 비하여 높은 정확도로 2 클래스 분류가 가능하게 되는 효과가 있다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술 분야의 통상의 기술자에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명에 따라 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2는 본 발명에 따라 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 예시적으로 나타낸 흐름도이다.
도 3A에서 3D까지는 유방암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선(Receiver Operating Characteristic Curve; 수용자 반응 특성 곡선)을 도시한 도면이다.
도 4A에서 4D까지는 위암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선을 도시한 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
본 명세서에서 '학습'이나 '훈련'은 절차에 따라 통계 모형을 얻는 과정을 일컫는 용어인바, 인간의 교육 활동과 같은 정신적 작용을 지칭하도록 의도된 것이 아님을 통상의 기술자는 잘 이해할 수 있을 것이다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 해당 기술분야의 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.
더욱이 본 발명은 본 명세서에 표시된 실시 예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시 예로 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시 예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
본 발명에 따른 방법을 실시하기 위한 컴퓨팅 장치는 전형적으로 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨터 시스템의 구성요소들을 포함할 수 있는 클라이언트 컴퓨터 및 서버 컴퓨터; 전자 통신선, 라우터, 스위치 등등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어{즉, 컴퓨터 하드웨어로 하여금 특정의 방식으로 기능하게 하는 인스트럭션들(instructions)}의 조합을 활용하여 원하는 시스템 성능을 달성한다.
도 1에는 본 발명에 따른 방법을 수행하는 컴퓨팅 장치(100)가 도시되는바, 컴퓨팅 장치(100)는 통신부(110) 및 프로세서(120)를 포함한다. 컴퓨팅 장치(100)는 본 발명의 방법에 따라 데이터를 획득하고, 이를 처리하여 원하는 클래스 분류 기능을 사용자에게 제공할 수 있다. 아래에서 상술 되는 바와 같이 본 발명의 방법이 컴퓨터 하드웨어 및 소프트웨어의 조합을 활용하여 구현될 것이라는 점은 통상의 기술자는 용이하게 이해할 것이다. 예를 들어 통계적 방법을 컴퓨터 하드웨어 상에서 구현하기 위한 소프트웨어로서, R 통계 패키지, SPSS, SAS, Mathematica 등의 통계 소프트웨어, 혹은 그러한 통계적 방법을 구현할 수 있는 프로그래밍 언어 등 정해진 연산을 수행할 수 있게 하는 것이라면 어느 것이라도 이용될 수 있을 것이다.
본 발명의 방법 및 컴퓨팅 장치에 관한 설명의 편의를 위하여 본 명세서에는 통계적 분석 방법을 다루는 R 통계 패키지(R Development Core Team (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.)를 이용한 예시가 포함될 것이나, 본 명세서의 예시를 본 통상의 기술자는 R 통계 패키지라는 소프트웨어 플랫폼에 한정되지 않고, 원하는 소프트웨어 기술을 이용하여 컴퓨팅 장치로 하여금 본 발명의 방법을 수행하도록 할 수 있을 것이다.
이제 본 발명에 따른 방법에 대하여 설명하기로 한다. 도 2는 본 발명에 따라 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 예시적으로 나타낸 흐름도이다.
도 2를 참조하면, 본 발명의 방법은, 컴퓨팅 장치(100)가, 독립 항등 분포된 샘플 데이터
Figure PCTKR2017012690-appb-I000027
를 획득하는 단계(S210)를 포함한다. 여기에서 상기 n은 상기 샘플 데이터의 개수이며,
Figure PCTKR2017012690-appb-I000028
는 d-차원 벡터이며, 종속 변수 Yi는 -1 또는 1의 값을 가진다. 여기에서 종속 변수 Yi가 -1 또는 1의 값을 가지지 아니한 경우에도, 이 둘 중의 하나의 값을 가지도록 용이하게 가공될 수 있을 것이다.
본 발명에서 이용하는 통계 모형은 준모수적 로지스틱 회귀 방법론 및 랜덤 포레스트 방법론을 결합한 모형(semi parametric logistic regression with random forests)이다. 설명의 편의상, 이를 본 발명의 모형으로 지칭한다. 본 발명의 모형은 독립 변수를 이용하여, 두 범주(-1 또는 1)만을 가지는 종속 변수를 예측하는 방법론들에 있어서 신규한 방법론에 해당된다.
이해를 돕기 위한 실례로서, 아래의 표 1에서는 피험체들(유방암 환자와 정상인)에게서 얻은 생물학적 시료에 포함된 특정 물질들의 농도 및 피험체들의 인구통계학적 정보(예컨대, 나이)가 샘플 데이터의 예시(X7)로서 제공된다. 또한, 아래의 표 1에서 사용된 생물학적 시료에 포함된 물질(X1 내지 X6)은 AFP(alpha-fetoprotein), TTR(Transthyretin), CEA(Carcinoembryonic antigen; 암배 항원), CA19-9(cancer antigen 19-9), CA125(cancer antigen 125), ApoA1(Apolipoprotein A-I)을 포함할 수 있다.
Figure PCTKR2017012690-appb-T000001
참고로, 샘플 데이터에 의하여 만들어진 본 발명의 모형을 이용하여 테스트를 진행하기 위한 테스트 데이터의 예시는 다음 표 2와 같다.
Figure PCTKR2017012690-appb-T000002
예컨대, R 통계 패키지에서는 예컨대 다음과 같은 명령어로 샘플 데이터를 획득하는 상기 단계(S210)를 수행할 수 있는바, 그 결과로서 샘플 데이터가 입력된다.
Figure PCTKR2017012690-appb-T000003
단계(S210)에서 상기 샘플 데이터가 획득되면, 그 다음으로, 본 발명의 방법은, 컴퓨팅 장치(100)가, 모형식
Figure PCTKR2017012690-appb-I000029
,
Figure PCTKR2017012690-appb-I000030
의 미지 모수 β를 추정하거나 추정하도록 지원하는 단계(S220)를 더 포함한다.
위 모형식과 같이 본 발명의 모형이 상정된 이유는 다음과 같다.
우선, 베이즈 분류기(Bayes classifier)는 다음과 같이 정의된다.
Figure PCTKR2017012690-appb-I000031
하나의 예시로서, P(Y=1|x)=0.6이라고 가정하자. 그렇다면, P(Y=-1|x)=1-P(Y=1|x)=0.4이며, G(x)=log(0.6/0.4)/2=0.2027326이 된다. G(x)가 0보다 크므로, 베이즈 분류기에 의하여 Y=1로 분류가 되는 것이다.
이제, 베이즈 분류기 G(X)의 형태로 본 발명의 모형을 표현하면 다음과 같이 표현된다. 즉, 준모수적 로지스틱 회귀 방법론 및 랜덤 포레스트 방법론이 결합된 모형은 다음을 가정한다.
Figure PCTKR2017012690-appb-M000001
여기에서 Y는 종속 변수를 의미하고, 수식 표현 상에서 Y는 -1 또는 1의 두 범주에 해당되는 값만을 가진다. 또한, X=(1, X1, ... , XD)T는 독립 변수를 의미하며, D는 독립 변수의 개수이다. 즉, Xi는 제i 독립 변수(i번째 독립 변수)를 의미한다.
Figure PCTKR2017012690-appb-I000032
는 미지 모수, 함수 g는 랜덤 포레스트 모형의 형태로 이루어진 함수로서 X에 대한 함수이다.
하나의 예시로서, G(X)가 베이즈 분류기이며, X=(1, 2, 3)T , β=(4, 5, 6)T , g(x)=7임을 가정하자. 즉, β와 g는 알고 있다고 가정한다. 그렇다면, G(x)=xTβ+g(x)=(1, 2, 3)(4, 5, 6)T+7=14+25+36+7=32+7=39가 되며, G(x)가 0보다 크므로 Y=1로 분류가 된다.
수학식 1의 미지 모수 β와 비모수 g를 추정하기 위해서, 손실 함수(loss function) L(y, G(x)) 또는 Ly(G(x))를 최소화 하는 β와 g를 추정 값이라고 정의하는 것이 가장 이상적이다. 손실 함수를 음 이항 로그 우도(negative binomial log likelihood)로 정의하면,
Figure PCTKR2017012690-appb-I000033
와 같이 표현될 수 있다. 이 손실함수를 최소화 하는
Figure PCTKR2017012690-appb-I000034
Figure PCTKR2017012690-appb-I000035
를 라고 정의한다면,
Figure PCTKR2017012690-appb-I000036
와 같이 표현될 수 있는데 이를 직접 계산해 내기는 힘들다.
따라서 본 발명에서는 수학식 1의 미지 모수 β와 비모수 g를 추정하기 위해서 역적합 방법(backfitting method)을 이용할 것이다. 역적합 방법은 다음과 같다.
Figure PCTKR2017012690-appb-I000037
,
Figure PCTKR2017012690-appb-I000038
위의 첫 번째 수식을 첫 번째 단계인 단계(S220)에서, 두 번째 수식을 두 번째 단계인 단계(S230)에서 해결할 것이다.
첫 번째 단계인 단계(S220)에서는 미지 모수 β를 추정하기 위한 방법으로 로지스틱 회귀의 접근법을 다룰 것이며, 추정된
Figure PCTKR2017012690-appb-I000039
를 가지고 두 번째 단계(S230)에서는 미지 비모수 g를 추정하는 방법으로 음 기울기(negative gradient: 기울기에 -를 씌운 값)를 이용할 것이다.
이제 수학식 1로부터 미지 모수 β를 추정하는 방법으로서 로지스틱 회귀의 접근법을 다룬다. 이 단계(S220)에서는
Figure PCTKR2017012690-appb-I000040
로부터 로지스틱 회귀 접근법으로써 β를 추정할 수 있다. 로지스틱 회귀 모형에 대한 간략한 설명은 다음과 같다. 아래 수학식 2는 로지스틱 회귀 모형을 나타낸 것이다.
Figure PCTKR2017012690-appb-M000002
이 형태를 살펴보면, 로지스틱 회귀 모형에서의
Figure PCTKR2017012690-appb-I000041
가 본 발명의 모형에서의 β와 유사한 역할을 하고 있음을 알 수 있다. 또한, 로지스틱 회귀 방법 역시 같은 손실 함수를 최소화하는 미지 모수
Figure PCTKR2017012690-appb-I000042
를 추정해준다. 따라서 로지스틱 회귀에서 추정된
Figure PCTKR2017012690-appb-I000043
를 2로 나누어
Figure PCTKR2017012690-appb-I000044
, 즉 β 추정 값을 도출할 수 있다. 이와 같이 도출된 β를
Figure PCTKR2017012690-appb-I000045
로 지칭하기로 한다.
따라서, 로지스틱 회귀 모형의 추정량을
Figure PCTKR2017012690-appb-I000046
이라고 한다면,
Figure PCTKR2017012690-appb-I000047
Figure PCTKR2017012690-appb-I000048
사이에는
Figure PCTKR2017012690-appb-I000049
가 성립하는 것을 알 수 있다.
R 통계 패키지에서는, 예컨대, 다음과 같은 명령어로
Figure PCTKR2017012690-appb-I000050
을 구할 수 있다.
Figure PCTKR2017012690-appb-T000004
예를 들어 표 1의 샘플 데이터를 이용하여
Figure PCTKR2017012690-appb-I000051
를 구해보면, 다음과 같은
Figure PCTKR2017012690-appb-I000052
값을 확인할 수 있다.
Figure PCTKR2017012690-appb-T000005
즉,
Figure PCTKR2017012690-appb-I000053
=(62.40686469, -2.00244054, -3.29727188, ...)T가 된다.
다시 도 2를 참조하면, 본 발명의 방법은, 상기 미지 모수 β의 추정량
Figure PCTKR2017012690-appb-I000054
이 획득되면, 컴퓨팅 장치(100)가, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하는 단계(S230)를 더 포함한다. 그러면, 본 발명의 방법은, 컴퓨팅 장치(100)가, 상기 미지 모수 β의 추정량
Figure PCTKR2017012690-appb-I000055
및 상기 함수 g의 추정량
Figure PCTKR2017012690-appb-I000056
을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량
Figure PCTKR2017012690-appb-I000057
을 획득(S240)하게 된다.
상기 함수 g를 추정하거나 추정하도록 지원하는 단계(S230)에서는, 구체적으로, 음의 기울기를 이용할 수 있다.
단계(S220)에서
Figure PCTKR2017012690-appb-I000058
가 획득되었기 때문에, 손실 함수 G(x)에
Figure PCTKR2017012690-appb-I000059
를 대입하면, 손실 함수는
Figure PCTKR2017012690-appb-I000060
가 된다. 단계(S220)에서는
Figure PCTKR2017012690-appb-I000061
에서 손실 함수가 최소화되었다. 보다 더 손실 함수를 줄이기 위하여 G(x)를
Figure PCTKR2017012690-appb-I000062
에서 음의 기울기만큼 이동시켰다.
손실 함수의
Figure PCTKR2017012690-appb-I000063
에서 음 기울기를 구해주면 다음과 같이 된다.
Figure PCTKR2017012690-appb-I000064
음의 기울기만큼 이동하였을 때 손실 함수를 줄일 수 있음을 예제를 통하여 간단히 살펴보겠다. 상기 표 1의 트레이닝 데이터의 첫 번째 데이터의 y1은 1,
Figure PCTKR2017012690-appb-I000065
는 -0.405374, r1은 1.199956이다.
Figure PCTKR2017012690-appb-I000066
일 때, L(y,
Figure PCTKR2017012690-appb-I000067
) = log[1+exp{-2*1*(-0.405374+1)}] = 1.178529이다. 하지만
Figure PCTKR2017012690-appb-I000068
에서 음의 기울기만큼 이동하여
Figure PCTKR2017012690-appb-I000069
이 된 경우, L(y,
Figure PCTKR2017012690-appb-I000070
+r1) = log[1+exp{-2*1*(-0.405374+1*1.199956)}] = 0.1857292이 되어 더 작아지게 된다.
그렇다면,
Figure PCTKR2017012690-appb-I000071
데이터를 랜덤 포레스트(random forest)에 적합(fitting)시켜 RF(x)를 구함으로 g를 추정할 수 있다.
요컨대, 단계(S230)에서는 상기 단계(S230)는 컴퓨팅 장치(100)가
Figure PCTKR2017012690-appb-I000072
를 산출하는 단계(S232), 및 컴퓨팅 장치(100)가 랜덤 포레스트(random forest)를 이용하여 데이터
Figure PCTKR2017012690-appb-I000073
를 적합(fitting; 피팅) 시킴으로써 상기 적합의 결과인 함수 RF(x)를 산출하고, 소정의 조율 모수 λ=γ에 대하여
Figure PCTKR2017012690-appb-I000074
로 부터 상기 함수 g를 추정하거나 추정하도록 지원하는 단계(S234)를 포함할 수 있다.
조율 모수가 고려되지 않은 경우, 즉, λ=γ=1인 경우에, 표 1에 제공된 예시적 샘플 데이터를 이용하여 ri 값을 구하는 예시를 보이면 다음 표 3과 같다.
Figure PCTKR2017012690-appb-T000006
표 1의 샘플 데이터 중 첫 번째(i=1) 샘플 데이터에 대하여 ri를 구하기 위하여 우선 샘플 데이터에서 Y=암이면, y=1이라고, Y=정상이면, y=-1이라고 하자, 그러면, 단계(S220)에서 구한
Figure PCTKR2017012690-appb-I000075
=(62.40686469, -2.00244054, -3.29727188, …)T이다. 첫 번째 샘플은 암 환자의 샘플이기 때문에 y1=1이 된다.
Figure PCTKR2017012690-appb-I000076
= (1, 0.227887, 6.09691, …) * (62.40686469, -2.00244054, -3.29727188, ...)T
= 1*62.40686469 + 0.2278878*(-2.00244054) + 6.09691*(-3.29727188) + …
= -0.202687
그리고 exp(-2*y1*
Figure PCTKR2017012690-appb-I000077
) = exp(-2*1*-0.202687) = 1.499863
r1 = 2 * y1* exp(-2*y1*
Figure PCTKR2017012690-appb-I000078
)/{1+exp(-2 * y1 *
Figure PCTKR2017012690-appb-I000079
) } = 2*1*1.499863/(1+1.499863) = 1.199956
마찬가지 방식으로 예시적 샘플 데이터의 모든 샘플 데이터에 대하여 ri이 구해진다.
이 각각의 단계는, R 통계 패키지를 이용하면, 예컨대, 다음과 같은 명령어로 수행할 수 있다.
Figure PCTKR2017012690-appb-T000007
이를 통하여, 예를 들어, 상기 표 2의 테스트 데이터의 첫 번째 데이터의 Y값을 예측해 볼 수 있다.
Figure PCTKR2017012690-appb-T000008
그런데 조율 모수 없이 전술한 랜덤 포레스트를 그대로 이용하면 손실 함수를 최소화시켜주지 못한다는 단점이 있다. 따라서 RF(x)에 조율 모수 λ를 붙여주면 최소화할 수 있는바, 조율 모수가 1일 때 손실 함수가 최적이 아닌 이유를 간략하게 설명하자면 다음과 같다.
상기 표 1의 트레이닝 데이터의 첫 번째 데이터를 가지고 예를 들어 보겠다. y1은 1,
Figure PCTKR2017012690-appb-I000080
는 -0.405374, r1은 1.199956이었다. 조율 모수가 1로 음의 기울기만큼만 이동시켜준다면(즉, G(x1)=
Figure PCTKR2017012690-appb-I000081
+r1), L(y,
Figure PCTKR2017012690-appb-I000082
+r1) = log[1+exp{-2*1*(-0.405374+1*1.199956)}] = 0.1857292이 된다. 하지만 조율 모수가 2일 때(즉, G(x1)=
Figure PCTKR2017012690-appb-I000083
+2*r1), L(y, G(x1))은 log[1+exp{-2*1*(-0.405374+2*1.199956)}] = 0.01834747으로 더 작아지게 된다. 즉 조율 모수가 1이 아닌 다른 수 일 때 손실함수는 최소화 될 수 있다.
상기 소정의 조율 모수 λ를 추정하는 한 가지 해결 방법은 아래에서 설명하는 제1 방법이다.
제1 방법에서, 수학식 1은
Figure PCTKR2017012690-appb-I000084
와 같이 쓸 수 있다. 이는 비절편 로지스틱 회귀 모형(no intercept logistic regression model)과 같은 형태를 지니고 있다. 비절편 로지스틱 회귀 모형은 다음과 같다. 또한 편의를 위하여 독립 변수(a)는 1개만 있다고 가정한다. 그렇다면,
Figure PCTKR2017012690-appb-I000085
.
여기에서 Y는 종속 변수를 의미하는바, 수식 표현에서 Y는 -1 또는 1의 두 범주만을 가진다. 또한, a는 독립 변수의 값을 의미한다. 그리고 λ는 미지 모수이다. 그리고, 비절편 로지스틱 회귀 모형의 절편(b)을 알고 있다고 가정한다면 수학식 1은 다음과 같은 형태가 된다.
Figure PCTKR2017012690-appb-I000086
여기에서 b는 알고 있는 절편이다. 따라서, 아래의 식을 비절편 로지스틱 회귀 모형처럼 생각할 수 있다.
Figure PCTKR2017012690-appb-I000087
즉, Y를 종속 변수로, 2RF를 독립 변수(a)로,
Figure PCTKR2017012690-appb-I000088
를 알고 있는 절편(b)으로, λ를 미지 모수로 취급할 수 있다. 그렇다면 로지스틱 회귀 방법을 통하여 λ를 도출할 수 있는바, 이와 같이 도출된 λ를
Figure PCTKR2017012690-appb-I000089
라고 지칭한다.
R 통계 패키지를 이용하면, 예컨대, 다음과 같은 명령어로 표 1의 샘플 데이터의 첫 번째 데이터에 대하여
Figure PCTKR2017012690-appb-I000090
, 2RF(x1) 값을 구할 수 있다.
Figure PCTKR2017012690-appb-T000009
정리하면 상기 소정의 조율 모수 λ를 적용한 최종적인 본 발명의 모형은
Figure PCTKR2017012690-appb-I000091
이 된다.
이와 같이 조율 모수가 고려되는 경우에, 표 2에 제공된 예시적 테스트 데이터 중 첫 번째 데이터의 Y값을 예측하는 예시를 보이면 다음 표 4와 같다.
Figure PCTKR2017012690-appb-T000010
전술한 바와 같이 값들을 구하면 다음과 같다.
x=(1, 0.361728, 6.041393, …)T
Figure PCTKR2017012690-appb-I000092
=(62.40686469, -2.00244054, -3.29727188, …)T
Figure PCTKR2017012690-appb-I000093
=1.652886
그렇다면, 예시적인 RF(x) 값으로서 다음과 같은 값이 산출될 수 있다.
RF(x)=-0.0345803
예컨대, R 통계 패키지를 이용하여 상기 RF(x)를 구하기 위한 명령어는 다음과 같을 수 있다.
Figure PCTKR2017012690-appb-T000011
그렇다면, 조율 모수를 고려한 본 발명의 모형에 따라,
Figure PCTKR2017012690-appb-I000094
= (1, 0.361728, 6.041393, …)*(62.40686469, -2.00244054, -3.29727188, …)T + 1.652886*(-0.0345803)
= [1*62.40686469+ 0.361728*(-2.00244054) + 6.041393*(-3.29727188) + …] + 1.652886*(-0.0345803)
= 0.5805196 + -0.05715729 = 0.5233623으로 계산되며, 0.5233623은 0보다 크므로, Y=1, 즉, 암 환자로 분류된다. 나머지 테스트 데이터에 대해서도 같은 방법으로 실행할 수 있다.
다시 도 2를 참조하면, 본 발명의 방법은, 전술한 바와 같이 획득된 모형에 해당하는 상기 함수 G의 추정량
Figure PCTKR2017012690-appb-I000095
이 획득되고, 상기 신규 데이터 xnew가 입력되면, 컴퓨팅 장치(100)가,
Figure PCTKR2017012690-appb-I000096
(xnew)의 값을 산출하고, 산출된 상기
Figure PCTKR2017012690-appb-I000097
(xnew)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 단계(S250)를 더 포함할 수 있는바, 이로써, 훈련된 분류기를 통한 클래스 분류가 이루어지는 것이며, 전술한 예시에서 이를 설명하였다.
이러한 클래스 분류의 실제적 적용 사례를 고려하면, 본 발명에서 분류하고자 하는 2개의 클래스는, 예컨대, 각각 특정 질병의 환자임에 대응되는 클래스와 상기 특정 질병의 환자임에 대응되는 클래스로서 설정되는 것일 수 있다. 이 경우에 상기 샘플 데이터 각각은 개별 피험체로부터 획득된 변수일 수 있는데, 상기 샘플 데이터 각각의 독립 변수 Xij 각각은, 개별 피험체로부터 획득된 생물학적 시료에 포함된 특정 물질의 물리량 또는 상기 개별 피험체의 인구통계학적 변수일 수 있다. 특히 본 발명의 방법이 실제로 적용되어 종래의 기술과 대비된 특정 질병은 유방암(Breast Cancer; BC로 표시됨) 및 위암(Stomach Cancer; SC로 표시됨)이다.
본 발명의 방법이 실제로 우수함을 입증하기 위하여 본 발명자들은 대한민국의 주식회사 바이오인프라(Bioinfra Inc., Republic of Korea)가 획득한 유방암 및 위암에 관한 2개의 상이한 실제 데이터 세트를 이용하였다. 그 데이터 세트의 개요는 아래 표 5와 같으며, 그 일부는 본 발명의 이해를 돕기 위하여 표 1 및 2로 이미 제공된 것이다.
Figure PCTKR2017012690-appb-T000012
표 5에서 “BC”는 유방암(breast cancer)를 의미하고, “SC”는 위암(stomach cancer)를 의미한다. 데이터 세트의 크기는 유방암에 대하여 554개, 위암에 대하여 951개였다. 유방암의 데이터 세트에서 유방암으로 판정된 유방암 환자(Y=1)의 수는 307, 정상인(Y=-1)의 수는 247이었으며, 위암의 데이터 세트에서 위암으로 판정된 위암 환자(Y=1)의 수는 359, 정상인(Y=-1)의 수는 592이었다.
본 발명자는 각각의 데이터 세트를 무작위적으로 분할하여 80%는 훈련용(샘플) 데이터 세트로 20%는 테스트 세트로 활용하였다. 성능의 비교는 종래의 로지스틱 회귀 모형과 본 발명의 모형에 대하여 이루어졌으며, 성능 측정을 위한 산출값은 경험적 오류율(empirical error rate), 음 이항 로그 우도의 평균(mean of negative binomial log likelihood)의 평균값, 및 테스트 세트의 관측값과 예측값 사이의 ROC-AUC의 평균값이다.
경험적 오류율을 간략하게 설명하자면, 예컨대, 종속 변수의 예측값이 순서대로 (암, 암, 암, 정상, 암, 암)이었으며, 실제의 종속 변수 값이 (암, 암, 암, 암, 암, 암)이었다면, 경험적 오류율은 1/6=0.1666667로 계산되는 것으로서, 이와 같은 경험적 오류율은 낮을수록 좋은 것이다. 참고로, 표 2의 데이터로부터 계산된 경험적 오류율은 본 발명의 모형에 대해 0.1272727이었으며, 로지스틱 회귀 모형에 대하여 0.1636364이었다.
또한, 음 이항 로그 우도(negative binomial log likelihood)를 간략하게 설명하자면, 음 이항 로그 우도는
Figure PCTKR2017012690-appb-I000098
로 정의되는데, 여기에서 G(x)는 베이즈 분류기를 의미한다. 음 이항 로그 우도의 평균은 작을수록 실제에 가깝게 분류가 이루어지는 것을 의미하므로 좋은 것이다. 참고로, 표 2의 데이터로부터 계산된 음 이항 로그 우도의 평균값은 본 발명의 모형에 대해 0.2580402이었으며, 로지스틱 회귀 모형에 대하여 0.3367284이었다.
그리고 ROC-AUC(area under curve)를 간략하게 설명하자면, 우선 ROC 곡선(Receiver Operating Characteristic Curve; 수용자 반응 특성 곡선)은 분류기의 성능을 평가하기 위한 도구이며, ROC의 AUC는 전체 그래프 중에서 곡선의 아래가 차지하는 면적의 비율을 나타낸 것이다.
ROC 곡선을 간략히 설명하자면, 우선, ROC 곡선 그래프의 가로축에 나타난 수치는 1 - 특이도(specificity) = 위양성률(false positive rate)로서, 특이도는 특이도(specificity) = 진음성(true negative) / (위양성(false positive) + 진음성(true negative))으로 정의되는 값이다. 즉, 특이도는 '틀린 것(음성)'을 틀렸다고 판단하는 비율을 뜻하므로, 그래프에서는 좌측으로 기울수록 '옳은 것(양성)'을 틀렸다고 판단할 오판의 비율이 줄어든다고 볼 수 있다. 또한 ROC 곡선 그래프의 세로축에 나타난 수치는 민감도(sensitivity) = 진양성률(true positive rate)로서, 민감도는 민감도(sensitivity) = 진양성(true positive) / (진양성(true positive) + 위음성(false negative))로 정의되는 값이다. 즉, 민감도는 '옳은 것'을 옳다고 판단할 비율을 뜻하므로, 그래프에서는 위로 기울수록 '틀린 것'을 옳다고 오판할 비율이 줄어든다고 볼 수 있다. 따라서 분류기가 올바르게 판단할수록 그래프 곡선의 아래의 면적(AUC; area under curve)은 증가하게 된다. 분류기가 올바르게 판단하는 분류 성능을 하나도 가지고 있지 않을 때에는 AUC는 0.5가 된다. 보통, AUC 수치에 따라 비정보적(AUC = 0.5), 덜 정확한(0.5 < AUC ≤≤ 0.7), 중등도의 정확한(0.7 < AUC ≤≤ 0.9), 매우 정확한(0.9 < AUC < 1), 그리고 완벽한 검사(AUC 1)로 분류할 수 있다. 요컨대, ROC의 AUC는 클수록 좋은 것이다. 참고로, 표 2의 데이터로부터 계산된 AUC는 본 발명의 모형에 대해 0.9663978이었으며, 로지스틱 회귀 모형에 대하여 0.9301075이었다.
앞에서 살펴본 표 2의 데이터는 테스트 세트 전체 중의 일부분을 나타낸 것으로서, 하기에서는 표 5로 요약된 테스트 세트 전체에 대하여 산출된 수치를 설명할 것이다.
아래 표 6은 테스트 세트로부터 산출된 경험적 오류율(empirical error rate)의 평균값을 표시한 것이며, 표준 편차는 괄호 안에 표시되어 있다. 표 6에서는 종래의 로지스틱 회귀 방법론(logistic regression)과 본 발명의 방법론(semi parametric logistic regression with random forests)에 대하여 수치들을 표시함으로써 성능을 비교하였다. 이때, 평균값과 표준 편차를 얻기 위한 계산의 반복 횟수는 1000번이었다.
Figure PCTKR2017012690-appb-T000013
표 6을 참조하면, 본 발명의 방법론이 종래의 로지스틱 회귀 방법론에 비하여 경험적 오류율의 평균값이 더 낮게 나타난다는 점을 알 수 있다. 편차를 고려하여도 유의하게 본 발명의 방법이 더 우수함을 알 수 있다.
또한, 아래 표 7은 표 6와 마찬가지로 테스트 세트로부터 산출된 음 이항 로그 우도의 평균(mean of negative binomial log likelihood)의 평균값을 표시한 것이며, 표준 편차는 괄호 안에 표시되어 있다. 역시, 평균값과 표준 편차를 얻기 위한 계산의 반복 횟수는 1000번이었다.
Figure PCTKR2017012690-appb-T000014
표 7을 참조하면, 본 발명의 방법론이 종래의 로지스틱 회귀 방법론에 비하여 음 이항 로그 우도의 평균값이 낮게 나타나는 것을 알 수 있다. 이는 본 발명의 방법에 의한 적합(fitting)이 종래의 로지스틱 회귀 방법론에 비하여 실제 분류에 더 가깝게 이루어졌음을 의미하는 것이다.
또한, 아래 표 8은 마찬가지로 동일 테스트 세트로부터 산출된 ROC-AUC (area under curve)의 평균값을 표시한 것이며, 표준 편차는 괄호 안에 표시되어 있다. 마찬가지로, 평균값과 표준 편차를 얻기 위한 계산의 반복 횟수는 1000번이었다.
Figure PCTKR2017012690-appb-T000015
참고로, 도 3A~3D는 유방암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선을 도시한 도면이며, 도 4A~4D는 위암 환자와 정상인을 분류하는 데 있어서 종래의 로지스틱 회귀 모형과 본 발명의 방법에 따른 모형 각각의 성능을 비교 평가하기 위한 도구로서 ROC 곡선을 도시한 도면이다.
도 3A에서 3D까지 그리고 도 4A에서 4D까지는 테스트 세트에 대하여 이루어진 최초 4회의 계산에 대하여 개별 방법 각각의 ROC들이 도시되어 있다.
도 3A~3D 및 도 4A~4D에 따르면, 통상의 기술자는, 유방암 환자 혹은 위암 환자를 정상인으로부터 분류해내는 전체적 성능에 있어 본 발명의 방법이 종래의 로지스틱 회귀 모형보다 우수함을 알 수 있다.
수치적으로 동일한 결론이 정리되어 있는 표 7을 참조하면 본 발명의 방법론이 종래의 로지스틱 회귀 방법론에 비하여 AUC 평균값이 더 높게 나타난다는 것을 알 수 있다. 이는 본 발명의 방법의 분류 성능이 더 우수함을 의미한다.
이와 같이 본 발명의 전술한 모든 실시예들에 걸쳐, 본 발명의 방법이 종래의 방법에 비하여 입력 데이터에 대응되는 특정 항목이 속하는 클래스를 더 정확하게 분류할 수 있는 효과가 있다.
상기 실시예들로서 여기에서 설명된 기술의 이점은, 현저한 계산량의 증대 없이도 분류의 정확도를 높일 수 있다는 점이다. 더구나 종래에 2 클래스 분류에 흔히 이용되던 로지스틱 회귀 모형을 개량하여 일반적으로 2 클래스 분류에 이용될 수 있는 범용 모형을 개발한 것은 괄목할 만한 성취라 할 수 있다.
위 실시예의 설명에 기초하여 해당 기술분야의 통상의 기술자는, 본 발명이 소프트웨어 및 하드웨어의 결합을 통하여 달성되거나 하드웨어만으로 달성될 수 있다는 점을 명확하게 이해할 수 있다. 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 CPU나 GPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 수학적으로 또는 논리적으로 동치(mathematically equivalent or logically equivalent)인 방법이 포함될 것이다.

Claims (18)

  1. 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법에 있어서,
    (a) 컴퓨팅 장치가, 독립 항등 분포된(independently identically distributed) 샘플 데이터
    Figure PCTKR2017012690-appb-I000099
    를 획득하는 단계로서, 상기 n은 상기 샘플 데이터의 개수이며,
    Figure PCTKR2017012690-appb-I000100
    는 d-차원 벡터이고, Yi는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 단계;
    (b) 상기 샘플 데이터가 획득되면, 상기 컴퓨팅 장치가, 모형식
    Figure PCTKR2017012690-appb-I000101
    ,
    Figure PCTKR2017012690-appb-I000102
    의 미지 모수 β를 추정하거나 추정하도록 지원하는 단계로서,
    Figure PCTKR2017012690-appb-I000103
    이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 단계;
    (c) 상기 미지 모수 β의 추정량
    Figure PCTKR2017012690-appb-I000104
    이 획득되면, 상기 컴퓨팅 장치가, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하는 단계; 및
    (d) 상기 함수 g의 추정량
    Figure PCTKR2017012690-appb-I000105
    이 획득되면, 상기 컴퓨팅 장치가, 상기 미지 모수 β의 추정량
    Figure PCTKR2017012690-appb-I000106
    및 상기 함수 g의 추정량
    Figure PCTKR2017012690-appb-I000107
    을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량
    Figure PCTKR2017012690-appb-I000108
    을 획득하는 단계;
    를 포함하는 방법.
  2. 제1항에 있어서,
    (e) 상기 함수 G의 추정량
    Figure PCTKR2017012690-appb-I000109
    이 획득되고, 상기 신규 데이터 Xnew가 입력되면, 상기 컴퓨팅 장치가,
    Figure PCTKR2017012690-appb-I000110
    (Xnew)의 값을 산출하고, 산출된 상기
    Figure PCTKR2017012690-appb-I000111
    (Xnew)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 단계;
    를 더 포함하는 방법.
  3. 제1항에 있어서,
    상기 (b) 단계는,
    상기 미지 모수 β의 추정량
    Figure PCTKR2017012690-appb-I000112
    Figure PCTKR2017012690-appb-I000113
    를 통하여 구해지되,
    상기 yi는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,
    상기 Xi=(1, Xi1, … , XiD)T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,
    상기 Xij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하고,
    상기 D는 독립 변수의 개수를 지칭하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 (c) 단계는,
    상기 함수 g의 추정량
    Figure PCTKR2017012690-appb-I000114
    Figure PCTKR2017012690-appb-I000115
    이 음의 기울기 및 소정의 조율 모수 λ>= 0을 통하여 구해지되,
    상기 yi는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,
    상기 Xi=(1, Xi1, … , XiD)T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,
    상기 Xij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 (c) 단계는,
    (c1) 상기 컴퓨팅 장치가,
    Figure PCTKR2017012690-appb-I000116
    를 산출하는 단계로서,
    상기 yi는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,
    상기 Xi=(1, Xi1, … , XiD)T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,
    상기 Xij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하고,
    상기 D는 독립 변수의 개수를 지칭하는 단계; 및
    (c2) 상기 ri가 산출되면, 상기 컴퓨팅 장치가, 랜덤 포레스트(random forest)를 이용하여 데이터
    Figure PCTKR2017012690-appb-I000117
    를 적합(fitting; 피팅) 시킴으로써 상기 적합의 결과인 함수 RF(x)를 산출하고, 소정의 조율 모수 λ에 대하여
    Figure PCTKR2017012690-appb-I000118
    로 부터 상기 함수 g를 추정하거나 추정하도록 지원하는 단계;
    를 포함하는 것을 특징으로 하는 방법.
  6. 제4항 또는 제5항에 있어서,
    상기 소정의 조율 모수 λ는,
    λ=1인 것을 특징으로 하는 방법.
  7. 제4항 또는 제5항에 있어서,
    상기 소정의 조율 모수 λ는,
    비절편 로지스틱 회귀 모형(no intercept logistic regression model)을 이용하여 산출된 것임을 특징으로 하는 방법.
  8. 제1항에 있어서,
    상기 2개의 클래스는,
    각각 특정 질병의 환자임 및 상기 특정 질병의 환자가 아님에 대응되도록 설정되며,
    상기 샘플 데이터 각각의 독립 변수 Xij 각각은,
    개별 피험체로부터 획득된 생물학적 시료에 포함된 특정 물질의 물리량 또는 상기 개별 피험체의 인구통계학적 변수인 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 특정 질병은,
    유방암 또는 위암인 것을 특징으로 하는 방법.
  10. 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법을 수행하는 컴퓨팅 장치에 있어서,
    독립 항등 분포된(independently identically distributed) 샘플 데이터
    Figure PCTKR2017012690-appb-I000119
    를 획득하는 통신부로서, 상기 n은 상기 샘플 데이터의 개수이며,
    Figure PCTKR2017012690-appb-I000120
    는 d-차원 벡터이고, Yi는 -1 또는 1의 값을 가지거나 가지도록 가공된 것이며, 상기 -1 및 상기 1의 값은 2개의 클래스 각각에 대응되는 것으로 설정된 값인 통신부; 및
    상기 샘플 데이터가 획득되면, 모형식
    Figure PCTKR2017012690-appb-I000121
    ,
    Figure PCTKR2017012690-appb-I000122
    의 미지 모수 β를 추정하거나 추정하도록 지원하는 프로세서로서,
    Figure PCTKR2017012690-appb-I000123
    이며, 상기 X는 독립 변수를 지칭하고, 상기 Y는 종속 변수를 지칭하며, 상기 함수 g는 랜덤 포레스트 모형(random forest model)의 형태인 프로세서
    를 포함하되,
    상기 프로세서는,
    상기 미지 모수 β의 추정량
    Figure PCTKR2017012690-appb-I000124
    이 획득되면, 상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하고,
    상기 함수 g의 추정량
    Figure PCTKR2017012690-appb-I000125
    이 획득되면, 상기 미지 모수 β의 추정량
    Figure PCTKR2017012690-appb-I000126
    및 상기 함수 g의 추정량
    Figure PCTKR2017012690-appb-I000127
    을 이용하여 상기 특정 항목에 대응되는 신규 데이터를 위한 예측식으로서 상기 함수 G를 추정하거나 추정하도록 지원함으로써 상기 함수 G의 추정량
    Figure PCTKR2017012690-appb-I000128
    을 획득하는 컴퓨팅 장치.
  11. 제10항에 있어서,
    상기 프로세서는,
    상기 함수 G의 추정량
    Figure PCTKR2017012690-appb-I000129
    이 획득되고, 상기 신규 데이터 Xnew가 입력되면,
    Figure PCTKR2017012690-appb-I000130
    (Xnew)의 값을 산출하고, 산출된 상기
    Figure PCTKR2017012690-appb-I000131
    (Xnew)의 값으로부터 상기 특정 항목의 상기 클래스를 분류하거나 분류하도록 지원하는 것을 특징으로 하는 컴퓨팅 장치.
  12. 제10항에 있어서,
    상기 미지 모수 β의 추정량
    Figure PCTKR2017012690-appb-I000132
    Figure PCTKR2017012690-appb-I000133
    를 통하여 구해지되,
    상기 yi는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,
    상기 xi=(1, xi1, ... , xiD)T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,
    상기 xij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립 변수 값을 지칭하고,
    상기 D는 독립 변수의 개수를 지칭하는 것을 특징으로 하는 컴퓨팅 장치.
  13. 제10항에 있어서,
    상기 함수 g의 추정량
    Figure PCTKR2017012690-appb-I000134
    Figure PCTKR2017012690-appb-I000135
    이 음의 기울기 및 소정의 조율 모수 λ>= 0 을 통하여 구해지되,
    상기 yi는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,
    상기 xi=(1, xi1, … , xiD)T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,
    상기 xij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하는 것을 특징으로 하는 컴퓨팅 장치.
  14. 제10항에 있어서,
    상기 랜덤 포레스트 모형을 이용하여 상기 함수 g를 추정하거나 추정하도록 지원하기 위하여,
    상기 프로세서는,
    Figure PCTKR2017012690-appb-I000136
    를 산출하되,
    상기 yi는 제i 샘플 데이터의 실제로 관측된 Y값을 지칭하고,
    상기 xi=(1, xi1, … , xiD)T는 상기 제i 샘플 데이터의 실제로 관측된 X값을 지칭하며,
    상기 xij는 상기 제i 샘플 데이터의 실제로 관측된 X값의 j번째 독립변수 값을 지칭하고,
    상기 D는 독립 변수의 개수를 지칭하며,
    상기 프로세서는,
    상기 ri가 산출되면, 랜덤 포레스트(random forest)를 이용하여 데이터
    Figure PCTKR2017012690-appb-I000137
    를 적합(fitting; 피팅) 시킴으로써 상기 적합의 결과인 함수 RF(x)를 산출하고, 소정의 조율 모수 λ에 대하여
    Figure PCTKR2017012690-appb-I000138
    로부터 상기 함수 g를 추정하거나 추정하도록 지원하는 것을 특징으로 하는 컴퓨팅 장치.
  15. 제13항 또는 제14항에 있어서,
    상기 소정의 조율 모수 λ는,
    λ=1인 것을 특징으로 하는 컴퓨팅 장치.
  16. 제13항 또는 제14항에 있어서,
    상기 소정의 조율 모수 λ는,
    비절편 로지스틱 회귀 모형(no intercept logistic regression model)을 이용하여 산출된 것임을 특징으로 하는 컴퓨팅 장치.
  17. 제10항에 있어서,
    상기 2개의 클래스는,
    각각 특정 질병의 환자임 및 상기 특정 질병의 환자가 아님에 대응되도록 설정되며,
    상기 샘플 데이터 각각의 독립 변수 Xij 각각은,
    개별 피험체로부터 획득된 생물학적 시료에 포함된 특정 물질의 물리량 또는 상기 개별 피험체의 인구통계학적 변수인 것을 특징으로 하는 컴퓨팅 장치.
  18. 제17항에 있어서,
    상기 특정 질병은,
    유방암 또는 위암인 것을 특징으로 하는 컴퓨팅 장치.
PCT/KR2017/012690 2016-11-09 2017-11-09 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치 WO2018088825A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201780069360.9A CN109937421B (zh) 2016-11-09 2017-11-09 用于预测特定项目所属类别的二类别分类方法以及利用该方法的计算设备
EP17868577.2A EP3540648A4 (en) 2016-11-09 2017-11-09 TWO-CLASS CLASSIFICATION METHOD FOR THE PREDICTION OF A CLASS TO WHICH A SPECIFIC ELEMENT BELONGS AND A COMPUTING DEVICE CALLING SAID CLASSIFICATION METHOD
US16/348,455 US11461704B2 (en) 2016-11-09 2017-11-09 Two-class classification method for predicting class to which specific item belongs, and computing device using same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0149120 2016-11-09
KR1020160149120A KR101747783B1 (ko) 2016-11-09 2016-11-09 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치

Publications (1)

Publication Number Publication Date
WO2018088825A1 true WO2018088825A1 (ko) 2018-05-17

Family

ID=59217227

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/012690 WO2018088825A1 (ko) 2016-11-09 2017-11-09 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치

Country Status (5)

Country Link
US (1) US11461704B2 (ko)
EP (1) EP3540648A4 (ko)
KR (1) KR101747783B1 (ko)
CN (1) CN109937421B (ko)
WO (1) WO2018088825A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586164B1 (en) 2018-10-15 2020-03-10 AIble Inc. Interface for visualizing and improving model performance
US10936768B2 (en) * 2018-10-15 2021-03-02 Aible, Inc. Interface for visualizing and improving model performance
US11409549B2 (en) 2018-10-15 2022-08-09 AIble Inc. Interface for generating models with customizable interface configurations
US20230169564A1 (en) * 2021-11-29 2023-06-01 Taudata Co., Ltd. Artificial intelligence-based shopping mall purchase prediction device

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930392A (en) 1996-07-12 1999-07-27 Lucent Technologies Inc. Classification technique using random decision forests
KR20100082377A (ko) * 2007-12-18 2010-07-16 후지쯔 가부시끼가이샤 2클래스 분류 예측 모델의 작성 방법, 분류 예측 모델 작성을 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 및 2클래스 분류 예측 모델의 작성 장치
KR20120075570A (ko) * 2010-12-15 2012-07-09 권영식 통합 재난 관리 활동 인증(측정, 보고, 검증) 시스템 및 방법
US8306942B2 (en) * 2008-05-06 2012-11-06 Lawrence Livermore National Security, Llc Discriminant forest classification method and system
JP2015517653A (ja) * 2012-05-03 2015-06-22 メディアル リサーチ リミテッド 消化器癌のリスクを評価する方法およびシステム
JP2016181255A (ja) * 2015-03-23 2016-10-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 個別化予測モデルを用いた、個人レベルのリスク・ファクタの識別およびランク付け

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2754080B1 (fr) * 1996-10-01 1998-10-30 Commissariat Energie Atomique Procede d'apprentissage pour la classification de donnees selon deux classes separees par une surface separatrice d'ordre 1 ou 2
AU2002332967B2 (en) * 2001-10-17 2008-07-17 Commonwealth Scientific And Industrial Research Organisation Method and apparatus for identifying diagnostic components of a system
US20050170528A1 (en) * 2002-10-24 2005-08-04 Mike West Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications
EP2272028A1 (en) * 2008-04-25 2011-01-12 Koninklijke Philips Electronics N.V. Classification of sample data
US8744172B2 (en) * 2011-06-15 2014-06-03 Siemens Aktiengesellschaft Image processing using random forest classifiers
KR20130004203A (ko) * 2012-11-26 2013-01-09 주식회사 바이오인프라 폐암 진단용 복합 바이오마커 정보 이용 방법
CN103257921B (zh) * 2013-04-16 2015-07-22 西安电子科技大学 一种基于改进随机森林算法的软件故障预测系统及其方法
WO2016096309A1 (en) 2014-12-15 2016-06-23 Asml Netherlands B.V. Optimization based on machine learning
US20160196236A1 (en) * 2015-01-07 2016-07-07 Umm Al-Qura University Method for estimating and predicting parameters of exponentiated weibull model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5930392A (en) 1996-07-12 1999-07-27 Lucent Technologies Inc. Classification technique using random decision forests
KR20100082377A (ko) * 2007-12-18 2010-07-16 후지쯔 가부시끼가이샤 2클래스 분류 예측 모델의 작성 방법, 분류 예측 모델 작성을 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체 및 2클래스 분류 예측 모델의 작성 장치
US8306942B2 (en) * 2008-05-06 2012-11-06 Lawrence Livermore National Security, Llc Discriminant forest classification method and system
KR20120075570A (ko) * 2010-12-15 2012-07-09 권영식 통합 재난 관리 활동 인증(측정, 보고, 검증) 시스템 및 방법
JP2015517653A (ja) * 2012-05-03 2015-06-22 メディアル リサーチ リミテッド 消化器癌のリスクを評価する方法およびシステム
JP2016181255A (ja) * 2015-03-23 2016-10-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 個別化予測モデルを用いた、個人レベルのリスク・ファクタの識別およびランク付け

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"ISBN", Database accession no. 3-900051-07-0
See also references of EP3540648A4

Also Published As

Publication number Publication date
CN109937421B (zh) 2024-04-30
KR101747783B1 (ko) 2017-06-15
EP3540648A4 (en) 2020-07-01
US20190318266A1 (en) 2019-10-17
CN109937421A (zh) 2019-06-25
EP3540648A1 (en) 2019-09-18
US11461704B2 (en) 2022-10-04

Similar Documents

Publication Publication Date Title
WO2018088825A1 (ko) 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치
WO2020180170A1 (en) Effective user modeling with time-aware based binary hashing
CN109493977A (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
WO2020080834A1 (en) Electronic device and method for controlling the electronic device
WO2021190296A1 (zh) 一种动态手势识别方法及设备
US20200311198A1 (en) N-ary relation prediction over text spans
WO2020242090A1 (en) Apparatus for deep representation learning and method thereof
WO2022141876A1 (zh) 基于词向量的搜索方法、装置、设备及存储介质
WO2021020810A1 (en) Learning method of ai model and electronic apparatus
WO2017047876A1 (ko) 소셜 미디어에 대한 사용자 행위 분석을 기반으로 한 신뢰성 평가 방법 및 시스템
Barry-Straume et al. An evaluation of training size impact on validation accuracy for optimized convolutional neural networks
CN110674312A (zh) 构建知识图谱方法、装置、介质及电子设备
CN110175515B (zh) 一种基于大数据的人脸识别算法
KR20210002410A (ko) 외형인식모델 학습용 데이터셋 구축 방법, 장치 및 프로그램
WO2019125054A1 (en) Method for content search and electronic device therefor
CN112612901A (zh) 一种医学知识图谱智慧管理检索平台
CN115879508A (zh) 一种数据处理方法及相关装置
CN112259225A (zh) 基于大数据的智慧医疗病情监控方法及系统
CN117253287B (zh) 基于域泛化的动作预测模型训练方法、相关方法及产品
CN112464689A (zh) 生成神经网络的方法、装置和系统及存储指令的存储介质
Wu et al. STAR: An STGCN ARchitecture for Skeleton-Based Human Action Recognition
JP7006402B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
WO2023080509A1 (ko) 효율적인 전환 매트릭스 추정을 통한 노이즈 레이블을 학습하는 방법 및 장치
Negaresh et al. Gender identification of mobile phone users based on internet usage pattern
WO2017171142A1 (ko) 얼굴의 특징점 검출 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17868577

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017868577

Country of ref document: EP

Effective date: 20190611