WO2022086053A1 - Artificial intelligence-based microarray specific determinant extraction system - Google Patents

Artificial intelligence-based microarray specific determinant extraction system Download PDF

Info

Publication number
WO2022086053A1
WO2022086053A1 PCT/KR2021/014237 KR2021014237W WO2022086053A1 WO 2022086053 A1 WO2022086053 A1 WO 2022086053A1 KR 2021014237 W KR2021014237 W KR 2021014237W WO 2022086053 A1 WO2022086053 A1 WO 2022086053A1
Authority
WO
WIPO (PCT)
Prior art keywords
bacterial artificial
module
artificial chromosome
neural network
loss value
Prior art date
Application number
PCT/KR2021/014237
Other languages
French (fr)
Korean (ko)
Inventor
이명재
강신욱
김원태
김동민
Original Assignee
(주)제이엘케이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)제이엘케이 filed Critical (주)제이엘케이
Priority claimed from KR1020210136583A external-priority patent/KR20220052279A/en
Publication of WO2022086053A1 publication Critical patent/WO2022086053A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Definitions

  • the present invention relates to a system for extracting chromosome probes used when classifying a class of a characteristic in a microarray.
  • a DNA microarray also known as a DNA chip, is one in which a large amount of gene fragments are attached to the surface of a glass slide in a state in which they are arranged at regular intervals.
  • Gene fragments arranged and attached at regular intervals in a DNA microarray are defined as probes, and may have a known nucleotide sequence of a specific gene.
  • DNA microarrays can be used to investigate the expression level of large amounts of genes in specific cells. For example, by examining the expression of a large amount of genes using a DNA microarray in various types of cancer cells, the similarity of gene expression patterns among individual cancer cells can be compared.
  • DNA microarrays can also be used to compare differences in gene expression between different classes of a trait. For example, by comparing the expression level of a gene before and after treatment with a drug in cells, or by comparing the expression level of a gene between a normal tissue and a diseased tissue, a gene showing a difference in expression level can be detected. there is.
  • the existing chromosomal testing method for detecting chromosomal abnormalities such as Down's syndrome and Turner's syndrome has a problem in that the diagnosis accuracy of diseases caused by minute chromosomal abnormalities is significantly lowered.
  • the present invention provides a data extraction module for generating first bacterial artificial chromosome expression ratio data by extracting expression ratio information for each bacterial artificial chromosome from the first microarray data; a normalization module for performing Royce normalization on the first bacterial artificial chromosome expression ratio data; a neural network module comprising an input layer, a hidden layer, and an output layer, receiving the first bacterial artificial chromosome expression ratio data and calculating class information of a characteristic to be classified; a decoding module for generating first classification class information including values of neurons of the output layer of the neural network module; a first loss value calculation module for calculating a first loss value by inputting first correct answer class information and the first classification class information into a softmax loss function; a second loss value calculation module for calculating a second loss value by inputting the first correct answer class information and the first classification class information into a root mean square error loss function; It provides a microarray specific determinant extraction system including a model design module for calculating a third loss
  • the data extraction module extracts expression ratio information for each bacterial artificial chromosome from the first microarray data, and the first bacterial artificial chromosome expression ratio data generating a; (S2) performing, by the normalization module, Royce normalization on the first bacterial artificial chromosome expression ratio data; (S3) converting, by the encoding module, the data format so that the first bacterial artificial chromosome expression ratio data corresponds to the neurons of the input layer of the neural network module; (S4) receiving, by the neural network module, the expression rate data of the first bacterial artificial chromosome, and calculating class information of a characteristic to be classified for each neuron of an output layer; (S5) generating, by a decoding module, first classification class information including values of neurons in an output layer of the neural network module; (S6) calculating, by the first loss value calculation module, the first correct answer class information and the first classification class information into a softmax loss function to calculate
  • the third loss value is calculated by linearly combining the first loss value calculated using the softmax loss function and the second loss value calculated using the root mean square error loss function, and then the neural network module is trained. can do.
  • the model design module searches for a bacterial artificial chromosome corresponding to a neuron in the input layer having the largest sum of first weights between neurons in the hidden layer in the neural network module learned according to the third loss value, and a chromosome affecting class classification It can be judged by the bacterial artificial chromosome, which is the determinant of the probe. Accordingly, it is possible to quickly determine the chromosomal probe that has the most influence for each characteristic, and the accuracy thereof can be improved.
  • FIG. 1 is a block diagram schematically illustrating a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically illustrating microarray data input to a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
  • FIG. 3 is a block diagram schematically illustrating a configuration included in a neural network module in a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
  • FIG. 4 is a flowchart schematically illustrating a method for extracting a microarray specific determinant according to an embodiment of the present invention.
  • 1 is a block diagram schematically illustrating a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
  • 2 is a block diagram schematically illustrating microarray data input to a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
  • 3 is a block diagram schematically illustrating a configuration included in a neural network module in a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
  • the microarray specific determinant extraction system 100 includes an input/output module 111 , a storage module 112 , a data extraction module 121 , a normalization module 122 , and an encoding A module 130, a neural network module 140, a decoding module 150, a first loss value calculation module 161, a second loss value calculation module 162, a model design module 170, It may include a correction value extraction module 180 and a visualization module 190 .
  • the microarray specific determinant extraction system 100 can process a microarray including a bacterial artificial chromosome (BAC) as a probe as a target.
  • BAC bacterial artificial chromosome
  • the input/output module 111 may receive the first microarray data MA1 and the second microarray data MA2 from the outside of the microarray specific determinant extraction system 100 .
  • the first microarray data MA1 may be training data, and bacterial artificial chromosome (BAC) information (MA1-B, hereinafter “first bacterial artificial chromosome information”) and positive bacterial artificial chromosome (BAC) information. or negative expression ratio information (MA1-R, hereinafter “first expression ratio information”) and correct answer class information (MA1-C, hereinafter “first correct answer class information”).
  • BAC bacterial artificial chromosome
  • first BAC positive bacterial artificial chromosome
  • MA1-R negative expression ratio information
  • MA1-C correct answer class information
  • the first bacterial artificial chromosome information includes a bacterial artificial chromosome identifier (MA1-Bi), a position at which the bacterial artificial chromosome is arranged on the microarray (MA1-Bp), and genetic information (MA1-Bp) of the bacterial artificial chromosome. Bg) may be included.
  • the first correct answer class information MA1-C may be correct answer data corresponding to the first expression rate information MA1-R.
  • the second microarray data may be verification data or general data used after verification, and includes bacterial artificial chromosome (BAC) information (MA2-B, hereinafter “second bacterial artificial chromosome information”) and bacterial artificial chromosome (BAC) positive or negative expression ratio information (MA2-R, hereinafter “second expression ratio information”) and correct answer class information in which probability information is defined in advance for each class of the characteristic to be classified (MA2) -C, hereinafter “second correct answer class information”) may be included.
  • BAC bacterial artificial chromosome
  • MA2-R bacterial artificial chromosome positive or negative expression ratio information
  • second expression ratio information correct answer class information in which probability information is defined in advance for each class of the characteristic to be classified
  • the second bacterial artificial chromosome information includes a bacterial artificial chromosome identifier (MA2-Bi), a position where the bacterial artificial chromosome is arranged on the microarray (MA2-Bp), and genetic information of the bacterial artificial chromosome (MA2-Bi). Bg) may be included.
  • the second correct answer class information MA2-C may be correct answer data corresponding to the second expression rate information MA2-R.
  • the input/output module 111 is a microarray specific determinant extraction system 100 and a personal area network (PAN), a local area network (LAN), a metropolitan area network (Metropolitan Area Network, MAN), a wide area network Protocols such as Transmission Control Protocol/Internet Protocol (TCP/IP), Server Message Block (SMB), Common Internet File System (CIFS), and Network File System (NFS) from other computing devices connected by a Wide Area Network (WAN).
  • PAN personal area network
  • LAN local area network
  • MAN metropolitan area network
  • TCP/IP Transmission Control Protocol/Internet Protocol
  • SMB Server Message Block
  • CIFS Common Internet File System
  • NFS Network File System
  • the input/output module 110 includes a serial port, a parallel port, a Small Computer System Interface (SCSI), a Universal Serial Bus (USB), an IEEE 1394, an Advanced Technology Attachment (ATA), and a Serial Advanced (SATA).
  • the first microarray data MA1 and the second microarray data MA2 may be transmitted from a data input/output terminal such as a technology attachment) or a peripheral device connected to another data input/output terminal.
  • the storage module 112 may store all data input to the microarray-specific determinant factor extraction system 100 or generated by the microarray-specific determinant factor extraction system 100 .
  • the remaining modules except the storage module 112 load all data stored in the storage module 112 and can be used
  • the storage module 112 may include a storage device to store data.
  • Storage devices include hard disk drives, optical disc drives, magnetic tapes, floppy disks, flash memory, solid state drives (SSDs), and the like. It may be a non-volatile memory device or a volatile memory device such as a random access memory (RAM), but is not limited thereto and may be a different type of memory device.
  • RAM random access memory
  • the data extraction module 121 may extract expression ratio information for each bacterial artificial chromosome (BAC) from the microarray data.
  • BAC bacterial artificial chromosome
  • the data extraction module 121 extracts the first bacterial artificial chromosome information (MA1-B) and the corresponding first expression ratio information (MA1-R) from the first microarray data (MA1) to be paired.
  • the data extraction module 121 extracts the bacterial artificial chromosome identifier (MA1-Bi) and the first expression ratio information (MA1-R) included in the first bacterial artificial chromosome information (MA1-B), By pairing, the first bacterial artificial chromosome expression ratio data (R1) can be generated.
  • the data extraction module 121 extracts the second bacterial artificial chromosome information (MA2-B) and the corresponding second expression ratio information (MA2-R) from the second microarray data (MA2) to be paired.
  • the data extraction module 121 pairs the bacterial artificial chromosome identifier (MA2-Bi) included in the second bacterial artificial chromosome information (MA2-B) with the second expression ratio information (MA2-R).
  • the second bacterial artificial chromosome expression ratio data (R2) can be generated.
  • the data extraction module 121 may generate expression ratio data for each bacterial artificial chromosome so that other modules can easily obtain expression ratio information for each bacterial artificial chromosome (BAC).
  • the normalization module 122 may perform normalization on the expression ratio data for each bacterial artificial chromosome generated by the data extraction module 121 .
  • the normalization module 122 may perform Lowess normalization so that the first bacterial artificial chromosome expression ratio data R1 and the second bacterial artificial chromosome expression ratio data R2 can maintain continuity, respectively.
  • the encoding module 130 may convert the expression ratio data for each bacterial artificial chromosome into a data format that the neural network module 140 can process.
  • the encoding module 130 may convert the data format of the first bacterial artificial chromosome expression ratio data R1 normalized by the normalization module 122 to correspond to the neurons of the input layer included in the neural network module 140 . there is.
  • the encoding module 130 may convert the data format of the second bacterial artificial chromosome expression ratio data R2 normalized by the normalization module 122 to correspond to the neurons of the input layer included in the neural network module 140 . there is.
  • the neural network module 140 may calculate class information of a characteristic to be classified according to the expression ratio data for each bacterial artificial chromosome.
  • the neural network module 140 may include an input layer 141 , a hidden layer 142 , and an output layer 143 .
  • the neural network module 140 may include one or more hidden layers 142 , and the hidden layers 142 may be located between the input layer 141 and the output layer 143 .
  • the input layer 141 may include one or more neurons 141n.
  • the input layer 141 may include as many neurons as the number of bacterial artificial chromosome identifiers (MA1-Bi, MA2-Bi).
  • the neural network module 140 is the first bacterial artificial chromosome expression ratio data R1 in which the data format is converted in the encoding module 130 after being normalized in the normalization module 122, respectively, in the neurons 141n of the input layer 141 Alternatively, the second bacterial artificial chromosome expression ratio data (R2) may be input.
  • the hidden layer 142 may include one or more neurons 142n. Each neuron of the hidden layer 141 may correspond to all neurons of the input layer 141 .
  • a first weight W1 may be included as relationship information between the neurons 141n of the input layer 141 and the neurons 142n of the hidden layer 142 .
  • the neural network module 140 multiplies the value of each neuron 141n of the input layer 141 corresponding to the neuron 142n of the hidden layer 142 by a first weight W1 therebetween, and then returns the multiplied value By adding them all together, the value of the neuron 142n of the hidden layer 142 may be calculated.
  • the output layer 143 may include one or more neurons 143n.
  • the output layer 143 may include as many neurons 143n as the number of classes of characteristics to be classified.
  • Each of the neurons 143n of the output layer 143 may correspond to all neurons 142n of the hidden layer 142 .
  • a second weight W2 may be included as relationship information between the neurons 142n of the hidden layer 142 and the neurons 143n of the output layer 143 .
  • the neural network module 140 multiplies the value of each neuron 142n of the hidden layer 142 corresponding to the neuron 143n of the output layer 143 and a second weight W2 therebetween, and then adds all of the multiplied values. In addition, the value of the neuron 143n of the output layer 143 may be calculated.
  • the neural network module 140 after the first bacterial artificial chromosome expression ratio data (R1) or the second bacterial artificial chromosome expression ratio data (R2) is input, the class information of the characteristic to be classified, the probability for each class of the output layer It can be calculated for each neuron 143n.
  • the decoding module 150 may convert the data format of the value of the neuron 143n of the output layer so as to calculate the value of the loss function.
  • the decoding module 150 after being normalized by the normalization module 122, is calculated when inputting the first bacterial artificial chromosome expression ratio data R1 whose data format is converted in the encoding module 130 to the neural network module 140
  • the first classification class information C1 may be generated including the values of all neurons 143n of the output layer 143 .
  • the decoding module 150 is calculated when inputting to the neural network module 140 the second bacterial artificial chromosome expression ratio data R2, which is normalized in the normalization module 122 and then converted in the data format in the encoding module 130
  • the second classification class information C2 may be generated by including the values of all neurons 143n of the output layer 143 .
  • the first loss value calculation module 161 and the second loss value calculation module 162 may respectively calculate the value of the loss function by using the class information classified by the neural network module 140 and the correct answer class information.
  • the first loss value calculation module 161 applies the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1 to the softmax according to Equation 1 below.
  • the first loss value L1 may be calculated by inputting the (softmax) loss function.
  • Equation 1 x i and x j represent the first classification class information C1.
  • N represents the total number of the first classification class information C1, which is the number of neurons 143n in the output layer 143 .
  • yi represents the first correct answer class information MA1-C.
  • the first loss value calculation module 161 inputs the second classification class information C2 and the second correct answer class information MA2-C included in the second microarray data MA2 into Equation 1, One loss value L1 can be calculated.
  • x i and x j represent the second classification class information (C2).
  • N represents the total number of the second classification class information C2, which is the number of neurons 143n in the output layer 143 .
  • y i represents the second correct answer class information MA2-C.
  • the second loss value calculation module 162 calculates the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1 as a root mean square according to Equation 2 below.
  • the second loss value L2 may be calculated by inputting the root mean square error (RMSE) into the loss function.
  • RMSE root mean square error
  • N represents the total number of the first classification class information C1, which is the number of neurons 143n in the output layer 143 .
  • y i represents the first correct answer class information MA1-C.
  • the second loss value calculation module 162 inputs the second classification class information (C2) and the second correct answer class information (MA2-C) included in the second microarray data (MA2) into Equation (2), 2
  • the loss value L2 can be calculated.
  • _ represents the second classification class information (C2).
  • N represents the total number of the second classification class information C2, which is the number of neurons 143n in the output layer 143 .
  • yi represents the second correct answer class information MA2-C.
  • the model design module 170 may calculate a third loss value L3 by performing a linear combination of the first loss value L1 and the second loss value L2 .
  • the model design module 170 may calculate the third loss value L3 by inputting the first loss value L1 and the second loss value L2 to the linear combination function according to Equation 3 below.
  • a 1 and A 2 are parameters of the linear combination function, and may be determined in advance according to the weights of the first loss value L1 and the second loss value L2. For example, the sum of A 1 and A 2 may be 1.
  • the model design module 170 may back propagate the third loss value L3 to update the first weight W1 and the second weight W2 of the neural network module 140 .
  • the model design module 170 analyzes the first weight W1 between the neurons 141n of the input layer 141 and the neurons 142n of the hidden layer 142 after the neural network learning is finished, thereby affecting class classification. Mitch can search for bacterial artificial chromosomes on microarrays. For example, the model design module 170 adds a first weight W1 between each neuron 142n of the hidden layer 142 with respect to each neuron 141n of the input layer 141, and then the summed A neuron 141n of the input layer 141 having the largest first weight W1 may be searched for.
  • the model design module 170 the bacterial artificial chromosome identifier of the first bacterial artificial chromosome expression ratio data R1 corresponding to the neurons 141n of the input layer 141 having the largest sum of the first weights W1
  • the bacterial artificial chromosome (BAC) corresponding to (MA1-Bi) can be determined as the bacterial artificial chromosome (D-BAC), the determinant that most affects the characteristics to be classified.
  • the correction value extraction module 180 may correct the first weight W1 when the model design module 170 searches for the bacterial artificial chromosome, which is a determining factor affecting class classification.
  • Correction value extraction module 180 the first weight W1 between the neurons 141n of the input layer 141 and the neurons 142n of the hidden layer 142 according to the change of the first microarray data MA1 By analyzing the change, the correction value may be reflected in the first weight W1.
  • the visualization module 190 may visually display results calculated by other modules.
  • the visualization module 190 provides first classification class information (C1) according to the first bacterial artificial chromosome expression ratio data (R1) and second classification class information (C2) according to the second bacterial artificial chromosome expression ratio data (R2) can be displayed individually.
  • the visualization module 190 may display the bacterial artificial chromosome (D-BAC), a determinant that most affects the characteristics to be classified.
  • D-BAC bacterial artificial chromosome
  • FIG. 2 is a flowchart schematically illustrating a method for extracting a microarray specific determinant according to an embodiment of the present invention.
  • the data extraction module 121 performs the expression ratio for each bacterial artificial chromosome (BAC) in the microarray data. This is the step of extracting information.
  • the data extraction module 121 extracts one or more first bacterial artificial chromosome information (MA1-B) and the corresponding first expression ratio information (MA1-R) from the first microarray data (MA1) to make a pair can be built
  • the data extraction module 121 extracts the bacterial artificial chromosome identifier (MA1-Bi) and the first expression ratio information (MA1-R) included in the first bacterial artificial chromosome information (MA1-B), By pairing, the first bacterial artificial chromosome expression ratio data (R1) can be generated.
  • the second step ( S2 ) is a step in which the normalization module 122 performs normalization on the expression ratio data for each bacterial artificial chromosome generated by the data extraction module 121 .
  • the normalization module 122 may perform Lowess normalization so that the first bacterial artificial chromosome expression ratio data R1 can maintain continuity.
  • the third step (S3) is a step in which the encoding module 130 converts the expression ratio data for each bacterial artificial chromosome into a data format that the neural network module 140 can process.
  • the encoding module 130 converts the first bacterial artificial chromosome expression ratio data R1 normalized by the normalization module 122 to correspond to the neurons 141n of the input layer 141 included in the neural network module 140 . You can convert data types.
  • the fourth step S4 is a step in which the neural network module 140 calculates a value for each class of the characteristic to be classified.
  • the neural network module 140 includes a first weight W1 between the neurons 142n of the hidden layer 142 and the neurons 141n of the input layer 141 , and the neurons 143n and the hidden layer 142 of the output layer 143 . ), the second weight W2 between the neurons 142n may be randomly initialized.
  • the neural network module 140 may input the first bacterial artificial chromosome expression ratio data R1 to the neurons 141n of the input layer 141 , respectively.
  • the neural network module 140 multiplies the value of each neuron 141n of the input layer 141 corresponding to the neuron 142n of the hidden layer 142 by a first weight W1 therebetween, and then returns the multiplied value By adding them all together, the value of the neuron 142n of the hidden layer 142 may be calculated.
  • the neural network module 140 multiplies the value of each neuron 142n of the hidden layer 142 corresponding to the neuron 143n of the output layer 143 and a second weight W2 therebetween, and then adds all of the multiplied values. In addition, the value of the neuron 143n of the output layer 143 may be calculated.
  • Each value of the neuron 143n of the output layer 143 may be a class probability, which is class information of a characteristic to be classified.
  • a fifth step ( S5 ) is a step in which the decoding module 150 converts the data format of the value of the neuron 143n of the output layer 143 .
  • the decoding module 150 may generate the first classification class information C1 including values of all neurons of the output layer 143 .
  • the sixth step S6 is a step in which the first loss value calculation module 161 calculates the first loss value L1.
  • the first loss value calculation module 161 converts the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1 to the softmax of Equation 1 ) can be input to the loss function to calculate the first loss value L1.
  • the seventh step S7 is a step in which the second loss value calculation module 162 calculates the second loss value L2.
  • the second loss value calculation module 162 calculates the root mean square error of Equation 2 based on the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1. RMSE) may be input to the loss function to calculate the second loss value L2.
  • the eighth step S8 is a step in which the model design module 170 calculates the third loss value L3.
  • the model design module 170 may input the first loss value L1 and the second loss value L2 to the linear combination function of Equation 3 to calculate the third loss value L3.
  • the ninth step S9 is a step in which the model design module 170 updates the first weight W1 and the second weight W2 of the neural network module 140 .
  • the model design module 170 may back propagate the third loss value L3 to update the first weight W1 and the second weight W2 of the neural network module 140 .
  • the tenth step (S10) may be performed. If the third loss value L3 does not converge, the fourth step S4 to the ninth step S9 may be repeatedly executed.
  • the model design module 170 may search for bacterial artificial chromosomes in the microarray that affect class classification.
  • the model design module 170 adds a first weight W1 between each neuron of the hidden layer 142 with respect to each neuron of the input layer 141, and then the summed first weight W1 has the largest value.
  • a neuron 141n of the input layer 141 may be searched for.
  • the model design module 170 is configured to configure the bacterial artificial chromosome identifier MA1 of the first bacterial artificial chromosome expression ratio data R1 corresponding to the neurons 141n of the input layer 141 having the largest sum first weight W1. -Bi), it can be determined as the bacterial artificial chromosome (D-BAC), the determinant that most affects the characteristics to be classified.
  • D-BAC bacterial artificial chromosome

Abstract

The present invention relates to a system for extracting a chromosome probe used when classifying a specific class in a microarray. The present invention can calculate a third loss value by linearly combining a first loss value calculated using a softmax loss function and a second loss value calculated using a root mean square error loss function, and then update a first weight and second weight of a neural network module. In addition, the present invention can search for a bacterial artificial chromosome corresponding to a neuron in an input layer having the largest sum of first weights among neurons in a hidden layer, in the neural network module learned using the third loss value, and determine same as a determinant bacterial artificial chromosome, which is a chromosome probe that affects class classification.

Description

인공지능 기반의 마이크로어레이 특정 결정요인 추출 시스템Artificial intelligence-based microarray specific determinant extraction system
본 발명은 마이크로어레이에서 한 특성의 클래스를 분류할 때 사용하는 염색체 탐침자를 추출하는 시스템에 관한 것이다.The present invention relates to a system for extracting chromosome probes used when classifying a class of a characteristic in a microarray.
DNA 칩(chip)으로 알려진 DNA 마이크로어레이(DNA microarray)는, 유리로 만들어진 슬라이드의 표면에 대량의 유전자 조각들이 일정한 간격으로 배열된 상태를 이루며 부착된 것이다.A DNA microarray, also known as a DNA chip, is one in which a large amount of gene fragments are attached to the surface of a glass slide in a state in which they are arranged at regular intervals.
DNA 마이크로어레이에서 일정한 간격으로 배열하여 부착되는 유전자 조각들은 탐침자(probe)라고 정의하며, 특정 유전자의 알려진 염기 서열을 가질 수 있다.Gene fragments arranged and attached at regular intervals in a DNA microarray are defined as probes, and may have a known nucleotide sequence of a specific gene.
DNA 마이크로어레이는, 특정 세포에서 많은 양의 유전자의 발현 정도를 조사하기 위해 이용할 수 있다. 예를 들면, 다양한 종류의 암 세포를 대상으로 DNA 마이크로어레이를 이용해 많은 양의 유전자의 발현을 조사하여, 개별 암 세포들 사이에서 유전자 발현 패턴의 유사성을 비교할 수 있다.DNA microarrays can be used to investigate the expression level of large amounts of genes in specific cells. For example, by examining the expression of a large amount of genes using a DNA microarray in various types of cancer cells, the similarity of gene expression patterns among individual cancer cells can be compared.
또한 DNA 마이크로어레이를 이용하여 한 특성의 여러 클래스 사이에서, 유전자 발현의 차이를 비교할 수 있다. 예를 들어, 세포에 약물을 처리하기 전과 약물을 처리한 후의 유전자의 발현 정도를 비교하거나, 정상 조직과 질병 조직 사이에 유전자의 발현 정도를 비교하여, 발현량의 차이가 나타나는 유전자를 검출할 수 있다.DNA microarrays can also be used to compare differences in gene expression between different classes of a trait. For example, by comparing the expression level of a gene before and after treatment with a drug in cells, or by comparing the expression level of a gene between a normal tissue and a diseased tissue, a gene showing a difference in expression level can be detected. there is.
DNA 마이크로어레이를 이용하여 유전자의 발현 정도를 분석하는 방법으로, 형광으로 표지된 cDNA(complementary DNA)를 DNA 마이크로어레이에 결합시킨 후, DNA 마이크로어레이에서 표시되는 형광의 강도를 측정하여 유전자의 발현 정도를 분석하는 방법을 이용할 수 있다.As a method of analyzing the expression level of a gene using a DNA microarray, after fluorescence-labeled cDNA (complementary DNA) is bound to the DNA microarray, the intensity of fluorescence displayed on the DNA microarray is measured to determine the expression level of the gene. analysis method can be used.
만일 DNA 마이크로어레이를 이용하여 두 클래스 사이의 유전자 발현의 차이를 비교하고자 할 때, 두 클래스의 cDNA를 각각 다른 형광(예를 들어 빨간색 형광 및 파란색 형광)으로 표지하여 DNA 마이크로어레이에 결합시키는 방법을 이용할 수 있다. 이때 빨간색 형광이 표시되는 비율이 높으면 두 클래스 중 한 클래스의 유전자의 발현 정도가 높은 것이고, 파란색 형광이 표시되는 비율이 높으면 두 클래스 중 다른 클래스의 유전자의 발현 정도가 높은 것으로 볼 수 있다. 두 클래스의 유전자의 발현 정도가 동일 또는 유사하게 나타나면, 빨간색 형광과 파란색 형광이 결합하여 노란색 형광이 표시될 수 있다.If you want to compare the difference in gene expression between two classes using a DNA microarray, you can label the cDNAs of the two classes with different fluorescence (for example, red fluorescence and blue fluorescence) and bind them to the DNA microarray. Available. At this time, if the ratio of displaying red fluorescence is high, the expression level of the gene of one class of the two classes is high, and if the ratio of displaying the blue fluorescence is high, it can be considered that the expression level of the gene of the other class of the two classes is high. When the expression levels of the two classes of genes are the same or similar, yellow fluorescence may be displayed by combining red fluorescence and blue fluorescence.
한편, 다운 증후군, 터너 증후군 등의 염색체 이상을 알아보기 위해 실시하는 기존의 염색체 검사 방법은, 미세한 염색체의 이상으로 발생하는 질환의 진단 정확도가 현저히 떨어지는 문제점이 있다.On the other hand, the existing chromosomal testing method for detecting chromosomal abnormalities such as Down's syndrome and Turner's syndrome has a problem in that the diagnosis accuracy of diseases caused by minute chromosomal abnormalities is significantly lowered.
본 발명의 목적은, 마이크로어레이에서 클래스 분류에 영향을 주는 염색체 탐침자를 추출하는 시스템을 제공하는 것이다.It is an object of the present invention to provide a system for extracting chromosomal probes affecting class classification in a microarray.
더욱 상세하게는, 마이크로어레이에서 클래스 분류에 영향을 주는 세균인공염색체를 추출하는 시스템을 제공하는 것이다.More specifically, to provide a system for extracting bacterial artificial chromosomes that affect class classification from a microarray.
상기와 같은 목적을 달성하기 위하여 본 발명은, 제 1 마이크로어레이 데이터에서 세균인공염색체 별로 발현 비율 정보를 추출하여 제 1 세균인공염색체 발현 비율 데이터를 생성하는 데이터 추출 모듈과; 상기 제 1 세균인공염색체 발현 비율 데이터에 대해 로이스 정규화를 실행하는 정규화 모듈과; 입력층과, 은닉층과, 출력층을 포함하고, 상기 제 1 세균인공염색체 발현 비율 데이터를 입력 받아 분류하고자 하는 특성의 클래스 정보를 산출하는 신경망 모듈과; 상기 신경망 모듈의 상기 출력층의 뉴런의 값을 포함하여 제 1 분류 클래스 정보를 생성하는 디코딩 모듈과; 제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 소프트맥스 손실 함수에 입력하여 제 1 손실 값을 산출하는 제 1 손실 값 계산 모듈과; 상기 제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 평균 제곱근 오차 손실 함수에 입력하여 제 2 손실 값을 산출하는 제 2 손실 값 계산 모듈과; 상기 제 1 손실 값과, 상기 제 2 손실 값을 선형 조합 함수에 입력하여 제 3 손실 값을 산출하는 모델 설계 모듈을 포함하는 마이크로어레이 특정 결정요인 추출 시스템을 제공한다.In order to achieve the above object, the present invention provides a data extraction module for generating first bacterial artificial chromosome expression ratio data by extracting expression ratio information for each bacterial artificial chromosome from the first microarray data; a normalization module for performing Royce normalization on the first bacterial artificial chromosome expression ratio data; a neural network module comprising an input layer, a hidden layer, and an output layer, receiving the first bacterial artificial chromosome expression ratio data and calculating class information of a characteristic to be classified; a decoding module for generating first classification class information including values of neurons of the output layer of the neural network module; a first loss value calculation module for calculating a first loss value by inputting first correct answer class information and the first classification class information into a softmax loss function; a second loss value calculation module for calculating a second loss value by inputting the first correct answer class information and the first classification class information into a root mean square error loss function; It provides a microarray specific determinant extraction system including a model design module for calculating a third loss value by inputting the first loss value and the second loss value to a linear combination function.
본 발명의 다른 실시예는, 마이크로어레이 특정 결정요인 추출 시스템에 있어서, (S1) 데이터 추출 모듈이, 제 1 마이크로어레이 데이터에서 세균인공염색체 별로 발현 비율 정보를 추출하여 제 1 세균인공염색체 발현 비율 데이터를 생성하는 단계와; (S2) 정규화 모듈이, 상기 제 1 세균인공염색체 발현 비율 데이터에 대해 로이스 정규화를 실행하는 단계와; (S3) 인코딩 모듈이, 상기 제 1 세균인공염색체 발현 비율 데이터가 신경망 모듈의 입력층의 뉴런에 대응하도록, 데이터 형식을 변환하는 단계와; (S4) 상기 신경망 모듈이, 상기 제 1 세균인공염색체 발현 비율 데이터를 입력 받아, 출력층의 뉴런 별로 분류하고자 하는 특성의 클래스 정보를 산출하는 단계와; (S5) 디코딩 모듈이, 상기 신경망 모듈의 출력층의 뉴런의 값을 포함하여 제 1 분류 클래스 정보를 생성하는 단계와; (S6) 제 1 손실 값 계산 모듈이, 제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 소프트맥스 손실 함수에 입력하여 제 1 손실 값을 산출하는 단계와; (S7) 제 2 손실 값 계산 모듈이, 상기 제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 평균 제곱근 오차 손실 함수에 입력하여 제 2 손실 값을 산출하는 단계와; (S8) 모델 설계 모듈이, 상기 제 1 손실 값과 상기 제 2 손실 값을 선형 조합 함수에 입력하여 제 3 손실 값을 산출하는 단계와; (S9) 상기 모델 설계 모듈이, 상기 제 3 손실 값을 역전파하여, 상기 신경망 모듈의 상기 입력층의 각각의 뉴런과 은닉층의 각각의 뉴런 사이의 관계 정보인 제 1 가중치와, 상기 신경망 모듈의 상기 은닉층의 각각의 뉴런과 상기 출력층의 각각의 뉴런 사이의 관계 정보인 제 2 가중치를 갱신하는 단계와; (S10) 상기 모델 설계 모듈이, 상기 신경망 모듈의 상기 입력층의 뉴런 중, 상기 신경망 모듈의 상기 은닉층의 뉴런 사이의 제 1 가중치의 합이 가장 큰 상기 입력층의 뉴런을 검색한 후, 검색된 상기 신경망 모듈의 상기 입력층의 뉴런에 대응하는 상기 제 1 세균인공염색체 발현 비율 데이터의 상기 세균인공염색체 식별자에 해당하는 세균인공염색체를, 결정요인 세균인공염색체로 판단하는 단계를 포함하고, 상기 제 3 손실 값이 수렴할 때까지 상기 (S4) 단계 내지 상기 (S9) 단계를 반복하여 실행하는 마이크로어레이 특정 결정요인 추출 방법을 제공한다.In another embodiment of the present invention, in the microarray-specific determinant extraction system, (S1) the data extraction module extracts expression ratio information for each bacterial artificial chromosome from the first microarray data, and the first bacterial artificial chromosome expression ratio data generating a; (S2) performing, by the normalization module, Royce normalization on the first bacterial artificial chromosome expression ratio data; (S3) converting, by the encoding module, the data format so that the first bacterial artificial chromosome expression ratio data corresponds to the neurons of the input layer of the neural network module; (S4) receiving, by the neural network module, the expression rate data of the first bacterial artificial chromosome, and calculating class information of a characteristic to be classified for each neuron of an output layer; (S5) generating, by a decoding module, first classification class information including values of neurons in an output layer of the neural network module; (S6) calculating, by the first loss value calculation module, the first correct answer class information and the first classification class information into a softmax loss function to calculate a first loss value; (S7) calculating, by a second loss value calculation module, the first correct answer class information and the first classification class information into a root mean square error loss function to calculate a second loss value; (S8) calculating, by the model design module, a third loss value by inputting the first loss value and the second loss value into a linear combination function; (S9) the model design module, by backpropagating the third loss value, a first weight that is relation information between each neuron of the input layer of the neural network module and each neuron of a hidden layer of the neural network module; updating a second weight, which is relationship information between each neuron of the hidden layer and each neuron of the output layer; (S10), after the model design module searches for neurons in the input layer with the largest sum of first weights among neurons in the hidden layer of the neural network module, among neurons in the input layer of the neural network module, the retrieved and determining the bacterial artificial chromosome corresponding to the bacterial artificial chromosome identifier of the first bacterial artificial chromosome expression ratio data corresponding to the neurons of the input layer of the neural network module as a determining factor bacterial artificial chromosome, and the third Provided is a method for extracting microarray-specific determinants by repeating steps (S4) to (S9) until the loss value converges.
본 발명은, 소프트맥스 손실 함수를 이용하여 산출한 제 1 손실 값과, 평균 제곱근 오차 손실 함수를 이용하여 산출한 제 2 손실 값을 선형 조합하여 제 3 손실 값을 산출한 후, 신경망 모듈을 학습할 수 있다. 모델 설계 모듈은, 제 3 손실 값에 따라 학습된 신경망 모듈에서 은닉층의 뉴런 사이의 제 1 가중치의 합이 가장 큰 입력층의 뉴런에 대응하는 세균인공염색체를 검색하여, 클래스 분류에 영향을 주는 염색체 탐침자인 결정요인 세균인공염색체로 판단할 수 있다. 이에 따라 특성 별로 가장 영향을 미치는 염색체 탐침자를 신속하게 판단할 수 있고, 그 정확도를 향상할 수 있다.In the present invention, the third loss value is calculated by linearly combining the first loss value calculated using the softmax loss function and the second loss value calculated using the root mean square error loss function, and then the neural network module is trained. can do. The model design module searches for a bacterial artificial chromosome corresponding to a neuron in the input layer having the largest sum of first weights between neurons in the hidden layer in the neural network module learned according to the third loss value, and a chromosome affecting class classification It can be judged by the bacterial artificial chromosome, which is the determinant of the probe. Accordingly, it is possible to quickly determine the chromosomal probe that has the most influence for each characteristic, and the accuracy thereof can be improved.
도 1은 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템을 간략하게 나타낸 블록도이다.1 is a block diagram schematically illustrating a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
도 2는 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템에 입력되는 마이크로 어레이 데이터를 간략하게 나타낸 블록도이다.2 is a block diagram schematically illustrating microarray data input to a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
도 3은 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템에서 신경망 모듈에 포함되는 구성을 간략하게 나타낸 블록도이다.3 is a block diagram schematically illustrating a configuration included in a neural network module in a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
도 4는 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 방법을 간략하게 나타낸 순서도이다.4 is a flowchart schematically illustrating a method for extracting a microarray specific determinant according to an embodiment of the present invention.
본 발명은 취지를 벗어나지 않는 한도에서 다양하게 변경하여 실시할 수 있고, 하나 이상의 실시 예를 가질 수 있다. 그리고 본 발명에서 "발명을 실시하기 위한 구체적인 내용" 및 "도면" 등에 기재한 실시 예는, 본 발명을 구체적으로 설명하기 위한 예시이며, 본 발명의 권리 범위를 제한하거나 한정하는 것은 아니다.The present invention may be practiced with various modifications without departing from the spirit, and may have one or more embodiments. In the present invention, the examples described in "specific contents for carrying out the invention" and "drawings" are examples for describing the present invention in detail, and do not limit or limit the scope of the present invention.
따라서, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자가, 본 발명의 "발명을 실시하기 위한 구체적인 내용" 및 "도면" 등으로부터 용이하게 유추할 수 있는 것은, 본 발명의 범위에 속하는 것으로 해석할 수 있다.Accordingly, those having ordinary knowledge in the technical field to which the present invention pertains can easily infer from "specific details for carrying out the invention" and "drawings" of the present invention are interpreted as belonging to the scope of the present invention. can do.
또한, 도면에 표시한 각 구성 요소들의 크기와 형태는, 실시 예의 설명을 위해 과장되어 표현한 것 일 수 있으며, 실제로 실시되는 발명의 크기와 형태를 한정하는 것은 아니다.In addition, the size and shape of each component shown in the drawings may be exaggerated for the description of the embodiment, and do not limit the size and shape of the actually implemented invention.
본 발명의 명세서에서 사용되는 용어를 특별히 정의하지 않는 이상, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 것과 동일한 의미를 가질 수 있다.Unless a term used in the specification of the present invention is specifically defined, it may have the same meaning as commonly understood by a person of ordinary skill in the art to which the present invention belongs.
이하, 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다.Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.
도 1은 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템을 간략하게 나타낸 블록도이다. 도 2는 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템에 입력되는 마이크로 어레이 데이터를 간략하게 나타낸 블록도이다. 도 3은 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템에서 신경망 모듈에 포함되는 구성을 간략하게 나타낸 블록도이다.1 is a block diagram schematically illustrating a microarray-specific determinant factor extraction system according to an embodiment of the present invention. 2 is a block diagram schematically illustrating microarray data input to a microarray-specific determinant factor extraction system according to an embodiment of the present invention. 3 is a block diagram schematically illustrating a configuration included in a neural network module in a microarray-specific determinant factor extraction system according to an embodiment of the present invention.
본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템(100)은, 입출력 모듈(111)과, 저장 모듈(112)과, 데이터 추출 모듈(121)과, 정규화 모듈(122)과, 인코딩 모듈(130)과, 신경망 모듈(140)과, 디코딩 모듈(150)과, 제 1 손실 값 계산 모듈(161)과, 제 2 손실 값 계산 모듈(162)과, 모델 설계 모듈(170)과, 보정 값 추출 모듈(180)과, 시각화 모듈(190)을 포함할 수 있다.The microarray specific determinant extraction system 100 according to an embodiment of the present invention includes an input/output module 111 , a storage module 112 , a data extraction module 121 , a normalization module 122 , and an encoding A module 130, a neural network module 140, a decoding module 150, a first loss value calculation module 161, a second loss value calculation module 162, a model design module 170, It may include a correction value extraction module 180 and a visualization module 190 .
본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템(100)은, 세균인공염색체(bacterial artificial chromosome, BAC)를 탐침자(probe)로 포함하는 마이크로어레이를 대상으로 처리를 할 수 있다.The microarray specific determinant extraction system 100 according to an embodiment of the present invention can process a microarray including a bacterial artificial chromosome (BAC) as a probe as a target.
입출력 모듈(111)은, 마이크로어레이 특정 결정요인 추출 시스템(100)의 외부에서 제 1 마이크로어레이 데이터(MA1)와 제 2 마이크로어레이 데이터(MA2)를 전송 받을 수 있다.The input/output module 111 may receive the first microarray data MA1 and the second microarray data MA2 from the outside of the microarray specific determinant extraction system 100 .
제 1 마이크로어레이 데이터(MA1)는 훈련 데이터일 수 있으며, 세균인공염색체(BAC) 정보(MA1-B, 이하 “제 1 세균인공염색체 정보”)와, 세균인공염색체(BAC)의 포지티브(positive) 또는 네거티브(negative) 발현 비율 정보(MA1-R, 이하 “제 1 발현 비율 정보”)와, 분류하고자 하는 특성의 클래스 별로 사전에 확률 정보가 정의된 정답 클래스 정보(MA1-C, 이하 “제 1 정답 클래스 정보”)를 포함할 수 있다.The first microarray data MA1 may be training data, and bacterial artificial chromosome (BAC) information (MA1-B, hereinafter “first bacterial artificial chromosome information”) and positive bacterial artificial chromosome (BAC) information. or negative expression ratio information (MA1-R, hereinafter “first expression ratio information”) and correct answer class information (MA1-C, hereinafter “first correct answer class information”).
제 1 세균인공염색체 정보(MA1-B)는, 세균인공염색체 식별자(MA1-Bi)와, 세균인공염색체가 마이크로어레이 상에서 배열된 위치(MA1-Bp)와, 세균인공염색체의 유전자 정보(MA1-Bg)를 포함할 수 있다. 제 1 정답 클래스 정보(MA1-C)는 제 1 발현 비율 정보(MA1-R)에 대응하는 정답 데이터일 수 있다.The first bacterial artificial chromosome information (MA1-B) includes a bacterial artificial chromosome identifier (MA1-Bi), a position at which the bacterial artificial chromosome is arranged on the microarray (MA1-Bp), and genetic information (MA1-Bp) of the bacterial artificial chromosome. Bg) may be included. The first correct answer class information MA1-C may be correct answer data corresponding to the first expression rate information MA1-R.
제 2 마이크로어레이 데이터(MA2)는 검증 데이터 또는 검증 후 사용되는 일반 데이터일 수 있으며, 세균인공염색체(BAC) 정보(MA2-B, 이하 “제 2 세균인공염색체 정보”)와, 세균인공염색체(BAC)의 포지티브(positive) 또는 네거티브(negative) 발현 비율 정보(MA2-R, 이하 “제 2 발현 비율 정보”)와, 분류하고자 하는 특성의 클래스 별로 사전에 확률 정보가 정의된 정답 클래스 정보 (MA2-C, 이하 “제 2 정답 클래스 정보”)를 포함할 수 있다.The second microarray data (MA2) may be verification data or general data used after verification, and includes bacterial artificial chromosome (BAC) information (MA2-B, hereinafter “second bacterial artificial chromosome information”) and bacterial artificial chromosome ( BAC) positive or negative expression ratio information (MA2-R, hereinafter “second expression ratio information”) and correct answer class information in which probability information is defined in advance for each class of the characteristic to be classified (MA2) -C, hereinafter “second correct answer class information”) may be included.
제 2 세균인공염색체 정보(MA2-B)는, 세균인공염색체 식별자(MA2-Bi)와, 세균인공염색체가 마이크로어레이 상에서 배열된 위치(MA2-Bp)와, 세균인공염색체의 유전자 정보(MA2-Bg)를 포함할 수 있다. 제 2 정답 클래스 정보(MA2-C)는 제 2 발현 비율 정보(MA2-R)에 대응하는 정답 데이터일 수 있다.The second bacterial artificial chromosome information (MA2-B) includes a bacterial artificial chromosome identifier (MA2-Bi), a position where the bacterial artificial chromosome is arranged on the microarray (MA2-Bp), and genetic information of the bacterial artificial chromosome (MA2-Bi). Bg) may be included. The second correct answer class information MA2-C may be correct answer data corresponding to the second expression rate information MA2-R.
입출력 모듈(111)은, 마이크로어레이 특정 결정요인 추출 시스템(100)과 개인 통신망(Personal Area Network, PAN), 근거리 통신망(Local Area Network, LAN), 도시권 통신망(Metropolitan Area Network, MAN), 광역 통신망(Wide Area Network, WAN)으로 연결된 다른 컴퓨팅 장치로부터, TCP/IP(Transmission Control Protocol/Internet Protocol), SMB(Server Message Block), CIFS(Common Internet File System), NFS(Network File System) 등의 프로토콜, 또는 다른 컴퓨터 통신 프로토콜을 통해, 제 1 마이크로어레이 데이터(MA1)와 제 2 마이크로어레이 데이터(MA2)를 전송 받을 수 있다.The input/output module 111 is a microarray specific determinant extraction system 100 and a personal area network (PAN), a local area network (LAN), a metropolitan area network (Metropolitan Area Network, MAN), a wide area network Protocols such as Transmission Control Protocol/Internet Protocol (TCP/IP), Server Message Block (SMB), Common Internet File System (CIFS), and Network File System (NFS) from other computing devices connected by a Wide Area Network (WAN). , or through another computer communication protocol, the first microarray data MA1 and the second microarray data MA2 may be transmitted.
입출력 모듈(110)은, 직렬 포트(serial port), 병렬 포트(parallel port), SCSI(Small Computer System Interface), USB(Universal Serial Bus), IEEE 1394, ATA(Advanced Technology Attachment), SATA(Serial Advanced Technology Attachment) 등의 데이터 입출력 단자, 또는 다른 데이터 입출력 단자와 연결된 주변 기기로부터, 제 1 마이크로어레이 데이터(MA1)와 제 2 마이크로어레이 데이터(MA2)를 전송 받을 수도 있다.The input/output module 110 includes a serial port, a parallel port, a Small Computer System Interface (SCSI), a Universal Serial Bus (USB), an IEEE 1394, an Advanced Technology Attachment (ATA), and a Serial Advanced (SATA). The first microarray data MA1 and the second microarray data MA2 may be transmitted from a data input/output terminal such as a technology attachment) or a peripheral device connected to another data input/output terminal.
저장 모듈(112)은, 마이크로어레이 특정 결정요인 추출 시스템(100)에 입력되거나, 마이크로어레이 특정 결정요인 추출 시스템(100)에서 생성한 모든 데이터를 저장할 수 있다.The storage module 112 may store all data input to the microarray-specific determinant factor extraction system 100 or generated by the microarray-specific determinant factor extraction system 100 .
또한 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 시스템(100)이 포함하는 모듈 중, 저장 모듈(112)을 제외한 나머지 모듈은 저장 모듈(112)에 저장된 모든 데이터를 로드(load)하여 사용할 수 있다.In addition, among the modules included in the microarray specific determinant extraction system 100 according to an embodiment of the present invention, the remaining modules except the storage module 112 load all data stored in the storage module 112 and can be used
저장 모듈(112)은 데이터를 저장하기 위해, 기억 장치를 포함할 수 있다. 기억 장치는 하드 디스크 드라이브(hard disk drive), 광학 디스크 드라이브(optical disc drive), 자기 테이프(magnetic tape), 플로피 디스크(floppy disk), 플래시 메모리(flash memory), SSD(Solid State Drive) 등의 비휘발성 메모리 장치이거나, 램(Random Access Memory) 등의 휘발성 메모리 장치일 수 있으며, 이중 어느 것에 한정하지 않고 다른 종류의 기억 장치일 수도 있다.The storage module 112 may include a storage device to store data. Storage devices include hard disk drives, optical disc drives, magnetic tapes, floppy disks, flash memory, solid state drives (SSDs), and the like. It may be a non-volatile memory device or a volatile memory device such as a random access memory (RAM), but is not limited thereto and may be a different type of memory device.
데이터 추출 모듈(121)은, 마이크로어레이 데이터에서, 세균인공염색체(BAC) 별로 발현 비율 정보를 추출할 수 있다.The data extraction module 121 may extract expression ratio information for each bacterial artificial chromosome (BAC) from the microarray data.
데이터 추출 모듈(121)은, 제 1 마이크로어레이 데이터(MA1)에서, 제 1 세균인공염색체 정보(MA1-B)와, 이에 대응하는 제 1 발현 비율 정보(MA1-R)를 추출하여 짝을 지을 수 있다. 예를 들어 데이터 추출 모듈(121)은, 제 1 세균인공염색체 정보(MA1-B)에 포함된 세균인공염색체 식별자(MA1-Bi)와, 제 1 발현 비율 정보(MA1-R)를 추출한 후, 짝을 이루어 제 1 세균인공염색체 발현 비율 데이터(R1)를 생성할 수 있다.The data extraction module 121 extracts the first bacterial artificial chromosome information (MA1-B) and the corresponding first expression ratio information (MA1-R) from the first microarray data (MA1) to be paired. can For example, the data extraction module 121 extracts the bacterial artificial chromosome identifier (MA1-Bi) and the first expression ratio information (MA1-R) included in the first bacterial artificial chromosome information (MA1-B), By pairing, the first bacterial artificial chromosome expression ratio data (R1) can be generated.
데이터 추출 모듈(121)은, 제 2 마이크로어레이 데이터(MA2)에서, 제 2 세균인공염색체 정보(MA2-B)와, 이에 대응하는 제 2 발현 비율 정보(MA2-R)를 추출하여 짝을 지을 수 있다. 예를 들어 데이터 추출 모듈(121)은, 제 2 세균인공염색체 정보(MA2-B)에 포함된 세균인공염색체 식별자(MA2-Bi)와, 제 2 발현 비율 정보(MA2-R)를 짝을 이루어, 제 2 세균인공염색체 발현 비율 데이터(R2)를 생성할 수 있다.The data extraction module 121 extracts the second bacterial artificial chromosome information (MA2-B) and the corresponding second expression ratio information (MA2-R) from the second microarray data (MA2) to be paired. can For example, the data extraction module 121 pairs the bacterial artificial chromosome identifier (MA2-Bi) included in the second bacterial artificial chromosome information (MA2-B) with the second expression ratio information (MA2-R). , the second bacterial artificial chromosome expression ratio data (R2) can be generated.
즉, 데이터 추출 모듈(121)은, 다른 모듈 등이 세균인공염색체(BAC) 별로 발현 비율 정보를 쉽게 획득할 수 있도록, 세균인공염색체 별 발현 비율 데이터를 생성할 수 있다.That is, the data extraction module 121 may generate expression ratio data for each bacterial artificial chromosome so that other modules can easily obtain expression ratio information for each bacterial artificial chromosome (BAC).
정규화 모듈(122)은, 데이터 추출 모듈(121)에서 생성한 세균인공염색체 별 발현 비율 데이터를 대상으로 정규화를 실행할 수 있다.The normalization module 122 may perform normalization on the expression ratio data for each bacterial artificial chromosome generated by the data extraction module 121 .
정규화 모듈(122)은, 제 1 세균인공염색체 발현 비율 데이터(R1)와 제 2 세균인공염색체 발현 비율 데이터(R2)가 각각 연속성을 유지할 수 있도록, 로이스 정규화(Lowess normalization)를 실행할 수 있다.The normalization module 122 may perform Lowess normalization so that the first bacterial artificial chromosome expression ratio data R1 and the second bacterial artificial chromosome expression ratio data R2 can maintain continuity, respectively.
인코딩 모듈(130)은, 세균인공염색체 별 발현 비율 데이터를 신경망 모듈(140)이 처리할 수 있는 데이터 형식으로 변환할 수 있다.The encoding module 130 may convert the expression ratio data for each bacterial artificial chromosome into a data format that the neural network module 140 can process.
인코딩 모듈(130)은, 정규화 모듈(122)이 정규화한 제 1 세균인공염색체 발현 비율 데이터(R1)를, 신경망 모듈(140)에 포함된 입력층의 뉴런에 대응하도록 그 데이터 형식을 변환할 수 있다.The encoding module 130 may convert the data format of the first bacterial artificial chromosome expression ratio data R1 normalized by the normalization module 122 to correspond to the neurons of the input layer included in the neural network module 140 . there is.
인코딩 모듈(130)은, 정규화 모듈(122)이 정규화한 제 2 세균인공염색체 발현 비율 데이터(R2)를, 신경망 모듈(140)에 포함된 입력층의 뉴런에 대응하도록 그 데이터 형식을 변환할 수 있다.The encoding module 130 may convert the data format of the second bacterial artificial chromosome expression ratio data R2 normalized by the normalization module 122 to correspond to the neurons of the input layer included in the neural network module 140 . there is.
신경망 모듈(140)은, 세균인공염색체 별 발현 비율 데이터에 따라 분류하고자 하는 특성의 클래스 정보를 산출할 수 있다.The neural network module 140 may calculate class information of a characteristic to be classified according to the expression ratio data for each bacterial artificial chromosome.
신경망 모듈(140)은, 입력층(141)과, 은닉층(142)과, 출력층(143)을 포함할 수 있다. 신경망 모듈(140)은 은닉층(142)을 하나 이상 포함할 수 있으며, 은닉층(142)은 입력층(141)과 출력층(143) 사이에 위치할 수 있다.The neural network module 140 may include an input layer 141 , a hidden layer 142 , and an output layer 143 . The neural network module 140 may include one or more hidden layers 142 , and the hidden layers 142 may be located between the input layer 141 and the output layer 143 .
입력층(141)은 하나 이상의 뉴런(141n)을 포함할 수 있다. 예를 들어 입력층(141)은 세균인공염색체 식별자(MA1-Bi, MA2-Bi)의 개수 만큼 뉴런을 포함할 수 있다.The input layer 141 may include one or more neurons 141n. For example, the input layer 141 may include as many neurons as the number of bacterial artificial chromosome identifiers (MA1-Bi, MA2-Bi).
신경망 모듈(140)은 입력층(141)의 뉴런(141n)에 각각, 정규화 모듈(122)에서 정규화 된 후 인코딩 모듈(130)에서 데이터 형식이 변환된 제 1 세균인공염색체 발현 비율 데이터(R1) 또는 제 2 세균인공염색체 발현 비율 데이터(R2)를 입력할 수 있다. The neural network module 140 is the first bacterial artificial chromosome expression ratio data R1 in which the data format is converted in the encoding module 130 after being normalized in the normalization module 122, respectively, in the neurons 141n of the input layer 141 Alternatively, the second bacterial artificial chromosome expression ratio data (R2) may be input.
은닉층(142)은 하나 이상의 뉴런(142n)을 포함할 수 있다. 은닉층(141)의 뉴런은 각각, 입력층(141)의 모든 뉴런과 대응할 수 있다. 입력층(141)의 뉴런(141n)과 은닉층(142)의 뉴런(142n) 사이에는, 각각 제 1 가중치(W1)가 관계 정보로 포함될 수 있다.The hidden layer 142 may include one or more neurons 142n. Each neuron of the hidden layer 141 may correspond to all neurons of the input layer 141 . A first weight W1 may be included as relationship information between the neurons 141n of the input layer 141 and the neurons 142n of the hidden layer 142 .
신경망 모듈(140)은 은닉층(142)의 뉴런(142n)에 대응하는 입력층(141)의 각각의 뉴런(141n)의 값과 이들 사이의 제 1 가중치(W1)를 곱한 후, 곱해진 값을 모두 더하여, 은닉층(142)의 뉴런(142n)의 값을 산출할 수 있다.The neural network module 140 multiplies the value of each neuron 141n of the input layer 141 corresponding to the neuron 142n of the hidden layer 142 by a first weight W1 therebetween, and then returns the multiplied value By adding them all together, the value of the neuron 142n of the hidden layer 142 may be calculated.
출력층(143)은 하나 이상의 뉴런(143n)을 포함할 수 있다. 예를 들어 출력층(143)은 분류하고자 하는 특성의 클래스 개수 만큼 뉴런(143n)을 포함할 수 있다.The output layer 143 may include one or more neurons 143n. For example, the output layer 143 may include as many neurons 143n as the number of classes of characteristics to be classified.
출력층(143)의 뉴런(143n)은 각각, 은닉층(142)의 모든 뉴런(142n)과 대응할 수 있다. 은닉층(142)의 뉴런(142n)과 출력층(143)의 뉴런(143n) 사이에는, 각각 제 2 가중치(W2)가 관계 정보로 포함될 수 있다.Each of the neurons 143n of the output layer 143 may correspond to all neurons 142n of the hidden layer 142 . A second weight W2 may be included as relationship information between the neurons 142n of the hidden layer 142 and the neurons 143n of the output layer 143 .
신경망 모듈(140)은 출력층(143)의 뉴런(143n)에 대응하는 은닉층(142)의 각각의 뉴런(142n)의 값과 이들 사이의 제 2 가중치(W2)를 곱한 후, 곱해진 값을 모두 더하여, 출력층(143)의 뉴런(143n)의 값을 산출할 수 있다.The neural network module 140 multiplies the value of each neuron 142n of the hidden layer 142 corresponding to the neuron 143n of the output layer 143 and a second weight W2 therebetween, and then adds all of the multiplied values. In addition, the value of the neuron 143n of the output layer 143 may be calculated.
신경망 모듈(140)은, 제 1 세균인공염색체 발현 비율 데이터(R1) 또는 제 2 세균인공염색체 발현 비율 데이터(R2)가 입력된 후, 분류하고자 하는 특성의 클래스 정보인, 클래스 별 확률을 출력층의 뉴런(143n) 별로 각각 산출할 수 있다.The neural network module 140, after the first bacterial artificial chromosome expression ratio data (R1) or the second bacterial artificial chromosome expression ratio data (R2) is input, the class information of the characteristic to be classified, the probability for each class of the output layer It can be calculated for each neuron 143n.
디코딩 모듈(150)은, 손실 함수의 값을 계산할 수 있도록 출력층의 뉴런(143n)의 값의 데이터 형식을 변환할 수 있다.The decoding module 150 may convert the data format of the value of the neuron 143n of the output layer so as to calculate the value of the loss function.
디코딩 모듈(150)은, 정규화 모듈(122)에서 정규화 된 후 인코딩 모듈(130)에서 데이터 형식이 변환된 제 1 세균인공염색체 발현 비율 데이터(R1)를 신경망 모듈(140)에 입력할 때 산출되는 출력층(143)의 모든 뉴런(143n)의 값을 포함하여, 제 1 분류 클래스 정보(C1)를 생성할 수 있다.The decoding module 150, after being normalized by the normalization module 122, is calculated when inputting the first bacterial artificial chromosome expression ratio data R1 whose data format is converted in the encoding module 130 to the neural network module 140 The first classification class information C1 may be generated including the values of all neurons 143n of the output layer 143 .
디코딩 모듈(150)은, 정규화 모듈(122)에서 정규화 된 후 인코딩 모듈(130)에서 데이터 형식이 변환된 제 2 세균인공염색체 발현 비율 데이터(R2)를 신경망 모듈(140)에 입력할 때 산출되는 출력층(143)의 모든 뉴런(143n)의 값을 포함하여, 제 2 분류 클래스 정보(C2)를 생성할 수 있다.The decoding module 150 is calculated when inputting to the neural network module 140 the second bacterial artificial chromosome expression ratio data R2, which is normalized in the normalization module 122 and then converted in the data format in the encoding module 130 The second classification class information C2 may be generated by including the values of all neurons 143n of the output layer 143 .
제 1 손실 값 계산 모듈(161)과 제 2 손실 값 계산 모듈(162)은 신경망 모듈(140)에서 분류한 클래스 정보와, 정답 클래스 정보를 이용하여 손실 함수의 값을 각각 산출할 수 있다.The first loss value calculation module 161 and the second loss value calculation module 162 may respectively calculate the value of the loss function by using the class information classified by the neural network module 140 and the correct answer class information.
제 1 손실 값 계산 모듈(161)은, 제 1 분류 클래스 정보(C1)와 제 1 마이크로어레이 데이터(MA1)에 포함된 제 1 정답 클래스 정보(MA1-C)를 다음 수학식1에 따른 소프트맥스(softmax) 손실 함수에 입력하여 제 1 손실 값(L1)을 산출할 수 있다.The first loss value calculation module 161 applies the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1 to the softmax according to Equation 1 below. The first loss value L1 may be calculated by inputting the (softmax) loss function.
[수학식1][Equation 1]
Pi=
Figure PCTKR2021014237-appb-img-000001
Pi=
Figure PCTKR2021014237-appb-img-000001
L1=
Figure PCTKR2021014237-appb-img-000002
L1=
Figure PCTKR2021014237-appb-img-000002
수학식1에서 xi 및 xj는 제 1 분류 클래스 정보(C1)를 나타낸다. N은 출력층(143)의 뉴런(143n)의 개수인, 제 1 분류 클래스 정보(C1)의 총 개수를 나타낸다. yi는 제 1 정답 클래스 정보(MA1-C)를 나타낸다.In Equation 1, x i and x j represent the first classification class information C1. N represents the total number of the first classification class information C1, which is the number of neurons 143n in the output layer 143 . yi represents the first correct answer class information MA1-C.
제 1 손실 값 계산 모듈(161)은, 제 2 분류 클래스 정보(C2)와 제 2 마이크로어레이 데이터(MA2)에 포함된 제 2 정답 클래스 정보(MA2-C)를 상기 수학식1에 입력하여 제 1 손실 값(L1)을 산출할 수 있다. 이때 수학식1에서 xi 및 xj는 제 2 분류 클래스 정보(C2)를 나타낸다. N은 출력층(143)의 뉴런(143n)의 개수인, 제 2 분류 클래스 정보(C2)의 총 개수를 나타낸다. yi는 제 2 정답 클래스 정보(MA2-C)를 나타낸다.The first loss value calculation module 161 inputs the second classification class information C2 and the second correct answer class information MA2-C included in the second microarray data MA2 into Equation 1, One loss value L1 can be calculated. At this time, in Equation 1, x i and x j represent the second classification class information (C2). N represents the total number of the second classification class information C2, which is the number of neurons 143n in the output layer 143 . y i represents the second correct answer class information MA2-C.
제 2 손실 값 계산 모듈(162)은, 제 1 분류 클래스 정보(C1)와 제 1 마이크로어레이 데이터(MA1)에 포함된 제 1 정답 클래스 정보(MA1-C)를 다음 수학식2에 따른 평균 제곱근 오차(root mean square error, RMSE) 손실 함수에 입력하여 제 2 손실 값(L2)을 산출할 수 있다.The second loss value calculation module 162 calculates the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1 as a root mean square according to Equation 2 below. The second loss value L2 may be calculated by inputting the root mean square error (RMSE) into the loss function.
[수학식2][Equation 2]
L2 =
Figure PCTKR2021014237-appb-img-000003
L2 =
Figure PCTKR2021014237-appb-img-000003
수학식1에서 xi는 제 1 분류 클래스 정보(C1)를 나타낸다. N은 출력층(143)의 뉴런(143n)의 개수인, 제 1 분류 클래스 정보(C1)의 총 개수를 나타낸다. yi는 제 1 정답 클래스 정보(MA1-C)를 나타낸다.In Equation 1, x i represents the first classification class information (C1). N represents the total number of the first classification class information C1, which is the number of neurons 143n in the output layer 143 . y i represents the first correct answer class information MA1-C.
제 2 손실 값 계산 모듈(162)은, 제 2 분류 클래스 정보(C2)와 제 2 마이크로어레이 데이터(MA2)에 포함된 제 2 정답 클래스 정보(MA2-C)를 상기 수학식2에 입력하여 제 2 손실 값(L2)을 산출할 수 있다. 이때 수학식1에서 _는 제 2 분류 클래스 정보(C2)를 나타낸다. N은 출력층(143)의 뉴런(143n)의 개수인, 제 2 분류 클래스 정보(C2)의 총 개수를 나타낸다. yi는 제 2 정답 클래스 정보(MA2-C)를 나타낸다.The second loss value calculation module 162 inputs the second classification class information (C2) and the second correct answer class information (MA2-C) included in the second microarray data (MA2) into Equation (2), 2 The loss value L2 can be calculated. At this time, in Equation 1, _ represents the second classification class information (C2). N represents the total number of the second classification class information C2, which is the number of neurons 143n in the output layer 143 . yi represents the second correct answer class information MA2-C.
모델 설계 모듈(170)은, 제 1 손실 값(L1)과 제 2 손실 값(L2)을 선형 조합(linear combination)하여 제 3 손실 값(L3)을 산출할 수 있다.The model design module 170 may calculate a third loss value L3 by performing a linear combination of the first loss value L1 and the second loss value L2 .
모델 설계 모듈(170)은, 다음 수학식3에 따른 선형 조합 함수에 제 1 손실 값(L1)과 제 2 손실 값(L2)을 입력하여 제 3 손실 값(L3)을 산출할 수 있다.The model design module 170 may calculate the third loss value L3 by inputting the first loss value L1 and the second loss value L2 to the linear combination function according to Equation 3 below.
[수학식3][Equation 3]
L3 = A1 x L1 + A2 x L2L3 = A 1 x L1 + A 2 x L2
A1과 A2는 선형 조합 함수의 파라미터로서, 제 1 손실 값(L1)과 제 2 손실 값(L2)의 비중에 따라 사전에 결정될 수 있다. 예를 들어 A1과 A2의 합은 1 일 수 있다.A 1 and A 2 are parameters of the linear combination function, and may be determined in advance according to the weights of the first loss value L1 and the second loss value L2. For example, the sum of A 1 and A 2 may be 1.
모델 설계 모듈(170)은 제 3 손실 값(L3)을 역전파(back propagation)하여, 신경망 모듈(140)의 제 1 가중치(W1)와 제 2 가중치(W2)를 갱신할 수 있다.The model design module 170 may back propagate the third loss value L3 to update the first weight W1 and the second weight W2 of the neural network module 140 .
모델 설계 모듈(170)은, 신경망 학습이 끝난 후 입력층(141)의 뉴런(141n)과 은닉층(142)의 뉴런(142n) 사이의 제 1 가중치(W1)를 분석하여, 클래스 분류에 영향을 미치는 마이크로어레이의 세균인공염색체를 검색할 수 있다. 예를 들어 모델 설계 모듈(170)은 입력층(141)의 각각의 뉴런(141n)에 대하여, 은닉층(142)의 각각의 뉴런(142n) 사이의 제 1 가중치(W1)를 더한 후, 합산된 제 1 가중치(W1)가 가장 큰 입력층(141)의 뉴런(141n)을 검색할 수 있다. 그리고 모델 설계 모듈(170)은, 합산된 제 1 가중치(W1)가 가장 큰 입력층(141)의 뉴런(141n)에 대응하는 제 1 세균인공염색체 발현 비율 데이터(R1)의, 세균인공염색체 식별자(MA1-Bi)에 해당하는 세균인공염색체(BAC)를, 분류하고자 하는 특성에 가장 영향을 미치는 결정요인 세균인공염색체(D-BAC)로 판단할 수 있다.The model design module 170 analyzes the first weight W1 between the neurons 141n of the input layer 141 and the neurons 142n of the hidden layer 142 after the neural network learning is finished, thereby affecting class classification. Mitch can search for bacterial artificial chromosomes on microarrays. For example, the model design module 170 adds a first weight W1 between each neuron 142n of the hidden layer 142 with respect to each neuron 141n of the input layer 141, and then the summed A neuron 141n of the input layer 141 having the largest first weight W1 may be searched for. In addition, the model design module 170, the bacterial artificial chromosome identifier of the first bacterial artificial chromosome expression ratio data R1 corresponding to the neurons 141n of the input layer 141 having the largest sum of the first weights W1 The bacterial artificial chromosome (BAC) corresponding to (MA1-Bi) can be determined as the bacterial artificial chromosome (D-BAC), the determinant that most affects the characteristics to be classified.
보정 값 추출 모듈(180)은, 모델 설계 모듈(170)이 클래스 분류에 영향을 미치는 결정요인 세균인공염색체를 검색할 때, 제 1 가중치(W1)를 보정할 수 있다.The correction value extraction module 180 may correct the first weight W1 when the model design module 170 searches for the bacterial artificial chromosome, which is a determining factor affecting class classification.
보정 값 추출 모듈(180)은, 제 1 마이크로어레이 데이터(MA1)의 변화에 따른 입력층(141)의 뉴런(141n)과 은닉층(142)의 뉴런(142n) 사이의 제 1 가중치(W1)의 변화를 분석하여, 제 1 가중치(W1)에 보정 값을 반영할 수 있다.Correction value extraction module 180, the first weight W1 between the neurons 141n of the input layer 141 and the neurons 142n of the hidden layer 142 according to the change of the first microarray data MA1 By analyzing the change, the correction value may be reflected in the first weight W1.
시각화 모듈(190)은, 다른 모듈이 산출한 결과를 시각적으로 표시할 수 있다.The visualization module 190 may visually display results calculated by other modules.
시각화 모듈(190)은, 제 1 세균인공염색체 발현 비율 데이터(R1)에 따른 제 1 분류 클래스 정보(C1) 및 제 2 세균인공염색체 발현 비율 데이터(R2)에 따른 제 2 분류 클래스 정보(C2)를 각각 표시할 수 있다.The visualization module 190 provides first classification class information (C1) according to the first bacterial artificial chromosome expression ratio data (R1) and second classification class information (C2) according to the second bacterial artificial chromosome expression ratio data (R2) can be displayed individually.
또한, 시각화 모듈(190)은 분류하고자 하는 특성에 가장 영향을 미치는 결정요인 세균인공염색체(D-BAC)를 표시할 수 있다.In addition, the visualization module 190 may display the bacterial artificial chromosome (D-BAC), a determinant that most affects the characteristics to be classified.
도 2는 본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 방법을 간략하게 나타낸 순서도이다.2 is a flowchart schematically illustrating a method for extracting a microarray specific determinant according to an embodiment of the present invention.
본 발명의 일 실시 예에 따른 마이크로어레이 특정 결정요인 추출 방법(S1 ~ S10) 중 제 1 단계(S1)는, 데이터 추출 모듈(121)이 마이크로어레이 데이터에서, 세균인공염색체(BAC) 별로 발현 비율 정보를 추출하는 단계이다.In the first step (S1) of the microarray-specific determinant extraction method (S1 to S10) according to an embodiment of the present invention, the data extraction module 121 performs the expression ratio for each bacterial artificial chromosome (BAC) in the microarray data. This is the step of extracting information.
데이터 추출 모듈(121)은 제 1 마이크로어레이 데이터(MA1)에서, 하나 이상의 제 1 세균인공염색체 정보(MA1-B)와, 이에 대응하는 제 1 발현 비율 정보(MA1-R)를 추출하여 짝을 지을 수 있다.The data extraction module 121 extracts one or more first bacterial artificial chromosome information (MA1-B) and the corresponding first expression ratio information (MA1-R) from the first microarray data (MA1) to make a pair can be built
예를 들어 데이터 추출 모듈(121)은, 제 1 세균인공염색체 정보(MA1-B)에 포함된 세균인공염색체 식별자(MA1-Bi)와, 제 1 발현 비율 정보(MA1-R)를 추출한 후, 짝을 이루어 제 1 세균인공염색체 발현 비율 데이터(R1)를 생성할 수 있다. For example, the data extraction module 121 extracts the bacterial artificial chromosome identifier (MA1-Bi) and the first expression ratio information (MA1-R) included in the first bacterial artificial chromosome information (MA1-B), By pairing, the first bacterial artificial chromosome expression ratio data (R1) can be generated.
제 2 단계(S2)는, 정규화 모듈(122)이 데이터 추출 모듈(121)에서 생성한 세균인공염색체 별 발현 비율 데이터를 대상으로 정규화를 실행하는 단계이다.The second step ( S2 ) is a step in which the normalization module 122 performs normalization on the expression ratio data for each bacterial artificial chromosome generated by the data extraction module 121 .
정규화 모듈(122)은, 제 1 세균인공염색체 발현 비율 데이터(R1)가 연속성을 유지할 수 있도록, 로이스 정규화(Lowess normalization)를 실행할 수 있다.The normalization module 122 may perform Lowess normalization so that the first bacterial artificial chromosome expression ratio data R1 can maintain continuity.
제 3 단계(S3)는, 인코딩 모듈(130)이 세균인공염색체 별 발현 비율 데이터를 신경망 모듈(140)이 처리할 수 있는 데이터 형식으로 변환하는 단계이다.The third step (S3) is a step in which the encoding module 130 converts the expression ratio data for each bacterial artificial chromosome into a data format that the neural network module 140 can process.
인코딩 모듈(130)은, 정규화 모듈(122)이 정규화한 제 1 세균인공염색체 발현 비율 데이터(R1)를, 신경망 모듈(140)에 포함된 입력층(141)의 뉴런(141n)에 대응하도록 그 데이터 형식을 변환할 수 있다.The encoding module 130 converts the first bacterial artificial chromosome expression ratio data R1 normalized by the normalization module 122 to correspond to the neurons 141n of the input layer 141 included in the neural network module 140 . You can convert data types.
제 4 단계(S4)는, 신경망 모듈(140)이 분류하고자 하는 특성의 클래스 별로 값을 산출하는 단계이다.The fourth step S4 is a step in which the neural network module 140 calculates a value for each class of the characteristic to be classified.
신경망 모듈(140)은, 은닉층(142)의 뉴런(142n)과 입력층(141)의 뉴런(141n) 사이의 제 1 가중치(W1)와, 출력층(143)의 뉴런(143n)과 은닉층(142)의 뉴런(142n) 사이의 제 2 가중치(W2)를, 무작위로 초기화할 수 있다.The neural network module 140 includes a first weight W1 between the neurons 142n of the hidden layer 142 and the neurons 141n of the input layer 141 , and the neurons 143n and the hidden layer 142 of the output layer 143 . ), the second weight W2 between the neurons 142n may be randomly initialized.
신경망 모듈(140)은, 입력층(141)의 뉴런(141n)에 각각, 제 1 세균인공염색체 발현 비율 데이터(R1)를 입력할 수 있다.The neural network module 140 may input the first bacterial artificial chromosome expression ratio data R1 to the neurons 141n of the input layer 141 , respectively.
신경망 모듈(140)은 은닉층(142)의 뉴런(142n)에 대응하는 입력층(141)의 각각의 뉴런(141n)의 값과 이들 사이의 제 1 가중치(W1)를 곱한 후, 곱해진 값을 모두 더하여, 은닉층(142)의 뉴런(142n)의 값을 산출할 수 있다.The neural network module 140 multiplies the value of each neuron 141n of the input layer 141 corresponding to the neuron 142n of the hidden layer 142 by a first weight W1 therebetween, and then returns the multiplied value By adding them all together, the value of the neuron 142n of the hidden layer 142 may be calculated.
신경망 모듈(140)은 출력층(143)의 뉴런(143n)에 대응하는 은닉층(142)의 각각의 뉴런(142n)의 값과 이들 사이의 제 2 가중치(W2)를 곱한 후, 곱해진 값을 모두 더하여, 출력층(143)의 뉴런(143n)의 값을 산출할 수 있다.The neural network module 140 multiplies the value of each neuron 142n of the hidden layer 142 corresponding to the neuron 143n of the output layer 143 and a second weight W2 therebetween, and then adds all of the multiplied values. In addition, the value of the neuron 143n of the output layer 143 may be calculated.
출력층(143)의 뉴런(143n) 값은 각각, 분류하고자 하는 특성의 클래스 정보인 클래스 확률일 수 있다.Each value of the neuron 143n of the output layer 143 may be a class probability, which is class information of a characteristic to be classified.
제 5 단계(S5)는, 디코딩 모듈(150)이 출력층(143)의 뉴런(143n)의 값의 데이터 형식을 변환하는 단계이다.A fifth step ( S5 ) is a step in which the decoding module 150 converts the data format of the value of the neuron 143n of the output layer 143 .
디코딩 모듈(150)은, 출력층(143)의 모든 뉴런의 값을 포함하여 제 1 분류 클래스 정보(C1)를 생성할 수 있다.The decoding module 150 may generate the first classification class information C1 including values of all neurons of the output layer 143 .
제 6 단계(S6)는, 제 1 손실 값 계산 모듈(161)이 제 1 손실 값(L1)을 산출하는 단계이다.The sixth step S6 is a step in which the first loss value calculation module 161 calculates the first loss value L1.
제 1 손실 값 계산 모듈(161)은, 제 1 분류 클래스 정보(C1)와 제 1 마이크로어레이 데이터(MA1)에 포함된 제 1 정답 클래스 정보(MA1-C)를 수학식1의 소프트맥스(softmax) 손실 함수에 입력하여 제 1 손실 값(L1)을 산출할 수 있다.The first loss value calculation module 161 converts the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1 to the softmax of Equation 1 ) can be input to the loss function to calculate the first loss value L1.
제 7 단계(S7)는, 제 2 손실 값 계산 모듈(162)이 제 2 손실 값(L2)을 산출하는 단계이다.The seventh step S7 is a step in which the second loss value calculation module 162 calculates the second loss value L2.
제 2 손실 값 계산 모듈(162)은, 제 1 분류 클래스 정보(C1)와 제 1 마이크로어레이 데이터(MA1)에 포함된 제 1 정답 클래스 정보(MA1-C)를 수학식2의 평균 제곱근 오차(RMSE) 손실 함수에 입력하여 제 2 손실 값(L2)을 산출할 수 있다.The second loss value calculation module 162 calculates the root mean square error of Equation 2 based on the first classification class information C1 and the first correct answer class information MA1-C included in the first microarray data MA1. RMSE) may be input to the loss function to calculate the second loss value L2.
제 8 단계(S8)는, 모델 설계 모듈(170)이 제 3 손실 값(L3)을 산출하는 단계이다.The eighth step S8 is a step in which the model design module 170 calculates the third loss value L3.
모델 설계 모듈(170)은, 수학식3의 선형 조합 함수에 제 1 손실 값(L1)과 제 2 손실 값(L2)을 입력하여 제 3 손실 값(L3)을 산출할 수 있다.The model design module 170 may input the first loss value L1 and the second loss value L2 to the linear combination function of Equation 3 to calculate the third loss value L3.
제 9 단계(S9)는, 모델 설계 모듈(170)이 신경망 모듈(140)의 제 1 가중치(W1)와 제 2 가중치(W2)를 갱신하는 단계이다.The ninth step S9 is a step in which the model design module 170 updates the first weight W1 and the second weight W2 of the neural network module 140 .
모델 설계 모듈(170)은 제 3 손실 값(L3)을 역전파(back propagation)하여, 신경망 모듈(140)의 제 1 가중치(W1)와 제 2 가중치(W2)를 갱신할 수 있다.The model design module 170 may back propagate the third loss value L3 to update the first weight W1 and the second weight W2 of the neural network module 140 .
제 9 단계(S9) 후, 제 3 손실 값(L3)이 수렴하게 되면 제 10 단계(S10)를 진행할 수 있다. 제 3 손실 값(L3)이 수렴하지 않으면, 제 4 단계(S4) 내지 제 9 단계(S9)를 반복하여 실행할 수 있다.After the ninth step (S9), when the third loss value L3 converges, the tenth step (S10) may be performed. If the third loss value L3 does not converge, the fourth step S4 to the ninth step S9 may be repeatedly executed.
제 10 단계(S10)는, 모델 설계 모듈(170)이 클래스 분류에 영향을 미치는 마이크로어레이의 세균인공염색체를 검색할 수 있다.In the tenth step ( S10 ), the model design module 170 may search for bacterial artificial chromosomes in the microarray that affect class classification.
모델 설계 모듈(170)은 입력층(141)의 각각의 뉴런에 대하여, 은닉층(142)의 각각의 뉴런 사이의 제 1 가중치(W1)를 더한 후, 합산된 제 1 가중치(W1)가 가장 큰 입력층(141)의 뉴런(141n)을 검색할 수 있다.The model design module 170 adds a first weight W1 between each neuron of the hidden layer 142 with respect to each neuron of the input layer 141, and then the summed first weight W1 has the largest value. A neuron 141n of the input layer 141 may be searched for.
모델 설계 모듈(170)은, 합산된 제 1 가중치(W1)가 가장 큰 입력층(141)의 뉴런(141n)에 대응하는 제 1 세균인공염색체 발현 비율 데이터(R1)의 세균인공염색체 식별자(MA1-Bi)를 검색하여, 분류하고자 하는 특성에 가장 영향을 미치는 결정요인 세균인공염색체(D-BAC)로 판단할 수 있다.The model design module 170 is configured to configure the bacterial artificial chromosome identifier MA1 of the first bacterial artificial chromosome expression ratio data R1 corresponding to the neurons 141n of the input layer 141 having the largest sum first weight W1. -Bi), it can be determined as the bacterial artificial chromosome (D-BAC), the determinant that most affects the characteristics to be classified.
이상을 통해 본 발명의 실시 예에 대하여 설명하였지만, 본 발명은 상기 실시 예에 한정되지 않고, 본 발명의 취지를 벗어나지 않고 효과를 저해하지 않는 한, 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 다양하게 변경하여 실시할 수 있다. 또한 그러한 실시 예가 본 발명의 범위에 속하는 것은 당연하다.Although the embodiment of the present invention has been described above, the present invention is not limited to the above embodiment, and as long as it does not deviate from the spirit of the present invention and does not impair the effect, it may vary within the scope of the detailed description and accompanying drawings of the present invention. It can be changed and implemented. It is also natural that such an embodiment falls within the scope of the present invention.

Claims (12)

  1. 제 1 마이크로어레이 데이터에서 세균인공염색체 별로 발현 비율 정보를 추출하여 제 1 세균인공염색체 발현 비율 데이터를 생성하는 데이터 추출 모듈과;a data extraction module for generating first bacterial artificial chromosome expression ratio data by extracting expression ratio information for each bacterial artificial chromosome from the first microarray data;
    상기 제 1 세균인공염색체 발현 비율 데이터에 대해 로이스 정규화를 실행하는 정규화 모듈과;a normalization module for performing Royce normalization on the first bacterial artificial chromosome expression ratio data;
    입력층과, 은닉층과, 출력층을 포함하고, 상기 제 1 세균인공염색체 발현 비율 데이터를 입력 받아 분류하고자 하는 특성의 클래스 정보를 산출하는 신경망 모듈과;a neural network module comprising an input layer, a hidden layer, and an output layer, receiving the first bacterial artificial chromosome expression ratio data and calculating class information of a characteristic to be classified;
    상기 신경망 모듈의 상기 출력층의 뉴런의 값을 포함하여 제 1 분류 클래스 정보를 생성하는 디코딩 모듈과;a decoding module for generating first classification class information including values of neurons of the output layer of the neural network module;
    제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 소프트맥스 손실 함수에 입력하여 제 1 손실 값을 산출하는 제 1 손실 값 계산 모듈과;a first loss value calculation module for calculating a first loss value by inputting first correct answer class information and the first classification class information into a softmax loss function;
    상기 제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 평균 제곱근 오차 손실 함수에 입력하여 제 2 손실 값을 산출하는 제 2 손실 값 계산 모듈과;a second loss value calculation module for calculating a second loss value by inputting the first correct answer class information and the first classification class information into a root mean square error loss function;
    상기 제 1 손실 값과, 상기 제 2 손실 값을 선형 조합 함수에 입력하여 제 3 손실 값을 산출하는 모델 설계 모듈A model design module for calculating a third loss value by inputting the first loss value and the second loss value into a linear combination function
    을 포함하는 마이크로어레이 특정 결정요인 추출 시스템.A microarray specific determinant extraction system comprising a.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 제 1 마이크로어레이 데이터는,The first microarray data is
    제 1 세균인공염색체 정보와;first bacterial artificial chromosome information;
    세균인공염색체의 포지티브(positive) 또는 네거티브(negative) 발현 비율 정보인 제 1 발현 비율 정보와;First expression rate information, which is positive or negative expression rate information of the bacterial artificial chromosome;
    분류하고자 하는 특성의 클래스 별로 확률 정보가 정의된 상기 제 1 정답 클래스 정보The first correct answer class information in which probability information is defined for each class of the characteristic to be classified
    를 포함하는 마이크로어레이 특정 결정요인 추출 시스템.A microarray specific determinant extraction system comprising a.
  3. 제 2 항에 있어서,3. The method of claim 2,
    상기 제 1 세균인공염색체 정보는,The first bacterial artificial chromosome information,
    세균인공염색체 식별자와;a bacterial artificial chromosome identifier;
    세균인공염색체가 마이크로어레이 상에서 배열된 위치;a position where the bacterial artificial chromosomes are arranged on the microarray;
    세균인공염색체의 유전자 정보Genetic information of bacterial artificial chromosomes
    를 포함하는 마이크로어레이 특정 결정요인 추출 시스템.A microarray specific determinant extraction system comprising a.
  4. 제 3 항에 있어서,4. The method of claim 3,
    상기 데이터 추출 모듈은,The data extraction module,
    상기 제 1 마이크로어레이 데이터에서, 상기 제 1 세균인공염색체 정보의 상기 세균인공염색체 식별자와, 상기 제 1 발현 비율 정보를 추출한 후, 짝을 이루어 상기 제 1 세균인공염색체 발현 비율 데이터를 생성하는In the first microarray data, the bacterial artificial chromosome identifier of the first bacterial artificial chromosome information and the first expression ratio information are extracted, and then paired to generate the first bacterial artificial chromosome expression ratio data
    마이크로어레이 특정 결정요인 추출 시스템.Microarray specific determinant extraction system.
  5. 제 4 항에 있어서,5. The method of claim 4,
    상기 신경망 모듈의 상기 입력층과, 상기 은닉층과, 상기 출력층은 각각 하나 이상의 뉴런을 포함하고,The input layer, the hidden layer, and the output layer of the neural network module each include one or more neurons,
    상기 신경망 모듈은,The neural network module is
    상기 입력층의 각각의 뉴런과 상기 은닉층의 각각의 뉴런 사이의 관계 정보인 제 1 가중치와;a first weight, which is relationship information between each neuron of the input layer and each neuron of the hidden layer;
    상기 은닉층의 각각의 뉴런과 상기 출력층의 각각의 뉴런 사이의 관계 정보인 제 2 가중치A second weight that is relationship information between each neuron of the hidden layer and each neuron of the output layer
    를 포함하는 마이크로어레이 특정 결정요인 추출 시스템.A microarray specific determinant extraction system comprising a.
  6. 제 5 항에 있어서,6. The method of claim 5,
    상기 신경망 모듈의 상기 입력층은, 상기 제 1 세균인공염색체 정보의 상기 세균인공염색체 식별자의 개수 만큼 뉴런을 포함하는 마이크로어레이 특정 결정요인 추출 시스템.The input layer of the neural network module includes neurons as many as the number of bacterial artificial chromosome identifiers in the first bacterial artificial chromosome information.
  7. 제 6 항에 있어서,7. The method of claim 6,
    상기 제 1 세균인공염색체 발현 비율 데이터가 상기 신경망 모듈의 상기 입력층의 뉴런에 대응하도록, 데이터 형식을 변환하는 인코딩 모듈을 더 포함하는 마이크로어레이 특정 결정요인 추출 시스템.The microarray specific determinant extraction system further comprising an encoding module for converting a data format so that the first bacterial artificial chromosome expression ratio data corresponds to the neurons of the input layer of the neural network module.
  8. 제 7 항에 있어서,8. The method of claim 7,
    상기 모델 설계 모듈은,The model design module,
    상기 제 3 손실 값을 역전파하여 상기 제 1 가중치와 상기 제 2 가중치를 갱신하는 마이크로어레이 특정 결정요인 추출 시스템.A microarray-specific determinant extraction system for updating the first weight and the second weight by backpropagating the third loss value.
  9. 제 8 항에 있어서,9. The method of claim 8,
    상기 모델 설계 모듈은,The model design module,
    상기 신경망 모듈의 상기 입력층의 뉴런 중, 상기 신경망 모듈의 상기 은닉층의 뉴런 사이의 제 1 가중치의 합이 가장 큰 상기 신경망 모듈의 상기 입력층의 뉴런을 검색한 후,After searching for a neuron in the input layer of the neural network module, the sum of first weights between neurons in the hidden layer of the neural network module is the largest among neurons in the input layer of the neural network module,
    검색된 상기 신경망 모듈의 상기 입력층의 뉴런에 대응하는 상기 제 1 세균인공염색체 발현 비율 데이터의, 상기 세균인공염색체 식별자에 해당하는 세균인공염색체를, 결정요인 세균인공염색체로 판단하는 마이크로어레이 특정 결정요인 추출 시스템.A microarray specific determinant for determining the bacterial artificial chromosome corresponding to the bacterial artificial chromosome identifier of the first bacterial artificial chromosome expression ratio data corresponding to the neurons of the input layer of the neural network module searched as the determinant bacterial artificial chromosome extraction system.
  10. 제 9 항에 있어서,10. The method of claim 9,
    상기 제 1 마이크로어레이 데이터의 변화에 따른 상기 제 1 가중치의 변화를 분석하여, 상기 제 1 가중치를 보정하는 보정 값 추출 모듈을 더 포함하는 마이크로어레이 특정 결정요인 추출 시스템.and a correction value extraction module configured to correct the first weight by analyzing a change in the first weight according to the change in the first microarray data.
  11. 제 10 항에 있어서,11. The method of claim 10,
    상기 제 1 분류 클래스 정보와 상기 결정요인 세균인공염색체를 시각적으로 표시하는 시각화 모듈을 더 포함하는 마이크로어레이 특정 결정요인 추출 시스템.The microarray specific determinant extraction system further comprising a visualization module for visually displaying the first classification class information and the determinant bacterial artificial chromosome.
  12. 마이크로어레이 특정 결정요인 추출 시스템에 있어서,In the microarray specific determinant extraction system,
    (S1) 데이터 추출 모듈이, 제 1 마이크로어레이 데이터에서 세균인공염색체 별로 발현 비율 정보를 추출하여 제 1 세균인공염색체 발현 비율 데이터를 생성하는 단계와;(S1) generating, by the data extraction module, first bacterial artificial chromosome expression ratio data by extracting expression ratio information for each bacterial artificial chromosome from the first microarray data;
    (S2) 정규화 모듈이, 상기 제 1 세균인공염색체 발현 비율 데이터에 대해 로이스 정규화를 실행하는 단계와;(S2) performing, by the normalization module, Royce normalization on the first bacterial artificial chromosome expression ratio data;
    (S3) 인코딩 모듈이, 상기 제 1 세균인공염색체 발현 비율 데이터가 신경망 모듈의 입력층의 뉴런에 대응하도록, 데이터 형식을 변환하는 단계와;(S3) converting, by the encoding module, the data format so that the first bacterial artificial chromosome expression ratio data corresponds to the neurons of the input layer of the neural network module;
    (S4) 상기 신경망 모듈이, 상기 제 1 세균인공염색체 발현 비율 데이터를 입력 받아, 출력층의 뉴런 별로 분류하고자 하는 특성의 클래스 정보를 산출하는 단계와;(S4) receiving, by the neural network module, the expression rate data of the first bacterial artificial chromosome, and calculating class information of a characteristic to be classified for each neuron of an output layer;
    (S5) 디코딩 모듈이, 상기 신경망 모듈의 출력층의 뉴런의 값을 포함하여 제 1 분류 클래스 정보를 생성하는 단계와;(S5) generating, by a decoding module, first classification class information including values of neurons in an output layer of the neural network module;
    (S6) 제 1 손실 값 계산 모듈이, 제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 소프트맥스 손실 함수에 입력하여 제 1 손실 값을 산출하는 단계와;(S6) calculating, by the first loss value calculation module, the first correct answer class information and the first classification class information into a softmax loss function to calculate a first loss value;
    (S7) 제 2 손실 값 계산 모듈이, 상기 제 1 정답 클래스 정보와, 상기 제 1 분류 클래스 정보를 평균 제곱근 오차 손실 함수에 입력하여 제 2 손실 값을 산출하는 단계와;(S7) calculating, by a second loss value calculation module, the first correct answer class information and the first classification class information into a root mean square error loss function to calculate a second loss value;
    (S8) 모델 설계 모듈이, 상기 제 1 손실 값과 상기 제 2 손실 값을 선형 조합 함수에 입력하여 제 3 손실 값을 산출하는 단계와;(S8) calculating, by the model design module, a third loss value by inputting the first loss value and the second loss value into a linear combination function;
    (S9) 상기 모델 설계 모듈이, 상기 제 3 손실 값을 역전파하여, 상기 신경망 모듈의 상기 입력층의 각각의 뉴런과 은닉층의 각각의 뉴런 사이의 관계 정보인 제 1 가중치와, 상기 신경망 모듈의 상기 은닉층의 각각의 뉴런과 상기 출력층의 각각의 뉴런 사이의 관계 정보인 제 2 가중치를 갱신하는 단계와;(S9) the model design module backpropagates the third loss value, and the first weight, which is relationship information between each neuron of the input layer of the neural network module and each neuron of the hidden layer, of the neural network module; updating a second weight, which is relationship information between each neuron of the hidden layer and each neuron of the output layer;
    (S10) 상기 모델 설계 모듈이, 상기 신경망 모듈의 상기 입력층의 뉴런 중, 상기 신경망 모듈의 상기 은닉층의 뉴런 사이의 제 1 가중치의 합이 가장 큰 상기 입력층의 뉴런을 검색한 후,(S10) After the model design module searches for a neuron in the input layer with the largest sum of first weights among neurons in the hidden layer of the neural network module among neurons in the input layer of the neural network module,
    검색된 상기 신경망 모듈의 상기 입력층의 뉴런에 대응하는 상기 제 1 세균인공염색체 발현 비율 데이터의 상기 세균인공염색체 식별자에 해당하는 세균인공염색체를, 결정요인 세균인공염색체로 판단하는 단계Determining the bacterial artificial chromosome corresponding to the bacterial artificial chromosome identifier of the first bacterial artificial chromosome expression ratio data corresponding to the neurons of the input layer of the searched neural network module as a determining factor bacterial artificial chromosome
    를 포함하고, 상기 제 3 손실 값이 수렴할 때까지 상기 (S4) 단계 내지 상기 (S9) 단계를 반복하여 실행하는 마이크로어레이 특정 결정요인 추출 방법.and repeating the steps (S4) to (S9) until the third loss value converges.
PCT/KR2021/014237 2020-10-19 2021-10-14 Artificial intelligence-based microarray specific determinant extraction system WO2022086053A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20200135474 2020-10-19
KR10-2020-0135474 2020-10-19
KR10-2021-0136583 2021-10-14
KR1020210136583A KR20220052279A (en) 2020-10-19 2021-10-14 Microarray specific determinant extraction system based on artificial intelligence

Publications (1)

Publication Number Publication Date
WO2022086053A1 true WO2022086053A1 (en) 2022-04-28

Family

ID=81290807

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/014237 WO2022086053A1 (en) 2020-10-19 2021-10-14 Artificial intelligence-based microarray specific determinant extraction system

Country Status (1)

Country Link
WO (1) WO2022086053A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (en) * 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 A protocol for searching classifier gene set from microarray dataset
KR20140065694A (en) * 2012-11-20 2014-05-30 가천대학교 산학협력단 Integrated system of microarray data and method thereof
JP2020009402A (en) * 2018-07-06 2020-01-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited Method and system for automatic chromosome classification
KR20200083921A (en) * 2018-12-28 2020-07-09 주식회사 마이지놈박스 Apparatus for analyzing genes based on neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (en) * 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 A protocol for searching classifier gene set from microarray dataset
KR20140065694A (en) * 2012-11-20 2014-05-30 가천대학교 산학협력단 Integrated system of microarray data and method thereof
JP2020009402A (en) * 2018-07-06 2020-01-16 タタ コンサルタンシー サービシズ リミテッドTATA Consultancy Services Limited Method and system for automatic chromosome classification
KR20200083921A (en) * 2018-12-28 2020-07-09 주식회사 마이지놈박스 Apparatus for analyzing genes based on neural network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUJJAVARAPU SATYA ESWARI, DESHMUKH SAURABH: "Artificial Neural Network as a Classifier for the Identification of Hepatocellular Carcinoma Through Prognosticgene Signatures", CURRENT GENOMICS, BENTHAM SCIENCE PUBLISHERS LTD., NL, vol. 19, no. 6, 2 July 2018 (2018-07-02), NL , pages 483 - 490, XP055924681, ISSN: 1389-2029, DOI: 10.2174/1389202919666180215155234 *

Similar Documents

Publication Publication Date Title
WO2018106005A1 (en) System for diagnosing disease using neural network and method therefor
WO2022034983A1 (en) Battery cell defectiveness and fire early diagnosis method and apparatus based on neural network
WO2019235828A1 (en) Two-face disease diagnosis system and method thereof
WO2021149913A1 (en) Method and device for selecting disease-related gene in ngs analysis
WO2014183270A1 (en) Method for detecting chromosomal structural abnormalities and device therefor
WO2013065944A1 (en) Method for sequence recombination and apparatus for ngs
WO2019093675A1 (en) Data merging device and method for big data analysis
WO2018212396A1 (en) Method, device and computer program for analyzing data
WO2022145877A1 (en) System for automatically issuing periodically updated genetic mutation test result report
WO2022059886A1 (en) System for predicting pathogenicity of genetic mutation by using machine learning
WO2022103134A1 (en) Integrated disease diagnosis system and operation method
WO2022086053A1 (en) Artificial intelligence-based microarray specific determinant extraction system
WO2015126058A1 (en) Method for predicting prognosis of cancer
WO2012144685A1 (en) Method and device for visualizing development of technology
WO2023158253A1 (en) Genetic variation analysis method based on nucleic acid sequencing
WO2012144683A1 (en) Method and device for assessing promising stage using promising technology life cycle
WO2020184782A1 (en) Multi-cancer classification method using common gene extraction
WO2019117400A1 (en) Gene network construction apparatus and method
WO2023153863A1 (en) Online-based test and evaluation system
WO2023022406A1 (en) Learning ability evaluation method, learning ability evaluation device, and learning ability evaluation system
WO2021080043A1 (en) Somatic mutation detection device and method, having reduced sequencing platform-specific errors
WO2020032561A2 (en) Disease diagnosis system and method using multiple color models and neural network
WO2019107840A1 (en) Device and method for detecting fraudulent insurance claim on basis of artificial intelligence
WO2012030049A2 (en) Apparatus and method for classifying similar documents by applying a dynamic threshold value
WO2022050624A1 (en) System for analyzing and evaluating gut microbiome and evaluation method therefor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21883124

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21883124

Country of ref document: EP

Kind code of ref document: A1