WO2021075826A1 - 생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치 - Google Patents

생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치 Download PDF

Info

Publication number
WO2021075826A1
WO2021075826A1 PCT/KR2020/013944 KR2020013944W WO2021075826A1 WO 2021075826 A1 WO2021075826 A1 WO 2021075826A1 KR 2020013944 W KR2020013944 W KR 2020013944W WO 2021075826 A1 WO2021075826 A1 WO 2021075826A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
value
disease
learning
values
Prior art date
Application number
PCT/KR2020/013944
Other languages
English (en)
French (fr)
Inventor
송재우
이주범
Original Assignee
연세대학교 산학협력단
주식회사 아이티메딕
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단, 주식회사 아이티메딕 filed Critical 연세대학교 산학협력단
Publication of WO2021075826A1 publication Critical patent/WO2021075826A1/ko
Priority to US17/509,779 priority Critical patent/US20220044765A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • G01N15/1429Signal processing
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/145Measuring characteristics of blood in vivo, e.g. gas concentration, pH value; Measuring characteristics of body fluids or tissues, e.g. interstitial fluid, cerebral tissue
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/01Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials specially adapted for biological cells, e.g. blood cells
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N2015/1006Investigating individual particles for cytology
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/49Blood
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to a method and apparatus for diagnosing a disease by preprocessing biometric data.
  • FCS Flow Cytometry Standard
  • CBC Complete Blood Count
  • Flow cytometry, image cytometric analysis, and general such as flow cytometry, which quantify and classify the number of cells and optical/biological properties of each cell by separating particles, hereinafter, described as cells) one by one, and detecting them in an optical method or a similar method. It refers to a kind of biomarker data that uses the results of cell analysis to which the analysis method is applied as content. These data can be used as a good index to find associations with various disease groups.
  • the FCS data analysis method is as shown in FIG. 1, in which cells (clusters) to be analyzed are finely selected/separated based on the analyst's academic knowledge, and the selected cells are counted or measured optical properties (e.g. : Consists of extracting light scattering intensity, fluorescence emission) and related biological properties (eg size, structure, antigen phenotype).
  • optical properties e.g. : Consists of extracting light scattering intensity, fluorescence emission
  • related biological properties eg size, structure, antigen phenotype
  • FCS data Algorithms for reproducing this analysis process in an automated analysis method or for directly separating a cluster to be analyzed through cluster analysis from raw FCS data are being studied.
  • the present invention converts FCS (Flow Cytometry Standard) data, which is one of the clinical information generated in the process of observing diseases and follow-up of diagnosed subjects, into FCS data to enable visual recognition machine learning, which is the most active research and development in the field of artificial intelligence.
  • FCS Flow Cytometry Standard
  • a method of diagnosing a disease by preprocessing biometric data which converts into a shape in a cube, finds indexed patterns related to various diseases through machine learning conducted based on the converted data, diagnoses a specific disease to be diagnosed, and preprocesses biometric data.
  • the main purpose is to provide a device for this.
  • the computing device A data acquisition step of acquiring bio-extraction data extracted from the blood of the diagnosis target or a biological sample equivalent thereto; A data pre-processing step of transforming initial data generated based on a plurality of parameters included in the biometric extraction data into coordinate values for each of a plurality of channels, and reconstructing the transformed data into learning data; A data learning step of extracting a feature value from the reconstructed training data, classifying the feature value, and performing learning; And performing a disease diagnosis step of diagnosing a specific disease using the learned feature value.
  • a data acquisition step of acquiring data A data pre-processing step of transforming initial data generated based on a plurality of parameters included in the biometric extraction data into coordinate values for each of a plurality of channels, and reconstructing the transformed data into learning data; A data learning step of extracting a feature value from the reconstructed training data, classifying the feature value, and performing learning; And a disease diagnosis step of diagnosing a specific disease using the learned feature value.
  • the present invention facilitates the development of a FCS data machine learning model for clinical prediction, thereby enabling contextual and integrated interpretation of the results of automatic blood analysis and flow cytometric analysis, away from the conventional disease diagnosis method based on fragmentary numerical comparison. It has the effect of enabling more accurate disease diagnosis and understanding of the clinical situation through this.
  • an abnormality of a patient not recognized by a doctor can be detected early, thereby enabling rapid diagnosis or patient identification.
  • the present invention has the effect of contributing to increase the efficiency of distribution of medical resources by enabling tracking of disease progression and changes in patient status through an automatic blood analysis test, which is cheaper than a disease-specific test.
  • the present invention has the effect of facilitating the development of a new algorithm that automates the reading of the existing flow cytometry test results that depend on the analyst's manual work, thereby facilitating biological and medical research.
  • the present invention has the effect of developing a new field of medical machine learning through the FCS data conversion method (pre-processing method).
  • 1 is an exemplary diagram for explaining a conventional analysis operation of biometric extraction data.
  • FIG. 2 is a block diagram schematically illustrating an apparatus for diagnosing a disease based on biometric extraction data according to an embodiment of the present invention.
  • FIG. 3 is a block diagram schematically illustrating an operation configuration of a processor in a disease diagnosis apparatus according to an embodiment of the present invention.
  • FIG. 4 is a flowchart illustrating a method for diagnosing a disease based on biometric extraction data according to an embodiment of the present invention.
  • FIG. 5 is an exemplary diagram for explaining an operation of diagnosing a disease using patient information and biometric data extracted according to an embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating an operation of diagnosing a disease using a neural network according to an embodiment of the present invention.
  • FIG. 7 is an exemplary diagram illustrating an operation process of a diagnostic device in a computer according to an embodiment of the present invention.
  • FIG. 8 is an exemplary diagram for explaining an operation of generating initial data based on biometric extraction data according to an embodiment of the present invention.
  • 9A and 9B are exemplary diagrams showing initial data of each of a plurality of channels according to an embodiment of the present invention.
  • 10A and 10B are exemplary diagrams for explaining an operation of transforming basic data based on biometric extraction data according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an operation of reconstructing data based on biometric extraction data according to an embodiment of the present invention.
  • FIG. 2 is a block diagram schematically illustrating an apparatus for diagnosing a disease based on biometric extraction data according to an embodiment of the present invention.
  • the disease diagnosis apparatus 100 includes an input unit 110, an output unit 120, a processor 200, a memory 300, and a database 400.
  • the disease diagnosis apparatus 100 of FIG. 2 is according to an embodiment, and not all blocks shown in FIG. 2 are essential components, and some blocks included in the disease diagnosis apparatus 100 are added or changed in other embodiments. Or it can be deleted. Meanwhile, each component included in the disease diagnosis apparatus 100 may be implemented as a separate software device or a separate hardware device combined with software.
  • the disease diagnosis device 100 automatically pre-processes FCS (Flow Cytometry Standard) data as learning data, uses the pre-processed data as machine learning and artificial intelligence diagnosis model data, and uses the feature values of various diseases through machine learning. Feature), and by grasping the correlation between the feature values and the disease, a predictable diagnostic model is generated or a specific disease is diagnosed.
  • FCS Flow Cytometry Standard
  • the input unit 110 refers to a means for inputting or obtaining data for controlling the disease diagnosis apparatus 100.
  • the input unit 110 may interlock with the processor 200 to input various types of control signals, or may directly acquire data in association with an external device and transmit the data to the processor 200.
  • the output unit 120 may interwork with the processor 200 to display various information such as a preprocessing result of data, a learning result, and a diagnosis result.
  • the output unit 120 preferably displays various types of information through a display (not shown) provided in the disease diagnosis apparatus 100, but is not limited thereto.
  • the processor 200 performs a function of executing at least one instruction or program included in the memory 300.
  • the processor 200 performs data preprocessing based on the biometric extraction data acquired from the input unit 110 or the database 400, and performs machine learning for disease diagnosis based on the preprocessed data. . Also, the processor 200 may diagnose a disease to be diagnosed based on a previously learned learning result. Detailed operations of the processor 200 according to the present embodiment will be described with reference to FIG. 3.
  • the bio-extraction data is preferably bio-extraction FCS (Flow Cytometry Standard) raw data, but is not limited thereto.
  • the memory 300 includes at least one instruction or program executable by the processor 200.
  • the memory 300 may include a command or a program for pre-processing data based on the bio-extracted data.
  • the memory 300 may include a command or program for performing machine learning based on the pre-processed data.
  • the memory 300 may include a command or program for an operation of diagnosing a disease to be diagnosed based on the learning result.
  • the database 400 refers to a general data structure implemented in a storage space (hard disk or memory) of a computer system using a database management program (DBMS), and searches (extracts), deletes, edits, and adds data. It refers to a data storage format in which you can freely perform data storage, such as Oracle, Infomix, Sybase, and a relational database management system (RDBMS) such as DB2, Gemston, Orion. Orion), O2, etc. object-oriented database management system (OODBMS) and Excelon (Excelon), Tamino (Tamino), using the XML Native Database (XML Native Database) such as Sekaiju, etc. of one embodiment of the present invention It can be implemented according to the purpose, and has appropriate fields or elements to achieve its own function.
  • DBMS database management program
  • the database 400 may store information related to biometric extraction data and provide biometric extraction data and information related to biometric extraction data.
  • the biological extraction data stored in the database 400 may be data representing a result of flow cytometry of blood.
  • the biometric extraction data is preferably data in a predetermined standardized format or a flow cytometry standard (FCS) format, but is not limited thereto.
  • the database 140 is described as being implemented in the disease diagnosis apparatus 100, but is not limited thereto, and may be implemented as a separate data storage device.
  • FIG. 3 is a block diagram schematically illustrating an operation configuration of a processor in a disease diagnosis apparatus according to an embodiment of the present invention.
  • the processor 200 included in the disease diagnosis apparatus 100 includes a data acquisition unit 210, a data preprocessor 220, a data learning unit 230, and a disease diagnosis unit 240.
  • the processor 200 of FIG. 3 is according to an embodiment, and not all blocks shown in FIG. 3 are essential components, and some blocks included in the processor 200 may be added, changed, or deleted in other embodiments. have. Meanwhile, each of the components included in the processor 200 may be implemented as a separate software device, or may be implemented as a separate hardware device combined with software.
  • the data acquisition unit 210 performs an operation of acquiring biometric extraction data extracted from blood of a diagnosis target.
  • the bio-extraction data may be data representing a result of flow cytometry of blood.
  • the biometric extraction data is preferably data in a predetermined standardized format or a flow cytometry standard (FCS) format, but is not limited thereto.
  • the data acquisition unit 210 may acquire biometric extraction data through the input unit 110 or the database 400 interworking with the processor 200.
  • the biometric extraction data is automatically collected at each preset period or inputted through the input unit 110.
  • Biometric extraction data may be collected by transmitting a data request signal to the database 400.
  • the data preprocessor 220 transforms initial data generated based on a plurality of parameters included in the biometric extraction data into coordinate values for each of a plurality of channels, and performs an operation of reconstructing the transformed data into learning data.
  • the data preprocessor 220 according to the present embodiment includes an initial data generation unit 222, a data transformation unit 224, and a data reconstruction unit 226.
  • the initial data generation unit 222 generates initial data by using measurement values of all or some parameters of a plurality of parameters of the test item channel included in the biometric extraction data.
  • the initial data generator 222 may generate the initial data by using the measured values for each of at least two or more parameters among a plurality of parameters.
  • the data transforming unit 224 merges the measured values of all or part of the parameters included in the initial data without processing and transforms it into data including coordinate values for each of the test item channels, and transforms the transformed data and the transformed data into data. Create a data table containing count values for.
  • the data transforming unit 224 transforms the data by replacing the measured values of all or some parameters included in the initial data with a quotient obtained by dividing the measured values of all or some parameters by a predetermined value (e.g., a specific value such as 4, 8, 32 Image depth conversion), and a method of adding a predetermined value (eg, 10) to each quotient to prevent data loss occurring at this time.
  • a predetermined value e.g., a specific value such as 4, 8, 32 Image depth conversion
  • a data table including the transformed data and count values for each of the transformed data is created.
  • the data transforming unit 224 transforms the measured values of some parameters into transformed data including coordinate values generated by merging the measured values sequentially or in a preset order.
  • the data transformation unit 224 deletes the same coordinate value when the same coordinate value as the coordinate value included in the transformed data exists, and increases the count value for the coordinate value by a preset unit to increase the count value. And generates the data table including the modified data and the updated count value.
  • the data reconstruction unit 226 performs an operation of reconstructing a machine learning data table by using the transformed data included in the data table.
  • the data reconstruction unit 226 configures the coordinate values included in the transformed data as 1-dimensional coordinate values, and fills the part where the coordinate values do not exist with 0 values in the process of configuring the coordinate values into the 1-dimensional coordinate values, or Using the method to display only the parts that exist (n i is a natural number equal to or greater than a preset reference size) can be reconstructed into an image (data table) for machine learning.
  • the reconstructed machine learning image (data table) may have a two-dimensional or three-dimensional form.
  • the data preprocessor 220 is described as being included in the disease diagnosis apparatus 100, but is not limited thereto, and may be implemented as a separate apparatus from the disease diagnosis apparatus 100.
  • the data preprocessor 220 may be implemented as a separate device such as a data preprocessor (not shown) that converts biometric extraction data into machine learning data for diagnosis, and the data preprocessor (not shown) By performing learning in various forms, it can be linked with a device for diagnosing a disease.
  • the data learning unit 230 extracts feature values from the reconstructed learning data, classifies the extracted feature values, and performs learning for disease diagnosis.
  • the data learning unit 230 according to the present embodiment includes a feature extraction unit 232 and a feature classification unit 234.
  • the feature extraction unit 232 extracts feature values from the reconstructed data included in the machine probation data table using a synthetic network algorithm.
  • the feature classification unit 234 performs learning by classifying feature values for each specific disease.
  • the disease diagnosis unit 240 performs an operation of diagnosing a specific disease using the learned feature values.
  • the disease diagnosis unit 240 diagnoses a disease by comparing the new information with a feature value for a specific disease.
  • FIG. 4 is a flowchart illustrating a method for diagnosing a disease based on biometric extraction data according to an embodiment of the present invention.
  • the disease diagnosis apparatus 100 acquires biometric extraction data extracted from blood of a diagnosis target (S410).
  • the bio-extraction data may be data representing a result of flow cytometry of blood.
  • the biometric extraction data is preferably data in a predetermined standardized format or a flow cytometry standard (FCS) format, but is not limited thereto.
  • the disease diagnosis apparatus 100 generates initial data based on the biometric extraction data (S420).
  • the disease diagnosis apparatus 100 generates initial data by using measurement values of all or some parameters of a plurality of parameters of a test item channel included in the biometric extraction data.
  • the disease diagnosis apparatus 100 generates a data table by transforming data included in the initial data (S430).
  • the disease diagnosis apparatus 100 merges the measured values of some parameters included in the initial data and transforms it into data including coordinate values for each of the test item channels, and the transformed data and a count value for each of the transformed data Create a data table containing
  • the disease diagnosis apparatus 100 generates a machine learning data table by reconstructing the transformed data included in the data table (S440).
  • the disease diagnosis apparatus 100 configures the coordinate values included in the transformed data included in the data table as 1-dimensional coordinate values, and fills the portion where the coordinate values do not exist with 0 values in the process of configuring the coordinate values into the 1-dimensional coordinate values. Or, by using a method to display only the part where the coordinate value exists (n i is a natural number equal to or greater than a preset reference size) can be reconstructed into an image (data table) for machine learning.
  • the disease diagnosis apparatus 100 extracts a feature value from the reconstructed data included in the machine probation data table using a synthetic network algorithm (S450).
  • the disease diagnosis apparatus 100 classifies a feature value for each specific disease by performing learning based on the feature value (S460).
  • the disease diagnosis apparatus 100 diagnoses a specific disease using the learned feature values (S470).
  • the disease diagnosis apparatus 100 diagnoses a disease by comparing the new information with a feature value for a specific disease.
  • FIG. 4 it is described that each step is sequentially executed, but is not limited thereto. In other words, since it may be applicable to changing and executing the steps illustrated in FIG. 4 or executing one or more steps in parallel, FIG. 4 is not limited to a time-series order.
  • the disease diagnosis method according to the present embodiment illustrated in FIG. 4 may be implemented as an application (or program) and recorded on a recording medium that can be read by a terminal device (or computer).
  • the application (or program) for implementing the disease diagnosis method according to the present embodiment is recorded and the recording medium that can be read by the terminal device (or computer) is any type of recording device that stores data that can be read by the computing system or Includes the medium.
  • FIG. 5 is an exemplary diagram for explaining an operation of diagnosing a disease using patient information and biometric data extracted according to an embodiment of the present invention. Specifically, FIG. 5 is an exemplary diagram for explaining a data preprocessing process of converting patient information and raw body-extracted FCS raw data into a supercube shape applicable to visual recognition machine learning according to an embodiment of the present invention.
  • the data preprocessor 220 performs data preprocessing for machine learning.
  • Patient information capable of distinguishing the subject of diagnosis is anonymized, and clinical test results of the anonymized information are input to the data preprocessor 220.
  • the data preprocessor 220 acquires biometric extraction data in a preset Excel format or FCS format, and generates initial data by expressing measured values of a plurality of parameters included in the biometric extraction data as vector-based coordinate values.
  • the data preprocessor 220 merges coordinate values of a plurality of parameters included in the initial data and transforms them into one coordinate value, and generates a data table (data frame) through counting the transformed data and each of the merged coordinate values. Generate.
  • the data preprocessor 220 updates the data table by reading or writing data stored in the database.
  • the data preprocessor 220 reconstructs and transforms the transformed data included in the data table.
  • the data pre-processing unit 220 configures the coordinate values included in the transformed data included in the data table into 1-dimensional coordinate values, and the coordinate values do not exist in the process of configuring them into 1-dimensional coordinate values. Filling the missing part with a value of 0, or displaying only the part where the coordinate value exists. (n i is a natural number equal to or greater than a preset reference size) can be reconstructed into an image (data table) for machine learning.
  • the data preprocessor 220 transmits the converted machine learning data or machine learning data table to the data learning unit 230 so that learning for diagnosing a specific disease is performed.
  • FIG. 6 is a block diagram illustrating an operation of diagnosing a disease using a neural network according to an embodiment of the present invention.
  • the data learning unit 230 uses the machine learning data configured by the data preprocessor 220 as input data to perform an image learning process.
  • the data learning unit 230 performs an operation of detecting a feature value from the input data through the process of image learning.
  • the data learning unit 230 may detect a feature value of the input data using a plurality of convolutional layer-based synthetic network algorithms and other advanced machine learning algorithms.
  • the data learning unit 230 classifies feature values of a specific disease by performing learning based on the detected feature values.
  • the disease diagnosis unit 240 may diagnose a disease based on the learning result of the data learning unit 230.
  • the disease diagnosis unit 240 analyzes the presence or absence of a feature value extracted from a patient group for a specific disease (eg, blood cancer, etc.) previously learned from the data, A specific disease can be diagnosed according to the presence or absence of a feature value.
  • a specific disease eg, blood cancer, etc.
  • FIG. 7 is an exemplary diagram illustrating an operation process of a diagnostic device in a computer according to an embodiment of the present invention.
  • the disease diagnosis apparatus 100 may be implemented as a diagnosis apparatus 700 in a computer.
  • the diagnostic apparatus 700 in the computer may include a data processing unit 710, a feature value generation unit 720, an artificial intelligence unit 730, and a diagnosis unit 740.
  • the data processing unit 710 transforms initial data generated based on a plurality of parameters included in the biometric extraction data into coordinate values for each of a plurality of channels, and reconstructs the transformed data into machine learning data.
  • the data processing unit 710 may be implemented in a form including all or some functions of the data preprocessing unit 220.
  • the feature value generator 720 may generate feature values extracted from reconstructed data included in the machine probation data table using a synthetic network algorithm and other advanced machine learning algorithms.
  • the feature value generator 720 may be implemented in a form including some functions of the data learning unit 230.
  • the artificial intelligence unit 730 performs learning based on the extracted feature values, and classifies feature values for each specific disease according to the learning result.
  • the artificial intelligence unit 730 may be implemented in a form including some functions of the data learning unit 230.
  • the diagnosis unit 740 diagnoses a specific disease using the learned feature values.
  • the diagnosis unit 740 diagnoses a disease by comparing the new information with a feature value for a specific disease.
  • the diagnosis unit 740 may be implemented in a form including all or some functions of the disease diagnosis unit 240.
  • FIG. 8 is an exemplary diagram for explaining an operation of generating initial data based on biometric extraction data according to an embodiment of the present invention.
  • bio-extraction data extracted from blood of a diagnosis target includes a plurality of parameters, and each of the plurality of parameters includes a measurement value.
  • the biological extraction data extracted through the automatic hemocytometer is divided into two to four files for each patient, sample, and analysis module of the analysis equipment, and each file has a measured value for each analysis parameter (a) of FIG. It can be implemented in a table format listed as
  • the biometric extraction data may be a set of points consisting of four-dimensional coordinates using four analysis parameters.
  • three parameters were selected among four parameters included in the biometric extraction data, and the selected parameters were expressed as three-dimensional coordinate points as shown in (b) of FIG. 8.
  • the disease diagnosis apparatus 100 may generate initial data for data preprocessing through the selected parameter.
  • 9A to 9D are exemplary diagrams showing initial data of each of a plurality of channels according to an embodiment of the present invention.
  • 9A to 9D are exemplary diagrams showing initial data of each of a plurality of parameters (three parameters in this example) included in FCS data derived from CBC according to an embodiment of the present invention in a shape in a three-dimensional (second) cube.
  • the shapes in each of the 10 cubes illustrated in FIGS. 9A to 9D are visualized data derived from 10 specimens or 10 patients, and have similar but different morphological characteristics.
  • Three-dimensional coordinate points based on the biometric extraction data may be graphed in a plot as shown in FIGS. 9A to 9D.
  • the plot pattern of these coordinate points is similar for each patient/subject, but shows slight differences.
  • the automatic blood analysis equipment can generate 2 to 4 FCS data per sample because individual analysis is simultaneously performed through 2 to 4 channels (or modules).
  • FCS blood cell analysis
  • FIG. 9A is a plot for a WDF channel (one of the leukocyte analysis channels in an automatic hemocytometer), and FIG. 9B shows plots for a WPC channel (one of the leukocyte analysis channels in an automatic hemocytometer).
  • FIG. 9C shows plots for the WNR channel (automated hemocytometer leukocyte analysis channel), and FIG. 9D shows plots for the PLT-F channel (one of the automated hemocytometer platelet analysis channels).
  • Each of the plots shown in FIGS. 9A to 9D shows a similar clustering pattern, but shows a slight difference in a detailed distribution pattern.
  • 10A and 10B are exemplary diagrams for explaining an operation of transforming basic data based on biometric extraction data according to an embodiment of the present invention.
  • FCS data can be expressed in a shape of a supercube space (a three-dimensional cube corresponding to three parameters in this example).
  • the supercube space is composed of a set of supercube pixels, and the coordinates indicating the position of each pixel are measured values of each corresponding parameter.
  • the gray scale intensity of each pixel is determined by the number of cells or particles having a combination of parameter values corresponding to the location of each pixel.
  • FIG. 10B shows a data table for explaining an operation of transforming initial data.
  • FIG. 10B is an exemplary explanation of a table in which the relationship between the parameter value and the supercube pixel coordinates, and the shade intensity for each pixel (Count column) according to the definition of the shade intensity of each pixel, and arranged and displayed according to the coordinates of the pixels.
  • the disease diagnosis apparatus 100 merges the measured values of each parameter of the initial data (FCS data) and transforms each test item value into one coordinate value.
  • the diagnostic device 100 transforms the data by replacing the measured values of all or some parameters included in the initial data with a quotient obtained by dividing the measured values of all or some parameters by a selected constant value (e.g., a specific value such as 4, 8, 32). Depth conversion), and a method of adding a predetermined value (eg, 10) to each quotient to prevent data loss occurring at this time.
  • a selected constant value e.g., a specific value such as 4, 8, 32.
  • Depth conversion e.g., a specific value such as 4, 8, 32.
  • the disease diagnosis apparatus 100 generates a data table including transformed data and count values for each of the transformed data.
  • the disease diagnosis apparatus 100 deletes the same coordinate value and increases the count value for the coordinate value in a preset unit to update the count value, Create a data table containing the updated data and updated count values. For example, the disease diagnosis apparatus 100 assigns a count value to 1 when the coordinate value of the transformed data is 1, and assigns a count value of the coordinate value to 2 when the same coordinate value exists. You can create a data table.
  • the disease diagnosis apparatus 100 may calculate the number of coordinate points corresponding to each pixel in the coordinate space through the data table.
  • the example of FIG. 10A shows a graph of coordinate values included in transformed data
  • FIG. 10B shows an operation of counting coordinate points corresponding to each pixel in a coordinate space through a data table.
  • FIG. 11 is a diagram illustrating an operation of reconstructing data based on biometric extraction data according to an embodiment of the present invention.
  • This is an exemplary diagram in which FCS data is converted to a table representing the shape of a supercube as described above, and then rearranged and converted into a two-dimensional image format.
  • the disease diagnosis apparatus 100 may represent the count values displayed in the order of coordinates in the data table in a one-dimensional array in the same order, and reconstruct them into a two-dimensional array (image format) for machine learning.
  • the disease diagnosis apparatus 100 comprises a coordinate value included in the transformed data as a one-dimensional coordinate value, and in the process of configuring it as a one-dimensional coordinate value, fills a portion where the coordinate value does not exist with a value of 0, or Using the method to display only the parts that exist (n i is a natural number greater than or equal to a preset reference size) can be reconstructed into a machine learning data table.
  • the disease diagnosis apparatus 100 may reconstruct data like a 12 * 12 machine learning data table.
  • one row means one coordinate value and count value.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Epidemiology (AREA)
  • Immunology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Dispersion Chemistry (AREA)
  • Signal Processing (AREA)
  • Primary Health Care (AREA)
  • Biotechnology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Hematology (AREA)
  • Psychiatry (AREA)

Abstract

생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치를 개시한다. 본 발명의 실시예에 따른 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 질병 진단 방법에 있어서, 상기 컴퓨팅 디바이스는, 진단 대상의 혈액에서 추출된 생체 추출 데이터를 획득하는 데이터 획득 단계; 상기 생체 추출 데이터에 포함된 복수 개의 파라미터를 기반으로 생성된 초기 데이터를 복수의 채널 각각에 대한 좌표값으로 변형하고, 변형된 데이터를 학습용 데이터로 재구성하는 데이터 전처리 단계; 상기 재구성된 데이터에서 특징값을 추출하고, 상기 특징값을 분류하여 학습을 수행하는 데이터 학습 단계; 및 학습된 상기 특징값을 이용하여 특정 질병을 진단하는 질병 진단 단계를 수행할 수 있다.

Description

생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치
본 발명은 생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 발명의 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
체외진단검사의 하나인 CBC(Complete Blood Count)를 통한 검사 데이터 중 하나인 FCS(Flow Cytometry Standard) 데이터는 유체역학적 기술이나 이미지 분석을 통해 분석 시료 내의 세포(또는 이와 유사한 물리적, 유체역학적, 광학적 성질을 갖는 입자, 이하, 세포로 기재)들을 하나씩 분리하고, 이를 광학적 방식 또는 이와 유사한 방식으로 탐지하여 세포의 개수 및 각 세포의 광학적/생물학적 성질을 정량화하고 분류하는 유세포분석, 이미지세포분석 및 이러한 일반적 분석법을 응용한 세포분석 결과를 콘텐츠(Content)로 하는 일종의 생체지표 데이터를 의미한다. 이러한 데이터는 각종 질병군과 연관성을 찾기 위한 좋은 지표로 활용할 수 있다.
일반적으로 FCS 데이터 분석하는 방법은 도 1에 도시된 바와 같이, 분석 대상이 되는 세포(군집)을 분석자의 학술적 지식을 기반으로 세밀하게 선택/분리하고, 선택한 세포들을 계수 하거나 측정된 광학적 성질(예: 광분산 강도, 형광 발광) 및 이와 연관된 생물학적 성질(예: 크기, 구조, 항원 표현형)을 추출해 내는 과정으로 구성된다.
자동화된 분석 방식으로 이러한 분석과정을 재현하거나 가공되지 않은 FCS 데이터로부터 군집분석 등을 통해 직접 분석 대상 군집을 분리해내는 알고리즘이 연구되고 있다. 하지만, 대량의 임상병리 검사 데이터를 기반으로 질병 및 임상 상황/징후와 연관되어있는 FCS 데이터의 패턴(Pattern)을 추출하기 어려우며, 각 FCS 데이터의 전반적/형태적 특성을 기반으로 각 분석 대상 시료에 내포된 생물학적/임상적 의미를 찾기 위해 기계학습을 적용하기는 쉽지 않다. 따라서, 초입방체 내에 형상화된 이미지 형태로 FCS 데이터를 변환하여 FCS 데이터를 질환 및 환자별로 체계적으로 분류하여 지속적으로 다양한 질병 및 환자의 개인화된 특성과의 연관성을 찾는 기술이 필요하다.
본 발명은 진단 대상들의 질병 및 경과 관찰 과정에 생성되는 임상정보 중의 하나인 FCS(Flow Cytometry Standard) 데이터를 인공지능 분야 중 가장 활발한 연구 개발이 진행되고 있는 시각인식 기계학습이 가능하도록 FCS 데이터를 초입방체 내 형상으로 전환하고, 전환된 데이터를 기반으로 진행된 기계학습을 통해 다양한 질병과 관련된 지표화된 패턴을 찾고, 진단 대상의 특정 질병을 진단하는, 생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치를 제공하는 데 주된 목적이 있다.
본 발명의 일 측면에 의하면, 상기 목적을 달성하기 위한 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 질병 진단 방법에 있어서, 상기 컴퓨팅 디바이스는, 진단 대상의 혈액이나 이에 준하는 생체 시료에서 추출된 생체 추출 데이터를 획득하는 데이터 획득 단계; 상기 생체 추출 데이터에 포함된 복수 개의 파라미터를 기반으로 생성된 초기 데이터를 복수의 채널 각각에 대한 좌표값으로 변형하고, 변형된 데이터를 학습용 데이터로 재구성하는 데이터 전처리 단계; 상기 재구성된 학습용 데이터에서 특징값을 추출하고, 상기 특징값을 분류하여 학습을 수행하는 데이터 학습 단계; 및 학습된 상기 특징값을 이용하여 특정 질병을 진단하는 질병 진단 단계를 수행할 수 있다.
또한, 본 발명의 다른 측면에 의하면, 상기 목적을 달성하기 위한 생체 추출 데이터를 전처리하여 질병을 진단하는 질병 진단 장치는 하나 이상의 프로세서; 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서, 진단 대상의 혈액이나 이에 준하는 생체 시료에서 추출된 생체 추출 데이터를 획득하는 데이터 획득 단계; 상기 생체 추출 데이터에 포함된 복수 개의 파라미터를 기반으로 생성된 초기 데이터를 복수의 채널 각각에 대한 좌표값으로 변형하고, 변형된 데이터를 학습용 데이터로 재구성하는 데이터 전처리 단계; 상기 재구성된 학습용 데이터에서 특징값을 추출하고, 상기 특징값을 분류하여 학습을 수행하는 데이터 학습 단계; 및 학습된 상기 특징값을 이용하여 특정 질병을 진단하는 질병 진단 단계를 포함하는 동작들을 수행할 수 있다.
이상에서 설명한 바와 같이, 본 발명은 임상 예측을 위한 FCS 데이터 기계학습 모델 개발을 촉진함으로써 종래의 단편적 수치 비교에 기반한 질환 진단 방식에서 벗어나 자동혈액분석검사 및 유세포분석 결과의 상황적, 통합적 해석을 가능하게 하고 이를 통해 보다 정확한 질병진단과 임상 상황 파악을 할 수 있는 효과가 있다.
또한, 본 발명은 임상적 유용성을 갖는 FCS 데이터 패턴을 발굴함에 따라, 의사가 인식하지 못 한 환자의 이상을 조기에 발견하여 신속히 진단 또는 환자 파악에 이르도록 할 수 있는 효과가 있다.
또한, 본 발명은 질병 특이 검사에 비해 저렴한 자동혈액분석검사 시행을 통해서 질병의 진행 및 환자 상태의 변화를 추적할 수 있도록 함으로써 의료 자원 분배의 효율성을 높이는 데 기여할 수 있는 효과가 있다.
또한, 본 발명은 분석자의 수기 작업에 의존하는 기존의 유세포분석 검사 결과판독을 자동화한 새로운 알고리즘 개발을 촉진함으로써 생물학 및 의학 연구를 보다 원활하게 할 수 있는 효과가 있다.
또한, 본 발명은 FCS 데이터 전환 방식(전처리 방식)을 통해 새로운 의료 기계학습 분야를 발전시킬 수 있는 효과가 있다.
도 1은 종래의 생체 추출 데이터의 분석 동작을 설명하기 위한 예시도이다.
도 2는 본 발명의 실시예에 따른 생체 추출 데이터 기반의 질병 진단 장치를 개략적으로 나타낸 블록 구성도이다.
도 3은 본 발명의 실시예에 따른 질병 진단 장치에 프로세서의 동작 구성을 개략적으로 나타낸 블록 구성도이다.
도 4는 본 발명의 실시예에 따른 생체 추출 데이터 기반의 질병 진단 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 실시예에 따른 환자정보 및 생체 추출 데이터를 이용하여 질병을 진단하는 동작을 설명하기 위한 예시도이다.
도 6은 본 발명의 실시예에 따른 신경 네트워크를 이용하여 질병을 진단하는 동작을 설명하기 위한 블록도이다.
도 7은 본 발명의 실시예에 따른 컴퓨터 내 진단장치의 동작 프로세스를 설명하기 위한 예시도이다.
도 8은 본 발명의 실시예에 따른 생체 추출 데이터를 기반으로 초기 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
도 9a 및 도 9b는 본 발명의 실시예에 따른 복수의 채널 각각의 초기 데이터를 나타낸 예시도이다.
도 10a 및 도 10b는 본 발명의 실시예에 따른 생체 추출 데이터를 기반으로 기본적인 데이터를 변형하는 동작을 설명하기 위한 예시도이다.
도 11은 본 발명의 실시예에 따른 생체 추출 데이터를 기반으로 데이터를 재구성하는 동작을 예시하여 설명하기 위한 도면이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다. 이하에서는 도면들을 참조하여 본 발명에서 제안하는 생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치에 대해 자세하게 설명하기로 한다.
도 2는 본 발명의 실시예에 따른 생체 추출 데이터 기반의 질병 진단 장치를 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 질병 진단 장치(100)는 입력부(110), 출력부(120), 프로세서(200), 메모리(300) 및 데이터 베이스(400)를 포함한다. 도 2의 질병 진단 장치(100)는 일 실시예에 따른 것으로서, 도 2에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 질병 진단 장치(100)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 질병 진단 장치(100)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.
질병 진단 장치(100)는 FCS(Flow Cytometry Standard) 데이터를 자동으로 학습용 데이터로 전처리하고, 전처리된 데이터를 기계학습과 인공지능 진단 모델의 데이터로 활용하고, 기계학습을 통해서 다양한 질병들의 특징값(Feature)를 찾아내고, 특징값들과 질병과의 연관성을 파악하여 예측 가능한 진단 모델을 생성하거나 특정 질병을 진단하는 동작을 수행한다.
입력부(110)는 질병 진단 장치(100)를 제어하기 위한 데이터를 입력하거나 획득하는 수단을 의미한다. 입력부(110)는 프로세서(200)와 연동하여 다양한 형태의 제어신호를 입력하거나, 외부 장치와 연동하여 직접 데이터를 획득하여 프로세서(200)로 전달할 수도 있다.
출력부(120)는 프로세서(200)와 연동하여 데이터의 전처리 결과, 학습결과, 진단 결과 등 다양한 정보를 표시할 수 있다. 출력부(120)는 질병 진단 장치(100)에 구비된 디스플레이(미도시)를 통해 다양한 정보를 표시하는 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
프로세서(200)는 메모리(300)에 포함된 적어도 하나의 명령어 또는 프로그램을 실행시키는 기능을 수행한다.
본 실시예에 따른 프로세서(200)는 입력부(110) 또는 데이터 베이스(400)로부터 획득한 생체 추출 데이터를 기반으로 데이터 전처리를 수행하고, 전처리된 데이터를 기반으로 질병 진단을 위한 기계학습을 수행한다. 또한, 프로세서(200)는 기 학습된 학습결과를 기반으로 진단 대상의 질병을 진단할 수 있다. 본 실시예에 따른 프로세서(200)의 자세한 동작은 도 3에서 설명하도록 한다. 여기서, 생체 추출 데이터는 생체 추출 FCS(Flow Cytometry Standard) 원시 데이터인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
메모리(300)는 프로세서(200)에 의해 실행 가능한 적어도 하나의 명령어 또는 프로그램을 포함한다. 메모리(300)는 생체 추출 데이터를 기반으로 데이터를 전처리하는 동작을 위한 명령어 또는 프로그램을 포함할 수 있다. 또한, 메모리(300)는 전처리된 데이터를 기반으로 기계학습을 수행하는 동작을 위한 명령어 또는 프로그램을 포함할 수 있다. 또한, 메모리(300)는 학습 결과를 기반으로 진단 대상의 질병을 진단하는 동작을 위한 명령어 또는 프로그램을 포함할 수 있다.
데이터 베이스(400)는 데이터베이스 관리 프로그램(DBMS)을 이용하여 컴퓨터 시스템의 저장공간(하드디스크 또는 메모리)에 구현된 일반적인 데이터구조를 의미하는 것으로, 데이터의 검색(추출), 삭제, 편집, 추가 등을 자유롭게 행할 수 있는 데이터 저장형태를 뜻하는 것으로, 오라클(Oracle), 인포믹스(Infomix), 사이베이스(Sybase), DB2와 같은 관계형 데이타베이스 관리 시스템(RDBMS)이나, 겜스톤(Gemston), 오리온(Orion), O2 등과 같은 객체 지향 데이타베이스 관리 시스템(OODBMS) 및 엑셀론(Excelon), 타미노(Tamino), 세카이주(Sekaiju) 등의 XML 전용 데이터베이스(XML Native Database)를 이용하여 본 발명의 일 실시예의 목적에 맞게 구현될 수 있고, 자신의 기능을 달성하기 위하여 적당한 필드(Field) 또는 엘리먼트들을 가지고 있다.
본 실시예에 따른 데이터베이스(400)는 생체 추출 데이터와 관련된 정보를 저장하고, 생체 추출 데이터 및 생체 추출 데이터와 관련된 정보를 제공할 수 있다. 데이터베이스(400)에 저장된 생체 추출 데이터는 혈액의 유세포 분석(Flow Cytometry)에 대한 결과를 나타내는 데이터일 수 있다. 생체 추출 데이터는 기 설정된 정형화된 형식 또는 FCS(Flow Cytometry Standard) 형식의 데이터인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
데이터베이스(140)는 질병 진단 장치(100) 내에 구현되는 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 별도의 데이터 저장장치로 구현될 수도 있다.
도 3은 본 발명의 실시예에 따른 질병 진단 장치에 프로세서의 동작 구성을 개략적으로 나타낸 블록 구성도이다.
본 실시예에 따른 질병 진단 장치(100)에 포함된 프로세서(200)는 데이터 획득부(210), 데이터 전처리부(220), 데이터 학습부(230) 및 질병 진단부(240)를 포함한다. 도 3의 프로세서(200)는 일 실시예에 따른 것으로서, 도 3에 도시된 모든 블록이 필수 구성요소는 아니며, 다른 실시예에서 프로세서(200)에 포함된 일부 블록이 추가, 변경 또는 삭제될 수 있다. 한편, 프로세서(200)에 포함된 각 구성요소들은 각각 별도의 소프트웨어 장치로 구현되거나, 소프트웨어가 결합된 별도의 하드웨어 장치로 구현될 수 있다.
데이터 획득부(210)는 진단 대상의 혈액에서 추출된 생체 추출 데이터를 획득하는 동작을 수행한다. 여기서, 생체 추출 데이터는 혈액의 유세포 분석(Flow Cytometry)에 대한 결과를 나타내는 데이터일 수 있다. 생체 추출 데이터는 기 설정된 정형화된 형식 또는 FCS(Flow Cytometry Standard) 형식의 데이터인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
데이터 획득부(210)는 프로세서(200)와 연동하는 입력부(110) 또는 데이터 베이스(400)를 통해 생체 추출 데이터를 획득할 수 있다. 여기서, 데이터 획득부(210)는 프로세서(200)와 연동하는 데이터 베이스(400)로부터 생체 추출 데이터를 획득하는 경우, 기 설정된 주기마다 자동으로 생체 추출 데이터를 수집하거나 입력부(110)를 통해 입력된 데이터 요청신호를 데이터 베이스(400)로 전송하여 생체 추출 데이터를 수집할 수 있다.
데이터 전처리부(220)는 생체 추출 데이터에 포함된 복수 개의 파라미터를 기반으로 생성된 초기 데이터를 복수의 채널 각각에 대한 좌표값으로 변형하고, 변형된 데이터를 학습용 데이터로 재구성하는 동작을 수행한다. 본 실시예에 따른 데이터 전처리부(220)는 초기 데이터 생성부(222), 데이터 변형부(224) 및 데이터 재구성부(226)를 포함한다.
초기 데이터 생성부(222)는 생체 추출 데이터에 포함된 검사 항목 채널의 복수 개의 파라미터의 전체 또는 일부 파라미터의 측정값을 이용하여 초기 데이터를 생성한다.
초기 데이터 생성부(222)는 복수 개의 파라미터 중 적어도 둘 이상의 파라미터 각각에 대한 상기 측정값을 이용하여 상기 초기 데이터를 생성할 수 있다.
데이터 변형부(224)는 초기 데이터에 포함된 전체 또는 일부 파라미터의 측정값들을 가공없이 병합하여 상기 검사 항목 채널 각각에 대한 좌표값을 포함하는 데이터로 변형하고, 변형된 데이터와 상기 변형된 데이터 각각에 대한 카운트값을 포함하는 데이터 테이블을 생성한다.
또한 데이터 변형부(224)는 초기 데이터에 포함된 전체 또는 일부 파라미터의 측정값들을 선정된 일정한 값(예: 4, 8, 32 등의 특정 값)으로 나눈 몫으로 치환하는 방법으로 데이터를 변형(이미지 깊이 변환)하고, 이때 발생하는 데이터의 유실을 막기 위해 각 몫에 소정의 값(예: 10)을 더하는 방법을 취한다.
이렇게 변형된 데이터와 상기 변형된 데이터 각각에 대한 카운트 값을 포함하는 데이터 테이블을 생성한다.
데이터 변형부(224)는 일부 파라미터의 측정값을 순차적 또는 기 설정된 순서로 병합하여 생성된 좌표값을 포함하는 변형된 데이터로 변형한다.
또한, 데이터 변형부(224)는 변형된 데이터에 포함된 좌표값과 동일한 좌표값이 존재하는 경우, 동일한 좌표값을 삭제하고, 좌표값에 대한 상기 카운트값을 기 설정된 단위로 증가하여 카운트값을 갱신하고, 변형된 데이터와 갱신된 상기 카운트값을 포함하는 상기 데이터 테이블을 생성한다.
데이터 재구성부(226)는 데이터 테이블에 포함된 변형된 데이터를 이용하여 기계학습용 데이터 테이블로 재구성하는 동작을 수행한다.
데이터 재구성부(226)는 변형된 데이터에 포함된 좌표값을 1 차원 좌표값으로 구성하고, 1 차원 좌표값으로 구성하는 과정에서 좌표값이 존재하지 않는 부분을 0 값으로 채우거나, 또는 좌표값이 존재하는 부분만 표시하는 방법을 사용하여
Figure PCTKR2020013944-appb-I000001
(ni는 기 설정된 기준 크기값 이상의 자연수) 형태의 기계학습용 이미지(데이터 테이블)로 재구성할 수 있다. 여기서, 재구성된 기계학습용 이미지(데이터 테이블)는 2 차원 또는 3 차원의 형태일 수 있다.
본 실시예에 따른 데이터 전처리부(220)는 질병 진단 장치(100) 내에 포함된 것으로 기재하고 있으나 반드시 이에 한정되는 것은 아니며, 질병 진단 장치(100)와 별도의 장치로 구현될 수 있다. 예를 들어, 데이터 전처리부(220)는 생체 추출 데이터를 진단을 위한 기계학습용 데이터로 변환하는 데이터 전처리장치(미도시)와 같은 별도의 장치로 구현될 수 있으며, 데이터 전처리장치(미도시)는 다양한 형태로 학습을 수행하여 질병을 진단하는 장치와 연동할 수 있다.
데이터 학습부(230)는 재구성된 학습용 데이터에서 특징값을 추출하고, 추출된 특징값을 분류하여 질병 진단을 위한 학습을 수행한다. 본 실시예에 따른 데이터 학습부(230)는 특징 추출부(232) 및 특징 분류부(234)를 포함한다.
특징 추출부(232)는 합성망 알고리즘을 이용하여 기계확습용 데이터 테이블에 포함된 상기 재구성된 데이터 내에서 특징값을 추출한다.
특징 분류부(234)는 특정 질병 별로 특징값을 분류하여 학습을 수행한다.
질병 진단부(240)는 학습된 특징값을 이용하여 특정 질병을 진단하는 동작을 수행한다. 질병 진단부(240)는 진단 대상에 대한 신규 정보가 입력된 경우, 신규 정보와 특정 질병에 대한 특징값을 비교하여 질병을 진단한다.
도 4는 본 발명의 실시예에 따른 생체 추출 데이터 기반의 질병 진단 방법을 설명하기 위한 순서도이다.
질병 진단 장치(100)는 진단 대상의 혈액에서 추출된 생체 추출 데이터를 획득한다(S410). 여기서, 생체 추출 데이터는 혈액의 유세포 분석(Flow Cytometry)에 대한 결과를 나타내는 데이터일 수 있다. 생체 추출 데이터는 기 설정된 정형화된 형식 또는 FCS(Flow Cytometry Standard) 형식의 데이터인 것이 바람직하나 반드시 이에 한정되는 것은 아니다.
질병 진단 장치(100)는 생체 추출 데이터를 기반으로 초기 데이터를 생성한다(S420). 질병 진단 장치(100)는 생체 추출 데이터에 포함된 검사 항목 채널의 복수 개의 파라미터의 전체 또는 일부 파라미터의 측정값을 이용하여 초기 데이터를 생성한다.
질병 진단 장치(100)는 초기 데이터에 포함된 데이터를 변형하여 데이터 테이블을 생성한다(S430). 질병 진단 장치(100)는 초기 데이터에 포함된 일부 파라미터의 측정값들을 병합하여 상기 검사 항목 채널 각각에 대한 좌표값을 포함하는 데이터로 변형하고, 변형된 데이터와 상기 변형된 데이터 각각에 대한 카운트값을 포함하는 데이터 테이블을 생성한다.
질병 진단 장치(100)는 데이터 테이블에 포함된 변형된 데이터를 재구성하여 기계학습용 데이터 테이블을 생성한다(S440).
질병 진단 장치(100)는 데이터 테이블에 포함된 변형된 데이터에 포함된 좌표값을 1 차원 좌표값으로 구성하고, 1 차원 좌표값으로 구성하는 과정에서 좌표값이 존재하지 않는 부분을 0 값으로 채우거나, 또는 좌표값이 존재하는 부분만 표시하는 방법을 사용하여
Figure PCTKR2020013944-appb-I000002
(ni는 기 설정된 기준 크기값 이상의 자연수) 형태의 기계학습용 이미지(데이터 테이블)로 재구성할 수 있다.
질병 진단 장치(100)는 합성망 알고리즘을 이용하여 기계확습용 데이터 테이블에 포함된 재구성된 데이터 내에서 특징값을 추출한다(S450).
질병 진단 장치(100)는 특징값을 기반으로 학습을 수행하여 특정 질병 별로 특징값을 분류한다(S460).
질병 진단 장치(100)는 학습된 특징값을 이용하여 특정 질병을 진단한다(S470). 질병 진단 장치(100)는 진단 대상에 대한 신규 정보가 입력된 경우, 신규 정보와 특정 질병에 대한 특징값을 비교하여 질병을 진단한다.
도 4에서는 각 단계를 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 4에 기재된 단계를 변경하여 실행하거나 하나 이상의 단계를 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 4는 시계열적인 순서로 한정되는 것은 아니다.
도 4에 기재된 본 실시예에 따른 질병 진단 방법은 애플리케이션(또는 프로그램)으로 구현되고 단말장치(또는 컴퓨터)로 읽을 수 있는 기록매체에 기록될 수 있다. 본 실시예에 따른 질병 진단 방법을 구현하기 위한 애플리케이션(또는 프로그램)이 기록되고 단말장치(또는 컴퓨터)가 읽을 수 있는 기록매체는 컴퓨팅 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치 또는 매체를 포함한다.
도 5는 본 발명의 실시예에 따른 환자정보 및 생체 추출 데이터를 이용하여 질병을 진단하는 동작을 설명하기 위한 예시도이다. 구체적으로, 도 5는 본 발명의 실시예에 따른 환자정보 및 생체 추출 FCS 원시 데이터를 시각인식 기계학습에 적용할 수 있는 초입방체 형상으로 전환하는 데이터 전처리 과정을 설명하기 위한 예시도이다.
질병 진단 장치(100)에서 데이터 전처리부(220)는 기계학습을 위한 데이터 전처리를 수행한다.
진단 대상을 구분할 수 있는 환자 정보를 익명화 처리하고, 익명화된 정보의 임상 검사 결과를 데이터 전처리부(220)로 입력한다.
데이터 전처리부(220)는 기 설정된 엑셀 형식 또는 FCS 형식의 생체 추출 데이터를 획득하고, 생체 추출 데이터에 포함된 복수의 파라미터의 측정값을 벡터 기반의 좌표값으로 표현하여 초기 데이터를 생성한다.
데이터 전처리부(220)는 초기 데이터에 포함된 복수 개의 파라미터의 좌표값들을 병합하여 하나의 좌표값으로 변형하고, 변형된 데이터와 각각의 병합된 좌표값의 카운팅을 통해 데이터 테이블(데이터 프레임)을 생성한다. 데이터 전처리부(220)는 데이터베이스에 저장된 데이터를 READ 또는 WRITE하여 데이터 테이블을 갱신 처리한다.
데이터 전처리부(220)는 데이터 테이블에 포함된 변형된 데이터를 재구성하여 변환한다. 데이터 전처리부(220)는 질병 진단 장치(100)는 데이터 테이블에 포함된 변형된 데이터에 포함된 좌표값을 1 차원 좌표값으로 구성하고, 1 차원 좌표값으로 구성하는 과정에서 좌표값이 존재하지 않는 부분을 0 값으로 채우거나, 또는 좌표값이 존재하는 부분만 표시하는 방법을 사용하여
Figure PCTKR2020013944-appb-I000003
(ni는 기 설정된 기준 크기값 이상의 자연수) 형태의 기계학습용 이미지(데이터 테이블)로 재구성할 수 있다.
데이터 전처리부(220)는 변환된 기계학습용 데이터 또는 기계학습용 데이터 테이블을 데이터 학습부(230)로 전달하여 특정 질병을 진단하기 위한 학습이 수행되도록 한다.
도 6은 본 발명의 실시예에 따른 신경 네트워크를 이용하여 질병을 진단하는 동작을 설명하기 위한 블록도이다.
데이터 학습부(230)는 데이터 전처리부(220)에서 구성된 기계학습용 데이터를 입력 데이터로 사용하여 이미지 학습의 과정을 수행한다.
데이터 학습부(230)는 이미지 학습의 과정을 통하여 입력 데이터에서 특징값(Feature)을 검출하는 동작을 수행한다. 여기서, 데이터 학습부(230)는 복수의 컨볼루션 레이어(Convolutional Layer) 기반의 합성망 알고리즘 및 기타 다른 향상된 기계학습 알고리즘을 이용하여 입력 데이터의 특징값을 검출할 수 있다.
데이터 학습부(230)는 검출된 특징값들을 기반으로 학습을 진행하여 특정 질병의 특징값들의 분류를 수행한다.
질병 진단부(240)는 데이터 학습부(230)의 학습결과를 기반으로 질병의 진단을 수행할 수 있다. 질병 진단부(240)는 진단 대상에 대한 신규 데이터 또는 기계학습 이전의 데이터가 입력된 경우, 해당 데이터에서 기 학습된 특정 질병(예: 혈액암 등) 환자군에서 추출한 특징값의 유무를 분석하고, 특징값의 유무에 따라 특정 질병을 진단할 수 있다.
도 7은 본 발명의 실시예에 따른 컴퓨터 내 진단장치의 동작 프로세스를 설명하기 위한 예시도이다.
본 실시예에 따른 질병 진단 장치(100)는 컴퓨터 내의 진단장치(700)로 구현될 수 있다. 컴퓨터 내의 진단장치(700)는 데이터 처리부(710), 특징값 생성부(720), 인공지능부(730) 및 진단부(740)를 포함하여 구성될 수 있다.
데이터 처리부(710)는 생체 추출 데이터에 포함된 복수 개의 파라미터를 기반으로 생성된 초기 데이터를 복수의 채널 각각에 대한 좌표값으로 변형하고, 변형된 데이터를 기계학습용 데이터로 재구성하는 동작을 수행한다. 여기서, 데이터 처리부(710)는 데이터 전처리부(220)의 전체 또는 일부 기능을 포함하는 형태로 구현될 수 있다.
특징값 생성부(720)는 합성망 알고리즘 및 기타 다른 향상된 기계학습 알고리즘을 이용하여 기계확습용 데이터 테이블에 포함된 재구성된 데이터 내에서 추출된 특징값을 생성할 수 있다. 여기서, 특징값 생성부(720)는 데이터 학습부(230)의 일부 기능을 포함하는 형태로 구현될 수 있다.
인공지능부(730)는 추출된 특징값을 기반으로 학습을 수행하고, 학습결과에 따라 특정 질병 별로 특징값을 분류한다. 여기서, 인공지능부(730)는 데이터 학습부(230)의 일부 기능을 포함하는 형태로 구현될 수 있다.
진단부(740)는 학습된 특징값을 이용하여 특정 질병을 진단한다. 진단부(740)는 진단 대상에 대한 신규 정보가 입력된 경우, 신규 정보와 특정 질병에 대한 특징값을 비교하여 질병을 진단한다. 여기서, 진단부(740)는 질병 진단부(240)의 전체 또는 일부 기능을 포함하는 형태로 구현될 수 있다.
도 8은 본 발명의 실시예에 따른 생체 추출 데이터를 기반으로 초기 데이터를 생성하는 동작을 설명하기 위한 예시도이다.
도 8의 (a)를 참조하면, 진단 대상의 혈액에서 추출된 생체 추출 데이터는 복수 개의 파라미터를 포함하고, 복수 개의 파라미터 각각은 측정값을 포함한다. 예를 들어, 자동 혈구 분석기를 통해 추출된 생체 추출 데이터는 환자 및 검체 그리고 분석 장비의 분석 모듈 별로 두 개 내지 네 개의 파일로 구분되며, 각 파일은 분석 파라미터 별 측정값이 도 8의 (a)와 같이 나열되어 있는 테이블 형식으로 구현될 수 있다.
예를 들어, 생체 추출 데이터는 4 개의 분석 파라미터를 이용한 4 차원의 좌표들로 이루어진 점들의 집합일 수 있다. 하지만, 이미지 표현을 통해 이해를 돕기 위하여 생체 추출 데이터에 포함된 네 개의 파라미터 중 세 개의 파라미터를 선택하고, 선택된 파라미터를 이용하여 도 8의 (b)와 같이 3 차원적 좌표점들로 표현하였다. 여기서, 질병 진단 장치(100)는 선택된 파라미터를 통해 데이터 전처리를 위한 초기 데이터를 생성할 수 있다.
도 9a 내지 도 9d는 본 발명의 실시예에 따른 복수의 채널 각각의 초기 데이터를 나타낸 예시도이다. 도 9a 내지 도 9d는 본 발명의 실시예에 따른 CBC 유래 FCS 데이터에 포함된 복수의 파라미터(본 예에서는 3 개의 파라미터) 각각의 초기 데이터를 3차원 (초)입방체 내 형상으로 나타낸 예시도이다. 도 9a 내지 도 9d에 예시한 각 10 개의 입방체 내 형상은 10 개의 검체 또는 10 명의 환자에서 유래한 데이터를 시각화 한 것으로 유사하면서도 각기 다른 형태적 특징을 갖고 있다.
생체 추출 데이터를 기반으로 3 차원의 좌표점들은 도 9a 내지 도 9d와 같은 플롯(plot)으로 그래프화될 수 있다. 이러한 좌표점들의 플롯 양상은 환자/검체 별로 유사하지만 미세한 차이를 보인다. 예를 들어, 자동혈액분석장비는 2 개 내지 4 개의 채널(또는 모듈)을 통한 개별적 분석을 동시에 시행하기 때문에 한 검체 당 2 개 내지 4 개의 FCS 데이터를 생성할 수 있다.
도 9a 내지 도 9d는 10 명의 환자에서 수집한 자동혈구분석(CBC) 각 채널 별 FCS 데이터의 4 개 파라미터들(FCS, FCSW, SSC, SFL: 4 차원) 중 세 개의 파라미터를 3 차원 좌표에 열거해 놓은 것이다. 각 채널 별로 10 개의 FCS 데이터 플롯을 열거하여 육안 비교가 가능하도록 나타내었다.
도 9a는 WDF channel(자동혈구분석기 백혈구 분석 channel 중 하나)에 대한 플롯들이고, 도 9b는 WPC channel(자동혈구분석기 백혈구 분석 channel 중 하나)에 대한 플롯들을 나타낸다. 도 9c는 WNR channel(자동혈구분석기 백혈구 분석 channel)에 대한 플롯들이고, 도 9d는 PLT-F channel(자동혈구분석기 혈소판 분석 channel 중 하나)에 대한 플롯들을 나타낸다. 도 9a 내지 도 9d에 도시된 각 플롯은 유사한 군집(Clustering) 양상을 보이나 자세한 분포 양상에서 미세한 차이를 보인다.
도 10a 및 도 10b는 본 발명의 실시예에 따른 생체 추출 데이터를 기반으로 기본적인 데이터를 변형하는 동작을 설명하기 위한 예시도이다.
도 10a는 FCS 데이터를 초입방체 공간 내(이 예에서는 3 개 파라미터에 대응하는 3차원 입방체) 형상으로 표현할 수 있음을 설명하기 위한 예시도이다. 초입방체 공간은 초입방체 픽셀의 집합으로 구성되어 있으며, 각 픽셀의 위치를 나타내는 좌표가 각 대응 파라미터의 측정값이 된다. 각 픽셀의 음영(gray scale) 강도는 각 픽셀의 위치에 해당하는 파라미터 값의 조합을 갖는 세포 또는 입자의 수에 의해 결정된다.
도 10b는 초기 데이터를 변형하는 동작을 설명하기 위한 데이터 테이블을 나타낸다. 도 10b는 상기 파라미터 값과 초입방체 픽셀 좌표와의 관계, 그리고 각 픽셀의 음영 강도 정의에 따라 픽셀 별 음영 강도(Count 열)를 나타내고 픽셀의 좌표에 따라 정렬하여 표시한 테이블의 예시 설명이다.
질병 진단 장치(100)는 초기 데이터(FCS 데이터)의 파라미터 각각의 측정값들을 병합하여 각각의 검사 항목값이 하나의 좌표값이 되도록 변형한다.
또한 진단장치(100)는 초기 데이터에 포함된 전체 또는 일부 파라미터의 측정값들을 선정된 일정한 값(예: 4, 8, 32 등의 특정 값)으로 나눈 몫으로 치환하는 방법으로 데이터를 변형(이미지 깊이 변환)하고, 이때 발생하는 데이터의 유실을 막기 위해 각 몫에 소정의 값(예: 10)을 더하는 방법을 취한다.
또한, 질병 진단 장치(100)는 변형된 데이터와 상기 변형된 데이터 각각에 대한 카운트값을 포함하는 데이터 테이블을 생성한다.
질병 진단 장치(100)는 변형된 데이터에 포함된 좌표값과 동일한 좌표값이 존재하는 경우, 동일한 좌표값을 삭제하고 좌표값에 대한 카운트값을 기 설정된 단위로 증가하여 카운트값을 갱신하고, 변형된 데이터와 갱신된 카운트값을 포함하는 데이터 테이블을 생성한다. 예를 들어, 질병 진단 장치(100)는 변형된 데이터의 좌표값이 1 개일 경우 카운트값을 1로 부여하고, 동일한 좌표값이 존재하는 경우 해당 좌표값의 카운트값을 2로 부여하는 방식으로 새로운 데이터 테이블을 생성할 수 있다.
질병 진단 장치(100)는 데이터 테이블을 통해, 좌표 공간 내 각 픽셀(pixel)에 해당하는 좌표점의 수를 계산할 수 있다. 도 10a의 예시는 변형된 데이터에 포함된 좌표값을 그래프로 나타낸 것이고, 도 10b는 데이터 테이블을 통해 좌표 공간 내 각 픽셀(pixel)에 해당하는 좌표점을 카운팅하는 동작을 나타낸다.
도 11은 본 발명의 실시예에 따른 생체 추출 데이터를 기반으로 데이터를 재구성하는 동작을 예시하여 설명하기 위한 도면이다. FCS 데이터를 상기 방법과 같이 초입방체 내 형상을 나타내는 테이블로 1차 전환한 뒤 이를 재 배열하여 2차원 이미지 형식으로 2차 변환한 예시도이다.
질병 진단 장치(100)는 데이터 테이블의 좌표 순으로 표시된 카운트 값을 동일한 순서의 1 차원 배열로 나타내고, 이를 재구성하여 기계학습용 2차원 배열(이미지 형식)로 재구성할 수 있다.
질병 진단 장치(100)는 변형된 데이터에 포함된 좌표값을 1 차원 좌표값으로 구성하고, 1 차원 좌표값으로 구성하는 과정에서 좌표값이 존재하지 않는 부분을 0 값으로 채우거나, 또는 좌표값이 존재하는 부분만 표시하는 방법을 사용하여
Figure PCTKR2020013944-appb-I000004
(ni는 기 설정된 기준 크기값 이상의 자연수) 형태의 기계학습용 데이터 테이블로 재구성할 수 있다. 예를 들어, 질병 진단 장치(100)는 도 11에 도시된 바와 같이, 12 * 12 크기의 기계학습용 데이터 테이블과 같이 데이터를 재구성할 수 있다. 여기서, 하나의 행은 하나의 좌표값 및 카운트값을 의미한다.
이상의 설명은 본 발명의 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명의 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명의 실시예들은 본 발명의 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
<부호의 설명>
100: 질병 진단 장치 110: 입력부
120: 출력부 200: 프로세서
300: 메모리 400: 데이터 베이스
210: 데이터 획득부 220: 데이터 전처리부
230: 데이터 학습부 240: 질병 진단부

Claims (17)

  1. 하나 이상의 프로세서 및 상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 컴퓨팅 디바이스에 의해 수행되는 질병 진단 방법에 있어서,
    상기 컴퓨팅 디바이스는,
    진단 대상의 혈액에서 추출된 생체 추출 데이터를 획득하는 데이터 획득 단계;
    상기 생체 추출 데이터에 포함된 복수 개의 파라미터를 기반으로 생성된 초기 데이터를 복수의 채널 각각에 대한 좌표값으로 변형하고, 변형된 데이터를 학습용 데이터로 재구성하는 데이터 전처리 단계;
    상기 재구성된 학습용 데이터에서 특징값을 추출하고, 상기 특징값을 분류하여 학습을 수행하는 데이터 학습 단계; 및
    학습된 상기 특징값을 이용하여 특정 질병을 진단하는 질병 진단 단계
    를 수행하는 것을 특징으로 하는 질병 진단 방법.
  2. 제1항에 있어서,
    상기 데이터 획득부는,
    상기 혈액의 유세포 분석(Flow Cytometry)에 대한 결과를 나타내는 상기 생체 추출 데이터를 획득하며,
    상기 생체 추출 데이터는, 연동하는 데이터베이스에 기 저장된 데이터에서 자동으로 수집되며, 기 설정된 정형화된 형식 또는 FCS(Flow Cytometry Standard) 형식의 데이터인 것을 특징으로 하는 질병 진단 방법.
  3. 제1항에 있어서,
    상기 데이터 전처리 단계는,
    상기 생체 추출 데이터에 포함된 검사 항목 채널의 복수 개의 파라미터의 전체 또는 일부 파라미터의 측정값을 이용하여 초기 데이터를 생성하는 초기 데이터 생성 단계;
    상기 초기 데이터에 포함된 상기 일부 파라미터의 측정값들을 병합하여 상기 검사 항목 채널 각각에 대한 좌표값을 포함하는 데이터로 변형하고, 상기 변형된 데이터와 상기 변형된 데이터 각각에 대한 카운트값을 포함하는 데이터 테이블을 생성하는 데이터 변형 단계; 및
    상기 데이터 테이블에 포함된 상기 변형된 데이터를 이용하여 기계학습용 데이터 테이블로 재구성하는 데이터 재구성 단계
    를 포함하는 것을 특징으로 하는 질병 진단 방법.
  4. 제3항에 있어서,
    상기 초기 데이터 생성 단계는,
    상기 복수 개의 파라미터의 전체 또는 2 개 이상의 파라미터 각각에 대한 상기 측정값을 이용하여 상기 초기 데이터를 생성하는 것을 특징으로 하는 질병 진단 방법.
  5. 제3항에 있어서,
    상기 데이터 변형 단계는,
    상기 일부 파라미터의 측정값을 순차적 또는 기 설정된 순서로 병합하여 생성된 상기 좌표값을 포함하는 상기 변형된 데이터로 변형하는 것을 특징으로 하는 질병 진단 방법.
  6. 제3항에 있어서,
    상기 데이터 변형 단계는,
    상기 변형된 데이터에 포함된 상기 좌표값과 동일한 좌표값이 존재하는 경우, 동일한 좌표값을 삭제하고, 상기 좌표값에 대한 상기 카운트값을 기 설정된 단위로 증가하여 상기 카운트값을 갱신하고, 상기 변형된 데이터와 갱신된 상기 카운트값을 포함하는 상기 데이터 테이블을 생성하는 것을 특징으로 하는 질병 진단 방법.
  7. 제3항에 있어서,
    상기 데이터 변형 단계는,
    상기 초기 데이터에 포함된 전체 또는 일부 파라미터의 측정값들을 기 선정된 일정한 값으로 나눈 몫으로 치환하고, 데이터 유실을 막기 위해 각 몫에 소정의 값을 더하는 방식으로 이미지 깊이를 변형한 데이터와 상기 변형된 데이터 각각에 대한 카운트값을 포함하는 데이터 테이블을 생성하는 것을 특징으로 하는 질병 진단 방법.
  8. 제3항에 있어서,
    상기 데이터 재구성 단계는,
    상기 변형된 데이터에 포함된 상기 좌표값을 1 차원 좌표값으로 구성하고,
    상기 1 차원 좌표값을 만드는 과정에서 좌표값이 존재하지 않는 부분을 0 값으로 채우거나 또는 좌표값이 존재하는 부분만 표시하는 방법을 사용하여 구성된 2 차원 또는 3 차원의 기계학습용 데이터 테이블로 재구성하는 것을 특징으로 하는 질병 진단 방법.
  9. 제3항에 있어서,
    상기 데이터 학습 단계는,
    합성망 알고리즘을 이용하여 상기 기계확습용 데이터 테이블에 포함된 상기 재구성된 데이터 내에서 특징값을 추출하고, 상기 특정 질병 별로 상기 특징값을 분류하여 학습하는 것을 특징으로 하는 질병 진단 방법.
  10. 제3항에 있어서,
    상기 질병 진단 단계는,
    상기 진단 대상에 대한 신규 정보가 입력된 경우, 상기 신규 정보와 상기 특정 질병에 대한 상기 특징값을 비교하여 질병을 진단하는 것을 특징으로 하는 질병 진단 방법.
  11. 생체 추출 데이터를 전처리하여 질병을 진단하는 장치로서,
    하나 이상의 프로세서; 및
    상기 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하며, 상기 프로그램들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서들에서,
    진단 대상의 혈액에서 추출된 생체 추출 데이터를 획득하는 데이터 획득 단계;
    상기 생체 추출 데이터에 포함된 복수 개의 파라미터를 기반으로 생성된 초기 데이터를 복수의 채널 각각에 대한 좌표값으로 변형하고, 변형된 데이터를 학습용 데이터로 재구성하는 데이터 전처리 단계;
    상기 재구성된 학습용 데이터에서 특징값을 추출하고, 상기 특징값을 분류하여 학습을 수행하는 데이터 학습 단계; 및
    학습된 상기 특징값을 이용하여 특정 질병을 진단하는 질병 진단 단계
    를 포함하는 동작들을 수행하게 하는 것을 특징으로 하는 질병 진단 장치.
  12. 제11항에 있어서,
    상기 데이터 전처리 단계는,
    상기 생체 추출 데이터에 포함된 검사 항목 채널의 복수 개의 파라미터의 전체 또는 일부 파라미터의 측정값을 이용하여 초기 데이터를 생성하는 초기 데이터 생성 단계;
    상기 초기 데이터에 포함된 전체 또는 일부 파라미터의 측정값들을 기 선정된 일정한 값으로 나눈 몫으로 치환하고, 데이터 유실을 막기 위해 각 몫에 소정의 값을 더하는 방식으로 이미지 깊이를 변형한 데이터와 상기 변형된 데이터 각각에 대한 카운트값을 포함하는 데이터 테이블을 생성하는 데이터 변형 단계; 및
    상기 데이터 테이블에 포함된 상기 변형된 데이터를 이용하여 기계학습용 데이터 테이블로 재구성하는 데이터 재구성 단계
    를 포함하는 것을 특징으로 하는 질병 진단 장치.
  13. 제12항에 있어서,
    상기 초기 데이터 생성 단계는,
    상기 복수 개의 파라미터의 전체 또는 적어도 2 개 이상의 파라미터 각각에 대한 상기 측정값을 이용하여 상기 초기 데이터를 생성하며,
    상기 변형된 데이터에 포함된 상기 좌표값과 동일한 좌표값이 존재하는 경우, 동일한 좌표값을 삭제하고, 상기 좌표값에 대한 상기 카운트값을 기 설정된 단위로 증가하여 상기 카운트값을 갱신하고, 상기 변형된 데이터와 갱신된 상기 카운트값을 포함하는 상기 데이터 테이블을 생성하는 것을 특징으로 하는 질병 진단 장치.
  14. 제12항에 있어서,
    상기 데이터 재구성 단계는,
    상기 변형된 데이터에 포함된 상기 좌표값을 1 차원 좌표값으로 구성하고, 상기 1 차원 좌표값으로 구성하는 과정에서 좌표값이 존재하지 않는 부분을 0 값으로 채우거나 또는 좌표값이 존재하는 부분만 표시하는 방법을 사용하여 구성된 2 차원 또는 3 차원의 기계학습용 데이터 테이블로 재구성하는 것을 특징으로 하는 질병 진단 장치.
  15. 제11항에 있어서,
    상기 데이터 학습 단계는,
    합성망 알고리즘을 이용하여 상기 기계확습용 데이터 테이블에 포함된 상기 재구성된 데이터 내에서 특징값을 추출하고, 상기 특정 질병 별로 상기 특징값을 분류하여 학습하는 것을 특징으로 하는 질병 진단 장치.
  16. 제11항에 있어서,
    상기 질병 진단 단계는,
    상기 진단 대상에 대한 신규 정보가 입력된 경우, 상기 신규 정보와 상기 특정 질병에 대한 상기 특징값을 비교하여 질병을 진단하는 것을 특징으로 하는 질병 진단 장치.
  17. 컴퓨터에 제1항 내지 제10항 중 어느 한 항에 따른 질병 진단 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터프로그램.
PCT/KR2020/013944 2019-10-18 2020-10-13 생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치 WO2021075826A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/509,779 US20220044765A1 (en) 2019-10-18 2021-10-25 Preprocessing and convolutional operation apparatus for clinical decision-making artificial intelligence development using hypercubic shapes based on bio data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190129523A KR102154335B1 (ko) 2019-10-18 2019-10-18 생체 추출 데이터를 전처리하여 질병을 판단하는 방법 및 그를 위한 장치
KR10-2019-0129523 2019-10-18

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/509,779 Continuation-In-Part US20220044765A1 (en) 2019-10-18 2021-10-25 Preprocessing and convolutional operation apparatus for clinical decision-making artificial intelligence development using hypercubic shapes based on bio data

Publications (1)

Publication Number Publication Date
WO2021075826A1 true WO2021075826A1 (ko) 2021-04-22

Family

ID=72469172

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/013944 WO2021075826A1 (ko) 2019-10-18 2020-10-13 생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치

Country Status (3)

Country Link
US (1) US20220044765A1 (ko)
KR (1) KR102154335B1 (ko)
WO (1) WO2021075826A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102494834B1 (ko) * 2021-10-21 2023-02-06 연세대학교 산학협력단 Fcs 데이터 기원 초입방체 형상의 가상 데이터 포인트 추가 및 불완전 데이터 세트 군집 분석을 위한 데이터 처리 장치 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102330216B1 (ko) * 2021-05-31 2021-11-25 (주)웨버인스트루먼트 Ai학습 분석을 이용한 골연령 및 건강상태 판독방법
KR102494833B1 (ko) * 2021-10-12 2023-02-06 연세대학교 산학협력단 생체 데이터 기반 초입방 형상을 활용한 임상적 의사결정 인공지능 개발을 위한 전처리 및 합성곱 연산 장치
WO2023080601A1 (ko) * 2021-11-05 2023-05-11 고려대학교 세종산학협력단 머신러닝 기반의 렌즈프리 그림자 이미징 기술을 이용한 질병 진단 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010017092A (ko) * 1999-08-07 2001-03-05 김판구 혈구세포의 형태 자동 분석 및 카운트 방법
JP5025371B2 (ja) * 2007-07-31 2012-09-12 シスメックス株式会社 血液分析装置
US20180003634A1 (en) * 2014-12-31 2018-01-04 Shenzhen Mindray Bio-Medical Electronics., Ltd. Nucleated red blood cell warning method and device, and flow cytometer using the same
KR20180063773A (ko) * 2016-12-02 2018-06-12 숭실대학교산학협력단 혈관 특징 정보를 기반으로 하는 삼차원 심혈관 정합 방법, 이를 수행하기 위한 기록 매체 및 장치
KR20190022026A (ko) * 2017-08-25 2019-03-06 (주)뉴옵틱스 혈구 감별 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7299135B2 (en) * 2005-11-10 2007-11-20 Idexx Laboratories, Inc. Methods for identifying discrete populations (e.g., clusters) of data within a flow cytometer multi-dimensional data set
KR20180051844A (ko) * 2016-11-09 2018-05-17 (주)뉴옵틱스 혈구 분석 시스템 및 분석방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010017092A (ko) * 1999-08-07 2001-03-05 김판구 혈구세포의 형태 자동 분석 및 카운트 방법
JP5025371B2 (ja) * 2007-07-31 2012-09-12 シスメックス株式会社 血液分析装置
US20180003634A1 (en) * 2014-12-31 2018-01-04 Shenzhen Mindray Bio-Medical Electronics., Ltd. Nucleated red blood cell warning method and device, and flow cytometer using the same
KR20180063773A (ko) * 2016-12-02 2018-06-12 숭실대학교산학협력단 혈관 특징 정보를 기반으로 하는 삼차원 심혈관 정합 방법, 이를 수행하기 위한 기록 매체 및 장치
KR20190022026A (ko) * 2017-08-25 2019-03-06 (주)뉴옵틱스 혈구 감별 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102494834B1 (ko) * 2021-10-21 2023-02-06 연세대학교 산학협력단 Fcs 데이터 기원 초입방체 형상의 가상 데이터 포인트 추가 및 불완전 데이터 세트 군집 분석을 위한 데이터 처리 장치 및 방법

Also Published As

Publication number Publication date
KR102154335B1 (ko) 2020-09-09
US20220044765A1 (en) 2022-02-10

Similar Documents

Publication Publication Date Title
WO2021075826A1 (ko) 생체 추출 데이터를 전처리하여 질병을 진단하는 방법 및 그를 위한 장치
CN110853022B (zh) 病理切片图像的处理方法、装置、系统及存储介质
CN110335665A (zh) 一种应用于医学图像辅助诊断分析的以图搜图方法及系统
Qiao et al. Early Alzheimer’s disease diagnosis with the contrastive loss using paired structural MRIs
WO2021034138A1 (ko) 치매 평가 방법 및 이를 이용한 장치
Alabrak et al. Artificial intelligence role in subclassifying cytology of thyroid follicular neoplasm
Li et al. Research about tongue image of traditional chinese medicine (TCM) based on artificial intelligence technology
Li et al. An AI-Aided diagnostic framework for hematologic neoplasms based on morphologic features and medical expertise
CN116844733B (zh) 一种基于人工智能的医疗数据完整性分析方法
WO2023101444A1 (ko) 인공 지능 모델 기반 종양 관리 장치 및 방법
Labib et al. Data mining for cancer management in Egypt case study: childhood acute lymphoblastic leukemia
WO2022158843A1 (ko) 조직 검체 이미지 정제 방법, 및 이를 수행하는 컴퓨팅 시스템
Li et al. MVDI25K: A large-scale dataset of microscopic vaginal discharge images
Li et al. Measuring human decision confidence from EEG signals in an object detection task
Voggu et al. A survey on skin disease detection using deep learning techniques
Chen et al. Weakly supervised deep learning for detecting and counting dead cells in microscopy images
Khaniki et al. Hierarchical SegNet with Channel and Context Attention for Accurate Lung Segmentation in Chest X-ray Images
WO2024147603A1 (ko) 심전도로 심근변형을 평가하는 인공지능 기반 장치 및 방법
Suryakanth et al. SA: 3D CNN-residual neural network based multimodal medical image classification
Arbab et al. Automatic Detection and Classification of Acute Lymphoblastic Leukemia Using Convolution Neural Network
KR102633197B1 (ko) Fcs 데이터의 초입방체 형상 테이블을 기초로 초입방체 픽셀의 그라디언트 분석을 통해 자동으로 군집을 분석하는 장치 및 방법
Priyadharshini et al. Artificial Intelligence Assisted Improved Design to Predict Brain Tumor on Earlier Stages using Deep Learning Principle
KR102494834B1 (ko) Fcs 데이터 기원 초입방체 형상의 가상 데이터 포인트 추가 및 불완전 데이터 세트 군집 분석을 위한 데이터 처리 장치 및 방법
WO2023022444A1 (ko) 병리 슬라이드 이미지로부터 예측된 종양 함량에 기초하여 검사와 관련된 가이드를 제공하는 방법 및 장치
Khan et al. Explainable Deep Learning to Profile Mitochondrial Disease Using High Dimensional Protein Expression Data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20877220

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20877220

Country of ref document: EP

Kind code of ref document: A1