WO2024096149A1 - 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법 - Google Patents
차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법 Download PDFInfo
- Publication number
- WO2024096149A1 WO2024096149A1 PCT/KR2022/016888 KR2022016888W WO2024096149A1 WO 2024096149 A1 WO2024096149 A1 WO 2024096149A1 KR 2022016888 W KR2022016888 W KR 2022016888W WO 2024096149 A1 WO2024096149 A1 WO 2024096149A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- read file
- read
- file
- reverse
- clause
- Prior art date
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 85
- 230000000813 microbial effect Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000005516 engineering process Methods 0.000 title abstract description 14
- 238000007481 next generation sequencing Methods 0.000 title description 40
- 108020004414 DNA Proteins 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 230000010365 information processing Effects 0.000 claims abstract description 3
- 244000005700 microbiome Species 0.000 claims description 72
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 241000233866 Fungi Species 0.000 abstract description 19
- 108091023242 Internal transcribed spacer Proteins 0.000 abstract description 9
- 238000007781 pre-processing Methods 0.000 abstract description 5
- 239000000523 sample Substances 0.000 description 21
- 238000010606 normalization Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 9
- 241000894007 species Species 0.000 description 9
- 241000894006 Bacteria Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000002773 nucleotide Substances 0.000 description 7
- 125000003729 nucleotide group Chemical group 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 108020004465 16S ribosomal RNA Proteins 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000009966 trimming Methods 0.000 description 2
- 108010069941 DNA receptor Proteins 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Definitions
- This example relates to a method for recombining the base sequence of a microorganism, and more specifically, to a method and system for analyzing the base sequence of a microorganism using a next-generation sequencing method.
- eDNA is the DNA of microorganisms collected from various environmental samples and is defined as a bio-indicator that can diagnose the degree of contamination in the surrounding environment. Since the DNA sequence is different for each microbial species, samples from the environment of interest are collected and the contents of the sample are collected. Various technologies have been proposed to measure the type of microorganism.
- a database that distinguishes various species of microorganisms has been developed and shared. By extracting microbial DNA sequence information from environmental samples of interest and comparing it with the information in the database, it is possible to define microorganisms in the environment. .
- sequence reads of the corresponding microorganism samples that are read and delivered through Illumina's NGS equipment are generated in a standardized format.
- each sample data is cut into read units in the batch, the sequence is read in an expanded state, and each sequence read data is recorded as a FASTQ file.
- Bioinformatics technology for generating desired DNA sequence information by processing the FASTQ file of each sample and related microbial classification technology have also been proposed in various ways.
- US patent US 11335436B2 proposes a classification technology that allows simultaneous comparison of multiple targets for multiple microorganisms.
- This embodiment provides a microorganism analysis method that can detect microorganisms with a length longer than a certain length without missing them by processing a FASTQ file using NGS technology.
- the second task of this embodiment is to provide a microorganism analysis method that can process and analyze sequence read files of unpaired microorganisms in FASTQ files using NGS technology into valid data.
- the third task of this embodiment is to provide a microorganism analysis method that can detect both the type and amount of matched microorganisms and provides result data that can be directly utilized by providing the detected microorganisms as processed data to the user.
- This embodiment includes the steps of reading a forward read file and a reverse read file for one ID; performing pairing by detecting an overlap section between the forward read file and the reverse read file for the one ID; If there is no overlap section, determining whether a valid single read file exists among the forward read file and the reverse read file; Merging the forward read file and reverse read file for the paired ID to create an integrated read file; and matching the valid single read file and the integrated read file with a standard DNA base sequence as a final read file to specify a microorganism.
- the forward read file and reverse read file for the one ID may be NGS-analyzed FASTQ files.
- the forward read file and reverse read file for the one ID may be generated to correspond to each of a plurality of reads divided through NGS analysis for a microbial sample extracted from the target environment.
- Each base point of the forward read file and reverse read file for one ID may include each of the quality scores.
- the valid single read can be determined by counting the number of base points whose quality score is greater than or equal to a first threshold among the forward read file and reverse read file for the one ID.
- the valid single read may be defined as a read file in which the number of base points with a quality score of the forward read file and the reverse read file for the one ID is greater than or equal to the first threshold value or greater than the second threshold value.
- a large read file can be defined as the effective single read.
- the second threshold may be 50% or more of the total number of base points in the forward read file or reverse read file.
- the final read file may be matched from the standard DNA sequence database corresponding to the target environment among the standard DNA sequence databases for each individual environment.
- the step of matching the final read file with the standard DNA sequence database can specify both the type and amount of microorganisms matched with the final read file.
- the history may be updated and transmitted to the user terminal.
- an alarm can be sent to the user terminal.
- this embodiment includes an input unit that receives a set of NGS analysis files for the target environment from an external NGS server; Reading the forward read file and reverse read file for one ID of the NGS analysis files, performing pairing of the forward read file and reverse read file for the one ID to generate an integrated read file, and among the read files that failed pairing A preprocessor that performs filtering to define a valid single read file; A classifier that receives the integrated read file and the valid single read file as a final read file from the preprocessor and matches them with a standard DNA base sequence to specify microorganisms; and an information processing unit that processes the specified microorganism information and transmits it to a user terminal.
- the forward read file and reverse read file for the one ID may be NGS-analyzed FASTQ files.
- Each base point of the forward read file and reverse read file for one ID may include each of the quality scores.
- the valid single read can be determined by counting the number of base points whose quality score is greater than or equal to a first threshold among the forward read file and reverse read file for the one ID.
- the valid single read may be defined as a read file in which the number of base points with a quality score of the forward read file and the reverse read file for the one ID is greater than or equal to the first threshold value or greater than the second threshold value.
- a large read file can be defined as the effective single read file.
- the second threshold may be 50% or more of the total number of base points in the forward read file or reverse read file.
- fungi with ITS1 and ITS2 longer than the bp (basepoint) read by Illumia's NGS equipment which processes FASTQ files using NGS technology, can be detected together without being filtered.
- the matching probability can be improved by selecting and matching valid single reads with high quality scores.
- FIG. 1 is a diagram showing a microorganism analysis system according to this embodiment.
- Figure 2 is a configuration diagram of the microorganism analysis device of Figure 1.
- Figure 3 is a flowchart showing the microorganism analysis method of Figure 2.
- Figures 4a to 4d are conceptual diagrams showing the characteristics of the DNA sequence of each microorganism for NGS analysis
- Figure 4e is a graph showing the BP length of ITS1 and ITS2 of fungi.
- Figure 5 shows a FASTQ file by NGS analysis.
- Figure 6 is a detailed flow chart showing the pretreatment steps of the microbial analysis device.
- Figures 7a and 7b are diagrams showing before and after a merge operation of a FASTQ file of paired sequence reads.
- Figure 8 is a flowchart showing the process of selecting a valid single read of an unpaired sequence read.
- 9A and 9B are diagrams showing before and after an operation for defining an effective single lead.
- NGS Next Generation Sequencing
- target sample refers to a sample that is the target of NGS analysis.
- the target sample may be a biological sample collected from microorganisms obtained from a specific environment, that is, the target environment 300.
- NGS data for each sample can be provided as a pair of files.
- the microbial analysis system collects microbial samples from the target environment 300, performs NGS analysis on them, and then processes and matches the NGS-analyzed FASTQ file to improve matching accuracy. It's about an analysis system.
- the FASTQ file is a standardized file format, and is a file in which the nucleotide sequence, or sequence, is read forward and reverse for each read of each sample, and the FASTQ files corresponding to the forward and reverse are paired as a pair. Includes.
- the microorganism analysis system receives a FASTQ file from the NGS server 400, an NGS server 400 that obtains a microbial sample collected from the target environment 300 and performs NGS analysis, processes it, matches it with a specific microorganism, and provides information about the microbial sample. It includes a microbial analysis device 100 and a user terminal 200 that provide a response method.
- the target environment 300 may be various surrounding environments where the user is located, or various surrounding environments that the user is interested in, and may be a home, especially an environment vulnerable to microorganisms within the home, and may be a specific area such as a kitchen, refrigerator, or sink. Alternatively, it may be a specific environment within a business location, such as a display stand or countertop in a retail area such as a convenience store or restaurant.
- the user terminal 200 is a device capable of wired or wireless communication capable of receiving data from the microorganism analysis device 100, and includes a tablet PC, PDA (Personal Digital Assistant), laptop, cellular phone, PCS (Personal Communication Service) phone, and handheld PC ( Hand-Held PC), GSM (Global System for Mobile) phones, W-CDMA (Wideband CDMA) phones, CDMA-2000 phones, and smartphones.
- a tablet PC PDA (Personal Digital Assistant), laptop, cellular phone, PCS (Personal Communication Service) phone, and handheld PC ( Hand-Held PC), GSM (Global System for Mobile) phones, W-CDMA (Wideband CDMA) phones, CDMA-2000 phones, and smartphones.
- the user terminal 200 includes a display device capable of displaying the final microbial information from the microbial analysis device 100, and an application that can receive the final microbial information from the microbial analysis device 100 in various forms is installed. It may be.
- the user terminal 200 may be able to respond to the microorganism, analyze the results, and determine the expected recovery time.
- the NGS server 400 that performs NGS analysis collects DNA from the collected microbial sample, cultivates reads that cut the DNA to a predetermined length, reads bases from both ends of each read, and generates a FASTQ file. to provide.
- NGS servers 400 can be applied, and as an example, Illumina's NGS equipment can be applied.
- the microbial analysis device 100 of this embodiment receives a FASTQ file from the NGS server 400, processes the FASTQ file, and matches it with the reference base sequence of the database of the plurality of classifiers 140 that are classified. Define microorganisms in each FASTQ file.
- the microorganism analysis device 100 of this embodiment stores the base sequences of each defined microorganism in the database of each category, and strengthens the matching model of each classifier 140 to enable gradually optimized modeling.
- the microorganism analysis device 100 of this embodiment can detect various microorganisms that can be found in a specific environment around the user, especially short-length DNA receptors such as fungi and viruses, by processing the FASTQ file read by co-culturing.
- the microorganism analysis device 100 can detect fungi by compensating for filtering errors due to failed pairing in the case of fungi having a longer DNA length depending on the DNA length difference between fungi and bacteria.
- microorganism analysis device 100 processing and analyzing the FASTQ file so that both fungi (mould) and bacteria (bacteria) can be detected.
- FIG. 2 is a configuration diagram of the microorganism analysis device 100 of FIG. 1, and FIG. 3 is a flowchart showing the microorganism analysis method of FIG. 2.
- the microbial analysis device 100 includes a communication unit 110 including an input unit 111 and an output unit 113, a preprocessing unit 120, a normalization module 130, a classifier 140, and a processing unit. Includes (150).
- the communication unit 110 is a communication module that communicates with the NGS server 400 and the user terminal 200 using wired and wireless communication, and can be varied depending on the designated network.
- the network can apply wireless communication technologies such as IEEE 802.11 WLAN, IEEE 802.15 WPAN, UWB, Wi-Fi, Zigbee, Z-wave, Blue-Tooth, etc., and at least one communication technology can be applied.
- wireless communication technologies such as IEEE 802.11 WLAN, IEEE 802.15 WPAN, UWB, Wi-Fi, Zigbee, Z-wave, Blue-Tooth, etc.
- the pre-processing unit 120 processes the FASTQ file input through the input unit 111 and provides it in a state that can be normalized and matched.
- the preprocessor 120 removes primers by trimming the received FASTQ file and performs filtering to generate one merged read by pairing each FASTQ file of one ID.
- the merged reads are provided to the normalization module 130, and matching is performed through modeling of the classifier 140 through normalization.
- the preprocessor 120 determines a valid single read according to the quality of the single read to compensate for fungi with long DNA that fails in pairing.
- the preprocessor 120 provides the merged reads and the valid single reads as final reads to the normalization module 130.
- the normalization module 130 When analyzing the diversity of a plurality of final reads received, the normalization module 130 generates excessive or under-diversity analysis results based on different sequencing depths (amount of information of microbial community) for each sample to equalize the amount of information. Proceed with normalization.
- the normalization module 130 can perform diversity analysis using the optimal amount of information by setting the final read level for each sample to the maximum within the limit that can save as much information as possible.
- a specific diversity table can be loaded according to the target environment 300 of each sample, and the normalization module 130 can be activated according to the loaded diversity table.
- the data in the diversity table analyzes previously held data, draws the degree of diversity for each final lead, and then saves the final lead and diversity relationship only for the diversity that is above a certain range compared to the diversity saturation value and creates a database.
- each diversity table is learned to further strengthen the state specialized for the corresponding environment.
- the filtered final reads are loaded, the corresponding diversity table data is read, and the number of filtered reads among the final read values in the diversity table data is less than the first critical range among the total number of reads, Normalization is performed by selecting the final read value with the largest value.
- the final sequencing depth value is generated by repeating the selected value as the final read value a predetermined number of times.
- the classifier 140 analyzes which species and genus of microorganisms are present in the sample by comparing and matching the selected final reads with a reference sequence database by applying the classifier 140 for each field.
- the classifier 140 separately constructs a reference sequence database for each environment and performs matching of the final read from the reference sequence database for each environment.
- the reference sequence database for each environment can be classified into household, hospital, retail, and food production facilities, similar to diversity analysis, but can be classified separately.
- a classifier 140 for a specific environment that is, a reference sequence database
- running a classification algorithm that matches it only microorganisms specialized for a specific environment can be compared in a limited way.
- a reference sequence database specialized for each field can be initially created by selecting and processing the genetic information of individual 16S rRNA genes registered in the publicly available National Center for Biotechnology Information (NCBI) and classifying it for each environment.
- NCBI National Center for Biotechnology Information
- the processing unit 150 secures information on the type and amount of microorganisms matched to the final read by the classifier 140, it processes the information and provides it to the user terminal 200.
- the processing unit 150 can perform both alpha diversity analysis and beta diversity analysis on the information about the received final read.
- Alpha diversity analysis analyzes and displays the level of each final read
- Beta diversity analyzes and provides the degree of dissimilarity between each final read, and can be provided in tables and graphs.
- the processing unit 150 provides a trend of microbial changes in the target environment 300 and a response method through history analysis. possible.
- the output unit 113 transmits the result data provided from the processing unit 150 to the designated user terminal 200, and can perform a user alarm if any of the detected microorganisms contain dangerous microorganisms above a predetermined level. there is.
- the microbial analysis device 100 may be composed of an embedded system board equipped with a memory card as a data storage unit (not shown), a library file for microbial analysis, and a signal processing device.
- a memory card capable of storing output signal data is inserted into the embedded system board, and the memory card stores the system OS, driving program, and library files for analysis.
- signal processing for analysis of multiple final reads is calculated through comparative analysis with library files in the CPU of the embedded system board, and the analysis results are stored back in the memory card.
- the communication unit 110 can be mounted together in such an embedded system board, but it is not limited to this.
- microorganism analysis method of the microorganism analysis device 100 will be described with reference to FIGS. 3 to 9.
- Figure 3 is a flowchart showing the microorganism analysis method of Figure 2
- Figures 4a to 4d are conceptual diagrams showing the characteristics of the DNA sequence of each microorganism for NGS analysis
- Figure 4e shows the BP length of ITS1 and ITS2 of the fungus. It is a graph
- Figure 5 shows a FASTQ file by NGS analysis.
- microorganisms that can be found in a specific environment largely include bacteria (bacteria) and fungi (mold), and these number up to hundreds of thousands of species.
- the DNA base sequences (sequences) of each bacteria and fungus are stored in the database of the classifier 140, and such DNA base sequences are stored separately according to each environment.
- the DNA sequence information of the V4 or V3 to V4 region of the 16S RNA gene is generally used to distinguish each species, as shown in the DNA sequence of Figure 4b.
- the length of the DNA sequence meets approximately 300 bp (base point) or less.
- the length of the V3 to V4 region DNA sequence is approximately 500 bp or less.
- the DNA sequence of the ITS1 or ITS2 region of the ITS gene is generally used to distinguish each species, as shown in the DNA sequence of Figure 4c.
- the ITS1 sequence for one fungus has 68 bp of 18S sequence at the front and 50 bp of 5.8S sequence at the end.
- the BP of a read that can be read by NGS equipment is up to 600bp, and reads longer than that are not read, use expensive equipment, or have significantly lower accuracy, making them less useful.
- the final paired read has less than 473 bp due to the removal of the front and back ends.
- the length of the DNA sequence of the forward read of ITS1 is about 232 bp (base point), preferably 300 to 68 bp, and the length of the reverse read of ITS1 is about 250 bp, and only when it has a minimum overlap length of 15 bp.
- the length of the final read is approximately 473bp.
- the microbial analysis method of this embodiment obtains a set of FASTQ files for samples of the target environment 300 from the NGS server 400 (S10).
- FASTQ files for one ID are transmitted as a pair as shown in FIGS. 5A and 5B, with FIG. 5A being a forward read file and FIG. 5B being a reverse read file of the same ID.
- the forward read file When comparing the forward read file and reverse read file of one ID, the forward read file reads the nucleotide sequence from number 5 to number 3 for one sample read, and the reverse read file reads the sequence from number 3 to number 5 in the opposite direction. You can see that it is implemented as a lead file.
- each FASTQ file is created in the same format, and the first row is the ID of the corresponding sample read, and the forward read and the corresponding reverse read have the same ID.
- the second row represents the sequential base sequence, and the forward read and reverse read are written complementary.
- the third row is a separator, and the fourth row consists of an encoder indicating the quality score of each base sequence.
- primers are removed through trimming of the input FASTQ file in the preprocessor 120, each FASTQ file of one ID is paired, and filtering is performed to select a valid sequence read among single sequence reads (S20).
- the preprocessor 120 merges the FASTQ file of one ID for which pairing has been completed and generates one merged read file.
- the merged read file and the valid single read file are input to the normalization module 130 as the final read file of the final read (S30).
- the preprocessor 120 opens a forward read file and a reverse read file corresponding to one id as shown in FIGS. 5A and 5B (S21).
- the preprocessor 120 determines whether an overlap section (OS) exists in the two read files (S24).
- merged reads can be generated by converting the base sequence of the reverse read into a complementary base sequence and arranging it after the overlap section (OS) (S25).
- OS overlap section
- the merged read file created in this way is created by also merging the quality score in the fourth row, as shown in Figure 7b.
- each quality score is read corresponding to the position of each base sequence, so the value itself does not change.
- the merged read file includes a length-enhanced nucleotide sequence having a length of bp excluding the overlap section (OS) of the two reads, and the length-enhanced merged read file is output as the final read ( S27).
- the preprocessor 120 selects one of the two read files as a valid single read without filtering and discarding (S26).
- the preprocessor 120 selects a valid single read among the two read files. Determine whether exists.
- Valid single reads are determined based on the quality score for each base sequence.
- the quality score is a string of unrelated letters or numbers, each letter or number containing encoded quality level information.
- the preprocessor 120 counts the number of base sequences whose Phred+33 score level of the quality score is higher than ⁇ (S261).
- This ⁇ value may be 20, which is the median value of all levels, but it may also meet a higher value than this.
- the value of the threshold ⁇ may be different depending on the bp value of the total base sequence, but for example, it may be 150, preferably 180 or more.
- this threshold ⁇ can be calculated as a ratio to the total bp, and can be calculated as 50% or more of the total bp, preferably 60% or more.
- the preprocessor 120 defines the read file that satisfies the above conditions as a valid single file (S265).
- the read file with more nucleotide sequences with a quality score greater than a predetermined value is defined as a valid single file (S264).
- each quality score is read and the threshold value ⁇ or more, or 20 or more in Figure 9a, is used with the corresponding code. Counts cases where it is 5 or more.
- the read file pair in which none of the two pairs satisfies the above conditions is filtered and discarded.
- filtering can be made more precise by applying the merged reads and the valid single reads as final reads to the normalization module 130 for normalization modeling (S27).
- the received final read is normalized by performing normalization modeling from the read file (S40).
- the diversity analysis results are either excessively or insufficiently derived due to the different sequencing depth (information amount of the microbial community) for each sample, so normalization to equalize the information amount is performed. Proceed.
- a specific diversity table is loaded with reference to environmental information, and the normalization module 130 is performed according to the loaded diversity table.
- the final read selected by the classifier 140 is compared with the reference sequence database by applying the field-specific classifier 140 to analyze what species and genus of microorganisms are present in the sample ( S50).
- the reference database is read from the home classifier 140, each modeling is performed, and matching is performed between the nucleotide sequence of the final read and each DNA nucleotide sequence in the home reference database.
- the microorganism analysis device 100 secures information on the type and amount of microorganisms matched to the final lead, it processes the information and provides it to the user terminal 200 (S60).
- the processing unit 150 can provide microbial change trends and response methods in the target environment 300 through history analysis. .
- the output unit 113 transmits the result data provided from the processing unit 150 to the designated user terminal 200, and can perform a user alarm if any of the detected microorganisms contain dangerous microorganisms above a predetermined level. there is.
- the matching probability can be improved by selecting and matching valid single reads with high quality scores.
- the type and amount of matched microorganisms are detected together, visualized, and provided to the user, enabling immediate response, and modeling of each classifier 140 by applying the data again as a reference to the database for each classifier 140. This has a more adaptable effect.
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Organic Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Immunology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 실시예는 외부의 NGS 서버로부터 타겟 환경에 대한 한 세트의 NGS 분석 파일을 수신하는 입력부; 상기 NGS 분석 파일 중 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 페어링을 수행하여 통합 리드 파일을 생성하고, 페어링에 실패한 리드 파일 중 유효 싱글 리드 파일을 정의하는 필터링을 수행하는 전처리부; 상기 전처리부로부터 상기 통합 리드 파일 및 상기 유효 싱글 리드 파일을 최종 리드 파일로 수신하고, 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 분류기; 및 상기 특정된 미생물 정보를 가공하여 사용자 단말로 전송하는 정보 가공부를 포함하는 미생물 분석 장치를 제공한다. 따라서, NGS 기술에 의한 FASTQ 파일이 진행되는 Illumia 사의 NGS 장비에서 읽혀지는 bp(basepoint)보다 긴 길이의 ITS1, ITS2를 가지는 진균류 등의 경우에도 필터링되지 않고 함께 검출 가능하다.
Description
본 실시예는 미생물의 염기 서열 재조합 방법에 대한 것으로, 상세하게는 차세대 시퀀싱 방법을 이용한 미생물의 염기 서열 분석 방법 및 그 시스템에 대한 것이다.
근래, 환경 오염, 바이러스 등에 의한 오염 문제가 대두되면서, 주변 환경의 오염도에 대한 관심이 증가하고 있다.
eDNA란 다양한 환경 샘플에서 채취되는 미생물의 DNA로 주변 환경의 오염 정도를 진단할 수 있는 바이오 지표로 정의되며 각각의 미생물 종마다 DNA 서열이 다르기 때문에, 관심있는 환경의 샘플을 채취하고, 해당 샘플 내 미생물의 종류를 측정할 수 있는 다양한 기술이 제시되어 있다.
특히, 다양한 미생물의 종(species)를 구별하는 데이터베이스가 개발되어 공유되고 있어, 관심있는 환경의 샘플에서 미생물의 DNA 서열 정보를 추출하면 이를 해당 데이터베이스의 정보와 대조함으로써 환경 내 미생물의 정의가 가능하다.
현재, Illumina 사의 기술인 NGS 장비를 통해 판독되어 전달되는 해당 미생물의 샘플의 시퀀스 리드는 표준화된 양식으로 생성된다.
즉, 각각의 샘플 데이터는 배치에서 리드 단위로 절단되고 증식된 상태로 시퀀스가 읽혀 각각의 시퀀스 리드 데이터는 FASTQ 파일로 기록된다.
이와 같은 각 샘플의 FASTQ 파일을 가공하여 원하는 DNA 서열 정보를 생성하는 Bioinformatrics 기술 및 이에 대한 미생물 분류 기술 또한 다양하게 제시되고 있다.
미국 특허 US 11335436B2 에서는 복수의 미생물에 대하여 복수의 대상에 대한 동시 비교가 가능한 분류 기술이 제시되어 있다.
그러나, 이와 같은 NGS 기술은 FASTQ 파일 자체에 대한 특정 방식의 가공을 제시하고 있지 않고, 일반적인 절차인 짧은 단위의 리드를 증식하여 분석함으로써 DNA 자체가 특정 길이보다 긴 종의 경우, 해당 NGS 기술에 의한 FASTQ 파일로는 분석이 불가능한 문제가 있다.
[선행기술문헌]
특허문헌
미국 특허 US 11335436B2 호 (등록일 : 2022.05.17.)
본 실시예는 NGS 기술에 의한 FASTQ 파일을 가공하여 특정 길이 이상의 길이를 가지는 미생물의 경우 누락되지 않고 검출 가능한 미생물 분석 방법을 제공하는 것이다.
본 실시예의 제2 과제는 NGS 기술에 의한 FASTQ 파일의 페어링되지 않는 미생물의 시퀀스 리드 파일도 함께 유효 데이터로 가공하여 분석할 수 있는 미생물 분석 방법을 제공하는 것이다.
본 실시예의 제3 과제는 매칭된 미생물의 종류와 양을 함께 검출 가능하고, 검출된 미생물을 사용자에게 가공된 데이터로 제공하여 직접 활용 가능한 결과 데이터를 제공하는 미생물 분석 방법을 제공하는 것이다.
본 실시예는 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어들이는 단계; 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 오버랩구간을 검출하여 페어링을 수행하는 단계; 상기 오버랩 구간이 없는 경우, 상기 포워드 리드 파일과 리버스 리드 파일중 유효 싱글 리드 파일이 존재하는지 판단하는 단계; 상기 페어링되는 하나의 아이디에 대한 상기 포워드 리드 파일과 리버스 리드 파일을 머지(merge)하여 통합 리드 파일을 생성하는 단계; 및 상기 유효 싱글 리드 파일과 상기 통합 리드 파일을 최종 리드 파일로서 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 단계를 포함하는 미생물 분석 방법을 제공한다.
상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 NGS 분석된 FASTQ 파일일 수 있다.
상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 타겟 환경에서 추출된 미생물 샘플에 대하여 NGS 분석을 통해 분할된 복수의 리드 각각에 대응하도록 생성될 수 있다.
하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 각각의 염기포인트는 각각의 상기 퀄리티 스코어를 포함할 수 있다.
상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효를 카운트하여 결정할 수 있다.
상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 리드 파일로 정의할 수 있다.
상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드로 정의할 수 있다.
상기 제2 임계값은 상기 포워드 리드 파일 또는 리버스 리드 파일의 염기포인트의 전체 수효의 50% 이상일 수 있다.
상기 표준 DNA 염기서열과 매칭하는 단계는, 개별적인 환경에 대한 각각의 표준 DNA 염기서열 데이터베이스 중 상기 타겟 환경에 대응하는 상기 표준 DNA 염기서열 데이터베이스로부터 상기 최종 리드 파일을 매칭할 수 있다.
상기 최종 리드 파일과 상기 표준 DNA 염기 서열 데이터베이스의 매칭하는 단계는 상기 최종 리드 파일과 매칭되는 미생물의 종류와 양을 모두 특정할 수 있다.
상기 미생물의 종류와 양에 대한 정보를 가공하여 사용자 단말로 전송하는 단계를 더 포함할 수 있다.
상기 사용자 단말에 대한 상기 타겟 환경의 미생물 분석 히스토리가 존재하는 경우, 상기 히스토리를 업데이트하여 상기 사용자 단말로 전송할 수 있다.
판독된 상기 미생물의 종류 중 유해 위험 미생물이 존재하는 경우, 상기 사용자 단말로 알람할 수 있다.
한편, 본 실시예는 외부의 NGS 서버로부터 타겟 환경에 대한 한 세트의 NGS 분석 파일을 수신하는 입력부; 상기 NGS 분석 파일 중 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 페어링을 수행하여 통합 리드 파일을 생성하고, 페어링에 실패한 리드 파일 중 유효 싱글 리드 파일을 정의하는 필터링을 수행하는 전처리부; 상기 전처리부로부터 상기 통합 리드 파일 및 상기 유효 싱글 리드 파일을 최종 리드 파일로 수신하고, 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 분류기; 및 상기 특정된 미생물 정보를 가공하여 사용자 단말로 전송하는 정보 가공부를 포함하는 미생물 분석 장치를 제공한다.
상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 NGS 분석된 FASTQ 파일일 수 있다.
하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 각각의 염기포인트는 각각의 상기 퀄리티 스코어를 포함할 수 있다.
상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효를 카운트하여 결정할 수 있다.
상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 리드 파일로 정의할 수 있다.
상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드 파일로 정의할 수 있다.
상기 제2 임계값은 상기 포워드 리드 파일 또는 리버스 리드 파일의 염기포인트의 전체 수효의 50% 이상일 수 있다.
상기 해결 수단을 통하여, NGS 기술에 의한 FASTQ 파일을 가공하여 분류되어 있는 미생물은 모두 매칭 및 검출 가능하다.
특히, NGS 기술에 의한 FASTQ 파일이 진행되는 Illumia 사의 NGS 장비에서읽혀지는 bp(basepoint)보다 긴 길이의 ITS1, ITS2를 가지는 진균류 등의 경우에도 필터링되지 않고 함께 검출 가능하다.
또한, 페어링 되지 않는 싱글 시퀀스의 경우, 퀄리티 스코어가 높은 유효 싱글 리드를 선별하여 매칭함으로써 매칭 확률을 향상시킬 수 있다.
그리고, 매칭된 미생물의 종류와 양을 함께 검출하여 시각화하여 사용자에게 제공함으로써, 즉각적인 대응이 가능하고, 해당 데이터를 다시 각 분류기 별 데이터 베이스의 레퍼런스로 적용함으로써 각 분류기의 모델링이 더욱 적응되는 효과를 가진다.
도 1은 본 실시예에 따른 미생물 분석 시스템을 나타내는 도면이다.
도 2는 도 1의 미생물 분석 장치의 구성도이다.
도 3은 도 2의 미생물 분석 방법을 나타내는 순서도이다.
도 4a 내지 도 4d는 NGS 분석을 위한 각 미생물의 DNA 시퀀스의 특징을 나타내는 개념도이고, 도 4e는 균류의 ITS1 및 ITS 2의 BP 길이를 나타내는 그래프이다.
도 5는 NGS 분석에 의한 FASTQ 파일을 나타내는 것이다.
도 6은 미생물 분석 장치의 전처리 단계를 나타내는 상세 순서도이다.
도 7a 및 도 7b는 페어링되는 시퀀스 리드의 FASTQ 파일의 머지 동작 전후를 나타내는 도면이다.
도 8은 페어링되지 않는 시퀀스 리드의 유효 싱글 리드를 선택하는 과정을 나타내는 순서도이다.
도 9a 및 도 9b는 유효 싱글 리드를 정의하는 동작 전후를 나타내는 도면이다.
이하에서 언급되는 “전(F)/후(R)/좌(Le)/우(Ri)/상(U)/하(D)” 등의 방향을 지칭하는 표현은 도면에 표시된 바에 따라 정의하나, 이는 어디까지나 본 실시예가 명확하게 이해될 수 있도록 설명하기 위한 것이며, 기준을 어디에 두느냐에 따라 각 방향들을 다르게 정의할 수도 있음은 물론이다.
이하에서 언급되는 구성요소 앞에 ‘제1, 제2' 등의 표현이 붙는 용어 사용은, 지칭하는 구성요소의 혼동을 피하기 위한 것일 뿐, 구성요소 들 사이의 순서, 중요도 또는 주종관계 등과는 무관하다. 예를 들면, 제1 구성요소 없이 제2 구성요소만을 포함하는 실시예도 구현 가능하다.
본 명세서에서 이용되는 용어, "NGS (Next Generation Sequencing)"는 차세대 염기서열 분석으로서, 유전체의 염기서열의 고속 분석 방법 중 하나이다. NGS는 임상적 연구를 포함하는 다양한 목적을 달성하기 위해 유전체 및 전체 분석에 적용될 수 있다. 한편, 대부분의 NGS 분석은 다수의 대상 샘플에 대한 동시 분석이 수행될 수 있다.
본 명세서에서 이용되는 용어, "대상 샘플"은 NGS 분석의 표적이 되는 샘플을 의미한다. 이때, 대상 샘플은 특정 환경, 즉, 타겟 환경(300)으로부터 수득된 미생물에서 채취된 생물학적 시료일 수 있다. 각 샘플에 대한 NGS 데이터는 한 쌍의 파일로서 제공될 수 있다.
본 실시예에 따른 미생물 분석 시스템은 타겟 환경(300)에서의 미생물 시료를 채취하여 이를 NGS 분석한 후, NGS 분석된 FASTQ 파일을 수득하면 이를 가공하여 매칭할 때, 매칭 정확도를 향상시킬 수 있는 미생물 분석 시스템에 대한 것이다.
FASTQ 파일은 표준화된 파일 형태로서, 각 샘플의 리드(read)마다 포워드, 리버스로 염기 서열, 즉 시퀀스를 읽어낸 파일이며, 포워드(Forward), 리버스(Reverse)에 해당하는 FASTQ 파일을 한 쌍으로 포함한다.
해당 미생물 분석 시스템은 타겟 환경(300)으로부터 채취한 미생물 샘플을 수득하여 NGS 분석하는 NGS 서버(400), NGS 서버(400)로부터 FASTQ 파일을 수신하고, 이를 가공하여 특정 미생물과 매칭하고, 그에 대한 대응 방법을 제공하는 미생물 분석 장치(100) 및 사용자 단말(200)을 포함한다.
타겟 환경(300)은 사용자가 위치하는 다양한 주변 환경, 또는 사용자가 관심있는 다양한 주변 환경일 수 있으며, 가정, 특히 가정 내의 미생물에 취약한 환경으로서, 주방, 냉장고, 싱크대 등의 특정 구역일 수 있다. 또는 사업장 내의 특정 환경일 수 있으며, 편의점 또는 음식점 등의 리테일 구역의 진열대, 조리대 등일 수 있다.
상기 사용자 단말(200)은 미생물 분석 장치(100)로부터 데이터 수신 가능한 유무선 통신 가능한 장치로서, 태블릿 PC, PDA(Personal Digital Assistant), 노트북, 셀룰러폰, PCS(Personal Communication Service)폰, 핸드 헬드 PC(Hand-Held PC), GSM(Global System for Mobile)폰, W-CDMA(Wideband CDMA)폰, CDMA-2000폰 및 스마트폰 등을 포함한다.
사용자 단말(200)은 미생물 분석 장치(100)로부터의 미생물 최종 정보를 디스플레이할 수 있는 디스플레이 장치를 포함하며, 미생물 분석 장치(100)로부터의 미생물 최종 정보를 다양한 형태로 제공받을 수 있는 어플리케이션이 설치되어 있을 수 있다.
일 예로, 사용자의 타겟 환경(300)이 장기간 동일 미생물에 감염되어 있는 경우, 주기적인 검사 결과를 누적하여 표시할 수 있도록 데이터 가공이 가능하며, 상기 가공된 결과를 어플리케이션을 통해 제공 가능하다. 따라서, 사용자 단말(200)은 상기 미생물에 대한 대응 및 결과 분석, 예상 회복 시간을 판단 가능할 수 있다.
NGS 분석하는 NGS 서버(400)는 채취한 미생물 샘플로부터 DNA를 채취하고, 상기 DNA를 소정 길이로 절단한 리드(read)를 배양하여 각 리드의 양 끝부분으로부터 염기를 읽어들여 FASTQ 파일을 생성하여 제공한다.
다양한 NGS 서버(400)가 적용가능하며, 일 예로 Illumina 사의 NGS 장비가 적용될 수 있다.
한편, 본 실시예의 미생물 분석 장치(100)는 상기 NGS 서버(400)로부터 FASTQ 파일을 수신하고, 상기 FASTQ 파일을 가공하여 분류되어 있는 복수의 분류기(140)의 데이터베이스의 기준 염기서열과 매칭한 후 각 FASTQ 파일의 미생물을 정의한다.
본 실시예의 미생물 분석 장치(100)는 각각 정의된 미생물의 염기서열을 각 카테고리의 데이터베이스에 저장하고, 각 분류기(140)의 매칭 모델을 강화하여 점차적으로 최적화된 모델링이 가능해진다.
본 실시예의 미생물 분석 장치(100)는 사용자 주변의 특정 환경에서 발견 가능한 다양한 미생물, 특히 균류 및 바이러스와 같은 짧은 길이의 DNA 수용체에 대하여 동시 배양되어 읽혀진 상기 FASTQ 파일을 가공함으로써 누락 없이 검출 가능하다.
구체적으로 미생물 분석 장치(100)는 진균류 및 박테리아 사이의 DNA 길이 차에 따라 더 긴 DNA 길이를 가지는 진균류의 경우, 페어링에 실패하여 필터링되는 오류를 보상함으로써 진균류의 검출이 가능하다.
이하에서는 진균(곰팡이)류와 세균(박테리아)류 모두 검출 가능하도록 상기 FASTQ 파일을 가공하여 분석하는 미생물 분석 장치(100)의 분석 방법을 설명한다.
도 2는 도 1의 미생물 분석 장치(100)의 구성도이고, 도 3은 도 2의 미생물 분석 방법을 나타내는 순서도이다.
도 2를 참고하면, 미생물 분석 장치(100)는 입력부(111)와 출력부(113)를 포함하는 통신부(110), 전처리부(120), 정규화 모듈(130), 분류기(140) 및 가공부(150)를 포함한다.
상기 통신부(110)는 유무선 통신을 이용하여 NGS 서버(400)와 통신하고, 사용자 단말(200)과 통신하는 통신 모듈로서, 지정된 네트워크에 따라 다양하게 가변 가능하다.
이때, 네트워크는 예를 들어, IEEE 802.11 WLAN, IEEE 802.15 WPAN, UWB, Wi-Fi, Zigbee, Z-wave, Blue-Tooth 등과 같은 무선 통신 기술을 적용가능하며, 적어도 하나 이상의 통신 기술 적용가능하다.
전처리부(120)는 입력부(111)를 통해 입력된 FASTQ 파일을 가공하여 정규화 및 매칭 가능한 상태로 제공한다.
일 예로, 전처리부(120)는 수신된 FASTQ 파일의 트리밍을 통해 프라이머를 제거하고, 한 아이디의 FASTQ 파일을 각각 페어링함으로써 하나의 머지된 리드를 생성하는 필터링을 수행한다.
이와 같이 머지된 리드가 정규화 모듈(130)로 제공되어 정규화를 통해 분류기(140)의 모델링으로 매칭이 진행된다.
이때, 상기 전처리부(120)는 페어링에 실패하는 긴 길이의 DNA를 수반하는 진균류를 보상하기 위해 싱글 리드의 퀄리티에 따라 유효 싱글 리드를 판별한다.
따라서, 전처리부(120)는 머지된 리드와 유효 싱글 리드를 최종 리드로 정규화 모듈(130)로 제공한다.
정규화 모듈(130)은 수신된 복수의 최종 리드에 대한 다양성 분석 시 각 샘플 별 서로 다른 sequencing depth(미생물 군집의 정보량)에 의해, 과도하게 또는 과소하게 다양성 분석 결과가 도출되어, 정보량의 동일화를 위한 정규화를 진행한다.
즉, 정규화 모듈(130)은 최대한 많은 정보량을 살릴 수 있는 한도 내에서 샘플 별 최종 리드 수준을 최대로 설정하여 최적 정보량을 통해 다양성 분석을 수행할 수 있다.
즉, 각 샘플의 타겟 환경(300)에 따라 특정 다양성 테이블을 로딩하고, 로딩된 다양성 테이블(diversity table)에 따라 정규화 모듈(130)을 활성화할 수 있다.
이때, 가정용, 병원용, 리테일(Retail) 용, 식품생산시설용 마다 서로 다른 다양성 테이블을 저장할 수 있다.
다양성 테이블의 데이터는 이전 보유 중인 데이터들을 분석하여 최종 리드 별로 다양성(diversity) 정도를 그린 후, 다양성 포화값 대비 소정 범위 이상이 되는 다양성에 대해서만 최종 리드와 다양성 관계를 저장하여 데이터베이스화한다.
따라서, 각각의 다양성 테이블은 해당 환경에 대하여 특화된 상태가 더욱 강화되도록 학습된다.
각각의 특화된 다양성 테이블에 근거하여, 필터링된 최종 리드를 로딩하고, 해당하는 다양성 테이블 데이터를 읽어들여 상기 다양성 테이블 데이터 상에서 최종 리드 값 중 필터링 되는 리드의 수가 전체 리드 수 중 제1 임계범위보다 작고, 가장 큰 값을 가지는 최종 리드 값을 선출하여 정규화를 수행한다.
이와 같이 선출된 값을 최종 리드값을 소정 회 반복하여 최종 sequencing depth값을 생성한다.
한편, 분류기(140)는 선출된 최종 리드를 분야별 분류기(140)를 적용하여 기준 서열 데이터베이스와 비교 및 매칭함으로써 샘플 내에 어떤 종(species), 속(genera)의 미생물이 있는지 분석한다.
즉, 본 실시에에 따른 분류기(140)는 해당 환경마다 기준 서열 데이터베이스를 별도로 구축하고, 각 환경에 대한 기준 서열 데이터베이스로부터 최종 리드의 매칭을 수행한다.
각 환경에 대한 기준 서열 데이터베이스는 다양성 분석과 유사하게, 가정용, 병원용, 리테일(Retail) 용, 식품생산시설용으로 분류 가능하나 이와 별개로 구분 가능하다.
이를 위해, 특정 환경에 대한 분류기(140), 즉 기준 서열 데이터베이스를 별도 구축하고 이를 매칭하는 분류 알고리즘을 각각 구동함으로써, 특정 환경에 대하여 특화된 미생물만이 한정적으로 비교가능하다.
또한 이와 같이 매칭된 최종 리드의 경우, 각 기준 서열 데이터베이스에 다시 저장됨으로써 데이터베이스의 업데이트 및 분류 알고리즘의 학습이 가능하다.
고정되어 있는 기준 데이터 베이스를 활용하는 경우에는 해당 데이터 베이스의 업데이트가 늦고, 통합 데이터 베이스를 사용하고 있어 기준 데이터 값이 많아 연산이 복잡하고, 매칭 확률이 매우 낮아진다.
따라서, 이와 같이 각 환경별 특화되어 있는 기준 서열 데이터 베이스를 별개로 구축하고 이를 각 환경별로 매칭하는 개별 분류 알고리즘을 적용함으로서 연산 시간이 단축되고 정확도가 향상된다. 또한, 각 알고리즘이 점점 더 정교화됨으로써 정확도는 점점 더 향상될 수 있다.
이때, 각 분야별 특화된 기준 서열 데이터베이스는 공개되어 있는 미국 국립생물공학정보센터 (NCBI)에 등록된 개별 16S rRNA 유전자의 유전정보를 선별 및 가공하여 각 환경별로 분류한 것으로서 초기에 생성가능하다.
이를 위해, 해당 기초 데이터베이스에 환경 별 먼지를 샘플링하고, 각 세부 구역 별 미생물 오염 특징을 반영할 수 있는 표지자를 선발하여, 이에 대한 발생빈도를 카운트함으로써 가중치를 인가할 수 있으며, 가중치가 높은 순서로 매칭을 수행함으로써 매칭 확률을 더 높일 수 있다.
가공부(150)는 분류기(140)에 의해 최종 리드에 대하여 매칭된 미생물의 종류 및 양에 대한 정보를 확보하면, 이를 가공하여 사용자 단말(200)에 제공한다.
가공부(150)는 수신된 최종 리드에 대한 정보를 Alpha diversity 분석과 Beta diversity 분석을 함께 수행할 수 있다.
이때, Alpha diversity 분석은 개개 최종 리드에 대한 레벨을 분석하여 표시하는 것이며, Beta diversity은 각 최종 리드들 사이의 비유사성에 대한 정도를 분석하여 제공하는 것으로서, 표 및 그래프로서 제공가능하다.
또한, 상기 가공부(150)는 상기 사용자 단말(200)에 대하여 동일 환경에 대한 미생물 분석 히스토리가 존재하는 경우, 히스토리 분석을 통해 상기 타겟 환경(300)에서의 미생물 변화 추이 및 대응 방법을 함께 제공 가능하다.
상기 출력부(113)는 상기 가공부(150)로부터 제공되는 결과 데이터를 지정된 사용자 단말(200)에 전송하고, 검출된 미생물 중 소정 레벨 이상의 위험 미생물이 포함되어 있는 경우, 사용자 알람을 수행할 수 있다.
상기 미생물 분석 장치(100)는 데이터 저장부(도시하지 않음)로서 메모리 카드, 미생물 분석을 위한 라이브러리 파일, 신호처리 장치를 갖춘 임베디드 시스템 보드로 구성될 수 있다. 예를 들어, 임베디드 시스템 보드에는 출력신호 데이터를 저장할 수 있는 메모리카드가 삽입되며, 메모리카드에는 시스템 OS와, 구동 프로그램, 분석을 위한 라이브러리 파일 등이 저장된다. 또한, 복수의 최종 리드의 분석을 위한 신호 처리는 임베디드 시스템 보드의 CPU에서 라이브러리 파일과 비교 분석을 통해 계산되며, 분석된 결과는 다시 메모리 카드에 저장된다. 또한, 이와 같은 임베디드 시스템 보드 내에 통신부(110)가 함께 실장 가능하나 이에 한정되지 않는다.
이하에서는 도 3 내지 도 9를참고하여 미생물 분석 장치(100)의 미생물 분석 방법을 설명한다.
도 3은 도 2의 미생물 분석 방법을 나타내는 순서도이고, 도 4a 내지 도 4d는 NGS 분석을 위한 각 미생물의 DNA 시퀀스의 특징을 나타내는 개념도이고, 도 4e는 균류의 ITS1 및 ITS 2의 BP 길이를 나타내는 그래프이며, 도 5는 NGS 분석에 의한 FASTQ 파일을 나타내는 것이다.
도 4a와 같이 특정 환경에서 발견 가능한 미생물은 크게 세균류(박테리아)와 진균류(곰팡이)를 포함하고, 이들은 수십만 종에 이른다.
각 세균류와 진균류의 DNA 염기서열(시퀀스)은 분류기(140) 데이터베이스에 저장되어 있으며, 이와 같은 DNA 염기서열은 각 환경에 따라 구분되어 저장되어 있다.
세균류인 박테리아의 경우, 도 4b의 DNA 시퀀스와 같이 각기 종(species)을 구별하기 위해 16S RNA 유전자의 V4 또는 V3~V4 영역 DNA 시퀀스 정보가 일반적으로 활용된다.
이때, V4의 경우, DNA 시퀀스의 길이는 약 300bp(base point) 이하를 충족한다. 또는, V3~V4 영역 DNA 시퀀스의 길이는 약 500bp 이하를 충족한다.
한편, 수많은 진균들(fungi), 곰팡이들의 경우, 도 4c의 DNA 시퀀스와 같이 각기 종(species)을 구별하기 위해 ITS 유전자의 ITS1 또는 ITS2 영역 DNA 시퀀스 일반적으로 활용된다.
이때, 도 4d를 참고하면, 하나의 진균에 대한 ITS1의 시퀀스는 앞단 18S 시퀀스가 68bp, 끝단의 5.8S 시퀀스 50bp를 갖는다.
일반적으로 NGS 장비에서 염기서열을 읽을 수 있는 리드의 BP는 최대 600bp이며, 그 이상의 리드는 읽히지 않거나 고비용의 장비를 활용하거나, 정확성이 현저히 낮아져 활용도가 낮다.
따라서, 짧은 리드에 대한 시퀀스를 읽고, 이를 페어링하여 길게 머지(marged)한 후 매칭을 시도함으로써 정확도를 향상시킬 수 있다.
이때, 페어링(pairing)된 최종 리드는 앞단과 뒷단의 제거에 의해 473bp 이하를 갖는다.
따라서, ITS1의 포워드 리드의 DNA 시퀀스의 길이는 약 232bp(base point), 바람직하게는 300 내지 68bp의 길이를 가지고, ITS1의 리버스 리드의 길이는 약 250bp이며, 최소 오버랩 길이로 15bp를 갖는 경우만이 최종 리드의 길이로서 약 473bp를 충족한다.
따라서, 진균류 중 ITS1의 길이가 250bp, 더 짧게는 232bp 이상인 DNA 시퀀스를 가지는 종은 NGS 장비에서 전송되는 포워드 리드와 리버스 리드 사이에 오버랩 구간이 존재하지 않는다.
도 4e를 참고하면, 일반적으로 지금까지 밝혀진 진균류의 ITS 1과 ITS 2의 DNA bp의 길이를 산출하면, 400 bp 이상의 길이를 가지는 진균류가 많이 존재하는 것을 볼 수 있다.
즉, A 서클 내의 종은 서로 오버랩되는 구간이 존재하지 않아 페어링에서 실패함으로써 머지되지 못하고 필터링되어 버려진다.
이를 보완하기 위하여, 본 실시예의 미생물 분석 방법은 NGS 서버(400)로부터 타겟 환경(300)의 샘플에 대한 FASTQ 파일의 세트를 수득한다(S10).
한 ID에 대한 FASTQ 파일은 도 5a 및 도 5b와 같이 한 쌍으로 전송되며, 도 5a는 포워드 리드 파일이고, 도 5b는 동일 ID의 리버스 리드 파일이다.
한 ID의 포워드 리드 파일과 리버스 리드 파일을 서로 비교하면, 하나의 샘플 리드에 대하여 5번에서 3번으로 염기 서열, 시퀀스를 읽어나가는 포워드 리드 파일과 반대 방향으로 3번에서 5번으로 읽어나가는 리버스 리드 파일로 구현됨을 알 수 있다.
이때, 각 FASTQ 파일은 동일한 형식으로 생성되며, 첫행은 해당 샘플 리드의 ID로서 포워드 리드와 대응하는 리버스 리드가 동일한 ID를 갖는다.
두번째 행은 순차적인 염기서열을 나타내며, 포워드 리드와 리버스 리드는 상보적으로 작성된다.
세번째 행은 구분자이며, 네번째 행은 각 염기서열의 퀄리티 스코어를 나타내는 인코더로 구성된다.
다음으로, 전처리부(120)에서 입력된 FASTQ 파일의 트리밍을 통해 프라이머를 제거하고, 한 아이디의 FASTQ 파일을 각각 페어링하고, 싱글 시퀀스 리드 중 유효한 시퀀스 리드를 선택하는 필터링을 수행한다(S20).
이때, 전처리부(120)는 페어링이 완료된 한 아이디의 FASTQ 파일의 경우, 이를 머지하여 하나의 머지된 리드 파일을 생성한다.
머지된 리드 파일과 유효 싱글 리드 파일이 최종 리드의 최종 리드 파일로서 정규화 모듈(130)로 입력된다(S30).
이하에서는 도 6 내지 도 9를 참고하여 본 발명의 전처리에 의한 최종 리드 파일의 생성 과정을 설명한다.
도 6을 참고하면, 전처리부(120)는 도 5a와 도 5b와 같이 한 id에 해당하는 포워드 리드 파일과 리버스 리드 파일을 오픈한다(S21).
이때, ID를 확인하면 한 ID에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어낸다(S22).
한 ID에 대하여 두 개의 파일쌍이 존재하지 않는 경우, 다음 ID의 포워드 리드 파일과 리버스 리드 파일을 읽어내도록 전환된다(S23).
한 ID에 대하여 두 개의 파일쌍이 존재하면, 전처리부(120)는 두 개의 리드 파일에서 오버랩 구간(OS)이 존재하는지 판단한다(S24).
오버랩 구간(OS)의 경우, 도 7a 및 도 7b를 참고하면, 한 아이디의 두 개의 파일쌍의 두번째 행인 DNA 염기서열에서 끝단으로부터 서로 상보하는 오버랩 구간(OS)이 발생하는지 판단한다.
도 7a 및 도 7b에서와 같이 끝단에서 서로 상보하는 오버랩 구간(OS)이 존재하는 경우, 상기 오버랩 구간(OS)을 기준으로 포워드 리드의 끝단으로부터 리버스 리드의 끝단의 오버랩 구간(OS)을 중첩하면서 머지된 리드를 생성한다.
도 7b와 같이 머지된 리드는 오버랩 구간(OS) 뒤로 상기 리버스 리드의 염기서열을 상보적인 염기 서열로 전환하여 나열함으로써 생성가능하다(S25).
이와 같이 생성되는 머지된 리드 파일은 도 7b와 같이 네번째 행의 퀄리티 스코어 역시 머지되어 생성된다.
이때, 각각의 퀄리티 스코어는 각 염기서열의 자리에 대응하여 읽어냄으로써 값 자체가 변하지 않는다.
따라서, 머지된 리드 파일은 두 개의 리드에서 오버랩 구간(OS)을 제외한 길이의 bp를 가지는, 길이가 증강된 염기 서열을 포함하며, 상기 길이가 증강된 머지된 리드 파일이 최종 리드로서 출력된다(S27).
한편, 전처리부(120)는 두 개의 리드 파일에서 오버랩 구간(OS)이 존재하지 않는 경우, 필터링하여 버리지 않고, 두 개의 리드 파일 중 하나를 유효 싱글 리드로 선택한다(S26).
즉, 도 4와 같이 진균류의 경우 길이가 긴 DNA 염기서열을 포함하므로 정해진 길이로 절단된 리드에서는 오버랩 구간(OS)이 발생하지 않을 수 있다. 그러나 이와 같이 오버랩 구간(OS)이 발생하지 않는 리드의 경우에도 유효 데이터를 확보함으로써 누락되는 미생물 없이 검출이 가능하다.
구체적으로 도 8 및 도 9를 참고하여 유효 싱글 리드 선택 동작을 설명한다.
도 8을 참고하면, 전처리부(120)는 한 아이디의 두 개의 파일쌍의 두번째 행인 DNA 염기서열에서 끝단으로부터 서로 상보하는 오버랩 구간(OS)이 존재하지 않는 경우, 두개의 리드 파일 중 유효 싱글 리드가 존재하는지 판단한다.
유효 싱글 리드의 판단은 각각의 염기 서열에 대한 퀄리티 스코어를 기준으로 판단한다.
FASTQ 파일의 4번째 행인 퀄리티 스코어는 각각 관련 없는 문자 또는 숫자열로서, 각 문자 또는 숫자는 인코딩된 퀄리티 레벨 정보를 포함하고 있다.
이는 Phred+33 스코어라고도 불리며 각 레벨은 0 내지 41 내에서 하나를 나타낸다.
전처리부(120)는 이와 같은 퀄리티 스코어의 Phred+33 스코어 레벨이 α값이상인 염기서열의 수를 카운트한다(S261).
이와 같은 α값은 전체 레벨의 중간값인 20일 수 있으나, 이보다 더 높은 값을 충족할 수도 있다.
이때, 하나의 리드에 대한 FASTQ 파일의 염기 서열 내에서 α값 이상의 퀄리티 스코어를 가지는 bp의 수가 임계값 β 이상인 리드 파일이 존재하는지 판단하다(S262).
임계값 β의 값은 총 염기 서열의 bp 값에 따라 상이할 수 있으나, 일 예로 150, 바람직하게는 180 이상일 수 있다.
또한, 이와 같은 임계값 β는 전체 bp에 대한 비율로 산정가능하며, 전체 bp에 대한 50% 이상인 경우, 바람직하게는 60% 이상인 경우로 산정 가능하다.
이와 같이 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 임계값 β 이상 존재하는 리드 파일이 두 쌍 중 적어도 하나 포함하는 경우(S263), 해당 아이디의 FASTQ 파일 내에 유효 싱글 리드가 존재하는 것으로 판단한다.
이때, 전처리부(120)는 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 임계값 β 이상을 두 쌍 중 하나만 충족하는 경우, 상기 조건을 충족하는 리드 파일을 유효 싱글 파일로 정의한다(S265).
한편, 두 쌍 모두 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 임계값 β 이상 존재하는 리드 파일인 경우, 소정 이상의 퀄리티 스코어를 가지는 염기 서열이 더 많은 리드 파일을 유효 싱글 파일로 정의한다(S264).
일 예로, 도 9a와 같이 입력된 FASTQ 파일의 포워드 리드와 리버스 리드의 오버랩 구간(OS)이 존재하지 않는 경우, 각각의 퀄리티 스코어를 읽어내어 임계값 α이상, 도 9a에서는 20이상으로서 해당 코드로는 5 이상인 경우를 카운트한다.
이는 공개되어 있는 퀄리티 스코어 인코딩 기법에 따른다. 따라서, 도 9a에서 퀄리티 스코어 20 이상인 bp가 포워드 리드의 경우 282개를 충족하고, 리버스 리드의 경우 235개를 충족하므로 두 리드 모두 임계값 β 이상이다.
이와 같이 두 개의 리드가 모두 임계값 β 이상을 충족하면 두 개의 리드 파일 중 더 큰 값을 가지는 포워드 리드를 유효 싱글 리드로서 출력한다.
이때, 두 쌍 중 상기 조건을 충족하는 파일이 하나도 없는 리드 파일 쌍은 필터링되어 폐기된다.
정의된 유효 싱글 파일의 경우, 최종 리드의 최종 리드 파일로서 머지된 리드 파일과 함께 정규화 모듈(130)로 전송된다(S266).
이와 같이 DNA 염기 서열이 매우 길어 NGS 장비로부터 읽어내는 리드의 길이보다 긴 경우, 페어링에 실패하여 폐기되던 진균류의 염기 서열도 유효한 싱글 리드로서 매칭가능하다.
다시 도 6으로 돌아가면, 이와 같이 머지된 리드와 유효 싱글 리드를 최종 리드로서 정규화 모델링을 위한 정규화 모듈(130)로 인가함으로써 필터링이 보다 정교해질 수 있다(S27).
한편, 도 3에서와 같이 수신된 최종 리드에 대한 리드 파일로부터 정규화 모델링을 수행하여 정규화한다(S40).
이때, 앞서 설명한 바와 같이 복수의 최종 리드에 대한 다양성 분석 시 각 샘플 별 서로 다른 sequencing depth (미생물 군집의 정보량)에 의해, 과도하게 또는 과소하게 다양성 분석 결과가 도출되어, 정보량의 동일화를 위한 정규화를 진행한다.
특히, 각 샘플에 대하여 환경 정보를 참고하여, 특정 다양성 테이블을 로딩하고, 로딩된 다양성 테이블 (diversity table)에 따라 정규화 모듈(130)을 수행한다.
다음으로 정규화가 종료되면, 분류기(140)에서 선출된 최종 리드를 분야별 분류기(140)를 적용하여 기준 서열 데이터베이스와 비교함으로써 샘플 내에 어떤 종(species), 속(genera)의 미생물이 있는지 분석한다(S50).
즉, 가정 내에서 샘플링된 경우, 가정용 분류기(140)로부터 기준 데이터베이스를 읽어내고 각각의 모델링을 수행하여 최종 리드의 염기 서열과 가정용 기준 데이터베이스의 각 DNA 염기 서열 사이의 매칭을 진행한다.
또한 이와 같이 매칭된 최종 리드의 경우, 각 기준 서열 데이터베이스에 다시 저장됨으로써 데이터베이스의 업데이트 및 분류 알고리즘의 학습이 가능하다.
다음으로, 미생물 분석 장치(100)는 최종 리드에 대하여 매칭된 미생물의 종류 및 양에 대한 정보를 확보하면, 이를 가공하여 사용자 단말(200)에 제공한다(S60).
상기 가공부(150)는 상기 사용자 단말(200)에 대하여 동일 환경에 대한 미생물 분석 히스토리가 존재하는 경우, 히스토리 분석을 통해 상기 타겟 환경(300)에서의 미생물 변화 추이 및 대응 방법을 함께 제공 가능하다.
상기 출력부(113)는 상기 가공부(150)로부터 제공되는 결과 데이터를 지정된 사용자 단말(200)에 전송하고, 검출된 미생물 중 소정 레벨 이상의 위험 미생물이 포함되어 있는 경우, 사용자 알람을 수행할 수 있다.
이와 같이 페어링 되지 않는 싱글 시퀀스의 경우, 퀄리티 스코어가 높은 유효 싱글 리드를 선별하여 매칭함으로써 매칭 확률을 향상시킬 수 있다.
그리고, 매칭된 미생물의 종류와 양을 함께 검출하여 시각화하여 사용자에게 제공함으로써, 즉각적인 대응이 가능하고, 해당 데이터를 다시 각 분류기(140) 별 데이터 베이스의 레퍼런스로 적용함으로써 각 분류기(140)의 모델링이 더욱 적응되는 효과를 가진다.
[부호의 설명]
100: 미생물 분석 장치
200: 사용자 단말
300: 타겟 환경
400: NGS 서버
Claims (20)
- 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어들이는 단계;상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 오버랩구간을 검출하여 페어링을 수행하는 단계;상기 오버랩 구간이 없는 경우, 상기 포워드 리드 파일과 리버스 리드 파일중 유효 싱글 리드 파일이 존재하는지 판단하는 단계;상기 페어링되는 하나의 아이디에 대한 상기 포워드 리드 파일과 리버스 리드 파일을 머지(merge)하여 통합 리드 파일을 생성하는 단계; 및상기 유효 싱글 리드 파일과 상기 통합 리드 파일을 최종 리드 파일로서 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 단계를 포함하는 미생물 분석 방법.
- 제1항에 있어서,상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 NGS 분석된 FASTQ 파일인 미생물 분석 방법.
- 제1항에 있어서,상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 타겟 환경에서 추출된 미생물 샘플에 대하여 NGS 분석을 통해 분할된 복수의 리드 각각에 대응하도록 생성되는 미생물 분석 방법.
- 제3항에 있어서,하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 각각의 염기포인트는 각각의 상기 퀄리티 스코어를 포함하는 미생물 분석 방법.
- 제4항에 있어서,상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효를 카운트하여 결정하는 미생물 분석 방법.
- 제5항에 있어서,상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 리드 파일로 정의하는 미생물 분석 방법.
- 제6항에 있어서,상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드로 정의하는 미생물 분석 방법.
- 제7항에 있어서,상기 제2 임계값은 상기 포워드 리드 파일 또는 리버스 리드 파일의 염기포인트의 전체 수효의 50% 이상인 미생물 분석 방법.
- 제7항에 있어서,상기 표준 DNA 염기서열과 매칭하는 단계는,개별적인 환경에 대한 각각의 표준 DNA 염기서열 데이터베이스 중 상기 타겟 환경에 대응하는 상기 표준 DNA 염기서열 데이터베이스로부터 상기 최종 리드 파일을 매칭하는 미생물 분석 방법.
- 제9항에 있어서,상기 최종 리드 파일과 상기 표준 DNA 염기 서열 데이터베이스의 매칭하는 단계는 상기 최종 리드 파일과 매칭되는 미생물의 종류와 양을 모두 특정하는 미생물 분석 방법.
- 제10항에 있어서,상기 미생물의 종류와 양에 대한 정보를 가공하여 사용자 단말로 전송하는 단계를 더 포함하는 미생물 분석 방법.
- 제11항에 있어서,상기 사용자 단말에 대한 상기 타겟 환경의 미생물 분석 히스토리가 존재하는 경우, 상기 히스토리를 업데이트하여 상기 사용자 단말로 전송하는 미생물 분석 방법.
- 제12항에 있어서,판독된 상기 미생물의 종류 중 유해 위험 미생물이 존재하는 경우, 상기 사용자 단말로 알람하는 미생물 분석 방법.
- 외부의 NGS 서버로부터 타겟 환경에 대한 한 세트의 NGS 분석 파일을 수신하는 입력부;상기 NGS 분석 파일 중 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일을 읽어 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 페어링을 수행하여 통합 리드 파일을 생성하고, 페어링에 실패한 리드 파일 중 유효 싱글 리드 파일을 정의하는 필터링을 수행하는 전처리부;상기 전처리부로부터 상기 통합 리드 파일 및 상기 유효 싱글 리드 파일을 최종 리드 파일로 수신하고, 표준 DNA 염기서열과 매칭하여 미생물을 특정하는 분류기; 및상기 특정된 미생물 정보를 가공하여 사용자 단말로 전송하는 정보 가공부를 포함하는 미생물 분석 장치.
- 제14항에 있어서,상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일은 NGS 분석된 FASTQ 파일인 미생물 분석 장치.
- 제15항에 있어서,하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일의 각각의 염기포인트는 각각의 상기 퀄리티 스코어를 포함하는 미생물 분석 장치.
- 제16항에 있어서,상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효를 카운트하여 결정하는 미생물 분석 장치.
- 제17항에 있어서,상기 유효 싱글 리드는 상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 중 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 리드 파일로 정의하는 미생물 분석 장치.
- 제18항에 있어서,상기 하나의 아이디에 대한 포워드 리드 파일과 리버스 리드 파일 모두 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 제2 임계값 이상인 경우, 상기 퀄리티 스코어가 제1 임계값 이상인 염기포인트의 수효가 더 큰 리드 파일을 상기 유효 싱글 리드 파일로 정의하는 미생물 분석 장치.
- 제18항에 있어서,상기 제2 임계값은 상기 포워드 리드 파일 또는 리버스 리드 파일의 염기포인트의 전체 수효의 50% 이상인 미생물 분석 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2022/016888 WO2024096149A1 (ko) | 2022-11-01 | 2022-11-01 | 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/KR2022/016888 WO2024096149A1 (ko) | 2022-11-01 | 2022-11-01 | 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2024096149A1 true WO2024096149A1 (ko) | 2024-05-10 |
Family
ID=90930830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2022/016888 WO2024096149A1 (ko) | 2022-11-01 | 2022-11-01 | 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2024096149A1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365375A1 (en) * | 2015-04-24 | 2018-12-20 | University Of Utah Research Foundation | Methods and systems for multiple taxonomic classification |
KR20200027900A (ko) * | 2018-09-05 | 2020-03-13 | 주식회사 천랩 | 시료 미생물의 동정 및 분류 방법 |
WO2022028624A1 (zh) * | 2020-08-07 | 2022-02-10 | 西安中科茵康莱医学检验有限公司 | 通过测序获取微生物物种及相关信息的方法、装置、计算机可读存储介质和电子设备 |
CN114242173A (zh) * | 2021-12-22 | 2022-03-25 | 深圳吉因加医学检验实验室 | 一种mNGS鉴定微生物的数据处理方法、装置及存储介质 |
CN115094129A (zh) * | 2022-07-06 | 2022-09-23 | 陕西省微生物研究所 | 基于二代测序技术的高通量大型真菌分子鉴定方法 |
-
2022
- 2022-11-01 WO PCT/KR2022/016888 patent/WO2024096149A1/ko unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180365375A1 (en) * | 2015-04-24 | 2018-12-20 | University Of Utah Research Foundation | Methods and systems for multiple taxonomic classification |
KR20200027900A (ko) * | 2018-09-05 | 2020-03-13 | 주식회사 천랩 | 시료 미생물의 동정 및 분류 방법 |
WO2022028624A1 (zh) * | 2020-08-07 | 2022-02-10 | 西安中科茵康莱医学检验有限公司 | 通过测序获取微生物物种及相关信息的方法、装置、计算机可读存储介质和电子设备 |
CN114242173A (zh) * | 2021-12-22 | 2022-03-25 | 深圳吉因加医学检验实验室 | 一种mNGS鉴定微生物的数据处理方法、装置及存储介质 |
CN115094129A (zh) * | 2022-07-06 | 2022-09-23 | 陕西省微生物研究所 | 基于二代测序技术的高通量大型真菌分子鉴定方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bewick et al. | Evolution of DNA methylation across insects | |
Healy et al. | Identification to the species level and differentiation between strains of Aspergillus clinical isolates by automated repetitive-sequence-based PCR | |
WO2014183270A1 (zh) | 一种检测染色体结构异常的方法及装置 | |
WO2017116123A1 (ko) | 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템 | |
WO2020022733A1 (ko) | 전장유전체 시퀀싱 기반의 염색체 이상 검출 방법 및 그 용도 | |
EP3051450A1 (en) | Method of typing nucleic acid or amino acid sequences based on sequence analysis | |
WO2021033981A1 (ko) | Dna 저장 장치의 연성 정보 기반 복호화 방법, 프로그램 및 장치 | |
WO2017086675A1 (ko) | 대사 이상 질환 진단 장치 및 그 방법 | |
WO2013065944A1 (ko) | Ngs를 위한 서열 재조합 방법 및 장치 | |
WO2017014469A1 (ko) | 질병 위험도 예측 방법 및 이를 수행하는 장치 | |
WO2019235828A1 (ko) | 투 페이스 질병 진단 시스템 및 그 방법 | |
WO2020256204A1 (ko) | 텍스트의 내용 및 감정 분석에 기반한 답변 추천 시스템 및 방법 | |
WO2024096149A1 (ko) | 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법 | |
WO2020145606A1 (ko) | 인공신경망을 이용한 세포 영상 분석 방법 및 세포 영상 처리 장치 | |
WO2018236120A1 (ko) | 네거티브 마커를 이용한 유사 종 식별 방법 및 장치 | |
WO2013032198A1 (ko) | 높은 연관성을 가지는 아이템을 추천하는 아이템 기반의 추천 엔진 | |
WO2021132920A1 (ko) | 유전자 검사를 위한 맞춤형 유전자칩 및 이의 제작 방법 | |
WO2024101492A1 (ko) | 차세대 시퀀싱 방법을 이용한 미생물 분석 시스템 및 미생물 분석 방법 | |
WO2012060502A1 (ko) | 연구주체간의 상관관계 추론을 위한 시스템 및 방법 | |
WO2017191871A1 (ko) | 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치 | |
Gómez-Hernández et al. | Evaluation of the multispecies coalescent method to explore intra-Trypanosoma cruzi I relationships and genetic diversity | |
Solovyev et al. | Automatic annotation of bacterial community sequences and application to infections diagnostic | |
WO2023080509A1 (ko) | 효율적인 전환 매트릭스 추정을 통한 노이즈 레이블을 학습하는 방법 및 장치 | |
WO2022260466A1 (ko) | 인공지능을 활용한 개체 및 계통 특이적 분류 변이 및 마커 선정 방법 및 시스템 | |
WO2023090510A1 (ko) | 데이터 보완 조건에 기반한 데이터 선별을 수행하는 전자장치 및 그 수행 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22964528 Country of ref document: EP Kind code of ref document: A1 |