WO2021229668A1 - 核酸分析装置、核酸分析方法及び機械学習方法 - Google Patents

核酸分析装置、核酸分析方法及び機械学習方法 Download PDF

Info

Publication number
WO2021229668A1
WO2021229668A1 PCT/JP2020/018902 JP2020018902W WO2021229668A1 WO 2021229668 A1 WO2021229668 A1 WO 2021229668A1 JP 2020018902 W JP2020018902 W JP 2020018902W WO 2021229668 A1 WO2021229668 A1 WO 2021229668A1
Authority
WO
WIPO (PCT)
Prior art keywords
base
image
training data
nucleic acid
images
Prior art date
Application number
PCT/JP2020/018902
Other languages
English (en)
French (fr)
Inventor
徹 横山
Original Assignee
株式会社日立ハイテク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ハイテク filed Critical 株式会社日立ハイテク
Priority to PCT/JP2020/018902 priority Critical patent/WO2021229668A1/ja
Priority to JP2022522126A priority patent/JP7510500B2/ja
Priority to EP20934894.5A priority patent/EP4151709A4/en
Priority to US17/923,122 priority patent/US20230178180A1/en
Priority to CN202080100282.6A priority patent/CN115516075A/zh
Publication of WO2021229668A1 publication Critical patent/WO2021229668A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/645Specially adapted constructive features of fluorimeters
    • G01N21/6456Spatial resolved fluorescence measurements; Imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/64Fluorescence; Phosphorescence
    • G01N21/6428Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes"
    • G01N2021/6439Measuring fluorescence of fluorescent products of reactions or of fluorochrome labelled reactive substances, e.g. measuring quenching effects, using measuring "optrodes" with indicators, stains, dyes, tags, labels, marks

Definitions

  • the present invention relates to a nucleic acid analysis technique for measuring a biological substance.
  • a method in which a large number of DNA fragments to be analyzed are carried on a flow cell made of a glass substrate or a silicon substrate, and the base sequences of these many DNA fragments are determined in parallel.
  • a substrate with a fluorescent dye corresponding to a base is introduced into an analysis region on a flow cell containing a large number of DNA fragments, and the flow cell is irradiated with excitation light to detect fluorescence emitted from each DNA fragment. Identify (call) the base.
  • the analysis area is usually divided into a plurality of detection fields, and the detection field is changed for each irradiation, and analysis is performed in all the detection fields, and then the polymerase extension reaction is performed.
  • a new fluorescent dyed substrate is introduced using the same procedure as described above, and each detection field of view is analyzed. By repeating this cycle, the base sequence can be efficiently determined (see Patent Document 1).
  • the fluorescence emitted from the amplified DNA sample (hereinafter referred to as coloni) fixed on the substrate is imaged, and the base is specified by image processing. That is, each coloni in the fluorescence image is identified, the fluorescence intensity corresponding to each base at each coloni position is obtained, and the base is identified from this fluorescence intensity (see Patent Document 2).
  • the reference image is an image in which the position information which is the position coordinates of the colony on the image is known and is generated from the design information of the flow chip.
  • one of a plurality of images captured in each detection field of view may be used as a reference image, and the colonies of the other images may be associated with the colonies on the reference image.
  • alignment the process of associating the positional coordinates between the reference image and the target image.
  • the alignment depends on the image pattern of Coloni and the degree of focus of the image. Generally, as the stretching reaction and the imaging cycle are repeated, the DNA deteriorates and the fluorescence intensity decreases, so that the alignment accuracy decreases as the number of cycles increases. In addition, the alignment accuracy is reduced even when the focus at the time of imaging is poor. Further, as will be described later, when alignment is performed with fluorescent images between different cameras, the alignment accuracy may decrease due to a large difference in lens distortion. If the alignment accuracy is reduced, the fluorescence intensity obtained at each colony position is less reliable and therefore more likely to call the wrong base.
  • the present invention has been made in view of such a situation, and an object of the present invention is to provide a nucleic acid analysis technique that is robust with respect to image alignment accuracy.
  • a preferable aspect of the present invention is a base prediction unit for performing base prediction by inputting a plurality of images in which light emission from a biological substance arranged on a substrate is detected, and alignment of the plurality of images with a reference image. It is provided with an alignment unit for performing and an extraction unit for extracting bright spots from a plurality of images, and the base prediction unit inputs an image including peripheral pixels of the extracted bright spot positions in a plurality of images as input. It is a nucleic acid analyzer characterized by extracting a feature amount of the image and predicting a base based on the feature amount.
  • the plurality of images are obtained by detecting a plurality of types of light emission from a plurality of types of phosphors incorporated in a bio-related substance by a sensor, and each of the plurality of types of light emission is At least one of the sensor to detect and the optical path to the sensor to detect is different.
  • the base predictor is composed of a supervised and learnable predictor.
  • the base prediction unit inputs an image of at least one cycle selected from the pre-cycle and the post-cycle in addition to the image of the cycle for making the prediction.
  • Another preferred aspect of the present invention is a nucleic acid analysis method for performing base prediction by inputting a plurality of images in which light emission from a biological substance is detected into a base predictor, in which a coloni position determination stage and a base sequence determination are performed. It runs the stage.
  • the coloni position determination stage executes an alignment process for aligning a plurality of images and a coloni position determination process for determining the coloni position of a bio-related substance by extracting bright spots from the plurality of images.
  • an image including peripheral pixels of the extracted colony position in a plurality of images is input to the base predictor, the feature amount of the image is extracted, and the base is predicted based on the feature amount. do.
  • Another preferable aspect of the present invention is a machine learning method of a base predictor for performing base prediction by inputting a plurality of images in which light emission from a biological substance is detected.
  • This method generates the first training data based on the first base prediction step that generates the first base prediction result from a plurality of images and the alignment result between the first base prediction result and the reference sequence.
  • Update in the predictor update step and the predictor update step which updates the parameters of the base predictor using the first training data generated in one training data generation step and the first training data generation step.
  • the second base prediction step to generate the second base prediction result from multiple images using the base predictor, and the second training data are generated based on the alignment result between the second base prediction result and the reference sequence.
  • the second training data generation step and the training data update step of updating the first training data using the second training data are executed.
  • FIG. 1 It is a block diagram which shows the schematic structure example of the nucleic acid analyzer which concerns on each Example. It is a chart diagram which shows the processing process for deciphering the base sequence of DNA which concerns on each Example. It is a top view for demonstrating the concept of the detection field of view on the flow cell which concerns on each Example. It is explanatory drawing which shows the concept of the bright spot of four kinds of fluorescent images in each detection field of view which concerns on each Example. It is explanatory drawing which shows the concept of determination of the base sequence which concerns on each Example. It is a block diagram for demonstrating an example of the computer structure of the nucleic acid analysis apparatus which concerns on Example 1. FIG. It is a flow chart which shows the flow of the base call stage which concerns on Example 1. FIG.
  • FIG. It is a flow chart which shows the flow of the coloni position determination stage which concerns on Example 1.
  • FIG. It is explanatory drawing which shows the concept of the position shift between cycles which concerns on each Example. It is explanatory drawing which shows the concept of measuring the misalignment amount of a plurality of places in an image which concerns on each Example. It is explanatory drawing which shows the concept of the coloni extraction by a plurality of cycles which concerns on Example 1.
  • FIG. It is explanatory drawing which shows the concept of determination of the coloni position by a plurality of cycles which concerns on Example 1.
  • FIG. It is a flow chart which shows the flow of the base sequence determination stage which concerns on Example 1.
  • FIG. It is explanatory drawing which shows the concept of the ROI image for each coloni which concerns on Example 1.
  • FIG. It is a block diagram which shows the concept of the base predictor which concerns on Example 1.
  • FIG. It is a block diagram which shows an example of the structure of the Convolutional Neural Network which concerns on Example 1.
  • FIG. It is explanatory drawing which shows the concept of the base predictor which inputs the ROI image of a plurality of cycles which concerns on Example 2.
  • FIG. It is a block diagram which shows the concept of base prediction using a plurality of base predictors which concerns on Example 3.
  • FIG. It is a flow chart which shows the flow of learning of the base predictor parameter which concerns on Example 4.
  • FIG. It is explanatory drawing for demonstrating the concept of alignment processing which concerns on Example 4.
  • FIG. 5 is an explanatory diagram showing a concept of screening training data based on the signal strength of the colony position according to the seventh embodiment.
  • FIG. 5 is an explanatory diagram showing a concept of screening training data based on the reliability of the coloni position according to the seventh embodiment. It is explanatory drawing for demonstrating the system structure which is different from the nucleic acid analyzer, the base prediction part, and the learning part which concerns on Example 8. FIG. It is explanatory drawing for demonstrating the system structure which is different from the nucleic acid analyzer, the base prediction part, and the learning part which concerns on Example 8. FIG. It is explanatory drawing for demonstrating the system structure which is different from the nucleic acid analyzer, the base prediction part, and the learning part which concerns on Example 8. FIG.
  • FIG. 5 is an image diagram showing an example of a setting screen when the base predictor is used properly for each cycle according to the ninth embodiment.
  • FIG. 5 is an image diagram showing an example of a setting screen for adding or deleting a data set used for learning a base predictor according to the ninth embodiment.
  • nucleic acid analyzer targets DNA fragments for measurement and analysis, it may target RNA, protein, etc. in addition to DNA, and the present invention can be applied to all biological-related substances. be.
  • the embodiment of the present disclosure may be implemented by software running on a general-purpose computer, or may be implemented by dedicated hardware or a combination of software and hardware.
  • each process in the embodiment of the present disclosure will be described with each process unit (for example, an alignment unit, a coloni extraction unit, a base prediction unit, and a learning unit) as a "program" as a subject (operation subject). Since the program performs the processing determined by being executed by the processor while using the memory and the communication port (communication control device), the description may be based on the processor. Part or all of the program may be realized by dedicated hardware, or may be modularized.
  • a base call is performed in which the alignment between fluorescent images and the detection of coloni in each fluorescent image are performed, and the ROI (Region Of Interest) image around the coloni is input in the fluorescent image.
  • FIG. 1 shows a schematic configuration example of the nucleic acid analyzer according to each embodiment.
  • the nucleic acid analyzer 100 includes a flow cell 109, a liquid feeding system, a transport system, a temperature control system, an optical system, and a computer 119.
  • the flow cell 109 is provided with a nucleic acid analysis substrate of each example described later.
  • the liquid feed system provides a means for supplying the reagent to the flow cell 109.
  • the liquid feeding system reacted with the reagent storage unit 114 accommodating a plurality of reagent containers 113, the nozzle 111 accessing the reagent container 113, the pipe 112 for introducing the reagent into the flow cell 109, and the DNA fragment as the means. It is provided with a waste liquid container 116 for discarding waste liquid such as reagents, and a pipe 115 for introducing the waste liquid into the waste liquid container 116.
  • the transport system moves the analysis area 123 of the flow cell 109, which will be described later, to a predetermined position.
  • the transport system includes a stage 117 on which the flow cell 109 is placed, and a drive motor (not shown) for driving the stage.
  • the stage 117 is movable in each of the orthogonal X-axis and Y-axis directions in the same plane.
  • the stage 117 can also be moved in the Z-axis direction orthogonal to the XY plane by a drive motor different from the stage drive motor.
  • the temperature control system adjusts the reaction temperature of the DNA fragment.
  • the temperature control system is installed on the stage 117 and includes a temperature control substrate 118 that promotes the reaction between the DNA fragment to be analyzed and the reagent.
  • the temperature control substrate 118 is realized by, for example, a Pelche element or the like.
  • the optical system provides a means for irradiating the analysis region 123 of the flow cell 109, which will be described later, with excitation light and detecting the fluorescence emitted from the DNA fragment.
  • the optical system includes a light source 107, a condenser lens 110, an excitation filter 104, a dichroic mirror 105 and 120, a bandpass filter 103, an objective lens 108, an imaging lens 102 and 121, and two-dimensional sensors 101 and 122. And.
  • the excitation filter 104, the dichroic mirror 105, and the bandpass filter 103 also referred to as an absorption filter, are included as a set in the filter cube 106.
  • the bandpass filter 103 and the excitation filter 104 determine a wavelength region through which fluorescence having a specific wavelength is passed.
  • the flow of irradiation of excitation light in the optical system will be explained.
  • the excitation light emitted from the light source 107 is collected by the condenser lens 110 and incident on the filter cube 106.
  • the incident excitation light is transmitted only in a specific wavelength band by the excitation filter 104.
  • the transmitted light is reflected by the dichroic mirror 105 and collected on the flow cell 109 by the objective lens 108.
  • the condensed excitation light excites the phosphor that excites in the specific wavelength band.
  • the fluorescence emitted from the excited phosphor is transmitted through the dichroic mirror 105, only a specific wavelength band is transmitted by the bandpass filter 103, only a specific wavelength band is reflected by the dichroic mirror 120, and other wavelength regions are reflected. Is transparent.
  • the light transmitted through the dichroic mirror 120 is imaged as a fluorescent spot on the two-dimensional sensor 101 by the imaging lens 102. Further, the light reflected by the dichroic mirror 120 is imaged as a fluorescent spot on the two-dimensional sensor 122 by the imaging lens 121.
  • only one type of phosphor is designed to excite in a specific wavelength band, and as will be described later, each of the four types of bases can be identified by the type of this phosphor.
  • two sets of filter cubes 106 are prepared according to the wavelength band of the irradiation light and the detection light so that the four types of phosphors can be sequentially detected, and these can be sequentially switched.
  • the excitation filter 104, the dichroic mirrors 105 and 120, and the bandpass filter 103 in the individual filter cube 106 are designed to have transmission characteristics so that the respective phosphors can be detected with the highest sensitivity.
  • the computer 119 includes a processor (CPU), a storage device (various memories such as ROM and RAM), an input device (keyboard, mouse, etc.), and an output device (printer, display, etc.), as in a normal computer. Be prepared.
  • the computer analyzes the fluorescent images detected and generated by the two-dimensional sensors 101 and 122 of the optical system, in addition to the control for controlling the liquid feeding system, the transport system, the temperature control system, and the optical system described above, and individually. It functions as a control processing unit that discriminates the base of the DNA fragment of.
  • control, image analysis, and base identification of the above-mentioned liquid feeding system, transport system, temperature control system, and optical system do not necessarily have to be controlled and processed by one computer 119, and the processing load may be dispersed or processed. It may be performed by a plurality of computers each functioning as a control unit or a processing unit for the purpose of reducing time.
  • FIG. 2 is a diagram showing a processing step for decoding the base sequence of DNA.
  • the entire run (S21) for decoding is performed by repeating the cycle process (S22) M times.
  • M is the length of the base sequence to be obtained, and is predetermined.
  • the fluorescently labeled nucleotide is one in which four types of nucleotides (dCTP, dATP, dGTP, dTsTP) are labeled with four types of phosphors (FAM, Cy3, TexasRed (TxR), Cy5), respectively. ..
  • Each fluorescently labeled nucleotide is described as FAM-dCTP, Cy3-dATP, TxR-dGTP, Cy5-dTsTP.
  • dTsTP is used when the base of the actual DNA fragment is A
  • dGTP is used when the base C is used
  • dCTP is used as the base G
  • dATP is used when the base T is used.
  • the phosphor FAM corresponds to the base G
  • Cy3 corresponds to the base T
  • TxR corresponds to the base C
  • Cy5 corresponds to the base A. The 3'end of each fluorescently labeled nucleotide is blocked so that it does not extend to the next base.
  • Imaging processing Processing for generating a fluorescent image
  • the imaging processing (S24) is performed by repeating the imaging processing (S25) for each detection field described below N times.
  • N is the number of detected fields of view.
  • FIG. 3 is a diagram for explaining the concept of the detection field of view.
  • the detection field of view (FOV: Field of View) 124 corresponds to each area when the entire analysis area 123 is divided into N pieces.
  • the size of the detection field of view 124 is the size of a region that can be detected by the two-dimensional sensors 101 and 122 by one fluorescence detection, and is determined by the design of the optical system. As will be described later, fluorescent images corresponding to the four types of phosphors are generated for each detection field of view 124.
  • the filter cube 106 is switched to a set corresponding to the phosphor (FAM / Cy3) (S27).
  • fluorescent images for four types of phosphors are generated for each detection field of view.
  • a signal of a phosphor corresponding to the base type of the DNA fragment fixed in the flow cell 109 appears on the image as a coloni. That is, the coloni detected in the fluorescent image of FAM is the coloni detected in the fluorescent image of the base A and Cy3, the coloni detected in the fluorescent image of the base C is the base C, and the coloni detected in the fluorescent image of the TxR is the coloni detected in the fluorescent image of the base T and Cy5. Is determined to be base G.
  • FIG. 4 is a diagram showing the concept of colonies of four types of fluorescent images in each detection field of view. As shown in FIG. 4A, for example, there are colonies at eight positions P1 to P8 in a certain detection field of view in a certain cycle, and each base is A, G, C, T, A, C, T, Let it be G.
  • the fluorescence images for the four types of phosphors are shown at the positions P1 to P8, depending on the corresponding base type, as shown in (b) to (e). Colony is detected.
  • the positions of P1 to P8 are the same in the four fluorescent images.
  • the colony positions of the four types of fluorescent images can be made the same by performing the alignment process described later as necessary.
  • the base type at this time can be identified by the ROI image of the coloni of the four types of fluorescent images as described later. As described above, the base type of each coloni detected in the detection field of view is determined.
  • FIG. 5 is a diagram showing the concept of determining this base sequence.
  • each coloni DNA fragment having the base sequence ACGTTACGT (7)
  • S23 a certain cycle
  • Cy3-dATP is incorporated. Is done.
  • This fluorescently labeled nucleotide is detected as a colony on the fluorescent image of Cy3 in the imaging process.
  • the cycle (# N + 1) it is detected as a colony on the fluorescent image of Cy5.
  • the cycle (# N + 2) it is detected as a colony on the TxR fluorescence image.
  • the cycle (# N + 3) it is detected as a coloni on the fluorescence image of FAM.
  • the base sequence in this coloni is determined to be TACG.
  • FIG. 6 is a block diagram showing the functional configuration of the computer 119 in the nucleic acid analyzer 100.
  • the computer is a control unit 806 that controls the above-mentioned liquid feeding system, transport system, temperature control system, optical system, and base call unit, and a communication unit 807 that exchanges control commands and image data between the computer 119 and the device. It is composed of a UI unit 808 that is responsible for screen presentation to the user and input from the user, a storage unit 809 that is composed of a memory and a hard disk, and a base call unit 800 that outputs a base sequence.
  • the base call unit 800 includes an alignment unit 801, a coloni extraction unit 802, a base prediction unit 803, and a learning unit 804.
  • the base call processing performed by the base call unit 800 will be described.
  • control unit 806, the communication unit 807, the UI unit 808, and the base call unit 800 are implemented by software. That is, programs for performing calculations and processing of each part are stored in the storage device of the computer 119, and the processing device 870 executes these programs and hardware such as the input device 880, the output device 890, and the storage unit 809. Process in cooperation with the wear.
  • control unit 806, the communication unit 807, the UI unit 808, and the base call unit 800 may be implemented by hardware instead of software.
  • FIG. 7 is a diagram showing a flow of base call processing.
  • the base call processing is performed in two stages, a coloni position determination stage (S90) and a base sequence determination stage (S91).
  • (A) Coloni position determination stage In the base call unit 800, the coloni position determination stage (S90) is performed. In this embodiment, in the coloni position determination stage (S90), the coloni to be the base call target is determined from the images from the first cycle to the Nth cycle.
  • the alignment unit 801 acquires a four-color fluorescent image at the head FOV of the head cycle through steps S101, S102, and S103, and performs a position alignment process with the reference image (S104). The alignment process will be described below.
  • (A-1) Image Positioning As described above, since the nucleic acid analyzer 100 acquires four fluorescent images by the two sensors 101 and 122, the position shift occurs between the fluorescent images. Further, when the same detection field of view is repeatedly imaged in each cycle, the stage 117 is moved in each cycle to change the detection field of view. Therefore, for the same detection field of view, a positional shift due to a control error when moving the stage occurs between different cycles.
  • FIG. 9 is a diagram showing the concept of misalignment between cycles.
  • the imaging position is deviated between the Nth cycle (a) and the (N + 1) th cycle of (b) with respect to a certain field of view (FOV) due to a stage control error. .. Therefore, the DNA fragment positions (P1 to P8) in the fluorescence image of the N cycle are detected as different positions (P1'to P8', respectively) on the fluorescence image of the (N + 1) cycle.
  • these bright spots are all due to the same DNA fragment. Therefore, in order to determine the base sequence of each coloni, it is necessary to correct the positional deviation between the colonies detected in each fluorescent image.
  • the reference image is a common image used in the position coordinate system of Coloni.
  • a reference image may be created from the known coloni position.
  • an image of brightness according to a two-dimensional Gaussian distribution of a predefined dispersion according to the coloni size may be created centered on the coloni position (x, y).
  • a reference image may be created based on any of the captured actual images.
  • the image of each detection field of view in the first cycle may be used as a reference image, and the images of each detection field of view in the second and subsequent cycles may be aligned with this reference image.
  • a known matching technique can be applied to the alignment between images.
  • t (x, y) an image of 256 pixels ⁇ 256 pixels at the center of the reference image can be mentioned.
  • f (x, y) an image of 256 pixels ⁇ 256 pixels at the center of the input image can be mentioned.
  • a normalized cross-correlation considering the difference in brightness may be used, or a correlation limited to the phase may be used.
  • the above-mentioned mutual correlation or phase-limited correlation can be applied to an image in which the angular direction is converted to the horizontal direction by polar coordinate conversion of the image.
  • the amount of this positional deviation may be obtained at a plurality of points according to the degree of distortion of the image.
  • FIG. 10 shows this concept. For example, if there is no distortion in the image and the same positional deviation for all pixels, that is, only uniform displacement due to the stage can be assumed, the displacement amount S_1 (u,) shown on the left side of FIG. 10A is shown. v) can be applied.
  • the amount of misalignment is obtained from n plurality of points in the image, and the amounts of misalignment S_1, S_1, ... S_n at these plurality of points are obtained.
  • an image centered on the position of each point in the reference image and input image is cut out, and each is used as a template image and a target image, and the amount of misalignment that maximizes the correlation as described above. Should be calculated.
  • the coefficients of the affine transformation and the polynomial transformation can be obtained by the least squares method to formulate the misalignment of any pixel position ((FIG. 10).
  • this conversion may be calculated in both directions. That is, it is advisable to define mutual conversion between the coordinate system of the input image and the coordinate system of the reference image.
  • the coloni extraction unit 802 extracts the bright spot position indicating the coloni from the aligned fluorescent image (S105).
  • a predetermined threshold value is determined for the input image, the bright spot region and the non-bright spot region are separated, and the maximum value is searched from the bright spot region. There is a method.
  • noise may be removed from the input image using a low-pass filter, a median filter, or the like.
  • the background correction process may be performed on the assumption that the luminance unevenness occurs inside the image.
  • a method may be used in which an image obtained by photographing a region in which a DNA fragment does not exist is set as a background image in advance and this is subtracted from the input image.
  • a high-pass filter may be applied to the input image to remove the background component which is a low frequency component.
  • the coloni is included in one of the four types of fluorescent images, it is possible that the bright spots derived from one coloni are included in the plurality of fluorescent images due to the influence of crosstalk as described above. ..
  • the bright spots of different fluorescent images, which are determined to be close to each other by alignment, may be integrated as described later.
  • the coloni position is determined using the images from the beginning to the Nth cycle.
  • N is referred to as the number of coloni determination cycles.
  • N may be about 1 to 8.
  • FIG. 11 shows the advantage of extracting coloni using multiple cycles.
  • the bases for three cycles of adjacent colonies # 1 to # 5 are shown schematically.
  • adjacent colonies have the same base in the same cycle, it may be difficult to distinguish between the colonies because they are adjacent to each other in one fluorescent image. Therefore, by referring to a plurality of cycles, it is possible to easily distinguish colonies at locations where they are different bases.
  • coloni # 2 and coloni # 3 (114) of the same base are adjacent to each other, and coloni # 4 and coloni # 5 (115) are adjacent to each other. It is difficult to identify the coloni.
  • the bases of coloni # 4 and coloni # 5 (113) are different from each other, so that they can be easily identified.
  • coloni # 2 and coloni # 3 (111) have different bases, so that they can be easily identified. In this way, it is possible to enhance the distinctiveness of the coloni by using a plurality of cycles.
  • the coloni extraction unit 802 repeats such a bright spot extraction process (S105) for each detection field of view in each cycle (S106).
  • the process proceeds to the next cycle (S102), the first detection field of view (S103), the alignment process (S104), and the bright spot extraction (S105) are repeated.
  • the coloni integration process (S108) obtained up to N cycles is performed.
  • FIG. 12 shows the concept of coloni integration. As shown in the figure, even if the colonies are the same, they are not arranged at exactly the same coordinates in the coordinate system of the reference image due to an error in the alignment calculation. Therefore, in the coloni integration process, colonies adjacent to each other within a certain distance may be regarded as one (Fig. A), or even if there is only one coloni, it may be an effective one coloni (Fig. B). ). Further, when the size of adjacent colonies exceeds a certain threshold value, they may be divided into two colonies. The new colonies to be integrated may recalculate their centers of gravity. Existing clustering techniques such as the k-means method may be applied to these integration algorithms.
  • FIG. 13 shows the flow of the base sequence determination stage (S91). After moving to the first FOV of the first cycle through steps S131, S132, and S133, the following processing is performed for each FOV thereafter.
  • (B-1) Alignment process (S134) The alignment unit 801 aligns the four fluorescent images of the FOV to be processed with respect to the reference image. This method is the same as the method described in (A-1). However, in the previous stage, since the image up to the number of coloni position determination cycles has already been aligned, the alignment result at that time may be used.
  • ROI image extraction (B-3) ROI image extraction (S136)
  • the coloni extraction unit 802 extracts an ROI (Region Of Interest) image centered on the coloni position on each fluorescent image.
  • FIG. 14 shows the concept of ROI image extraction. “+” Is the center of the coloni position in the fluorescent image, and the area of W pixel ⁇ H pixel centered on this is extracted.
  • W and H shall be appropriately determined in advance according to the size of the colony and the resolution of the image. It is desirable that the adjacent coloni is not reflected as much as possible.
  • the pixel value of the fluorescent image may be normalized according to the base prediction described later.
  • the base prediction unit 803 performs base prediction by inputting each set of ROIs of the above-mentioned four-color fluorescent images.
  • FIG. 15 shows an example of a base predictor in the base predictor 803.
  • the base predictor is composed of a feature amount calculator and a multinomial classifier.
  • the feature amount calculator calculates the feature amount from the input image, and the multinomial classifier classifies it into one of A, G, C, and T based on this feature amount.
  • FIG. 16 shows a configuration using a CNN (Convolutional Neural Network) as an example of such a base predictor.
  • CNN Convolutional Neural Network
  • the filter operation as shown below is performed on the input image.
  • CNN is an example of a supervised and learnable neural network.
  • I is the input image
  • h is the filter coefficient
  • b is the addition term.
  • k is the input image channel
  • m is the output channel
  • i and p are the horizontal positions
  • j and q are the vertical positions.
  • the ReLU layer applies the following activation function to the output of the above Convolution layer.
  • a non-linear function such as a tanh function, a logistic function, or a rectified linear function (ReLU) may be used as the activation function.
  • ReLU rectified linear function
  • the Pooling layer slightly lowers the positional sensitivity of the features extracted in the Convolution layer and the ReLU layer so that the output does not change even if the position of the features in the image changes slightly. Specifically, a representative value is calculated from a partial region of the feature amount with a constant step size. As the representative value, the average value or the like is used as the maximum value. There are no parameters that change with learning in the Pooling layer.
  • the Affine layer is also called a fully connected layer, and defines weighted connections from all units of the input layer to all units of the output layer.
  • i is the index of the unit in the input layer
  • j is the index of the unit in the output layer.
  • w is the weighting factor between them and b is the addition term.
  • CNN the above Convolution layer, ReLU layer, and Pooling layer are repeatedly executed, and the result of passing through the Affine layer-ReLU layer is the image feature amount. From the image features obtained in this way, multinomial classification, that is, base discrimination of A, G, C, and T is performed.
  • the above image features are further subjected to Affine layer processing, and logistic regression using the following softmax function is applied to the result.
  • y is a value indicating the likelihood of the label (here, the base) corresponding to the output unit k.
  • the output unit k corresponds to the likelihood of the base type k, and the base type having the highest likelihood is used as the final classification result.
  • the filter coefficient and addition term of the Convolution layer and the weighting coefficient and addition term of the Affine layer as described above are determined in advance by the learning process by the learning unit 804 as described later. These coefficients are stored in the storage unit 809 as predictor parameters.
  • the base prediction unit 803 may be appropriately acquired from the storage unit 809 during the base prediction process.
  • base sequence determination stage S91 ends.
  • the ROI image of each fluorescent color obtained by the alignment and coloni extraction is input, the feature amount is calculated, and the feature amount is used as the input. Since base prediction is performed, it becomes possible to realize base prediction that is robust to image misalignment and defocus.
  • Example 2 will be described with reference to FIG.
  • the above-mentioned base predictor inputs the ROI image of a certain cycle (Nth cycle) and the ROI image of the previous and next cycles as the input of the base predictor. do.
  • the ROI images of these pre- and post-cycles shall be pre-aligned and of the same coloni-derived image.
  • all ROI images have the same size, and each fluorescent image is input so as to correspond to one channel. That is, in the figure, a 12-channel ROI image is input.
  • Fading is a shift in the pace of the elongation reaction due to the incompleteness of the chemical reaction of the DNA fragment in each cycle, and not only the signal derived from the base in each cycle but also the signal derived from the base in the cycles before and after that. Is mixed. It is known that such fading exists in a certain proportion in each cycle, and as the cycle progresses, such effects are accumulated, which contributes to a decrease in the accuracy of base identification.
  • the ROI image of the cycles before and after is displayed in the base predictor.
  • the ROI image of only the front and rear cycles is input, but the ROI image of two or more cycles may be input for each of the front and rear cycles. Further, one of the front and rear images may be input.
  • a plurality of ROI images before and after the cycle to be predicted are added to the input image to perform base prediction, so that a highly accurate base considering the influence of fading is performed. You will be able to realize your predictions.
  • Example 3 will be described with reference to FIG.
  • the base prediction unit 803 performs base prediction by combining a plurality of the above-mentioned base predictors.
  • each base predictor takes an ROI image of the same size as an input, and different base prediction parameters are set. It is assumed that these different base prediction parameters are determined in advance under different conditions by learning as described later. Here, it may be determined in consideration of variations in the captured image of RUN, such as different devices, different room temperatures, different cycles, etc. under different conditions.
  • the final base likelihood is output from the outputs (likelihood of each base) of a plurality of base predictors determined under such different conditions. With such a configuration, it is possible to perform more reliable base prediction in consideration of various conditions.
  • the maximum value of all the base predictors may be output, or the average of the likelihoods of each base or the weighted sum may be output.
  • each base predictor may differ in the network structure of the CNN, the number of cycles before and after the ROI image to be input, and the ROI size. Further, the feature amount extraction method and the multinomial classification algorithm may be different.
  • the nucleic acid analyzer according to Example 3 uses a plurality of base predictors determined under different conditions, it realizes robust and more accurate base prediction against differences in various conditions. become able to.
  • Example 4 shows an example of the learning method of the base predictor in the base predictor 803 described in the first embodiment.
  • the configuration in which the learning unit 804 is added to the base call unit 800 described in FIG. 6 of Example 1 will be described as an example.
  • the learning of the base predictor may be carried out individually by different devices. In that case, the learning unit 804 of FIG. 6 can be omitted.
  • FIG. 19 shows the flow of the learning process of the base predictor in the learning unit 804.
  • S191 The initial base prediction (S191) outputs the initial value of the base sequence for each coloni determined in the coloni positioning stage (S90).
  • the output of this base sequence may be a prediction based on a simple rule such as selecting a base corresponding to the fluorescent color that maximizes the brightness of each coloni.
  • it may be realized by setting the initial prediction parameters using the base predictor described in Example 1 (for example, the base prediction unit 803 in the initial setting state).
  • the accuracy is such that a certain number of base sequences are aligned in the initial base prediction.
  • FIG. 20 shows a conceptual diagram of the alignment process.
  • the reference sequence is a known correct sequence corresponding to the DNA sample measured by the nucleic acid analyzer.
  • the reference sequence used here may be a widely published genomic sequence or a correct sequence attached to a commercially available sample.
  • a search based on a known method such as Burrows-Wheeler Transform may be used.
  • FIG. 20 shows a situation in which the base sequences 2003 and 2004 of a certain coloni in the set of base sequences of all colonies 2005 are aligned with the partial sequences 2001 and 2002 of the reference sequence 2000, respectively.
  • the base sequence aligned in this way, it can be determined that the bases that match with the reference sequence are correct answers and the bases that do not match are incorrect answers.
  • the base sequence 2003 and the partial sequence 2001 match, all the bases in the base sequence 2003 are determined to be correct.
  • the base sequence 2004 and the partial sequence 2002 it can be determined that the second base from the beginning is an incorrect answer and the other bases are correct answers.
  • the unaligned sequences are not judged to be correct or incorrect.
  • FIG. 21 shows the relationship between the set of coloni bases and the aligned set of coloni bases.
  • the set 2300 is a set of bases estimated by the base prediction unit 803 for all cycles with respect to all the colonies obtained by the coloni extraction unit 802 of Example 1.
  • the set 2301 is a set of colonies aligned as a result of performing an alignment process on the set 2300. As shown in the figure, the set 2301 can be further divided into a correct base and an incorrect base.
  • Alignment rate Ratio of the number of aligned colonies to the total number of extracted colonies
  • Correct base rate or incorrect base rate
  • Number of correct bases or no
  • Correct answer base number ratio
  • C Training data update
  • Training data is created by combining a fluorescent image corresponding to each base of the base sequence aligned in step S192 (or S196) and the correct base indicated by the reference sequence as one correct answer information (S193).
  • FIG. 22 shows the concept of correct answer information in the training data.
  • FIG. 20 shows an example of correct answer information in the base sequence 2004 aligned with the partial sequence 2002 of the reference sequence.
  • the sequence position of the base sequence 2004 corresponds to a cycle, and each base is estimated from the ROI image of each cycle at the coloni position.
  • the correct answer information is configured as shown in FIGS. 2100 to 2104 by combining the ROI image corresponding to each base and the correct base information shown in the partial sequence 2002.
  • Correct answer information 2100, 2102, 2103, 2104 is the correct answer of the predicted base.
  • the predicted base is T (on the base sequence 2004), and the prediction result is incorrect, but the correct answer information in which the correct base "A" shown by the reference sequence and the ROI image are combined is used.
  • the ROI image of each coloni may be stored as a set of the link information of the fluorescent image and the position information of the colony on each fluorescent image. ROI images can be obtained from this information when inputting to the base predictor.
  • the sequence information aligned in this way may include both the correct and incorrect base predictions.
  • incorrectly answered bases are presumed to be ROI images for which it is difficult to predict the bases. Therefore, by including the correct answer information for the incorrectly answered bases in the training data, the performance of the base predictor can be expected to improve.
  • the correct answer information for the base that does not exist in the existing training data is added to the training data.
  • FIG. 23 shows a conceptual diagram of updating training data.
  • An information table as shown in the figure is stored in the storage unit 809 for the bases for all cycles of all colonies.
  • the contents of the information table may include the following information as an example.
  • (b) Coroni position information in each image (c) Predicted base (d) Whether or not it was aligned (e) Correct base (if aligned) (f) Likelihood of each base (g) Whether or not the training data contains correct answer information Refer to (g) above, and if the training data does not contain the correct answer information for the base, train the correct answer information for the base. Add to the data.
  • Known machine learning algorithms can be applied to learning.
  • the known error back propagation method can be applied to determine the filter coefficient and the addition term of the Convolution layer and the weighting coefficient and the addition term of the Affine layer.
  • a cross entropy error function may be used as the error function at this time.
  • the coefficient at the start of learning may be initialized at random if it is the first time, or a known pre-learning method such as a self-encoder may be applied. If the base predictor in step S194 is updated for the second time or later, the predictor parameters determined last time may be used.
  • the above predictor parameter calculation is a method of updating the predictor parameter so as to minimize the error function by performing iterative calculation for the specified number of iterations (epoch number) by a method such as the known gradient descent method. Can be used.
  • the learning coefficients for updating the predictor parameters may be changed as appropriate by known methods such as AdaGrad and Adadelta.
  • the gradient may be calculated based on the sum of the errors for all the data by the gradient descent method, or by the known probabilistic gradient descent method. , You may randomly divide into a set of default M pieces of data called a mini-batch, calculate the gradient for each mini-batch, and update the predictor parameters. Further, in the above stochastic gradient descent method, the influence of data bias may be reduced by shuffling the data for each epoch.
  • a part of the training data may be separated as verification data, and the base prediction performance by the predictor parameters learned using this verification data may be evaluated.
  • the prediction performance based on this verification data may be visualized for each epoch.
  • a prediction accuracy indicating the rate at which the prediction is correct, an error rate vice versa, a value (loss) of an error function, or the like may be used.
  • the predictor parameters thus obtained by learning are applied to the base predictor.
  • the past predictor parameters before the update are stored in the storage unit 809. Store it.
  • (E) Base prediction (S195) The base prediction unit 803 outputs the base sequence of all colonies by performing base prediction for all colonies using the predictor parameters obtained in step S194. The base prediction according to Example 1 is applied to this prediction.
  • (G) Realignment process (S196) In the learning unit 804, the alignment process is performed again on the base sequence obtained in step S195. Since this alignment process is exactly the same as step S192 except that the input base sequence is different, detailed description thereof will be omitted.
  • (F) Update continuation judgment (S197) Based on the alignment rate and the correct base rate obtained in step S196, it is determined whether to continue or end the above-mentioned predictor parameter update process.
  • the alignment rate and the correct base rate gradually increase, and the increase rate gradually decreases and eventually becomes saturated. Or, it is conceivable that learning fails and the rate of increase becomes negative.
  • FIG. 25 shows a plot of the alignment rate and the incorrect base rate for each number of times. Therefore, as a method of determining whether or not to continue updating the predictor parameters, a determination threshold value is set for each of the increase rate of the alignment rate and the increase rate of the correct base rate, and these increase rates set the threshold value. When the value falls below the limit, a determination such as ending the predictor parameter update may be used.
  • step S198 Base predictor determination
  • step S198 When the update of the predictor parameters is completed in step S198, one of the optimum predictor parameters obtained by repeating the update including the initial base prediction (S191) is selected. , Determine the base predictor (S198).
  • criteria for selecting the optimum parameters include the maximum alignment rate and the maximum correct answer rate.
  • the parameters may be determined based on criteria such as maximizing the weighted sum of the alignment rate and the correct answer rate.
  • a base sequence is generated using the base predictor in the initial state for the captured image set given for learning, and the base sequence result and the reference sequence are generated.
  • Correct answer information is extracted from the coloni aligned by the alignment process with, the training data is updated, and the predictor parameters are learned using this training data.
  • Example 5 in addition to the ROI image of the cycle to be the target of base estimation described in Example 2, the parameters of the base predictor that add the ROI images of a plurality of cycles before and after the ROI image to the channel of the input image are learned. It is an example to do.
  • the ROI image to be added to the training data as correct answer information is not one cycle (4 channels) as described in FIG. 22, but also includes ROI images of the previous and next cycles.
  • Other learning methods are the same as in Example 4.
  • Example 5 by creating training data in which a plurality of ROI images before and after the cycle to be predicted are added to the input image and learning the predictor parameters, the accuracy considering the influence of fading is taken into consideration. It will be possible to realize high base prediction.
  • Example 6 the ROI image included in the training data to which image processing is applied is added to the training data as a new ROI image.
  • a filter process is applied to the ROI image of the original training data to create an appropriately blurred image, and these are added to the training data to learn predictor parameters.
  • an image obtained by shifting the ROI image of the original training data is created, and these are added to the training data to learn the predictor parameters.
  • an image to which processing such as rotation, enlargement, and reduction may be applied may be added.
  • the robustness of the base predictor can be improved by adding the ROI image subjected to various image processing to the training data and learning the parameters of the base predictor. ..
  • Example 7 the correct answer information to be added to the training data is screened in the training data update (S193) step of the learning process (FIG. 19) of the learning unit 804 described in Example 4.
  • correct answer information (2100 to 2104) was included in the training data for all the bases aligned in step S192.
  • the aligned bases may contain undesired training data.
  • the training data is updated after the bases that are not desirable as such training data are discriminated and excluded by the screening process. The following is an example of the judgment to be excluded from the training data.
  • FIG. 28 shows a concept of detecting that the colony has peeled off from the flow chip.
  • the figure shows an example in which the base sequence 2901 called by a certain coloni is aligned with the reference sequence 2900.
  • the reference sequence mismatch occurs in the 2nd cycle, the 4th cycle, the 5th cycle, and the 6th cycle.
  • FIGS. 2902 to 2906 show the signal intensities of four fluorescent images (G, A, T, and C correspond to the phosphors FAM, Cy5, Cy3, and TxR, respectively) at the center position of the coloni, which correspond to the base sequence 2901. There is.
  • the signal intensity may be obtained directly from the fluorescence image, or may be obtained through a calculation process such as linear conversion using a color conversion matrix measured in advance.
  • the signal strength corresponding to C is high, and it stands out even when compared with the signal strength of other bases.
  • all signal strengths are low.
  • the fluorescence intensity is generally low after a certain cycle, the coloni is peeled off from the flow chip in the chemistry treatment of each cycle described in FIG. 2, and fluorescence cannot be obtained. It is possible that it is. If such exfoliation of the coloni is considered, for example, because the fluorescence intensity of all the phosphors is lower than the threshold value, it is excluded from the training data regardless of whether it matches or does not match the reference sequence.
  • FIG. 29 is a conceptual diagram for detecting a base mutation.
  • the figure shows an example in which the base sequence 3001 called by a certain coloni is aligned with the reference sequence 3000. In this example, the reference sequence mismatch occurs in the third cycle.
  • 3002 to 3006 indicate the signal intensities of the four fluorescent images at the center positions of each coloni.
  • the signal strength corresponding to the base sequence 3001 called in each is outstanding as compared with the other bases, and unlike FIG. 28, the signal strength is also high.
  • the called base "C” stands out as compared with other bases. It is presumed that the bases whose signal strength is remarkably called in this way have relatively high reliability. Therefore, if the signal strength of the called base is more pronounced than the other bases in the cycles before and after it, including the cycle in which the discrepancy occurred, then the mutation occurred in the cycle in which the discrepancy occurred. , It is presumed that it is different from the base of the reference sequence 3000. That is, the information in reference sequence 3000 is unreliable when such mutations occur. Therefore, bases in which such mutations are detected are excluded from the training data.
  • the following formula may be used as an example of an index indicating how much the signal strength of the called base stands out compared to other bases as described above.
  • I_call is the signal intensity of the called base
  • the denominator is the sum of the fluorescence intensities I of the four colors.
  • Such an index D may be used to determine whether the mismatched base is mutated or not.
  • Another example is a method using the likelihood information output by the base prediction unit.
  • the base prediction process (S137) in the base prediction unit 803 described in Example 1 in the CNN described in FIG. 16, the Softmax unit finally outputs the likelihood Yk of each base.
  • FIGS. 3007 to 3011 of FIG. 29 show an example of the likelihood of each base in each cycle. It can be said that the higher the likelihood of this base, the higher the reliability of base identification. Therefore, if the likelihood of the called base is high in several cycles before and after the cycle including the cycle in which the mismatch occurred, the base in the reference sequence 3000 is combined with the base in the reference sequence 3000 because the mutation occurred in the cycle in which the mismatch occurred. May be inferred to be different. Bases in which mutations are detected in this way are excluded from the training data.
  • Example 7 when updating the training data, the reliability of the base call result is calculated based on the information such as the signal intensity and the likelihood of the fluorescent image of the aligned base, and the reliability is calculated based on this. Determine if it should be added as training data to. As a result, the quality of training data during learning can be improved, and the prediction accuracy of the base predictor can be improved.
  • Example 4 the configuration in which the base prediction unit 803 and the learning unit are provided in the nucleic acid analyzer 100 has been described.
  • Example 8 shows an example of a system configuration in which the nucleic acid analyzer, the base prediction unit, and the learning unit are separated.
  • FIGS. 30A to 30C show a plurality of system configuration examples.
  • FIG. 30A shows a system in which nucleic acid analyzers 1 and 2 are provided with the same base prediction unit, the base prediction unit is trained in the nucleic acid analyzer 2, and the prediction model parameters obtained by the learning are transmitted to the nucleic acid analyzer 1.
  • the configuration is shown.
  • the image captured by the nucleic acid analyzer 2 is used as the training data used during learning.
  • a nucleic acid analyzer vendor performs measurement using the nucleic acid analyzer 2 owned by the user, generates a predictive model parameter, and downloads it to the nucleic acid analyzer 1 owned by the user. ..
  • Such a configuration example can be applied when the variation between the devices is small.
  • the merit of this configuration is that the nucleic acid analyzer 1 owned by the user does not need to have a learning function, so that the cost of the apparatus can be reduced.
  • the nucleic acid analyzer 1 and the external learning server are provided with the same base prediction unit, and the learning server learns the base prediction unit using the image captured by the nucleic acid analyzer 1 to obtain the prediction.
  • the configuration of the system for transmitting the model parameters to the nucleic acid analyzer 1 is shown.
  • a nucleic acid analyzer vendor provides a computer having only a learning function to a user as a learning server, sends an image captured by the user-owned nucleic acid analyzer 1 to the learning server, and uses the server. It is a form in which the prediction model parameters obtained by the learning of the above are downloaded to the nucleic acid analyzer 1.
  • nucleic acid analyzer 1 owned by the user does not need to have a learning function, so that the cost of the apparatus can be reduced, but the network capacity for transferring the image to the server is required.
  • FIG. 30C is a configuration example in which the base call function of the nucleic acid analyzer 1 is also transferred to an external server from the configuration of FIG. 30B.
  • the function of the nucleic acid analyzer 1 is to capture only a colony image, and all subsequent base calls are performed by an external server. Since the functions are reduced as compared with FIG. 30B, the device cost can be reduced, but the network capacity for transferring the image to the server is required.
  • the system configuration is such that the nucleic acid analyzer, the base prediction unit, and the learning unit are separated, so that the nucleic acid analyzer provided to the user, the base prediction processing function, and the learning processing function are low in cost. It becomes possible to change.
  • Example 9 shows some user interface examples in the examples described so far. These user interfaces are presented by the UI unit 808 in FIG. However, it may be presented by the monitor screen of an external computer and peripheral devices such as a mouse and keyboard.
  • FIG. 31 shows an example of a screen for selecting a plurality of base predictors in the configuration using a plurality of base predictors (FIG. 18) described in the third embodiment.
  • the figure is an example of a screen in which a list of a plurality of already learned prediction model parameters existing in the nucleic acid analyzer is presented to the user, and a base predictor to be used for prediction is selected from these.
  • the learning accuracy of each prediction parameter, the creation date, and the like are presented.
  • the present invention is not limited to these, and various information that can be used as a reference for selecting prediction parameters may be presented.
  • FIG. 32 in the configuration using a plurality of base predictors described in Example 3 (FIG. 18), a setting screen for properly using the base predictor for each cycle.
  • An example is shown.
  • different prediction models are set at 50 cycle intervals, and the combination of these prediction models is defined as a new prediction model.
  • the effect of fading between cycles accumulates as the cycle increases. Therefore, the characteristics of the captured image change depending on the number of cycles. Therefore, it may be effective to switch the prediction model used for the base call according to the cycle.
  • the figure shows an example of switching the model every 50 cycles, it may be made finer, for example, the model may be switched every cycle.
  • FIG. 33 shows an example of a setting screen for adding or deleting a data set used for training with respect to a new or existing prediction model.
  • the data set used for learning may be image data stored in the storage unit 809 of the nucleic acid analyzer, or may be image data stored in an external computer or storage device.
  • FIG. 33 is an example of a screen that presents a list of data sets to be newly added to training for a selected prediction model and prompts the user to make a selection. By operating the "Add" button, you can add the checked data set.
  • the image data set used for training may be changed based on the existing prediction model, and saved as a prediction model with a new name by the file name setting dialog (not shown).
  • the learning parameters described in the fourth and subsequent embodiments may be set for each image data by using a learning setting screen (not shown).
  • a learning setting screen (not shown).
  • parameter setting items for such learning may be set various parameters related to the learning method of the base predictor described in this embodiment.
  • C Input ROI size and number of cycles before and after The setting may be changed for each prediction model in consideration of the degree of focus of the image and the influence of fading.
  • D CNN network configuration
  • Known CNN setting items such as the number of network layers, the type of activation function, the presence or absence of the Pooling layer, the learning rate, the number of epochs, and the number of mini-batch may be changed for each prediction model.
  • E Selection of additional learning or new learning When updating the base prediction model by adding training data, either update the prediction model with the immediately preceding base prediction model as the initial value, or reset the prediction model and start anew.
  • (F) Setting of screening for training data Setting of screening conditions for updating training data described in Example 7. Reliability threshold, likelihood threshold, signal strength threshold, etc. for determining not to be included in training data.
  • nucleic acid analyzer of the examples described above or the base identification method
  • various nucleic acid reactions can be detected and nucleic acids such as DNA sequences can be analyzed.
  • the present invention is not limited to the above-mentioned examples, and includes various modifications.
  • the above-mentioned examples have been described in detail for a better understanding of the present invention, and are not necessarily limited to those having all the configurations of the description.
  • the nucleic acid analyzer of each of the above-mentioned examples measures and analyzes DNA fragments, but may target other bio-related substances such as RNA in addition to DNA.
  • It can be used for nucleic acid analysis for measuring biological substances.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biochemistry (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Multimedia (AREA)
  • Zoology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Wood Science & Technology (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Optics & Photonics (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)

Abstract

画像の位置合わせ精度に対してロバストな核酸分析技術を提供することを目的とする。 本発明の好ましい一側面は、基板に配置された生体関連物質からの発光を検出した複数の画像を入力として塩基予測を行うための塩基予測部と、複数の画像の基準画像への位置合わせを行う位置合わせ部と、複数の画像から輝点の抽出を行う抽出部を備え、塩基予測部は、複数の画像内の、抽出された前記輝点の位置の周辺画素を含む画像を入力とし、該画像の特徴量を抽出し、該特徴量を元に塩基を予測する、ことを特徴とする核酸分析装置である。

Description

核酸分析装置、核酸分析方法及び機械学習方法
 本発明は、生体関連物質を計測するための核酸分析技術に関する。
 近年、核酸分析用装置においては、ガラス基板もしくはシリコン基板等によるフローセルに分析対象となるDNA断片を数多く担持して、これら数多くのDNA断片の塩基配列をパラレルに決定する方法が提案されている。この方法では、多数のDNA断片を含むフローセル上の分析領域に、塩基に対応する蛍光色素付き基質を導入し、当該フローセルに励起光を照射して個々のDNA断片から発せられる蛍光を検出して塩基を同定(コール)する。
 また、大量のDNA断片を解析するため、通常、分析領域は複数の検出視野に分けられ、一回照射するごとに検出視野を換えて全ての検出視野で分析を行った後、ポリメラーゼ伸長反応を用いて新たな蛍光色素付き基質を導入し、上述と同様な操作で各検出視野を分析する。このサイクルを繰り返すことで効率よく塩基配列を決定することができる(特許文献1参照)。
 上記のような分析では、基板上に固着された増幅DNAサンプル(以降、コロニと記す)から発せられる蛍光を撮像し、画像処理によって塩基を特定する。すなわち、蛍光画像内の個々のコロニを同定し、個々のコロニ位置における、各塩基に対応する蛍光強度を取得し、この蛍光強度から塩基を同定する(特許文献2参照)。
 一般的に、同一の検出視野を撮像した蛍光撮像同士であっても、視野を変えるための駆動装置の制御精度の限界によって、撮像した位置はフローセル上で異なる。このため、あるコロニは、個々の蛍光画像内で異なる座標位置で撮像される。よって個々のコロニを正確に同定するためには、個々のコロニのフローチップ上の座標位置を正確に求める必要がある。
 このような目的のためには、基板上の位置を決めるための基準マーカを基板上に配置して置く方法や、基準画像との画像相関マッチングによって撮像画像の個々のコロニの位置を検出する方法がある。ここで基準画像とは、その画像上のコロニの位置座標である位置情報が既知であり、フローチップの設計情報から生成される画像である。もしくは、個々の検出視野で複数枚撮像された画像のうちのどれか一つの画像を基準画像として、他の画像のコロニを、参照画像上のコロニと対応づけしても良い。以降、こうした基準画像と対象画像との間の位置座標を対応づけする処理を位置合わせと記す。
特開2020-60号公報 WO2017-203679
 しかし位置合わせはコロニの画像パターンや、画像のフォーカス度合いに依存する。一般的に伸長反応や撮像のサイクルを繰り返すにつれて、DNAが劣化して蛍光強度は減衰していくため、サイクル数が大きくなるにつれて位置合わせの精度が低下する。また撮像時のフォーカスが悪い場合にも位置合わせ精度が低下する。また後述するように、異なるカメラ間の蛍光画像で位置合わせを行う場合は、レンズ歪の差が大きいことで位置合わせ精度が低下する可能性もある。位置合わせの精度が低下すると、個々のコロニ位置で取得される蛍光強度の信頼性が低くなるため、誤った塩基をコールする可能性が高くなる。
 本発明はこのような状況に鑑みてなされたものであり、画像の位置合わせ精度に対してロバストな核酸分析技術を提供することを目的とする。
 本発明の好ましい一側面は、基板に配置された生体関連物質からの発光を検出した複数の画像を入力として塩基予測を行うための塩基予測部と、複数の画像の基準画像への位置合わせを行う位置合わせ部と、複数の画像から輝点の抽出を行う抽出部を備え、塩基予測部は、複数の画像内の、抽出された前記輝点の位置の周辺画素を含む画像を入力とし、該画像の特徴量を抽出し、該特徴量を元に塩基を予測する、ことを特徴とする核酸分析装置である。
 より具体的な手段の例では、前記複数の画像は、生体関連物質に取り込まれた複数種類の蛍光体からの複数種類の発光をセンサで検出したものであり、複数種類の発光のそれぞれは、検出するセンサおよび検出するセンサへの光路のうち少なくとも一つが異なる。
 別のより具体的な手段の例では、塩基予測部は、教師有り学習可能な予測器で構成されている。
 別のより具体的な手段の例では、塩基予測部は、予測を行うサイクルの画像に加え、前サイクルおよび後サイクルから選ばれた少なくとも一つのサイクルの画像を入力とする。
 本発明の好ましい他の一側面は、塩基予測器に、生体関連物質からの発光を検出した複数の画像を入力として、塩基予測を行う核酸分析方法であって、コロニ位置決定ステージと塩基配列決定ステージを実行するものである。コロニ位置決定ステージは、複数の画像の位置合わせを行う位置合わせ処理と、複数の画像から輝点の抽出を行って生体関連物質のコロニ位置を決定するコロニ位置決定処理を実行する。塩基配列決定ステージは、塩基予測器に、複数の画像内の、抽出されたコロニ位置の周辺画素を含む画像を入力し、該画像の特徴量を抽出し、該特徴量を元に塩基を予測する。
 本発明の好ましい他の一側面は、生体関連物質からの発光を検出した複数の画像を入力として塩基予測を行うための塩基予測器の機械学習方法である。この方法は、複数の画像から第一の塩基予測結果を生成する第一の塩基予測ステップと、第一の塩基予測結果と参照配列とのアラインメント結果に基づき第一の訓練データを生成する、第一の訓練データ生成ステップと、第一の訓練データ生成ステップにて生成された第一の訓練データを用いて塩基予測器のパラメータを更新する、予測器更新ステップと、予測器更新ステップにて更新した塩基予測器を用いて複数の画像から第二の塩基予測結果を生成する第二の塩基予測ステップと、第二の塩基予測結果と参照配列とのアラインメント結果に基づき第二の訓練データを生成する、第二の訓練データ生成ステップと、第二の訓練データを用いて第一の訓練データを更新する、訓練データ更新ステップと、を実行する。
 本発明によれば、画像の位置合わせ精度に対してロバストな核酸分析技術を提供することができる。
各実施例に係る、核酸分析装置の概略構成例を示すブロック図である。 各実施例に係る、DNAの塩基配列の解読のための処理工程を示すチャート図である。 各実施例に係る、フローセル上の検出視野の概念を説明するための平面図である。 各実施例に係る、個々の検出視野における4種類の蛍光画像の輝点の概念を示す説明図である。 各実施例に係る、塩基配列の決定の概念を示す説明図である。 実施例1に係る、核酸分析用装置のコンピュータの構成の一例を説明するためのブロック図である。 実施例1に係る、塩基コールステージの流れを示す流れ図である。 実施例1に係る、コロニ位置決定ステージの流れを示す流れ図である。 各実施例に係る、サイクル間の位置ずれの概念を示す説明図である。 各実施例に係る、画像内で複数箇所の位置ずれ量を計測する概念を示す説明図である。 実施例1に係る、複数サイクルによるコロニ抽出の概念を示す説明図である。 実施例1に係る、複数サイクルによるコロニ位置の決定の概念を示す説明図である。 実施例1に係る、塩基配列決定ステージの流れを示す流れ図である。 実施例1に係る、各コロニに対するROI画像の概念を示す説明図である。 実施例1に係る、塩基予測器の概念を示すブロック図である。 実施例1に係る、Convolutional Neural Networkの構成の一例を示すブロック図である。 実施例2に係る、複数サイクルのROI画像を入力とする塩基予測器の概念を示す説明図である。 実施例3に係る、複数の塩基予測器を用いた塩基予測の概念を示すブロック図である。 実施例4に係る、塩基予測器パラメータの学習の流れを示す流れ図である。 実施例4に係る、アラインメント処理の概念を説明するための説明図である。 実施例4に係る、全コロニの塩基とアラインされたコロニの塩基の関係性を説明するための説明図である。 実施例4に係る、訓練データを構成する正解情報の概念を説明するための説明図である。 実施例4に係る、訓練データの更新の概念を説明するための説明図である。 実施例4に係る、学習の繰り返しによる予測性能の向上の概念を説明するための説明図である。 実施例4に係る、学習の繰り返しによるアラインメント率とエラー率との改善の概念を説明するためのグラフ図である。 実施例6に係る、ボケ処理による訓練データの拡充の概念を示す説明図である。 実施例6に係る、シフト処理による訓練データの拡充の概念を示す説明図である。 実施例7に係る、コロニ位置の信号強度に基づいて訓練データをスクリーニングする概念を示す説明図である。 実施例7に係る、コロニ位置の信頼度に基づいて訓練データをスクリーニングする概念を示す説明図である。 実施例8に係る、核酸分析装置、塩基予測部、学習部が異なるシステム構成を説明するための説明図である。 実施例8に係る、核酸分析装置、塩基予測部、学習部が異なるシステム構成を説明するための説明図である。 実施例8に係る、核酸分析装置、塩基予測部、学習部が異なるシステム構成を説明するための説明図である。 実施例9に係る、複数の塩基予測器を選択する画面の一例を示すイメージ図である。 実施例9に係る、サイクル毎に塩基予測器を使い分けする際の、設定画面の一例を示すイメージ図である。 実施例9に係る、塩基予測器の学習に用いるデータセットの追加や削除の設定画面の一例を示すイメージ図である。
 以下、添付図面を参照して本発明の実施例について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施例と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。すなわち、本明細書の記述は典型的な例示に過ぎず、特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
 以下説明する種々の実施例では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。また、各種の実施例による核酸分析装置は、DNA断片を測定・解析対象としているが、DNAの他、RNAやたんぱく質等を対象としても良く、本発明は、生体関連物質の全般に適用可能である。
 更に、本開示の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
 以下では、「プログラム」としての各処理部(例えば、位置合わせ部、コロニ抽出部、塩基予測部、学習部)を主語(動作主体)として本開示の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。
 以下、本発明の種々の実施例を図面に従い順次説明する。代表的な実施例においては、蛍光画像間の位置合わせと、個々の蛍光画像内のコロニ検出とが行われた、蛍光画像において、コロニ周辺のROI(Region Of Interest)画像を入力とした塩基コール方法を提供する。また、コールされた塩基配列と、参照配列との比較に基づいて訓練データ更新と、塩基コールとを繰り返して塩基予測器を学習する方法を提供する。
 (1)核酸分析装置
  図1に、各実施例に係る核酸分析装置の概略構成例を示す。核酸分析装置100は、フローセル109と、送液系と、搬送系と、温調系と、光学系と、コンピュータ119と、を有する。フローセル109には、後述する各実施例の核酸分析用基板が備えられる。
 送液系は、フローセル109に試薬を供給する手段を提供する。送液系は、当該手段として、複数の試薬容器113を収容する試薬保管ユニット114と、試薬容器113へアクセスするノズル111と、上記試薬をフローセル109へ導入する配管112と、DNA断片と反応した試薬等の廃液を廃棄する廃液容器116と、廃液を廃液容器116へ導入する配管115と、を備えている。
 搬送系は、後述するフローセル109の分析領域123を所定の位置に移動させるものである。搬送系は、フローセル109が置かれたステージ117と、同ステージを駆動する駆動用モータ(図示しない)と、を備える。ステージ117は、同一平面内において直交するX軸およびY軸の各方向に移動可能である。なお、ステージ117は、ステージ駆動用モータとは別の駆動用モータにより、XY平面に直交するZ軸方向への移動も可能である。
 温調系は、DNA断片の反応温度を調整するものである。温調系は、ステージ117上に設置され、分析対象であるDNA断片と試薬の反応を促進させる温調基板118を備えている。温調基板118は、例えば、ペルチェ素子などにより実現される。
 光学系は、後述するフローセル109の分析領域123へ励起光を照射し、DNA断片から発せられる蛍光を検出する手段を提供する。光学系は、光源107と、コンデンサレンズ110と、励起フィルタ104と、ダイクロイックミラー105、120と、バンドパスフィルタ103と、対物レンズ108と、結像レンズ102、121と、2次元センサ101、122と、によって構成される。励起フィルタ104と、ダイクロイックミラー105と、吸収フィルタとも称されるバンドパスフィルタ103は、フィルタキューブ106内にセットとして含まれている。バンドパスフィルタ103と励起フィルタ104とによって特定の波長を有する蛍光を通過させる波長領域が決まる。
 光学系における励起光の照射の流れを説明する。光源107から発せられる励起光は、コンデンサレンズ110で集光され、フィルタキューブ106に入射する。入射した励起光は、励起フィルタ104で特定の波長帯域のみが透過する。透過した光は、ダイクロイックミラー105で反射し、対物レンズ108によって、フローセル109上に集光する。
 次に光学系における蛍光検出の流れを説明する。集光された励起光によって、フローセル109上に固定されたDNA断片に取り込まれた4種の蛍光体のうち、上記特定の波長帯域に励起する蛍光体が励起される。励起された蛍光体から発せられる蛍光は、ダイクロイックミラー105を透過し、バンドパスフィルタ103にて特定の波長帯域のみが透過され、ダイクロイックミラー120によって特定の波長帯域のみが反射され、その他の波長領域は透過する。ダイクロイックミラー120を透過した光は、結像レンズ102によって、2次元センサ101上に蛍光スポットとして結像する。またダイクロイックミラー120で反射した光は、結像レンズ121によって、2次元センサ122上に蛍光スポットとして結像する。
 本実施形態では、特定の波長帯域に励起する蛍光体は1種類のみとなるよう設計され、後述するように、この蛍光体の種類によって4種類の塩基をそれぞれ識別できるものとする。また、この4種類の蛍光体を順次検出できるように、照射光と検出光との波長帯域に応じてフィルタキューブ106が2セット用意され、これらを順次切り替えられるものとする。個々のフィルタキューブ106内の励起フィルタ104とダイクロイックミラー105、120と、バンドパスフィルタ103とは、それぞれの蛍光体を最も高感度で検出できるように透過特性が設計されている。
 コンピュータ119は、通常のコンピュータと同様、プロセッサ(CPU)と、記憶デバイス(ROMやRAM等の各種メモリ)と、入力装置(キーボード、マウス等)と、出力装置(プリンタ、ディスプレイ等)と、を備える。当該コンピュータは、上述の送液系、搬送系、温調系、及び光学系の制御を行う制御他、光学系の2次元センサ101、122で検出され、生成された蛍光画像を解析し、個々のDNA断片の塩基識別を行う制御処理部として機能する。ただし、上述の送液系、搬送系、温調系、及び光学系の制御や、画像解析、塩基識別は、必ずしも1つのコンピュータ119で制御処理されなくてもよく、処理負荷の分散や、処理時間軽減などの目的で、それぞれ制御部や処理部として機能する複数のコンピュータによって行われてもよい。
 (2)DNA塩基配列の解読方法
  図2乃至図4を参照してDNAの塩基配列の解読方法について説明する。なお、後述するように、フローセル109上には予め、同一のDNA断片が増幅されて密集したコロニが高密度に配置されているものとする。DNA断片の増幅には、エマルジョンPCRやブリッジPCRなどの既存技術を用いてよい。
 図2は、DNAの塩基配列の解読のための処理工程を示す図である。解読のための全体のラン(Run)(S21)は、サイクル処理(S22)をM回繰り返すことで行われる。Mは求めたい塩基配列の長さであり、予め決められている。個々のサイクル処理は、k(k=1~M)番目の塩基を特定するための処理であり、以下に述べるケミストリ処理(S23)と、イメージング処理(S24)とに分けられる。
 (A)ケミストリ処理:塩基を伸長するための処理
  ケミストリ処理(S23)では、以下の手順(i)及び(ii)が行われる。
(i)先頭サイクル以外のサイクルであれば、直前サイクルの蛍光標識ヌクレオチド(後述)をDNA断片から除去し、洗浄する。このための試薬が配管112を介してフローセル109上に導入される。洗浄後の廃液は、配管115を介して廃液容器116へ排出される。
(ii)蛍光標識ヌクレオチドを含む試薬が、配管112を介してフローセル109上の分析領域123に流される。温調基板118によりフローセルの温度を調整することにより、DNAポリメラーゼにより伸張反応が生じ、コロニ上のDNA断片に相補的な蛍光標識ヌクレオチドが取り込まれる。
 ここで、蛍光標識ヌクレオチドとは、4種類のヌクレオチド(dCTP、dATP、dGTP、dTsTP)が、それぞれ4種類の蛍光体(FAM、Cy3、Texas Red(TxR)、Cy5)により標識されたものである。それぞれの蛍光標識ヌクレオチドは、FAM-dCTP、Cy3-dATP、TxR-dGTP、Cy5-dTsTPと記される。これらのヌクレオチドは、DNA断片に相補的に取り込まれるため、実際のDNA断片の塩基がAであればdTsTPが、塩基CであればdGTPが、塩基GにはdCTPが、塩基TであればdATPがそれぞれ取り込まれる。すなわち、蛍光体FAMは塩基Gに、Cy3は塩基Tに、TxRは塩基Cに、Cy5は塩基Aにそれぞれ対応する。なお、各蛍光標識ヌクレオチドは、次の塩基に伸張することがないよう、3’末端がブロックされる。
 (B)イメージング処理:蛍光画像を生成する処理
  イメージング処理(S24)は、以下に説明する検出視野毎のイメージング処理(S25)をN回繰り返すことで行われる。ここでNは検出視野の数である。
 図3は、検出視野の概念を説明するための図である。検出視野(FOV : Field of View)124は、分析領域123の全体をN個に分けたときの個々の領域に相当する。検出視野124の大きさは、1回の蛍光検出により2次元センサ101、122で検出できる領域の大きさであり、光学系の設計により定められる。後述するように、個々の検出視野124に対して4種類の蛍光体に対応する蛍光画像が生成される。
 (B-1)検出視野毎のイメージング処理
  検出視野イメージング処理(S25)では、以下の手順(i)乃至(iv)が行われる。
(i)蛍光検出を行う検出視野124が、対物レンズ108からの励起光が照射される位置にくるようにステージ117を移動する(S26)。この際に、ステージ117の移動による垂直方向のずれを補正するために対物レンズ108を駆動させてフォーカス位置を調整してもよい。
(ii)フィルタキューブ106を、蛍光体(FAM/Cy3)に対応したセットに切り替える(S27)。
(iii)励起光を照射し、2次元センサ101、122を同時に露光することで、2次元センサ101では蛍光画像(FAM)を、2次元センサ122では蛍光画像(Cy3)を生成する(S28)。
(iv)フィルタキューブ106を、蛍光体(TxR/Cy5)に対応したセットに切り替える(S29)。
(v)励起光を照射し、2次元センサ101、122を同時に露光することで、2次元センサ101では蛍光画像(TxR)を、2次元センサ122では蛍光画像(Cy5)を生成する(S30)。
 以上の処理を実行することにより、検出視野毎に、4種類の蛍光体(FAM、Cy3、TxR、Cy5)に対する蛍光画像が生成される。この蛍光画像には、フローセル109に固定されたDNA断片の塩基種類に応じた蛍光体の信号がコロニとして画像上に現れる。すなわち、FAMの蛍光画像で検出されるコロニは塩基A、Cy3の蛍光画像で検出されるコロニは塩基C、TxRの蛍光画像で検出されるコロニは塩基T、Cy5の蛍光画像で検出されるコロニは塩基G、と判定される。
 図4は、個々の検出視野における4種類の蛍光画像のコロニの概念を示す図である。図4の(a)に示すように、例えば、あるサイクルにおけるある検出視野においてP1からP8の8つの位置にコロニがあり、それぞれの塩基がA、G、C、T、A、C、T、Gとする。
 このとき、4種類の蛍光体(Cy5、Cy3、FAM、TxR)に対する蛍光画像は、同(b)から(e)に示されるように、P1からP8の位置において、対応する塩基種類に応じてコロニが検出される。P1からP8の位置は、4つの蛍光画像で同一である。ただし、光学系の設計によっては、波長毎に光路の違いが生じるため、厳密には同一ではない可能性がある。このため、必要に応じて後述する位置合わせ処理を行うことにより4種類の蛍光画像のコロニ位置を同一にすることができる。ただし、それぞれの蛍光体のフィルタの波長特性が互いに重なり合うクロストークが存在している場合には、ある塩基種類のコロニが二つ以上の蛍光画像で観測される。このときの塩基種類は、後述するように4種類の蛍光画像のコロニのROI画像によって識別することができる。以上によって、検出視野内で検出された個々のコロニの塩基種別が判定される。
 (C)サイクル処理の繰り返し
  以上のサイクル処理を、所望の塩基配列の長さMの数だけ繰り返すことで、個々のコロニに対して、長さMの塩基配列を決定することができる。
 図5は、この塩基配列の決定の概念を示す図である。図5に示すように、個々のコロニ(塩基配列ACGTATACGT...を持つDNA断片)において、あるサイクル(#N)のケミストリ処理(S23)によって一塩基分伸張させると、例えばCy3-dATPが取り込まれる。この蛍光標識ヌクレオチドは、イメージング処理において、Cy3の蛍光画像上のコロニとして検出される。同様に、サイクル(#N+1)ではCy5の蛍光画像上のコロニとして検出される。サイクル(#N+2)ではTxRの蛍光画像上のコロニとして検出される。サイクル(#N+3)ではFAMの蛍光画像上のコロニとして検出される。以上のサイクル#Nから、サイクル#N+3までのサイクル処理によって、このコロニにおける塩基配列はTACGと決定される。
 (3)塩基コール処理の詳細
  前述のように、検出対象であるDNA断片は4つの蛍光画像上の輝点として観測され、個々のサイクルにおいて塩基がコールされる。
 図6は、核酸分析装置100におけるコンピュータ119の機能構成を示すブロック図である。当該コンピュータは、前述の送液系、搬送系、温調系、及び光学系、塩基コール部の制御を行う制御部806、コンピュータ119と装置間の制御命令や画像データのやりとりを行う通信部807、ユーザへの画面提示やユーザからの入力を担うUI部808、メモリやハードディスクなどで構成される記憶部809、塩基配列を出力する塩基コール部800から構成される。塩基コール部800は、位置合わせ部801、コロニ抽出部802、塩基予測部803、及び学習部804から成る。以下、塩基コール部800にて行われる塩基コール処理について述べる。
 本実施例では、制御部806、通信部807、UI部808、塩基コール部800はソフトウェアで実装されることを想定している。すなわち、コンピュータ119の記憶装置に各部の計算や処理を行うためのプログラムが格納されており、処理装置870がこれらのプログラムを実行し、入力装置880、出力装置890、および記憶部809等のハードウェアと協働して処理を行う。制御部806、通信部807、UI部808、塩基コール部800を、ソフトウェアの代わりにハードウェアで実装してもよいことは既に述べたとおりである。
 図7は、塩基コール処理のフローを示す図である。塩基コール処理は、コロニ位置決定ステージ(S90)と、塩基配列決定ステージ(S91)の2段階で処理が行われる。
 (A)コロニ位置決定ステージ
  塩基コール部800では、コロニ位置決定ステージ(S90)を行う。本実施例では、コロニ位置決定ステージ(S90)では、先頭サイクルからN番目のサイクルまでの画像から、塩基コール対象とするコロニを確定する。
 図8を参照してコロニ位置決定ステージ(S90)の流れを説明する。位置合わせ部801は、ステップS101、S102、S103を経て先頭サイクルの先頭FOVにおける4色の蛍光画像を取得し、基準画像との間の位置合わせ処理を行う(S104)。以下に位置合わせ処理について説明する。
 (A-1)画像の位置合わせ
  前述のように、核酸分析装置100は、4つの蛍光画像を2つのセンサ101、122において取得しているため、蛍光画像間では位置ずれが生じている。また各サイクルで同一の検出視野を繰り返し撮像する際、各サイクルではステージ117を移動させて検出視野を変えている。このため同一の検出視野に対して、異なるサイクルの間では、ステージの移動の際の制御誤差に起因する位置ずれが生じる。
 図9は、サイクル間の位置ずれの概念を示す図である。図9に示すように、ある検出視野(FOV)に対して(a)のNサイクル目と(b)の(N+1)サイクル目とでは、ステージ制御誤差により撮像位置がずれている可能性がある。このため、Nサイクルの蛍光画像におけるDNA断片位置(P1~P8)は、(N+1)サイクル目の蛍光画像上では異なる位置(それぞれP1’~P8’)として検出される。ただし、これらの輝点は全て同じDNA断片に起因するものである。従って、個々のコロニの塩基配列を決定するためには、各蛍光画像で検出されたコロニ間の位置ずれを補正する必要となる。
 この位置ずれを補正するためには、各蛍光画像を、共通の基準画像に対して位置合わせを行う必要がある。ここで基準画像とは、コロニの位置座標系に用いる共通の画像である。例えば、コロニの位置が設計情報として既知であれば、既知のコロニ位置から基準画像を作成してもよい。一例としては、コロニ位置(x、y)を中心としてコロニサイズに応じた予め定義された分散の2次元ガウス分布に従う輝度の画像を作成すればよい。もしくは、撮像された実画像のいずれかをもとに基準画像を作成してもよい。一例としては、先頭サイクルの個々の検出視野の画像を基準画像とし、2サイクル目以降のそれぞれの検出視野の画像をこの基準画像に位置合わせしてもよい。
 画像間の位置合わせには、既知のマッチング技術を適用できる。一例として、基準画像の一部を切り出した画像をテンプレート画像t(x,y)として、入力画像の一部を切り出した対象画像f(x,y)との相互相関関数m(u,v)を求め、これの最大値を与えるS_1=(u,v)を位置ずれ量とする。ここでt(x、y)の一例としては、基準画像の中心における256画素×256画素の画像が挙げられる。同様にf(x,y)の一例としては、入力画像の中心における256画素×256画素の画像が挙げられる。位置ずれ量の計算には、相互相関関数の代わりに、明るさの違いを考慮した正規化相互相関を用いてもよいし、位相に限定された相関を用いても良い。なお、画像間の角度のずれ量を検出する場合には、画像を極座標変換することで、角度方向を水平方向に変換した画像に対して、上記の相互相関や位相限定相関を適用できる。
 また、この位置ずれ量は、画像の歪の度合いに応じて複数点求めてもよい。
  図10にこの概念を示す。例えば、画像に歪がなく、全画素に対して同一の位置ずれ、すなわちステージによる一様なずれのみを仮定できる場合には、図10の(a)の左側に示す位置ずれ量S_1(u,v)を適用することができる。
 一方、例えば、画像に歪があり、位置ずれ量が画像内の位置によって異なる場合(フローセル109が加熱によって変形し、位置ずれが一様でない場合)には、図10の(a)の右側に示すように、位置ずれ量を画像内のn個の複数点で求めておき、この複数点における位置ずれ量S_1、S_2、・・・S_nが求められる。各点における位置ずれ量の計算には、基準画像、入力画像における各点の位置を中心とした画像を切り出し、それぞれをテンプレート画像、対象画像とし、上述のように相関が最大となる位置ずれ量を計算すればよい。そして、得られたn個の位置ずれ量を基に、例えばアフィン変換や多項式変換の係数を最小二乗法で求めることで任意画素位置の位置ずれ量を定式化することができる(図10の(b)参照)。また、この変換は双方向で計算しておいてもよい。すなわち、入力画像の座標系と基準画像の座標系との相互変換を定義しておくとよい。
 (A-2)輝点抽出処理
  図8において、位置合わせ済の蛍光画像に対して、コロニ抽出部802は、コロニを示す輝点位置を抽出する(S105)。この輝点位置の求め方の一例としては、入力画像に対して予め定められた閾値判定を行って輝点領域と非輝点領域とを分け、輝点領域の中から極大値を探索するなどの方法がある。
 輝点抽出処理に先立ち、ローパスフィルタやメジアンフィルタなどにより入力画像に対してのノイズ除去を行っても良い。また、画像内部で輝度ムラが生じているような場合を想定し、背景補正処理を行っても良い。背景補正処理の例としては、予めDNA断片の存在しない領域を撮影した画像を背景画像としておき、これを入力画像から差し引く、という方法が用いてもよい。もしくは入力画像に対してハイパスフィルタを適用して、低周波成分である背景成分を除去してもよい。
 なお、コロニは4種類の蛍光画像のいずれかに含まれているが、前述のようにクロストークの影響により1つのコロニに由来する輝点が複数の蛍光画像に含まれている可能性もある。位置合わせにより互いに近い位置と判断される、異なる蛍光画像の輝点は、後述のように統合してもよい。
 前述のように、本実施例では先頭からNサイクル目までの画像を用いてコロニ位置を決定する。Nをここではコロニ決定サイクル数と記す。Nは1から8程度でよい。
 図11により、複数サイクルを用いてコロニを抽出する利点を示す。同図では並んで隣接するコロニ#1~#5の3サイクル分の塩基を模式的に示している。同じサイクルにおいて隣接するコロニ同士が同じ塩基である場合、それらのコロニが一つの蛍光画像で隣接するため、コロニ同士を区別することが難しい場合がある。そこで複数サイクルを参照して、異なる塩基である箇所においてコロニの区別をしやすくすることができる。
 図11の例では、サイクル1では同じ塩基のコロニ#2とコロニ#3(114)、コロニ#4とコロニ#5(115)とが隣接しているため、サイクル1のみの蛍光画像では、これらのコロニの識別がしにくい。サイクル2ではこれらのうちコロニ#4とコロニ#5(113)の塩基が異なるため、識別がしやすくなる。同様にサイクル3ではコロニ#2とコロニ#3(111)とが異なる塩基のため、識別がしやすくなる。このように複数サイクルを用いてコロニの識別性を高めることが可能となる。
 図8において、コロニ抽出部802は、このような輝点抽出処理(S105)を、各サイクル内の各検出視野に対して繰り返す(S106)。サイクルの最終の視野の場合は、次のサイクルに移行し(S102)、先頭の検出視野(S103)に移行し、位置合わせ処理(S104)、輝点抽出(S105)を繰り返す。先頭からのサイクル数がコロニ決定サイクル数Nに達した場合(S107)には、Nサイクルまでで得られたコロニの統合処理(S108)を行う。
 (A-3)コロニ統合処理
  コロニ統合処理(S108)では、コロニ抽出部802は、位置合わせによって基準画像の座標系に変換された、Nサイクル分の各蛍光画像で抽出された輝点を統合する。
  図12にコロニ統合の概念を示す。同図のように、同一のコロニであっても位置合わせ計算の誤差により、基準画像の座標系においては正確に同一の座標に配置されることはない。よって、コロニ統合処理では、ある一定の距離内に互いに隣接するコロニ同士を一つとみなしてもよいし(同図a)、1つのコロニしかない場合も有効な1コロニとしてもよい(同図b)。また、隣接するコロニのサイズが一定の閾値を超えるような場合には、二つのコロニとして分けてもよい。統合される新たなコロニは、それらの重心を再計算してもよい。これらの統合のアルゴリズムには例えば、k-means法などの既存のクラスタリング技術を適用してもよい。
 以上の処理により、4種類の蛍光画像間の位置ずれおよび複数サイクルの画像間の位置ずれの補正が可能になり、各画像におけるコロニ位置が決定される。
 (B)塩基配列決定ステージ
  次に、図7の塩基コール処理における、塩基配列決定ステージ(S91)の処理の詳細を述べる。このステージでは、前述のコロニ位置決定ステージ(S90)で決定されたコロニに対して、全サイクルの塩基をコールして塩基配列を決定する。
 図13に塩基配列決定ステージ(S91)のフローを示す。ステップS131、S132、S133を経て、先頭サイクルの先頭FOVに移行し、以降、各FOVに対して以下の処理を行う。
 (B-1)位置合わせ処理(S134)
  位置合わせ部801は、基準画像に対して、処理対象のFOVの4蛍光画像の位置合わせを行う。この方法は(A-1)で述べた方法と同様である。ただし、前ステージにおいて、コロニ位置決定サイクル数までの画像においては、既に位置合わせが行われているため、そのときの位置合わせ結果を用いてもよい。
 (B-2)コロニ位置座標変換(S135)
  コロニ抽出部802は、前ステージで決定された、基準座標系上の全コロニの座標を、処理対象である4つの蛍光画像の座標系に変換する。この変換にはステップS134による位置合わせ結果を用いる。これにより、各蛍光画像上のコロニ位置が得られる。
 (B-3)ROI画像抽出(S136)
  コロニ抽出部802は、各蛍光画像上のコロニ位置を中心としたROI(Region Of Interest)画像を抽出する。
 図14にROI画像抽出の概念を示す。「+」が蛍光画像におけるコロニ位置中心であり、これを中心としたW画素×H画素の領域を抽出する。ここでWとHとは、コロニの大きさや画像の解像度に応じて予め適宜定めておくものとする。なるべく隣接するコロニは映り込まない方が望ましい。なお、ROI画像抽出に先立ち、後述の塩基予測に応じて、蛍光画像の画素値を正規化してもよい。
 蛍光画像の輝点だけではなく、周辺の画素を抽出することによって、画像の位置ずれ、デフォーカス、クロストーク等の蛍光画像の取得時の付随的な情報を得ることができる。このように蛍光画像の情報量を増やすことにより、後述のように機械学習を用いた塩基予測器の予測精度を向上することができる。
 (B-4)塩基予測(S137)
  塩基予測部803では、上記の4色の蛍光画像の個々のROIの組を入力として塩基予測を行う。
 図15に、塩基予測部803内における塩基予測器の一例を示す。塩基予測器は特徴量算出器と多項分類器とで構成される。特徴量算出器は、入力画像から特徴量を算出し、多項分類器は、この特徴量を元にA、G、C、Tのいずれかに分類する。
 図16に、このような塩基予測器の一例として、CNN (Convolutional Neural Network)を用いた構成を示す。Convolution層(図中、Conv)では、入力画像に対して以下で示すようなフィルタ演算を行う。CNNは、教師有り学習可能なニューラルネットワークの一例である。
Figure JPOXMLDOC01-appb-M000001
ここでIは入力画像、hはフィルタ係数、bは加算項である。また、kは入力画像チャネル、mは出力チャネル、iとpは水平方向位置、jとqは垂直方向位置である。
 ReLU層は、上記のConvolution層の出力に対して、以下の活性化関数を適用する。
Figure JPOXMLDOC01-appb-M000002
 活性化関数にはtanh関数やロジスティック関数、正規化線形関数(ReLU)などの非線形関数を用いてもよい。
 Pooling層は、Convolution層とReLU層で抽出された特徴量の位置感度を若干低下させることで、特徴量の画像内での位置が若干変化した場合でも出力が不変になるようにする。具体的には、一定の刻み幅で特徴量の部分領域から代表値を算出する。この代表値には最大値は平均値などが用いられる。Pooling層には学習によって変化するパラメータはない。
 Affine層は全結合層とも呼ばれ、入力層の全ユニットから出力層への全ユニットへの重みづけ結合を定義する。ここでiは入力層のユニットのindex、jは出力層のユニットのindexである。wはそれらの間の重み係数、bは加算項である。
Figure JPOXMLDOC01-appb-M000003
 CNNでは、上記のConvolution層、ReLU層、Pooling層を繰り返し実行し、Affine層-ReLU層を経た結果が画像特徴量となる。こうして得られた画像特徴量から、多項分類、すなわちA、G、C、Tの塩基判別を行う。
 この多項分類方法の一例として本実施例では、上記の画像特徴量をさらにAffine層処理を行い、その結果に対して以下のsoftmax関数を用いたロジスティック回帰を適用する。
Figure JPOXMLDOC01-appb-M000004
 ここでyは出力ユニットkに対応するラベル(ここでは塩基)の尤度を表す値である。本実施例では出力ユニットkは、塩基種別kの尤度に相当し、この尤度が最も大きい塩基種類を最終的な分類結果とする。
 上記のようなConvolution層のフィルタ係数や加算項、Affine層の重み係数や加算項は、後述するような学習部804による学習処理によって予め決定される。これらの係数は予測器パラメータとして記憶部809に格納される。塩基予測処理の際に適宜、塩基予測部803が記憶部809から取得してもよい。
 上記のような塩基予測処理(S137)を、全サイクルの全FOVに対して行う(S138、S139)ことで、全サイクルのすべてのFOVにおける塩基配列が決定する(塩基配列決定ステージS91終了)。
 以上で述べたように、実施例1による核酸分析装置では、位置合わせとコロニ抽出を行って得られた各蛍光色のROI画像を入力とし、その特徴量を計算し、その特徴量を元に塩基予測を行うため、画像の位置ずれやデフォーカスにロバストな塩基予測が実現できるようになる。
 図17により実施例2を説明する。実施例2では、前述の塩基予測器が、図17に示すように、塩基予測器の入力として、あるサイクル(Nサイクル目)のROI画像の入力に加え、前後のサイクルのROI画像を入力とする。これらの前後のサイクルのROI画像は、予め位置合わせされていて、同一のコロニ由来の画像であるものとする。図17ではROI画像は全て同一サイズであり、それぞれの蛍光画像が1チャネルに相当するように入力される。すなわち同図では12チャネルのROI画像が入力となる。
 前後のサイクルのROI画像を入力とする利点として、サイクル間のフェージングによる影響を考慮した塩基予測を行うことが可能となる。
 フェージングとは、各サイクルでのDNA断片の化学反応の不完全さにより、伸長反応のペースにずれが生じ、各サイクルにおける塩基に由来する信号のみならず、その前後のサイクルの塩基に由来する信号が混入する。こうしたフェージングは各サイクルで一定の割合存在することが知られており、サイクルが進むにつれてこうした影響が蓄積されていき、塩基同定の精度低下の一因となっている。
 このように、学習時および予測時に、各サイクルの蛍光信号には、その前後のサイクルの同一コロニに由来する蛍光信号が混在していることから、塩基予測器において、前後のサイクルのROI画像を含めた入力から塩基を予測するモデルとすることで、フェージングを考慮した塩基予測が可能となる。同図では前後のサイクルのみのROI画像を入力としたが、さらに前後それぞれで2以上の複数サイクルのROI画像を入力としてもよい。また、前後の片方の画像を入力としてもよい。
 以上のように、実施例2による核酸分析装置では、予測対象のサイクルの前後の複数のROI画像を入力画像に追加して、塩基予測を行うことで、フェージングの影響を考慮した精度の高い塩基予測を実現できるようになる。
 図18により実施例3を説明する。実施例3では、図18に示すように、塩基予測部803は、前述の塩基予測器を複数組み合わせて塩基予測を行う。同図でそれぞれの塩基予測器は、同一サイズのROI画像を入力とし、それぞれ異なる塩基予測パラメータが設定されているものである。これらの異なる塩基予測パラメータは、予め異なる条件にて、後述するような学習により決定されているものとする。ここで異なる条件とは異なる装置、異なる室温、異なるサイクル等、RUNの撮像画像のばらつきを考慮して定めればよい。
 同図の出力層では、このような異なる条件で決定された複数の塩基予測器の出力(各塩基の尤度)から、最終的な塩基尤度を出力する。このような構成により、様々な条件を考慮した、より信頼度の高い塩基予測を行うことが可能である。出力層の処理としては、全ての塩基予測器のうちの最大値を出力してもよいし、各塩基の尤度の平均や、重みづけ和を出力してもよい。
 なお、それぞれの塩基予測器は、CNNのネットワーク構造や入力とするROI画像の前後サイクル数やROIサイズが異なっていてもよい。また特徴量抽出方法や多項分類アルゴリズムが異なっていてもよい。
 以上で述べたように、実施例3による核酸分析装置では、異なる条件で決定された複数の塩基予測器を用いるため、様々な条件の違いに対してロバストかつ、より精度の高い塩基予測を実現できるようになる。
 実施例4では、実施例1で述べた塩基予測部803における塩基予測器の学習方法の一例を示す。実施例4では、実施例1の図6で述べた塩基コール部800に、学習部804を加えた構成を一例として説明する。もっとも、塩基予測器の学習は異なる装置で個別に実施されてもよい。その場合には、図6の学習部804は省略することができる。
学習処理の詳細
  図19に、学習部804における塩基予測器の学習処理のフローを示す。
(A) 初期塩基予測(S191)
 初期塩基予測(S191)は、コロニ位置決定ステージ(S90)で決定された、個々のコロニに対する塩基配列の初期値を出力する。この塩基配列の出力には、各コロニの輝度が最大となる蛍光色に対応する塩基を選択するような単純ルールに基づいた予測であってもよい。あるいは実施例1で述べた塩基予測器(例えば初期設定状態の塩基予測部803)を用いて、初期の予測パラメータを設定することで実現してもよい。ただし、後述するように参照配列とのアラインメント処理によって塩基配列の正解、不正解の判定を行うため、初期塩基予測では、ある程度の数の塩基配列がアラインする程度の精度であることが望ましい。
(B) アラインメント処理(S192)
 初期塩基予測で得られた塩基配列に対してアラインメント処理を行う(S192)。アラインメント処理とは、得られた全てのコロニの塩基配列を参照配列に対して対応づけを行う処理である。
 図20にアライメント処理の概念図を示す。参照配列は、核酸分析装置で計測を行ったDNAサンプルに相当する既知の正解配列とする。ここで用いる参照配列には、広く公開されているゲノム配列であってもよいし、市販されているサンプルに付属する正解配列であってもよい。アライメントのアルゴリズムとしては、Burrows-Wheeler Transformなど既知の手法に基づいた検索を用いてよい。
 図20では、全コロニの塩基配列の集合2005内の、あるコロニの塩基配列2003、2004が、参照配列2000における部分配列2001、部分配列2002にそれぞれアラインされている状況を示している。このようにアラインされた塩基配列に対しては、参照配列と比較して一致している塩基は正解、不一致の塩基は不正解と判定することができる。同図では塩基配列2003と部分配列2001とは一致しているため、塩基配列2003は全ての塩基が正解と判定される。塩基配列2004と部分配列2002とは、先頭から2つめの塩基が不正解で、それ以外の塩基は正解と判定できる。なお、塩基予測部803が出力する塩基配列のうち、アラインされなかった配列は正解不正解の判断は行わない。
 図21に、コロニの塩基の集合とアラインされたコロニの塩基の集合の関係を示す。集合2300は、実施例1のコロニ抽出部802で得られた全コロニに対して、塩基予測部803において全サイクル分で推定された塩基の集合である。集合2301は、集合2300に対してアラインメント処理を行った結果、アラインされたコロニの集合である。この集合2301は、さらに同図で示すように、正解塩基と不正解塩基とに分けることができる。
 こうして得られたアラインメント結果に対し以下のアラインメント評価指標を計算し、記憶部809に格納する。
(1)アラインメント率:抽出された全コロニ数に対する、アラインメントされたコロニ数の割合
(2)正解塩基率(もしくは不正解塩基率):アラインメントされたコロニの全塩基数に対する正解塩基数(もしくは不正解塩基数)の割合
(C) 訓練データ更新(S193)
 ステップS192(もしくはS196)でアラインされた塩基配列の各塩基に相当する蛍光画像と、参照配列が示す正解塩基とを組にしたものを一つの正解情報として、訓練データを作成する(S193)。
 図22に、訓練データにおける正解情報の概念を示す。例として、図20において、参照配列の部分配列2002にアラインされた塩基配列2004における正解情報の例を示す。塩基配列2004の配列位置は、サイクルに相当し、その各塩基は、そのコロニ位置における各サイクルのROI画像から推定される。各塩基に相当するROI画像と、部分配列2002が示す正解塩基情報とを組みとして、図22の2100~2104のように正解情報が構成される。正解情報2100、2102、2103、2104は予測した塩基が正解したものである。
 正解情報2101では、予測された塩基はT(塩基配列2004上)であり、予測結果としては不正解であるが、参照配列が示す正解塩基「A」とROI画像とを組みにした正解情報を作成することができる。なお、各コロニのROI画像は、蛍光画像のリンク情報と、各蛍光画像上のコロニの位置情報との組で格納されてもよい。塩基予測器への入力の際に、これらの情報からROI画像を取得できる。
 本実施例では、このようにアラインされた配列情報は、塩基予測が正解のもの、不正解のものの両方を含めてもよい。特に不正解した塩基は、もともと塩基の予測が難しいROI画像と推定されるため、不正解した塩基における正解情報を訓練データに含めることで、塩基予測器の性能向上が期待できる。
 もしも既に訓練データが存在する場合には、既存の訓練データに存在しない塩基における正解情報を訓練データに追加する。
 図23に、訓練データの更新の概念図を示す。全コロニの全サイクル分の塩基に対して、同図に示すような情報テーブルが記憶部809に格納されている。情報テーブルの内容としては、一例として以下のような情報を含めてもよい。
(a)各蛍光画像データのリンク先(全コロニ共通なので、サイクル毎に保持しておいてもよい)
(b)各画像におけるコロニの位置情報
(c)予測された塩基
(d)アラインされたか否か
(e)(アラインされている場合は)正解塩基
(f) 各塩基の尤度
(g) 訓練データに正解情報が含まれているか否か
 上記の(g)を参照し、訓練データに、当該塩基の正解情報が含まれていないようであれば、当該塩基の正解情報を訓練データに追加する。その際、必要に応じて、後述する塩基予測結果に応じて(c)(d)(f)の内容を更新してもよい。
(D) 塩基予測器更新(S914)
 このようにして新規作成、もしくは更新された訓練データを用いて学習を行い、塩基予測器のパラメータを更新する(S194)。学習には既知の機械学習アルゴリズムを適用できる。実施例1で述べたConvolutional Neural Networkであれば既知の誤差逆伝搬法を適用して、Convolution層のフィルタ係数や加算項、Affine層の重み係数や加算項を決定することができる。このときの誤差関数には、交差エントロピー誤差関数を用いてよい。
 学習開始時の係数は、初回であればランダムに初期化してもよいし、既知の自己符号化器などの事前学習方法を適用してもよい。ステップS194の塩基予測器の更新自体が2回目以降であれば、前回に決定した予測器パラメータを用いてもよい。
 上記の予測器パラメータの計算には既知の勾配降下法などの手法により、既定の反復回数(エポック数)だけ繰り返し計算を行うことで、誤差関数を最小化するように予測器パラメータを更新する方法を用いることができる。予測器パラメータを更新する際の学習係数はAdaGradやAdadeltaなどの既知の手法により適宜変更してもよい。
 また上記のパラメータ更新のための誤差関数の勾配の計算には、勾配降下法により全データに対しての誤差の総和に基づいて勾配を計算してもよいし、既知の確率的勾配降下法により、ミニバッチと呼ばれる既定のM個のデータの集合にランダムに分け、ミニバッチ毎に勾配を計算して予測器パラメータを更新してもよい。また上記の確率的勾配降下法では、エポック毎にデータをシャッフルすることでデータの偏りの影響を小さくしてもよい。
 また上記の学習においては、訓練データの一部を検証用データとして分離し、この検証データを用いて学習した予測器パラメータによる塩基予測性能を評価してもよい。この検証データによる予測性能をエポック毎に可視化してもよい。この予測性能の指標としては、予測が正解した割合を示す予測精度や、その逆のエラー率、誤差関数の値(損失)などを用いてもよい。このようにして学習によって得られた予測器パラメータを、塩基予測器に適用する。ただし、後述するように、最新の予測器パラメータを採用するか否かの最終判断はステップS199にて行うため、更新前(ステップS194の学習の前)の過去の予測器パラメータは記憶部809に格納しておく。
(E) 塩基予測(S195)
 塩基予測部803において、ステップS194で得られた予測器パラメータを用いて、全コロニに対する塩基予測を行うことで、全コロニの塩基配列を出力する。この予測には実施例1による塩基予測を適用する。
(G) 再アラインメント処理(S196)
 学習部804において、ステップS195で得られた塩基配列に対して、再度アラインメント処理を行う。このアラインメント処理はステップS192と、入力の塩基配列が異なる以外は全く同様であるため、詳細の説明は省略する。
(F) 更新継続判定(S197)
 ステップS196で得られたアラインメント率と正解塩基率とを元に、先述した予測器パラメータの更新処理を継続するか、終了するかの判定を行う。
 図24に示すように、基本的に上記の予測器パラメータの更新処理を繰り返すことにより、アラインメント率と正解塩基率とが徐々に増加していき、次第にその増加率が減少してやがては飽和するか、もしくは学習に失敗して逆に増加率が負になる、等が考えられる。
 図25に、このアライメント率と不正解塩基率とを回数毎にプロットしたものを示す。したがって、予測器パラメータの更新を継続するか否かの判定方法としては、アラインメント率の増加率や、正解塩基率の増加率に対してそれぞれ判定閾値を設けておき、これらの増加率が閾値を下回ったとき、予測器パラメータ更新を終了する、といった判定を用いてもよい。
 予測器パラメータ更新を継続する場合には、ステップS193に戻り、ステップS196で得られたアラインされたコロニの正解情報を用いて、訓練データを更新する。
(G)塩基予測器決定 (S198)
  ステップS198にて予測器パラメータの更新を終了する場合には、初期塩基予測(S191)を含め、更新の繰り返しで得られたそれぞれの予測器パラメータの中から最適なものを一つ選択することで、塩基予測器を決定する(S198)。
 最適なパラメータを選択する基準の例としては、前述のアラインメント率が最大であることや、正解率が最大であることなど、が挙げられる。ただしアラインメント率が増えるほど、予測が難しい塩基がアラインされる可能性もあるため、アラインメント率と正解率との重みづけ和が最大となる、などの基準でパラメータを決定してもよい。
 以上で述べたように、実施例4による核酸分析装置では、学習用に与えられた撮像画像セットに対し、初期状態の塩基予測器を用いて塩基配列を生成し、この塩基配列結果と参照配列とのアラインメント処理によりアラインされたコロニから正解情報を抽出して訓練データを更新し、この訓練データを用いて予測器パラメータを学習する。このような処理を繰り返し行うことで、学習用の撮像画像セットから質のよい訓練データを抽出して塩基予測器の学習に適用することで、塩基識別の精度向上が実現できるようになる。
 実施例5は、実施例2で述べた、塩基推定の対象とするサイクルのROI画像に加え、その前後の複数サイクルのROI画像を入力画像のチャネルに追加するような塩基予測器のパラメータを学習する例である。
 本実施例では、正解情報として訓練データに追加するROI画像が、図22で述べたような1サイクル分(4チャネル)ではなく、さらに前後のサイクルのROI画像を含めたものとなる。その他の学習方法については、実施例4と同様である。
 以上のように、実施例5では予測対象のサイクルの前後の複数のROI画像を入力画像に追加した訓練データを作成して、予測器パラメータの学習を行うことで、フェージングの影響を考慮した精度の高い塩基予測を実現できるようになる。
 実施例6では、訓練データに含まれるROI画像に対して画像処理を適用したものを新たなROI画像として、訓練データに追加する。
 図26では一例として、元の訓練データのROI画像に対してフィルタ処理を適用して適度にぼかした画像を作成し、これらを訓練データに追加して予測器パラメータの学習を行う。このような処理により、フォーカスずれに対する塩基予測のロバスト性の向上を図ることができる。
 図27では別の例として、元の訓練データのROI画像に対してシフト処理を行った画像を作成し、これらを訓練データに追加して予測器パラメータの学習を行う。このような処理により、位置合わせ精度のばらつきに対する塩基予測のロバスト性の向上を図ることができる。
 なお、上記の例の他にも回転や拡大、縮小などの処理を適用した画像を追加してもよい。
 以上のように、実施例6では、様々な画像処理を施したROI画像を訓練データに追加して塩基予測器のパラメータを学習することで、塩基予測器のロバスト性の向上を図ることができる。
 実施例7では、実施例4で述べた学習部804の学習処理(図19)の訓練データ更新(S193)ステップにおいて、訓練データに追加する正解情報のスクリーニングを行う。実施例4においては、図22を参照して先に述べたように、ステップS192でアラインされた塩基全てについて、正解情報(2100~2104)を訓練データに含めていた。しかしながらアラインされた塩基では、訓練データとしては望ましくないものが含まれている可能性がある。本実施例では、スクリーニング処理により、このような訓練データとして望ましくない塩基を判別して除外した上で、訓練データを更新する。以下、訓練データから除外する判定の例を述べる。
 (1)コロニの剥離
  図28に、コロニがフローチップから剥離したことを検出する概念を示す。同図では、あるコロニでコールされた塩基配列2901が、参照配列2900にアラインされている例を示している。この例では、2サイクル目、4サイクル目、5サイクル目、6サイクル目で参照配列の不一致が起きている。同図2902~2906は、塩基配列2901に相当する、コロニ中心位置における4つの蛍光画像(G,A,T,Cはそれぞれ蛍光体FAM、Cy5、Cy3、TxRに対応)の信号強度を示している。なお、信号強度は蛍光画像から直接得られるものでもよいし、予め計測された色変換マトリクスによる線形変換等の計算過程を経て得られてもよい。
 2902では、Cに相当する信号強度が高く、かつ他の塩基の信号強度に比べても際立っている。これに対し、2903以降では全ての信号強度が低くなっている。このようにあるサイクル以降で蛍光強度が全体的に低くなっているような場合には、そのコロニが図2で述べた各サイクルのケミストリ処理において、フローチップから剥離してしまい蛍光が得られなくなっている可能性が考えられる。全ての蛍光体の蛍光強度が例えば閾値より低下することにより、こうしたコロニの剥離が考えられる場合には、参照配列との一致、不一致に関わらず訓練データから除外する。
 (2)塩基の変異
  図29は、塩基の変異を検出する概念図である。同図では、あるコロニでコールされた塩基配列3001が、参照配列3000にアラインされている例を示している。この例では、3サイクル目で参照配列の不一致が起きている。同図中3002~3006は、各コロニ中心位置における4つの蛍光画像の信号強度を示している。図中3002~3006では、それぞれでコールされた塩基配列3001に相当する信号強度が、他の塩基に比べて際立っており、かつ図28と異なり信号強度も高い。
 特に、3サイクル目で不一致が生じている図中3004においても、コールされた塩基「C」は他の塩基に比べて際立っている。このように信号強度が際立ってコールされている塩基は信頼度が比較的高いと推測される。従って、不一致が生じたサイクルを含め、その前後の数サイクルにおいて、コールされた塩基の信号強度が他の塩基よりも際立っている場合には、不一致が生じたサイクルにおいては、変異が生じたために、参照配列3000の塩基とは異なっていると推測される。すなわち、参照配列3000の情報は、こうした変異が生じた場合には信頼できない。このため、こうした変異が検出された塩基は、訓練データから除外する。
 上記のような、コールされた塩基の信号強度が他の塩基に比べてどの程度際立っているか、を示す指標の一例としては以下のような式を用いてもよい。
Figure JPOXMLDOC01-appb-M000005
 ここでI_callは、コールされた塩基の信号強度であり、分母は4色の蛍光強度Iの総和である。このような指標Dを用いて、不一致の塩基が変異かそうでないかを判定してもよい。
 別の例としては、塩基予測部が出力する尤度の情報を用いる方法が挙げられる。実施例1で述べた塩基予測部803における塩基予測処理(S137)では、図16で述べたCNNでは、Softmax部が最終的に、個々の塩基の尤度Ykを出力している。
 図29の3007~3011では、各サイクルにおける個々の塩基の尤度の例を示している。この塩基の尤度が高いほど塩基識別の信頼度が高いといえる。よって、不一致が生じたサイクルを含め、その前後の数サイクルにおいて、コールされた塩基の尤度が高い場合には、不一致が生じたサイクルにおいては、変異が生じたために、参照配列3000の塩基とは異なっていると推測してもよい。こうして変異が検出された塩基は、訓練データから除外する。
 以上のように、実施例7では、訓練データ更新の際に、アラインされた塩基における蛍光画像の信号強度や尤度などの情報を元に、塩基コール結果の信頼度を計算し、これを元に訓練データとして追加すべきか否かを判別する。これにより、学習の際の訓練データの質が向上し、塩基予測器の予測精度の向上を図ることができる。
 実施例4では、核酸分析装置100内に塩基予測部803と学習部とが備えられた構成について述べた。実施例8では、核酸分析装置、塩基予測部および学習部が分かれたシステム構成の例を示す。
 図30A~30Cに、複数のシステム構成例を示す。
 図30Aは、核酸分析装置1と2が同一の塩基予測部を備え、核酸分析装置2において塩基予測部の学習を行い、学習で得られた予測モデルパラメータを核酸分析装置1に送信するシステムの構成を示している。学習時に用いる訓練データには、核酸分析装置2で撮像された画像を用いう。典型的な運用例としては、核酸分析装置ベンダが、所有する核酸分析装置2を用いて計測を行って予測モデルパラメータを生成し、ユーザが所有する核酸分析装置1にダウンロードするような形態である。装置間のばらつきが小さいような場合には、こうした構成例が適用可能である。この構成のメリットとしては、ユーザが所有する核酸分析装置1では、学習機能を備える必要がないため、装置コストの低減が可能である。
 図30Bは、核酸分析装置1と外部の学習サーバとが同一の塩基予測部を備え、核酸分析装置1で撮像した画像を用いて、学習サーバが塩基予測部の学習を行って得られた予測モデルパラメータを、核酸分析装置1に送信するシステムの構成を示している。典型的な運用例としては、核酸分析装置ベンダが、学習機能のみを備えるコンピュータを学習サーバとしてユーザに提供し、ユーザが所有する核酸分析装置1で撮像した画像を学習サーバに送信し、サーバ上の学習で得られた予測モデルパラメータを核酸分析装置1にダウンロードするような形態である。装置間がばらつきが無視できないほどに大きく、装置毎に予測モデルパラメータを持つ方がよい場合には、こうした構成が有効である。同図30Aと同様に、ユーザが所有する核酸分析装置1では、学習機能を備える必要がないため、装置コストの低減が可能であるが、画像をサーバに転送するためのネットワーク容量を要する。
 図30Cは、図30Bの構成からさらに、核酸分析装置1の塩基コール機能も外部サーバに移した構成例である。この構成では核酸分析装置1の機能としてはコロニ画像の撮像のみを行い、その後の塩基コールは全て外部のサーバで行う。図30Bよりも機能が削減されるため、装置コストの低減が可能であるが、画像をサーバに転送するためのネットワーク容量を要する。
 以上のように、実施例8では、核酸分析装置、塩基予測部および学習部が分かれたシステム構成とすることで、ユーザに提供する核酸分析装置や、塩基予測処理機能、学習処理機能の低コスト化が可能となる。
 実施例9では、これまでに述べた実施例におけるいくつかのユーザインタフェース例を示す。これらのユーザインタフェースは、図6におけるUI部808により提示される。ただし、外部のコンピュータのモニタ画面とマウスやキーボード等の周辺機器デバイスによって提示されてもよい。
 (1)複数の予測器の選択
 図31に、実施例3で述べた、複数の塩基予測器を用いた構成(図18)において、複数の塩基予測器を選択する画面の一例を示す。同図では、核酸分析装置内に存在する、既に学習済の、複数の予測モデルパラメータのリストをユーザに提示し、これらから予測に用いる塩基予測器を選択する画面の例である。同図では一例として、個々の予測パラメータの学習精度や、作成日付等を提示している。ただし必ずしもこれらに限定されず、予測パラメータを選択する上で参考となる様々な情報を提示してもよい。
 (2)サイクル毎の予測モデルの設定
 図32に、実施例3で述べた、複数の塩基予測器を用いた構成(図18)において、サイクル毎に塩基予測器を使い分けする際の、設定画面の一例を示す。同図では、50サイクル間隔で異なる予測モデルを設定し、この予測モデルの組み合わせを新たな予測モデルとして定義している。実施例2で述べたように、サイクルが大きくなるにつれてサイクル間のフェージングの影響が蓄積していく。このため、サイクル数によって撮像画像の特性が変化する。従って、サイクルに応じて塩基コールに用いる予測モデルを切り替えることが有効な可能性がある。同図では50サイクル毎にモデルを切り替える例を示しているが、さらに細かくしてもよく、例えば毎サイクルでモデルを切り替えてもよい。ただしそれぞれのサイクルに使用されるモデルでは、使用されるサイクルで取得された訓練データを用いることが望ましい。
(3)塩基予測モデルの学習に用いるデータセットの選択
 図33に、新規もしくは既存の予測モデルに対して、学習に用いるデータセットの追加や削除の設定画面の一例を示す。学習に用いるデータセットは、核酸分析装置の記憶部809に格納されている画像データであってもよいし、外部のコンピュータや記憶装置に格納されている画像データであってもよい。
 図33では、ある選択された予測モデルに対して、新規に学習に追加するデータセットのリストを提示し、ユーザに選択を促す画面の一例である。「Add」ボタンの操作により、チェックを入れたデータセットを追加することができる。
 同様の画面で、選択された予測モデルで既に学習に用いたデータセットのリストを提示し、再学習の際に学習対象から除外する画像データの選択をユーザに促すこともできる。この場合は、「Add」ボタンの代わりに「Delete」ボタンにより、チェックを入れたデータセットを削除する。このようにして既存の予測モデルを元に、学習に用いる画像データセットを変更し、図示しないファイル名設定ダイアログによって、新たな名前の予測モデルとして保存してもよい。
 また、個々の画像データに対し、図示しない学習設定画面によって、実施例4以降で述べた学習用のパラメータを設定できるようにしてもよい。以下に、このような学習用のパラメータ設定項目の例をいくつか列挙する。ただし、必ずしもこれらに限定されず、本実施例で述べた塩基予測器の学習方法に関する様々なパラメータをユーザが設定できるようにしてもよい。
(A) 適用サイクル範囲
 学習に用いる画像データのサイクルの範囲を設定する。前述のようにサイクルによってフェージングの影響が異なるため、どのサイクルではどの画像を用いるか、等を選択できることは有効である。
(B) 適用FOV
 画像データのうち、どのFOVの画像を使用するかを設定する。FOVの位置によってフローチップの歪等の影響で画像の特性が変わり得るためである。また、全FOVを使わなくとも、特定のFOVだけで学習に用いたい、等の用途でFOVを限定することも有用である。
(C) 入力ROIのサイズや前後サイクル数
 画像のフォーカス度合いや、フェージングの影響を考慮して、予測モデル毎に設定を変更してもよい。
(D) CNNネットワーク構成
 ネットワーク層数、活性化関数の種別、Pooling層有無、学習率、エポック数、ミニバッチ数等、既知のCNNの設定項目を予測モデル毎に設定を変更してもよい。
(E) 追加学習か新規学習かの選択
 訓練データを追加して塩基予測モデルを更新する際、直前の塩基予測モデルを初期値として予測モデルを更新するか、予測モデルをリセットして新規に初期値を作り直して、全ての訓練データを再学習するか、等を設定できるようにしてもよい。
(F) 訓練データのスクリーニングの設定
 実施例7で述べた、訓練データ更新の際のスクリーニングの条件設定。訓練データに含めないと判定するための信頼度の閾値や尤度の閾値、信号強度の閾値等。
 以上説明した実施例の核酸分析装置、または塩基同定方法を用いて、種々の核酸反応を検出し、DNAシーケンス等の核酸の分析を行うことができる。本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。上述した各実施例の核酸分析装置は、DNA断片を測定・解析対象としているが、DNAの他、RNA等他の生体関連物質を対象としても良い。
 更に、上述した各構成、機能、コンピュータ等は、それらの一部又は全部を実現するプログラムを作成する例を中心に説明したが、それらの一部又は全部を例えば集積回路で設計する等によりハードウェアで実現しても良いことは言うまでもない。すなわち、処理部の全部または一部の機能は、プログラムに代え、例えば、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などの集積回路などにより実現してもよい。
 生体関連物質を計測するための核酸分析に利用可能である。
100 核酸分析装置
101、122 2次元センサ
102、121 結像レンズ
103 バンドパスフィルタ
104 励起フィルタ
105、120 ダイクロイックミラー
106 フィルタキューブ
107 光源
108 対物レンズ
109 フローセル
112、115 配管
113 試薬容器
114 試薬保管ユニット
116 廃液容器
117 ステージ
118 温調基板
119 コンピュータ
123 分析領域
124 検出視野
800 塩基コール部
801 位置合わせ部
802 コロニ抽出部
803 塩基予測部
804 学習部

Claims (15)

  1.  基板に配置された生体関連物質からの発光を検出した複数の画像を入力として塩基予測を行うための塩基予測部と、
     前記複数の画像の基準画像への位置合わせを行う位置合わせ部と、
     前記複数の画像から輝点の抽出を行う抽出部を備え、
     前記塩基予測部は、前記複数の画像内の、抽出された前記輝点の位置の周辺画素を含む画像を入力とし、該画像の特徴量を抽出し、該特徴量を元に塩基を予測する、
     ことを特徴とする核酸分析装置。
  2.  請求項1記載の核酸分析装置であって、
     前記複数の画像は、前記生体関連物質に取り込まれた複数種類の蛍光体からの複数種類の発光をセンサで検出したものであり、前記複数種類の発光のそれぞれは、検出するセンサおよび検出するセンサへの光路のうち少なくとも一つが異なる、
     ことを特徴とする核酸分析装置。
  3.  請求項1記載の核酸分析装置であって、
     前記塩基予測部は、教師有り学習可能な予測器で構成されている、
     ことを特徴とする核酸分析装置。
  4.  請求項1記載の核酸分析装置であって、
     前記塩基予測部は、予測を行うサイクルの画像に加え、前サイクルおよび後サイクルから選ばれた少なくとも一つのサイクルの画像を入力とする、
     ことを特徴とする核酸分析装置。
  5.  請求項1記載の核酸分析装置であって、
     前記塩基予測部を複数備え、前記複数の塩基予測部の予測結果に基づいて塩基を予測する、
     ことを特徴とする核酸分析装置。
  6.  塩基予測器に、生体関連物質からの発光を検出した複数の画像を入力として、塩基予測を行う核酸分析方法であって、コロニ位置決定ステージと塩基配列決定ステージを実行し、
     前記コロニ位置決定ステージは、
     前記複数の画像の位置合わせを行う位置合わせ処理と、
     前記複数の画像から輝点の抽出を行って前記生体関連物質のコロニ位置を決定するコロニ位置決定処理を実行し、
     前記塩基配列決定ステージは、
     前記塩基予測器に、前記複数の画像内の、抽出された前記コロニ位置の周辺画素を含む画像を入力し、該画像の特徴量を抽出し、該特徴量を元に塩基を予測する、
     ことを特徴とする核酸分析方法。
  7.  請求項6記載の核酸分析方法であって、
     前記複数の画像は、前記生体関連物質に取り込まれた複数種類の蛍光体からの複数種類の発光をセンサで検出したものであり、前記複数種類の発光のそれぞれは、検出するセンサおよび検出するセンサへの光路のうち少なくとも一つが異なる、
     ことを特徴とする核酸分析装置。
  8.  請求項6記載の核酸分析方法であって、
     前記塩基配列決定ステージは、
     前記塩基予測器に、前記複数の画像のうち、抽出された前記コロニ位置の周辺画素を含む画像として、時間的に異なるタイミングで撮影された複数の画像の組を入力する、
     ことを特徴とする核酸分析方法。
  9.  請求項6記載の核酸分析方法であって、
     前記コロニ位置決定処理は、時間的に異なるタイミングで撮影された前記複数の画像から輝点の抽出を行って前記生体関連物質の位置を決定する、
     ことを特徴とする核酸分析方法。
  10.  生体関連物質からの発光を検出した複数の画像を入力として塩基予測を行うための塩基予測器の機械学習方法であって、
     前記複数の画像から第一の塩基予測結果を生成する第一の塩基予測ステップと、
     該第一の塩基予測結果と参照配列とのアラインメント結果に基づき第一の訓練データを生成する、第一の訓練データ生成ステップと、
     該第一の訓練データ生成ステップにて生成された第一の訓練データを用いて前記塩基予測器のパラメータを更新する、予測器更新ステップと、
     前記予測器更新ステップにて更新した前記塩基予測器を用いて前記複数の画像から第二の塩基予測結果を生成する第二の塩基予測ステップと、
     前記第二の塩基予測結果と参照配列とのアラインメント結果に基づき第二の訓練データを生成する、第二の訓練データ生成ステップと、
     前記第二の訓練データを用いて前記第一の訓練データを更新する、訓練データ更新ステップと、
     を実行する機械学習方法。
  11.  請求項10の機械学習方法であって、
     前記塩基予測を行うサイクルの画像に加え、前サイクルおよび後サイクルから選ばれた少なくとも一つのサイクルの画像を入力とする、
     ことを特徴とする機械学習方法。
  12.  請求項10の機械学習方法であって、
     前記第一の訓練データ生成ステップおよび前記第二の訓練データ生成ステップのうち少なくとも一つにおいて、
     前記第一の訓練データおよび前記第二の訓練データの少なくとも一つに含まれる画像に対して画像処理を適用した画像を、前記第一の訓練データおよび前記第二の訓練データの少なくとも一つに追加する、
     ことを特徴とする機械学習方法。
  13.  請求項10の機械学習方法であって、
     前記第一の訓練データ生成ステップおよび前記第二の訓練データ生成ステップのうち少なくとも一つにおいて、
     前記第一の訓練データおよび前記第二の訓練データの少なくとも一つに含まれる画像に対して信号強度および尤度の少なくとも一つの情報を元に信頼度を判定し、前記信頼度に基づいて前記第一の訓練データおよび前記第二の訓練データの少なくとも一つに使用する画像を選択する、
     ことを特徴とする機械学習方法。
  14.  請求項10の機械学習方法であって、
     前記訓練データ更新ステップは、前記第二の訓練データのうち前記第一の訓練データに含まれていないものを、前記第一の訓練データに加える、
     ことを特徴とする機械学習方法。
  15.  請求項10の機械学習方法であって、
     前記訓練データ更新ステップで更新された前記第一の訓練データを用いて前記塩基予測器のパラメータを更新する、予測器再更新ステップを行う、
     ことを特徴とする機械学習方法。
PCT/JP2020/018902 2020-05-12 2020-05-12 核酸分析装置、核酸分析方法及び機械学習方法 WO2021229668A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2020/018902 WO2021229668A1 (ja) 2020-05-12 2020-05-12 核酸分析装置、核酸分析方法及び機械学習方法
JP2022522126A JP7510500B2 (ja) 2020-05-12 核酸分析装置及び核酸分析方法
EP20934894.5A EP4151709A4 (en) 2020-05-12 2020-05-12 NUCLEIC ACID ANALYSIS DEVICE, NUCLEIC ACID ANALYSIS METHOD, AND MACHINE LEARNING METHOD
US17/923,122 US20230178180A1 (en) 2020-05-12 2020-05-12 Nucleic acid analyzer, nucleic acid analysis method, and machine learning method
CN202080100282.6A CN115516075A (zh) 2020-05-12 2020-05-12 核酸分析装置、核酸分析方法以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/018902 WO2021229668A1 (ja) 2020-05-12 2020-05-12 核酸分析装置、核酸分析方法及び機械学習方法

Publications (1)

Publication Number Publication Date
WO2021229668A1 true WO2021229668A1 (ja) 2021-11-18

Family

ID=78525470

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/018902 WO2021229668A1 (ja) 2020-05-12 2020-05-12 核酸分析装置、核酸分析方法及び機械学習方法

Country Status (4)

Country Link
US (1) US20230178180A1 (ja)
EP (1) EP4151709A4 (ja)
CN (1) CN115516075A (ja)
WO (1) WO2021229668A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024000268A1 (zh) * 2022-06-29 2024-01-04 深圳华大生命科学研究院 一种图像处理方法、装置、设备及介质
WO2024124453A1 (zh) * 2022-12-14 2024-06-20 深圳市华大智造软件技术有限公司 碱基分类模型的训练方法、识别方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012065081A (ja) * 2010-09-15 2012-03-29 Hitachi Ltd 画像符号化方法、画像復号化方法、画像符号化装置及び画像復号化装置
WO2017203679A1 (ja) * 2016-05-27 2017-11-30 株式会社日立ハイテクノロジーズ 発光画像符号化装置、発光画像復号化装置、及び発光画像解析システム
JP2018180635A (ja) * 2017-04-04 2018-11-15 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
US20190213473A1 (en) * 2018-01-05 2019-07-11 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
US20190237160A1 (en) * 2018-01-26 2019-08-01 Quantum-Si Incorporated Machine learning enabled pulse and base calling for sequencing devices

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3084002A4 (en) * 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
EP3843032A4 (en) * 2018-08-22 2021-09-15 GeneMind Biosciences Company Limited METHOD AND DEVICE FOR IMAGE REGISTRATION AND COMPUTER PROGRAM PRODUCT

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012065081A (ja) * 2010-09-15 2012-03-29 Hitachi Ltd 画像符号化方法、画像復号化方法、画像符号化装置及び画像復号化装置
WO2017203679A1 (ja) * 2016-05-27 2017-11-30 株式会社日立ハイテクノロジーズ 発光画像符号化装置、発光画像復号化装置、及び発光画像解析システム
JP2018180635A (ja) * 2017-04-04 2018-11-15 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
US20190213473A1 (en) * 2018-01-05 2019-07-11 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
US20190237160A1 (en) * 2018-01-26 2019-08-01 Quantum-Si Incorporated Machine learning enabled pulse and base calling for sequencing devices

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4151709A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024000268A1 (zh) * 2022-06-29 2024-01-04 深圳华大生命科学研究院 一种图像处理方法、装置、设备及介质
WO2024124453A1 (zh) * 2022-12-14 2024-06-20 深圳市华大智造软件技术有限公司 碱基分类模型的训练方法、识别方法、系统、设备及介质

Also Published As

Publication number Publication date
EP4151709A1 (en) 2023-03-22
CN115516075A (zh) 2022-12-23
JPWO2021229668A1 (ja) 2021-11-18
US20230178180A1 (en) 2023-06-08
EP4151709A4 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
US20230207062A1 (en) Machine learning enabled pulse and base calling for sequencing devices
WO2021229668A1 (ja) 核酸分析装置、核酸分析方法及び機械学習方法
CN114868010A (zh) 用于多重荧光原位杂化图像的获取及处理的系统及方法
US11580641B1 (en) Deep learning based methods and systems for nucleic acid sequencing
US20210265015A1 (en) Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller
US20220067489A1 (en) Detecting and Filtering Clusters Based on Artificial Intelligence-Predicted Base Calls
JP2023515108A (ja) 人工知能ベースの多対多ベースコール
JP7510500B2 (ja) 核酸分析装置及び核酸分析方法
US20240013861A1 (en) Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning
US20220415445A1 (en) Self-learned base caller, trained using oligo sequences
US20230026084A1 (en) Self-learned base caller, trained using organism sequences
EP4381514A1 (en) Base calling using multiple base caller models
CN117392673B (zh) 碱基识别方法及装置、基因测序仪及介质
US20230316054A1 (en) Machine learning modeling of probe intensity
US20230029970A1 (en) Quality score calibration of basecalling systems
CN117546248A (zh) 使用多个碱基检出器模型的碱基检出
AU2022300970A1 (en) Self-learned base caller, trained using oligo sequences
EP4364152A1 (en) Efficient artificial intelligence-based base calling of index sequences
Milli Improving recall of In situ sequencing by self-learned features and classical image analysis techniques
CN117274739A (zh) 碱基识别方法及其训练集构建方法、基因测序仪及介质
CN117859086A (zh) 用于周期性图案化表面的测序仪聚焦质量度量和聚焦跟踪

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20934894

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022522126

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020934894

Country of ref document: EP

Effective date: 20221212